傳統(tǒng)的基因測序技術(shù)采用“混池”(bulk)測序,得到的是一群細(xì)胞中基因表達(dá)水平的平均值,掩蓋了細(xì)胞之間的異質(zhì)性,這對于理解生物細(xì)胞的多樣性存在明顯的局限性。單細(xì)胞轉(zhuǎn)錄組測序(single-cell RNA-seq)能夠獨立地提供每個細(xì)胞的基因表達(dá)圖譜,這樣就可以揭示各個細(xì)胞間的微小差異,找到單個細(xì)胞的獨特性,對于我們理解細(xì)胞的起源、功能、發(fā)育等有著至關(guān)重要的作用。
然而,在單細(xì)胞層次上,轉(zhuǎn)錄組的隨機波動會遠(yuǎn)遠(yuǎn)大于細(xì)胞群體的平均行為,由于每個細(xì)胞的mRNA拷貝起始量較低以及測序技術(shù)原因,單細(xì)胞轉(zhuǎn)錄組測序數(shù)據(jù)通常存在drop-out現(xiàn)象,即很多表達(dá)的mRNA沒有被捕捉到,導(dǎo)致檢測出來的基因表達(dá)量為零或者接近零。因此,如何從高度稀疏的單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù)中精確地恢復(fù)這些缺失的信號,從而促進(jìn)下游生物信息挖掘,是單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù)分析面臨的重要挑戰(zhàn)。
低秩矩陣填補技術(shù)在推薦系統(tǒng)中應(yīng)用廣泛,比如著名的Netflix 問題。Netflix公司的電影網(wǎng)站上有非常多的用戶,由于大多數(shù)用戶只評價了部分電影,Nextflix公司希望從已有的評價數(shù)據(jù)中推測出用戶可能喜歡的其他電影。用戶的喜愛程度受有限種因素的影響,那么“用戶-影片”的評分矩陣是低秩的,故低秩矩陣填補技術(shù)被認(rèn)為是解決該問題的有效方法。類似地,在單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù)中,由于細(xì)胞種群和共表達(dá)基因的存在,數(shù)據(jù)矩陣也趨向于低秩矩陣,那么低秩填補策略可能適用于單細(xì)胞數(shù)據(jù)的填補問題。
單細(xì)胞數(shù)據(jù)的一大特點是存在很大的異質(zhì)性,課題組成員敏銳地洞察到這一數(shù)據(jù)特征對于單細(xì)胞數(shù)據(jù)填補的重要性,決定從細(xì)胞子群的角度來解決單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù)的drop-out問題。這個想法也可以從電影推薦系統(tǒng)的角度來理解:我們可以把每個基因看成一個電影,每個用戶看成一個細(xì)胞,不同年齡段的用戶對各類電影的喜好程度是不同的。類似地,同一類細(xì)胞的基因表達(dá)譜有較高的相似度,不同類細(xì)胞的基因表達(dá)譜有一定的差異。因此,從單細(xì)胞數(shù)據(jù)中識別包含相似細(xì)胞的子群,基于細(xì)胞子群中基因表達(dá)的相似性能夠有效地填補缺失值。這一思路也與數(shù)學(xué)上的基于分塊低秩矩陣填補數(shù)據(jù)具有較高精確性的結(jié)論是一致的【3】。另一方面,某個電影的口碑越好,評分越高,看的人越多,那么對于它的評分越多,缺失值就越少。反之,評分低的那些電影,看的人可能相對較少,評分缺失值也就越多。因此,某個電影的評分缺失值在某種程度上與該電影的評分高低有關(guān)系。基于此考慮,張世華課題組大膽推測單細(xì)胞數(shù)據(jù)中的drop-out應(yīng)該也和基因的先驗表達(dá)有密切關(guān)系。此前研究確實也表明表達(dá)水平低的基因更傾向于有較大的數(shù)據(jù)缺失率,而且不同的細(xì)胞類型的缺失率不同【4】。因此,利用這個先驗關(guān)系能夠幫助估計出缺失的表達(dá)水平的范圍。PBLR就是基于細(xì)胞子群的有界低秩填補模型,綜合考慮了單細(xì)胞數(shù)據(jù)的這幾個特點(圖1)。
通過PBLR填補后的數(shù)據(jù)可以很好地用于下游生物信息挖掘。作者采用PBLR分析了8組模擬數(shù)據(jù)和9組真實數(shù)據(jù),結(jié)果顯示,與主流的6種單細(xì)胞數(shù)據(jù)填補方法相比, PBLR能夠更為精確地恢復(fù)缺失的數(shù)據(jù),能有效提升數(shù)據(jù)低維可視化、提取基因間關(guān)系等下游分析能力(圖2和圖3)。
小結(jié):總結(jié)而言,張世華課題組巧妙地類比推薦系統(tǒng)中著名的Netflix問題,充分利用單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù)的分布特點,創(chuàng)新性地提出基于細(xì)胞子群和基因表達(dá)缺失先驗信息的單細(xì)胞轉(zhuǎn)錄組測序數(shù)據(jù)填補的方法,有效地解決了數(shù)據(jù)缺失及稀疏的問題、提升了單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù)分析的精確性。該方法對于深入挖掘單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù)所蘊含的生物醫(yī)學(xué)知識具有重要意義。
張世華,中國科學(xué)院數(shù)學(xué)與系統(tǒng)科學(xué)研究院研究員、中國科學(xué)院隨機復(fù)雜結(jié)構(gòu)與數(shù)據(jù)科學(xué)重點實驗室副主任、中國科學(xué)院大學(xué)崗位教授。主要從事生物信息學(xué)與機器學(xué)習(xí)交叉研究,主要成果發(fā)表在Advanced Science、National Science Review、Nature Communications、Nucleic Acids Research、Bioinformatics、IEEE TPAIM、IEEE TKDE、IEEE TNNLS、IEEE TFS、AoAS等雜志。目前擔(dān)任BMC Genomics等雜志編委。曾榮獲中國青年科技獎、國家自然科學(xué)基金優(yōu)秀青年基金、國家萬人計劃青年拔尖人才、全國百篇優(yōu)秀博士論文獎、中國科學(xué)院盧嘉錫青年人才獎等。
張麗華博士為該論文的第一作者。她于2018年7月博士畢業(yè)于中國科學(xué)院數(shù)學(xué)與系統(tǒng)科學(xué)研究院,現(xiàn)在在加州大學(xué)爾灣分校數(shù)學(xué)系開展博士后研究。主要研究興趣為生物組學(xué)大數(shù)據(jù)的數(shù)學(xué)建模、算法及應(yīng)用研究,主要論文發(fā)表于Genome Biology、Nucleic Acids Research、Science Advance等。