RNA測序,真的有那么準(zhǔn)確嗎?
RNA測序的準(zhǔn)確性
早在2014年,《Nature Biotechnology》上發(fā)表了三篇文章。它們屬于RNA測序質(zhì)量控制(SEQC)項目的一部分,旨在評估新一代測序平臺的性能以及RNA分析的和局限。研究人員測試了三個常用RNA測序平臺的可靠性、準(zhǔn)確性和信息內(nèi)容,希望確定平臺的使用范圍并尋找變化的來源。
在整個研究過程中,三個研究機(jī)構(gòu)都產(chǎn)生了超過10億個核苷酸的數(shù)據(jù)。他們還研究了30個不同的RNA測序?qū)嶒炇宜褂玫募夹g(shù)以及數(shù)百名研究人員使用的生化方法??偟膩碚f,他們認(rèn)為RNA的提取和分析可以跨機(jī)構(gòu)圓滿完成,即使樣本已嚴(yán)重降解,但是遺傳數(shù)據(jù)仍然可靠。
這些結(jié)果讓研究機(jī)構(gòu)以及醫(yī)生患者放心,RNA測序是準(zhǔn)確且可靠的。一項研究的負(fù)責(zé)人、梅奧診所的E. Aubrey Thompson評論道:“患者的護(hù)理決策似乎受到基因組數(shù)據(jù)的影響,而這些數(shù)據(jù)來源于患者樣本的RNA和DNA測序。如今我們知道了這些分析可在多大程度上依賴某個實驗室。”
生物實驗的重復(fù)性危機(jī)
如今,我們正處于所謂的重復(fù)性危機(jī)中,越來越多的研究變得難以重復(fù),甚至不可能重復(fù)。據(jù)估計,單單就美國而言,每年花在無法重復(fù)的生物研究上的費用高達(dá)280億美元。除了經(jīng)濟(jì)成本之外,不可重復(fù)的研究還造成藥物開發(fā)的延誤,阻礙疾病療法的開發(fā)。
在設(shè)計實驗和決定使用哪種技術(shù)時,重復(fù)性仍然是人們主要考慮的因素??煽康姆椒ㄍǔJ窃S多人的-選,比如RNA測序。然而,以色列特拉維夫大學(xué)的研究人員開展的薈萃分析表明,RNA測序的數(shù)據(jù)分析過程中存在技術(shù)偏倚,可能造成數(shù)據(jù)的錯誤解釋和大量錯誤結(jié)果1。
RNA測序無法重復(fù)?
在分析了35個公開的RNA測序數(shù)據(jù)集之后,研究人員注意到某些基因反復(fù)呈現(xiàn)基因表達(dá)的變化。這些數(shù)據(jù)來自近年發(fā)表的人類和小鼠研究,覆蓋了多個生物過程。他們對此感到困惑,想了解這一現(xiàn)象背后究竟是真實的生物學(xué)現(xiàn)象,還是實驗過程引入的人為誤差。
在其中30個數(shù)據(jù)集中,研究人員發(fā)現(xiàn)特別長或特別短的基因往往表現(xiàn)出zui明顯的基因表達(dá)水平變化。大多數(shù)短基因編碼了組成核糖體的蛋白質(zhì),而許多長基因則編碼了與細(xì)胞外基質(zhì)有關(guān)的蛋白質(zhì)。
經(jīng)過進(jìn)一步的研究,他們發(fā)現(xiàn)這種現(xiàn)象源于實驗的人為因素,而不是天然的生物反應(yīng)。在比較相同條件下的重復(fù)樣本后,他們發(fā)現(xiàn)這種模式是由于技術(shù)偏倚,似乎與基因的長度有關(guān)。此外,若統(tǒng)計分析中存在缺陷,人們往往將檢測到的偏倚錯誤地標(biāo)為細(xì)胞反應(yīng),特別是與核糖體或細(xì)胞外基質(zhì)有關(guān)的反應(yīng)。在許多常用的數(shù)據(jù)歸一化方法中,這種偏倚并未得到校正,因此可能已包含在許多數(shù)據(jù)集中。
這種效應(yīng)被稱為樣本特異性長度效應(yīng)(sample-specific length effect),之前已在文獻(xiàn)中提到過。許多研究人員已經(jīng)意識到這一問題,但沒有積地解決它。在此次分析的數(shù)據(jù)集中,未經(jīng)校正的數(shù)據(jù)比例仍然很高。
不要低估統(tǒng)計分析的重要性
盡管乍一看讓人擔(dān)憂,但結(jié)果似乎也不是那么嚴(yán)重。在文中,研究人員還介紹了如何克服和消除這種偏倚,從而過濾掉錯誤的結(jié)果,保持生物學(xué)上的相關(guān)性。將基因長度視為樣本特異性的協(xié)變量,可以明顯減少假陽性結(jié)果的數(shù)量。
目前還不清楚哪些因素能夠淡化樣本特異性的長度效應(yīng),可能還需要進(jìn)一步研究。作者建議研究人員在自己的研究中注意這種偏倚,并將建議的數(shù)據(jù)歸一化方法作為默認(rèn)步驟,應(yīng)用在RNA-seq數(shù)據(jù)分析的標(biāo)準(zhǔn)實踐中。
美國北卡羅來納大學(xué)教堂山分校的生物統(tǒng)計學(xué)家Michael Love表示:“這篇文章很好地證明了質(zhì)量控制的重要性。”他指出,還有一些偏倚也會影響RNA測序數(shù)據(jù)的質(zhì)量,比如GC含量偏倚,各個研究團(tuán)隊在分析過程中應(yīng)始終考慮這些因素。他本人并未參與此項研究。
這項研究強(qiáng)調(diào)稱,所有技術(shù)都不是可靠的,因為偏倚的可能性始終存在。隨著各個研究領(lǐng)域的重復(fù)性危機(jī)fu出-水面并獲得關(guān)注,這項工作強(qiáng)化了準(zhǔn)確開展統(tǒng)計分析的必要性


