巴氏吸管由醫(yī)用級聚乙烯(PE)制成,管體
Nature:人類基因究竟多少個(gè)?近20年學(xué)界“大爭議”帶來新結(jié)論|
導(dǎo)讀 | 早在2000年,人類基因組序列草圖還在制作中時(shí),遺傳學(xué)家們就開始對人類基因數(shù)目進(jìn)行估算。近20年后,擁有真實(shí)數(shù)據(jù)的他們?nèi)匀粺o法就這一數(shù)量達(dá)成一致,這一知識差距阻礙了他們在發(fā)現(xiàn)與突變相關(guān)疾病上的努力。直至近,科學(xué)家們又發(fā)布了新數(shù)據(jù):他們認(rèn)為人類共有超過2.1萬個(gè)蛋白質(zhì)編碼基因。 |
gnosticwarrior
新結(jié)果使用了數(shù)百份人體組織樣本的數(shù)據(jù),并于5月29日發(fā)布在BioRxiv預(yù)印本服務(wù)器上。它包含了近5000個(gè)以前未被發(fā)現(xiàn)的基因,其中近1200個(gè)攜帶了制造蛋白質(zhì)的指令(carry instructions for making proteins)??偟膩碚f,與先前估計(jì)的約2萬個(gè)蛋白質(zhì)編碼基因數(shù)目相比,本次統(tǒng)計(jì)有所上升,總數(shù)為超過2.1萬個(gè)。
DOI
然而,許多遺傳學(xué)家并不確信,所有新提出的基因都將經(jīng)得起嚴(yán)密的審查。他們的批評也凸顯了識別并定義新基因的難度之大。
領(lǐng)導(dǎo)本次基因數(shù)目統(tǒng)計(jì)的生物學(xué)家Steven Salzberg說:“人們在這方面已經(jīng)努力了20年,但我們?nèi)匀粵]有答案。”
終答案?
2000年,隨著基因組學(xué)界對人類基因數(shù)量的爭論, Ewan Birney(目前為英國Hinxton歐洲生物信息學(xué)研究所[EBI]所長)發(fā)起了基因競賽。他在每年一度的遺傳學(xué)會議上于一個(gè)酒吧里進(jìn)行了次tou注,這次比賽終吸引了1000多名參賽者和3000美元的獎(jiǎng)金。對基因數(shù)量的押注從超過312,000個(gè)到略低于26,000個(gè)不等,平均約為40,000個(gè)。之后,估計(jì)的范圍在縮小,大致范圍在19000到22000之間,但仍然存在分歧。
Source: M. Pertea & S. L. Salzberg
基因計(jì)數(shù)可以根據(jù)被分析的數(shù)據(jù)、使用的工具和剔除假陽性的標(biāo)準(zhǔn)而變化。新的統(tǒng)計(jì)使用了更大的數(shù)據(jù)集和不同于先前的計(jì)算方法,以及更廣泛的基因定義標(biāo)準(zhǔn)。
Salzberg的研究小組使用了來自基因型組織表達(dá)( GTEx )項(xiàng)目的數(shù)據(jù),該項(xiàng)目對數(shù)百具人體的30多個(gè)不同組織的RNA進(jìn)行了測序(RNA是DNA和蛋白質(zhì)之間的中介)。為了鑒定編碼蛋白質(zhì)的基因和那些在細(xì)胞中不編碼但仍起重要作用的基因,他們組裝了GTEx的9000億個(gè)微小RNA片段,并將其與人類基因組對齊。
然而,僅僅因?yàn)橐欢蜠NA表達(dá)為RNA,并不一定意味著它就是一個(gè)基因。所以這個(gè)小組試圖用各種標(biāo)準(zhǔn)濾除噪音。例如,他們將研究結(jié)果與其他物種的基因組進(jìn)行了比較,認(rèn)為遠(yuǎn)親生物共享的序列很可能由于進(jìn)化而得以保留(因?yàn)樗鼈兙哂泄δ苄裕?,而且很可能是基因?/p>
終,研究小組留下了21,306個(gè)蛋白質(zhì)編碼基因和21,856個(gè)非編碼基因,遠(yuǎn)遠(yuǎn)超過兩個(gè)廣泛使用的人類基因數(shù)據(jù)庫(由EBI維護(hù)的GENCODE基因組包括19,901個(gè)蛋白質(zhì)編碼基因和15,779個(gè)非編碼基因以及由美國國家生物技術(shù)信息中心管理的數(shù)據(jù)庫RefSeq列出的20,203個(gè)蛋白質(zhì)編碼基因和17,871個(gè)非編碼基因)。
前RefSeq負(fù)責(zé)人Kim Pruitt認(rèn)為,造成這種差異的原因一部分是由于Salzberg團(tuán)隊(duì)分析的大數(shù)據(jù)量;另外一個(gè)主要的區(qū)別是,GENCODE和RefSeq都依賴人工處理——人為查看每個(gè)基因的證據(jù)并做出終決定,而Salzberg的小組則*依靠計(jì)算機(jī)程序來篩選數(shù)據(jù)。
“如果人們喜歡我們的基因列表,那么也許幾年后我們將成為人類基因的仲裁者。” Salzberg說。
Illustrated by Jeremy Dimmock. via Pacific Standard
何為基因的定義標(biāo)準(zhǔn)?
需要指出的是,許多科學(xué)家仍堅(jiān)稱,他們需要更多的證據(jù)才能確信這份清單的準(zhǔn)確性。協(xié)調(diào)GENCODE人工注釋的EBI計(jì)算生物學(xué)家Adam Frankish說,他和他的團(tuán)隊(duì)已經(jīng)掃描了Salzberg團(tuán)隊(duì)鑒定的大約100個(gè)蛋白質(zhì)編碼基因。據(jù)他們評估,其中只有一個(gè)似乎是真正的蛋白質(zhì)編碼基因。
Pruitt的團(tuán)隊(duì)成員研究了Salzberg小組的十幾個(gè)新的蛋白質(zhì)編碼基因,但沒有發(fā)現(xiàn)任何符合RefSeq標(biāo)準(zhǔn)的基因。有些與基因組中似乎屬于侵入我們祖先基因組的逆轉(zhuǎn)錄病毒的區(qū)域重疊;另一些屬于其他重復(fù)性延伸(repetitive stretches),很少被翻譯成蛋白質(zhì)。
但是Salzberg認(rèn)為一些重復(fù)序列可以被認(rèn)為是基因。ERV3–1就是一個(gè)例子,它出現(xiàn)在RefSeq中,并編碼在結(jié)直腸癌中過表達(dá)的蛋白質(zhì)。同時(shí)Salzberg也承認(rèn),他團(tuán)隊(duì)名單上的新基因?qū)⑿枰麄冏约汉推渌说尿?yàn)證。”
令人困惑的是基因定義的變化和不。生物學(xué)家過去認(rèn)為基因是編碼蛋白質(zhì)的序列,但后來發(fā)現(xiàn)一些非編碼RNA分子在細(xì)胞中有重要作用。這一基因判定的標(biāo)準(zhǔn)爭議也解釋了Salzberg計(jì)數(shù)和其他計(jì)數(shù)之間的一些差異。
重要意義
準(zhǔn)確統(tǒng)計(jì)所有人類基因?qū)τ诮沂净蚺c疾病之間的非常重要。Salzberg指出,不計(jì)其數(shù)的基因經(jīng)常被忽視,即使它們含有致病突變。但是倉促地將基因添加到主列表中也會帶來風(fēng)險(xiǎn)。一個(gè)錯(cuò)誤的基因?qū)D(zhuǎn)移遺傳學(xué)家對真正問題的注意力。
Pruitt補(bǔ)充道:“生物學(xué)是復(fù)雜的。數(shù)據(jù)庫與庫之間的基因數(shù)量不一致對研究人員來說仍然是個(gè)問題,人們還在尋求一個(gè)終的答案。”
New human gene tally reignites debate