今日,頂尖學(xué)術(shù)期刊《自然》的最新一期如約上線,登上封面的主題是“基因組聚集數(shù)據(jù)庫(kù)(gnomAD)”。這份由多國(guó)研究者聯(lián)合發(fā)展起來(lái)的公開(kāi)目錄,是迄今為止最大規(guī)模的人體遺傳變異體數(shù)據(jù)庫(kù),匯集了超過(guò)14萬(wàn)人的基因組測(cè)序或外顯子組測(cè)序數(shù)據(jù)。
在本期《自然》雜志上,一共發(fā)表了4篇相關(guān)論文。此外,在Nature Medicine、Nature Communications等子刊上也有同系列的論文。在今天的這篇文章中,學(xué)術(shù)經(jīng)緯團(tuán)隊(duì)將和讀者朋友們一起來(lái)了解堪稱人類遺傳學(xué)研究里程碑的gnomAD數(shù)據(jù)庫(kù)。
基因測(cè)序技術(shù)的出現(xiàn)讓我們可以讀出一個(gè)人所有的遺傳信息——人類基因組。不過(guò),相比測(cè)出基因序列,更大的挑戰(zhàn)是了解這些基因的生理功能。對(duì)于人類基因組中大多數(shù)基因的功能,我們依然知之甚少。
揭示基因功能的一種方法是觀察基因突變后的結(jié)果。這些基因變異體,常常會(huì)讓其編碼產(chǎn)生的蛋白質(zhì)失活,因此被稱為功能喪失型(loss-of-function, LoF)變異體。但這類變異體在人群中較為罕見(jiàn),這意味著,想要發(fā)現(xiàn)變異體,評(píng)估考察每一種變異體帶來(lái)的結(jié)果,就需要非常大的基因組樣本量。這也正是大規(guī)模數(shù)據(jù)庫(kù)的意義所在。
基因組聚集數(shù)據(jù)庫(kù)(gnomAD)項(xiàng)目,通過(guò)各種大型人群測(cè)序項(xiàng)目匯集數(shù)據(jù),來(lái)鑒定各種功能喪失型變異體。
gnomAD項(xiàng)目之前,科學(xué)家們?cè)?016年公開(kāi)了外顯子組聚集聯(lián)盟(ExAC),收錄有6萬(wàn)多個(gè)外顯子組數(shù)據(jù),主要是基因組中與蛋白質(zhì)合成直接相關(guān)的DNA片段(外顯子)。根據(jù)《自然》的一篇概述性文章的介紹,新的gnomAD不僅匯集了125748個(gè)全外顯子組序列,還包含了15708個(gè)全基因組測(cè)序數(shù)據(jù),規(guī)模和范圍都有增加,因此可以系統(tǒng)性地記錄更多樣、更復(fù)雜的基因變異體,并了解蛋白質(zhì)編碼序列以外的變異。
▲相比ExAC,gnomAD的規(guī)模和范圍更大,可以解讀的基因變異體也更豐富(圖片來(lái)源:參考資料[5])
研究團(tuán)隊(duì)從中總共篩選出了443769個(gè)預(yù)測(cè)的功能喪失型(predicted LoF, pLoF)變異體,預(yù)測(cè)這些變異體會(huì)影響其編碼蛋白的正常運(yùn)作。研究人員進(jìn)而對(duì)這些變異體進(jìn)行了分類,從對(duì)生理機(jī)能幾乎沒(méi)影響到導(dǎo)致嚴(yán)重的健康問(wèn)題,以便更好地發(fā)現(xiàn)造成常見(jiàn)遺傳病和罕見(jiàn)遺傳病的基因。
第二篇文章里,研究人員們側(cè)重于對(duì)一類特別的罕見(jiàn)基因變異體進(jìn)行臨床解讀。為何有些基因理應(yīng)無(wú)法容忍某些pLoF變異,但它們卻能夠攜帶這些變異,而看似幾乎沒(méi)有影響?研究人員們指出,有些基因在轉(zhuǎn)錄表達(dá)時(shí),由于RNA剪接方式的差異,同一個(gè)基因會(huì)形成不同的轉(zhuǎn)錄本亞型(isoform),而某些外顯子的表達(dá)水平會(huì)非常有限。如果一個(gè)人的體內(nèi)的關(guān)鍵基因里帶有某個(gè)pLoF變異,這個(gè)變異更有可能出現(xiàn)在某個(gè)表達(dá)受限的外顯子中,因此將影響最小化。
但另一些轉(zhuǎn)錄本亞型會(huì)導(dǎo)致特定疾病的出現(xiàn)。譬如,一種編碼鈣通道的基因突變,會(huì)導(dǎo)致一種叫Timothy綜合征的罕見(jiàn)病。突變基因的不同轉(zhuǎn)錄本亞型表達(dá)在不同組織里,因而患者出現(xiàn)多系統(tǒng)障礙。
為此,研究人員開(kāi)發(fā)了一種新的指標(biāo)來(lái)量化基因變異體的轉(zhuǎn)錄表達(dá),由此建立的數(shù)據(jù)集,可以有助于罕見(jiàn)病的遺傳診斷、分析多系統(tǒng)疾病中的罕見(jiàn)變異體負(fù)擔(dān)。
同系列的第三篇論文探討了如何利用人類功能喪失型變異體數(shù)據(jù)庫(kù)識(shí)別候選藥物靶點(diǎn)。研究人員報(bào)告了幾個(gè)關(guān)鍵發(fā)現(xiàn):首先,那些不能容忍有功能喪失型變異體的基因(也就是必需基因),依然可以作為可行的成功靶點(diǎn)。去設(shè)計(jì)抑制劑的開(kāi)發(fā)。具體來(lái)看,當(dāng)發(fā)現(xiàn)某些個(gè)體在特定基因上攜帶了兩個(gè)pLoF變異體時(shí),這個(gè)基因可能會(huì)是一個(gè)好的藥物靶點(diǎn)。;其次,大部分基因中功能喪失型變異體十分罕見(jiàn),研究人表明在推斷這類變異體時(shí)會(huì)有很多誤判,因此要收集到確切證據(jù),需要比gnomAD樣本量大1000倍的隊(duì)列來(lái)進(jìn)行驗(yàn)證;第三,我們雖然可以對(duì)變異體進(jìn)行自動(dòng)的標(biāo)注,但為了去除人為引入的誤差,我們依舊需要人工對(duì)其進(jìn)行檢查。
《自然》同時(shí)發(fā)表的第四篇論文中,研究人員們分析了gnomAD數(shù)據(jù)庫(kù)中的近1.5萬(wàn)個(gè)全基因組測(cè)序數(shù)據(jù),創(chuàng)建了一個(gè)結(jié)構(gòu)變異資源庫(kù)。
結(jié)構(gòu)變異(SV)指的是染色體上有大片段DNA發(fā)生了重新排列,有缺失、重復(fù)、插入、易位甚至是顛倒方向等多種類型。這類變異是很多遺傳病和癌癥的重要誘因。研究人員指出,這個(gè)包含43.3萬(wàn)種SV的豐富資源庫(kù),“在人群遺傳學(xué),疾病關(guān)聯(lián)研究和診斷篩查中具有廣泛的用途”。
《自然》同期的一篇評(píng)論文章指出,這一大規(guī)模的基因組測(cè)序和分析工作產(chǎn)生了迄今為止最全面的數(shù)據(jù)和工具來(lái)了解人類的遺傳變異。gnomeAD已經(jīng)將這些數(shù)據(jù)和工具公開(kāi)。這份寶貴的遺傳資源,將改變我們解讀個(gè)體基因組的方式,為我們理解人類的生物學(xué)特征和疾病,評(píng)估罕見(jiàn)和常見(jiàn)遺傳病,提供重要信息。
參考資料:
[1] Konrad J. Karczewski et al., (2020) The mutational constraint spectrum quantified from variation in 141,456 humans. Nature. https://doi.org/10.1038/s41586-020-2308-7
[2] Transcript expression-aware annotation improves rare variant interpretation. Nature. https://doi.org/10.1038/s41586-020-2329-2
[3] Evaluating drug targets through human loss-of-function genetic variation. Nature. https://doi.org/10.1038/s41586-020-2267-z
[4] A structural variation reference for medical and population genetics. Nature. https://doi.org/10.1038/s41586-020-2287-8
[5] Thousands of human sequences provide deep insight into single genomes. Retrieved May 28, 2020, from https://www.nature.com/articles/d41586-020-01485-4
(原標(biāo)題:重要里程碑!今日《自然》發(fā)布迄今最大規(guī)模人類遺傳變異體數(shù)據(jù)庫(kù))
Copyright ? 2004-2025 健康一線-健康視頻網(wǎng)(vodjk.com)All rights reserved.