提到DeepMind公司,我們首先想到的可能是幾年前,它開發(fā)的人工智能AlphaGo“橫掃”頂尖人類圍棋職業(yè)選手,變革了圍棋的思考方式。除了在棋類比賽中所向披靡以外,DeepMind也在加速科學發(fā)現(xiàn)上邁出了重要一步。今日,DeepMind宣布,其新一代AlphaFold人工智能系統(tǒng),在國際蛋白質(zhì)結(jié)構(gòu)預測競賽(CASP)上擊敗了其余的參會選手,能夠精確地基于氨基酸序列,預測蛋白質(zhì)的3D結(jié)構(gòu)。其準確性可以與使用冷凍電子顯微鏡(CryoEM)、核磁共振或 X 射線晶體學等實驗技術(shù)解析的3D結(jié)構(gòu)相媲美。這一突破被多家媒體稱為“變革生物科學和生物醫(yī)學”的突破。前基因泰克(Genentech)首席執(zhí)行官Arthur D. Levinson博士稱這一成就為“劃時代的進步”(once in a generation advance)。
圖片來源:DeepMind Blog
生物學50年來的重大挑戰(zhàn)
我們都知道,蛋白質(zhì)對生命來說是不可或缺的,它們支持生物體的幾乎所有功能。這些復雜的大分子由氨基酸鏈構(gòu)成,而蛋白質(zhì)的功能很大程度上決定于它的3D結(jié)構(gòu)。生物醫(yī)學領(lǐng)域的眾多挑戰(zhàn),包括開發(fā)治療疾病的創(chuàng)新療法,依賴于對蛋白質(zhì)結(jié)構(gòu)和功能的理解。
在過去的五十年中,科學家們已經(jīng)能夠利用冷凍電子顯微鏡、核磁共振或 X 射線晶體學等實驗手段在實驗室中確定蛋白質(zhì)的形狀,但每種方法都依賴于大量的試錯,耗時耗力,可能需要花上好幾年時間。1972年,諾貝爾化學獎得主Christian Anfinsen博士表示,理論上,蛋白質(zhì)的氨基酸序列應該能夠完全決定它的3D結(jié)構(gòu)。這一假說激發(fā)了50年來基于氨基酸序列,通過計算方法預測蛋白質(zhì)3D結(jié)構(gòu)的探索。
然而,這一領(lǐng)域面臨的重大挑戰(zhàn)是理論上,氨基酸鏈可能形成的蛋白質(zhì)構(gòu)象的數(shù)目是個非常龐大的天文數(shù)字。有學者估計,一個典型的蛋白質(zhì)理論上可以形成10的300次方(1后面加300個0)個可能構(gòu)象。然而在自然界,蛋白質(zhì)能夠自發(fā)地在幾毫秒內(nèi),迅速折疊成其中一個構(gòu)象。用什么樣的計算方法,才能從10的300次方的可能構(gòu)象中找到那個正確的構(gòu)象?
AlphaFold:生物界的“AlphaGo”
DeepMind的研究人員把折疊好的蛋白質(zhì)設(shè)想成一幅具有3D結(jié)構(gòu)的“空間圖畫”(spatial graph),而氨基酸則是這副“空間圖畫”中節(jié)點和線條?;谏窠?jīng)網(wǎng)絡(luò)系統(tǒng),他們設(shè)計了AlphaFold系統(tǒng)來解析這一空間圖畫的結(jié)構(gòu)。它使用了進化相關(guān)的氨基酸序列,多序列對比(multiple sequence alignment, MSA)以及對氨基酸對(amino acid pairs)的評估來優(yōu)化“空間圖畫“的描繪。
▲AlphaFold的神經(jīng)網(wǎng)絡(luò)模型構(gòu)架(圖片來源:DeepMind Blog)
研究人員使用蛋白質(zhì)數(shù)據(jù)庫中接近17萬個不同的蛋白質(zhì)結(jié)構(gòu),以及包含未知結(jié)構(gòu)的蛋白序列數(shù)據(jù)庫對AlphaFold進行訓練。通過不斷地迭代,AlphaFold系統(tǒng)學習到了基于氨基酸序列,精確預測蛋白結(jié)構(gòu)的能力。
與實驗結(jié)果相差無幾的蛋白質(zhì)結(jié)構(gòu)預測
國際蛋白質(zhì)結(jié)構(gòu)預測競賽(CASP)是由馬里蘭大學的John Moult教授和加州大學戴維斯分校的Krzysztof Fidelis教授聯(lián)合創(chuàng)建的國際性比賽,旨在評估、促進和確認最佳的蛋白質(zhì)結(jié)構(gòu)預測手段。CASP選擇已經(jīng)通過實驗手段解析,但是尚未公布的蛋白質(zhì)結(jié)構(gòu)作為目標,讓世界各地的研究團隊運用自己的計算手段預測它們的結(jié)構(gòu)。一個獨立的團隊會評估預測結(jié)構(gòu)與通過實驗手段解析的蛋白結(jié)構(gòu)之間的差異。
2018年,DeepMind開發(fā)的第一代AlphaFold首次參加CASP并且拔得頭籌。而今年,新一代的AlphaFold在CASP中的表現(xiàn)更為驚艷。CASP使用稱為GDT的評分系統(tǒng)來評估預測蛋白結(jié)構(gòu)的精確性。這個評分從0到100,如果評分達到90分以上,可以認為預測的結(jié)構(gòu)與實驗手段獲得的結(jié)構(gòu)相當。
▲2006-2020年CASP比賽中最佳蛋白折疊預測系統(tǒng)的評分表現(xiàn)(圖片來源:DeepMind Blog)
在今年的CASP中,AlphaFold系統(tǒng)對所有蛋白靶點3D結(jié)構(gòu)預測的中位GDT評分為92.4分。即便是針對最難解析的蛋白靶點,AlphaFold的中位GDT評分也達到了87.0分。在接受檢驗的近100個蛋白靶點中,AlphaFold對三分之二的蛋白靶點給出的預測結(jié)構(gòu)與實驗手段獲得的結(jié)構(gòu)相差無幾。CASP創(chuàng)始人Moult教授表示,在有些情況下,已經(jīng)無法區(qū)分兩者之間的區(qū)別是由于AlphaFold的預測出現(xiàn)錯誤,還是實驗手段產(chǎn)生的假象。
▲AlphaFold根據(jù)氨基酸序列預測的蛋白結(jié)構(gòu)與實驗手段解析的結(jié)果幾乎完全重合(綠色,實驗結(jié)果;藍色,計算預測結(jié)果;圖片來源:DeepMind Blog)
對真實世界的影響
在今年早些時候,DeepMind已經(jīng)利用這一系統(tǒng)預測了多種新冠病毒蛋白的結(jié)構(gòu)。后續(xù)的實驗顯示,AlphaFold預測的新冠病毒Orf3a蛋白結(jié)構(gòu)與冷凍電鏡解析的結(jié)構(gòu)非常相似。
雖然,AlphaFold不見得會取代冷凍電子顯微鏡等其它實驗手段,但是DeepMind的研究人員表示,這一令人興奮的結(jié)果表明,生物學家們可以使用計算結(jié)構(gòu)預測作為科學研究的核心工具之一。這一手段對于特定類型的蛋白來說可能尤為便利,例如膜蛋白一直非常難于結(jié)晶,因此很難用實驗手段獲得它們的結(jié)構(gòu)。
而對于從事計算和機器學習研究的DeepMind團隊來說,AlphaFold的表現(xiàn)證明了AI在輔助基礎(chǔ)科學發(fā)現(xiàn)方面驚人的潛力。該團隊在公司發(fā)布的博文中表示,他們相信,AI將成為人類拓展科學知識前沿最有力的工具之一!
參考資料:
[1] AlphaFold: a solution to a 50-year-old grand challenge in biology. Retrieved November 30, 2020, from https://deepmind.com/blog/article/alphafold-a-solution-to-a-50-year-old-grand-challenge-in-biology
[2] ‘It will change everything’: DeepMind’s AI makes gigantic leap in solving protein structures. Retrieved November 30, 2020, from https://www.nature.com/articles/d41586-020-03348-4
[3] CRITICAL ASSESSMENT OF TECHNIQUES FOR PROTEIN STRUCTURE PREDICTION. Retrieved November 30, 2020, from https://predictioncenter.org/casp14/doc/CASP14_Abstracts.pdf
Copyright ? 2004-2025 健康一線-健康視頻網(wǎng)(vodjk.com)All rights reserved.