top of page

加倍探索已知蛋白質家族的研究

  • 作家相片: Unop
    Unop
  • 2023年10月11日
  • 讀畢需時 5 分鐘

想像一下,研究人員在一個黑暗的房間中用手電筒探索,僅能清楚識別其光束照到的範圍。在微生物群落研究中,科學家們歷來無法超越這一光束的範圍——更糟的是,他們甚至不知道這個房間有多大。


近期發表在《自然》雜誌(Nature)上的一項新研究強調了微生物功能多樣性的廣泛範圍,通過一種新穎的方法來更好地理解微生物社區,主要集中於其內部的蛋白質功能。這項工作由美國能源部聯合基因組研究所(Joint Genome Institute, JGI)的一組科學家領導,JGI是位於洛倫斯伯克利國家實驗室的美國能源部科學辦公室使用設施,並且與全球多個研究中心的合作夥伴共同進行。


“我們已經使已知的蛋白質家族數量增加了一倍多,並識別出了許多新的結構預測,”該論文的首席作者Georgios Pavlopoulos說,他目前是生物醫學科學研究中心亞歷山大·弗萊明的研究主任。“這是對13億個蛋白質進行的重大全面分析,經過大規模並行計算。”


在JGI科學家的指導下,該團隊展開了一項使命,旨在揭示隱藏在“黑暗”功能領域中的秘密。他們的重點是解碼蛋白質功能多樣性的複雜世界,探索未被揭示的微生物中的新型蛋白質家族和新功能。通過利用超過26,000個微生物組數據集的集體力量,這些數據集都可以通過公開可用的整合微生物基因組和微生物(IMG/M)數據庫訪問,他們成功地創建了新型環境基因組蛋白質家族(NMPF)目錄。


“我們現在可以通過將新數據集與這些蛋白質家族進行比較來分析新的數據集,或者進一步分析這些蛋白質家族來預測新功能,”該研究的資深作者、JGI微生物組數據科學組的負責人Nikos Kyrpides說。


這項研究的進展不僅增加了對微生物社區的理解,還為未來在微生物基礎的生物技術應用和生態系統研究中提供了新的靈感與機會。


揭示功能“暗物質”的光芒

生活在土壤、胃部到深海的微生物社群在能量循環方面具有獨特的能力——將生物質轉化為如乙醇或氫氣,或將太陽能轉化為氫氣。


然而,微生物社群的研究非常困難。它們內部的許多微生物無法在實驗室環境中培養。由於每個微生物社群都有其獨特的微生物組成和它們執行的功能,因此人工複製整個社群是不可能的。


宏基因組測序(metagenomic sequencing)使研究人員能夠通過對樣本進行全基因組測序,研究這些社群的整體遺傳構成,而不必區分每個微生物物種的特定基因。因此,這一過程依賴於參考現有的基因組序列。


這些蛋白質中有些是科學家稱之為"已知的已知"——也就是說,它們與具有已知功能的基因相似。而其他被稱為"已知的未知"——即它們與來自分離有機體的已知基因相似,但其功能仍不明。


然而,如果社群中的一個基因與任何先前已知的分離基因不匹配,科學家對該基因的功能或起源幾乎無法提供信息。因此,這些基因通常在分析中被視為無用信息而被丟棄。這些基因代表著“未知的未知”,因為它們不與我們已經定義的任何內容相似。


“我們目前知道的蛋白質家族中,有相當大的比例——大約30-50%——仍然沒有任何已知的功能,但我們知道這些家族的存在,”Kyrpides說。然而,“幾乎20年的宏基因組數據和分析,至今仍未對宏基因組中蛋白質家族進行真正的分析。”


最近,其他研究團隊利用人工智能的力量來解碼蛋白質序列的語言並獲得其可能功能的提示。然而,這些努力僅限於已知蛋白質序列的範疇。


“在這項努力中,我們不僅進入了理解功能多樣性的廣闊領域的未知領域,還通過應用AI方法推動了界限,以揭示它們的作用,”Pavlopoulos說。“因此,我們積累了一個廣泛的開創性見解庫,顯著擴展了包括在生物技術中具有關鍵應用的蛋白質(如DNA編輯酶)在內的各類蛋白質的潛在功能的視野。”


以新方式利用蛋白質家族

近年來,對新蛋白質家族的發現似乎已經達到了一個瓶頸,這可能暗示著科學家已經“捕捉”了大部分的多樣性,儘管尚未準確定義這些蛋白質的具體功能。但那些“未知的未知”可能隱藏著怎樣的多樣性呢?


研究團隊首先從整合微生物基因組(IMG)獲得了80億個宏基因組基因(該研究還引用了來自JGI的地球微生物組(GEM)目錄的數據)。然後,他們刪除了與之前已知基因有任何微弱相似性的基因,留下了約12億個新穎基因。


隨後,他們將剩餘的基因進行聚類,形成不同的家族。接著,他們專注於至少有100個成員的家族。


Kyrpides解釋道:“如果你有100個序列,聚類的質量會顯著提高,因為從不同地點或棲息地隨機獲得100個序列並且能夠良好對齊是非常困難的。將這個過程複製100次幾乎是不可能的。”


在完成這一階段後,研究團隊發現這個宏基因組空間中的蛋白質家族多樣性(即“未知的未知”)遠遠大於參考基因組的多樣性——至少是兩倍以上。


Kyrpides表示:“隨著我們持續添加更多樣本,我們獲得了更多的蛋白質家族。在幾年內,隨著我們繼續對更多宏基因組進行測序,某些當前具有50個成員或更多的聚類也將增長至100個或更多。所以,我們可以說,蛋白質的多樣性翻了一番,但實際上可能還有三倍、四倍、五倍或十倍更多的潛力存在。”


這項研究不僅顯示了宏基因組中的巨大多樣性,還為未來在微生物組功能、病原體控制及生物技術應用等領域的深入探索提供了新的可能性。


深入挖掘多樣性的範疇

雖然研究團隊沒有深入探討基因的具體功能,但他們能夠對這些蛋白質家族進行進一步的特徵化。他們根據環境將蛋白質家族劃分,發現只有7%的蛋白質家族在所有八個環境類別中共享。相反,這些家族更偏好特定的環境——無論是土壤、動植物宿主還是海洋生態系統等。


“因此,它們一定是在該棲息地中發揮著有趣或重要的作用,”Pavlopoulos解釋說。“這無疑是科學社群現在可以進一步應用的材料。假設某人正在研究土壤環境或人體,他們可能會利用這些特定家族,並嘗試對其進行功能特徵化,因為它們對於那個特定棲息地非常專一。”


分類學分析顯示,這些蛋白質家族的主要成員屬於細菌和病毒,儘管有600萬條序列無法歸類。研究人員還試圖通過三維建模來縮小基因的功能範圍,並將未知結構與已知結構進行比較,假設相似的結構通常意味著相似的功能。團隊還識別出完全新穎的結構蛋白質家族。


進行這一級別分析所需的計算能力依賴於伯克利實驗室的國家能源研究科學計算中心(NERSC)的訪問。


“這也是對Aydin Buluç及其所在的伯克利實驗室應用數學與計算研究部門的團隊的肯定,”Pavlopoulos說。“他們開發了並行算法,以進行‘全對全’比較和圖形聚類,能夠在如此高度並行的基礎設施上運行。”


這是第一次將蛋白質結構用於幫助特徵化大量微生物“暗物質”。這項研究花費了大約兩年時間,當時僅測序了約20,000個宏基因組。現在,這一數字已接近60,000。


“目前仍有70-80%的已知微生物多樣性尚未以基因組的形式被捕捉,”Kyrpides指出。“因此,這些多樣性無疑在功能多樣性方面隱藏著許多新秘密。”



📢 部分資料參考自美國能源部與美國NSO團隊—立即聯繫我們!

Forestzone Tech 提供: ✅ 最新產業趨勢報告與技術分析 ✅ 合作機會 ✅ 專家諮詢與技術轉介/材料媒合 📩 每月限額制,立即預約諮詢!


 
 
 

Kommentare


bottom of page