社區方法解決生物學中的大數據問題
- Unop

- 2023年11月15日
- 讀畢需時 6 分鐘
當Sarai Finks去年整理細菌基因組序列數據集時,發現缺失信息令她感到沮喪。Finks研究飲食變化如何影響寄生於我們腸道中的噬菌體社群,以及這些變化如何進而影響我們的健康。她需要了解數據集中代表的微生物組樣本的更多信息,特別是關於這些樣本所來自的人類環境的詳細資料。個體居住在哪裡?他們吃哪些食物?喝什麼?缺乏這些具體信息使Finks難以連接有關這些微生物及其如何隨著飲食引起的腸道條件變化而相互作用的所有點。
一方面,這些豐富的生物數據的存在對Finks來說是一個福音,因為她並不需要自己生成這些數據。另一方面,這些數據卻是一團糟——不一致且不完整。
Finks的沮喪時刻對於任何研究微生物社群(也稱為微生物組)的研究人員來說都十分熟悉。理解微生物組幫助我們洞悉病因的起源、土壤中的碳封存等重要話題,以及回答一些引人入勝的問題,如生命是如何在海洋的黑暗深處繁衍生息的。為了發現某個微生物組中的生物體及這些居民的作用,科學家們會採集樣本並分析其中的DNA、RNA和蛋白質,有時甚至會試著識別每一種存在的有機化合物。這些研究生成了巨大的分子信息和基因序列數據集,這些資料的組織、風格、標註語言和底層軟體因團隊的不同而有所差異。
其他研究人員可能會從這些數據中獲益,特別是那些沒有時間或資源進行原始樣本分析的研究者,但實際使用這些數據卻像是在讀一本用不同語言編寫的百科全書,並且還有缺頁。
“微生物組研究中的數據標準對於促進跨研究的比較、共享和重用數據以及建立對微生物在其環境中所做工作的現有知識如及其分佈至關重要,”國家微生物組數據協作組(NMDC)項目負責人Emiley Eloe-Fadrosh說。該協作組成立於2019年,由一群不同領域的專家組成,在能源部的資助下,旨在通過社區參與和新工具及標準化實踐的創建來解決持續存在的數據挑戰。NMDC由Eloe-Fadrosh和洛倫斯伯克利國家實驗室(Berkeley Lab)、洛斯阿拉莫斯國家實驗室和太平洋西北國家實驗室的科學家們共同領導。
“如果沒有關於樣本收集或處理的標準,研究人員就必須聯繫主要研究團隊以獲取更多信息,花費大量時間整理和重新處理數據以保持一致,或乾脆不使用該數據,”Eloe-Fadrosh表示。
自成立以來,NMDC已啟動了兩個在線平台來促進數據共享和搜索,並開發了一種名為NMDC EDGE的生物信息學數據處理系統。儘管這些工具可能具有重要影響,NMDC的領導者意識到,真正的改變也需要科學文化的轉變。
在2021年,NMDC大使計劃啟動,旨在培訓具有多樣化研究興趣的早期職業科學家,教授他們生物數據標準化的最佳實踐,並為他們提供分享新技能所需的資源與經驗。大使們隨後可以在自己所在的機構及其他地方通過舉辦活動和研討會來培訓同行。
該團隊相信,這種以社區為驅動的學習模型將在全國範圍內推廣可查找、可訪問、可互操作和可重用(FAIR)數據的原則。“我們希望擺脫‘建設它,他們就會來’的想法。我們與正在前線進行研究的早期職業研究人員密切合作,”Eloe-Fadrosh表示。
在克服疫情初期的後勤挑戰後,該團隊從大學、國家實驗室和政府機構招募了12名大使來參加試點計劃。在2021年至2022年間,這些大使向超過800名研究人員進行了演示。
該計劃現在進入了第二屆大使週期,擁有13名大使。Sarai Finks就是其中之一。“我參與的動機源於我自己的經驗,面對公共可用的全基因組測序數據集中的不完整元數據挑戰,以及學習如何改進自己的實踐。我也因為對於獲取處理多組學數據所需計算資源的障礙有所認識而受到激勵,”Finks說,提到基因(基因組學)、RNA(轉錄組學)、蛋白質(蛋白質組學)和其他細胞製造的分子(代謝組學)數據集的組合,這些數據被分析用來理解微生物活動。“並不是每位研究者都有訪問高性能計算設施的能力,或具有分析多組學數據所需的技能。”
這種從基層出發的社區參與模式不僅有助於消除數據使用和存取的障礙,還促進了更有效的合作與知識共享,有助於推動整個生物學及相關學科的發展。這項工作在推動公平數據管理和開放科學方面具有重要意義。
壓倒性的組學數據
Ishi Keenum,密歇根科技大學的一名助理教授,也是2023年的大使之一。她研究抗生素抗性的基因如何在污水處理系統等人造系統中被微生物共享。“我使用生物信息學來研究這些環境中的微生物組中抗性基因的變化,然後尋找不同的方法來減輕抗性基因的擴散,”她說。
Keenum在處理非標準化數據時經歷了不少挑戰,但這一問題在疫情初期變得更加緊迫,當時她和她的同事希望繼續他們的工作,但無法前往現場採集新樣本以生成數據。Keenum轉向可在文獻中找到的數據集,希望進行一些元分析,但被不同數據庫的使用所阻礙。而且一旦她最終找到與她研究相關的組學數據,元數據中使用的術語往往不夠清晰,讓她對樣本的收集位置和方式不太有信心。
“我們使用的詞語可以意味著非常不同的事情,這讓人非常沮喪,試圖弄清楚人們序列了什麼,”Keenum說。“我不得不逐個給很多人發電子郵件,而許多人沒有回覆。所以,我們的研究中不得不排除大量數據。”
現在,作為NMDC的大使,她很高興能幫助建立未來的科學文化,在這裡,FAIR數據將成為常態。當她就此話題進行演講時,她注意到她的早期職業同事中對變革的渴望。
現代生物信息學工具和軟件使得迅速生成龐大的組學數據集成為可能,這些數據集在過去可能需要幾個月或幾年才能生成。因此,在博士和博士後研究中,花費大量時間處理大數據已變得相當普遍。“我覺得我們中的很多人達到了這樣一個程度,對生物信息學相當熟練,我們希望看見這種技術在世界中釋放出來。我們可以說,好的,我在我的研究中做到了這一點,其他人又看到了什麼?我們能否一次性查看一百萬項研究?”Keenum說。“而現在,從技術上來講,真的可以做到這一點,只要數據設置正確。所以,我們都目睹了當信息未被充分捕捉時會發生什麼,這有多麼痛苦。”
培訓下一代培訓師
NMDC團隊在《自然微生物學》(Nature Microbiology)上發表了一篇文章,詳細介紹了該計劃迄今為止的成就。他們還開始為2024年的新一屆培訓計劃進行籌劃,期望提供類似的課程,但將確保根據今年的見解進行調整。在試點計劃之後,領導者意識到研究人員不僅需要下游數據管理的最佳實踐,還需要數據收集的最佳實踐。因此,2023年的參與者接受了全面的培訓和工具包,這些工具包可應用於整個研究工作流程。
各屆學員的反饋也幫助NMDC團隊改善他們為整個研究社區提供的資源,包括提交入口,用於科學家提交樣本數據;數據入口,提供跨研究比較多組學數據的強大搜索功能;以及NMDC EDGE,一個用戶友好的生物信息學平台,支持數據處理,還允許非生物信息學專家訪問高性能計算系統以進行他們自己的組學分析。
“最讓我感到滿意的是能夠與大使們密切合作,直接了解我們如何改善工具的想法。我也很高興能向廣泛的受眾展示他們所做的多樣化研究,”Eloe-Fadrosh說。
這種基於社區的培訓和資源開發標誌著科學研究文化的一次重要進步,將幫助未來的科學家克服數據共享和標準化的挑戰,進一步推動生態和生物技術領域的發展。
公平的未來
目前已經有明確的例證顯示數據標準化可以促進重大科學進步。其中最廣為人知的可能是人類基因組計劃,該計劃涉及20個機構合作了13年以測序人類基因組,使用的工具比今天的設備慢得多。這項龐大的工作促進了對幾乎所有人類健康方面的更深入理解,並推動了新藥的開發,而這一切都是因為共享對開放訪問工具和FAIR數據實踐的承諾。
類似地,最近的環境微生物組研究與不同生態系統的比較,得益於數據標準化,為氣候建模、水質管理、糧食生產和生物技術創新提供了關鍵信息。
儘管數據標準化的好處已經相當明顯,但隨著新型人工智能(AI)工具展示出快速合成新理論和發現的驚人能力,這些好處在未來幾年有望快速增長。通過將這些新興工具與全球研究團隊創建和共享的FAIR數據集相結合,像Finks和Keenum這樣的研究者將能夠生成我們今天無法想象的生物學突破。
這種結合不僅會推動生物學和醫學的進步,還將在環境和農業科學等領域開創新的應用前景,為解決全球挑戰提供更多可能的解決方案。隨著科學界對FAIR數據實踐的擁抱,未來的發展將更加迅速且穩健。
📢 部分資料參考自美國能源部與美國NSO團隊—立即聯繫我們!
Forestzone Tech 提供: ✅ 最新產業趨勢報告與技術分析 ✅ 合作機會 ✅ 專家諮詢與技術轉介/材料媒合 📩 每月限額制,立即預約諮詢!



留言