10月24日,國(guó)際權(quán)威期刊《Nature Communications》在線(xiàn)發(fā)表資源與環(huán)境科學(xué)學(xué)院沈其榮院士團(tuán)隊(duì)LorMe實(shí)驗(yàn)室與智慧農(nóng)業(yè)學(xué)院(人工智能學(xué)院)BioAI實(shí)驗(yàn)室的交叉學(xué)科研究成果《LorBin: Efficient binning of long-read metagenomes by multiscale adaptive clustering and evaluation》。該研究針對(duì)環(huán)境微生物組中成員構(gòu)成復(fù)雜、未知物種多、高質(zhì)量基因組難挖掘等共性科技難題,成功研發(fā)了針對(duì)三代宏基因組智能分箱算法LorBin,提升了基因組重構(gòu)的質(zhì)量和數(shù)量,為新物種的挖掘、致病菌與耐藥基因等環(huán)境生物污染物的高效識(shí)別提供技術(shù)支撐。
微生物雖看不見(jiàn)、摸不著,卻與我們的生活緊密相連。一克土、一片葉,甚至一滴水水中都活躍著數(shù)之不盡、種類(lèi)復(fù)雜的微生物。這些微生物相互影響、互相制衡,形成復(fù)雜的微生物群落(也叫微生物組),時(shí)刻影響著土壤化學(xué)元素的循環(huán)、腸道養(yǎng)分的吸收與轉(zhuǎn)運(yùn)以及動(dòng)植物的健康。然而,我們對(duì)地球上微生物種類(lèi)及其遺傳密碼的認(rèn)知還不足1%,微生物組因此也被稱(chēng)為地球生命的“暗物質(zhì)”。
近年來(lái),宏基因組測(cè)序逐漸成為揭秘微生物暗物質(zhì)的前沿技術(shù)。特別是三代測(cè)序技術(shù)的發(fā)展,使得堿基序列的檢測(cè)長(zhǎng)度更長(zhǎng)、質(zhì)量更高、誤差更低,在挖掘動(dòng)植物與環(huán)境樣品中功能基因和稀有物種以及重構(gòu)單菌基因組草圖中發(fā)揮重要作用。然而,三代宏基因組測(cè)序分析的研究,依然面臨原始數(shù)據(jù)量龐大、堿基序列錯(cuò)誤率高、以及分析算法不完善等卡脖子難題,尤其是在分箱重構(gòu)高質(zhì)量單菌基因組這一關(guān)鍵環(huán)節(jié)。宏基因組分箱是指將測(cè)序得到的堿基序列(reads)進(jìn)行組裝,形成更長(zhǎng)的序列片段(contigs),隨后將這些片段分配到若干個(gè)箱(bins)的過(guò)程。在理想情況下,每個(gè)箱對(duì)應(yīng)一個(gè)微生物的基因組,即宏基因組組裝基因組(MAGs:Metagenome-Assembled Genomes)。宏基因組分箱的核心目標(biāo)是從復(fù)雜微生物組中重構(gòu)出高質(zhì)量單菌基因組。

宏基因組分箱看似簡(jiǎn)單,但挑戰(zhàn)很大。既要克服復(fù)雜微生物群落中物種組成與豐度的不確定性、未知物種參考基因組缺失的限制,還需有效區(qū)分高度相似近緣物種、甚至菌株水平的遺傳變異規(guī)律,更要突破三代宏基因組測(cè)序的原始數(shù)據(jù)利用率、長(zhǎng)序列編碼、特征提取、異形分布數(shù)據(jù)聚類(lèi)與簇質(zhì)量評(píng)估算法等一系列技術(shù)難題。為此,LorMe實(shí)驗(yàn)室聯(lián)合BioAI實(shí)驗(yàn)室協(xié)同攻關(guān),創(chuàng)新了一種三代宏基因組長(zhǎng)讀分箱的無(wú)監(jiān)督深度學(xué)習(xí)工具LorBin。該工具針對(duì)分箱全過(guò)程的卡點(diǎn),從技術(shù)原理上提出四項(xiàng)針對(duì)性創(chuàng)新設(shè)計(jì):1)適配變分自編碼器訓(xùn)練學(xué)習(xí)復(fù)雜生境中DNA序列片段的特征分布,克服DNA大語(yǔ)言模型在處理長(zhǎng)序列時(shí)面臨的諸多挑戰(zhàn);2)構(gòu)建兩階段多尺度自適應(yīng)迭代聚類(lèi)算法應(yīng)對(duì)復(fù)雜物種空間分布,回收更多獨(dú)特的未知微生物類(lèi)群;3)在聚類(lèi)過(guò)程中引入單拷貝基因集等信息引導(dǎo)的循環(huán)分箱質(zhì)量評(píng)估模型,突破類(lèi)內(nèi)評(píng)估瓶頸,提升分箱質(zhì)量和原始數(shù)據(jù)利用率;4)采用Transformer模型與統(tǒng)計(jì)概率模型,評(píng)估簇在高維空間的凹凸性對(duì)分箱效果的影響,解決高維生物數(shù)據(jù)嵌入特征在降維前后空間分布一致性評(píng)估的難題。
基準(zhǔn)測(cè)試表明,LorBin的性能卓越,整體優(yōu)于SemiBin2、VAMB和COMEBin等6種高性能深度學(xué)習(xí)算法。LorBin分箱的質(zhì)量更高、捕獲稀有物種的能力更強(qiáng),重構(gòu)的高質(zhì)量單菌基因組比現(xiàn)有工具多15–189%,識(shí)別特有物種數(shù)量更是其他工具的2.4–17倍。真實(shí)樣品應(yīng)用結(jié)果表明,LorBin能高效識(shí)別出致病菌及其攜帶的高風(fēng)險(xiǎn)耐藥基因與毒力因子,揭示了水平基因轉(zhuǎn)移在驅(qū)動(dòng)耐藥基因傳播擴(kuò)散中的作用。該工具的運(yùn)行效率高、可擴(kuò)展性強(qiáng)、易用,在32核CPU、64GB內(nèi)存和0.3*NVIDIA A800 GPU配置下,比SemiBin2和COMEBin等高性能工具快2.3–25.9倍。LorBin的研發(fā)思路為三代宏基因組長(zhǎng)讀分箱處理不平衡微生物分布和重構(gòu)新物種基因組提供了解決方案。研究為深入解析復(fù)雜微生物群落提供了強(qiáng)大工具,尤其適用于生物多樣性高、先驗(yàn)知識(shí)匱乏的環(huán)境,為農(nóng)業(yè)、環(huán)境、醫(yī)學(xué)等領(lǐng)域微生物組分析,以及環(huán)境生物污染物的識(shí)別與擴(kuò)散機(jī)制研究提供新方法、新技術(shù)。
資環(huán)學(xué)院韋中教授和江高飛副教授為共同通訊作者,智慧農(nóng)業(yè)學(xué)院(人工智能學(xué)院)薛衛(wèi)副教授、研究生劉佐(已畢業(yè))和資環(huán)學(xué)院博士生張耀中為共一作者,資環(huán)學(xué)院Alexandre Jousset教授(國(guó)家外籍杰青獲得者)、Waseem Raza副教授(現(xiàn)中國(guó)熱帶農(nóng)業(yè)科學(xué)院熱帶生物技術(shù)研究所)、博士生李亞蓉、上海凌恩生物科技有限公司陶曄和錢(qián)俊博士以及美國(guó)貝勒醫(yī)學(xué)院Fritz Sedlazeck副教授和微軟中國(guó)高級(jí)工程師姜立博士等參與該研究,沈其榮院士、趙方杰教授和徐陽(yáng)春教授等共同指導(dǎo)該研究。該研究得到國(guó)家自然科學(xué)基金(重大項(xiàng)目、杰出青年項(xiàng)目和面上項(xiàng)目)和中央高?;緲I(yè)務(wù)費(fèi)等項(xiàng)目的資助。
全文鏈接:https://www.nature.com/articles/s41467-025-64916-8
閱讀次數(shù):10
【 轉(zhuǎn)載本網(wǎng)文章請(qǐng)注明出處 】