2026年1月3日,生物信息領(lǐng)域重要期刊International Journal of Biological Macromolecules在線(xiàn)發(fā)表了南京農(nóng)業(yè)大學(xué)智慧農(nóng)業(yè)學(xué)院(人工智能學(xué)院)計(jì)智偉教授課題組的題為“MsipNet: a multi-scale representation learning framework for predicting protein-RNA interaction”的研究論文。在這項(xiàng)工作中,研究人員開(kāi)發(fā)了一個(gè)多尺度表示學(xué)習(xí)框架MsipNet,用于預(yù)測(cè)RNA結(jié)合蛋白(RBP)的結(jié)合偏好及其靶向RNA。

據(jù)悉,該團(tuán)隊(duì)成功研發(fā)了一個(gè)名為MsipNet的多尺度表示學(xué)習(xí)框架,可實(shí)現(xiàn)對(duì)蛋白質(zhì)-RNA相互作用的高精度預(yù)測(cè)(圖1)。這個(gè)計(jì)算框架首先通過(guò)多模態(tài)表示學(xué)習(xí)模塊,整合RNA序列的全局和局部特征并融合RNA結(jié)構(gòu)信息(基于icSHAPE數(shù)據(jù)),形成全面的特征表示;隨后,借助LSTM與UCDC(U形卷積-空洞卷積)網(wǎng)絡(luò)的協(xié)同優(yōu)化,對(duì)多尺度特征進(jìn)行深層次提煉與融合;最終輸出準(zhǔn)確的RNA結(jié)合偏好預(yù)測(cè)結(jié)果。該設(shè)計(jì)以模塊化、連貫的架構(gòu)突出了多尺度特征學(xué)習(xí)在提升預(yù)測(cè)性能中的關(guān)鍵作用,為RNA功能機(jī)制解析及相關(guān)藥物設(shè)計(jì)提供了高效計(jì)算工具。

圖1. MsipNet算法框架圖
在性能評(píng)估中,MsipNet與八種現(xiàn)有計(jì)算模型進(jìn)行了系統(tǒng)對(duì)比。結(jié)果表明,MsipNet取得了最優(yōu)的預(yù)測(cè)性能,其AUROC達(dá)到0.883,顯著優(yōu)于所有現(xiàn)有方法。即便忽略結(jié)構(gòu)數(shù)據(jù)(icSHAPE),其表現(xiàn)也明顯超過(guò)同類(lèi)基于序列的方法。在其余對(duì)比模型中,表現(xiàn)最接近的HDRNet(AUROC=0.873)和PrismNet(AUROC=0.833)仍與MsipNet存在明顯差距;而傳統(tǒng)方法如DeepCLIP等的預(yù)測(cè)精度下降更為顯著。此外,在不同正負(fù)樣本比例的不平衡數(shù)據(jù)條件下,MsipNet同樣展現(xiàn)出更穩(wěn)健的性能優(yōu)勢(shì)。這些結(jié)果一致表明,MsipNet所采用的多尺度表示學(xué)習(xí)框架具有顯著優(yōu)越性,為蛋白質(zhì)-RNA相互作用預(yù)測(cè)設(shè)立了新的精度標(biāo)桿。
MsipNet與現(xiàn)有基準(zhǔn)方法的性能對(duì)比

為深入揭示MsipNet優(yōu)越性能的內(nèi)在機(jī)理,研究團(tuán)隊(duì)對(duì)模型識(shí)別出的RNA序列motif進(jìn)行了可視化分析。結(jié)果表明,MsipNet在motif發(fā)現(xiàn)能力上顯著優(yōu)于其他模型,所識(shí)別出的13個(gè)motif與權(quán)威數(shù)據(jù)庫(kù)CisBP-RNA中的已知motif高度吻合,尤其擅長(zhǎng)捕捉G-rich、U-rich等具有特定結(jié)構(gòu)的基序模式(圖2)。
更重要的是,為驗(yàn)證所發(fā)現(xiàn)motif的生物學(xué)真實(shí)性,作者進(jìn)一步將上述13個(gè)motif與另一實(shí)驗(yàn)驗(yàn)證數(shù)據(jù)庫(kù)ATtRACT進(jìn)行了交叉比對(duì)。結(jié)果顯示,MsipNet所預(yù)測(cè)的motif獲得了壓倒性的實(shí)驗(yàn)數(shù)據(jù)支持:在CisBP-RNA匹配的motif中,有8個(gè)同樣存在于ATtRACT的實(shí)驗(yàn)(如RNAcompete或SELEX)數(shù)據(jù)中,這一驗(yàn)證率遠(yuǎn)高于其他對(duì)比模型。這充分證明,MsipNet不僅是一個(gè)高精度的預(yù)測(cè)工具,更能可靠地發(fā)現(xiàn)具有真實(shí)生物學(xué)功能的RNA結(jié)合motif,為探索蛋白質(zhì)-RNA相互作用的分子機(jī)制提供了直接線(xiàn)索。

圖2. MsipNet在42個(gè)RBP數(shù)據(jù)集中識(shí)別出13個(gè)經(jīng)數(shù)據(jù)庫(kù)報(bào)道的RNA結(jié)合motif
綜上所述,本研究提出的多尺度表示學(xué)習(xí)框架MsipNet,通過(guò)整合RNA序列的多模態(tài)特征與結(jié)構(gòu)信息,并結(jié)合LSTM與UCDC網(wǎng)絡(luò)進(jìn)行層級(jí)特征提煉,實(shí)現(xiàn)了對(duì)蛋白質(zhì)-RNA相互作用的高精度、高泛化能力預(yù)測(cè)。該模型在多項(xiàng)基準(zhǔn)測(cè)試中顯著優(yōu)于現(xiàn)有方法,不僅能穩(wěn)定、高效地識(shí)別結(jié)合位點(diǎn),還展現(xiàn)出卓越的生物學(xué)可解釋性,成功發(fā)掘出多組經(jīng)實(shí)驗(yàn)驗(yàn)證的RNA結(jié)合基序。這些成果表明,MsipNet不僅為蛋白質(zhì)-RNA相互作用預(yù)測(cè)設(shè)立了新的技術(shù)標(biāo)準(zhǔn),也為深入解析RNA調(diào)控機(jī)制及發(fā)現(xiàn)潛在藥物靶點(diǎn)提供了可靠的計(jì)算工具。
本文的第一作者為南京農(nóng)業(yè)大學(xué)智慧農(nóng)業(yè)學(xué)院(人工智能學(xué)院)2023級(jí)碩士生宋楠,通訊作者為計(jì)智偉教授。中國(guó)科學(xué)技術(shù)大學(xué)李志錦博士、哈爾濱工業(yè)大學(xué)鄧陽(yáng)博士和南京農(nóng)業(yè)大學(xué)黃金虎副教授參與了這項(xiàng)工作。UNC Chapel Hill的Weiling Zhao教授為論文的撰寫(xiě)提供了寶貴建議。本項(xiàng)工作受到2025年南京農(nóng)業(yè)大學(xué)“濱江基石”交叉專(zhuān)項(xiàng)、江蘇省農(nóng)業(yè)自主創(chuàng)新項(xiàng)目等經(jīng)費(fèi)支持。
原文鏈接:https://doi.org/10.1016/j.ijbiomac.2025.149883
閱讀次數(shù):17
【 轉(zhuǎn)載本網(wǎng)文章請(qǐng)注明出處 】