5月12日,江蘇省委網(wǎng)信辦對(duì)外公布江蘇省第七批通過(guò)國(guó)家生成式人工智能服務(wù)備案的5款大模型,“荀子古籍大語(yǔ)言模型”位列其中。

荀子古籍大語(yǔ)言模型由南京農(nóng)業(yè)大學(xué)王東波教授團(tuán)隊(duì)主導(dǎo)研發(fā),是江蘇省首個(gè)完全以高校為主體完成國(guó)家生成式人工智能服務(wù)備案的大語(yǔ)言模型。該模型依托南京農(nóng)業(yè)大學(xué)的高性能算力基礎(chǔ)設(shè)施支持,結(jié)合課題組在古籍?dāng)?shù)字化領(lǐng)域??十余年的數(shù)據(jù)積累,實(shí)現(xiàn)了古籍傳承與人工智能技術(shù)的深度融合。這一成果不僅彰顯了高校在科研創(chuàng)新中的重要地位,也為江蘇省大模型產(chǎn)業(yè)注入了學(xué)術(shù)化、專(zhuān)業(yè)化的新動(dòng)能。??

作為古籍智能處理領(lǐng)域的開(kāi)創(chuàng)性成果,“荀子”是國(guó)內(nèi)首個(gè)全開(kāi)源的專(zhuān)注于古籍活化利用的垂直大語(yǔ)言模型。其核心功能涵蓋古籍智能標(biāo)引、信息抽取、詩(shī)歌生成、高質(zhì)量翻譯、詞法分析、自動(dòng)標(biāo)點(diǎn)等場(chǎng)景。例如,模型可自動(dòng)識(shí)別《史記》中的人物關(guān)系并生成知識(shí)圖譜,或?qū)ξ淳渥x的文言文進(jìn)行精準(zhǔn)斷句和翻譯,極大提升了古籍在廣大群眾中的推廣傳播效率。此外,該模型的開(kāi)源性、公益性特點(diǎn),使其成為古籍活化的標(biāo)桿工具,為古籍?dāng)?shù)字化研究提供了更加堅(jiān)實(shí)的基礎(chǔ)。
在全國(guó)范圍內(nèi),荀子古籍大語(yǔ)言模型是第二個(gè)以高校為主體成功備案的大語(yǔ)言模型。研發(fā)團(tuán)隊(duì)依托國(guó)家社科基金重大項(xiàng)目,構(gòu)建了覆蓋《四庫(kù)全書(shū)》等傳世古籍的40億字混合語(yǔ)料庫(kù),并通過(guò)創(chuàng)新的“古籍-現(xiàn)代漢語(yǔ)混合訓(xùn)練”技術(shù),突破了通用大模型在古文理解與生成中的瓶頸。這一成就不僅填補(bǔ)了古籍領(lǐng)域大語(yǔ)言模型的空白,更標(biāo)志著高校在人工智能技術(shù)攻關(guān)中的重要作用,為后續(xù)產(chǎn)學(xué)研合作提供了示范。
王東波教授介紹,荀子古籍大語(yǔ)言模型的備案,具有三大核心價(jià)值的體現(xiàn):一是以南京農(nóng)業(yè)大學(xué)學(xué)術(shù)積累為根基,推動(dòng)古籍研究從數(shù)字化向智能化轉(zhuǎn)型的學(xué)術(shù)引領(lǐng);二是以首創(chuàng)“ACHeval評(píng)測(cè)基準(zhǔn)”和混合訓(xùn)練策略,兼顧古文處理與現(xiàn)代漢語(yǔ)能力的技術(shù)突破;三是通過(guò)全面開(kāi)源模式降低古籍研究門(mén)檻,助力全球?qū)W者探索中華文明的文化傳承。
據(jù)悉,荀子古籍大語(yǔ)言模型將深化人工智能技術(shù)在??古籍整理、保護(hù)、轉(zhuǎn)化、增強(qiáng)上的應(yīng)用,進(jìn)一步推動(dòng)古籍活化在人工智能時(shí)代的創(chuàng)新性發(fā)展。
閱讀次數(shù):917
【 轉(zhuǎn)載本網(wǎng)文章請(qǐng)注明出處 】