近日,國內(nèi) Genos 團(tuán)隊(duì)發(fā)布全新基因組模型插件 Gengram,將 DeepSeek “外掛大腦” 模式引入生命科學(xué)領(lǐng)域,通過構(gòu)建 “基因字典” 與動(dòng)態(tài)檢索機(jī)制,大幅提升基因組大模型性能,助力破解 DNA 序列密碼,推動(dòng)生命科學(xué)研究邁入新階段。
當(dāng)前主流基因組大模型多采用單堿基分詞處理方式,將 DNA 序列拆分為單個(gè)堿基分析,雖精準(zhǔn)卻效率低下,易在數(shù)億堿基長序列中丟失關(guān)鍵信息,難以高效識別啟動(dòng)子、剪接位點(diǎn)等由特定堿基組合決定的功能元件。針對這一瓶頸,Genos 團(tuán)隊(duì)借鑒 DeepSeek Engram “外掛大腦” 思路,創(chuàng)新推出 Gengram,實(shí)現(xiàn) “靜態(tài)模體識別” 與 “動(dòng)態(tài)語境推理” 的結(jié)構(gòu)解耦。
Gengram核心在于構(gòu)建外置 “基因字典”,團(tuán)隊(duì)預(yù)建涵蓋 1 至 6 堿基長度的哈希字典,存儲生物學(xué)常見短序列組合,模型讀取序列時(shí)可直接檢索先驗(yàn)知識,無需從零推導(dǎo)。同時(shí)配備動(dòng)態(tài)門控機(jī)制,在編碼區(qū)、關(guān)鍵調(diào)控區(qū)激活記憶庫調(diào)用,在無功能背景區(qū)抑制檢索,精準(zhǔn)分配算力,減少無效計(jì)算。
測試中,Gengram 展現(xiàn)出驚人的生物學(xué)適配性。研究發(fā)現(xiàn),當(dāng)局部信息聚合窗口設(shè)為 21bp(堿基對)時(shí)模型性能最優(yōu),這一數(shù)值恰好對應(yīng) DNA 雙螺旋旋轉(zhuǎn)兩圈的長度,讓模型處理一維序列時(shí)能捕捉三維空間中堿基的協(xié)同作用,自主悟出 DNA 雙螺旋物理規(guī)律,實(shí)現(xiàn)對生命本質(zhì)的深度理解。
作為僅約 20M 參數(shù)的輕量插件,Gengram 以小體量撬動(dòng)大性能。數(shù)據(jù)顯示,搭載該插件的模型刷新多項(xiàng)基因組任務(wù) SOTA 記錄,剪接位點(diǎn)識別等任務(wù) AUC 提升 16.1%;且數(shù)據(jù)能效比突出,小規(guī)模訓(xùn)練數(shù)據(jù)即可媲美甚至超越訓(xùn)練數(shù)據(jù)規(guī)模數(shù)十倍的公開模型。此外,在 MoE 模型中,Gengram 還能優(yōu)化負(fù)載均衡,提升模型訓(xùn)練與推理效率。
目前,Gengram 已應(yīng)用于華大基因遺傳病臨床檢測大語言模型 GeneT,助力提升遺傳病分析解讀水平,推動(dòng)精準(zhǔn)醫(yī)療發(fā)展。該技術(shù)基于團(tuán)隊(duì)去年 10 月發(fā)布的全球首個(gè)百億級人類基因組基礎(chǔ)模型 Genos 研發(fā),背后是之江實(shí)驗(yàn)室與華大生命科學(xué)研究院的強(qiáng)強(qiáng)聯(lián)合,融合頂尖組學(xué)大數(shù)據(jù)經(jīng)驗(yàn)與計(jì)算模型能力,打造出杭州 AI for Science 領(lǐng)域的創(chuàng)新力量。
從逐字識別 ATCG 排列,到借助 “基因字典” 讀懂序列含義,Gengram 的發(fā)布標(biāo)志著基因組 AI 研究實(shí)現(xiàn)關(guān)鍵跨越。未來,隨著技術(shù)持續(xù)優(yōu)化,Gengram 有望拓展至蛋白質(zhì)結(jié)構(gòu)預(yù)測、藥物靶點(diǎn)發(fā)現(xiàn)等領(lǐng)域,為生命科學(xué)研究與臨床應(yīng)用提供更強(qiáng)大的 AI 工具,助力人類真正讀懂 “生命之書”。
網(wǎng)站首頁 | 公司簡介 | 加入我們 | 聯(lián)系我們 | 虛擬主機(jī) | 無錫網(wǎng)頁設(shè)計(jì) | 域名注冊
無錫企業(yè)做網(wǎng)站模版 | 無錫做網(wǎng)站 | 無錫企業(yè)網(wǎng)站建設(shè)|先舟erp| 無錫不銹鋼加工廠|軟瓷
版權(quán)所有:無錫世融網(wǎng)絡(luò)科技有限公司 Copyright?2010 蘇ICP備10231109號-3 ICP電信經(jīng)營許可證:蘇B2-20100211