“很快,我們就能看見你?!?/span>
在X平臺上,DeepSeek多模態(tài)團(tuán)隊負(fù)責(zé)人陳小康發(fā)文寫道。配圖中,品牌標(biāo)志性的藍(lán)鯨一只眼戴著眼罩,另一只已摘下。
4月29日起,DeepSeek在網(wǎng)頁端和App端灰度測試“識圖模式”,與“快速模式”“專家模式”并列。用戶上傳圖片后,模型可理解并分析圖像內(nèi)容。部分用戶已能使用,也有人看到入口但收到“暫時不可用”的提示。
準(zhǔn)確地說,此次上線的是多模態(tài)理解能力,而非完整的多模態(tài)生成。只要模型能處理文本加圖片等多種輸入,即可稱為多模態(tài)。
據(jù)騰訊科技實測,這次開放的主要是圖片理解功能,即“看圖、讀圖、分析圖”,尚未支持圖像生成或視頻理解。
產(chǎn)品層面,“識圖模式”并非簡單附件,而是一個獨(dú)立模式。頁面提示“使用識圖模式開始對話”,并配有圖片上傳按鈕。這表明DeepSeek正將視覺理解作為獨(dú)立方向進(jìn)行灰度測試。
目前該模式更接近視覺問答與截圖分析,而非文生圖工具。
實際上,DeepSeek在多模態(tài)領(lǐng)域早有積累。2024年發(fā)布的DeepSeek-VL系列覆蓋圖表、公式、文獻(xiàn)等場景;后續(xù)Janus系列嘗試統(tǒng)一理解與生成;Janus-Pro曾被視為圖像生成的重要探索;DeepSeek-OCR則面向文檔與結(jié)構(gòu)化信息識別。
技術(shù)上看,“識圖”不限于OCR。OCR識別圖片中的文字,而視覺語言模型還需理解物體關(guān)系、圖表含義和場景意圖。此次灰度模式很可能是OCR與文本推理模型的結(jié)合。
不過,官方尚未公布底層模型名稱、參數(shù)或開放計劃。API文檔目前仍以V4系列和長上下文為主,未見視覺輸入接口。這說明多模態(tài)能力尚未正式開放。
這一步對DeepSeek依然關(guān)鍵。過去一年,其核心標(biāo)簽是推理、開源、低成本和長上下文。“識圖模式”的出現(xiàn),預(yù)示著多模態(tài)能力可能成為下一個發(fā)力方向。
【免責(zé)聲明】部分?jǐn)?shù)據(jù)來源于網(wǎng)絡(luò)公開報道及行業(yè)資訊,如有侵權(quán),請及時與本網(wǎng)站聯(lián)系,我們將第一時間予以刪改。文中所涉觀點(diǎn)、數(shù)據(jù)及分析僅代表小編個人觀點(diǎn),僅供參考,不構(gòu)成任何投資建議、商業(yè)決策依據(jù)或法律承諾。投資有風(fēng)險,決策需謹(jǐn)慎;任何單位或個人據(jù)此進(jìn)行商業(yè)決策、經(jīng)營行為所產(chǎn)生的風(fēng)險,均自行承擔(dān)。
網(wǎng)站首頁 | 公司簡介 | 加入我們 | 聯(lián)系我們 | 虛擬主機(jī) | 無錫網(wǎng)頁設(shè)計 | 域名注冊
無錫企業(yè)做網(wǎng)站模版 | 無錫做網(wǎng)站 | 無錫企業(yè)網(wǎng)站建設(shè)|先舟erp| 無錫不銹鋼加工廠|軟瓷
版權(quán)所有:無錫世融網(wǎng)絡(luò)科技有限公司 Copyright?2010 蘇ICP備10231109號-3 ICP電信經(jīng)營許可證:蘇B2-20100211