“很快,我們就能看見你?!?/span>
在X平臺上,DeepSeek多模態(tài)團隊負責人陳小康發(fā)文寫道。配圖中,品牌標志性的藍鯨一只眼戴著眼罩,另一只已摘下。
4月29日起,DeepSeek在網(wǎng)頁端和App端灰度測試“識圖模式”,與“快速模式”“專家模式”并列。用戶上傳圖片后,模型可理解并分析圖像內(nèi)容。部分用戶已能使用,也有人看到入口但收到“暫時不可用”的提示。
準確地說,此次上線的是多模態(tài)理解能力,而非完整的多模態(tài)生成。只要模型能處理文本加圖片等多種輸入,即可稱為多模態(tài)。
據(jù)騰訊科技實測,這次開放的主要是圖片理解功能,即“看圖、讀圖、分析圖”,尚未支持圖像生成或視頻理解。
產(chǎn)品層面,“識圖模式”并非簡單附件,而是一個獨立模式。頁面提示“使用識圖模式開始對話”,并配有圖片上傳按鈕。這表明DeepSeek正將視覺理解作為獨立方向進行灰度測試。
目前該模式更接近視覺問答與截圖分析,而非文生圖工具。
實際上,DeepSeek在多模態(tài)領域早有積累。2024年發(fā)布的DeepSeek-VL系列覆蓋圖表、公式、文獻等場景;后續(xù)Janus系列嘗試統(tǒng)一理解與生成;Janus-Pro曾被視為圖像生成的重要探索;DeepSeek-OCR則面向文檔與結構化信息識別。
技術上看,“識圖”不限于OCR。OCR識別圖片中的文字,而視覺語言模型還需理解物體關系、圖表含義和場景意圖。此次灰度模式很可能是OCR與文本推理模型的結合。
不過,官方尚未公布底層模型名稱、參數(shù)或開放計劃。API文檔目前仍以V4系列和長上下文為主,未見視覺輸入接口。這說明多模態(tài)能力尚未正式開放。
這一步對DeepSeek依然關鍵。過去一年,其核心標簽是推理、開源、低成本和長上下文。“識圖模式”的出現(xiàn),預示著多模態(tài)能力可能成為下一個發(fā)力方向。
【免責聲明】部分數(shù)據(jù)來源于網(wǎng)絡公開報道及行業(yè)資訊,如有侵權,請及時與本網(wǎng)站聯(lián)系,我們將第一時間予以刪改。文中所涉觀點、數(shù)據(jù)及分析僅代表小編個人觀點,僅供參考,不構成任何投資建議、商業(yè)決策依據(jù)或法律承諾。投資有風險,決策需謹慎;任何單位或個人據(jù)此進行商業(yè)決策、經(jīng)營行為所產(chǎn)生的風險,均自行承擔。
網(wǎng)站首頁 | 公司簡介 | 加入我們 | 聯(lián)系我們 | 虛擬主機 | 無錫網(wǎng)頁設計 | 域名注冊
無錫企業(yè)做網(wǎng)站模版 | 無錫做網(wǎng)站 | 無錫企業(yè)網(wǎng)站建設|先舟erp| 無錫不銹鋼加工廠|軟瓷
版權所有:無錫世融網(wǎng)絡科技有限公司 Copyright?2010 蘇ICP備10231109號-3 ICP電信經(jīng)營許可證:蘇B2-20100211