AI龍頭商湯 (00020)
周二舉辦「商湯技術交流日」
商湯聯合創始人兼CEO徐立發佈大模型「日日新5.0」版本
推出企業大模型一體機,其中代碼行業專用款售價35萬元人民幣起
生成式人工智能(Generative AI)過去一年發展急速,AI龍頭商湯 (00020)週二(23日)舉辦「商湯技術交流日」,商湯聯合創始人兼首席執行官徐立發佈大模型「日日新5.0」版本,強調知識、推理、數學、代碼能力可達到或超越GPT-4。
商湯周四復牌再高開17.5%,開報0.94元,成交4930.5萬元。商湯股價周三大升逾30%高見0.83元後, 於早上11時15分中途停牌,停牌前報0.8元,升31.2%,成交12.6億元。商湯發言人表示,昨日商湯日日新5.0 發佈會廣受好評,受到市場極大關注。
商湯周三收市後發公告指,除推出「日日新5.0」的業務外,董事會並不知悉有關價格及交易量變動的任何原因或須予公布以避免本公司證券出現虛假市場的任何資料或根據香港法例第571章證券及期貨條例需進行披露的任何內幕消息。
徐立表示,今年外界對於AI認知出現極大變化,「去年聚焦在模型的本身參數發佈,我們今年更多的關注了行業的場景落地」。
「日日新5.0」特點包括採用混合專家架構;基於超過 10TB tokens訓練,大量合成數據;上下文推理窗口擴至20萬詞元。徐立表示,根據尺度定律,AI公司只要找到更佳的模型架構和數據配方,就可讓模型能最高效地學習。
徐立表示,根據尺度定律,AI公司只要找到更佳的模型架構和數據配方,就可讓模型能最高效地學習。
市場一直討論大模型商業化,徐立表示,商湯將推可應用於終端設備的「端側大模型」,可以適配至手機、平板電腦及車載電腦,例如企業以此整合提供端側擴圖服務,商湯將發佈端側業務軟體開發套件(SDK) 供開發人員使用其平台構建工具。
徐立認為,如果終端設備只能雲端調動大模型提供AI服務,成本效率不高,他提出,有時參數較小的輕量模型表現甚至會比GPT 4更優勝,並在台上以日日新驅動Sensechat Lite與 GPT4操控遊戲《街頭霸王》同樣角色對打,結果日日新驅動Sensechat Lite取勝,徐立解釋,輕量模型思考速度較快,故反應比GPT 4 操控角色敏捷。
徐立宣佈,商湯推出企業大模型一體機,採用242結構,安裝以4國產大模型加速卡,2 國產AI 加速卡,算力可達 2P FLOPS,顯存可達 256 GB;互聯可達 448 GB/s。
徐立表示,部分行業對於數據流動設嚴緊限制,而大模型一體機則直接部署在客戶端,商湯針對金融、醫療、政務、代碼推出行業專屬一體機,其中代碼行業專有小浣熊•代碼大模型一體機每部35萬元人民幣起,單部可支援100人,適合小規模研發團隊使用,調用成本最低可達每天每人4.5元人民幣,免費安裝部署開箱即用。