上海舉行世界人工智能大會(WAIC 2024),內地AI龍頭商湯 (00020)發佈首個「可控」人物視頻生成大模型Vimi,該模型主要面向C端用戶,支持聊天、唱歌、舞動等多種娛樂互動場景。
商湯午前跌2.47%,報1.49元。
商湯稱,Vimi可生成長達1分鐘的單鏡頭人物類視頻,畫面效果不會隨着時間的變化而劣化或失真,Vimi基於商湯日日新大模型,通過一張任意風格的照片就能生成和目標動作一致的人物類影片,可通過已有人物影片、動畫、聲音、文字等多種元素進行驅動。
可以控制人物自然肢體變化
有內媒指,隨着大模型和生成式AI技術的快速發展,讓照片中的人物動起來已經不是新鮮事,但目前市面上的相關產品在實際應用中存在諸多痛點,包括無法精準控制人物動作、表情動作,只能頻繁嘗試;爲了解決這些應用中的實際問題,商湯可控人物視頻生成大模型Vimi應運而生。
報道指,Vimi不但可以實現精準的人物表情控制,還可實現在半身區域內控制照片中人物的自然肢體變化,並自動生成與人物相符的頭髮、服飾及背景變化。同時光影變化也能做到合理生成,讓人物動作和視覺效果流暢自然,畫面和諧唯美。