行業(yè)資訊
OpenAI首個AI視頻模型發(fā)布:60秒視頻全AI生成
OpenAI首個AI視頻模型發(fā)布:60秒視頻全AI生成
OpenAI Sora宣傳視頻(00:59)
“一名時尚女子走在充滿霓虹燈和廣告牌的標志性東京街頭,她穿著黑色皮夾克、紅長裙和黑靴子,拎著黑色手袋,戴著太陽鏡,涂著紅色口紅,走路自信又隨意。街道潮濕且反光,在燈光映射下形成鏡面效果,行人走來走去?!边@段60秒的視頻,并非真實拍攝,而是OpenAI最新的“文生視頻”模型Sora,這一段文字描述就是段Prompt(提示詞)。
當?shù)貢r間2月15日,人工智能(AI)巨頭OpenAI宣布,正在研發(fā)“文生視頻”模型Sora,可以創(chuàng)建長達60秒的視頻,其中包含高度詳細的場景、復雜的攝像機運動以及充滿活力的情感的多個角色,也可以根據(jù)靜態(tài)圖像制作動畫。OpenAI稱,目前紅隊成員(red teamers)可以使用Sora來評估關鍵的危害或風險,還向一些視覺藝術家、設計師和電影制作人提供訪問權限,以獲取有關如何改進該模型以對創(chuàng)意專業(yè)人士最有幫助的反饋。
根據(jù)OpenAI官網(wǎng),Sora能夠生成具有多個角色、特定類型的運動以及主體和背景的準確細節(jié)的復雜場景。Sora不僅了解用戶在提示中提出的要求,還了解這些東西在物理世界中的存在方式。

00:08
無人機拍攝的海浪拍打大蘇爾加雷角海灘崎嶇懸崖的景象。(00:08)
在部分場景中,Sora的效果足以“以假亂真”,例如一段8秒的東京地鐵車廂窗戶視頻,除了行車過程中,列車窗戶上的反射外,視頻中間人物倒影也非常逼真。

00:08
提示詞:穿過東京郊區(qū)的地鐵窗外倒影(00:08)
再來看另一段視頻,官方提示詞為:“雪后的東京城熙熙攘攘。 鏡頭穿過繁忙城市街道,跟隨幾個人享受美麗的雪天并在附近的攤位購物。 絢麗的櫻花花瓣隨著雪花隨風飄揚。”Sora生成的視頻呈現(xiàn)了所有要素,且鏡頭不在是單鏡頭,而是一直向前且會變換方向的運動鏡頭。

00:17
東京雪景AI視頻(00:17)
需要注意的是,目前Sora屬于半成品,OpenAI稱,它可能難以準確模擬復雜場景的物理原理,并且可能無法理解因果關系的具體實例。例如,一個人可能咬了一口餅干,但之后餅干可能沒有咬痕。還可能會混淆提示的空間細節(jié),例如混淆左右,并且可能難以精確描述隨著時間推移發(fā)生的事件,例如遵循特定的相機軌跡。

00:19
Sora生成的錯誤案例(00:19)
OpenAI官網(wǎng)介紹,Sora是一種擴散模型,它從看起來像靜態(tài)噪聲的視頻開始生成視頻,然后通過多個步驟消除噪聲來逐漸對其進行轉換生成視頻。Sora能夠一次生成整個視頻或擴展生成的視頻以使其更長。通過一次為模型提供多個幀的預見,OpenAI解決了一個具有挑戰(zhàn)性的問題,即確保主題即使暫時離開視野也保持不變。
與GPT模型類似,Sora使用Transformer架構。Sora建立在過去對DALL·E和GPT模型的研究之上。 它使用DALL·E 3的重述技術,該技術涉及為視覺訓練數(shù)據(jù)生成高度描述性的標題。因此,該模型能夠更精準遵循生成用戶的文本指令。
OpenAI表示,Sora是能夠理解和模擬現(xiàn)實世界的模型基礎,相信這一功能將成為實現(xiàn)AGI(通用人工智能)的重要里程碑。
Sora視頻一出,立刻震驚業(yè)界。盡管這不是首個AI視頻,其他企業(yè)也有類似文本生成視頻的AI模型,谷歌正在測試名為Lumiere的模型,Meta則有名為Emu的模型,還有人工智能初創(chuàng)企業(yè)Runway也在開發(fā)相應產品來幫助制作視頻,但外媒指出,工智能專家和分析師表示,Sora 視頻的長度和質量超出了迄今為止所見的水平。
美國伊利諾伊大學香檳分校信息科學教授Ted Underwood指出,沒想到在兩三年內還會有如此持續(xù)連貫水平的視頻生成技術,OpenAI的視頻可能展現(xiàn)了該模型的最佳性能。
多名AI從業(yè)者稱,從Sora公布的預覽視頻來看,簡直太“瘋狂”。在國外Reditt社區(qū),有個網(wǎng)友提問,今天OpenAI公布的Sora模型是否會成為自動化對于經濟影響的里程碑?下面有將近100條回復,有網(wǎng)友稱,起初ChatGPT的發(fā)布讓用戶看到了一切皆有可能,而現(xiàn)在人工智能正在不斷進步發(fā)展,讓用戶看到了強大的技術能力。
來源:澎湃新聞