隨著技術(shù)的不斷進步,人工智能(AI)已經(jīng)開始在視頻制作領(lǐng)域扮演越來越關(guān)鍵的角色。小鵬汽車的AI研究團隊近日推出的“任意物體于任意場景”(Anything in Any Scene)技術(shù)引發(fā)了業(yè)界廣泛關(guān)注。該技術(shù)通過先進的生成式人工智能(AiGC)算法,能夠?qū)⑷我馕矬w無縫集成進動態(tài)視頻中,創(chuàng)造出極致真實的視覺效果。參與該項研發(fā)工作的小鵬汽車AI研究員Xiaoyin Zheng先生深入解讀了該技術(shù)及其背后的愿景與初衷。
“利用我們研發(fā)的Anything in Any Scene技術(shù),用戶能在任意的視頻場景中,插入任意物品,并且達到以假亂真的程度”。為證實所言非虛,Xiaoyin Zheng展示了應(yīng)用此技術(shù)制作的視頻,并邀請記者嘗試識別其中后期插入的物體。場景包括室外道路、夜間道路和室內(nèi)場景。記者經(jīng)多次觀看后,也難以辨識異樣,直至Xiaoyin Zheng揭示紅綠燈、垃圾桶和頭盔等物體竟然均為后期插入。
Xiaoyin Zheng隨后介紹了這項技術(shù)的架構(gòu)細節(jié)。“相比以往的算法框架,例如DoveNet、PHDiffusion,Anything in Any Scene呈現(xiàn)的效果更加逼真,這得益于我們架構(gòu)中的三個主要模塊,分別保證了物體擺放位置的真實性,光照的真實性,和色調(diào)的真實性。在確保物體在視頻中正確放置的過程里,我們的技術(shù)框架首先確定相機在視頻中的世界坐標系位置,將其作為插入物體的基準點。接著,通過分析相機的內(nèi)參和方位,精確計算出物體三維模型在各個視頻幀里的具體位置。我們還使用了語義分割模型預(yù)測物體的掩碼,避免插入物體被其他物體遮擋。為了使物體在視頻中保持穩(wěn)定,我們會預(yù)測視頻連續(xù)幀之間的光流來跟蹤物體的運動軌跡,并減少物體在連續(xù)幀上的投影差異,從而實現(xiàn)物體隨著攝影角度變化時的平滑移動。為了保證物體光照的真實性,我們還會根據(jù)視頻流中的天空部分畫面,推理出主光源的高光和環(huán)境光漫反射這兩種光源的HDR分布,并將此HDR分布送給渲染管線中,這樣就可以連同物體的陰影一并渲染出來,生成逼真的光照效果。最后,我們會對物體做一個style transfer(風格變換),使其更逼近目標視頻流的整體色調(diào),進一步提高整個視頻的逼真程度。”
對于外界關(guān)于“任意物體于任意場景”技術(shù)是否僅用于制作虛假視頻的質(zhì)疑,Xiaoyin Zheng給出了詳細的回答。他解釋說:“我們開發(fā)這項技術(shù)的初衷,實際上是為了在數(shù)據(jù)層面,促進自動駕駛技術(shù)的發(fā)展。在自動駕駛系統(tǒng)的訓練階段,通常需要收集大量的實際駕駛數(shù)據(jù)。然而,某些罕見但重要的情形,如道路上的事故車輛、特種車輛、障礙物、行人意外穿越等,往往難以在日常環(huán)境中收集到足夠的數(shù)據(jù)樣本。若能通過AiGC技術(shù)創(chuàng)造出極為逼真的場景數(shù)據(jù),就能夠以極為低廉的成本,為自動駕駛系統(tǒng)提供持續(xù)的、高質(zhì)量的訓練‘養(yǎng)料’。”他進一步闡釋,“然而,這項技術(shù)的應(yīng)用遠不止于此。正如其名稱‘任意物體于任意場景’所暗示的,它賦予了用戶在任何視頻場景中插入任何物體的能力,這極大地拓展了視頻編輯的可能性。無論是在AI視頻創(chuàng)作領(lǐng)域,還是在增強現(xiàn)實(AR)與虛擬現(xiàn)實(VR)等新興領(lǐng)域,這項技術(shù)都有著廣闊的應(yīng)用前景。”
在討論Anything in Any Scene與近期大火的OpenAI SORA之間的關(guān)系時,Xiaoyin Zheng認為,這兩種技術(shù)互相補充而非直接競爭。他指出,在視頻創(chuàng)作過程中,SORA和‘任意物體于任意場景’技術(shù)都將是重要的工具。“如果我要從頭開始利用AI創(chuàng)造一段視頻,我會首先用SORA來構(gòu)建整個場景,接著使用‘任意物體于任意場景’對視頻中對物體細節(jié)有高精度要求的部分進行細致編輯。通常情況下,SORA負責將視頻創(chuàng)作從0到90%,而‘任意物體于任意場景’負責完成剩下的,也是極具難度的10%。有了Anything in Any Scene,使用SORA的創(chuàng)作者可以說是錦上添花,將創(chuàng)作提升到全新的高度。”
展望未來,隨著技術(shù)的持續(xù)發(fā)展和完善,Anything in Any Thing與SORA等先進AI工具的結(jié)合使用,將不僅為視頻創(chuàng)作帶來革命性的變革,同時也將在自動駕駛、虛擬現(xiàn)實等多個領(lǐng)域開拓出更廣闊的應(yīng)用空間。這些技術(shù)的發(fā)展和應(yīng)用,預(yù)示著我們正邁向一個更加智能、更加多元的新時代。人工智能的邊界將不斷被拓展,創(chuàng)新的火花在不同領(lǐng)域間碰撞,引領(lǐng)我們走向更加精彩的未來。