在科技高速發(fā)展的今天,AI 已經(jīng)開始融入人們的生活,就在不久前阿里集團(tuán)推出了一款可以生成視頻的 AI 框架 Tora,這是一款可以面向軌跡的 DiT 框架,它可以結(jié)合文本、視覺以及軌跡生成視頻。
之前有可以生成視頻的模型也就是擴(kuò)散模型可以生成不同的視頻,這些視頻采用的是 U-Net 框架,并且只能合成比較短時(shí)長的視頻。后面出現(xiàn)了 Sora,Sora 采用了 DiT 框架,可以制作比較長的視頻,同時(shí)還實(shí)現(xiàn)了真實(shí)的物理定律,但是有一個(gè)問題無法生成可控的動作視頻。
而 Tora 的出現(xiàn)就解決了這個(gè)問題,Tora 可以和 DiT 框架高度契合,可以生成高運(yùn)動保真度的視頻,同時(shí)還可以模擬遵循物理定律的運(yùn)動。
在 Tora 的官網(wǎng)(https://ali-videoai.github.io/tora_video/)中發(fā)布了多個(gè)不同的視頻,視頻向我們展示了其生成各種不同場景下物體的運(yùn)動軌跡。
我們可以看見當(dāng)在生成視頻的時(shí)候會根據(jù)你提前規(guī)劃好的軌跡來移動視頻中的物體,就像下面這個(gè)小船一樣,我們還可以清晰的看見小船滑過水面時(shí)的波紋,以及風(fēng)吹水面時(shí)的漣漪。
不只是直線軌跡,Tora 生成的視頻還可以按照有一定角度的軌跡進(jìn)行運(yùn)動,就像下面這個(gè)孔明燈向空中上升,一個(gè)是斜線一個(gè)按照一定的角度。
不僅如此,在生成視頻的時(shí)候還可以同一個(gè)視頻按照不同的軌跡生成不同的運(yùn)動圖像。
Tora 采用了基于軌跡導(dǎo)向的擴(kuò)散變換器(DiT)技術(shù),由一個(gè)軌跡提取器(TE)、一個(gè)運(yùn)動引導(dǎo)融合器(MGF)和一個(gè)時(shí)空 DiT 組成。TE 使用 3D 視頻壓縮網(wǎng)絡(luò)將軌跡編碼為分層時(shí)空運(yùn)動補(bǔ)丁,MGF 將運(yùn)動貼片傳入 DiT 模塊,然后生成遵循運(yùn)動軌跡的視頻。
Tora 可以制作長 204 幀,分辨率達(dá) 720P 的長視頻,可以控制不同的持續(xù)時(shí)間,寬高比例。在研究中研究者對不同分辨率和時(shí)長的軌跡進(jìn)行了分析,結(jié)果顯示,Tora 的軌跡誤差隨時(shí)間的推移出現(xiàn)增加。
Tora 是阿里集團(tuán)全新推出的基于 DiT 框架的視頻生成器,其獨(dú)特的可以通過融合文本、視覺以及軌跡來控制視頻內(nèi)容讓人眼前一亮。同時(shí)想要詳細(xì)了解它的可以查看論文:https://arxiv.org/pdf/2407.21705
本文編輯:@ 小小輝
?本文著作權(quán)歸電手所有,未經(jīng)電手許可,不得轉(zhuǎn)載使用。