U području umjetne inteligencije (UI) i stvaranja videa, Google je nedavno objavio svoju najnoviju inovaciju: Imagen Video. Ovaj novi UI generator sposoban je proizvesti videozapise visoke razlučivosti iz pukih tekstualnih upita. Ali što Imagen Video izdvaja od ostalih modela teksta u video na tržištu? Uronimo dublje u značajke i tehnike Imagen Videa.
Prvo, Imagen Video je uspoređen s drugim modelima pretvaranja teksta u video, kao što su META Make-A-Video i Phenaki. Vrijedno je napomenuti da Imagen Video nadmašuje svoje konkurente u pogledu svojih sofisticiranih i dinamičkih mogućnosti. Ali ono po čemu se Imagen Video još više ističe je njegov potencijal za generiranje videa temeljenih na poznatim slikarima, 3D rotirajućim objektima i tekstualnim animacijama. Mogućnosti su doista beskrajne uz Imagen Video.
Ovdje pogledajte neka od videa koji su stvoreni putem Imagen Videa. Uz video možete vidjeti i prompt koji je korišten za stvaranje videa.
Ali kako Imagen Video zapravo radi? Proces je prilično zamršen i uključuje kaskadu od sedam difuzijskih modela koji pretvaraju jednostavan tekstualni upit u video niske rezolucije. Odatle, UI generator podiže video u sve veće razlučivosti i broj sličica u sekundi. Difuzijski modeli, koji su vrsta umjetne inteligencije koja uči kako “uništiti” i “povratiti” postojeće podatke, sastavni su dio sposobnosti Imagen Videa da generira nove i jedinstvene podatke.
Također je vrijedno spomenuti da je Imagen Video izgrađen na Googleovom prethodnom sustavu pretvaranja teksta u sliku, Imagen. Ovaj je sustav sličan OpenAI DALL-E 2 i prikazuje Googleovu predanost pomicanju granica umjetne inteligencije i stvaranja slika/videozapisa.
Što se tiče potencijalnih primjena i izazova, Imagen Video ima mnogo potencijala u raznim industrijama, od filma i zabave do marketinga i oglašavanja. Međutim, postoje etička pitanja vezana uz korištenje i razvoj AI tehnologije. Vrijedno je napomenuti da Google još nije objavio model ili njegov izvorni kod zbog ovih etičkih razloga.
Što se tiče konkurencije, META-in Make-A-Video još je jedan alat pokretan umjetnom inteligencijom koji može generirati realistične videozapise iz tekstualnih upita. Može se pohvaliti širokim rasponom scenarija, kao što su životinje, ljudi, mjesta, objekti, akcije i emocije. Korisnici čak mogu prilagoditi svoje videozapise odabirom rezolucije, trajanja, stila i glazbe. Pokreću ga MetaAI i Facebook AI Research (FAIR), vodeće organizacije u generativnim modelima i računalnom vidu, Make-A-Video je jaki konkurent u prostoru pretvaranja teksta u video.
Ovdje pogledajte neke od primjera kako je Make-a-Video generirao video iz unešenog teksta.
Važno je napomenuti kako ovi alati još nisu dostupni za upotrebu šire javnosti ali po primjerima lako možemo zaključiti što nam bliska budučnost donosi.