Generiranje videa iz teksta – što nam sprema Google a što Facebook?

Umjetna inteligencija (UI) osvojila je svijet, revolucionirajući širok raspon industrija i procesa. Jedan od najuzbudljivijih razvoja u ovom području je mogućnost stvaranja visokokvalitetnih videozapisa iz pukih tekstualnih upita. Googleov najnoviji generator umjetne inteligencije, Imagen Video, prednjači u ovoj oblasti sa svojim naprednim značajkama i tehničkim mogućnostima. Ali kakav je Imagen Video u usporedbi s drugim modelima tekst-u-video na tržištu kao što je META-in Make-A-Video ili Phenaki?

Istraživanje tehničkih mogućnosti i potencijalnih primjena vodećih modela teksta u video pokretanih umjetnom inteligencijom

U području umjetne inteligencije (UI) i stvaranja videa, Google je nedavno objavio svoju najnoviju inovaciju: Imagen Video. Ovaj novi UI generator sposoban je proizvesti videozapise visoke razlučivosti iz pukih tekstualnih upita. Ali što Imagen Video izdvaja od ostalih modela teksta u video na tržištu? Uronimo dublje u značajke i tehnike Imagen Videa.

Prvo, Imagen Video je uspoređen s drugim modelima pretvaranja teksta u video, kao što su META Make-A-Video i Phenaki. Vrijedno je napomenuti da Imagen Video nadmašuje svoje konkurente u pogledu svojih sofisticiranih i dinamičkih mogućnosti. Ali ono po čemu se Imagen Video još više ističe je njegov potencijal za generiranje videa temeljenih na poznatim slikarima, 3D rotirajućim objektima i tekstualnim animacijama. Mogućnosti su doista beskrajne uz Imagen Video.

Ovdje pogledajte neka od videa koji su stvoreni putem Imagen Videa. Uz video možete vidjeti i prompt koji je korišten za stvaranje videa.

Ali kako Imagen Video zapravo radi? Proces je prilično zamršen i uključuje kaskadu od sedam difuzijskih modela koji pretvaraju jednostavan tekstualni upit u video niske rezolucije. Odatle, UI generator podiže video u sve veće razlučivosti i broj sličica u sekundi. Difuzijski modeli, koji su vrsta umjetne inteligencije koja uči kako “uništiti” i “povratiti” postojeće podatke, sastavni su dio sposobnosti Imagen Videa da generira nove i jedinstvene podatke.

Također je vrijedno spomenuti da je Imagen Video izgrađen na Googleovom prethodnom sustavu pretvaranja teksta u sliku, Imagen. Ovaj je sustav sličan OpenAI DALL-E 2 i prikazuje Googleovu predanost pomicanju granica umjetne inteligencije i stvaranja slika/videozapisa.

Što se tiče potencijalnih primjena i izazova, Imagen Video ima mnogo potencijala u raznim industrijama, od filma i zabave do marketinga i oglašavanja. Međutim, postoje etička pitanja vezana uz korištenje i razvoj AI tehnologije. Vrijedno je napomenuti da Google još nije objavio model ili njegov izvorni kod zbog ovih etičkih razloga.

Što se tiče konkurencije, META-in Make-A-Video još je jedan alat pokretan umjetnom inteligencijom koji može generirati realistične videozapise iz tekstualnih upita. Može se pohvaliti širokim rasponom scenarija, kao što su životinje, ljudi, mjesta, objekti, akcije i emocije. Korisnici čak mogu prilagoditi svoje videozapise odabirom rezolucije, trajanja, stila i glazbe. Pokreću ga MetaAI i Facebook AI Research (FAIR), vodeće organizacije u generativnim modelima i računalnom vidu, Make-A-Video je jaki konkurent u prostoru pretvaranja teksta u video.

Ovdje pogledajte neke od primjera kako je Make-a-Video generirao video iz unešenog teksta.

Važno je napomenuti kako ovi alati još nisu dostupni za upotrebu šire javnosti ali po primjerima lako možemo zaključiti što nam bliska budučnost donosi.