Najnoviji AI model kompanije OpenAI – Sora, prima tekstualne upite i pretvara ih u složene video scene sa više likova, specifičnim pokretima i scenografijom.
Razvoj vještačke inteligencije u video produkciji dostigao je novu fazu lansiranjem Sora AI modela kompanije OpenAI, koja je inače i tvorac popularnog ChatGPT bota. Sora je najnoviji član porodice modela vještačke inteligencije i donosi inovacije u transformisanju teksta u kompleksne video scene sa više likova, specifičnim pokretima i živopisnim detaljima. Ovaj „tekst-u-video” model omogućava korisnicima kreiranje fotorealističnih video zapisa, pri čemu je sve bazirano na napisanim upitima.
OpenAI na svom blogu ističe da Sora može da stvara složene scene koje obuhvataju više likova, precizne pokrete i detaljne pozadine, istovremeno razumijevajući kako objekti postoje u fizičkom svijetu. Ovaj model takođe pokazuje sposobnost preciznog tumačenja rekvizita i generisanja ubjedljivih likova sa izraženim emocijama.
Demo snimci sa sajta kompanije koje je generisao Sora uključuju pejzaž Kalifornije koji je nastao u vrijeme „zlatne groznice”, video snimak iz voza u Tokiju i mnoge druge.
Neki od njih pokazuju znakove koji odaju da je u pitanju kreacija vještačke inteligencije, kao što je sumnjivo pomjeranje poda na video snimku muzeja. OpenAI kaže da model trenutno ima izazov sa preciznom simulacijom fizike pokreta u složenijim scenama, ali da su rezultati prilično impresivni.
Prije nekoliko godina, generatori teksta u sliku kao što je Midjourney, bili su u vrhu sposobnosti modela da pretvaraju riječi u sliku. Kompanije kao što su Runway i Pika, pokazala su impresivne modele pretvaranja „teksta u video”. Takođe, tu je i Lumiere kompanije Google koji je jedan od primarnih konkurenata firmi OpenAI. Slično kao kod modela Sora, Lumiere korisnicima daje alate za pretvaranje teksta u video omogućavajući im kreaciju video zapisa od nepokretne slike.
Sora nije dostupna široj publici, već je trenutno rezervisana za „crvene timove stručnjaka” koji ocjenjuju potencijalne rizike i štete vještačke inteligencije. OpenAI takođe je dozvolila pristup modelu nekim vizuelnim umjetnicima, dizajnerima i filmskim stvaraocima, sve u cilju da dobije povratne informacije. Kompanija dalje naglašava da model u početku neće moći savršeno da simulira fiziku složenih scena i može imati izazove sa tumačenjem određenih uzročno-posljedičnih situacija.
Ranije ovog meseca, OpenAI je najavio da dodaje vodene žigove svom alatu za pretvaranje teksta u sliku, DALL-E 3, ali ipak napominje da se oni lako mogu ukloniti. Kao i drugi proizvodi na bazi vještačke inteligencije, OpenAI i u ovom slučaju mora da se bori sa posljedicama lažnih, AI fotorealističnih video snimaka koji se pogrešno smatraju originalnim.
(Benchmark.rs/Mondo)