Najnoviji AI model kompanije OpenAI – Sora, prima tekstualne upite i pretvara ih u složene video scene sa više likova, specifičnim pokretima i scenografijom.
Razvoj vještačke inteligencije u video produkciji dostigao je novu fazu lansiranjem Sora AI modela kompanije OpenAI, koja je inače i tvorac popularnog ChatGPT bota. Sora je najnoviji član porodice modela vještačke inteligencije i donosi inovacije u transformisanju teksta u kompleksne video scene sa više likova, specifičnim pokretima i živopisnim detaljima. Ovaj „tekst-u-video” model omogućava korisnicima kreiranje fotorealističnih video zapisa, pri čemu je sve bazirano na napisanim upitima.
Prompt: “A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. she wears a black leather jacket, a long red dress, and black boots, and carries a black purse. she wears sunglasses and red lipstick. she walks confidently and casually.…pic.twitter.com/cjIdgYFaWq
— OpenAI (@OpenAI)February 15, 2024
OpenAI na svom blogu ističe da Sora može da stvara složene scene koje obuhvataju više likova, precizne pokrete i detaljne pozadine, istovremeno razumijevajući kako objekti postoje u fizičkom svijetu. Ovaj model takođe pokazuje sposobnost preciznog tumačenja rekvizita i generisanja ubjedljivih likova sa izraženim emocijama.
Demo snimci sa sajta kompanije koje je generisao Sora uključuju pejzaž Kalifornije koji je nastao u vrijeme „zlatne groznice”, video snimak iz voza u Tokiju i mnoge druge.
This is an example of OpenAI’s new text to video product. Prompt: “Historical footage of California during the gold rush”pic.twitter.com/teczQsWzyn
— Historic Vids (@historyinmemes)February 15, 2024
Neki od njih pokazuju znakove koji odaju da je u pitanju kreacija vještačke inteligencije, kao što je sumnjivo pomjeranje poda na video snimku muzeja. OpenAI kaže da model trenutno ima izazov sa preciznom simulacijom fizike pokreta u složenijim scenama, ali da su rezultati prilično impresivni.
Prije nekoliko godina, generatori teksta u sliku kao što je Midjourney, bili su u vrhu sposobnosti modela da pretvaraju riječi u sliku. Kompanije kao što su Runway i Pika, pokazala su impresivne modele pretvaranja „teksta u video”. Takođe, tu je i Lumiere kompanije Google koji je jedan od primarnih konkurenata firmi OpenAI. Slično kao kod modela Sora, Lumiere korisnicima daje alate za pretvaranje teksta u video omogućavajući im kreaciju video zapisa od nepokretne slike.
Introducing Sora, our text-to-video model.
— OpenAI (@OpenAI)February 15, 2024
Sora can create videos of up to 60 seconds featuring highly detailed scenes, complex camera motion, and multiple characters with vibrant emotions.https://t.co/7j2JN27M3W
Prompt: “Beautiful, snowy…pic.twitter.com/ruTEWn87vf
Sora nije dostupna široj publici, već je trenutno rezervisana za „crvene timove stručnjaka” koji ocjenjuju potencijalne rizike i štete vještačke inteligencije. OpenAI takođe je dozvolila pristup modelu nekim vizuelnim umjetnicima, dizajnerima i filmskim stvaraocima, sve u cilju da dobije povratne informacije. Kompanija dalje naglašava da model u početku neće moći savršeno da simulira fiziku složenih scena i može imati izazove sa tumačenjem određenih uzročno-posljedičnih situacija.
Ranije ovog meseca, OpenAI je najavio da dodaje vodene žigove svom alatu za pretvaranje teksta u sliku, DALL-E 3, ali ipak napominje da se oni lako mogu ukloniti. Kao i drugi proizvodi na bazi vještačke inteligencije, OpenAI i u ovom slučaju mora da se bori sa posljedicama lažnih, AI fotorealističnih video snimaka koji se pogrešno smatraju originalnim.
(Benchmark.rs/Mondo)