OpenAI, leader mondiale nell’intelligenza artificiale, ha annunciato il lancio di ‘Sora’, un nuovo modello generativo text-to-video in grado di creare scene realistiche e fantasiose basandosi su istruzioni testuali. Secondo l’azienda, fondata nel 2015 e guidata da Sam Altman, ‘Sora’ può generare video della durata massima di un minuto mantenendo una qualità sbalorditiva, creando “scene complesse con dettagli che riguardano i componenti principali della scena e del suo sfondo“.
Inoltre, ha una profonda comprensione del linguaggio, il che gli consente di interpretare accuratamente le istruzioni e generare personaggi avvincenti esprimendo emozioni vibranti: basta guardare gli esempi mostrati dalla società. In particolare, il filmato dell’uomo sulla neve è davvero impressionante non solo per la coerenza dei fotogrammi ma anche per la qualità del volto del soggetto animato.
OpenAI ha scelto il nome “Sora,” che significa “cielo” in giapponese, per evocare l’idea di un potenziale infinito di creatività. Attualmente le capacità di Sora sono al vaglio per verificare potenziali danni, rischi o aree critiche. L’accesso è disponibile a non meglio precisati «artisti visivi» quali designer e registi, in modo da poter ricevere feedback per migliorare il modello affinché possa essere utile per i professionisti creativi. Ciò sottolinea la consapevolezza di OpenAI riguardo alle potenziali applicazioni eticamente sensibili, come la creazione di deepfake fotorealistici.
Sebbene recentemente abbia fatto la sua comparsa anche Lumiere di Google e Pika, al momento il generatore text-to-video più noto e più all’avanguardia è Runway che può creare anche filmati da un prompt e da un’immagine di partenza, oltre che applicare tecniche di inpainting per animare e muovere i soggetti e l’intera scena. Ma Runway riesce a produrre video lunghi massimo 15 secondi, oppure 16 secondi se si usa l’opzione Extend Video del modello Gen-2 presentato a marzo dell’anno scorso.