Rivoluzione Sora da OpenAI

(27 febbraio 2024)   A metà febbraio 2024 OpenAI ha presentato Sora, il suo nuovo modello di creazione di contenuti basato sull’intelligenza artificiale ed in grado di creare clip video di alta qualità fornendo al chatbot solo essenziali indicazioni testuali.

Ovviamente questo non è il primo sistema di conversione testo-video nell’ambito dell’intelligenza artificiale. Google, per esempio, ha presentato Lumière, il cui nome omaggia gli inventori del cinema. Tuttavia OpenAI, forte della sua leadership di mercato in questo ambito grazie a ChatGPT, probabilmente avrà un impatto maggiore rispetto ad altri competitor.

Partenza prudente

Sora non è stata ancora resa disponibile al pubblico, neppure in versione di prova, soprattutto perché OpenAI si preoccupa già del fatto che con tale strumento potranno essere generati contenuti video falsi, fatti passare per veri.

Al riguardo, OpenAI ha informato il mercato che lo sviluppo di Sora già coinvolge artisti, ma anche rappresentanti di forze politiche ed esperti pedagoghi, al fine di comprendere le preoccupazioni suscitate e di identificare le modalità positive d’impiego di questa nuova tecnologia.

Un aiuto in tal senso sarà garantito dai codici e dalle filigrane (watermark) a cui sta lavorando il consorzio C2pa (Coalition for Content Provenance and Authenticity), di cui fa parte OpenAI con editori reputati, quali la BBC, Google, Intel, Microsoft, Publicis Group, Sony, Truepic e testate giornalistiche come il New York Times.

L’idea è quella di inserire nei video generati da Sora dei dati aggiuntivi che evidenzino l’eventuale creazione di un file tramite IA e che ne limitino la diffusione online, qualora vengano violate le norme condivise.

Grande potenziale

Resta il fatto che Sora entra in scena con enormi aspettative proprio in un momento in cui la tecnologia sta producendo contenuti incredibilmente realistici. I tempi di questa rapida evoluzione non sembrano essere da misurare in anni o mesi, ma in settimane. OpenAI ha lanciato la sua soluzione accompagnandola con una serie di brevi video, diversi tra loro per situazione e stile, atti a mostrare le sue potenzialità.

In un video si vede una ‘imitazione’ di Landrover che corre lungo una strada sterrata come se fosse ripresa da un drone, mentre in un altro video dei mammut caricano la telecamera.

Esempi video si possono consultare a questo link: https://www.youtube.com/watch?v=HK6y8DAPN_0

In un altro video, una donna passeggia per le strade bagnate di una metropoli; la scena si apre con una ripresa a tutto campo, con una folla in movimento sullo sfondo, per poi passare ad un primissimo piano; in questo caso la clip è visibile qui: https://www.youtube.com/watch?v=ARxHvTScXMY

Dalle parole ai fatti

Il video del fuoristrada è stato generato fornendo a Sora il seguente prompt (testo in linguaggio naturale che richiede all’AI generativa di eseguire un’attività specifica): “La telecamera segue un SUV vintage bianco con un portapacchi nero mentre accelera su una ripida strada sterrata circondata da alberi di pino su un ripido pendio di montagna. La polvere si solleva dai suoi pneumatici, la luce del sole splende sul SUV mentre sfreccia lungo la strada sterrata, proiettando sulla scena una calda luce. La strada sterrata curva dolcemente in lontananza, senza altre auto o veicoli in vista. Gli alberi su entrambi i lati della strada sono sequoie, con macchie di verde sparse ovunque. L’auto è vista da dietro mentre segue la curva con disinvoltura, facendo sembrare che stia guidando su un terreno accidentato. La strada sterrata stessa è circondata da ripide colline e montagne, con un cielo azzurro e limpido sopra con sottili nuvole”.
A questo link YouTube è possibile vedere il risultato, prodotto partendo da null’altro se non il testo sopra riportato: https://www.youtube.com/watch?v=DoNAHrApT7k

Brevi, ma realistici

OpenAI ha dichiarato che, per il momento, Sora è in grado di generare video a partire da istruzioni testuali sino ad un minuto di durata; non molto, ma in questi video è già espressa la capacità di realizzare scene con più personaggi, movimenti specifici, correlazioni tra i diversi elementi della scena e sfondi dettagliati.

Il modello informatico non è solo in grado di comprendere quello che chiede l’utente, ma è anche in grado, in autonomia, di sviluppare in modo coerente le interazioni tra gli elementi, per come coesistono nel mondo fisico.

Sebbene i “modelli multi-modali” non siano una novità e modelli di testo-video esistano già, ciò che sembra distinguere Sora è l’accuratezza che OpenAI mostra di avere raggiunto.

Non è già tutto oro…

Che il modello attualmente presentato abbia dei punti deboli lo ha ammesso la stessa OpenAI, precisando che in effetti Sora può avere difficoltà a simulare una scena complessa e potrebbe non comprendere alcune situazioni specifiche di causa ed effetto.

Ad esempio, è spiegato dalla dichiarazione dell’azienda stessa, in un video si potrebbe vedere una persona che dà realisticamente un morso ad un biscotto, ma successivamente il biscotto potrebbe non presentare il segno del morso. …ma è solo questione di tempo.

Tuttavia i segnali inviati dall’azienda lasciano intendere che la capacità di evoluzione certo non manca e che Sora è un modello di partenza, al momento, già in grado di generare un video ricco e dettagliato partendo da elementi essenziali e trasformandoli gradualmente attraverso successivi passaggi, gestiti in autonomia.

Sora è in grado di generare un video solo da un prompt, ma può anche prendere un’immagine fissa esistente e generare un video da questa, animandola in base alle indicazioni ricevute, oppure acquisire un video esistente e trasformarlo. Il risultato è in formato Full HD.

A questo link è possibile consultare il testo completo, originale, della comunicazione tecnica rilasciata da OpenAI, che contiene anche numerosi altri esempi video delle potenzialità di questa soluzione: https://openai.com/research/video-generation-models-as-world-simulators

Qui è possibile trovare ulteriori video dimostrativi generati da Sora: https://openai.com/sora  (AR)

Vedi anche:

Streaming Media Connect. I seminari tecnologici via web.

Artificial Intelligence Act in UE e deregulation USA: scenario complessivo e implicazioni per i broadcaster.