Sora di OpenAI, il modello AI che crea video realistici da testo

Un intero film, magari ancora no. Ma un documentario, un trailer… quello sì. Almeno per il momento.
Sora (che per me fino a ieri era la cittadina in provincia di Frosinone dove mi sono laureata) è il nuovo prodotto in casa OpenAI ed è il modello AI capace di creare video super realistici con la sola introduzione di un testo.

Contenuti

Che cos’è SORA?

Sappiamo bene che sulla piazza ci sono già numerosi modelli AI che sfruttano il testo per trasformarlo in video. La qualità di questi però non è eccelsa. Ebbene, Sora non è così. Sora è un modello molto più complesso, capace di generare scene con più personaggi a cui dare anche diversi compiti. In più riesce a fornire dettagli accurati allo sfondo perché non solo elabora quanto specificato nel prompt, ma anche cosa davvero esiste nel mondo reale.

Vi faccio qualche esempio.

Questo è un frame da un video di 3 secondi creato con Pika. Il prompt: “A bengal cat running in New York, approaching rapidly while yellow cabs pass by, in the style of 35mm documentary, 4k, high resolution, depth of field, highly detailed, ultra realistic“.

Screenshot 2024 02 16 alle 12.01.27 Sora

Qualità a parte, direi che non ci siamo proprio.

Provo allora Fliki, con un prompt più elaborato che poi è lo stesso utilizzato da Sora nel video che verrà subito dopo.

Il prompt: “Drone view of waves crashing against the rugged cliffs along Big Sur’s garay point beach. The crashing blue waters create white-tipped waves, while the golden light of the setting sun illuminates the rocky shore. A small island with a lighthouse sits in the distance, and green shrubbery covers the cliff’s edge. The steep drop from the road down to the beach is a dramatic feat, with the cliff’s edges jutting out over the sea. This is a view that captures the Pacific Coast Highway”.

Screenshot 2024 02 16 alle 12.04.09 Sora

Ora è il momento di Sora. Lo stesso prompt utilizzato su Fliki e questo è il risultato:

https://openai.com/sora?video=big-sur

Screenshot 2024 02 16 alle 12.08.04 Sora

La differenza è evidente. Non ci sono cambi di scena nel momento in cui nel prompt io indico più situazioni, ma sono tutte fuse in un’unica sequenza. Ed è come se Sora leggesse anche le emozioni e riuscisse a trasmetterle.

Ma ha anche dei difetti…

O meglio, correzioni già all’attenzione di chi di dovere.

Sora potrebbe infatti non essere in grado di distinguere causa ed effetto nella successione di immagini: ad esempio, se vi è la scena di me che mangio un biscotto, nella scena successiva quel biscotto potrebbe essere ancora intero.

A detta di OpenAI, Sora potrebbe anche fare confusione con l’orientamento e non essere in grado di distinguere la destra dalla sinistra (come molti umani, tra l’altro).

Quali immagini possono essere riprodotte da Sora?

Ma Sora è in grado di riprodurre tutto tutto? No.

OpenAI è al lavoro anche per evitarne l’uso improprio, come ad esempio usare Sora per creare contenuti violenti, disinformazione, istigazione all’odio, bias.

Per quanto infatti la ricerca possa sfornare prodotti altamente tecnologici e meravigliosi, non è mai possibile prevedere quanti benefici potrà portare alle persone o quanti danni potrà recare a causa del suo abuso.

Arriva Sora: il text-to-video model di OpenAI

Che cos’è SORA?

Quali immagini possono essere riprodotte da Sora?

Recent Posts

Categories

okguys_blog