GoogleAI presenta Vlogger: un modello di AI generativa che parte da una foto e crea video parlanti.

Che potessimo generare video di noi stessi con l’Intelligenza Artificiale partendo da una foto è cosa nota.
Tempo fa avevo personalmente provato D-ID, una piattaforma che permette di caricare una foto, aggiungere un testo, scegliere il tono della voce… et voilà!

Quello che però hanno fatto gli ingegneri di GoogleAI, va oltre.
La notizia è apparsa sul canale personale di Enric Corona, ricercatore a GoogleAI. Qui viene presentato questo modello generativo che ci trasforma in avatar parlanti o, come i sognatori invece sottolineano, nei prossimi YouTuber.
Il termine Vlogger, infatti, è già noto e sta ad indicare il corrispettivo del Blogger ma in video: il mio blog infatti potrebbe essere tranquillamente un Vlog se, anziché scritto fosse riprodotto in video.

Che cos’è VLOGGER?

Come detto, Vlogger rappresenta uno step in più nella corsa alla diffusione degli strumenti AI.
Si parte da una foto, ma qui si aggiunge il proprio audio. E cosa c’è di diverso? Il body language!

Vlogger infatti è capace di generare i momenti del corpo tipici di un umano che gesticola mentre parla. Non si tratta quindi di video statici, dove (come nel caso dell’esempio di D-ID) vediamo un leggero movimento della testa ed ovviamente le labbra in sync. Vlogger riproduce anche i gesti, i movimenti del corpo, rendendo – se possibile – la conversazione più naturale.

Ecco un esempio.
Qui abbiamo la foto di partenza:

input image 1 Vlogger

E qui il video generato da essa con Vlogger:

Come possiamo notare, la qualità di riproduzione non è ottimale.
Inoltre Vlogger non consente (ancora) di riprodurre in 3D, o di cambiare lo sfondo, o di fornire un ventaglio più ampio di gestualità. Non è possibile creare video lunghi, ma è possibile crearli in lingue diverse: anche se aggiungessi il mio audio in inglese, Vlogger è in grado di tradurlo (e quindi tradurre la mia voce) in spagnolo, ad esempio.

Quali sono i rischi di Vlogger?

Tutti quelli che possiamo immaginare quando pensiamo ad un utilizzo improprio dell’AI generativa, ovvero creare video che fanno dire a persone cose che non hanno mai detto. Come già accade tra l’altro. Ne ho parlato in questo articolo:
Meta e le immagini generate dall’AI: obbligatorio renderlo noto

Ma pensiamo alle cose belle.
Vlogger potrebbe essere un valido strumento per vincere la timidezza del “parlare in pubblico”, ad esempio. Ma si apre anche al mondo del gaming e a quello della creazione di un assistente virtuale che ci somigli in tutto e per tutto, che sia però più espressivo ed engaging.

Citation:

@inproceedings{corona2024vlogger, Author = {Corona, Enric and Zanfir, Andrei and Gabriel Bazavan, Eduard and Kolotouros, Nikos and Alldieck, Thiemo and Sminchisescu, Cristian} Title = {VLOGGER: Multimodal Diffusion for Embodied Avatar Synthesis}, Year = {2024}, booktitle = {arXiv}

ULTIMI ARTICOLI: