Google ha presentato un progetto di ricerca capace di animare avatar fotorealistici a partire da una semplice fotografia, controllabili tramite la voce dell’utente. Questo strumento, denominato VLOGGER, si basa su un’architettura di diffusione avanzata, simile a quella utilizzata per la creazione di immagini, video e modelli 3D, ma con un livello di controllo aggiuntivo che permette di generare movimenti del corpo e dell’espressione facciale estremamente realistici.
VLOGGER si distingue per la sua capacità di sincronizzare i movimenti delle labbra e aggiungere un linguaggio del corpo naturale alla fotografia di partenza, trasformandola in un video in cui l’avatar sembra parlare con la voce fornita. Ciò rappresenta una significativa innovazione rispetto ai metodi attuali, che richiedono una maggiore quantità di dati e potenza di elaborazione, promettendo di rendere la creazione di avatar digitali animati più accessibile a tutti.
La formazione dell’IA dietro VLOGGER è stata effettuata utilizzando MENTOR, un ampio dataset etichettato con 800.000 video di persone che parlano, consentendo al modello di prevedere i movimenti naturali di una persona basandosi su un’immagine fissa e un file audio.
Nonostante il notevole progresso, il progetto presenta delle sfide, tra cui la difficoltà nell’elaborare movimenti ampi o in ambienti diversi e la limitazione nella durata dei video. Inoltre, suscita interrogativi etici legati alla possibilità di creare deepfake, sollevando la necessità di affrontare queste preoccupazioni man mano che la tecnologia si sviluppa.
I potenziali impieghi di VLOGGER sono molteplici, dall’animazione di avatar per assistenti virtuali, chatbot o personaggi virtuali in ambienti di gioco, alla traduzione di video che adattano il movimento delle labbra e del viso all’audio tradotto, fino alla comunicazione video a bassa larghezza di banda in ambienti VR o per migliorare la comunicazione online e l’educazione.
Questo avanzamento apre nuove prospettive per chi desidera diventare influencer sui social media ma si trova a disagio davanti alla telecamera, oltre a offrire soluzioni innovative per la creazione di contenuti digitali. Sebbene esista già qualcosa di simile attraverso un servizio a pagamento chiamato D-ID (nonostante sia una tecnologia meno avanzata di ciò che promette Vlogger), il fatto che entri anche Google si fa molto interessate. Senza considerare l’implementazione che si potrebbe fare con ElevenLabs (un l’altro servizio di cui ho fatto un articolo) che può imparare la vostra voce, potendo inserire direttamente il vostro audio confezionato interamente da un’AI.