Stability AI ha lanciato Stable Video 4D, un nuovo modello AI generativo che potrebbe rivoluzionare la produzione di video. Questo strumento permette di trasformare un singolo video in molteplici video da nuove prospettive, rendendo possibile la visualizzazione di oggetti 3D in movimento da diverse angolazioni. Stable Video 4D si distingue dagli altri strumenti di generazione video AI, come OpenAI’s Sora, Runway, Haiper e Luma AI, per la sua capacità di generare video da otto prospettive diverse utilizzando un unico video di input.
Secondo Varun Jampani, capo del team di ricerca 3D di Stability AI, questa tecnologia ha potenziali applicazioni in molti settori, inclusi cinema, gaming e realtà aumentata/virtuale. Nell’industria cinematografica, ad esempio, potrebbe facilitare la creazione di nuove angolazioni di scena senza la necessità di rigirare, offrendo nuove possibilità creative. Nel gaming e nella realtà virtuale/aumentata, permetterebbe un’esplorazione più immersiva degli ambienti 3D, mostrando gli oggetti in movimento da angolazioni arbitrarie generate dall’AI.
Stable Video 4D non è la prima incursione di Stability AI oltre il 2D. A marzo, l’azienda aveva già introdotto Stable Video 3D, che consente di generare brevi video 3D partendo da un’immagine o da un testo. Tuttavia, Stable Video 4D compie un passo avanti significativo, aggiungendo la dimensione temporale alle già note larghezza, altezza e profondità.
La tecnologia di Stable Video 4D è diversa dalle tradizionali tecniche di infill/outfill, dove le reti completano le informazioni parziali date. Jampani spiega che, invece di trasferire esplicitamente pixel dall’immagine di input, il modello sintetizza completamente i video dalle otto nuove prospettive, utilizzando il video originale come guida. Questo approccio consente una maggiore coerenza 3D e fluidità temporale nei video generati.
Attualmente, Stable Video 4D è disponibile per la valutazione della ricerca su Hugging Face. Stability AI non ha ancora annunciato piani commerciali specifici, ma Jampani afferma che il modello è già in grado di elaborare video di pochi secondi con un singolo oggetto su sfondo semplice. L’azienda ha intenzione di espandere le capacità del modello a video più lunghi e scene più complesse, offrendo così maggiori possibilità creative per il futuro.