top of page

NVIDIA : "DIFFUSION RENDERER":

  • Immagine del redattore: Filippo-Maria Rotatori
    Filippo-Maria Rotatori
  • 13 lug
  • Tempo di lettura: 3 min

NVIDIA ha presentato un modello innovativo che va ben oltre la semplice generazione di video tramite intelligenza artificiale, offrendo la capacità di modificare realisticamente l'illuminazione, la distanza e i materiali degli elementi all'interno di un filmato. Questa tecnologia, denominata "Diffusion Renderer", promette di aprire nuove ed entusiasmanti possibilità per la creazione di contenuti video.


ree

Il 10 luglio, NVIDIA ha pubblicato un documento che illustra questo modello di rendering neurale di prossima generazione. Il "Diffusion Renderer" si distingue per la sua capacità di modificare l'illuminazione, cambiare le texture e persino inserire oggetti virtuali in modo realistico, basandosi anche su dati limitati provenienti da immagini esistenti.


ree

Sviluppato attraverso una ricerca congiunta con l'Università di Toronto, il Vector Institute e l'Università dell'Illinois Urbana-Champaign (UIUC) , questo modello è caratterizzato dal superamento dei limiti del rendering tradizionale basato sulla fisica (PBR). Sebbene la tecnica PBR sia eccellente nel riprodurre effetti ottici di alta qualità, essa richiede dati 3D estremamente precisi sulla geometria degli oggetti, le condizioni di illuminazione e le proprietà dei materiali. Di conseguenza, è spesso impraticabile ottenere o ricostruire accuratamente tali dati da scenari del mondo reale.



Il Cuore di Diffusion Renderer: Rendering Inverso e in Avanti

Il "Diffusion Renderer" di NVIDIA risolve questa sfida sfruttando una rete neurale basata sui modelli di diffusione video, che combinano l'intelligenza artificiale generativa con il rendering 3D.


Il sistema è costituito da due componenti principali che lavorano in tandem, come illustrato nella panoramica del renderer di diffusione:

  • Renderer Inverso (Neural Inverse Renderer): Questo componente analizza un'immagine o un video in input per estrarre informazioni intrinseche nascoste, note come G-buffers. Tali informazioni includono le normali della superficie, la profondità relativa, il colore base (albedo), la rugosità e la metallicità degli oggetti. Queste proprietà vengono stimate e immagazzinate separatamente.


  • Renderer in Avanti (Neural Forward Renderer): Utilizzando i G-buffers stimati e le condizioni di illuminazione desiderate (rappresentate da "environment maps" HDR), questo modello genera immagini fotorealistiche. È in grado di riprodurre naturalmente effetti complessi come ombre, riflessi e inter-riflessioni.


La chiave del "Diffusion Renderer" risiede nella capacità di questi due componenti di compensare reciprocamente le proprie debolezze. Anche se i dati stimati dal renderer inverso possono contenere imprecisioni, il renderer in avanti è progettato per aderire alla distribuzione delle immagini del mondo reale, compensando e restituendo risultati realistici e fotorealistici. Questo consente un editing e una creazione sofisticati non solo di immagini digitali (come quelle dei videogiochi), ma anche di riprese dalla vita reale.


ree


Strategia dei Dati e Ottimizzazione

Per massimizzare le prestazioni del modello, il team di ricerca ha adottato una strategia di dati combinata:


  • Dati Sintetici: Sono stati curati 150.000 video sintetici , creati combinando modelli 3D ad alta risoluzione, illuminazione HDR (High Dynamic Range) e materiali PBR realistici. Questi dati forniscono segnali di supervisione accurati e "ground truth" (GT) per il training.


  • Dati del Mondo Reale Auto-etichettati: Poiché le immagini del mondo reale non contengono intrinsecamente informazioni così dettagliate, i ricercatori hanno utilizzato il renderer inverso (pre-addestrato sui dati sintetici) per generare automaticamente "pseudo-etichette" di G-buffers per circa 150.000 campioni di video del mondo reale dal dataset DL3DV10k. Sebbene non perfetti, questi dati auto-etichettati sono sufficientemente vicini alla realtà e servono come base robusta per il training del renderer in avanti.


Il team di ricerca ha ridotto il divario di dominio tra i dati sintetici e quelli reali auto-etichettati attraverso un training congiunto. Inoltre, è stata applicata la tecnica LoRA (Low-Rank Adaptation)  durante l'addestramento sui dati reali per adattare il modello al rumore e alle imperfezioni intrinseche dei dati reali. Questa tecnica ha dimostrato di migliorare significativamente la qualità del rendering per le scene del mondo reale, colmando efficacemente la differenza tra i dati ideali e l'ambiente reale.


ree

Risultati e Applicazioni Concrete

Il "Diffusion Renderer" ha dimostrato risultati eccezionali in diverse aree:


  • Rendering in Avanti: Riproduce accuratamente effetti ottici complessi come ombre, riflessi e inter-riflessioni anche in scene complesse con più oggetti, superando i modelli neurali esistenti.


  • Rendering Inverso: Le prestazioni del rendering inverso sono state altrettanto eccellenti, stimando con maggiore precisione le proprietà dei materiali della scena, l'albedo, e le normali alle superfici. In particolare, per le proprietà legate ai materiali speculari, il modello video ha ridotto significativamente l'RMSE per la metallicità e la rugosità, sfruttando efficacemente i cambiamenti di vista nei dati video per prevedere le proprietà speculari in modo più accurato.


  • Relighting: Il modello garantisce una qualità superiore rispetto ai metodi esistenti nella ri-illuminazione, implementando riflessi speculari accurati ed effetti di luce tridimensionali.


In questo modo, il "Diffusion Renderer" è descritto come un'evoluzione del rendering fisico esistente, consentendo un flusso di lavoro integrato che permette ai creatori di comprendere, modificare e rigenerare le immagini a proprio piacimento. Viene valutato come un'innovazione che apre un'era in cui chiunque può modificare immagini e video di alta qualità senza la necessità di attrezzature costose o complesse acquisizioni di dati


Filippo M. Rotatori, Corinaldo, il 13/07/2005




 
 
 
bottom of page