Rinascita del Paradigma a Rete Singola per il Virtual Try-On: l'Ascesa di MNVTON

Filippo-Maria Rotatori
21 gen
Tempo di lettura: 2 min

Nel panorama dell'e-commerce, la prova virtuale (Virtual Try-On, VTON) si è affermata come uno strumento imprescindibile, consentendo agli utenti di simulare in modo realistico l'indossabilità di capi d'abbigliamento su immagini di sé stessi, preservandone l'aspetto originale e la postura.

I primi approcci al VTON si basavano su singole reti generative, le quali, tuttavia, presentavano limitazioni evidenti nella preservazione dei dettagli più minuti degli indumenti, a causa di un'estrazione e una fusione delle caratteristiche non sempre ottimale. Per ovviare a tali criticità, i metodi più recenti hanno adottato un paradigma a doppia rete, incorporando una "ReferenceNet" complementare, volta a migliorare l'estrazione e la successiva integrazione delle caratteristiche dei capi.

Nonostante l'efficacia di tale approccio, l'architettura a doppia rete comporta un onere computazionale significativo, limitandone l'applicabilità e la scalabilità per scenari VTON che coinvolgono immagini o video ad alta risoluzione e di lunga durata.

In questo articolo, rimettiamo in discussione il paradigma dominante a doppia rete, proponendo un innovativo metodo VTON basato su un'architettura a rete singola, denominato MNVTON (Modal-Norm Virtual Try-On Network), in grado di superare le limitazioni delle tecniche esistenti.

Il cuore di MNVTON risiede in una strategia di normalizzazione specifica per modalità (modal-specific normalization). Tale strategia elabora separatamente input testuali, immagini e video, permettendo loro di condividere gli stessi livelli di attenzione all'interno di un'unica rete VTON, ottimizzando così il processo di fusione delle informazioni.

Un'ampia sperimentazione dimostra l'efficacia del nostro approccio: MNVTON ottiene risultati di qualità superiore e di un livello di dettaglio nettamente più elevato rispetto ai metodi precedenti, sia per le attività VTON basate su immagini statiche che su sequenze video. I nostri risultati evidenziano come il paradigma a rete singola possa non solo eguagliare, ma anche superare in alcuni casi, le prestazioni degli approcci a doppia rete, offrendo un'alternativa decisamente più efficiente e versatile per applicazioni VTON di alta qualità e scalabili.

Data di pubblicazione: 9 gennaio 2025

Pubblicazione: Cornell University

Area di ricerca: Computer Vision and Pattern Recognition

Riferimento: 1-2-1-MNVTON

Architettura / Test / Esempi

Rinascita del Paradigma a Rete Singola per il Virtual Try-On: l'Ascesa di MNVTON

Post recenti

Comments

Contatti