Nel panorama dell'e-commerce, la prova virtuale (Virtual Try-On, VTON) si è affermata come uno strumento imprescindibile, consentendo agli utenti di simulare in modo realistico l'indossabilità di capi d'abbigliamento su immagini di sé stessi, preservandone l'aspetto originale e la postura.
I primi approcci al VTON si basavano su singole reti generative, le quali, tuttavia, presentavano limitazioni evidenti nella preservazione dei dettagli più minuti degli indumenti, a causa di un'estrazione e una fusione delle caratteristiche non sempre ottimale. Per ovviare a tali criticità, i metodi più recenti hanno adottato un paradigma a doppia rete, incorporando una "ReferenceNet" complementare, volta a migliorare l'estrazione e la successiva integrazione delle caratteristiche dei capi.
Nonostante l'efficacia di tale approccio, l'architettura a doppia rete comporta un onere computazionale significativo, limitandone l'applicabilità e la scalabilità per scenari VTON che coinvolgono immagini o video ad alta risoluzione e di lunga durata.
In questo articolo, rimettiamo in discussione il paradigma dominante a doppia rete, proponendo un innovativo metodo VTON basato su un'architettura a rete singola, denominato MNVTON (Modal-Norm Virtual Try-On Network), in grado di superare le limitazioni delle tecniche esistenti.
Il cuore di MNVTON risiede in una strategia di normalizzazione specifica per modalità (modal-specific normalization). Tale strategia elabora separatamente input testuali, immagini e video, permettendo loro di condividere gli stessi livelli di attenzione all'interno di un'unica rete VTON, ottimizzando così il processo di fusione delle informazioni.
Un'ampia sperimentazione dimostra l'efficacia del nostro approccio: MNVTON ottiene risultati di qualità superiore e di un livello di dettaglio nettamente più elevato rispetto ai metodi precedenti, sia per le attività VTON basate su immagini statiche che su sequenze video. I nostri risultati evidenziano come il paradigma a rete singola possa non solo eguagliare, ma anche superare in alcuni casi, le prestazioni degli approcci a doppia rete, offrendo un'alternativa decisamente più efficiente e versatile per applicazioni VTON di alta qualità e scalabili.
Data di pubblicazione: 9 gennaio 2025
Pubblicazione: Cornell University
Area di ricerca: Computer Vision and Pattern Recognition
Riferimento: 1-2-1-MNVTON
Architettura / Test / Esempi



Komentarji