
Creazione di un modello LoRA per un prodotto
L'obiettivo di questo workflow è creare un modello LoRA specifico per le scarpe Gazelle di Adidas, in grado di generare immagini che rispettino le caratteristiche iconiche del prodotto. Questo progetto mira a dimostrare la capacità di costruire un dataset mirato, addestrare un modello LoRA e ottenere risultati coerenti con il design e il contesto del prodotto.
Obiettivo
Organizzazione del Dataset
Il dataset è stato organizzato con una divisione precisa delle immagini:
Scarpa destra: 300 immagini
Scarpa sinistra: 300 immagini
Scarpe in coppia: 200 immagini
Dettagli ravvicinati: 50 immagini
Scarpe indossate: 50 immagini
Scarpe in mano: 50 immagini
Questa suddivisione garantisce una copertura uniforme di tutte le angolazioni, dettagli e contesti rilevanti per il prodotto.
Struttura del Dataset
Proporzioni e Vincoli
Per mantenere un dataset bilanciato e rispettare le best practice, meno del 20% delle immagini include elementi oltre le scarpe (es. mani o modelli che indossano le scarpe). Questo approccio minimizza il rischio di confondere il modello durante il training.
Preparazione delle Immagini
Le foto sono state scattate utilizzando:
Sfondo bianco, successivamente uniformato in post-produzione per garantire coerenza e pulizia visiva.
Contesti alternativi: Per il restante 10%, comprendendo scarpe indossate o tenute in mano, per migliorare la capacità del modello di generalizzare in situazioni realistiche.
Nonostante il modello base fosse già addestrato su scarpe indossate, ho incluso alcune immagini per garantire una qualità superiore e un adattamento specifico al prodotto. Le immagini con dettagli ravvicinati sono state inserite per migliorare la riproduzione di elementi distintivi come il logo "Gazelle" e la trama del tessuto suede.
Creazione delle Caption con LoraDBEditCaption Model
Per completare il dataset, ogni immagine è stata annotata utilizzando il LoraDBEditCaption Model integrato in ComfyUI. Questo modello ha automatizzato la generazione delle caption, includendo:
Descrizioni accurate e coerenti con il contenuto dell'immagine.
Prefissi e parole chiave specifiche per facilitare il training del LoRA.


Configurazione del Training
Step totali: 3500
Learning rate: 0.0001
Dimensioni del network: Dim = 64, Alpha = 64
Batch size: 1
Parola trigger: "Green Gazelle"
Valutazione del Loss con Grafici
Durante il training, il loss è stato monitorato attraverso salvataggi incrementali a intervalli di 500 step. I dati raccolti sono stati utilizzati per tracciare grafici che evidenziano l’andamento del loss nel tempo.
Grafico del Loss
Il grafico sottostante mostra la riduzione del loss durante il training:
Asse X: Numero di step (incrementi di 500).
Asse Y: Valore del loss.


Andamento del Loss
Nei primi 500 step, il loss è diminuito significativamente da 1.80 a 1.43, indicando un rapido apprendimento iniziale.
Tra 500 e 1500 step, il loss si è ridotto più gradualmente, scendendo a 1.37, segnalando una fase di affinamento del modello.
Tra 1500 e 3000 step, il loss ha mostrato oscillazioni minime ma stabili, concludendosi a 1.32, suggerendo che il modello ha raggiunto un buon equilibrio tra precisione e generalizzazione.
Questi dati evidenziano una riduzione costante e progressiva del loss, supportando l’efficacia del processo di training.
Test dei Modelli
I modelli sono stati testati generando immagini con lo stesso seed ma su modelli differenti per confrontare la qualità del training tra varie configurazioni. Un ulteriore test è stato effettuato sullo stesso modello e seed, variando la strength del LoRA per evidenziare l’impatto di questo parametro sui risultati.
Analisi dei Risultati
I test sui checkpoint hanno evidenziato le seguenti differenze:
LoRA a 2000 step: I dettagli sono meno definiti, con lievi incongruenze nel logo "GAZELLE" e texture meno raffinate.
LoRA a 2500 step: Qualità significativamente migliorata, con dettagli più precisi e una buona riproduzione delle texture.
LoRA a 3000 step: Qualità ottimale, con dettagli nitidi e alta fedeltà al design originale, pur con alcune leggere imprecisioni nella scritta "GAZELLE".


In aggiunta, i test con strength differente sul modello da 3000 step hanno fornito ulteriori indicazioni:
Strength = 0.8: I dettagli risultano più morbidi, con una scritta "GAZELLE" meno definita ma coerente nel posizionamento. Ideale per generazioni naturali e integrate con il modello base.
Strength = 1.0: Offre il miglior equilibrio tra precisione dei dettagli e fedeltà al design originale. La scritta è visibile, anche se non perfetta.
Strength = 1.2: I dettagli sono molto pronunciati, ma la scritta "GAZELLE" inizia a deformarsi leggermente, segnalando un possibile overfitting locale. Ideale per enfasi su texture specifiche.
Questi test hanno dimostrato che il valore di strength 1.0 rappresenta il miglior compromesso per generazioni equilibrate.






Risultati Finali












CONTACT
info@lorenzomercugliano.com
© 2025. All rights reserved.