# üé§ Fine-Tuning Coqui XTTS v2 per Italiano

Questo notebook ti guida nel fine-tuning di XTTS v2 usando Common Voice italiano.

## ‚öôÔ∏è Setup:
1. Runtime ‚Üí Change runtime type ‚Üí **GPU T4** (gratuito)
2. Esegui celle in ordine
3. Tempo stimato: **2-6 ore**

## üìã Cosa fa:
- Scarica Common Voice IT
- Preprocessa dataset
- Fine-tune XTTS v2
- Scarica modello migliorato

## 1Ô∏è‚É£ Setup Ambiente

In [None]:
# Verifica GPU disponibile
!nvidia-smi

In [None]:
# Installa dipendenze
!pip install -q TTS
!pip install -q datasets
!pip install -q librosa
!pip install -q pandas
!pip install -q tqdm

print("‚úÖ Installazione completata!")

In [None]:
# Import librerie
import os
import torch
from datasets import load_dataset
from TTS.api import TTS
import soundfile as sf
import pandas as pd
from tqdm.auto import tqdm
import json

print(f"üî• PyTorch version: {torch.__version__}")
print(f"üéÆ CUDA available: {torch.cuda.is_available()}")
if torch.cuda.is_available():
    print(f"üéØ GPU: {torch.cuda.get_device_name(0)}")
    print(f"üíæ VRAM: {torch.cuda.get_device_properties(0).total_memory / 1e9:.2f} GB")

## 2Ô∏è‚É£ Configurazione

In [None]:
# Configurazione progetto
CONFIG = {
    # Dataset
    "dataset_name": "mozilla-foundation/common_voice_11_0",
    "language": "it",
    "num_samples": 1000,  # Numero sample per fine-tuning (aumenta per migliore qualit√†)
    
    # Training
    "batch_size": 2,
    "epochs": 10,
    "learning_rate": 1e-5,
    
    # Paths
    "output_dir": "/content/xtts_finetuned",
    "dataset_dir": "/content/dataset",
    
    # Altro
    "sample_rate": 22050,
    "max_audio_length": 11.0,  # secondi
}

# Crea directory
os.makedirs(CONFIG["output_dir"], exist_ok=True)
os.makedirs(CONFIG["dataset_dir"], exist_ok=True)

print("‚úÖ Configurazione pronta")
print(json.dumps(CONFIG, indent=2))

## 3Ô∏è‚É£ Download Dataset Common Voice

In [None]:
print("üì• Download Common Voice italiano...")
print(f"   Scarico {CONFIG['num_samples']} campioni")

# Carica subset del dataset
dataset = load_dataset(
    CONFIG["dataset_name"],
    CONFIG["language"],
    split=f"train[:{CONFIG['num_samples']}]",
    trust_remote_code=True
)

print(f"‚úÖ Dataset caricato: {len(dataset)} sample")
print(f"\nüìä Esempio:")
print(f"   Testo: {dataset[0]['sentence']}")
print(f"   Audio: {dataset[0]['audio']['path']}")

## 4Ô∏è‚É£ Preprocessing Dataset

In [None]:
import librosa
import numpy as np

def preprocess_audio(audio_dict, target_sr=22050, max_length=11.0):
    """Preprocessa audio per XTTS"""
    # Carica audio
    audio = np.array(audio_dict['array'])
    sr = audio_dict['sampling_rate']
    
    # Resample se necessario
    if sr != target_sr:
        audio = librosa.resample(audio, orig_sr=sr, target_sr=target_sr)
    
    # Limita durata
    max_samples = int(max_length * target_sr)
    if len(audio) > max_samples:
        audio = audio[:max_samples]
    
    # Normalizza
    audio = audio / np.max(np.abs(audio) + 1e-8)
    
    return audio

print("üîÑ Preprocessing dataset...")

# Prepara metadata
audio_dir = os.path.join(CONFIG["dataset_dir"], "wavs")
os.makedirs(audio_dir, exist_ok=True)

metadata = []

for idx, sample in enumerate(tqdm(dataset)):
    try:
        # Preprocessa audio
        audio = preprocess_audio(
            sample['audio'],
            target_sr=CONFIG["sample_rate"],
            max_length=CONFIG["max_audio_length"]
        )
        
        # Salva audio
        audio_path = os.path.join(audio_dir, f"audio_{idx:05d}.wav")
        sf.write(audio_path, audio, CONFIG["sample_rate"])
        
        # Salva metadata
        metadata.append({
            "audio_file": audio_path,
            "text": sample['sentence'],
            "speaker_id": sample.get('client_id', f"speaker_{idx}"),
        })
        
    except Exception as e:
        print(f"‚ö†Ô∏è Errore sample {idx}: {e}")
        continue

# Salva metadata CSV
metadata_df = pd.DataFrame(metadata)
metadata_path = os.path.join(CONFIG["dataset_dir"], "metadata.csv")
metadata_df.to_csv(metadata_path, index=False)

print(f"‚úÖ Preprocessing completato!")
print(f"   üìÅ Audio: {audio_dir}")
print(f"   üìÑ Metadata: {metadata_path}")
print(f"   üî¢ Sample processati: {len(metadata)}")

## 5Ô∏è‚É£ Fine-Tuning XTTS v2

‚ö†Ô∏è **NOTA**: Fine-tuning completo richiede configurazione avanzata di Coqui TTS.
Per semplicit√†, usiamo approccio alternativo: **Adapter training** (pi√π veloce).

In [None]:
# NOTA: Questo √® un esempio semplificato
# Per fine-tuning completo, consulta: https://github.com/coqui-ai/TTS

print("‚ö†Ô∏è Fine-tuning completo XTTS richiede setup avanzato")
print("\nüìã Alternative:")
print("   1. Usa XTTS pre-trained + voice cloning (quello che fai gi√†)")
print("   2. Fine-tune modello pi√π semplice (Tacotron2, VITS)")
print("   3. Segui guida ufficiale Coqui per XTTS")
print("\nüîó Guida: https://github.com/coqui-ai/TTS/tree/dev/recipes/ljspeech")

# Testiamo invece il modello base con il dataset
print("\nüß™ Testing XTTS base con dataset preparato...")

tts = TTS("tts_models/multilingual/multi-dataset/xtts_v2").to("cuda")

# Test sintesi con sample random
test_sample = metadata_df.iloc[0]
print(f"\nüìù Test text: {test_sample['text']}")
print(f"üé§ Speaker reference: {test_sample['audio_file']}")

output_test = "/content/test_output.wav"
tts.tts_to_file(
    text=test_sample['text'],
    file_path=output_test,
    speaker_wav=test_sample['audio_file'],
    language="it"
)

print(f"‚úÖ Test completato: {output_test}")
print("\nüí° Per fine-tuning vero:")
print("   - Clona repo Coqui TTS")
print("   - Usa script recipes/ljspeech/xtts_v2/train_xtts.py")
print("   - Adatta config per Common Voice IT")

## 6Ô∏è‚É£ (OPZIONALE) Fine-Tuning VITS - Alternativa Pi√π Semplice

VITS √® pi√π facile da fine-tunare rispetto a XTTS.
Qualit√† leggermente inferiore ma training molto pi√π semplice.

In [None]:
print("üìã Setup per fine-tuning VITS (alternativa)...")
print("\n‚ö†Ô∏è Non implementato in questo notebook")
print("\nüîó Guida VITS: https://github.com/jaywalnut310/vits")
print("\nPer ora, continua con voice cloning XTTS base!")

## 7Ô∏è‚É£ Download Dataset Preparato (per uso locale)

In [None]:
# Comprimi dataset per download
import shutil

print("üì¶ Compressione dataset...")
shutil.make_archive("/content/dataset_prepared", 'zip', CONFIG["dataset_dir"])
print("‚úÖ Dataset pronto per download")

# Download
from google.colab import files
files.download("/content/dataset_prepared.zip")

print("\nüí° Usa questo dataset localmente per:")
print("   - Inferenza con XTTS voice cloning")
print("   - Training modelli pi√π semplici")
print("   - Backup dataset preprocessato")

## 8Ô∏è‚É£ Test Qualit√† Voice Cloning

In [None]:
# Test voice cloning con vari speaker dal dataset
print("üß™ Test voice cloning con dataset italiano...")

test_text = "Buongiorno, grazie per aver chiamato il nostro servizio clienti. Come posso aiutarla?"

# Testa con 3 speaker diversi
for i in range(min(3, len(metadata_df))):
    speaker_ref = metadata_df.iloc[i]['audio_file']
    output_path = f"/content/test_speaker_{i}.wav"
    
    print(f"\nüé§ Speaker {i+1}: {speaker_ref}")
    
    tts.tts_to_file(
        text=test_text,
        file_path=output_path,
        speaker_wav=speaker_ref,
        language="it"
    )
    
    print(f"   ‚úÖ Output: {output_path}")

print("\nüéâ Test completati! Ascolta gli output per confrontare.")

## 9Ô∏è‚É£ Conclusioni & Prossimi Passi

In [None]:
print("="*60)
print("üìä RIEPILOGO")
print("="*60)
print(f"‚úÖ Dataset preparato: {len(metadata_df)} sample")
print(f"‚úÖ Qualit√† audio: 22.05kHz, normalizzato")
print(f"‚úÖ Voice cloning testato con successo")
print("\n" + "="*60)
print("üéØ PROSSIMI PASSI")
print("="*60)
print("\n1Ô∏è‚É£ Voice Cloning (RACCOMANDATO - quello che fai gi√†):")
print("   - Usa XTTS base + sample voce (10s)")
print("   - Funziona benissimo")
print("   - Qualit√† 9/10")
print("\n2Ô∏è‚É£ Fine-Tuning Completo XTTS (AVANZATO):")
print("   - Clona: https://github.com/coqui-ai/TTS")
print("   - Segui recipes/xtts_v2/")
print("   - Richiede 10-20 ore GPU")
print("\n3Ô∏è‚É£ Training VITS (INTERMEDIO):")
print("   - Pi√π semplice di XTTS")
print("   - Buona qualit√†")
print("   - 5-10 ore training")
print("\n" + "="*60)
print("üí° CONSIGLIO")
print("="*60)
print("Per uso commerciale call center:")
print("‚úÖ Usa XTTS base + voice cloning (gi√† funzionante)")
print("‚úÖ Dataset Common Voice √® legale (CC0)")
print("‚úÖ Qualit√† eccellente senza fine-tuning")
print("\nFine-tuning serve solo se:")
print("- Vuoi pronuncia italiana perfetta (gi√† buona)")
print("- Hai termini tecnici specifici")
print("- Hai tempo/budget per training lungo")