# üé§ Preparazione Dataset per Piper TTS

Questo notebook prepara il dataset LJSpeech-Italian per training con Piper TTS.

## üìä Dataset Disponibili:

### 1. z-uo/female-LJSpeech-italian (CONSIGLIATO per call center)
- üé§ Voce femminile
- ‚è±Ô∏è Durata: 8h 23m
- üîä Sample rate: 16kHz
- üì¶ ~600 MB

### 2. z-uo/male-LJSpeech-italian
- üé§ Voce maschile
- ‚è±Ô∏è Durata: 31h 45m
- üîä Sample rate: 16kHz
- üì¶ ~2.5 GB

## ‚öôÔ∏è Setup:
1. Runtime ‚Üí Change runtime type ‚Üí **GPU T4**
2. Monta Google Drive
3. Scegli dataset (female/male) nella cella di download
4. Esegui celle in ordine

## 1Ô∏è‚É£ Setup Ambiente

In [None]:
# Monta Google Drive
from google.colab import drive
drive.mount('/content/drive')

In [None]:
# Installa dipendenze
!pip install -q datasets soundfile tqdm torchcodec
print("‚úÖ Installazione completata!")

## 2Ô∏è‚É£ Download LJSpeech-Italian

In [None]:
# Verifica RAM e GPU disponibili
import psutil
import torch

# RAM
ram_total = psutil.virtual_memory().total / 1e9
ram_available = psutil.virtual_memory().available / 1e9
ram_percent = psutil.virtual_memory().percent

print("üíæ MEMORIA RAM:")
print(f"   Totale: {ram_total:.1f} GB")
print(f"   Disponibile: {ram_available:.1f} GB")
print(f"   Uso: {ram_percent:.1f}%")

if ram_available < 5:
    print("\n‚ö†Ô∏è  RAM BASSA! Raccomandazioni:")
    print("   - Usa MAX_SAMPLES=500 per test")
    print("   - Riavvia runtime (Runtime ‚Üí Restart runtime)")
    print("   - Chiudi altre tab/notebook Colab")
else:
    print("\n‚úÖ RAM sufficiente per dataset completo")

# GPU (se disponibile)
print("\nüéÆ GPU:")
if torch.cuda.is_available():
    print(f"   Disponibile: {torch.cuda.get_device_name(0)}")
    print(f"   VRAM: {torch.cuda.get_device_properties(0).total_memory / 1e9:.1f} GB")
else:
    print("   ‚ö†Ô∏è  GPU non disponibile (non necessaria per download)")

# Disco
disk = psutil.disk_usage('/content')
print(f"\nüíø DISCO:")
print(f"   Libero: {disk.free / 1e9:.1f} GB")

if disk.free / 1e9 < 10:
    print("   ‚ö†Ô∏è  Spazio limitato! Dataset potrebbe non completarsi")

## üîç Verifica Risorse (Opzionale ma Consigliato)

In [None]:
# ============================================================
#  DOWNLOAD LJSPEECH-IT - VERSIONE OTTIMIZZATA (LOW MEMORY)
# ============================================================

print("="*60)
print("  DOWNLOAD LJSPEECH-IT - STREAMING MODE")
print("="*60)
print()

import os
from datasets import load_dataset
from tqdm import tqdm
import soundfile as sf
import gc  # Garbage collector per liberare memoria

# Installa torchcodec se mancante
try:
    import torchcodec
except ImportError:
    print("üì¶ Installazione torchcodec...")
    !pip install -q torchcodec
    print("‚úÖ torchcodec installato")

# ============================================================
# ‚öôÔ∏è  CONFIGURAZIONE DOWNLOAD
# ============================================================

# Scegli dataset
DATASET_NAME = "z-uo/female-LJSpeech-italian"  # 5856 file, 8h 23m, voce femminile
# DATASET_NAME = "z-uo/male-LJSpeech-italian"  # 13k+ file, 31h 45m, voce maschile

# ‚ö†Ô∏è  IMPORTANTE: Limita numero di sample
# MAX_SAMPLES = None        # ‚úÖ SCARICA TUTTI I FILE (5856 per female)
# MAX_SAMPLES = 100         # üß™ Test rapido (100 file, ~2 minuti)
# MAX_SAMPLES = 500         # üß™ Test medio (500 file, ~10 minuti)
# MAX_SAMPLES = 1000        # üß™ Test grande (1000 file, ~20 minuti)

MAX_SAMPLES = None  # ‚¨ÖÔ∏è MODIFICA QUI! (None = TUTTI I FILE)

# ============================================================

if MAX_SAMPLES is None:
    print("‚ö†Ô∏è  MODALIT√Ä: DOWNLOAD COMPLETO")
    print(f"   Verranno scaricati TUTTI i file del dataset")
    print(f"   Tempo stimato: ~2 ore per female, ~8 ore per male")
    print()
else:
    print(f"‚ö†Ô∏è  MODALIT√Ä: DOWNLOAD LIMITATO")
    print(f"   Verranno scaricati solo {MAX_SAMPLES} file")
    print(f"   Tempo stimato: ~{MAX_SAMPLES * 0.8 / 60:.0f} minuti")
    print()

print(f"üì• Scaricamento dataset: {DATASET_NAME}...")
print("üí° Uso streaming mode per risparmiare memoria")

# Carica in STREAMING MODE per non saturare la RAM
dataset = load_dataset(DATASET_NAME, split="train", streaming=True)

# Crea directory su Drive
dataset_dir = "/content/drive/MyDrive/piper_training/dataset/ljspeech_italian"
wavs_dir = os.path.join(dataset_dir, "wavs")
os.makedirs(wavs_dir, exist_ok=True)

print(f"\nüíæ Salvataggio su Google Drive...")
print(f"üìÅ Percorso: {dataset_dir}")

# Prepara metadata
metadata_lines = []
processed = 0

# Processa sample uno alla volta (streaming)
for idx, item in enumerate(tqdm(dataset, desc="Salvando audio")):
    try:
        # Limita numero di sample se richiesto
        if MAX_SAMPLES and idx >= MAX_SAMPLES:
            print(f"\n‚è∏Ô∏è  Limite raggiunto: {MAX_SAMPLES} sample processati")
            break
        
        # Salva audio
        audio_filename = f"LJ_{idx:06d}.wav"
        audio_path = os.path.join(wavs_dir, audio_filename)
        
        # Estrai audio array e sample rate
        audio_data = item['audio']
        sf.write(audio_path, audio_data['array'], audio_data['sampling_rate'])
        
        # Aggiungi a metadata
        text = item['text']
        metadata_lines.append(f"{audio_filename}|{text}")
        
        processed += 1
        
        # Libera memoria ogni 100 file
        if processed % 100 == 0:
            gc.collect()
            
    except Exception as e:
        print(f"\n‚ö†Ô∏è  Errore sample {idx}: {e}")
        continue

# Salva metadata.csv
metadata_path = os.path.join(dataset_dir, "metadata.csv")
with open(metadata_path, 'w', encoding='utf-8') as f:
    f.write('\n'.join(metadata_lines))

print(f"\n‚úÖ Completato!")
print(f"   üìä {processed} file audio salvati")
print(f"   üìÑ metadata.csv creato")
print(f"   üíæ Totale: ~{processed * 0.5:.1f} MB")
print(f"\nüìã Dataset usato: {DATASET_NAME}")
print(f"   üé§ Tipo: {'Voce femminile' if 'female' in DATASET_NAME else 'Voce maschile'}")

if MAX_SAMPLES:
    print(f"\n‚ö†Ô∏è  ATTENZIONE: Download limitato a {processed} file su {5856 if 'female' in DATASET_NAME else 13000}+ disponibili")
    print(f"   Per scaricare tutto: imposta MAX_SAMPLES = None e riesegui")

# Libera memoria finale
del dataset
gc.collect()

## 3Ô∏è‚É£ Verifica Dataset

In [None]:
# Verifica file creati
import pandas as pd
from IPython.display import Audio, display

dataset_dir = "/content/drive/MyDrive/piper_training/dataset/ljspeech_italian"
metadata_path = os.path.join(dataset_dir, "metadata.csv")

# Carica metadata
df = pd.read_csv(metadata_path, sep='|', header=None, names=['filename', 'text'])
print(f"üìä Dataset info:")
print(f"   File audio: {len(df)}")
print(f"   Testo totale: {df['text'].str.len().sum()} caratteri")
print(f"   Testo medio: {df['text'].str.len().mean():.1f} caratteri/sample")

# Test audio casuale
sample_idx = 0
sample_row = df.iloc[sample_idx]
sample_audio = os.path.join(dataset_dir, "wavs", sample_row['filename'])

print(f"\nüé§ Sample test #{sample_idx}:")
print(f"   Testo: {sample_row['text']}")
print(f"   File: {sample_row['filename']}")

display(Audio(sample_audio))

## 4Ô∏è‚É£ Statistiche Dataset

In [None]:
import matplotlib.pyplot as plt
import numpy as np

# Lunghezza testi
text_lengths = df['text'].str.len()

plt.figure(figsize=(12, 4))

plt.subplot(1, 2, 1)
plt.hist(text_lengths, bins=50, edgecolor='black')
plt.xlabel('Lunghezza testo (caratteri)')
plt.ylabel('Frequenza')
plt.title('Distribuzione lunghezza testi')
plt.axvline(text_lengths.mean(), color='r', linestyle='--', label=f'Media: {text_lengths.mean():.1f}')
plt.legend()

plt.subplot(1, 2, 2)
word_counts = df['text'].str.split().str.len()
plt.hist(word_counts, bins=50, edgecolor='black')
plt.xlabel('Numero parole')
plt.ylabel('Frequenza')
plt.title('Distribuzione numero parole')
plt.axvline(word_counts.mean(), color='r', linestyle='--', label=f'Media: {word_counts.mean():.1f}')
plt.legend()

plt.tight_layout()
plt.show()

print("üìà Statistiche:")
print(f"   Lunghezza testo: {text_lengths.min()}-{text_lengths.max()} caratteri")
print(f"   Parole per sample: {word_counts.min()}-{word_counts.max()} parole")
print(f"   Totale parole: {word_counts.sum():.0f}")

## ‚úÖ Dataset Pronto!

Il dataset √® ora pronto per training con Piper TTS.

### Prossimi passi:
1. Segui la guida ufficiale Piper: https://github.com/rhasspy/piper
2. Configura training con il dataset preparato
3. Avvia training (richiede diverse ore su GPU)

### Note:
- Dataset: `/content/drive/MyDrive/piper_training/dataset/ljspeech_italian`
- Metadata: `metadata.csv` (formato: filename|text)
- Audio: cartella `wavs/` (formato WAV)