# üé§ DOWNLOAD E PREPARAZIONE DATASET ITALIANO PER PIPER
## Dataset: giacomoarienti/female-LJSpeech-italian

**Questo notebook scarica il dataset italiano e lo salva in Google Drive**

---

### Cosa fa questo notebook:
- ‚úÖ Scarica 5856 file audio in italiano da Hugging Face
- ‚úÖ Converte tutto a 16000Hz, Mono, 16-bit
- ‚úÖ Salva in Google Drive (riutilizzabile per sempre)
- ‚úÖ Verifica completezza e correttezza del dataset

### Risultato finale:
- üìÅ Directory: `/content/drive/MyDrive/ljspeech_italian/`
- üéµ 5856 file audio (8h 23m totali)
- üìÑ metadata.csv con tutte le trascrizioni
- üíæ Salvato permanentemente in Google Drive (~1.5 GB)

---

## üìÇ STEP 0: Monta Google Drive

**IMPORTANTE:** Clicca sul link che appare e autorizza l'accesso a Google Drive

In [None]:
from google.colab import drive

print("üìÇ Montaggio Google Drive...\n")
drive.mount('/content/drive')
print("\n‚úÖ Google Drive montato con successo!")

üìÇ Montaggio Google Drive...

Mounted at /content/drive

‚úÖ Google Drive montato con successo!


## üì¶ STEP 1: Installazione dipendenze

In [None]:
print("üì¶ Installazione dipendenze...")

!pip install -q datasets librosa soundfile pandas tqdm

print("‚úÖ Dipendenze installate!\n")

üì¶ Installazione dipendenze...
‚úÖ Dipendenze installate!



## üì• STEP 2: Download dataset italiano

In [None]:
from datasets import load_dataset, Audio
import os

print("="*60)
print("  üì• DOWNLOAD DATASET ITALIANO")
print("="*60)

print("\nüìö Scarico dataset 'giacomoarienti/female-LJSpeech-italian'...")
print("‚è±Ô∏è  Questo richieder√† alcuni minuti...\n")

try:
    # Carica dataset SENZA decodificare automaticamente l'audio
    dataset = load_dataset("giacomoarienti/female-LJSpeech-italian", split="train")

    # Rimuovi il decoding automatico dell'audio
    dataset = dataset.cast_column("audio", Audio(decode=False))

    print(f"‚úÖ Dataset scaricato: {len(dataset)} campioni audio\n")

except Exception as e:
    print(f"‚ùå Errore durante il download: {e}")
    raise

  üì• DOWNLOAD DATASET ITALIANO

üìö Scarico dataset 'giacomoarienti/female-LJSpeech-italian'...
‚è±Ô∏è  Questo richieder√† alcuni minuti...



The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


README.md:   0%|          | 0.00/426 [00:00<?, ?B/s]

data/train-00000-of-00002.parquet:   0%|          | 0.00/398M [00:00<?, ?B/s]

data/train-00001-of-00002.parquet:   0%|          | 0.00/397M [00:00<?, ?B/s]

Generating train split:   0%|          | 0/5856 [00:00<?, ? examples/s]

‚úÖ Dataset scaricato: 5856 campioni audio



## üìÅ STEP 3: Creazione struttura directory in Google Drive

In [None]:
print("="*60)
print("  üìÅ CREAZIONE STRUTTURA DATASET")
print("="*60)

# IMPORTANTE: Salva in Google Drive!
dataset_dir = "/content/drive/MyDrive/ljspeech_italian"
wavs_dir = f"{dataset_dir}/wavs"

# Crea directory
os.makedirs(wavs_dir, exist_ok=True)
print(f"\n‚úÖ Directory create in Google Drive:")
print(f"   üìÅ {dataset_dir}/")
print(f"   üìÅ {wavs_dir}/")
print(f"\nüíæ Il dataset sar√† salvato permanentemente in Google Drive!\n")

  üìÅ CREAZIONE STRUTTURA DATASET

‚úÖ Directory create in Google Drive:
   üìÅ /content/drive/MyDrive/ljspeech_italian/
   üìÅ /content/drive/MyDrive/ljspeech_italian/wavs/

üíæ Il dataset sar√† salvato permanentemente in Google Drive!



## üîä STEP 4: Conversione e salvataggio audio

**Nota:** Questo step richiede 5-10 minuti. I file vengono salvati direttamente in Google Drive.

In [None]:
import soundfile as sf
import librosa
import numpy as np
from tqdm import tqdm
import re
import io

print("="*60)
print("  üîä CONVERSIONE AUDIO E TRASCRIZIONI")
print("="*60)

# Debug: mostra struttura del primo elemento
print("\nüîç Debug: struttura dataset...")
first_item = dataset[0]
print(f"Campi disponibili: {list(first_item.keys())}")
if 'audio' in first_item:
    print(f"Campi audio: {list(first_item['audio'].keys())}")
print()

metadata_lines = []
errors = 0
success = 0

print("‚öôÔ∏è  Conversione in corso (16000Hz, Mono, 16-bit)...")
print("üíæ Salvataggio in Google Drive...\n")

for idx, item in enumerate(tqdm(dataset, desc="Processando")):
    try:
        # Nome file
        if 'id' in item and item['id']:
            filename = item['id']
        else:
            filename = f"audio_{idx:06d}"

        wav_path = f"{wavs_dir}/{filename}.wav"

        # Ottieni i bytes dell'audio
        audio_bytes = item['audio']['bytes']

        # Carica audio dai bytes
        audio, sr_original = sf.read(io.BytesIO(audio_bytes))

        # Converti a mono se stereo
        if len(audio.shape) > 1:
            audio = audio.mean(axis=1)

        # Resample a 16000Hz se necessario
        if sr_original != 16000:
            audio = librosa.resample(audio, orig_sr=sr_original, target_sr=16000)

        # Normalizza audio
        if np.max(np.abs(audio)) > 0:
            audio = audio / np.max(np.abs(audio)) * 0.95

        # Salva come WAV (16000Hz, Mono, 16-bit)
        sf.write(wav_path, audio, 16000, subtype='PCM_16')

        # Ottieni trascrizione - PROVA TUTTI I CAMPI POSSIBILI
        text = None
        for field in ['text', 'sentence', 'transcription', 'transcript', 'normalized_text']:
            if field in item and item[field]:
                text = str(item[field]).strip()
                if text:  # Verifica che non sia stringa vuota
                    break

        # Debug: mostra primi 3 errori di testo mancante
        if not text:
            errors += 1
            if errors <= 3:
                print(f"\n‚ö†Ô∏è  File {idx} ({filename}): testo non trovato!")
                print(f"   Campi disponibili: {list(item.keys())}")
            if os.path.exists(wav_path):
                os.remove(wav_path)
            continue

        # Pulizia testo
        text = text.replace('\n', ' ').replace('\r', ' ')
        text = re.sub(r'\s+', ' ', text)

        # Aggiungi a metadata
        if len(text) > 0:
            metadata_lines.append(f"{filename}|{text}")
            success += 1

            # Debug: mostra prime 3 trascrizioni
            if success <= 3:
                print(f"\n‚úÖ {filename}: {text[:60]}...")
        else:
            errors += 1
            if os.path.exists(wav_path):
                os.remove(wav_path)

    except Exception as e:
        errors += 1
        if errors <= 5:
            print(f"\n‚ùå Errore file {idx}: {e}")
        if 'wav_path' in locals() and os.path.exists(wav_path):
            try:
                os.remove(wav_path)
            except:
                pass

print(f"\n‚úÖ Conversione completata!")
print(f"   ‚úì File salvati: {success}")
print(f"   ‚úó Errori: {errors}")
print(f"   üíæ Tutto salvato in Google Drive!")

# IMPORTANTE: Verifica che abbiamo trascrizioni!
if len(metadata_lines) == 0:
    print("\n‚ùå ERRORE CRITICO: Nessuna trascrizione estratta!")
    print("   Il dataset potrebbe non avere il campo testo corretto.")
    raise ValueError("Nessuna trascrizione estratta dal dataset!")
else:
    print(f"\n‚úÖ {len(metadata_lines)} trascrizioni pronte per il salvataggio!")

  üîä CONVERSIONE AUDIO E TRASCRIZIONI

üîç Debug: struttura dataset...
Campi disponibili: ['text', 'audio']
Campi audio: ['bytes', 'path']

‚öôÔ∏è  Conversione in corso (16000Hz, Mono, 16-bit)...
üíæ Salvataggio in Google Drive...



Processando:   0%|          | 6/5856 [00:00<01:41, 57.68it/s]


‚úÖ audio_000000: e Antoni non aveva voglia di cantare, col cappuccio sul naso...

‚úÖ audio_000001: - Questo qui ha pi√π giudizio del grande! - diceva la cugina ...

‚úÖ audio_000002: - Ma ancora c√® tempo. - S√¨, - afferm√≤ Alessi;...


Processando: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 5856/5856 [02:08<00:00, 45.53it/s]


‚úÖ Conversione completata!
   ‚úì File salvati: 5856
   ‚úó Errori: 0
   üíæ Tutto salvato in Google Drive!

‚úÖ 5856 trascrizioni pronte per il salvataggio!





## üíæ STEP 5: Salva metadata.csv

In [None]:
print("="*60)
print("  üíæ SALVATAGGIO METADATA")
print("="*60)

metadata_path = f"{dataset_dir}/metadata.csv"

with open(metadata_path, 'w', encoding='utf-8') as f:
    f.write('\n'.join(metadata_lines))

print(f"\n‚úÖ metadata.csv salvato: {len(metadata_lines)} righe")
print(f"   üìÅ {metadata_path}\n")

  üíæ SALVATAGGIO METADATA

‚úÖ metadata.csv salvato: 5856 righe
   üìÅ /content/drive/MyDrive/ljspeech_italian/metadata.csv



## üîç STEP 6: VERIFICA COMPLETA DATASET

In [None]:
import pandas as pd
import wave
from pathlib import Path
import random

print("="*60)
print("  üîç VERIFICA DATASET")
print("="*60)

# Verifica metadata
metadata = pd.read_csv(metadata_path, sep='|', header=None, names=['filename', 'text'])
num_metadata = len(metadata)

# Verifica WAV
wav_files = list(Path(wavs_dir).glob("*.wav"))
num_wavs = len(wav_files)

print(f"\nüìä Statistiche:")
print(f"   üìÑ Righe metadata: {num_metadata}")
print(f"   üéµ File WAV: {num_wavs}")

if num_metadata == num_wavs:
    print(f"   ‚úÖ Corrispondenza perfetta!")
else:
    print(f"   ‚ö†Ô∏è  Discrepanza: {abs(num_metadata - num_wavs)} file")

# Verifica formato audio su 5 file casuali
print(f"\nüîä Test 5 file audio casuali:")

sample_files = random.sample(wav_files, min(5, len(wav_files)))
all_correct = True

for wav_path in sample_files:
    try:
        with wave.open(str(wav_path), 'rb') as wav:
            sr = wav.getframerate()
            channels = wav.getnchannels()
            sampwidth = wav.getsampwidth()
            frames = wav.getnframes()
            duration = frames / sr

            is_correct = (sr == 16000 and channels == 1 and sampwidth == 2)
            status = "‚úÖ" if is_correct else "‚ùå"

            print(f"{status} {wav_path.name}: {sr}Hz, {channels}ch, {sampwidth*8}bit, {duration:.2f}s")

            if not is_correct:
                all_correct = False
    except Exception as e:
        print(f"‚ùå {wav_path.name}: Errore - {e}")
        all_correct = False

# Mostra prime 5 trascrizioni
print(f"\nüìù Prime 5 trascrizioni:")
for idx, row in metadata.head(5).iterrows():
    text_preview = row['text'][:70] + "..." if len(row['text']) > 70 else row['text']
    print(f"   {row['filename']}: {text_preview}")

# Calcola durata totale
print(f"\n‚è±Ô∏è  Calcolo durata totale...")
total_duration = 0
sample_size = min(100, len(wav_files))

for wav_file in tqdm(wav_files[:sample_size], desc="Campionamento"):
    try:
        with wave.open(str(wav_file), 'rb') as wav:
            frames = wav.getnframes()
            rate = wav.getframerate()
            total_duration += frames / rate
    except:
        pass

# Estrapola durata totale
if sample_size > 0:
    avg_duration = total_duration / sample_size
    estimated_total = avg_duration * len(wav_files)

    hours = int(estimated_total // 3600)
    minutes = int((estimated_total % 3600) // 60)
    seconds = int(estimated_total % 60)

    print(f"\nüìä Durata stimata totale: {hours}h {minutes}m {seconds}s")
    print(f"üìä Durata media per file: {avg_duration:.2f}s")

# RIEPILOGO FINALE
print("\n" + "="*60)
print("  üìä RIEPILOGO FINALE")
print("="*60)

if all_correct and num_metadata == num_wavs and num_wavs > 0:
    print("\nüéâ DATASET PRONTO PER IL TRAINING!")
    print(f"\n‚úÖ Tutto corretto:")
    print(f"   ‚úì Dataset: giacomoarienti/female-LJSpeech-italian")
    print(f"   ‚úì {num_wavs} file audio")
    print(f"   ‚úì {num_metadata} trascrizioni")
    print(f"   ‚úì Formato: 16000Hz, Mono, 16-bit")
    if 'hours' in locals():
        print(f"   ‚úì Durata: ~{hours}h {minutes}m")
    print(f"\nüíæ SALVATO IN GOOGLE DRIVE:")
    print(f"   üìÅ {dataset_dir}")
    print(f"\nüí° IMPORTANTE:")
    print(f"   ‚Ä¢ Il dataset √® ora permanentemente salvato in Google Drive")
    print(f"   ‚Ä¢ Puoi chiudere Colab quando vuoi")
    print(f"   ‚Ä¢ Per il training, usa il path: {dataset_dir}")
else:
    print("\n‚ö†Ô∏è  Alcuni problemi rilevati:")
    if not all_correct:
        print("   ‚Ä¢ Formato audio non uniforme")
    if num_metadata != num_wavs:
        print(f"   ‚Ä¢ Discrepanza metadata/audio: {num_metadata} vs {num_wavs}")
    print("\nVerifica i dettagli sopra prima di procedere.")

print("\n" + "="*60)

  üîç VERIFICA DATASET

üìä Statistiche:
   üìÑ Righe metadata: 5856
   üéµ File WAV: 5856
   ‚úÖ Corrispondenza perfetta!

üîä Test 5 file audio casuali:
‚úÖ audio_004884.wav: 16000Hz, 1ch, 16bit, 5.59s
‚úÖ audio_001039.wav: 16000Hz, 1ch, 16bit, 5.00s
‚úÖ audio_003752.wav: 16000Hz, 1ch, 16bit, 5.55s
‚úÖ audio_005223.wav: 16000Hz, 1ch, 16bit, 3.14s
‚úÖ audio_001077.wav: 16000Hz, 1ch, 16bit, 4.87s

üìù Prime 5 trascrizioni:
   audio_000000: e Antoni non aveva voglia di cantare, col cappuccio sul naso, e gli to...
   audio_000001: - Questo qui ha pi√π giudizio del grande! - diceva la cugina Anna.
   audio_000002: - Ma ancora c√® tempo. - S√¨, - afferm√≤ Alessi;
   audio_000003: so che non ve le devo io.
   audio_000004: o lo zio Crocifisso, che ci aveva la sua roba di qua e di l√†

‚è±Ô∏è  Calcolo durata totale...


Campionamento: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 100/100 [01:13<00:00,  1.35it/s]


üìä Durata stimata totale: 8h 6m 26s
üìä Durata media per file: 4.98s

  üìä RIEPILOGO FINALE

üéâ DATASET PRONTO PER IL TRAINING!

‚úÖ Tutto corretto:
   ‚úì Dataset: giacomoarienti/female-LJSpeech-italian
   ‚úì 5856 file audio
   ‚úì 5856 trascrizioni
   ‚úì Formato: 16000Hz, Mono, 16-bit
   ‚úì Durata: ~8h 6m

üíæ SALVATO IN GOOGLE DRIVE:
   üìÅ /content/drive/MyDrive/ljspeech_italian

üí° IMPORTANTE:
   ‚Ä¢ Il dataset √® ora permanentemente salvato in Google Drive
   ‚Ä¢ Puoi chiudere Colab quando vuoi
   ‚Ä¢ Per il training, usa il path: /content/drive/MyDrive/ljspeech_italian






In [None]:

import os
import pandas as pd
from pathlib import Path

print("="*60)
print("  üîç VERIFICA METADATI E DATASET")
print("="*60)

# Path dataset in Google Drive
dataset_dir = "/content/drive/MyDrive/ljspeech_italian"
metadata_path = f"{dataset_dir}/metadata.csv"
wavs_dir = f"{dataset_dir}/wavs"

# 1. Verifica esistenza metadata.csv
print("\n1Ô∏è‚É£ Verifica file metadata.csv...")
if os.path.exists(metadata_path):
    file_size = os.path.getsize(metadata_path) / (1024 * 1024)  # MB
    print(f"   ‚úÖ File trovato: {metadata_path}")
    print(f"   üíæ Dimensione: {file_size:.2f} MB")
else:
    print(f"   ‚ùå File NON trovato: {metadata_path}")
    print("   Devi rieseguire il notebook di download!")
    exit()

# 2. Carica e analizza metadata.csv
print("\n2Ô∏è‚É£ Analisi contenuto metadata.csv...")
try:
    # Leggi il file
    metadata = pd.read_csv(metadata_path, sep='|', header=None, names=['filename', 'text'])
    num_lines = len(metadata)
    print(f"   ‚úÖ Righe totali: {num_lines}")

    # Verifica formato
    if metadata.shape[1] == 2:
        print(f"   ‚úÖ Formato corretto: 2 colonne (filename|text)")
    else:
        print(f"   ‚ùå Formato errato: {metadata.shape[1]} colonne invece di 2!")

except Exception as e:
    print(f"   ‚ùå Errore lettura file: {e}")
    exit()

# 3. Mostra prime 5 trascrizioni
print("\n3Ô∏è‚É£ Prime 5 trascrizioni:")
for idx, row in metadata.head(5).iterrows():
    text_preview = row['text'][:60] + "..." if len(row['text']) > 60 else row['text']
    print(f"   {idx+1}. {row['filename']}: {text_preview}")

# 4. Statistiche testo
print("\n4Ô∏è‚É£ Statistiche trascrizioni:")
text_lengths = metadata['text'].str.len()
print(f"   üìä Lunghezza media: {text_lengths.mean():.0f} caratteri")
print(f"   üìä Lunghezza min: {text_lengths.min()} caratteri")
print(f"   üìä Lunghezza max: {text_lengths.max()} caratteri")

# Verifica righe problematiche
empty_text = metadata[metadata['text'].str.strip() == '']
if len(empty_text) > 0:
    print(f"   ‚ö†Ô∏è  {len(empty_text)} righe con testo vuoto!")
else:
    print(f"   ‚úÖ Nessuna riga con testo vuoto")

# 5. Verifica corrispondenza con file audio
print("\n5Ô∏è‚É£ Verifica corrispondenza con file WAV...")
if os.path.exists(wavs_dir):
    wav_files = list(Path(wavs_dir).glob("*.wav"))
    num_wavs = len(wav_files)
    print(f"   üìÑ File in metadata.csv: {num_lines}")
    print(f"   üéµ File WAV in wavs/: {num_wavs}")

    if num_lines == num_wavs:
        print(f"   ‚úÖ Corrispondenza PERFETTA!")
    else:
        diff = abs(num_lines - num_wavs)
        print(f"   ‚ö†Ô∏è  Discrepanza: {diff} file di differenza!")

    # Verifica che i filename nel metadata esistano come WAV
    metadata_files = set(metadata['filename'].astype(str))
    actual_files = set(f.stem for f in wav_files)

    missing = metadata_files - actual_files
    if len(missing) > 0:
        print(f"   ‚ö†Ô∏è  {len(missing)} file citati in metadata ma mancanti in wavs/")
        print(f"      Esempi: {list(missing)[:3]}")
    else:
        print(f"   ‚úÖ Tutti i file citati in metadata esistono!")

else:
    print(f"   ‚ùå Cartella wavs/ non trovata!")

# 6. Riepilogo finale
print("\n" + "="*60)
print("  üìä RIEPILOGO FINALE")
print("="*60)

if os.path.exists(metadata_path) and num_lines > 0 and num_lines == num_wavs:
    print("\nüéâ TUTTO PERFETTO!")
    print(f"   ‚úÖ metadata.csv: {num_lines} righe")
    print(f"   ‚úÖ File WAV: {num_wavs}")
    print(f"   ‚úÖ Corrispondenza perfetta")
    print(f"\nüíæ Dataset completo salvato in Google Drive!")
    print(f"   üìÅ {dataset_dir}")
    print(f"\nüöÄ Sei pronto per il training!")
else:
    print("\n‚ö†Ô∏è  Ci sono alcuni problemi:")
    if num_lines == 0:
        print("   ‚Ä¢ metadata.csv √® vuoto!")
    if num_lines != num_wavs:
        print(f"   ‚Ä¢ Discrepanza file: {num_lines} vs {num_wavs}")
    print("\nüí° Potrebbe essere necessario rieseguire il download.")

print("\n" + "="*60)

  üîç VERIFICA METADATI E DATASET

1Ô∏è‚É£ Verifica file metadata.csv...
   ‚úÖ File trovato: /content/drive/MyDrive/ljspeech_italian/metadata.csv
   üíæ Dimensione: 0.53 MB

2Ô∏è‚É£ Analisi contenuto metadata.csv...
   ‚úÖ Righe totali: 5856
   ‚úÖ Formato corretto: 2 colonne (filename|text)

3Ô∏è‚É£ Prime 5 trascrizioni:
   1. audio_000000: e Antoni non aveva voglia di cantare, col cappuccio sul naso...
   2. audio_000001: - Questo qui ha pi√π giudizio del grande! - diceva la cugina ...
   3. audio_000002: - Ma ancora c√® tempo. - S√¨, - afferm√≤ Alessi;
   4. audio_000003: so che non ve le devo io.
   5. audio_000004: o lo zio Crocifisso, che ci aveva la sua roba di qua e di l√†

4Ô∏è‚É£ Statistiche trascrizioni:
   üìä Lunghezza media: 81 caratteri
   üìä Lunghezza min: 11 caratteri
   üìä Lunghezza max: 166 caratteri
   ‚úÖ Nessuna riga con testo vuoto

5Ô∏è‚É£ Verifica corrispondenza con file WAV...
   üìÑ File in metadata.csv: 5856
   üéµ File WAV in wavs/: 5856
   ‚úÖ Co