# Download Dataset GTZAN da Kaggle

Questo notebook scarica automaticamente il dataset GTZAN da Kaggle e lo organizza nella struttura del progetto.

## Prerequisiti

‚úÖ Credenziali Kaggle configurate (file `kaggle/kaggle.json` nel progetto)  
‚úÖ Librerie `kaggle` e `kagglehub` installate  
‚úÖ Ambiente virtuale attivo  

**Nota:** Se non hai ancora configurato Kaggle, esegui: `python scripts/setup_kaggle.py`

In [5]:
import os
import sys
import shutil
from pathlib import Path

# Setup ambiente Kaggle
project_root = Path.cwd().parent
kaggle_dir = project_root / 'kaggle'

print("üéµ GTZAN Dataset Download")
print("=" * 30)
print(f"üìÅ Progetto: {project_root.name}")
print(f"üîë Credenziali: {kaggle_dir}")

# Verifica credenziali
kaggle_config_path = kaggle_dir / 'kaggle.json'
if not kaggle_config_path.exists():
    print("‚ùå Credenziali mancanti - esegui: python scripts/setup_kaggle.py")
    sys.exit(1)

print("‚úÖ Credenziali Kaggle trovate")

# Configurazione manuale per evitare auto-autenticazione
os.environ['KAGGLE_CONFIG_DIR'] = str(kaggle_dir)
os.environ['KAGGLE_USERNAME'] = ''  # Reset per forzare lettura da file
os.environ['KAGGLE_KEY'] = ''       # Reset per forzare lettura da file

# Import delle librerie Kaggle
try:
    from kaggle.api.kaggle_api_extended import KaggleApi
    import kagglehub
    
    # Crea istanza API manuale (senza auto-autenticazione)
    kaggle_api = KaggleApi()
    kaggle_api.config_dir = str(kaggle_dir)
    kaggle_api.config_file = str(kaggle_config_path)
    
    print("‚úÖ Librerie Kaggle caricate")
    
except Exception as e:
    print(f"‚ùå Errore import: {e}")
    sys.exit(1)

üéµ GTZAN Dataset Download
üìÅ Progetto: naml_project
üîë Credenziali: /home/alepot55/Desktop/projects/naml_project/kaggle
‚úÖ Credenziali Kaggle trovate
‚úÖ Librerie Kaggle caricate


## Download Dataset GTZAN

In [6]:
# Dataset GTZAN su Kaggle
dataset_name = "andradaolteanu/gtzan-dataset-music-genre-classification"

print(f"üì• Downloading: {dataset_name}")
print("‚è≥ Questo richieder√† alcuni minuti...")

try:
    # Test autenticazione con la nostra API
    print("üîê Test autenticazione...")
    kaggle_api.authenticate()
    print("‚úÖ Autenticazione Kaggle OK")
    
    # Download del dataset usando kagglehub
    print("üì• Avvio download con kagglehub...")
    print("üí° Nota: Se gi√† presente in cache, sar√† veloce")
    
    path = kagglehub.dataset_download(dataset_name)
    print(f"‚úÖ Dataset disponibile in: {path}")
    
    # Verifica se √® una cartella valida
    path_obj = Path(path)
    if not path_obj.exists():
        raise FileNotFoundError(f"Percorso non trovato: {path}")
    
    print(f"üìÇ Percorso verificato: {path_obj}")
    print(f"üìä √à una directory: {path_obj.is_dir()}")
    
    # Conta file totali (con timeout per evitare blocchi)
    print("üîç Analisi contenuto...")
    downloaded_files = list(path_obj.rglob('*'))
    print(f"üìÅ File totali trovati: {len(downloaded_files)}")
    
    # Struttura principale (solo primo livello)
    print("\nüìÇ Struttura primo livello:")
    items = list(path_obj.iterdir())
    print(f"   üìã Elementi al primo livello: {len(items)}")
    
    for item in items:
        if item.is_dir():
            # Conta veloce senza ricorsione profonda
            try:
                first_level_count = len(list(item.iterdir()))
                print(f"  üìÇ {item.name}: {first_level_count} elementi")
            except:
                print(f"  üìÇ {item.name}: (non accessibile)")
        else:
            print(f"  üìÑ {item.name} ({item.stat().st_size / 1024:.1f} KB)")
            
    print(f"\nüéØ Download completato! Percorso: {path}")
            
except Exception as e:
    print(f"‚ùå Errore: {e}")
    print(f"‚ùå Tipo errore: {type(e)}")
    print("\nüí° Soluzioni:")
    print("   - Verifica che kaggle.json sia in naml_project/kaggle/")
    print("   - Verifica connessione internet")
    print("   - Rigenera token su kaggle.com/account")
    print("   - Riavvia il kernel e riprova")
    raise

üì• Downloading: andradaolteanu/gtzan-dataset-music-genre-classification
‚è≥ Questo richieder√† alcuni minuti...
üîê Test autenticazione...
‚úÖ Autenticazione Kaggle OK
üì• Avvio download con kagglehub...
üí° Nota: Se gi√† presente in cache, sar√† veloce
‚úÖ Dataset disponibile in: /home/alepot55/.cache/kagglehub/datasets/andradaolteanu/gtzan-dataset-music-genre-classification/versions/1
üìÇ Percorso verificato: /home/alepot55/.cache/kagglehub/datasets/andradaolteanu/gtzan-dataset-music-genre-classification/versions/1
üìä √à una directory: True
üîç Analisi contenuto...
üìÅ File totali trovati: 2024

üìÇ Struttura primo livello:
   üìã Elementi al primo livello: 1
  üìÇ Data: 4 elementi

üéØ Download completato! Percorso: /home/alepot55/.cache/kagglehub/datasets/andradaolteanu/gtzan-dataset-music-genre-classification/versions/1


## Organizzazione Dataset nel Progetto

In [7]:
# Organizza il dataset nella struttura del progetto
data_dir = project_root / 'data' / 'gtzan'
data_dir.mkdir(parents=True, exist_ok=True)

print(f"üìÅ Organizzazione in: {data_dir}")

if 'path' in locals():
    source_path = Path(path)
    print(f"üìÇ Sorgente: {source_path}")
    
    # Verifica rapida che la sorgente esista
    if not source_path.exists():
        print(f"‚ùå Percorso sorgente non esiste: {source_path}")
    else:
        print(f"‚úÖ Percorso sorgente verificato")
    
    # Componenti da trovare
    components_found = {}
    
    print(f"\nüîç Ricerca componenti...")
    
    # 1. Cerca cartella genres (ricerca ottimizzata - max 3 livelli)
    print("  üéµ Cercando cartella genres...")
    for subdir in source_path.rglob('*'):
        # Limita profondit√† per evitare ricerche infinite
        if len(subdir.parts) - len(source_path.parts) > 3:
            continue
        if subdir.is_dir() and 'genres_original' in subdir.name:
            components_found['genres'] = subdir
            print(f"    ‚úÖ Trovata: {subdir.relative_to(source_path)}")
            break
    else:
        print("    ‚ùå Cartella genres non trovata")
    
    # 2. Cerca cartella images (ricerca ottimizzata)
    print("  üñºÔ∏è  Cercando cartella images...")
    for subdir in source_path.rglob('*'):
        if len(subdir.parts) - len(source_path.parts) > 3:
            continue
        if subdir.is_dir() and 'images' in subdir.name.lower():
            components_found['images'] = subdir
            print(f"    ‚úÖ Trovata: {subdir.relative_to(source_path)}")
            break
    else:
        print("    ‚ùå Cartella images non trovata")
    
    # 3. Cerca file CSV (solo primi 2 livelli)
    print("  üìä Cercando file CSV...")
    csv_files = []
    for level in [source_path, *source_path.iterdir()]:
        if level.is_dir():
            csv_found = list(level.glob('*.csv'))
            csv_files.extend(csv_found)
    
    if csv_files:
        components_found['csv'] = csv_files
        print(f"    ‚úÖ Trovati {len(csv_files)} file CSV")
    else:
        print("    ‚ùå File CSV non trovati")
    
    print(f"\nüìã Riepilogo componenti trovati:")
    for comp, found_path in components_found.items():
        if comp == 'csv':
            print(f"  üìä CSV: {len(found_path)} file")
        else:
            print(f"  üìÇ {comp}: {found_path.name}")
    
    # Copia i componenti con progress
    print(f"\nüìã Inizio copia componenti...")
    
    # Copia cartella genres
    if 'genres' in components_found:
        target_genres = data_dir / 'genres'
        if not target_genres.exists():
            print(f"  üéµ Copiando cartella genres...")
            print(f"      Da: {components_found['genres']}")
            print(f"      A:  {target_genres}")
            shutil.copytree(components_found['genres'], target_genres)
            print(f"      ‚úÖ Cartella genres copiata")
        else:
            print(f"  ‚è≠Ô∏è  Cartella genres gi√† presente")
    
    # Copia cartella images
    if 'images' in components_found:
        target_images = data_dir / 'images'
        if not target_images.exists():
            print(f"  üñºÔ∏è  Copiando cartella images...")
            print(f"      Da: {components_found['images']}")
            print(f"      A:  {target_images}")
            shutil.copytree(components_found['images'], target_images)
            print(f"      ‚úÖ Cartella images copiata")
        else:
            print(f"  ‚è≠Ô∏è  Cartella images gi√† presente")
    
    # Copia file CSV
    if 'csv' in components_found:
        print(f"  üìä Copiando {len(components_found['csv'])} file CSV...")
        for i, csv_file in enumerate(components_found['csv'], 1):
            target_csv = data_dir / csv_file.name
            if not target_csv.exists():
                shutil.copy2(csv_file, target_csv)
                print(f"      ‚úÖ {i}/{len(components_found['csv'])}: {csv_file.name}")
            else:
                print(f"      ‚è≠Ô∏è  {i}/{len(components_found['csv'])}: {csv_file.name} gi√† presente")
    
    print("\nüéâ Organizzazione completata!")
    
    # Riepilogo veloce finale
    print("\nüìä Verifica rapida dataset:")
    
    # Conta generi (solo primo livello)
    genres_dir = data_dir / 'genres'
    if genres_dir.exists():
        genre_dirs = [d for d in genres_dir.iterdir() if d.is_dir()]
        print(f"  üéµ Generi: {len(genre_dirs)} cartelle")
        # Conta solo primo genere per velocit√†
        if genre_dirs:
            sample_count = len(list(genre_dirs[0].glob('*.wav')))
            print(f"      Esempio {genre_dirs[0].name}: {sample_count} file")
    
    # Conta immagini
    images_dir = data_dir / 'images'
    if images_dir.exists():
        image_count = len(list(images_dir.glob('*.png')))
        print(f"  üñºÔ∏è  Immagini: {image_count} file")
    
    # Lista CSV
    csv_files_final = list(data_dir.glob('*.csv'))
    if csv_files_final:
        print(f"  üìä CSV: {[f.name for f in csv_files_final]}")
        
else:
    print("‚ùå Variabile 'path' non trovata - esegui prima il download")

üìÅ Organizzazione in: /home/alepot55/Desktop/projects/naml_project/data/gtzan
üìÇ Sorgente: /home/alepot55/.cache/kagglehub/datasets/andradaolteanu/gtzan-dataset-music-genre-classification/versions/1
‚úÖ Percorso sorgente verificato

üîç Ricerca componenti...
  üéµ Cercando cartella genres...
    ‚úÖ Trovata: Data/genres_original
  üñºÔ∏è  Cercando cartella images...
    ‚úÖ Trovata: Data/images_original
  üìä Cercando file CSV...
    ‚úÖ Trovati 2 file CSV

üìã Riepilogo componenti trovati:
  üìÇ genres: genres_original
  üìÇ images: images_original
  üìä CSV: 2 file

üìã Inizio copia componenti...
  ‚è≠Ô∏è  Cartella genres gi√† presente
  ‚è≠Ô∏è  Cartella images gi√† presente
  üìä Copiando 2 file CSV...
      ‚è≠Ô∏è  1/2: features_30_sec.csv gi√† presente
      ‚è≠Ô∏è  2/2: features_3_sec.csv gi√† presente

üéâ Organizzazione completata!

üìä Verifica rapida dataset:
  üéµ Generi: 10 cartelle
      Esempio pop: 100 file
  üñºÔ∏è  Immagini: 0 file
  üìä CSV: ['featu

## Verifica Dataset Finale

In [8]:
# Verifica finale del dataset completo
data_dir = project_root / 'data' / 'gtzan'

if data_dir.exists():
    print("üéµ DATASET GTZAN COMPLETO PRONTO!")
    print(f"üìÅ Percorso: {data_dir}")
    print("=" * 40)
    
    # Verifica componenti
    components_status = {}
    
    # 1. Verifica cartella genres
    genres_dir = data_dir / 'genres'
    if genres_dir.exists():
        genres = [d for d in genres_dir.iterdir() if d.is_dir()]
        total_audio = sum(len(list(g.glob('*.wav'))) for g in genres)
        components_status['genres'] = f"{len(genres)} generi, {total_audio} file audio"
        print(f"‚úÖ Genres: {components_status['genres']}")
    else:
        print("‚ùå Cartella genres mancante")
    
    # 2. Verifica cartella images  
    images_dir = data_dir / 'images'
    if images_dir.exists():
        images = list(images_dir.glob('*.png'))
        components_status['images'] = f"{len(images)} spettrogrammi"
        print(f"‚úÖ Images: {components_status['images']}")
    else:
        print("‚ùå Cartella images mancante")
    
    # 3. Verifica file CSV
    csv_files = list(data_dir.glob('*.csv'))
    if csv_files:
        components_status['csv'] = [f.name for f in csv_files]
        print(f"‚úÖ CSV: {components_status['csv']}")
    else:
        print("‚ùå File CSV mancanti")
    
    # Riepilogo struttura
    print(f"\nüìÇ Struttura finale:")
    print(f"üìÅ data/gtzan/")
    if genres_dir.exists():
        print(f"  ‚îú‚îÄ‚îÄ genres/ ({len([d for d in genres_dir.iterdir() if d.is_dir()])} cartelle)")
    if images_dir.exists():
        print(f"  ‚îú‚îÄ‚îÄ images/ ({len(list(images_dir.glob('*.png')))} file)")
    for csv in csv_files:
        print(f"  ‚îî‚îÄ‚îÄ {csv.name}")
    
    if len(components_status) >= 3:
        print(f"\nüéØ TUTTO PRONTO PER L'ANALISI! üéµ")
    else:
        print(f"\n‚ö†Ô∏è  Alcuni componenti mancanti - ricontrolla il download")
        
else:
    print("‚ùå Dataset non trovato")
    print("üí° Esegui le celle precedenti per il download")

üéµ DATASET GTZAN COMPLETO PRONTO!
üìÅ Percorso: /home/alepot55/Desktop/projects/naml_project/data/gtzan
‚úÖ Genres: 10 generi, 1000 file audio
‚úÖ Images: 0 spettrogrammi
‚úÖ CSV: ['features_30_sec.csv', 'features_3_sec.csv']

üìÇ Struttura finale:
üìÅ data/gtzan/
  ‚îú‚îÄ‚îÄ genres/ (10 cartelle)
  ‚îú‚îÄ‚îÄ images/ (0 file)
  ‚îî‚îÄ‚îÄ features_30_sec.csv
  ‚îî‚îÄ‚îÄ features_3_sec.csv

üéØ TUTTO PRONTO PER L'ANALISI! üéµ
