FUNCION PARA EXTRAER LAS CANCIONES DEL API DE SPOTIFY ‚èÆÔ∏è‚èπÔ∏è‚è©

In [None]:
"""
EXTRACTOR DE DATOS MUSICALES DE SPOTIFY
Extrae 200 canciones por g√©nero y a√±o (2019-2022)
Total esperado: 3,200 canciones
"""

import spotipy
from spotipy.oauth2 import SpotifyClientCredentials
import pandas as pd
import time
from datetime import datetime

# ==================== CONFIGURACI√ìN ====================
# üëá PON TUS CREDENCIALES AQU√ç
CLIENT_ID = 'TU_CLIENT_ID_AQUI'
CLIENT_SECRET = 'TU_CLIENT_SECRET_AQUI'

# Par√°metros del proyecto
GENEROS = ['rock', 'cl√°sica', 'reggaet√≥n', 'pop']
A√ëOS = range(2019, 2023)  # 2019, 2020, 2021, 2022
CANCIONES_POR_BUSQUEDA = 200

# ==================== CONEXI√ìN A SPOTIFY ====================
sp = spotipy.Spotify(auth_manager=SpotifyClientCredentials(
    client_id=CLIENT_ID,
    client_secret=CLIENT_SECRET
))

# Lista global para almacenar datos
datos_canciones = []


# ==================== FUNCI√ìN 1: EXTRAER DATOS ====================
def extraer_datos_cancion(track, genero, a√±o):
    """Extrae toda la informaci√≥n de una canci√≥n"""
    try:
        track_id = track['id']
        audio_features = sp.audio_features(track_id)[0]
        
        if audio_features:
            return {
                'id': track_id,
                'nombre': track['name'],
                'artista': track['artists'][0]['name'],
                'album': track['album']['name'],
                'genero': genero,
                'a√±o_busqueda': a√±o,
                'fecha_lanzamiento': track['album']['release_date'],
                'popularidad': track['popularity'],
                'duracion_ms': track['duration_ms'],
                'duracion_min': round(track['duration_ms'] / 60000, 2),
                'valence': audio_features['valence'],
                'energy': audio_features['energy'],
                'danceability': audio_features['danceability'],
                'acousticness': audio_features['acousticness'],
                'instrumentalness': audio_features['instrumentalness'],
                'liveness': audio_features['liveness'],
                'speechiness': audio_features['speechiness'],
                'tempo': audio_features['tempo'],
                'loudness': audio_features['loudness'],
            }
    except Exception as e:
        print(f"  ‚ö†Ô∏è  Error: {track.get('name', 'desconocida')}")
        return None


# ==================== FUNCI√ìN 2: BUSCAR CANCIONES ====================
def buscar_canciones(genero, a√±o, limite=200):
    """Busca canciones de un g√©nero y a√±o espec√≠fico"""
    print(f"\nüéµ Buscando: {genero.upper()} - {a√±o}")
    
    canciones = []
    ids_vistos = set()
    offset = 0
    
    while len(canciones) < limite:
        try:
            # Buscar en Spotify
            query = f"genre:{genero} year:{a√±o}"
            resultados = sp.search(q=query, type='track', limit=50, offset=offset, market='ES')
            tracks = resultados['tracks']['items']
            
            if not tracks:
                break
            
            # Procesar cada track
            for track in tracks:
                if track['id'] not in ids_vistos and len(canciones) < limite:
                    ids_vistos.add(track['id'])
                    datos = extraer_datos_cancion(track, genero, a√±o)
                    if datos:
                        canciones.append(datos)
                        
                        if len(canciones) % 20 == 0:
                            print(f"  ‚úì {len(canciones)} canciones...")
            
            offset += 50
            time.sleep(0.5)  # Pausa para no saturar API
            
        except Exception as e:
            print(f"  ‚ùå Error en b√∫squeda: {e}")
            break
    
    print(f"  ‚úÖ Total: {len(canciones)} canciones")
    return canciones


# ==================== FUNCI√ìN 3: PROCESO PRINCIPAL ====================
def main():
    """Ejecuta todo el proceso de extracci√≥n"""
    print("\n" + "="*70)
    print("üéº EXTRACTOR DE DATOS MUSICALES DE SPOTIFY")
    print("="*70)
    print(f"G√©neros: {', '.join(GENEROS)}")
    print(f"A√±os: {list(A√ëOS)}")
    print(f"Objetivo: {CANCIONES_POR_BUSQUEDA} canciones x g√©nero x a√±o")
    print(f"Total esperado: {len(GENEROS) * len(A√ëOS) * CANCIONES_POR_BUSQUEDA} canciones")
    print("="*70)
    
    inicio = time.time()
    
    # Extraer canciones por g√©nero y a√±o
    for genero in GENEROS:
        for a√±o in A√ëOS:
            canciones = buscar_canciones(genero, a√±o, CANCIONES_POR_BUSQUEDA)
            datos_canciones.extend(canciones)
    
    tiempo_total = time.time() - inicio
    
    # Crear DataFrame
    df = pd.DataFrame(datos_canciones)
    
    # Mostrar resumen
    print("\n" + "="*70)
    print("üìä RESUMEN FINAL")
    print("="*70)
    print(f"‚úÖ Total extra√≠do: {len(datos_canciones)} canciones")
    print(f"‚è±Ô∏è  Tiempo: {tiempo_total/60:.1f} minutos")
    
    print("\nüìà Por g√©nero:")
    print(df['genero'].value_counts().to_string())
    
    print("\nüìÖ Por a√±o:")
    print(df['a√±o_busqueda'].value_counts().sort_index().to_string())
    
    # Guardar en CSV
    nombre_archivo = f'spotify_data_{datetime.now().strftime("%Y%m%d_%H%M%S")}.csv'
    df.to_csv(nombre_archivo, index=False, encoding='utf-8-sig')
    print(f"\nüíæ Guardado en: {nombre_archivo}")
    
    # Vista previa
    print("\nüîç Primeras 5 canciones:")
    print(df[['nombre', 'artista', 'genero', 'popularidad', 'valence']].head().to_string())
    
    print("\n" + "="*70)
    print("‚úÖ PROCESO COMPLETADO")
    print("="*70)
    
    return df


# ==================== EJECUTAR ====================
if __name__ == "__main__":
    try:
        df_final = main()
        
    except KeyboardInterrupt:
        print("\n\n‚ö†Ô∏è  Interrumpido por el usuario")
        if datos_canciones:
            df = pd.DataFrame(datos_canciones)
            df.to_csv('spotify_data_PARCIAL.csv', index=False, encoding='utf-8-sig')
            print(f"üíæ Guardadas {len(datos_canciones)} canciones parciales")
    
    except Exception as e:
        print(f"\n‚ùå ERROR: {e}")
        if datos_canciones:
            df = pd.DataFrame(datos_canciones)
            df.to_csv('spotify_data_ERROR.csv', index=False, encoding='utf-8-sig')
            print(f"üíæ Guardadas {len(datos_canciones)} canciones antes del error")
            