In [1]:
import spotipy
from spotipy.oauth2 import SpotifyClientCredentials
import requests
import pandas as pd
import time
from datetime import datetime

# --- PAR√ÅMETROS ESPEC√çFICOS PARA TU TAREA ---
GENRES = ['latin']
YEARS = [2010, 2024] 

In [2]:
pip install python-dotenv

Note: you may need to restart the kernel to use updated packages.


In [3]:
import os
from dotenv import load_dotenv

load_dotenv() # Carga las variables del archivo .env

SPOTIPY_CLIENT_ID = os.getenv('SPOTIPY_CLIENT_ID')
SPOTIPY_CLIENT_SECRET = os.getenv('SPOTIPY_CLIENT_SECRET')
LASTFM_API_KEY = os.getenv('LASTFM_API_KEY')

In [4]:
# A√±os para iterar
YEARS = [2010, 2024] 

# T√©rminos optimizados para una b√∫squeda de ALTO VOLUMEN
# Incluye etiquetas 
query_terms = [
    'pop',
    'latin pop',
    'spanish pop',
    'pop latino',
    'soft latin'
    # Entre comillas para buscar la frase exacta (√∫til para el 2010)
]

# 4. Inicializa el cliente de Spotify
try:
    sp = spotipy.Spotify(auth_manager=SpotifyClientCredentials(
        client_id=SPOTIPY_CLIENT_ID,
        client_secret=SPOTIPY_CLIENT_SECRET
    ))
    print("‚úÖ Conexi√≥n a Spotify exitosa.")
except Exception as e:
    print(f"‚ùå Error de conexi√≥n a Spotify: {e}")
    sp = None

‚úÖ Conexi√≥n a Spotify exitosa.


In [5]:
# NUEVA CELDA: Comprobaci√≥n de autenticaci√≥n
print(type(sp)) 

<class 'spotipy.client.Spotify'>


In [20]:
# --- CELDA 2: DEFINICI√ìN DE LA FUNCI√ìN ESTABLE CON DOBLE L√çMITE (500 TOTAL, 250 ANUAL) ---

import time 
import pandas as pd 

def extract_spotify_data_simplificada(sp, years, query_terms): 
    """
    VERSION ESTABLE CON L√çMITES: 500 total, 250 por a√±o. Extrae datos b√°sicos
    y la Popularidad (sin Audio Features) para garantizar estabilidad.
    """
    
    if sp is None:
        print("Error: Cliente de Spotify no inicializado.")
        return pd.DataFrame()

    spotify_data = []
    MAX_TOTAL_SONGS = 500     # L√≠mite global
    MAX_SONGS_PER_YEAR = 250  # L√≠mite por a√±o (REINTRODUCIDO)
    
    for year in years:
        
        # 1. VERIFICACI√ìN DEL L√çMITE GLOBAL
        if len(spotify_data) >= MAX_TOTAL_SONGS:
            print(f"üõë L√çMITE GLOBAL ALCANZADO ({MAX_TOTAL_SONGS}). Terminando la extracci√≥n.")
            break
            
        year_range = f'{year}-{year}'
        print(f"\n--- INICIANDO EXTRACCI√ìN PARA EL A√ëO {year} ---")
        
        songs_added_in_year = 0 # Contador reiniciado para el l√≠mite anual
        
        for term in query_terms:
            
            # 2. VERIFICACI√ìN DEL L√çMITE ANUAL (antes de la b√∫squeda)
            if songs_added_in_year >= MAX_SONGS_PER_YEAR:
                print(f"üõë L√çMITE ANUAL ALCANZADO ({MAX_SONGS_PER_YEAR}) para {year}. Pasando al siguiente a√±o.")
                break # Rompe el bucle de t√©rminos, y avanza al siguiente a√±o.
            
            query = f'{term} year:{year_range}'
            print(f" ¬† -> Buscando con t√©rmino: {term}")
            
            # --- BLOQUE DE B√öSQUEDA ---
            try:
                results = sp.search(q=query, type='track', limit=50)
            except Exception as e:
                print(f" ¬† ‚ùå ERROR grave al buscar con '{term}': {e}. Esperando 5s.")
                time.sleep(5)
                continue
            
            songs_added_in_term = 0
            
            while results: 
                
                for track in results['tracks']['items']:
                    
                    track_id = track['id']
                    
                    # 3. VERIFICACI√ìN DE L√çMITES Y DEDUPLICACI√ìN
                    if len(spotify_data) >= MAX_TOTAL_SONGS:
                        print(f"üõë L√çMITE GLOBAL ALCANZADO ({MAX_TOTAL_SONGS}). Terminando la extracci√≥n.")
                        return pd.DataFrame(spotify_data)
                        
                    # 4. VERIFICACI√ìN DE L√çMITE ANUAL (por si se alcanza con la canci√≥n actual)
                    if songs_added_in_year >= MAX_SONGS_PER_YEAR:
                        break # Rompe el bucle de canciones (for track...), pasar√° al chequeo de abajo.
                        
                    if any(d.get('ID_Spotify') == track_id for d in spotify_data):
                        continue
                        
                    # 5. A√±adir la canci√≥n
                    data_row = {
                        'Artista': track['artists'][0]['name'],
                        'G√©nero musical': f'Latin (Origen: {term})',
                        'Tipo': 'Canci√≥n',
                        'Nombre': track['name'],
                        'A√±o de lanzamiento': year,
                        'ID_Spotify': track_id,
                        'ID_Album': track['album']['id'],
                        'Popularidad': track.get('popularity', None) 
                    }
                    spotify_data.append(data_row)
                    songs_added_in_year += 1
                    songs_added_in_term += 1

                # Rompe el bucle de paginaci√≥n si se alcanz√≥ el l√≠mite anual en el bucle interior.
                if songs_added_in_year >= MAX_SONGS_PER_YEAR:
                    break 

                # 6. Paginaci√≥n
                try:
                    if results['tracks']['next']:
                        results = sp.next(results['tracks'])
                        time.sleep(1.0) # Pausa estable entre p√°ginas de 50
                    else:
                        results = None
                except Exception as e:
                    print(f" ¬† ‚ùå ERROR al obtener la p√°gina siguiente: {e}")
                    results = None

            print(f" ¬† ¬† ¬†-> A√±adidas {songs_added_in_term} canciones √öNICAS de '{term}'.")
            
    return pd.DataFrame(spotify_data)

In [21]:
# --- CELDA 3: LLAMADA, EJECUCI√ìN Y GUARDADO DEL CSV ---

if sp:
    # Llamamos a la versi√≥n simplificada y estable
    df_spotify_raw = extract_spotify_data_simplificada(sp, YEARS, query_terms) 
    
    print("\n--- RESULTADO FINAL DE EXTRACCI√ìN ESTABLE ---")
    print(f"Total de registros extra√≠dos: {len(df_spotify_raw)}") 
    print(df_spotify_raw[['Nombre', 'Artista', 'Popularidad']].head())
else:
    print("‚ùå El cliente 'sp' no est√° inicializado. No se pudo ejecutar la extracci√≥n.")


--- INICIANDO EXTRACCI√ìN PARA EL A√ëO 2010 ---
 ¬† -> Buscando con t√©rmino: pop
 ¬† ¬† ¬†-> A√±adidas 41 canciones √öNICAS de 'pop'.
 ¬† -> Buscando con t√©rmino: latin pop
 ¬† ¬† ¬†-> A√±adidas 89 canciones √öNICAS de 'latin pop'.
 ¬† -> Buscando con t√©rmino: spanish pop
 ¬† ¬† ¬†-> A√±adidas 99 canciones √öNICAS de 'spanish pop'.
 ¬† -> Buscando con t√©rmino: pop latino
 ¬† ¬† ¬†-> A√±adidas 21 canciones √öNICAS de 'pop latino'.
üõë L√çMITE ANUAL ALCANZADO (250) para 2010. Pasando al siguiente a√±o.

--- INICIANDO EXTRACCI√ìN PARA EL A√ëO 2024 ---
 ¬† -> Buscando con t√©rmino: pop
 ¬† ¬† ¬†-> A√±adidas 25 canciones √öNICAS de 'pop'.
 ¬† -> Buscando con t√©rmino: latin pop
 ¬† ¬† ¬†-> A√±adidas 96 canciones √öNICAS de 'latin pop'.
 ¬† -> Buscando con t√©rmino: spanish pop
 ¬† ¬† ¬†-> A√±adidas 100 canciones √öNICAS de 'spanish pop'.
 ¬† -> Buscando con t√©rmino: pop latino
üõë L√çMITE GLOBAL ALCANZADO (500). Terminando la extracci√≥n.

--- RESULTADO FINAL DE EXTRACCI√ìN ESTABLE 

In [25]:
# VERIFICACI√ìN DE CANCIONES
print(f"N√∫mero de canciones encontradas en df_spotify_raw: {len(df_spotify_raw)}")
print(f"Primeras filas (head) de df_spotify_raw:\n{df_spotify_raw.head()}")

N√∫mero de canciones encontradas en df_spotify_raw: 500
Primeras filas (head) de df_spotify_raw:
        Artista       G√©nero musical     Tipo  \
0   Billy Ocean  Latin (Origen: pop)  Canci√≥n   
1   Nicki Minaj  Latin (Origen: pop)  Canci√≥n   
2  David Guetta  Latin (Origen: pop)  Canci√≥n   
3  Joey Montana  Latin (Origen: pop)  Canci√≥n   
4       Pitbull  Latin (Origen: pop)  Canci√≥n   

                                      Nombre  A√±o de lanzamiento  \
0  Caribbean Queen (No More Love On the Run)                2010   
1                                 Super Bass                2010   
2                  Memories (feat. Kid Cudi)                2010   
3                                 La Melod√≠a                2010   
4                   Guantanamera (She's Hot)                2010   

               ID_Spotify                ID_Album  Popularidad  
0  4JEylZNW8SbO4zUyfVrpb7  7n4OT3zEZaEiyKKd6mFAhi           75  
1  3hlksXnvbKogFdPbpO9vel  7aADdYLiK1z7GlMFr0UIZw           8

In [26]:
# --- CELDA COMPLETA: EXTRACCI√ìN Y UNIFICACI√ìN DE √ÅLBUMES ---

# Aseg√∫rate de que las librer√≠as necesarias (pandas, time) y la variable 'sp' est√©n disponibles
import pandas as pd
import time
# Nota: La variable 'sp' debe estar definida por la Celda 1.

# -------------------------------------------------------------------
# BLOQUE 1: DEFINICI√ìN DE LA FUNCI√ìN
# -------------------------------------------------------------------

def extract_album_details(sp, album_ids):
    """
    Extrae los metadatos completos (nombre, a√±o, artista) de los √°lbumes.
    """
    album_details = []
    
    # El set ya se crea cuando se llama a la funci√≥n con album_ids_list.
    unique_album_ids = album_ids
    
    print(f"\n--- INICIANDO EXTRACCI√ìN DE METADATOS DE {len(unique_album_ids)} √ÅLBUMES ---")
    
    for album_id in unique_album_ids:
        try:
            album_info = sp.album(album_id) 
            
            data_row = {
                'ID_Album': album_id,
                'Nombre_Album': album_info['name'],
                'A√±o_Lanzamiento_Album': album_info['release_date'][:4], # Tomamos solo el a√±o
                'Artista_Principal_Album': album_info['artists'][0]['name'],
                'Tipo_Lanzamiento': album_info['album_type'] 
            }
            album_details.append(data_row)
            time.sleep(0.2) # Pausa para no saturar la API
            
        except Exception as e:
            # Capturamos errores como √°lbumes que han sido eliminados de Spotify
            print(f"   -> Error al extraer detalles del √°lbum {album_id}: {e}")
            pass
            
    print(f"‚úÖ Extracci√≥n de {len(album_details)} √°lbumes completada.")
    return pd.DataFrame(album_details)

# -------------------------------------------------------------------
# BLOQUE 2: EJECUCI√ìN Y FUSI√ìN
# -------------------------------------------------------------------

# Verificaci√≥n de que el DataFrame de canciones est√° disponible
if 'df_spotify_raw' in locals() and not df_spotify_raw.empty:
    
    print("\n--- INICIANDO PROCESO DE UNIFICACI√ìN DE √ÅLBUMES ---")
    
    # 1. VERIFICACI√ìN CR√çTICA: La columna 'ID_Album' debe existir.
    if 'ID_Album' not in df_spotify_raw.columns:
        print("‚ùå ERROR CR√çTICO: La columna 'ID_Album' NO se encontr√≥. La Celda 3 fall√≥ al guardar el ID del √°lbum.")
    else:
        
        # 2. Obtener IDs √∫nicos v√°lidos de los √°lbumes
        album_ids_list = df_spotify_raw['ID_Album'].dropna().unique() 
        
        if len(album_ids_list) == 0:
            print("‚ùå LISTA VAC√çA: Se encontraron canciones, pero 0 IDs de √°lbumes v√°lidos. No se puede continuar.")
        else:
            print(f"‚úÖ Se encontraron {len(album_ids_list)} IDs de √°lbumes √∫nicos. Extrayendo ahora...")
            
            # 3. Ejecutar la funci√≥n de extracci√≥n (Tardar√° unos minutos)
            df_album_details = extract_album_details(sp, album_ids_list)
            
            # 4. Fusionar (JOIN) los detalles del √°lbum con los datos de las canciones
            df_spotify_final = pd.merge(
                df_spotify_raw,
                df_album_details[['ID_Album', 'Nombre_Album', 'A√±o_Lanzamiento_Album', 'Artista_Principal_Album']],
                on='ID_Album',
                how='left' 
            )
            
            print(f"\n--- PROCESO DE √ÅLBUMES COMPLETADO ---")
            print(f"DataFrame intermedio 'df_spotify_final' creado con {len(df_spotify_final)} filas.")
            print(df_spotify_final.head())
            
else:
    print("‚ùå ERROR: El DataFrame de canciones (df_spotify_raw) no est√° disponible. Vuelve a ejecutar la Celda 3.")


--- INICIANDO PROCESO DE UNIFICACI√ìN DE √ÅLBUMES ---
‚úÖ Se encontraron 334 IDs de √°lbumes √∫nicos. Extrayendo ahora...

--- INICIANDO EXTRACCI√ìN DE METADATOS DE 334 √ÅLBUMES ---
‚úÖ Extracci√≥n de 334 √°lbumes completada.

--- PROCESO DE √ÅLBUMES COMPLETADO ---
DataFrame intermedio 'df_spotify_final' creado con 500 filas.
        Artista       G√©nero musical     Tipo  \
0   Billy Ocean  Latin (Origen: pop)  Canci√≥n   
1   Nicki Minaj  Latin (Origen: pop)  Canci√≥n   
2  David Guetta  Latin (Origen: pop)  Canci√≥n   
3  Joey Montana  Latin (Origen: pop)  Canci√≥n   
4       Pitbull  Latin (Origen: pop)  Canci√≥n   

                                      Nombre  A√±o de lanzamiento  \
0  Caribbean Queen (No More Love On the Run)                2010   
1                                 Super Bass                2010   
2                  Memories (feat. Kid Cudi)                2010   
3                                 La Melod√≠a                2010   
4                   Guantana

In [27]:
def extract_lastfm_artist_details(artist_name):
    """Extrae biograf√≠a y estad√≠sticas de popularidad de un artista."""
    
    url = 'http://ws.audioscrobbler.com/2.0/'
    params = {
        'method': 'artist.getinfo',
        'artist': artist_name,
        'api_key': LASTFM_API_KEY,
        'format': 'json'
    }
    
    try:
        response = requests.get(url, params=params)
        response.raise_for_status()
        data = response.json()
        
        if 'artist' in data:
            artist_info = data['artist']
            
            # Extraer los datos relevantes (Biograf√≠a, Popularidad/Plays)
            biography = artist_info.get('bio', {}).get('summary', 'N/A')
            playcount = artist_info.get('stats', {}).get('playcount', '0')
            listeners = artist_info.get('stats', {}).get('listeners', '0')
            
            return {
                'Artista': artist_name,
                'Biografia_Resumen': biography,
                'Playcount_LastFM': playcount,
                'Listeners_LastFM': listeners,
            }
    except Exception:
        # En caso de error de conexi√≥n o artista no encontrado, devuelve None
        pass 
        
    return None

# --- Ejecuci√≥n para Artistas √önicos ---

if 'df_spotify_raw' in locals() and not df_spotify_raw.empty:
    
    # Obtener la lista √∫nica de artistas para evitar b√∫squedas repetidas
    unique_artists = df_spotify_raw['Artista'].unique()
    lastfm_results = []
    
    print("\n--- EXTRACCI√ìN DETALLES LAST.FM ---")
    
    for artist in unique_artists: 
        details = extract_lastfm_artist_details(artist)
        if details:
            lastfm_results.append(details)
        time.sleep(0.5) # Pausa crucial para no sobrecargar la API

    df_lastfm = pd.DataFrame(lastfm_results)
    
    # 5. UNIFICACI√ìN DE DATOS
    # Fusionar los datos de Spotify con los detalles de Last.fm
    df_final_latin = pd.merge(
        df_spotify_raw, 
        df_lastfm[['Artista', 'Playcount_LastFM', 'Listeners_LastFM']],
        on='Artista', 
        how='left' # Usamos left join para mantener todas las canciones de Spotify
    )
    
    print("\n--- DATAFRAME FINAL DE LATIN LISTO PARA ALMACENAMIENTO ---")
    print(df_final_latin.head())
    print(f"Total de registros finales para Reggaeton: {len(df_final_latin)}")


--- EXTRACCI√ìN DETALLES LAST.FM ---

--- DATAFRAME FINAL DE LATIN LISTO PARA ALMACENAMIENTO ---
        Artista       G√©nero musical     Tipo  \
0   Billy Ocean  Latin (Origen: pop)  Canci√≥n   
1   Nicki Minaj  Latin (Origen: pop)  Canci√≥n   
2  David Guetta  Latin (Origen: pop)  Canci√≥n   
3  Joey Montana  Latin (Origen: pop)  Canci√≥n   
4       Pitbull  Latin (Origen: pop)  Canci√≥n   

                                      Nombre  A√±o de lanzamiento  \
0  Caribbean Queen (No More Love On the Run)                2010   
1                                 Super Bass                2010   
2                  Memories (feat. Kid Cudi)                2010   
3                                 La Melod√≠a                2010   
4                   Guantanamera (She's Hot)                2010   

               ID_Spotify                ID_Album  Popularidad  \
0  4JEylZNW8SbO4zUyfVrpb7  7n4OT3zEZaEiyKKd6mFAhi           75   
1  3hlksXnvbKogFdPbpO9vel  7aADdYLiK1z7GlMFr0UIZw         

In [32]:
# --- CELDA 6: FUSI√ìN DE SPOTIFY (CARGADO DE CSV) + LAST.FM Y GUARDADO FINAL ---

import pandas as pd
import os

print("\n--- INICIANDO FUSI√ìN DE DATOS (SPOTIFY + LAST.FM) ---")

# 1. CARGA DEL CSV INICIAL DE SPOTIFY
# CR√çTICO: Debe ser el nombre del archivo guardado en la Celda 3 (o la Celda 4, si la ejecutaste).
spotify_input_filename = 'latin_data_2010_2024.csv' 
df_spotify_cargado = None # Inicializamos la variable

if os.path.exists(spotify_input_filename):
    df_spotify_cargado = pd.read_csv(spotify_input_filename)
    print(f"‚úÖ DataFrame de Spotify cargado desde CSV: {len(df_spotify_cargado)} filas.")
else:
    print(f"‚ùå ERROR: No se encuentra el archivo CSV inicial de Spotify: {spotify_input_filename}")


if df_spotify_cargado is not None and 'df_lastfm' in locals():
    
    # 2. Realizamos la fusi√≥n (Merge) usando df_spotify_cargado como base
    df_proyecto_final = pd.merge(
        df_spotify_cargado, 
        df_lastfm,
        on='Artista', 
        how='left'
    )
    
    # 3. Limpieza de las columnas de Last.fm
    df_proyecto_final['Biografia_Resumen'] = df_proyecto_final['Biografia_Resumen'].fillna('N/A')
    
    # Rellenar valores nulos con 0 y asegurar que sean enteros
    for col in ['Playcount_LastFM', 'Listeners_LastFM']:
        if col in df_proyecto_final.columns:
            # Primero rellenamos NaN con 0.0 (float) y luego convertimos a int
            df_proyecto_final[col] = df_proyecto_final[col].fillna(0).astype(int)
    
    
    # 4. Guardar el archivo CSV FINAL
    output_filename = 'data_consolidada_final.csv'
    
    df_proyecto_final.to_csv(
        output_filename, 
        index=False, 
        encoding='utf-8'
    )
    
    print(f"\nüéâ ¬°FASE 1 FINALIZADA CON √âXITO! üéâ")
    print(f"Total de registros finales: {len(df_proyecto_final)}")
    print("--- Primeras 5 filas con datos clave ---")
    print(df_proyecto_final[['Nombre', 'Artista', 'Listeners_LastFM', 'Popularidad', 'Biografia_Resumen']].head())
    print(f"‚úÖ Archivo final guardado: {output_filename}")
    
else:
    print("‚ùå ERROR DE FUSI√ìN: Aseg√∫rate de que la Celda 5 (Last.fm) se haya ejecutado exitosamente para crear 'df_lastfm'.")


--- INICIANDO FUSI√ìN DE DATOS (SPOTIFY + LAST.FM) ---
‚úÖ DataFrame de Spotify cargado desde CSV: 500 filas.


KeyError: 'Biografia_Resumen'