In [1]:
import spotipy
from spotipy.oauth2 import SpotifyClientCredentials
import requests
import pandas as pd
import time
from datetime import datetime

# --- PAR√ÅMETROS ESPEC√çFICOS PARA TU TAREA ---
GENRES = ['reggaeton']
YEARS = [2000, 2024] 

In [2]:
pip install python-dotenv

Note: you may need to restart the kernel to use updated packages.


In [3]:
import os
from dotenv import load_dotenv

load_dotenv() # Carga las variables del archivo .env

SPOTIPY_CLIENT_ID = os.getenv('SPOTIPY_CLIENT_ID')
SPOTIPY_CLIENT_SECRET = os.getenv('SPOTIPY_CLIENT_SECRET')
LASTFM_API_KEY = os.getenv('LASTFM_API_KEY')


In [6]:
# A√±os para iterar
YEARS = [2000, 2024] 

# T√©rminos optimizados para una b√∫squeda de ALTO VOLUMEN
# Incluye etiquetas hist√≥ricas ('dembow') y modernas ('trap latino', 'urbano latino')
query_terms = [
    'reggaeton',
    'regueton',
    'urbano latino',
    'perreo',
    'reggaeton pop',
    'latin urban',
    'pop latino',
    'trap latino',
    'urbano latino',
    'dembow',
    '"hip hop latino"' # Entre comillas para buscar la frase exacta (√∫til para el 2000)
]

# 4. Inicializa el cliente de Spotify
try:
    sp = spotipy.Spotify(auth_manager=SpotifyClientCredentials(
        client_id=SPOTIPY_CLIENT_ID,
        client_secret=SPOTIPY_CLIENT_SECRET
    ))
    print("‚úÖ Conexi√≥n a Spotify exitosa.")
except Exception as e:
    print(f"‚ùå Error de conexi√≥n a Spotify: {e}")
    sp = None

‚úÖ Conexi√≥n a Spotify exitosa.


In [5]:
# NUEVA CELDA: Comprobaci√≥n de autenticaci√≥n
print(type(sp)) 

<class 'spotipy.client.Spotify'>


In [7]:
# --- DEFINICI√ìN DE LA FUNCI√ìN CON DOBLE BUCLE (M√ÅXIMA ROBUSTEZ) ---

def extract_spotify_data_reggaeton_ampliada(sp, years, query_terms, max_total_songs=500): 
    """
    VERSION FINAL ROBUSTA: Itera primero por A√ëO y luego por CADA T√âRMINO de g√©nero.
    Esto garantiza que la API acepte todas las consultas y maximiza los resultados.
    """
    
    spotify_data = []
    
    for year in years:
        year_range = f'{year}-{year}'
        print(f"\n--- INICIANDO EXTRACCI√ìN PARA EL A√ëO {year} ---")

        # BUENO 1: Iteramos sobre cada t√©rmino de b√∫squeda (reggaeton, trap latino, etc.)
        for term in query_terms:
            
            # Construcci√≥n de la consulta simple (solo 1 t√©rmino)
            query = f'{term} year:{year_range}'
            
            print(f"   -> Buscando con t√©rmino: {term}")
            
            try:
                # Hacemos la primera llamada
                results = sp.search(q=query, type='track', limit=50) 
                
                total_resultados_api = results['tracks']['total'] if results and 'tracks' in results else 0
                print(f"   -> Spotify reporta {total_resultados_api} resultados para '{term}'.")
                
                songs_added_in_term = 0
                
                # BUENO 2: Bucle de Paginaci√≥n
                while results and songs_added_in_term < max_total_songs:
                    
                    for track in results['tracks']['items']:
                        
                        # Usamos un conjunto de IDs para evitar duplicados si un artista aparece en dos g√©neros
                        track_id = track['id']
                        
                        # Si ya tenemos esta canci√≥n de este a√±o, la saltamos
                        if any(d.get('ID_Spotify') == track_id for d in spotify_data):
                            continue
                            
                        if songs_added_in_term >= max_total_songs:
                            break
                        
                        data_row = {
                            'Artista': track['artists'][0]['name'],
                            'G√©nero musical': f'Reggaeton (Origen: {term})', # Indicamos el t√©rmino que la encontr√≥
                            'Tipo': 'Canci√≥n',
                            'Nombre': track['name'],
                            'A√±o de lanzamiento': year,
                            'ID_Spotify': track_id,
                            'ID_Album': track['album']['id']
                        }
                        spotify_data.append(data_row)
                        songs_added_in_term += 1

                    # Paginaci√≥n
                    if results['tracks']['next']:
                        results = sp.next(results['tracks'])
                    else:
                        results = None
                    
                    time.sleep(0.5) 
                
                print(f"      -> A√±adidas {songs_added_in_term} canciones de '{term}'.")
                
            except Exception as e:
                print(f"   -> Error al buscar con t√©rmino '{term}': {e}")
                time.sleep(2) 
            
    return pd.DataFrame(spotify_data)

In [9]:
# --- LLAMADA AL C√ìDIGO ---

if sp:
    # Pasamos la lista de t√©rminos como argumento
    df_spotify_raw = extract_spotify_data_reggaeton_ampliada(sp, YEARS, query_terms, max_total_songs=500)
    print("\n--- RESULTADO FINAL DE REGGAETON (ESTRATEGIA ROBUSTA) ---")
    print(f"Total de registros extra√≠dos: {len(df_spotify_raw)} (Nota: este n√∫mero ya elimina duplicados entre t√©rminos)")
    print(df_spotify_raw.head(10))


--- INICIANDO EXTRACCI√ìN PARA EL A√ëO 2000 ---
   -> Buscando con t√©rmino: reggaeton
   -> Spotify reporta 60 resultados para 'reggaeton'.
      -> A√±adidas 60 canciones de 'reggaeton'.
   -> Buscando con t√©rmino: regueton
   -> Spotify reporta 1 resultados para 'regueton'.
      -> A√±adidas 1 canciones de 'regueton'.
   -> Buscando con t√©rmino: urbano latino
   -> Spotify reporta 3 resultados para 'urbano latino'.
      -> A√±adidas 2 canciones de 'urbano latino'.
   -> Buscando con t√©rmino: perreo
   -> Spotify reporta 16 resultados para 'perreo'.
      -> A√±adidas 5 canciones de 'perreo'.
   -> Buscando con t√©rmino: reggaeton pop
   -> Spotify reporta 1 resultados para 'reggaeton pop'.
      -> A√±adidas 0 canciones de 'reggaeton pop'.
   -> Buscando con t√©rmino: latin urban
   -> Spotify reporta 50 resultados para 'latin urban'.
      -> A√±adidas 46 canciones de 'latin urban'.
   -> Buscando con t√©rmino: pop latino
   -> Spotify reporta 100 resultados para 'pop latino'

In [10]:
# VERIFICACI√ìN DE CANCIONES
print(f"N√∫mero de canciones encontradas en df_spotify_raw: {len(df_spotify_raw)}")
print(f"Primeras filas (head) de df_spotify_raw:\n{df_spotify_raw.head()}")

N√∫mero de canciones encontradas en df_spotify_raw: 1036
Primeras filas (head) de df_spotify_raw:
  Artista                 G√©nero musical     Tipo       Nombre  \
0  Dj Joe  Reggaeton (Origen: reggaeton)  Canci√≥n      Orgasmo   
1  Dj Joe  Reggaeton (Origen: reggaeton)  Canci√≥n    Mai Grita   
2  Dj Joe  Reggaeton (Origen: reggaeton)  Canci√≥n  Que Melones   
3  Dj Joe  Reggaeton (Origen: reggaeton)  Canci√≥n      Mujeres   
4  Jairos  Reggaeton (Origen: reggaeton)  Canci√≥n        Siete   

   A√±o de lanzamiento              ID_Spotify                ID_Album  
0                2000  0E2PAktDgSw1qXEzOwHLMz  5KjlY2iLyL9qaexUbxTGeo  
1                2000  0YxFcX2Rhfp4mOaLFyTXbV  5KjlY2iLyL9qaexUbxTGeo  
2                2000  2XB1118qP1DLyE4deHZrqv  5KjlY2iLyL9qaexUbxTGeo  
3                2000  0rLJYPOKXUe2TfngVgH0eB  5KjlY2iLyL9qaexUbxTGeo  
4                2000  4wTee4RHe9rkK9fNCCHMi5  5VT7SiRbeHW2ELcs0wOoOj  


In [11]:
# --- CELDA COMPLETA: EXTRACCI√ìN Y UNIFICACI√ìN DE √ÅLBUMES ---

# Aseg√∫rate de que las librer√≠as necesarias (pandas, time) y la variable 'sp' est√©n disponibles
import pandas as pd
import time
# Nota: La variable 'sp' debe estar definida por la Celda 1.

# -------------------------------------------------------------------
# BLOQUE 1: DEFINICI√ìN DE LA FUNCI√ìN
# -------------------------------------------------------------------

def extract_album_details(sp, album_ids):
    """
    Extrae los metadatos completos (nombre, a√±o, artista) de los √°lbumes.
    """
    album_details = []
    
    # El set ya se crea cuando se llama a la funci√≥n con album_ids_list.
    unique_album_ids = album_ids
    
    print(f"\n--- INICIANDO EXTRACCI√ìN DE METADATOS DE {len(unique_album_ids)} √ÅLBUMES ---")
    
    for album_id in unique_album_ids:
        try:
            album_info = sp.album(album_id) 
            
            data_row = {
                'ID_Album': album_id,
                'Nombre_Album': album_info['name'],
                'A√±o_Lanzamiento_Album': album_info['release_date'][:4], # Tomamos solo el a√±o
                'Artista_Principal_Album': album_info['artists'][0]['name'],
                'Tipo_Lanzamiento': album_info['album_type'] 
            }
            album_details.append(data_row)
            time.sleep(0.2) # Pausa para no saturar la API
            
        except Exception as e:
            # Capturamos errores como √°lbumes que han sido eliminados de Spotify
            print(f"   -> Error al extraer detalles del √°lbum {album_id}: {e}")
            pass
            
    print(f"‚úÖ Extracci√≥n de {len(album_details)} √°lbumes completada.")
    return pd.DataFrame(album_details)

# -------------------------------------------------------------------
# BLOQUE 2: EJECUCI√ìN Y FUSI√ìN
# -------------------------------------------------------------------

# Verificaci√≥n de que el DataFrame de canciones est√° disponible
if 'df_spotify_raw' in locals() and not df_spotify_raw.empty:
    
    print("\n--- INICIANDO PROCESO DE UNIFICACI√ìN DE √ÅLBUMES ---")
    
    # 1. VERIFICACI√ìN CR√çTICA: La columna 'ID_Album' debe existir.
    if 'ID_Album' not in df_spotify_raw.columns:
        print("‚ùå ERROR CR√çTICO: La columna 'ID_Album' NO se encontr√≥. La Celda 3 fall√≥ al guardar el ID del √°lbum.")
    else:
        
        # 2. Obtener IDs √∫nicos v√°lidos de los √°lbumes
        album_ids_list = df_spotify_raw['ID_Album'].dropna().unique() 
        
        if len(album_ids_list) == 0:
            print("‚ùå LISTA VAC√çA: Se encontraron canciones, pero 0 IDs de √°lbumes v√°lidos. No se puede continuar.")
        else:
            print(f"‚úÖ Se encontraron {len(album_ids_list)} IDs de √°lbumes √∫nicos. Extrayendo ahora...")
            
            # 3. Ejecutar la funci√≥n de extracci√≥n (Tardar√° unos minutos)
            df_album_details = extract_album_details(sp, album_ids_list)
            
            # 4. Fusionar (JOIN) los detalles del √°lbum con los datos de las canciones
            df_spotify_final = pd.merge(
                df_spotify_raw,
                df_album_details[['ID_Album', 'Nombre_Album', 'A√±o_Lanzamiento_Album', 'Artista_Principal_Album']],
                on='ID_Album',
                how='left' 
            )
            
            print(f"\n--- PROCESO DE √ÅLBUMES COMPLETADO ---")
            print(f"DataFrame intermedio 'df_spotify_final' creado con {len(df_spotify_final)} filas.")
            print(df_spotify_final.head())
            
else:
    print("‚ùå ERROR: El DataFrame de canciones (df_spotify_raw) no est√° disponible. Vuelve a ejecutar la Celda 3.")


--- INICIANDO PROCESO DE UNIFICACI√ìN DE √ÅLBUMES ---
‚úÖ Se encontraron 693 IDs de √°lbumes √∫nicos. Extrayendo ahora...

--- INICIANDO EXTRACCI√ìN DE METADATOS DE 693 √ÅLBUMES ---
‚úÖ Extracci√≥n de 693 √°lbumes completada.

--- PROCESO DE √ÅLBUMES COMPLETADO ---
DataFrame intermedio 'df_spotify_final' creado con 1036 filas.
  Artista                 G√©nero musical     Tipo       Nombre  \
0  Dj Joe  Reggaeton (Origen: reggaeton)  Canci√≥n      Orgasmo   
1  Dj Joe  Reggaeton (Origen: reggaeton)  Canci√≥n    Mai Grita   
2  Dj Joe  Reggaeton (Origen: reggaeton)  Canci√≥n  Que Melones   
3  Dj Joe  Reggaeton (Origen: reggaeton)  Canci√≥n      Mujeres   
4  Jairos  Reggaeton (Origen: reggaeton)  Canci√≥n        Siete   

   A√±o de lanzamiento              ID_Spotify                ID_Album  \
0                2000  0E2PAktDgSw1qXEzOwHLMz  5KjlY2iLyL9qaexUbxTGeo   
1                2000  0YxFcX2Rhfp4mOaLFyTXbV  5KjlY2iLyL9qaexUbxTGeo   
2                2000  2XB1118qP1DLyE4deHZrqv  

In [12]:
def extract_lastfm_artist_details(artist_name):
    """Extrae biograf√≠a y estad√≠sticas de popularidad de un artista."""
    
    url = 'http://ws.audioscrobbler.com/2.0/'
    params = {
        'method': 'artist.getinfo',
        'artist': artist_name,
        'api_key': LASTFM_API_KEY,
        'format': 'json'
    }
    
    try:
        response = requests.get(url, params=params)
        response.raise_for_status()
        data = response.json()
        
        if 'artist' in data:
            artist_info = data['artist']
            
            # Extraer los datos relevantes (Biograf√≠a, Popularidad/Plays)
            biography = artist_info.get('bio', {}).get('summary', 'N/A')
            playcount = artist_info.get('stats', {}).get('playcount', '0')
            listeners = artist_info.get('stats', {}).get('listeners', '0')
            
            return {
                'Artista': artist_name,
                'Biografia_Resumen': biography,
                'Playcount_LastFM': playcount,
                'Listeners_LastFM': listeners,
            }
    except Exception:
        # En caso de error de conexi√≥n o artista no encontrado, devuelve None
        pass 
        
    return None

# --- Ejecuci√≥n para Artistas √önicos ---

if 'df_spotify_raw' in locals() and not df_spotify_raw.empty:
    
    # Obtener la lista √∫nica de artistas para evitar b√∫squedas repetidas
    unique_artists = df_spotify_raw['Artista'].unique()
    lastfm_results = []
    
    print("\n--- EXTRACCI√ìN DETALLES LAST.FM ---")
    
    for artist in unique_artists: 
        details = extract_lastfm_artist_details(artist)
        if details:
            lastfm_results.append(details)
        time.sleep(0.5) # Pausa crucial para no sobrecargar la API

    df_lastfm = pd.DataFrame(lastfm_results)
    
    # 5. UNIFICACI√ìN DE DATOS
    # Fusionar los datos de Spotify con los detalles de Last.fm
    df_final_reggaeton = pd.merge(
        df_spotify_raw, 
        df_lastfm[['Artista', 'Playcount_LastFM', 'Listeners_LastFM']],
        on='Artista', 
        how='left' # Usamos left join para mantener todas las canciones de Spotify
    )
    
    print("\n--- DATAFRAME FINAL DE REGGAETON LISTO PARA ALMACENAMIENTO ---")
    print(df_final_reggaeton.head())
    print(f"Total de registros finales para Reggaeton: {len(df_final_reggaeton)}")


--- EXTRACCI√ìN DETALLES LAST.FM ---

--- DATAFRAME FINAL DE REGGAETON LISTO PARA ALMACENAMIENTO ---
  Artista                 G√©nero musical     Tipo       Nombre  \
0  Dj Joe  Reggaeton (Origen: reggaeton)  Canci√≥n      Orgasmo   
1  Dj Joe  Reggaeton (Origen: reggaeton)  Canci√≥n    Mai Grita   
2  Dj Joe  Reggaeton (Origen: reggaeton)  Canci√≥n  Que Melones   
3  Dj Joe  Reggaeton (Origen: reggaeton)  Canci√≥n      Mujeres   
4  Jairos  Reggaeton (Origen: reggaeton)  Canci√≥n        Siete   

   A√±o de lanzamiento              ID_Spotify                ID_Album  \
0                2000  0E2PAktDgSw1qXEzOwHLMz  5KjlY2iLyL9qaexUbxTGeo   
1                2000  0YxFcX2Rhfp4mOaLFyTXbV  5KjlY2iLyL9qaexUbxTGeo   
2                2000  2XB1118qP1DLyE4deHZrqv  5KjlY2iLyL9qaexUbxTGeo   
3                2000  0rLJYPOKXUe2TfngVgH0eB  5KjlY2iLyL9qaexUbxTGeo   
4                2000  4wTee4RHe9rkK9fNCCHMi5  5VT7SiRbeHW2ELcs0wOoOj   

  Playcount_LastFM Listeners_LastFM  
0           18713

In [13]:
# --- BLOQUE DE FUSI√ìN Y GUARDADO CORREGIDO ---

# 1. Aseguramos que tenemos df_spotify_final y df_lastfm en memoria.

if 'df_spotify_final' in locals() and 'df_lastfm' in locals():
    
    # Lista de columnas a fusionar (¬°EXCLUYE Artistas_Similares!)
    lastfm_cols_to_merge = ['Artista', 'Biografia_Resumen', 'Playcount_LastFM', 'Listeners_LastFM']
    
    # 2. Re-ejecutar el merge (fusi√≥n)
    df_proyecto_final = pd.merge(
        df_spotify_final, 
        # Seleccionamos solo las columnas que sabemos que existen:
        df_lastfm[lastfm_cols_to_merge], # <-- ¬°CRUCIAL!
        on='Artista', 
        how='left'
    )
    
    # 3. Guardar el archivo CSV (Tu Celda 5 original)
    output_filename = 'reggaeton_data_2000_2024.csv'
    
    df_proyecto_final.to_csv(
        output_filename, 
        index=False,        
        encoding='utf-8'    
    )
    
    print(f"\nüéâ ¬°FASE 1 FINALIZADA CON √âXITO! üéâ")
# ...


üéâ ¬°FASE 1 FINALIZADA CON √âXITO! üéâ
