In [3]:
import spotipy
from spotipy.oauth2 import SpotifyClientCredentials
import requests
import pandas as pd
import time
from datetime import datetime

# --- PAR√ÅMETROS ESPEC√çFICOS PARA TU TAREA ---
GENRES = ['reggaeton']
YEARS = [2010, 2024] 

In [9]:
pip install python-dotenv

Note: you may need to restart the kernel to use updated packages.


In [4]:
import os
from dotenv import load_dotenv

load_dotenv() # Carga las variables del archivo .env

SPOTIPY_CLIENT_ID = os.getenv('SPOTIPY_CLIENT_ID')
SPOTIPY_CLIENT_SECRET = os.getenv('SPOTIPY_CLIENT_SECRET')
LASTFM_API_KEY = os.getenv('LASTFM_API_KEY')


In [5]:
# A√±os para iterar
YEARS = [2010, 2024] 

# T√©rminos optimizados para una b√∫squeda de ALTO VOLUMEN
# Incluye etiquetas hist√≥ricas ('dembow') y modernas ('trap latino', 'urbano latino')
query_terms = [
    'reggaeton',
    'regueton',
    'urbano latino',
    'perreo',
    'reggaeton pop',
    'latin urban',
    'pop latino',
    'trap latino',
    'urbano latino',
    'dembow',
    '"hip hop latino"' # Entre comillas para buscar la frase exacta (√∫til para el 2010)
]

# 4. Inicializa el cliente de Spotify
try:
    sp = spotipy.Spotify(auth_manager=SpotifyClientCredentials(
        client_id=SPOTIPY_CLIENT_ID,
        client_secret=SPOTIPY_CLIENT_SECRET
    ))
    print("‚úÖ Conexi√≥n a Spotify exitosa.")
except Exception as e:
    print(f"‚ùå Error de conexi√≥n a Spotify: {e}")
    sp = None

‚úÖ Conexi√≥n a Spotify exitosa.


In [6]:
# NUEVA CELDA: Comprobaci√≥n de autenticaci√≥n
print(type(sp)) 

<class 'spotipy.client.Spotify'>


In [7]:
# --- DEFINICI√ìN DE LA FUNCI√ìN CON DOBLE BUCLE (M√ÅXIMA ROBUSTEZ Y L√çMITES) ---

def extract_spotify_data_reggaeton_ampliada(sp, years, query_terms): 
    """
    VERSION FINAL LIMITADA: Itera primero por A√ëO y luego por CADA T√âRMINO de g√©nero.
    M√°ximo total: 500 canciones √∫nicas. M√°ximo por a√±o: 250 canciones √∫nicas.
    """
    
    spotify_data = []
    MAX_TOTAL_SONGS = 500 # Nuevo l√≠mite global
    MAX_SONGS_PER_YEAR = 250 # Nuevo l√≠mite por a√±o
    
    for year in years:
        
        # 1. VERIFICACI√ìN DEL L√çMITE GLOBAL ANTES DE EMPEZAR EL A√ëO
        if len(spotify_data) >= MAX_TOTAL_SONGS:
            print(f"üõë L√çMITE GLOBAL ALCANZADO ({MAX_TOTAL_SONGS}). Saltando el a√±o {year}.")
            break
            
        year_range = f'{year}-{year}'
        print(f"\n--- INICIANDO EXTRACCI√ìN PARA EL A√ëO {year} ---")
        
        songs_added_in_year = 0 # Contador para este a√±o
        
        # BUENO 1: Iteramos sobre cada t√©rmino de b√∫squeda 
        for term in query_terms:
            
            # 2. VERIFICACI√ìN DEL L√çMITE ANUAL
            if songs_added_in_year >= MAX_SONGS_PER_YEAR:
                print(f"üõë L√çMITE ANUAL ALCANZADO ({MAX_SONGS_PER_YEAR}). Terminando la b√∫squeda para el a√±o {year}.")
                break
            
            query = f'{term} year:{year_range}'
            print(f"   -> Buscando con t√©rmino: {term}")
            
            try:
                # La API siempre trae un m√°ximo de 50 por llamada
                results = sp.search(q=query, type='track', limit=50) 
                
                total_resultados_api = results['tracks']['total'] if results and 'tracks' in results else 0
                print(f"   -> Spotify reporta {total_resultados_api} resultados para '{term}'.")
                
                songs_added_in_term = 0
                
                # BUENO 2: Bucle de Paginaci√≥n
                while results: # Mientras haya m√°s resultados (no ponemos un l√≠mite aqu√≠ para exprimir los 1000)
                    
                    for track in results['tracks']['items']:
                        
                        track_id = track['id']
                        
                        # 3. VERIFICACI√ìN DE L√çMITES DENTRO DEL BUCLE INTERNO
                        
                        # A. L√≠mite Global alcanzado
                        if len(spotify_data) >= MAX_TOTAL_SONGS:
                            print(f"üõë L√çMITE GLOBAL ({MAX_TOTAL_SONGS}) alcanzado. Terminando.")
                            return pd.DataFrame(spotify_data) # Terminamos inmediatamente
                            
                        # B. L√≠mite Anual alcanzado
                        if songs_added_in_year >= MAX_SONGS_PER_YEAR:
                            break # Salta al siguiente t√©rmino de b√∫squeda
                        
                        # C. Deduplicaci√≥n
                        # Usamos una forma m√°s eficiente de comprobar duplicados si el volumen es grande
                        if any(d.get('ID_Spotify') == track_id for d in spotify_data):
                            continue
                            
                        # 4. A√±adir la canci√≥n
                        data_row = {
                            'Artista': track['artists'][0]['name'],
                            'G√©nero musical': f'Reggaeton (Origen: {term})',
                            'Tipo': 'Canci√≥n',
                            'Nombre': track['name'],
                            'A√±o de lanzamiento': year,
                            'ID_Spotify': track_id,
                            'ID_Album': track['album']['id']
                        }
                        spotify_data.append(data_row)
                        songs_added_in_term += 1
                        songs_added_in_year += 1 # Contar para el l√≠mite anual

                    # Paginaci√≥n
                    if results['tracks']['next']:
                        results = sp.next(results['tracks'])
                    else:
                        results = None
                    
                    # Aumentamos la pausa para evitar el Rate Limiting
                    time.sleep(1.5) 
                
                print(f"      -> A√±adidas {songs_added_in_term} canciones √öNICAS de '{term}'.")
                
            except Exception as e:
                print(f"   -> Error al buscar con t√©rmino '{term}': {e}")
                time.sleep(3) # Pausa m√°s larga despu√©s de un error para recuperarse
            
    return pd.DataFrame(spotify_data)

In [8]:
# --- LLAMADA AL C√ìDIGO (CELDA 3 CORREGIDA) ---

if sp:
    # Eliminamos el argumento 'max_total_songs=500'
    df_spotify_raw = extract_spotify_data_reggaeton_ampliada(sp, YEARS, query_terms) 
    
    print("\n--- RESULTADO FINAL DE REGGAETON (ESTRATEGIA ROBUSTA) ---")
    print(f"Total de registros extra√≠dos: {len(df_spotify_raw)}") 
    print(df_spotify_raw.head(10))


--- INICIANDO EXTRACCI√ìN PARA EL A√ëO 2010 ---
   -> Buscando con t√©rmino: reggaeton
   -> Spotify reporta 100 resultados para 'reggaeton'.
      -> A√±adidas 100 canciones √öNICAS de 'reggaeton'.
   -> Buscando con t√©rmino: regueton
   -> Spotify reporta 32 resultados para 'regueton'.
      -> A√±adidas 19 canciones √öNICAS de 'regueton'.
   -> Buscando con t√©rmino: urbano latino
   -> Spotify reporta 36 resultados para 'urbano latino'.
      -> A√±adidas 34 canciones √öNICAS de 'urbano latino'.
   -> Buscando con t√©rmino: perreo
   -> Spotify reporta 82 resultados para 'perreo'.
      -> A√±adidas 69 canciones √öNICAS de 'perreo'.
   -> Buscando con t√©rmino: reggaeton pop
   -> Spotify reporta 29 resultados para 'reggaeton pop'.
      -> A√±adidas 23 canciones √öNICAS de 'reggaeton pop'.
   -> Buscando con t√©rmino: latin urban
   -> Spotify reporta 100 resultados para 'latin urban'.
      -> A√±adidas 5 canciones √öNICAS de 'latin urban'.
üõë L√çMITE ANUAL ALCANZADO (250). T

In [9]:
# VERIFICACI√ìN DE CANCIONES
print(f"N√∫mero de canciones encontradas en df_spotify_raw: {len(df_spotify_raw)}")
print(f"Primeras filas (head) de df_spotify_raw:\n{df_spotify_raw.head()}")

N√∫mero de canciones encontradas en df_spotify_raw: 500
Primeras filas (head) de df_spotify_raw:
          Artista                 G√©nero musical     Tipo  \
0          Plan B  Reggaeton (Origen: reggaeton)  Canci√≥n   
1  Wisin & Yandel  Reggaeton (Origen: reggaeton)  Canci√≥n   
2     Cosculluela  Reggaeton (Origen: reggaeton)  Canci√≥n   
3         Farruko  Reggaeton (Origen: reggaeton)  Canci√≥n   
4        Arc√°ngel  Reggaeton (Origen: reggaeton)  Canci√≥n   

                          Nombre  A√±o de lanzamiento              ID_Spotify  \
0  Parisera (feat. De La Ghetto)                2010  4rVeA8n8ui7neX4XUOJObT   
1                        Tu Olor                2010  4lwJGmQFcbUypQ8mkm8YlG   
2                Te Deseo el Mal                2010  43hrb3UDtUdvVNQ5gSCsMI   
3               Su Hija Me Gusta                2010  5N1EdvOZKDKKIcwBcj3VmR   
4              Mujer Maravillosa                2010  6mybRTRWrEecDQWVSdjRrU   

                 ID_Album  
0  4s9iYsrtBIvkZn5A

In [10]:
# --- CELDA COMPLETA: EXTRACCI√ìN Y UNIFICACI√ìN DE √ÅLBUMES ---

# Aseg√∫rate de que las librer√≠as necesarias (pandas, time) y la variable 'sp' est√©n disponibles
import pandas as pd
import time
# Nota: La variable 'sp' debe estar definida por la Celda 1.

# -------------------------------------------------------------------
# BLOQUE 1: DEFINICI√ìN DE LA FUNCI√ìN
# -------------------------------------------------------------------

def extract_album_details(sp, album_ids):
    """
    Extrae los metadatos completos (nombre, a√±o, artista) de los √°lbumes.
    """
    album_details = []
    
    # El set ya se crea cuando se llama a la funci√≥n con album_ids_list.
    unique_album_ids = album_ids
    
    print(f"\n--- INICIANDO EXTRACCI√ìN DE METADATOS DE {len(unique_album_ids)} √ÅLBUMES ---")
    
    for album_id in unique_album_ids:
        try:
            album_info = sp.album(album_id) 
            
            data_row = {
                'ID_Album': album_id,
                'Nombre_Album': album_info['name'],
                'A√±o_Lanzamiento_Album': album_info['release_date'][:4], # Tomamos solo el a√±o
                'Artista_Principal_Album': album_info['artists'][0]['name'],
                'Tipo_Lanzamiento': album_info['album_type'] 
            }
            album_details.append(data_row)
            time.sleep(0.2) # Pausa para no saturar la API
            
        except Exception as e:
            # Capturamos errores como √°lbumes que han sido eliminados de Spotify
            print(f"   -> Error al extraer detalles del √°lbum {album_id}: {e}")
            pass
            
    print(f"‚úÖ Extracci√≥n de {len(album_details)} √°lbumes completada.")
    return pd.DataFrame(album_details)

# -------------------------------------------------------------------
# BLOQUE 2: EJECUCI√ìN Y FUSI√ìN
# -------------------------------------------------------------------

# Verificaci√≥n de que el DataFrame de canciones est√° disponible
if 'df_spotify_raw' in locals() and not df_spotify_raw.empty:
    
    print("\n--- INICIANDO PROCESO DE UNIFICACI√ìN DE √ÅLBUMES ---")
    
    # 1. VERIFICACI√ìN CR√çTICA: La columna 'ID_Album' debe existir.
    if 'ID_Album' not in df_spotify_raw.columns:
        print("‚ùå ERROR CR√çTICO: La columna 'ID_Album' NO se encontr√≥. La Celda 3 fall√≥ al guardar el ID del √°lbum.")
    else:
        
        # 2. Obtener IDs √∫nicos v√°lidos de los √°lbumes
        album_ids_list = df_spotify_raw['ID_Album'].dropna().unique() 
        
        if len(album_ids_list) == 0:
            print("‚ùå LISTA VAC√çA: Se encontraron canciones, pero 0 IDs de √°lbumes v√°lidos. No se puede continuar.")
        else:
            print(f"‚úÖ Se encontraron {len(album_ids_list)} IDs de √°lbumes √∫nicos. Extrayendo ahora...")
            
            # 3. Ejecutar la funci√≥n de extracci√≥n (Tardar√° unos minutos)
            df_album_details = extract_album_details(sp, album_ids_list)
            
            # 4. Fusionar (JOIN) los detalles del √°lbum con los datos de las canciones
            df_spotify_final = pd.merge(
                df_spotify_raw,
                df_album_details[['ID_Album', 'Nombre_Album', 'A√±o_Lanzamiento_Album', 'Artista_Principal_Album']],
                on='ID_Album',
                how='left' 
            )
            
            print(f"\n--- PROCESO DE √ÅLBUMES COMPLETADO ---")
            print(f"DataFrame intermedio 'df_spotify_final' creado con {len(df_spotify_final)} filas.")
            print(df_spotify_final.head())
            
else:
    print("‚ùå ERROR: El DataFrame de canciones (df_spotify_raw) no est√° disponible. Vuelve a ejecutar la Celda 3.")


--- INICIANDO PROCESO DE UNIFICACI√ìN DE √ÅLBUMES ---
‚úÖ Se encontraron 292 IDs de √°lbumes √∫nicos. Extrayendo ahora...

--- INICIANDO EXTRACCI√ìN DE METADATOS DE 292 √ÅLBUMES ---
‚úÖ Extracci√≥n de 292 √°lbumes completada.

--- PROCESO DE √ÅLBUMES COMPLETADO ---
DataFrame intermedio 'df_spotify_final' creado con 500 filas.
          Artista                 G√©nero musical     Tipo  \
0          Plan B  Reggaeton (Origen: reggaeton)  Canci√≥n   
1  Wisin & Yandel  Reggaeton (Origen: reggaeton)  Canci√≥n   
2     Cosculluela  Reggaeton (Origen: reggaeton)  Canci√≥n   
3         Farruko  Reggaeton (Origen: reggaeton)  Canci√≥n   
4        Arc√°ngel  Reggaeton (Origen: reggaeton)  Canci√≥n   

                          Nombre  A√±o de lanzamiento              ID_Spotify  \
0  Parisera (feat. De La Ghetto)                2010  4rVeA8n8ui7neX4XUOJObT   
1                        Tu Olor                2010  4lwJGmQFcbUypQ8mkm8YlG   
2                Te Deseo el Mal                2010  43

In [12]:
def extract_lastfm_artist_details(artist_name):
    """Extrae biograf√≠a y estad√≠sticas de popularidad de un artista."""
    
    url = 'http://ws.audioscrobbler.com/2.0/'
    params = {
        'method': 'artist.getinfo',
        'artist': artist_name,
        'api_key': LASTFM_API_KEY,
        'format': 'json'
    }
    
    try:
        response = requests.get(url, params=params)
        response.raise_for_status()
        data = response.json()
        
        if 'artist' in data:
            artist_info = data['artist']
            
            # Extraer los datos relevantes (Biograf√≠a, Popularidad/Plays)
            biography = artist_info.get('bio', {}).get('summary', 'N/A')
            playcount = artist_info.get('stats', {}).get('playcount', '0')
            listeners = artist_info.get('stats', {}).get('listeners', '0')
            
            return {
                'Artista': artist_name,
                'Biografia_Resumen': biography,
                'Playcount_LastFM': playcount,
                'Listeners_LastFM': listeners,
            }
    except Exception:
        # En caso de error de conexi√≥n o artista no encontrado, devuelve None
        pass 
        
    return None

# --- Ejecuci√≥n para Artistas √önicos ---

if 'df_spotify_raw' in locals() and not df_spotify_raw.empty:
    
    # Obtener la lista √∫nica de artistas para evitar b√∫squedas repetidas
    unique_artists = df_spotify_raw['Artista'].unique()
    lastfm_results = []
    
    print("\n--- EXTRACCI√ìN DETALLES LAST.FM ---")
    
    for artist in unique_artists: 
        details = extract_lastfm_artist_details(artist)
        if details:
            lastfm_results.append(details)
        time.sleep(0.5) # Pausa crucial para no sobrecargar la API

    df_lastfm = pd.DataFrame(lastfm_results)
    
    # 5. UNIFICACI√ìN DE DATOS
    # Fusionar los datos de Spotify con los detalles de Last.fm
    df_final_reggaeton = pd.merge(
        df_spotify_raw, 
        df_lastfm[['Artista', 'Playcount_LastFM', 'Listeners_LastFM']],
        on='Artista', 
        how='left' # Usamos left join para mantener todas las canciones de Spotify
    )
    
    print("\n--- DATAFRAME FINAL DE REGGAETON LISTO PARA ALMACENAMIENTO ---")
    print(df_final_reggaeton.head())
    print(f"Total de registros finales para Reggaeton: {len(df_final_reggaeton)}")


--- EXTRACCI√ìN DETALLES LAST.FM ---

--- DATAFRAME FINAL DE REGGAETON LISTO PARA ALMACENAMIENTO ---
          Artista                 G√©nero musical     Tipo  \
0          Plan B  Reggaeton (Origen: reggaeton)  Canci√≥n   
1  Wisin & Yandel  Reggaeton (Origen: reggaeton)  Canci√≥n   
2     Cosculluela  Reggaeton (Origen: reggaeton)  Canci√≥n   
3         Farruko  Reggaeton (Origen: reggaeton)  Canci√≥n   
4        Arc√°ngel  Reggaeton (Origen: reggaeton)  Canci√≥n   

                          Nombre  A√±o de lanzamiento              ID_Spotify  \
0  Parisera (feat. De La Ghetto)                2010  4rVeA8n8ui7neX4XUOJObT   
1                        Tu Olor                2010  4lwJGmQFcbUypQ8mkm8YlG   
2                Te Deseo el Mal                2010  43hrb3UDtUdvVNQ5gSCsMI   
3               Su Hija Me Gusta                2010  5N1EdvOZKDKKIcwBcj3VmR   
4              Mujer Maravillosa                2010  6mybRTRWrEecDQWVSdjRrU   

                 ID_Album Playcount_LastFM

In [13]:
# --- BLOQUE DE FUSI√ìN Y GUARDADO CORREGIDO ---

# 1. Aseguramos que tenemos df_spotify_final y df_lastfm en memoria.

if 'df_spotify_final' in locals() and 'df_lastfm' in locals():
    
    # Lista de columnas a fusionar (¬°EXCLUYE Artistas_Similares!)
    lastfm_cols_to_merge = ['Artista', 'Biografia_Resumen', 'Playcount_LastFM', 'Listeners_LastFM']
    
    # 2. Re-ejecutar el merge (fusi√≥n)
    df_proyecto_final = pd.merge(
        df_spotify_final, 
        # Seleccionamos solo las columnas que sabemos que existen:
        df_lastfm[lastfm_cols_to_merge], # <-- ¬°CRUCIAL!
        on='Artista', 
        how='left'
    )
    
    # 3. Guardar el archivo CSV (Tu Celda 5 original)
    output_filename = 'reggaeton_data_2010_2024.csv'
    
    df_proyecto_final.to_csv(
        output_filename, 
        index=False,        
        encoding='utf-8'    
    )
    
    print(f"\nüéâ ¬°FASE 1 FINALIZADA CON √âXITO! üéâ")
# ...


üéâ ¬°FASE 1 FINALIZADA CON √âXITO! üéâ


In [16]:
!pip install mysql-connector-python
# O usa el que suele ser m√°s robusto con Pandas:
!pip install sqlalchemy mysqlclient

Collecting mysqlclient
  Downloading mysqlclient-2.2.7-cp313-cp313-win_amd64.whl.metadata (4.8 kB)
Downloading mysqlclient-2.2.7-cp313-cp313-win_amd64.whl (208 kB)
Installing collected packages: mysqlclient
Successfully installed mysqlclient-2.2.7
