# Proyecto MusicStream ‚Äì A√±os 2010- 2020

Extracci√≥n de datos desde Spotify y Last.fm

## 1. Importaciones y configuraci√≥n de librer√≠as

In [2]:
# ===============================
# LIBRER√çAS INCORPORADAS EN PYTHON
# ===============================

import os                     
# Permite a Python comunicarse con el sistema operativo
# Lo usamos para leer variables guardadas fuera del c√≥digo

import time                  
# Permite hacer pausas entre peticiones
# Control de ritmo ‚Üí evitar l√≠mites de la API (rate limits)

from urllib.parse import quote   
# Convierte textos con espacios o acentos en un formato v√°lido para URLs
# Ej: "Red Hot Chili Peppers" ‚Üí "Red%20Hot%20Chili%20Peppers"

# ===============================
# LIBRER√çAS EXTERNAS (instalar con pip install)
# ===============================
from dotenv import load_dotenv 
# Carga un archivo .env donde guardamos datos sensibles
# (contrase√±as, claves de API) sin escribirlos directamente en el c√≥digo

import requests              
# Librer√≠a general para hacer peticiones a APIs que no tienen librer√≠a propia

import spotipy               
# Librer√≠a que nos facilita hablar con la API de Spotify
# Evita que tengamos que construir peticiones HTTP a mano

from spotipy.oauth2 import SpotifyClientCredentials  
# Se usa para identificarnos ante Spotify usando credenciales
# Es como mostrar un carnet para que Spotify sepa qui√©n hace la petici√≥n

from spotipy.exceptions import SpotifyException       
# Nos permite detectar y manejar errores cuando Spotify no responde bien

import pandas as pd          
# Herramienta principal para trabajar con tablas de datos (DataFrames)

import numpy as np           
# Ayuda a manejar valores vac√≠os (NaN) y tipos compatibles con bases de datos

# ===============================
# CONEXI√ìN A BASE DE DATOS
# ===============================
import mysql.connector      
# Permite conectar Python con una base de datos MySQL

from mysql.connector import Error  
# Sirve para capturar errores y evitar que el programa se rompa sin avisar

# ===============================
# CARGA DE VARIABLES DE ENTORNO
# ===============================
load_dotenv()  
# Lee el archivo .env y carga sus valores en el entorno del sistema

MYSQL_HOST = os.getenv("MYSQL_HOST")        
# Direcci√≥n del servidor donde est√° la base de datos

MYSQL_USER = os.getenv("MYSQL_USER")        
# Usuario con permiso para acceder a la base de datos

MYSQL_PASSWORD = os.getenv("MYSQL_PASSWORD")
# Contrase√±a de la base de datos (nunca debe escribirse directamente en el c√≥digo)


## 2. Credenciales y conexi√≥n Spotify

In [30]:
# --- Paso 1: C√≥mo obtener Client ID y Client Secret (Spotify) y qu√© es OAuth ---
# Usamos OAuth (Open Authorization) para poder acceder a datos p√∫blicos de Spotify (artistas, √°lbumes, playlists p√∫blicas)

# --- Paso 2: C√≥mo obtener Client ID y Client Secret (Spotify) ---
# 1Ô∏è‚É£ Ve a https://developer.spotify.com/dashboard e inicia sesi√≥n
# 2Ô∏è‚É£ Haz clic en "Create an App"
# 3Ô∏è‚É£ Completa los campos:
#    - App name: ej. "Mi Analizador de M√∫sica"
#    - App description: ej. "Proyecto educativo para analizar datos de canciones"
#    - Marca las casillas seg√∫n c√≥mo usar√°s la API (ej. "I only use the Web API")
# 4Ô∏è‚É£ Haz clic en "Create"
# 5Ô∏è‚É£ Copia el Client ID y haz clic en "SHOW CLIENT SECRET" para ver el secreto
# 6Ô∏è‚É£ Gu√°rdalos en un archivo llamado ".env" en la ra√≠z del proyecto:
#    SPOTIPY_CLIENT_ID=tu_id_aqu√≠
#    SPOTIPY_CLIENT_SECRET=tu_secreto_aqu√≠
# 7Ô∏è‚É£ CREA UN ARCHIVO LLAMADO ".gitignore" EN LA RA√çZ DEL PROYECTO Y A√ëADE:
#    .env
#    Esto evita que Git suba tus credenciales a GitHub por accidente

# --- Paso 3: Recuperar las credenciales desde el archivo .env ---
client_id = os.getenv("SPOTIFY_CLIENT_ID")          # Identificador √∫nico de tu app
client_secret = os.getenv("SPOTIFY_CLIENT_SECRET")  # Clave secreta de tu app

# --- Paso 3: Validaci√≥n de credenciales ---
if not client_id or not client_secret:
    raise ValueError(
        "‚ùå Las credenciales de Spotify no est√°n cargadas.\n"
        "Sigue los pasos detallados arriba para obtener Client ID y Client Secret "
        "y guardarlos en tu archivo .env."
    )

# --- Paso 4: Inicializaci√≥n ---
# Objetivo:
#   - Detectar si hay alg√∫n problema con las credenciales

try:
    # usamos las credenciales que permiten a nuestra app acceder a Spotify
    mis_credenciales = SpotifyClientCredentials(
        client_id=client_id,
        client_secret=client_secret
    )
    
    # Cada consulta a la API usar√° autom√°ticamente nuestras credenciales
    spotify = spotipy.Spotify(auth_manager=mis_credenciales)
    
    # Confirmaci√≥n visual de que todo est√° listo
    print("‚úÖ Conexi√≥n con Spotify inicializada correctamente.")
    print("üîπ Listo para buscar artistas, √°lbumes y playlists p√∫blicas.")

except spotipy.exceptions.SpotifyException as e:
    # Si falla la conexi√≥n o las credenciales son incorrectas, mostramos el error
    raise ConnectionError(f"‚ùå Error al conectar con Spotify: {e}")


‚úÖ Conexi√≥n con Spotify inicializada correctamente.
üîπ Listo para buscar artistas, √°lbumes y playlists p√∫blicas.


In [31]:
# ===============================
# FLUJO PROFESIONAL DETALLADO: SPOTIFY API
# ===============================

# OBJETIVO GENERAL:
# Aprender a usar la API de Spotify como lo har√≠a un/a analista de datos:
#
#   1Ô∏è‚É£ Entender c√≥mo Spotify organiza la informaci√≥n
#   2Ô∏è‚É£ Usar SEARCH solo para descubrir IDs
#   3Ô∏è‚É£ Usar endpoints espec√≠ficos con esos IDs
#
# Idea clave:
# üëâ SEARCH = herramienta de descubrimiento
# üëâ ENDPOINTS = extracci√≥n real de datos para an√°lisis

# ------------------------------------------------
# 1Ô∏è‚É£ ENTENDER LA API DE SPOTIFY (MODELO MENTAL)
# ------------------------------------------------
# Spotify NO es un buscador libre como Google.
# Es una base de datos estructurada con relaciones claras.
#
# Los principales recursos son:
#   - Artistas
#   - √Ålbumes / Singles
#   - Canciones (tracks)
#   - Playlists
#
# Relaci√≥n jer√°rquica principal:
#
#   ARTISTA
#      ‚Üì
#   √ÅLBUM
#      ‚Üì
#   CANCIONES
#
# Cada recurso tiene un ID √∫nico que Spotify usa internamente.
# Ejemplos reales:
#
#   Artista  ‚Üí Shakira  ‚Üí '0TnOYISbd1XYRBk9myaseg'
#   √Ålbum    ‚Üí El Dorado ‚Üí '3jjujdWJ72nww5eGnfs2E7'
#   Canci√≥n  ‚Üí Chantaje ‚Üí '0k17h0D3J5VfsdmQ1iZtE9'
#
# PROBLEMA REAL:
# üëâ Normalmente NO conocemos estos IDs al empezar
#
# SOLUCI√ìN:
# üëâ Usamos search() SOLO para obtener esos IDs

# ------------------------------------------------
# 2Ô∏è‚É£ SEARCH(): DESCUBRIR IDs Y FILTRAR RESULTADOS
# ------------------------------------------------
# search() es el punto de entrada m√°s com√∫n cuando:
#   - Tenemos texto (nombre de artista, √°lbum, canci√≥n)
#   - NO tenemos un ID todav√≠a
#
# El par√°metro m√°s importante es `q`
#
# Dentro de `q` podemos usar filtros oficiales de Spotify:
#
#   album       ‚Üí nombre del √°lbum
#   artist      ‚Üí nombre del artista
#   track       ‚Üí nombre de la canci√≥n
#   year        ‚Üí a√±o o rango (ej. 2010 o 2010-2015)
#   genre       ‚Üí g√©nero musical (latin, jazz, rock, etc.)
#   upc         ‚Üí identificador comercial de √°lbum
#   isrc        ‚Üí identificador internacional de canci√≥n
#   tag:hipster ‚Üí contenido alternativo / menos comercial
#   tag:new     ‚Üí lanzamientos recientes
#
# IMPORTANTE:
# `q` puede combinar filtros:
#   q='artist:Shakira year:2010'


# Adem√°s de `q`, search() acepta par√°metros de control:
#
#   type   ‚Üí qu√© tipo de recurso queremos:
#            'artist', 'album', 'track', 'playlist'
#
#   market ‚Üí pa√≠s de referencia (US, ES, MX...)
#            afecta disponibilidad y popularidad
#
#   limit  ‚Üí cu√°ntos resultados devuelve (1‚Äì50)
#            para an√°lisis solemos usar pocos y luego paginar
#
#   offset ‚Üí desde qu√© posici√≥n empezar
#            se usa para recorrer resultados grandes
#
#   include_external ‚Üí incluir contenido externo (normalmente NO se usa)
#
# En la pr√°ctica profesional:
# üëâ SEARCH se usa para localizar el recurso correcto
# üëâ Luego se abandona y se usan endpoints directos


# ------------------------------------------------
# 3Ô∏è‚É£ OBTENER EL ID Y DATOS DEL ARTISTA
# ------------------------------------------------
# CASO REAL:
# "Quiero analizar a un artista, pero solo conozco su nombre"

nombre_artista = "Shakira"  # Puede ser cualquier artista

resultado = spotify.search(
    q=f'artist:{nombre_artista}',  # Filtro principal: nombre del artista
    type='artist',                 # Buscamos SOLO artistas
    market='US',                   # Mercado de referencia
    limit=1,                       # Solo el resultado m√°s relevante
    offset=0                       # Inicio de resultados
)

# Extraemos el primer artista encontrado
# (Spotify ya ordena por relevancia)
artista = resultado['artists']['items'][0]

# ID √∫nico del artista (CLAVE para siguientes pasos)
artist_id = artista['id']

# ------------------------------------------------
# 4Ô∏è‚É£ INTERPRETAR LOS DATOS DEL ARTISTA
# ------------------------------------------------
# Aqu√≠ NO estamos analizando canciones todav√≠a,
# solo contexto del artista.

print("‚úÖ Artista encontrado:", artista['name'])
print("üÜî ID del artista:", artist_id)

# G√©neros asociados por Spotify (pueden ser m√∫ltiples)
print("üéº G√©neros:", artista['genres'])

# Popularidad:
# - Escala de 0 a 100
# - Calculada internamente por Spotify
# - Basada en reproducciones recientes y tendencia
print("üî• Popularidad:", artista['popularity'])  
# Referencia com√∫n:
#   >70  ‚Üí artista muy popular
#   >85  ‚Üí artista global / mainstream

# Followers:
# - N√∫mero real de usuarios que siguen al artista
# - M√©trica acumulada (no temporal)
print("üë• Seguidores:", artista['followers']['total'])
# Interpretaci√≥n orientativa:
#   >1.000.000    ‚Üí artista popular
#   >10.000.000   ‚Üí superestrella
#   >50.000.000   ‚Üí icono global


‚úÖ Artista encontrado: Shakira
üÜî ID del artista: 0EmeFodog0BfCgMzAIvKQp
üéº G√©neros: ['latin pop']
üî• Popularidad: 88
üë• Seguidores: 40816211


# 3. Extracci√≥n de datos Spotify

In [32]:
# ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ
# FUNCI√ìN SEGURA PARA HACER SEARCH EN SPOTIFY
# ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ
#
# CONTEXTO:
# - search() es el punto de entrada m√°s com√∫n a la API de Spotify
# - Se usa principalmente para:
#     üëâ descubrir IDs (artistas, √°lbumes, canciones)
#     üëâ cuando NO conocemos a√∫n el ID exacto
#
# PROBLEMA REAL:
# - Spotify impone l√≠mites de peticiones (rate limit)
# - Si hacemos muchas b√∫squedas seguidas, puede devolver error 429
#
# SOLUCI√ìN:
# - Envolver search() en una funci√≥n "segura"
# - Detectar el error 429
# - Esperar el tiempo indicado por Spotify
# - Reintentar autom√°ticamente


def spotify_search_seguro(spotify, query, tipo, limite=10, reintentos=3):
    """
    Realiza una b√∫squeda segura en la API de Spotify usando search().

    Maneja autom√°ticamente:
    - L√≠mite de peticiones (error 429)
    - Errores de Spotify
    - Errores inesperados del programa

    Par√°metros:
    - spotify: objeto cliente de Spotipy (ya autenticado)
    - query: texto de b√∫squeda (ej. 'artist:Shakira', 'genre:latin year:2018')
    - tipo: tipo de recurso a buscar ('artist', 'album', 'track', 'playlist')
    - limite: n√∫mero m√°ximo de resultados a devolver (1‚Äì50)
    - reintentos: n√∫mero m√°ximo de reintentos si Spotify devuelve error 429

    Retorna:
    - Respuesta de spotify.search() si la b√∫squeda es exitosa
    - None si ocurre un error no recuperable
    """

    intento = 0  # Contador de intentos realizados

    # Bucle de reintentos: se repite solo si Spotify pide esperar (429)
    while intento < reintentos:
        try:
            # Llamada principal a la API de Spotify
            # Aqu√≠ es donde realmente se consulta el endpoint /search
            return spotify.search(
                q=query,
                type=tipo,
                limit=limite
            )

        except SpotifyException as e:
            # Errores espec√≠ficos devueltos por la API de Spotify
            if e.http_status == 429:
                # Error 429 = demasiadas peticiones en poco tiempo
                # Spotify indica cu√°nto tiempo debemos esperar
                espera = int(e.headers.get("Retry-After", 1))

                print(f"‚è≥ Rate limit alcanzado. Esperando {espera} segundos...")
                time.sleep(espera)   # Pausa obligatoria
                intento += 1         # Incrementamos el contador de intentos
            else:
                # Otros errores de Spotify (credenciales, endpoint incorrecto, etc.)
                print("‚ùå Error de Spotify:", e)
                return None

        except Exception as e:
            # Cualquier error que NO venga directamente de Spotify
            # (errores de red, errores de c√≥digo, etc.)
            print("‚ùå Error inesperado:", e)
            return None

    # Si se supera el n√∫mero m√°ximo de reintentos permitidos
    print("‚ö†Ô∏è Demasiados intentos fallidos. Se omite esta b√∫squeda.")
    return None


In [33]:
# ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ
# FUNCI√ìN SEGURA PARA OBTENER CANCIONES DE UN √ÅLBUM
# ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ
#
# CONTEXTO REAL EN LA API:
# - En Spotify, las canciones NO se piden directamente por artista
# - El flujo correcto es:
#
#     ARTISTA ‚Üí √ÅLBUM ‚Üí CANCIONES
#
# - Una vez tenemos el ID de un √°lbum, usamos el endpoint:
#     spotify.album_tracks()
#
# PROBLEMAS REALES QUE RESUELVE ESTA FUNCI√ìN:
# 1Ô∏è‚É£ Spotify devuelve las canciones paginadas (m√°x. 50 por llamada)
# 2Ô∏è‚É£ Spotify puede bloquear peticiones si hacemos demasiadas (error 429)
# 3Ô∏è‚É£ No queremos que el programa se rompa durante un an√°lisis largo


def spotify_album_tracks_seguro(spotify, id_album, reintentos=3):
    """
    Obtiene todas las canciones de un √°lbum de Spotify de forma segura.

    La funci√≥n:
    - Recorre autom√°ticamente todas las p√°ginas del √°lbum (paginaci√≥n)
    - Detecta el error 429 (rate limit)
    - Espera el tiempo indicado por Spotify
    - Reintenta sin romper el flujo del an√°lisis

    Par√°metros:
    - spotify: cliente autenticado de Spotipy
    - id_album: ID √∫nico del √°lbum (obtenido previamente con search())
    - reintentos: n√∫mero m√°ximo de reintentos si Spotify bloquea la petici√≥n

    Retorna:
    - Lista completa de tracks del √°lbum si todo va bien
    - None si ocurre un error no recuperable
    """

    intento = 0  # Contador de reintentos por rate limit

    # Bucle de reintentos (solo se repite si Spotify pide esperar)
    while intento < reintentos:
        try:
            # Aqu√≠ se almacenar√°n TODAS las canciones del √°lbum
            tracks = []

            # Spotify devuelve como m√°ximo 50 canciones por petici√≥n
            offset = 0
            limit = 50

            # Bucle de paginaci√≥n: recorremos todas las p√°ginas del √°lbum
            while True:
                # Llamada al endpoint espec√≠fico del √°lbum
                response = spotify.album_tracks(
                    id_album,
                    limit=limit,
                    offset=offset
                )

                # A√±adimos las canciones de esta p√°gina a la lista total
                tracks.extend(response['items'])

                # Si no hay m√°s p√°ginas, terminamos
                if response['next'] is None:
                    break

                # Avanzamos el offset para pedir la siguiente p√°gina
                offset += len(response['items'])

            # Si llegamos aqu√≠, el √°lbum se descarg√≥ completo
            return tracks

        except SpotifyException as e:
            # Errores devueltos directamente por la API de Spotify
            if e.http_status == 429:
                # Error 429 = demasiadas peticiones en poco tiempo
                espera = int(e.headers.get("Retry-After", 1))

                print(f"‚è≥ Rate limit en √°lbum. Esperando {espera} segundos...")
                time.sleep(espera)
                intento += 1  # Reintentamos despu√©s de esperar
            else:
                # Otros errores de Spotify (ID inv√°lido, permisos, etc.)
                print("‚ùå Error de Spotify:", e)
                return None

        except Exception as e:
            # Errores inesperados (red, c√≥digo, datos corruptos)
            print("‚ùå Error inesperado:", e)
            return None

    # Si Spotify bloquea demasiadas veces seguidas
    print("‚ö†Ô∏è Demasiados intentos con este √°lbum. Se omite el √°lbum.")
    return None


In [None]:
# ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ
# FUNCI√ìN DE NEGOCIO: BUSQUEDA DE CANCIONES EN SPOTIFY
# ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ

def busqueda_spotify(generos, a√±o, spotify):
    """
    Funci√≥n que busca canciones en Spotify de forma estructurada:
    flujo l√≥gico ‚Üí ARTISTA ‚Üí √ÅLBUM ‚Üí CANCIONES

    L√≥gica profesional:
    1Ô∏è‚É£ Buscar artistas seg√∫n el g√©nero.
    2Ô∏è‚É£ Para cada artista, buscar sus √°lbumes publicados en el a√±o indicado.
    3Ô∏è‚É£ Para cada √°lbum, obtener todas las canciones.
    4Ô∏è‚É£ Guardar informaci√≥n relevante: canci√≥n, √°lbum, artista, g√©nero y a√±o.

    Par√°metros:
    - generos: lista de g√©neros musicales (ej. ["latin", "rock"])
    - a√±o: a√±o de lanzamiento de los √°lbumes a buscar
    - spotify: objeto autenticado de la API de Spotify

    Retorna:
    - DataFrame de pandas con todas las canciones encontradas
    """

    todas_las_canciones = []      # Lista donde guardaremos todas las canciones
    albumes_ya_vistos = set()     # Evita procesar √°lbumes duplicados

    print(f"Buscando canciones del a√±o {a√±o}...\n")

    for genero in generos:
        print(f"üéØ G√©nero: {genero}")

        # -----------------------------
        # 1Ô∏è‚É£ Buscar artistas por g√©nero
        # -----------------------------
        # Usamos la funci√≥n segura para evitar errores de rate limit
        resultado_artistas = spotify_search_seguro(
            spotify, 
            query=f"genre:{genero}",  # Filtra artistas por g√©nero
            tipo="artist", 
            limite=50                 # M√°ximo 50 artistas por g√©nero
        )
        if resultado_artistas is None:
            print("‚ö†Ô∏è No se pudieron obtener artistas de este g√©nero. Saltando...")
            continue

        artistas = resultado_artistas["artists"]["items"]

        for artista in artistas:
            nombre_artista = artista["name"]
            artist_id = artista["id"]

            # -----------------------------
            # 2Ô∏è‚É£ Buscar √°lbumes del artista en el a√±o
            # -----------------------------
            # No podemos filtrar artista + a√±o directamente, hay que buscar √°lbumes
            busqueda_albumes = f"artist:{nombre_artista} year:{a√±o}"
            resultado_albumes = spotify_search_seguro(
                spotify,
                query=busqueda_albumes,
                tipo="album",
                limite=50
            )
            if resultado_albumes is None:
                continue

            albumes = resultado_albumes["albums"]["items"]

            for album in albumes:
                id_album = album["id"]
                nombre_album = album["name"]

                # Evitar duplicados
                if id_album in albumes_ya_vistos:
                    continue
                albumes_ya_vistos.add(id_album)

                # -----------------------------
                # 3Ô∏è‚É£ Obtener canciones del √°lbum
                # -----------------------------
                # Cada canci√≥n est√° asociada al √°lbum y artista
                resultado_canciones = spotify_album_tracks_seguro(spotify, id_album)
                if resultado_canciones is None:
                    continue

                for cancion in resultado_canciones:
                    info = {
                        "nombre": cancion["name"],
                        "artista": nombre_artista,
                        "album": nombre_album,
                        "genero": genero,
                        "a√±o": a√±o
                    }
                    todas_las_canciones.append(info)

        print(f"  ‚Üí Canciones de este g√©nero a√±adidas.\n")

    # -----------------------------
    # 4Ô∏è‚É£ Resumen final
    # -----------------------------
    print("üìä RESUMEN:")
    for genero in generos:
        contador = sum(1 for c in todas_las_canciones if c["genero"] == genero)
        print(f"- {genero}: {contador} canciones")
    print("Total de canciones encontradas:", len(todas_las_canciones))

    # Devolver como DataFrame para an√°lisis
    return pd.DataFrame(todas_las_canciones)


In [None]:
# LLAMADA A LA FUNCION PARA EXTRAER DATOS DE SPOTIFY
genero = ["country","latin","jazz","rock"] # Lista de g√©neros musicales a analizar
a√±o = 2020 # cambiamos este valor para cada a√±o seleccionado
canciones_2020_df = busqueda_spotify(genero,a√±o, spotify) # Ejecuta la b√∫squeda en Spotify y devuelve los resultados en un DataFrame

Buscando canciones del a√±o 2020
G√©nero: country
  ‚Üí Canciones de este g√©nero a√±adidas

G√©nero: latin


Your application has reached a rate/request limit. Retry will occur after: 1 s
Your application has reached a rate/request limit. Retry will occur after: 1 s


  ‚Üí Canciones de este g√©nero a√±adidas

G√©nero: jazz


Your application has reached a rate/request limit. Retry will occur after: 85424 s


In [None]:
canciones_2020_df  # Muestra el contenido completo del DataFrame


Unnamed: 0,nombre,artista,album,genero,a√±o
0,Heaven - Acoustic,Kane Brown,Heaven (Acoustic),country,2018
1,Weekend,Kane Brown,Weekend,country,2018
2,Lose It - Acoustic,Kane Brown,Weekend,country,2018
3,Title Theme,HARDY,Hidden: Series One (Original Soundtrack),country,2018
4,Innocent Children,HARDY,Hidden: Series One (Original Soundtrack),country,2018
...,...,...,...,...,...
10330,That's All Right (Live Radio KWKH 16th October...,Elvis Presley,The Studio Recordings 1954,rock,2018
10331,Blue Moon Of Kentucky (Live Radio KWKH 16th Oc...,Elvis Presley,The Studio Recordings 1954,rock,2018
10332,I'll Never Stand In Your Way (Memphis Recordin...,Elvis Presley,The Studio Recordings 1954,rock,2018
10333,(It Wouldn't Be The Same) Without You [Memphis...,Elvis Presley,The Studio Recordings 1954,rock,2018


In [None]:
canciones_2020_df.head() # Muestra las primeras filas del DataFrame para inspeccionar la estructura

Unnamed: 0,nombre,artista,album,genero,a√±o
0,Heaven - Acoustic,Kane Brown,Heaven (Acoustic),country,2018
1,Weekend,Kane Brown,Weekend,country,2018
2,Lose It - Acoustic,Kane Brown,Weekend,country,2018
3,Title Theme,HARDY,Hidden: Series One (Original Soundtrack),country,2018
4,Innocent Children,HARDY,Hidden: Series One (Original Soundtrack),country,2018


In [None]:
canciones_2020_df.info() # Muestra informaci√≥n estructural del DataFrame (columnas, tipos y nulos)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10335 entries, 0 to 10334
Data columns (total 5 columns):
 #   Column   Non-Null Count  Dtype 
---  ------   --------------  ----- 
 0   nombre   10335 non-null  object
 1   artista  10335 non-null  object
 2   album    10335 non-null  object
 3   genero   10335 non-null  object
 4   a√±o      10335 non-null  int64 
dtypes: int64(1), object(4)
memory usage: 403.8+ KB


In [None]:
canciones_2020_df.isnull().sum() # Cuenta los valores nulos (NaN) por columna

nombre     0
artista    0
album      0
genero     0
a√±o        0
dtype: int64

# 4. Credenciales y conexi√≥n LAST.FM

In [4]:
# --- COMPROBACI√ìN DE LA CLAVE DE LAST.FM ---
# Recupera la API key desde el archivo .env
api_key_lastfm = os.getenv("API_KEY_LASTFM")

# Verifica que la clave exista antes de usarla
if not api_key_lastfm:
    print("‚ö†Ô∏è ADVERTENCIA: La clave de Last.fm no est√° cargada. Revisa tu archivo .env.")
else:
    # Confirmamos que la clave est√° disponible para futuras peticiones
    print("‚úÖ Conexi√≥n con Last.fm inicializada.")

‚úÖ Conexi√≥n con Last.fm inicializada.


In [5]:
# ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ
# PRUEBA DE CONEXI√ìN B√ÅSICA CON LAST.FM
# ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ

# Verificamos que la clave API de Last.fm est√© definida
if not api_key_lastfm:
    print("‚ùå Clave API de Last.fm no definida. Revisa tu archivo .env o configuraci√≥n.")
else:
    try:
        # Realizamos una petici√≥n m√≠nima para comprobar la conexi√≥n
        # Usamos el m√©todo 'chart.getTopArtists' para obtener los artistas m√°s populares
        respuesta = requests.get(
            "http://ws.audioscrobbler.com/2.0/",
            params={
                'method': 'chart.gettopartists',  # Endpoint de Last.fm para top artistas
                'api_key': api_key_lastfm,         # Nuestra clave API
                'format': 'json',                  # Formato de respuesta
                'limit': 1                         # Solo necesitamos 1 artista para probar
            }
        )

        # Lanza excepci√≥n si hubo error HTTP
        respuesta.raise_for_status()

        # Confirmaci√≥n visual de que la conexi√≥n funciona
        print("‚úÖ Conexi√≥n exitosa con Last.fm")
        # Nota: aqu√≠ podr√≠amos extraer datos b√°sicos, como el nombre del artista
        # artista_prueba = respuesta.json()['artists']['artist'][0]['name']

    except requests.exceptions.RequestException as e:
        # Captura cualquier error de la petici√≥n HTTP (conexi√≥n, timeout, clave incorrecta, etc.)
        print(f"‚ùå Error al conectar con Last.fm: {e}")


‚úÖ Conexi√≥n exitosa con Last.fm


# 5. Extracci√≥n de datos LAST.FM

In [26]:
url_last_fm = ("http://ws.audioscrobbler.com/2.0/") # URL base de la API de Last.fm para realizar consultas

In [None]:
# =======================================================
# üîπ CONSULTA DE INFORMACI√ìN DE ARTISTAS EN LAST.FM
# =======================================================

# Funci√≥n que consulta Last.fm de manera segura para un artista
def busqueda_info_artista(nombre_artista, api_key_lastfm):
    """
    Busca informaci√≥n de un artista en Last.fm.

    Flujo:
    1Ô∏è‚É£ Codifica el nombre del artista para usarlo en una URL
    2Ô∏è‚É£ Prepara los par√°metros de la consulta (m√©todo, clave, formato)
    3Ô∏è‚É£ Hace la petici√≥n HTTP a la API de Last.fm
    4Ô∏è‚É£ Procesa la respuesta:
        - Extrae resumen de biograf√≠a (sin enlaces HTML)
        - Extrae n√∫mero de oyentes ('listeners')
    5Ô∏è‚É£ Maneja errores de red o datos no encontrados

    Par√°metros:
    - nombre_artista: str, nombre del artista
    - api_key_lastfm: str, clave de API de Last.fm

    Retorna:
    - Diccionario con:
        - 'bio_resumen': resumen textual de la biograf√≠a
        - 'listeners': n√∫mero total de oyentes
        - 'consulta_exitosa': True/False
        - 'error_lastfm': mensaje de error si falla
    """
    # ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ
    # 1Ô∏è‚É£ Codificar nombre del artista
    # Convierte espacios y caracteres especiales en formato v√°lido para URLs
    artista_codificado = quote(nombre_artista)

    # ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ
    # 2Ô∏è‚É£ Preparar par√°metros de la consulta
    url_last_fm = "http://ws.audioscrobbler.com/2.0/"
    params_info = {
        'method': 'artist.getinfo',          # M√©todo para obtener info de artista
        'artist': artista_codificado,        # Nombre codificado
        'api_key': api_key_lastfm,           # Clave API de Last.fm
        'format': 'json'                     # Formato de respuesta
    }

    try:
        # ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ
        # 3Ô∏è‚É£ Hacer la petici√≥n HTTP con timeout
        response = requests.get(url_last_fm, params=params_info, timeout=10)
        response.raise_for_status()          # Lanza error si HTTP status != 200
        data = response.json()               # Convierte respuesta JSON a diccionario

        # ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ
        # 4Ô∏è‚É£ Procesar la respuesta
        if "artist" in data:
            artista_info = data['artist']

            # Extrae resumen de biograf√≠a, eliminando enlaces HTML
            bio_summary = artista_info.get('bio', {}).get('summary', '').split('<a href')[0].strip()

            # Extrae n√∫mero de oyentes √∫nicos
            listeners = int(artista_info.get('stats', {}).get('listeners', 0))

            # Retorna datos procesados
            return {
                'bio_resumen': bio_summary,
                'listeners': listeners,
                'consulta_exitosa': True,
                'error_lastfm': None
            }
        else:
            # Caso: artista no encontrado en Last.fm
            return {
                'consulta_exitosa': False,
                'error_lastfm': "No encontrado en Last.fm",
                'bio_resumen': None,
                'listeners': 0
            }

    except requests.exceptions.RequestException as e:
        # Errores de conexi√≥n o HTTP
        status_code = getattr(e.response, 'status_code', 'N/A')
        return {
            'consulta_exitosa': False,
            'error_lastfm': f"Error API ({status_code}): {e}",
            'bio_resumen': None,
            'listeners': 0
        }

    except Exception as e:
        # Errores de procesamiento inesperados
        return {
            'consulta_exitosa': False,
            'error_lastfm': f"Error de procesamiento: {e}",
            'bio_resumen': None,
            'listeners': 0
        }


# ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ
# üîπ Uso seguro de la funci√≥n para todos los artistas de un DataFrame
if not api_key_lastfm:
    print("‚ùå La clave de la API de Last.fm no est√° configurada.")
else:
    # Extrae artistas √∫nicos del DataFrame principal
    artistas_unicos = canciones_2020_df['artista'].unique()
    print(f"üîπ Total de artistas √∫nicos a consultar en Last.fm: {len(artistas_unicos)}")

    # DataFrame temporal solo con artistas
    artistas_df = pd.DataFrame(artistas_unicos, columns=['artista'])
    print("üîπ Iniciando consultas a Last.fm...")

    # Aplica la funci√≥n a cada artista
    resultados_lastfm_serie = artistas_df['artista'].apply(
        busqueda_info_artista,
        args=(api_key_lastfm,)
    )

    # Convierte la Serie de diccionarios a DataFrame
    datos_lastfm_df = pd.json_normalize(resultados_lastfm_serie)
    # A√±ade columna de artista al inicio
    datos_lastfm_df.insert(0, 'artista', artistas_unicos)

    # Une la info de Last.fm con el DataFrame original de canciones
    df_final = pd.merge(
        canciones_2020_df,
        datos_lastfm_df,
        on='artista',
        how='left'  # Mantiene todas las canciones aunque falten datos
    )

    print("‚úÖ Consultas a Last.fm finalizadas y datos unidos al DataFrame.")


Total de artistas √∫nicos a consultar en Last.fm: 150

Iniciando consultas a Last.fm...
Consultas a Last.fm terminadas y datos unidos al DataFrame.


In [71]:
df_final # Muestra el contenido completo del DataFrame

Unnamed: 0,nombre,artista,album,genero,a√±o,bio_resumen,listeners,consulta_exitosa,error_lastfm
0,"Twelfth night, Op. 42, No. 1",Sam Barber,Barber: An American Romantic,country,2012,"Sam Barber (born April 15, 2003) is an America...",274380.0,,
1,"To be sung on the water, Op. 42, No. 2",Sam Barber,Barber: An American Romantic,country,2012,"Sam Barber (born April 15, 2003) is an America...",274380.0,,
2,"The virgin martyrs, Op. 8, No. 1",Sam Barber,Barber: An American Romantic,country,2012,"Sam Barber (born April 15, 2003) is an America...",274380.0,,
3,"Let down the bars, O Death, Op. 8, No. 2",Sam Barber,Barber: An American Romantic,country,2012,"Sam Barber (born April 15, 2003) is an America...",274380.0,,
4,"Reincarnations, Op. 16: I. Mary Hynes",Sam Barber,Barber: An American Romantic,country,2012,"Sam Barber (born April 15, 2003) is an America...",274380.0,,
...,...,...,...,...,...,...,...,...,...
13806,Long Progression,Red Hot Chili Peppers,Strange Man / Long Progression,rock,2012,Red Hot Chili Peppers is an American rock band...,7104490.0,,
13807,Magpies on Fire,Red Hot Chili Peppers,Magpies on Fire / Victorian Machinery,rock,2012,Red Hot Chili Peppers is an American rock band...,7104490.0,,
13808,Victorian Machinery,Red Hot Chili Peppers,Magpies on Fire / Victorian Machinery,rock,2012,Red Hot Chili Peppers is an American rock band...,7104490.0,,
13809,The Sunset Sleeps,Red Hot Chili Peppers,The Sunset Sleeps / Hometown Gypsy,rock,2012,Red Hot Chili Peppers is an American rock band...,7104490.0,,


In [None]:
# Guardar DataFrame en CSV
df_final.to_csv('canciones_2020_con_lastfm.csv', index=False, sep=';', encoding='utf-8-sig')
print("DataFrame guardado correctamente en 'canciones_2020_con_lastfm.csv'.")

DataFrame guardado correctamente en 'canciones_2018_con_lastfm.csv'.
