# Proyecto MusicStream ‚Äì A√±os 2010- 2020

Extracci√≥n de datos desde Spotify y Last.fm

## 1. Importaciones y configuraci√≥n de librer√≠as

In [None]:
# ===============================
# LIBRER√çAS iNCORPORADAS EN PYTHON
# ===============================

import os                     
# Permite a Python comunicarse con el sistema operativo
# Lo usamos para leer variables guardadas fuera del c√≥digo

import time                  
# Permite hacer pausas entre peticiones
# Control de ritmo ‚Üí evitar l√≠mites de la API (rate limits)

from urllib.parse import quote   
# Convierte textos con espacios o acentos en un formato v√°lido para URLs
# Ej: "Red Hot Chili Peppers" ‚Üí "Red%20Hot%20Chili%20Peppers"

# ===============================
# LIBRER√çAS EXTERNAS (instalar con pip install)
# ===============================
from dotenv import load_dotenv 
# Carga un archivo .env donde guardamos datos sensibles
# (contrase√±as, claves de API) sin escribirlos directamente en el c√≥digo

import requests              
# Librer√≠a general para hacer peticiones a APIs que no tienen librer√≠a propia

import spotipy               
# Librer√≠a que nos facilita hablar con la API de Spotify
# Evita que tengamos que construir peticiones HTTP a mano

from spotipy.oauth2 import SpotifyClientCredentials  
# Se usa para identificarnos ante Spotify usando credenciales
# Es como mostrar un carnet para que Spotify sepa qui√©n hace la petici√≥n

from spotipy.exceptions import SpotifyException       
# Nos permite detectar y manejar errores cuando Spotify no responde bien

import pandas as pd          
# Herramienta principal para trabajar con tablas de datos (DataFrames)

import numpy as np           
# Ayuda a manejar valores vac√≠os (NaN) y tipos compatibles con bases de datos

# ===============================
# CONEXI√ìN A BASE DE DATOS
# ===============================
import mysql.connector      
# Permite conectar Python con una base de datos MySQL

from mysql.connector import Error  
# Sirve para capturar errores y evitar que el programa se rompa sin avisar

# ===============================
# CARGA DE VARIABLES DE ENTORNO
# ===============================
load_dotenv()  
# Lee el archivo .env y carga sus valores en el entorno del sistema

MYSQL_HOST = os.getenv("MYSQL_HOST")        
# Direcci√≥n del servidor donde est√° la base de datos

MYSQL_USER = os.getenv("MYSQL_USER")        
# Usuario con permiso para acceder a la base de datos

MYSQL_PASSWORD = os.getenv("MYSQL_PASSWORD")
# Contrase√±a de la base de datos (nunca debe escribirse directamente en el c√≥digo)


## 2. Credenciales y conexi√≥n Spotify

In [None]:
# --- Paso 1: C√≥mo obtener Client ID y Client Secret (Spotify) y qu√© es OAuth ---
# Usamos OAuth (Open Authorization) para poder acceder a datos p√∫blicos de Spotify (artistas, √°lbumes, playlists p√∫blicas)

# --- Paso 2: C√≥mo obtener Client ID y Client Secret (Spotify) ---
# 1Ô∏è‚É£ Ve a https://developer.spotify.com/dashboard e inicia sesi√≥n
# 2Ô∏è‚É£ Haz clic en "Create an App"
# 3Ô∏è‚É£ Completa los campos:
#    - App name: ej. "Mi Analizador de M√∫sica"
#    - App description: ej. "Proyecto educativo para analizar datos de canciones"
#    - Marca las casillas seg√∫n c√≥mo usar√°s la API (ej. "I only use the Web API")
# 4Ô∏è‚É£ Haz clic en "Create"
# 5Ô∏è‚É£ Copia el Client ID y haz clic en "SHOW CLIENT SECRET" para ver el secreto
# 6Ô∏è‚É£ Gu√°rdalos en un archivo llamado ".env" en la ra√≠z del proyecto:
#    SPOTIPY_CLIENT_ID=tu_id_aqu√≠
#    SPOTIPY_CLIENT_SECRET=tu_secreto_aqu√≠
# 7Ô∏è‚É£ CREA UN ARCHIVO LLAMADO ".gitignore" EN LA RA√çZ DEL PROYECTO Y A√ëADE:
#    .env
#    Esto evita que Git suba tus credenciales a GitHub por accidente

# --- Paso 3: Recuperar las credenciales desde el archivo .env ---
client_id = os.getenv("SPOTIFY_CLIENT_ID")          # Identificador √∫nico de tu app
client_secret = os.getenv("SPOTIFY_CLIENT_SECRET")  # Clave secreta de tu app

# --- Paso 3: Validaci√≥n de credenciales ---
if not client_id or not client_secret:
    raise ValueError(
        "‚ùå Las credenciales de Spotify no est√°n cargadas.\n"
        "Sigue los pasos detallados arriba para obtener Client ID y Client Secret "
        "y guardarlos en tu archivo .env."
    )

# --- Paso 4: Inicializaci√≥n ---
# Objetivo:
#   - Detectar si hay alg√∫n problema con las credenciales

try:
    # usamos las credenciales que permiten a nuestra app acceder a Spotify
    mis_credenciales = SpotifyClientCredentials(
        client_id=client_id,
        client_secret=client_secret
    )
    
    # Cada consulta a la API usar√° autom√°ticamente nuestras credenciales
    spotify = spotipy.Spotify(auth_manager=mis_credenciales)
    
    # Confirmaci√≥n visual de que todo est√° listo
    print("‚úÖ Conexi√≥n con Spotify inicializada correctamente.")
    print("üîπ Listo para buscar artistas, √°lbumes y playlists p√∫blicas.")

except spotipy.exceptions.SpotifyException as e:
    # Si falla la conexi√≥n o las credenciales son incorrectas, mostramos el error
    raise ConnectionError(f"‚ùå Error al conectar con Spotify: {e}")


‚úÖ Conexi√≥n con Spotify inicializada correctamente.
üîπ Listo para buscar artistas, √°lbumes y playlists p√∫blicas.


In [None]:
# ===============================
# FLUJO PROFESIONAL DETALLADO: SPOTIFY API
# ===============================

# OBJETIVO GENERAL:
# Aprender a usar la API de Spotify como lo har√≠a un/a analista de datos:
#
#   1Ô∏è‚É£ Entender c√≥mo Spotify organiza la informaci√≥n
#   2Ô∏è‚É£ Usar SEARCH solo para descubrir IDs
#   3Ô∏è‚É£ Usar endpoints espec√≠ficos con esos IDs
#
# Idea clave:
# üëâ SEARCH = herramienta de descubrimiento
# üëâ ENDPOINTS = extracci√≥n real de datos para an√°lisis

# ------------------------------------------------
# 1Ô∏è‚É£ ENTENDER LA API DE SPOTIFY (MODELO MENTAL)
# ------------------------------------------------
# Spotify NO es un buscador libre como Google.
# Es una base de datos estructurada con relaciones claras.
#
# Los principales recursos son:
#   - Artistas
#   - √Ålbumes / Singles
#   - Canciones (tracks)
#   - Playlists
#
# Relaci√≥n jer√°rquica principal:
#
#   ARTISTA
#      ‚Üì
#   √ÅLBUM
#      ‚Üì
#   CANCIONES
#
# Cada recurso tiene un ID √∫nico que Spotify usa internamente.
# Ejemplos reales:
#
#   Artista  ‚Üí Shakira  ‚Üí '0TnOYISbd1XYRBk9myaseg'
#   √Ålbum    ‚Üí El Dorado ‚Üí '3jjujdWJ72nww5eGnfs2E7'
#   Canci√≥n  ‚Üí Chantaje ‚Üí '0k17h0D3J5VfsdmQ1iZtE9'
#
# PROBLEMA REAL:
# üëâ Normalmente NO conocemos estos IDs al empezar
#
# SOLUCI√ìN:
# üëâ Usamos search() SOLO para obtener esos IDs

# ------------------------------------------------
# 2Ô∏è‚É£ SEARCH(): DESCUBRIR IDs Y FILTRAR RESULTADOS
# ------------------------------------------------
# search() es el punto de entrada m√°s com√∫n cuando:
#   - Tenemos texto (nombre de artista, √°lbum, canci√≥n)
#   - NO tenemos un ID todav√≠a
#
# El par√°metro m√°s importante es `q`
#
# Dentro de `q` podemos usar filtros oficiales de Spotify:
#
#   album       ‚Üí nombre del √°lbum
#   artist      ‚Üí nombre del artista
#   track       ‚Üí nombre de la canci√≥n
#   year        ‚Üí a√±o o rango (ej. 2010 o 2010-2015)
#   genre       ‚Üí g√©nero musical (latin, jazz, rock, etc.)
#   upc         ‚Üí identificador comercial de √°lbum
#   isrc        ‚Üí identificador internacional de canci√≥n
#   tag:hipster ‚Üí contenido alternativo / menos comercial
#   tag:new     ‚Üí lanzamientos recientes
#
# IMPORTANTE:
# `q` puede combinar filtros:
#   q='artist:Shakira year:2010'


# Adem√°s de `q`, search() acepta par√°metros de control:
#
#   type   ‚Üí qu√© tipo de recurso queremos:
#            'artist', 'album', 'track', 'playlist'
#
#   market ‚Üí pa√≠s de referencia (US, ES, MX...)
#            afecta disponibilidad y popularidad
#
#   limit  ‚Üí cu√°ntos resultados devuelve (1‚Äì50)
#            para an√°lisis solemos usar pocos y luego paginar
#
#   offset ‚Üí desde qu√© posici√≥n empezar
#            se usa para recorrer resultados grandes
#
#   include_external ‚Üí incluir contenido externo (normalmente NO se usa)
#
# En la pr√°ctica profesional:
# üëâ SEARCH se usa para localizar el recurso correcto
# üëâ Luego se abandona y se usan endpoints directos


# ------------------------------------------------
# 3Ô∏è‚É£ OBTENER EL ID Y DATOS DEL ARTISTA
# ------------------------------------------------
# CASO REAL:
# "Quiero analizar a un artista, pero solo conozco su nombre"

nombre_artista = "Shakira"  # Puede ser cualquier artista

resultado = spotify.search(
    q=f'artist:{nombre_artista}',  # Filtro principal: nombre del artista
    type='artist',                 # Buscamos SOLO artistas
    market='US',                   # Mercado de referencia
    limit=1,                       # Solo el resultado m√°s relevante
    offset=0                       # Inicio de resultados
)

# Extraemos el primer artista encontrado
# (Spotify ya ordena por relevancia)
artista = resultado['artists']['items'][0]

# ID √∫nico del artista (CLAVE para siguientes pasos)
artist_id = artista['id']

# ------------------------------------------------
# 4Ô∏è‚É£ INTERPRETAR LOS DATOS DEL ARTISTA
# ------------------------------------------------
# Aqu√≠ NO estamos analizando canciones todav√≠a,
# solo contexto del artista.

print("‚úÖ Artista encontrado:", artista['name'])
print("üÜî ID del artista:", artist_id)

# G√©neros asociados por Spotify (pueden ser m√∫ltiples)
print("üéº G√©neros:", artista['genres'])

# Popularidad:
# - Escala de 0 a 100
# - Calculada internamente por Spotify
# - Basada en reproducciones recientes y tendencia
print("üî• Popularidad:", artista['popularity'])  
# Referencia com√∫n:
#   >70  ‚Üí artista muy popular
#   >85  ‚Üí artista global / mainstream

# Followers:
# - N√∫mero real de usuarios que siguen al artista
# - M√©trica acumulada (no temporal)
print("üë• Seguidores:", artista['followers']['total'])
# Interpretaci√≥n orientativa:
#   >1.000.000    ‚Üí artista popular
#   >10.000.000   ‚Üí superestrella
#   >50.000.000   ‚Üí √≠cono global


‚úÖ Artista encontrado: Shakira | ID: 0EmeFodog0BfCgMzAIvKQp
G√©neros del artista: ['latin pop']
Popularidad: 88
N√∫mero total de seguidores: 40816211


# 3. Extracci√≥n de datos Spotify

In [4]:
# ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ
# FUNCI√ìN SEGURA PARA HACER SEARCH
# ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ

# Esta funci√≥n realiza b√∫squedas en Spotify de forma segura,
# manejando posibles l√≠mites de solicitudes (429) y errores inesperados.

def spotify_search_seguro(spotify, query, tipo, limite=10, reintentos=3):
    """
    Funci√≥n que busca en Spotify de forma segura.
    Detecta el error 429 (rate limit) y espera si es necesario.
    
    Par√°metros:
    - spotify: objeto de la API
    - query: texto a buscar
    - tipo: "artist" o "album"
    - limite: m√°ximo resultados
    - reintentos: cu√°ntas veces intentar si hay error 429
    """
    intento = 0  # Contador de intentos

    while intento < reintentos:
        try:
            # Llamada a Spotify
            return spotify.search(q=query, type=tipo, limit=limite)

        except SpotifyException as e:
            if e.http_status == 429:
                # Si nos dicen "espera", tomamos el tiempo de Retry-After
                espera = int(e.headers.get("Retry-After", 1))
                print(f"‚è≥ Demasiadas peticiones. Esperando {espera} segundos...")
                time.sleep(espera)
                intento += 1  # Sumamos intento
            else:
                print("‚ùå Error de Spotify:", e)
                return None

        except Exception as e:
            # Capturamos cualquier error inesperado
            print("‚ùå Error inesperado:", e)
            return None

    # Si agotamos todos los intentos
    print("‚ö†Ô∏è Demasiados intentos. Se omite esta b√∫squeda.")
    return None


In [None]:
# Esta funci√≥n obtiene todas las canciones de un √°lbum de Spotify de forma segura, manejando l√≠mites y errores.

def spotify_album_tracks_seguro(spotify, id_album, reintentos=3):
    """
    Obtiene de manera segura todas las canciones de un √°lbum de Spotify.

    Par√°metros:
    - spotify: objeto de la API de Spotify
    - id_album: ID del √°lbum
    - reintentos: n√∫mero de intentos si se recibe un error 429 (rate limit)

    Retorna:
    - Lista de tracks si la operaci√≥n fue exitosa
    - None si ocurre un error no recuperable o se superan los reintentos
    """
    # Inicializa el contador de intentos para manejar posibles errores de l√≠mite de solicitudes (429)
    intento = 0

    # Bucle que permite reintentar la solicitud hasta un m√°ximo definido
    while intento < reintentos:
        try:
            # Lista vac√≠a donde se ir√°n almacenando las canciones del √°lbum
            tracks = []
            # Configura la paginaci√≥n de la API, Spotify devuelve hasta 50 items por petici√≥n
            offset = 0
            limit = 50  # m√°ximo permitido por Spotify

            # Bucle para recorrer todas las p√°ginas de canciones
            while True:
                # Llama a la API de Spotify para obtener un bloque de canciones
                response = spotify.album_tracks(id_album, limit=limit, offset=offset)
                # A√±ade las canciones obtenidas a la lista completa
                tracks.extend(response['items'])
                # Si no hay m√°s p√°ginas, termina el bucle
                if response['next'] is None:
                    break
                # Ajusta el offset para obtener la siguiente p√°gina de canciones
                offset += len(response['items'])

            # Devuelve la lista completa de canciones si todo fue exitoso
            return tracks

        except SpotifyException as e:
            # Captura errores espec√≠ficos de la API de Spotify
            if e.http_status == 429:
                # Si es un error de rate limit
                # Obtiene el tiempo que indica Spotify para reintentar
                espera = int(e.headers.get("Retry-After", 1))
                # Informa al usuario y espera antes de reintentar
                print(f"‚è≥ Rate limit en √°lbum. Esperando {espera} segundos antes de reintentar...")
                time.sleep(espera)
                # Incrementa el contador de intentos
                intento += 1
            else:
                # Otros errores de Spotify se consideran irreparables
                print("‚ùå Error de Spotify:", e)
                return None

        except Exception as e:
            # Captura cualquier otro error inesperado
            print("‚ùå Error inesperado:", e)
            # Devuelve None para indicar fallo
            return None

    # Si se superan todos los intentos de reintento, se omite la operaci√≥n
    print("‚ö†Ô∏è Demasiados intentos con este √°lbum. Se omite la operaci√≥n.")
    return None


In [6]:
# ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ
# FUNCIONES DE NEGOCIO (L√ìGICA DEL PROBLEMA)
# ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ

# La funci√≥n busqueda_spotify sirve para buscar y recopilar canciones de Spotify

def busqueda_spotify(generos, a√±o, spotify):
    todas_las_canciones = []          # Lista para almacenar todas las canciones encontradas
    albumes_ya_vistos = set()         # Conjunto para evitar √°lbumes duplicados

    print("Buscando canciones del a√±o", a√±o)

    for genero in generos:
        print("G√©nero:", genero)

        # Busca artistas del g√©nero usando la funci√≥n segura
        resultado_artistas = spotify_search_seguro(spotify, query=f"genre:{genero}", tipo="artist", limite=50)
        if resultado_artistas is None:
            continue  # Saltamos si hubo error
        artistas = resultado_artistas["artists"]["items"]

        for artista in artistas:
            nombre_artista = artista["name"]

            # Busca √°lbumes del artista en el a√±o indicado
            busqueda = f"artist:{nombre_artista} year:{a√±o}"
            resultado_albumes = spotify_search_seguro(spotify, query=busqueda, tipo="album", limite=50)
            if resultado_albumes is None:
                continue
            albumes = resultado_albumes["albums"]["items"]

            for album in albumes:
                id_album = album["id"]
                nombre_album = album["name"]

                if id_album in albumes_ya_vistos:
                    continue
                albumes_ya_vistos.add(id_album)

                # Obtiene canciones del √°lbum
                resultado_canciones = spotify.album_tracks(id_album)
                canciones = resultado_canciones["items"]

                for cancion in canciones:
                    info = {
                        "nombre": cancion["name"],
                        "artista": nombre_artista,
                        "album": nombre_album,
                        "genero": genero,
                        "a√±o": a√±o
                    }
                    todas_las_canciones.append(info)

        print("  ‚Üí Canciones de este g√©nero a√±adidas\n")

    # Resumen final
    print("RESUMEN:")
    for genero in generos:
        contador = sum(1 for c in todas_las_canciones if c["genero"] == genero)
        print(f"- {genero}: {contador} canciones")
    print("Total de canciones encontradas:", len(todas_las_canciones))

    return pd.DataFrame(todas_las_canciones)


In [None]:
# LLAMADA A LA FUNCION PARA EXTRAER DATOS DE SPOTIFY
genero = ["country","latin","jazz","rock"] # Lista de g√©neros musicales a analizar
a√±o = 2018 # cambiamos este valor para cada a√±o seleccionado
canciones_2018_df = busqueda_spotify(genero,a√±o, spotify) # Ejecuta la b√∫squeda en Spotify y devuelve los resultados en un DataFrame

Buscando canciones del a√±o 2018
G√©nero: country


Your application has reached a rate/request limit. Retry will occur after: 30502 s


In [None]:
canciones_2018_df  # Muestra el contenido completo del DataFrame


Unnamed: 0,nombre,artista,album,genero,a√±o
0,"Twelfth night, Op. 42, No. 1",Sam Barber,Barber: An American Romantic,country,2012
1,"To be sung on the water, Op. 42, No. 2",Sam Barber,Barber: An American Romantic,country,2012
2,"The virgin martyrs, Op. 8, No. 1",Sam Barber,Barber: An American Romantic,country,2012
3,"Let down the bars, O Death, Op. 8, No. 2",Sam Barber,Barber: An American Romantic,country,2012
4,"Reincarnations, Op. 16: I. Mary Hynes",Sam Barber,Barber: An American Romantic,country,2012
...,...,...,...,...,...
13806,Long Progression,Red Hot Chili Peppers,Strange Man / Long Progression,rock,2012
13807,Magpies on Fire,Red Hot Chili Peppers,Magpies on Fire / Victorian Machinery,rock,2012
13808,Victorian Machinery,Red Hot Chili Peppers,Magpies on Fire / Victorian Machinery,rock,2012
13809,The Sunset Sleeps,Red Hot Chili Peppers,The Sunset Sleeps / Hometown Gypsy,rock,2012


In [None]:
canciones_2018_df.head() # Muestra las primeras filas del DataFrame para inspeccionar la estructura

Unnamed: 0,nombre,artista,album,genero,a√±o
0,"Twelfth night, Op. 42, No. 1",Sam Barber,Barber: An American Romantic,country,2012
1,"To be sung on the water, Op. 42, No. 2",Sam Barber,Barber: An American Romantic,country,2012
2,"The virgin martyrs, Op. 8, No. 1",Sam Barber,Barber: An American Romantic,country,2012
3,"Let down the bars, O Death, Op. 8, No. 2",Sam Barber,Barber: An American Romantic,country,2012
4,"Reincarnations, Op. 16: I. Mary Hynes",Sam Barber,Barber: An American Romantic,country,2012


In [None]:
canciones_2018_df.info() # Muestra informaci√≥n estructural del DataFrame (columnas, tipos y nulos)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 13811 entries, 0 to 13810
Data columns (total 5 columns):
 #   Column   Non-Null Count  Dtype 
---  ------   --------------  ----- 
 0   nombre   13811 non-null  object
 1   artista  13811 non-null  object
 2   album    13811 non-null  object
 3   genero   13811 non-null  object
 4   a√±o      13811 non-null  int64 
dtypes: int64(1), object(4)
memory usage: 539.6+ KB


In [None]:
canciones_2018_df.isnull().sum() # Cuenta los valores nulos (NaN) por columna

nombre     0
artista    0
album      0
genero     0
a√±o        0
dtype: int64

# 4. Credenciales y conexi√≥n LAST.FM

In [67]:
# --- COMPROBACI√ìN DE LA CLAVE DE LAST.FM ---
# Recupera la API key desde el archivo .env
api_key_lastfm = os.getenv("API_KEY_LASTFM")

# Verifica que la clave exista antes de usarla
if not api_key_lastfm:
    print("‚ö†Ô∏è ADVERTENCIA: La clave de Last.fm no est√° cargada. Revisa tu archivo .env.")
else:
    # Confirmamos que la clave est√° disponible para futuras peticiones
    print("‚úÖ Conexi√≥n con Last.fm inicializada.")

‚úÖ Conexi√≥n con Last.fm inicializada.


In [68]:
# --- PRUEBA DE CONEXI√ìN B√ÅSICA CON LAST.FM ---
if not api_key_lastfm:
    print("‚ùå Clave API de Last.fm no definida.")
else:
    try:
        # Hacemos una petici√≥n m√≠nima para verificar la conexi√≥n usando el m√©todo 'chart.getTopArtists'
        respuesta = requests.get(
            "http://ws.audioscrobbler.com/2.0/",
            params={
                'method': 'chart.gettopartists',
                'api_key': api_key_lastfm,
                'format': 'json',
                'limit': 1  # Solo necesitamos 1 artista para probar
            }
        )
        respuesta.raise_for_status()
        print("‚úÖ Conexi√≥n exitosa con Last.fm")
    except requests.exceptions.RequestException as e:
        print(f"‚ùå Error al conectar con Last.fm: {e}")

‚úÖ Conexi√≥n exitosa con Last.fm


# 5. Extracci√≥n de datos LAST.FM

In [69]:
url_last_fm = ("http://ws.audioscrobbler.com/2.0/") # URL base de la API de Last.fm para realizar consultas

In [None]:
def busqueda_info_artista(nombre_artista, api_key_lastfm):
    artista_codificado = quote(nombre_artista)                        # Codifica espacios/caracteres especiales para URL
    url_last_fm = "http://ws.audioscrobbler.com/2.0/"                # URL base de la API de Last.fm
    params_info = {                                                   # Par√°metros de la consulta
        'method': 'artist.getinfo',                                   # M√©todo API para info del artista
        'artist': artista_codificado,                                 # Nombre del artista codificado
        'api_key': api_key_lastfm,                                     # Clave de API
        'format': 'json'                                              # Formato de respuesta JSON
    }
    
    try:
        response = requests.get(url_last_fm, params=params_info, timeout=10)  # Llamada GET con timeout
        response.raise_for_status()                                     # Lanza error si HTTP status != 200
        data = response.json()                                          # Convierte respuesta a diccionario
        
        if "artist" in data:                                           # Verifica que se encontr√≥ el artista
            artista_info = data['artist']                              
            bio_summary = artista_info.get('bio', {}).get('summary', '').split('<a href')[0].strip()  # Extrae resumen sin enlaces
            return {
                'bio_resumen': bio_summary,                             # Resumen de biograf√≠a
                'listeners': int(artista_info.get('stats', {}).get('listeners', 0)),  # Oyentes
            }
        else:
            return {'consulta_exitosa': False, 'error_lastfm': "No encontrado en Last.fm"}  # Artista no encontrado
        
    except requests.exceptions.RequestException as e:                   # Captura errores de red/HTTP
        status_code = getattr(e.response, 'status_code', 'N/A')        # Obtiene c√≥digo de error si existe
        return {'consulta_exitosa': False, 'error_lastfm': f"Error API ({status_code}): {e}"}
    except Exception as e:                                             # Captura errores de procesamiento
        return {'consulta_exitosa': False, 'error_lastfm': f"Error Procesamiento: {e}"}


if not api_key_lastfm:                                                # Verifica si la API key est√° configurada
    print("ERROR: La clave de la API de Last.fm no est√° configurada.")
else:
    artistas_unicos = canciones_2018_df['artista'].unique()          # Extrae artistas √∫nicos
    print(f"\nTotal de artistas √∫nicos a consultar en Last.fm: {len(artistas_unicos)}")
    
    artistas_df = pd.DataFrame(artistas_unicos, columns=['artista'])  # DataFrame temporal de artistas
    print("\nIniciando consultas a Last.fm...")
    
    resultados_lastfm_serie = artistas_df['artista'].apply(           # Aplica la funci√≥n a cada artista
        busqueda_info_artista, 
        args=(api_key_lastfm,)                                        # Pasa la API key como argumento adicional
    )
    
    datos_lastfm_df = pd.json_normalize(resultados_lastfm_serie)       # Convierte Serie de diccionarios a DataFrame
    datos_lastfm_df.insert(0, 'artista', artistas_unicos)             # A√±ade columna 'artista' al inicio
    
    df_final = pd.merge(                                               # Une DataFrames principal y Last.fm
        canciones_2018_df,
        datos_lastfm_df,                                               # DataFrame con datos de Last.fm
        on='artista',                                                  # Clave de uni√≥n
        how='left'                                                     # Mantiene todas las canciones aunque falten datos
    )
    
    print("Consultas a Last.fm terminadas y datos unidos al DataFrame.")  # Mensaje final



Total de artistas √∫nicos a consultar en Last.fm: 118

Iniciando consultas a Last.fm...
Consultas a Last.fm terminadas y datos unidos al DataFrame.


In [71]:
df_final # Muestra el contenido completo del DataFrame

Unnamed: 0,nombre,artista,album,genero,a√±o,bio_resumen,listeners,consulta_exitosa,error_lastfm
0,"Twelfth night, Op. 42, No. 1",Sam Barber,Barber: An American Romantic,country,2012,"Sam Barber (born April 15, 2003) is an America...",274380.0,,
1,"To be sung on the water, Op. 42, No. 2",Sam Barber,Barber: An American Romantic,country,2012,"Sam Barber (born April 15, 2003) is an America...",274380.0,,
2,"The virgin martyrs, Op. 8, No. 1",Sam Barber,Barber: An American Romantic,country,2012,"Sam Barber (born April 15, 2003) is an America...",274380.0,,
3,"Let down the bars, O Death, Op. 8, No. 2",Sam Barber,Barber: An American Romantic,country,2012,"Sam Barber (born April 15, 2003) is an America...",274380.0,,
4,"Reincarnations, Op. 16: I. Mary Hynes",Sam Barber,Barber: An American Romantic,country,2012,"Sam Barber (born April 15, 2003) is an America...",274380.0,,
...,...,...,...,...,...,...,...,...,...
13806,Long Progression,Red Hot Chili Peppers,Strange Man / Long Progression,rock,2012,Red Hot Chili Peppers is an American rock band...,7104490.0,,
13807,Magpies on Fire,Red Hot Chili Peppers,Magpies on Fire / Victorian Machinery,rock,2012,Red Hot Chili Peppers is an American rock band...,7104490.0,,
13808,Victorian Machinery,Red Hot Chili Peppers,Magpies on Fire / Victorian Machinery,rock,2012,Red Hot Chili Peppers is an American rock band...,7104490.0,,
13809,The Sunset Sleeps,Red Hot Chili Peppers,The Sunset Sleeps / Hometown Gypsy,rock,2012,Red Hot Chili Peppers is an American rock band...,7104490.0,,


In [None]:
# Guardar DataFrame en CSV
df_final.to_csv('canciones_2018_con_lastfm.csv', index=False, sep=';', encoding='utf-8-sig')
print("DataFrame guardado correctamente en 'canciones_2018_con_lastfm.csv'.")

DataFrame guardado correctamente en 'canciones_2012_con_lastfm.csv'.
