# Proyecto MusicStream ‚Äì A√±o 2016

Extracci√≥n de datos desde Spotify y Last.fm usando funciones separadas.
L√≥gica clara, modular y f√°cil de explicar.

## 1. Importaciones y configuraci√≥n

In [1]:
# Extracci√≥n de datos 
# --- 1. SISTEMA Y SEGURIDAD ---
# Gestiona variables de entorno y control de pausas
from dotenv import load_dotenv       # Carga el archivo .env con claves secretas
load_dotenv()                        # Inyecta las claves como variables de entorno
import os                              # Accede a las claves con os.environ.get
import time                            # Permite pausas controladas para no saturar APIs

# --- 2. EXTRACCI√ìN Y MANEJO DE APIS ---
# Comunicaci√≥n y autenticaci√≥n con APIs de m√∫sica
import requests                        # Peticiones HTTP gen√©ricas (ej. Last.fm)
import spotipy                          # Wrapper para la API de Spotify
from spotipy.oauth2 import SpotifyClientCredentials  # OAuth seguro de Spotify
from spotipy.exceptions import SpotifyException      # Manejo de errores de Spotify (ej. 429)

# --- 3. ESTRUCTURA Y TRANSFORMACI√ìN DE DATOS ---
import pandas as pd                     # DataFrames para limpiar, unir y manipular datos

# --- 4. NORMALIZACI√ìN Y UTILIDADES ---
from urllib.parse import quote           # Codifica URLs para nombres con espacios/acentos


In [2]:
import sys
sys.executable


'c:\\Users\\bruno\\anaconda3\\python.exe'

In [3]:
!{sys.executable} -m pip install mysql-connector-python




In [4]:
import mysql.connector


In [5]:
import mysql.connector
print(mysql.connector.__version__)


9.5.0


In [6]:
# Conexi√≥n a sql
import mysql.connector
from mysql.connector import Error # Manejo de errores espec√≠ficos de MySQL

# --- Otras Utilidades ---
import numpy as np # Necesario para manejar np.nan (valores nulos) al insertar DataFrames


## 2. Credenciales: Spotify

In [7]:
# --- COMPROBACI√ìN Y CONEXI√ìN CON SPOTIFY ---
# Recupera las credenciales del archivo .env
client_id = os.getenv("SPOTIFY_CLIENT_ID")
client_secret = os.getenv("SPOTIFY_CLIENT_SECRET")

# Verifica que ambas credenciales est√©n disponibles
if not client_id or not client_secret:
    print("‚ö†Ô∏è ADVERTENCIA: Las credenciales de Spotify no est√°n cargadas. Revisa tu archivo .env.")
else:
    # Configura la autenticaci√≥n segura con Spotify usando OAuth de aplicaci√≥n
    mis_credenciales = SpotifyClientCredentials(
        client_id=client_id,
        client_secret=client_secret
    )
    # Inicializa el cliente de Spotify con las credenciales
    spotify = spotipy.Spotify(auth_manager=mis_credenciales)
    print("‚úÖ Conexi√≥n con Spotify inicializada.")


‚úÖ Conexi√≥n con Spotify inicializada.


In [8]:
# --- PRUEBA DE CONEXI√ìN CON SPOTIFY ---
# Objetivo: comprobar que el cliente de Spotify funciona y devuelve datos v√°lidos.

# Realizamos una b√∫squeda de artistas por g√©nero (genre solo funciona con artistas)
prueba = spotify.search(
    q='genre:latin',   # Buscamos artistas del g√©nero "latin"
    type='artist',     # Tipo de b√∫squeda: artistas
    limit=1            # Solo 1 resultado, suficiente para probar
)

# Extraemos el primer artista de los resultados
artista = prueba['artists']['items'][0]

# Mostramos el nombre del artista para confirmar que la conexi√≥n y la b√∫squeda funcionan
print("‚úÖ Conexi√≥n exitosa con Spotify")
print("üéµ Artista de prueba encontrado:", artista['name'])

‚úÖ Conexi√≥n exitosa con Spotify
üéµ Artista de prueba encontrado: Bad Bunny


In [9]:
# --- COMPROBACI√ìN DE LA CLAVE DE LAST.FM ---
# Recupera la API key desde el archivo .env
api_key_lastfm = os.getenv("API_KEY_LASTFM")

# Verifica que la clave exista antes de usarla
if not api_key_lastfm:
    print("‚ö†Ô∏è ADVERTENCIA: La clave de Last.fm no est√° cargada. Revisa tu archivo .env.")
else:
    # Confirmamos que la clave est√° disponible para futuras peticiones
    print("‚úÖ Conexi√≥n con Last.fm inicializada.")

‚úÖ Conexi√≥n con Last.fm inicializada.


In [10]:
# --- PRUEBA DE CONEXI√ìN B√ÅSICA CON LAST.FM ---
if not api_key_lastfm:
    print("‚ùå Clave API de Last.fm no definida.")
else:
    try:
        # Hacemos una petici√≥n m√≠nima para verificar la conexi√≥n usando el m√©todo 'chart.getTopArtists'
        respuesta = requests.get(
            "http://ws.audioscrobbler.com/2.0/",
            params={
                'method': 'chart.gettopartists',
                'api_key': api_key_lastfm,
                'format': 'json',
                'limit': 1  # Solo necesitamos 1 artista para probar
            }
        )
        respuesta.raise_for_status()
        print("‚úÖ Conexi√≥n exitosa con Last.fm")
    except requests.exceptions.RequestException as e:
        print(f"‚ùå Error al conectar con Last.fm: {e}")

‚úÖ Conexi√≥n exitosa con Last.fm


## 3. Obtener informaci√≥n Spotify

In [None]:
generos = ["classical", "latin", "jazz", "rock"]
a√±o = 2018
todas_las_canciones = []
albumes_ya_vistos = set()  # Evita duplicados: un √°lbum puede aparecer al buscar varios artistas (ej. colaboraciones).
datos_artistas = {}
artistas_procesados = set()

print (f"Buscando canciones de {a√±o}\n")

for genero in generos:
    print("G√©nero:", genero)

    resultado_artistas = spotify.search(q="genre:" + genero, type="artist", limit=50)
    artistas = resultado_artistas["artists"]["items"]

    for artista in artistas:
        nombre_artista = artista["name"]

        #  Se buscan √°mbumes del artista en el a√±o informado
        busqueda = "artist:" + nombre_artista + " year:" + str(a√±o)
        resultado_albumes = spotify.search(q=busqueda, type="album", limit=50)
        albumes = resultado_albumes["albums"]["items"]
        
        for album in albumes:
            id_album = album["id"]
            nombre_album = album["name"]
            
            # Igoramos √°lbumes ya vistos
            if id_album in albumes_ya_vistos:
                continue
            
            #se a√±aden los √°lmbumes al set
            albumes_ya_vistos.add(id_album)

            # Y cogemos Pedimos las canciones del √°lbum
            resultado_canciones = spotify.album_tracks(id_album)
            canciones = resultado_canciones["items"]

            for cancion in canciones:
                info = {
                    "nombre": cancion["name"],
                    "artista": nombre_artista,
                    "album": nombre_album,
                    "genero": genero,
                    "a√±o": a√±o
                }
                todas_las_canciones.append(info)

    print(f"A√±adidas canciones de '{genero}'\n")
   

# Contamos las canciones de cada g√©nero una por una
for genero in generos:
    contador = 0
    for cancion in todas_las_canciones:
        if cancion["genero"] == genero:
            contador = contador + 1
    print(f"- {genero}: {contador} canciones")

print(f"Canciones a√±adidas: {len(todas_las_canciones)}")

todas_las_canciones_df = pd.DataFrame(todas_las_canciones)

Buscando canciones de 2018

G√©nero: classical


Your application has reached a rate/request limit. Retry will occur after: 83030 s


In [None]:
todas_las_canciones_df.to_csv("canciones_2018.csv", index=False)

In [11]:
#Last FM
if not api_key_lastfm:
    print("ERROR: La variable de entorno 'API_KEY_LASTFM' no est√° configurada.")
else:
    print("API Key de Last.fm cargada con √©xito.")

API Key de Last.fm cargada con √©xito.


## 4. Obtener informaci√≥n LAST.FM

In [14]:
# ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ
# FUNCI√ìN PARA CONSULTAR INFO DE ARTISTA EN LAST.FM
# ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ
def busqueda_info_artista(artista, api_key):
    """
    Consulta resumen y oyentes de un artista en Last.fm
    """
    url = "http://ws.audioscrobbler.com/2.0/"
    params = {
        "method": "artist.getinfo",
        "artist": quote(artista),
        "api_key": api_key,
        "format": "json"
    }

    try:
        resp = requests.get(url, params=params, timeout=10)
        resp.raise_for_status()
        data = resp.json()

        if "artist" in data:
            bio = data["artist"].get("bio", {}).get("summary", "").split("<a href")[0].strip()
            listeners = int(data["artist"].get("stats", {}).get("listeners", 0))
            return {"artista": artista, "bio_resumen": bio, "listeners": listeners, "consulta_exitosa": True}
        else:
            return {"artista": artista, "consulta_exitosa": False, "error_lastfm": "No encontrado"}

    except Exception as e:
        return {"artista": artista, "consulta_exitosa": False, "error_lastfm": str(e)}

In [None]:
# ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ
# GENERAR DATAFRAME DE ARTISTAS
# ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ
def generar_datos_lastfm(canciones_df, api_key):
    if not api_key:
        print("‚ùå ERROR: La clave de Last.fm no est√° configurada")
        return None

    artistas_unicos = canciones_df['artista'].unique()
    resultados = []

    # Bucle simple sobre cada artista
    for artista in artistas_unicos:
        print(f"Consultando {artista}...")
        info = busqueda_info_artista(artista, api_key)
        resultados.append(info)

    # Convertir a DataFrame
    df_lastfm = pd.DataFrame(resultados)
    return df_lastfm

# Supongamos que tienes tu DataFrame de Spotify
# todas_las_canciones_df

api_key_lastfm = os.getenv("API_KEY_LASTFM") # Aseguramos que se usa la clave cargada

df_lastfm = generar_datos_lastfm(todas_las_canciones_df, api_key_lastfm)

print(df_lastfm.head())

In [None]:
datos_lastfm_df 

In [None]:
datos_lastfm_df.to_csv("artistas_lastfm_2018.csv", index=False)

# 5. CREACI√ìN DE LA BASE DE DATOS

In [18]:
# A. Conexi√≥n a MySQL
try:
    # Intentamos conectarnos al servidor MySQL
    cnx = mysql.connector.connect(
        host='127.0.0.1',    # Direcci√≥n del servidor MySQL (localhost)
        user='root',         # Usuario con el que nos conectamos
        password='AlumnaAdalab',  # Contrase√±a del usuario
        use_pure=True,       # use_pure=True garantiza compatibilidad con Python 3.12, evita problemas en el Kernel
    )
    print('Conexi√≥n exitosa')  # Confirmamos que la conexi√≥n fue correcta
except mysql.connector.Error as e:  # Captura errores relacionados con MySQL
    print('Error al conectar:', e)   # Muestra el error para diagnosticar el problema



Conexi√≥n exitosa


In [None]:
# B. Creaci√≥n de la base de datos

try:
    # Creamos un cursor: es el intermediario entre Python y MySQL, necesario para ejecutar consultas SQL
    mycursor = cnx.cursor()

    # Consulta SQL para crear la base de datos si no existe
    # "IF NOT EXISTS" evita errores si la base de datos ya est√° creada
    query_create_database = "CREATE DATABASE IF NOT EXISTS MusicStream_db"

    # Ejecutamos la consulta SQL para crear la base de datos
    mycursor.execute(query_create_database)

    # Seleccionamos expl√≠citamente la DB para las operaciones futuras (Creaci√≥n de tablas e inserci√≥n)
    mycursor.execute("USE MusicStream_db")

    print("Base de datos creada y seleccionada correctamente.")

# Captura errores relacionados con MySQL (por ejemplo, permisos insuficientes)
except mysql.connector.Error as e:  
    print("Ocurri√≥ un error al crear la base de datos:", e)


NameError: name 'cnx' is not defined

In [None]:
# C. Creaci√≥n de las tablas

# ------------------ Tabla Canciones ------------------
query_canciones = '''CREATE TABLE IF NOT EXISTS Canciones(
    ID_Cancion INT AUTO_INCREMENT,
    Nombre TEXT NOT NULL,
    Artista VARCHAR(45),
    Album TEXT,
    Genero VARCHAR(30),
    Lanzamiento YEAR,
    PRIMARY KEY (ID_Cancion)
);'''

try:
    mycursor.execute(query_canciones)
    print("Tabla 'Canciones' creada correctamente (o ya exist√≠a).")
except mysql.connector.Error as e:
    print("Ocurri√≥ un error al crear la tabla 'Canciones':", e)
    
# ------------------ Tabla Artistas ------------------
query_artistas = '''CREATE TABLE IF NOT EXISTS Artistas(
    ID_Artista INT AUTO_INCREMENT,
    Artista VARCHAR(70) UNIQUE NOT NULL,
    Info TEXT,
    Oyentes INT,
    PRIMARY KEY (ID_Artista)
);'''

try:
    mycursor.execute(query_artistas)
    print("Tabla 'Artistas' creada correctamente (o ya exist√≠a).")
except mysql.connector.Error as e:
    print("Ocurri√≥ un error al crear la tabla 'Artistas':", e)

Tabla 'Canciones' creada correctamente (o ya exist√≠a).
Tabla 'Artistas' creada correctamente (o ya exist√≠a).


# 6. INSERCI√ìN DE LA BASE DE DATOS

In [None]:
# Inserci√≥n de datos en la tabla 'Canciones'

# Seleccionamos la base de datos (redundante si se hizo en la Celda B, pero seguro)
mycursor.execute("USE MusicStream_db")

# Consulta de inserci√≥n de canciones
query_insert_canciones = """
INSERT INTO Canciones (Nombre, Artista, Album, Genero, Lanzamiento) 
VALUES (%s, %s, %s, %s, %s)
"""

try:
    # 1. Preparar datos del DataFrame de Spotify
    # Reemplazamos valores nulos (NaN) por None
    df_corregido_SPOTIFY = todas_las_canciones_df.replace({np.nan: None, 'nan': None, 'NaN': None})
    
    # 2. Filtrado de Columnas: Seleccionamos solo las 5 columnas que coinciden con la tabla SQL
    # Las columnas del DataFrame son 'nombre', 'artista', 'album', 'genero', 'a√±o'
    datos = df_corregido_SPOTIFY[['nombre', 'artista', 'album', 'genero', 'a√±o']].values.tolist()

    # 3. Ejecutar la inserci√≥n masiva
    mycursor.executemany(query_insert_canciones, datos)
    
    print(f"‚úÖ {mycursor.rowcount} registros de canciones insertados correctamente.")
    
    # 4. Commit: Usamos 'cnx' que es la variable de conexi√≥n definida
    cnx.commit()  # Guardamos los cambios
    

except Error as e:
    print("‚ùå Error al insertar los datos de Spotify:", e)
    # Rollback: Usamos 'cnx' en caso de error
    cnx.rollback()  # Revertimos la operaci√≥n en caso de error

‚úÖ 1079 registros de canciones insertados correctamente.


In [None]:
cnx.close()