### 1. Preparaci√≥n del entorno

In [6]:
# Librer√≠as internas (Python standard library)
import os              # trabajar con el sistema operativo y variables de entorno
import glob            # manejo de archivos y rutas

# Librer√≠as externas (third-party)
import pandas as pd    # dataframes para manipular el CSV
import numpy as np     # manejo de valores nulos (NaN)
import mysql.connector # conector oficial de MySQL para Python
from dotenv import load_dotenv  # cargar variables de entorno desde el archivo .env

# Carga de variables de entorno
load_dotenv()  # Devuelve True si se cargan correctamente, False si no

# Variables de entorno
host = os.getenv("MYSQL_HOST")        # Host de la base de datos
user = os.getenv("MYSQL_USER")        # Usuario de la base de datos
password = os.getenv("MYSQL_PASSWORD")# Contrase√±a de la base de datos

### 2. Creacion BBDD

In [7]:
# --- Intentamos conectarnos al servidor MySQL ---
try:
    # Creamos la conexi√≥n y la guardamos en la variable 'cnx'
    cnx = mysql.connector.connect(
        host=os.getenv('MYSQL_HOST'),                  # Direcci√≥n del servidor MySQL (localhost o IP)
        user=os.getenv('MYSQL_USER'),                  # Usuario que se conectar√° (ej. root)
        password=os.getenv('MYSQL_PASSWORD'),          # Contrase√±a del usuario
        auth_plugin='mysql_native_password',           # Evita errores de conexi√≥n por `caching_sha2_password`
        use_pure=True,                                 # Usa el conector puro de Python, m√°s compatible
    )

    # Si llegamos aqu√≠, la conexi√≥n fue exitosa
    print('Conexi√≥n exitosa')  # Mensaje de confirmaci√≥n

# --- Capturamos cualquier error relacionado con MySQL ---
except mysql.connector.Error as e:
    # Si ocurre un error, lo imprimimos para diagnosticarlo
    print('Error al conectar:', e)


Conexi√≥n exitosa


In [8]:
# --- Crear un cursor ---
# Un cursor es un objeto que permite ejecutar consultas SQL sobre la conexi√≥n
mycursor = cnx.cursor()  

# --- Crear la base de datos si no existe ---
# "IF NOT EXISTS" evita errores si la base de datos ya est√° creada
mycursor.execute("CREATE DATABASE IF NOT EXISTS MusicStream")

# --- Seleccionar la base de datos para usarla ---
# Todas las consultas siguientes se ejecutar√°n en esta base de datos
mycursor.execute("USE MusicStream")

# --- CREACI√ìN DE TABLAS (Normalizaci√≥n de datos) ---
# Tabla 1: Artistas
# Guardamos informaci√≥n biogr√°fica para no repetirla en cada canci√≥n
mycursor.execute('''
CREATE TABLE IF NOT EXISTS Artistas (
    Nombre_Artista VARCHAR(255) PRIMARY KEY,  -- Clave primaria: identifica cada artista
    Bio_Resumen TEXT,                         -- Biograf√≠a del artista (texto largo)
    Listeners INT                              -- Cantidad de oyentes
);''')

# Tabla 2: Canciones
# Cada canci√≥n se relaciona con un artista mediante clave for√°nea
mycursor.execute('''
CREATE TABLE IF NOT EXISTS Canciones (
    ID_Cancion INT AUTO_INCREMENT PRIMARY KEY, -- Identificador √∫nico y autom√°tico
    Titulo TEXT NOT NULL,                      -- T√≠tulo de la canci√≥n (no puede ser nulo)
    Album TEXT,                                -- Nombre del √°lbum
    Genero VARCHAR(100),                       -- G√©nero musical
    Anio YEAR,                                 -- A√±o de lanzamiento
    Artista_Relacion VARCHAR(255),            -- Columna que vincula con la tabla Artistas
    FOREIGN KEY (Artista_Relacion) REFERENCES Artistas(Nombre_Artista)  -- Relaci√≥n entre tablas
);''')

# --- Confirmaci√≥n visual de √©xito ---
print("‚úÖ Estructura de tablas (Relacional) creada correctamente.")


‚úÖ Estructura de tablas (Relacional) creada correctamente.


In [9]:
# -------------------------------
# 4Ô∏è‚É£ DETECCI√ìN DE CSVs Y PROCESO
# -------------------------------
archivos = glob.glob("canciones_*.csv")  # Todos los CSV que cumplan el patr√≥n

for archivo in archivos:
    print(f"\nüìÇ Procesando archivo: {archivo}")
    
    # Leer CSV
    df = pd.read_csv(archivo, sep=';', encoding='utf-8-sig')
    
    # Limpiar valores nulos
    df_limpio = df.replace({np.nan: None, 'nan': None, 'NaN': None})
    
    # Limpiar espacios extra en nombres de artistas
    if 'artista' in df_limpio.columns:
        df_limpio['artista'] = df_limpio['artista'].str.strip()
    
    try:
        # --- PASO A: INSERTAR ARTISTAS ---
        df_artistas = df_limpio[['artista', 'bio_resumen', 'listeners']].drop_duplicates(subset=['artista'])
        lista_artistas = list(df_artistas.itertuples(index=False, name=None))
        query_artistas = "INSERT IGNORE INTO Artistas (Nombre_Artista, Bio_Resumen, Listeners) VALUES (%s, %s, %s)"
        mycursor.executemany(query_artistas, lista_artistas)
        print(f"üì¶ {len(df_artistas)} artistas insertados o ignorados si exist√≠an")

        # --- PASO B: INSERTAR CANCIONES ---
        df_canciones = df_limpio[['nombre', 'album', 'genero', 'a√±o', 'artista']]
        lista_canciones = list(df_canciones.itertuples(index=False, name=None))
        query_canciones = "INSERT INTO Canciones (Titulo, Album, Genero, Anio, Artista_Relacion) VALUES (%s, %s, %s, %s, %s)"
        mycursor.executemany(query_canciones, lista_canciones)
        print(f"üéµ {len(df_canciones)} canciones insertadas")

        # Guardar cambios
        cnx.commit()
        print("üöÄ Archivo procesado con √©xito")
    
    except mysql.connector.Error as e:
        print(f"‚ùå Error en {archivo}: {e}")
        cnx.rollback()



üìÇ Procesando archivo: canciones_2010_con_lastfm.csv
üì¶ 96 artistas insertados o ignorados si exist√≠an
üéµ 11039 canciones insertadas
üöÄ Archivo procesado con √©xito

üìÇ Procesando archivo: canciones_2012_con_lastfm.csv
üì¶ 118 artistas insertados o ignorados si exist√≠an
üéµ 13811 canciones insertadas
üöÄ Archivo procesado con √©xito

üìÇ Procesando archivo: canciones_2014_con_lastfm.csv
üì¶ 121 artistas insertados o ignorados si exist√≠an
üéµ 13230 canciones insertadas
üöÄ Archivo procesado con √©xito

üìÇ Procesando archivo: canciones_2016_con_lastfm.csv
üì¶ 128 artistas insertados o ignorados si exist√≠an
üéµ 9264 canciones insertadas
üöÄ Archivo procesado con √©xito

üìÇ Procesando archivo: canciones_2018_con_lastfm.csv
üì¶ 150 artistas insertados o ignorados si exist√≠an
üéµ 10335 canciones insertadas
üöÄ Archivo procesado con √©xito

üìÇ Procesando archivo: canciones_2020_con_lastfm.csv
üì¶ 168 artistas insertados o ignorados si exist√≠an
üéµ 12156 c