In [4]:
import pandas as pd
from dotenv import load_dotenv
import os
from sqlalchemy import create_engine
from sqlalchemy.types import Integer, BigInteger, Text, VARCHAR
from sqlalchemy.sql import text
import mysql.connector
import numpy as np

# 1. Cargar las credenciales y definir el motor de conexi√≥n
load_dotenv('2.env')

CSV_FILENAME = 'reggaeton_data_2010_2024.csv' # Esto se usar√° solo si es necesario, pero la Celda 2 lo anula.
DB_USER = os.getenv("MYSQL_USER")
DB_PASSWORD = os.getenv("MYSQL_PASSWORD")
DB_HOST = os.getenv("MYSQL_HOST")
# Usaremos 'musica_db' directamente
DB_DATABASE = "musica_db"

engine = None # Inicializamos la variable

try:
    # --- PASO 1: CONECTARSE AL SERVIDOR Y CREAR LA BASE DE DATOS ---
   
    # 1.1 Conexi√≥n sin especificar la base de datos (Database=None)
    conn_no_db = mysql.connector.connect(
        host=DB_HOST,
        user=DB_USER,
        password=DB_PASSWORD
    )
    cursor = conn_no_db.cursor()
   
    # 1.2 Crear la base de datos si no existe
    cursor.execute(f"CREATE DATABASE IF NOT EXISTS {DB_DATABASE}")
    cursor.close()
    conn_no_db.close()
   
    print(f"‚úÖ Base de datos '{DB_DATABASE}' creada o verificada en el servidor.")
   
   
    # --- PASO 2: CREAR EL ENGINE FINAL CON LA BASE DE DATOS ESPECIFICADA ---
   
    mysql_url = f"mysql+mysqlconnector://{DB_USER}:{DB_PASSWORD}@{DB_HOST}/{DB_DATABASE}"
    engine = create_engine(mysql_url)
   
    print(f"‚úÖ Conexi√≥n establecida a la base de datos MySQL: {DB_DATABASE}")

    print("\n--- ¬°LISTO PARA LA CARGA DE DATOS Y MODELADO! ---")

except ImportError:
    print("‚ùå ERROR: Aseg√∫rate de que instalaste 'mysql-connector-python' o 'mysqlclient'.")
except Exception as e:
    print(f"‚ùå ERROR CR√çTICO DE CONEXI√ìN: Verifica que tu servidor MySQL est√© encendido y tus credenciales en '2.env' sean correctas. Detalle: {e}")
    engine = None


‚úÖ Base de datos 'musica_db' creada o verificada en el servidor.
‚úÖ Conexi√≥n establecida a la base de datos MySQL: musica_db

--- ¬°LISTO PARA LA CARGA DE DATOS Y MODELADO! ---


In [7]:
# --- FASE 2, CELDA 2: CONSOLIDACI√ìN, LIMPIEZA MAESTRA Y MAPEO DE G√âNEROS ---

import pandas as pd
import numpy as np

# 1. Lista de archivos y sus g√©neros correspondientes
file_info = [
    {'name': 'reggaeton_data_2010_2024.csv', 'genre': 'Reggaeton'},
    {'name': 'latin_data_2010_2024.csv', 'genre': 'Pop Latino'},
    {'name': 'funk_data_2010_2024.csv', 'genre': 'Funk'},
    {'name': 'indie_data_2010_2024.csv', 'genre': 'Rock Indie'},
    {'name': 'data_jazz_final2.csv', 'genre': 'Jazz'}
]

all_dataframes = []
print("--- INICIANDO CARGA Y CONCATENACI√ìN DE G√âNEROS ---")

for info in file_info:
    filename = info['name']
    genre = info['genre']
    try:
        df = pd.read_csv(filename)
        df['Genero'] = genre
        
        # Estandarizaci√≥n de nombres de columnas comunes antes de unir
        if 'A√±o de lanzamiento' in df.columns:
            df.rename(columns={'A√±o de lanzamiento': 'A√±o_lanzamiento'}, inplace=True)
            
        all_dataframes.append(df)
        print(f"   -> Cargado {filename} ({genre}) con {len(df)} filas.")
        
    except FileNotFoundError:
        print(f"   ‚ùå ERROR: Archivo NO encontrado: {filename}.")
    except Exception as e:
        print(f"   ‚ùå Error al leer {filename}: {e}")

# Uni√≥n de todos los g√©neros
df_consolidado = pd.concat(all_dataframes, ignore_index=True)

# 2. Deduplicaci√≥n por ID de Spotify
df_consolidado.drop_duplicates(subset=['ID_Spotify'], keep='first', inplace=True)

# --- üõ†Ô∏è BLOQUE DE REPARACI√ìN DE √ÅLBUMES (SOLUCI√ìN A LOS NULL EN SQL) ---

# Aseguramos que existan las columnas de √°lbum
cols_album = ['Nombre_Album', 'A√±o_Lanzamiento_Album', 'ID_Album']
for col in cols_album:
    if col not in df_consolidado.columns:
        df_consolidado[col] = np.nan

# Relleno de Nombre_Album: si es nulo, usamos el nombre de la canci√≥n
df_consolidado['Nombre_Album'] = df_consolidado['Nombre_Album'].fillna(df_consolidado['Nombre'])

# Relleno de A√±o_Lanzamiento_Album: si es nulo, usamos el a√±o de la canci√≥n
if 'A√±o_lanzamiento' in df_consolidado.columns:
    df_consolidado['A√±o_Lanzamiento_Album'] = df_consolidado['A√±o_Lanzamiento_Album'].fillna(df_consolidado['A√±o_lanzamiento'])

# Limpieza final para evitar cualquier NULL restante
df_consolidado['Nombre_Album'] = df_consolidado['Nombre_Album'].fillna('√Ålbum Desconocido')
df_consolidado['ID_Album'] = df_consolidado['ID_Album'].fillna('Sencillo_ID')
df_consolidado['A√±o_Lanzamiento_Album'] = df_consolidado['A√±o_Lanzamiento_Album'].fillna(2024).astype(int)

# 3. LIMPIEZA DE LAST.FM (Listeners y Playcount)
for col in ['Playcount_LastFM', 'Listeners_LastFM']:
    if col in df_consolidado.columns:
        df_consolidado[col] = df_consolidado[col].fillna(0).astype('Int64')
    else:
        df_consolidado[col] = 0

if 'Biografia_Resumen' in df_consolidado.columns:
    df_consolidado['Biografia_Resumen'] = df_consolidado['Biografia_Resumen'].fillna('Sin biograf√≠a disponible.')

# --- MAPEO DE G√âNEROS ---

df_generos_map = df_consolidado[['Genero']].drop_duplicates().reset_index(drop=True)
df_generos_map['genero_id'] = df_generos_map.index + 1
df_generos_db = df_generos_map[['genero_id', 'Genero']].rename(columns={'Genero': 'nombre_genero'})

df_consolidado = pd.merge(
    df_consolidado,
    df_generos_map[['Genero', 'genero_id']],
    on='Genero',
    how='left'
)

print(f"\n‚úÖ Proceso completado. Total √∫nico: {len(df_consolidado)} canciones.")
print("‚úÖ Datos de √Ålbumes y Last.fm reparados para MySQL.")

--- INICIANDO CARGA Y CONCATENACI√ìN DE G√âNEROS ---
   -> Cargado reggaeton_data_2010_2024.csv (Reggaeton) con 500 filas.
   -> Cargado latin_data_2010_2024.csv (Pop Latino) con 500 filas.
   -> Cargado funk_data_2010_2024.csv (Funk) con 500 filas.
   -> Cargado indie_data_2010_2024.csv (Rock Indie) con 500 filas.
   -> Cargado data_jazz_final2.csv (Jazz) con 500 filas.

‚úÖ Proceso completado. Total √∫nico: 2468 canciones.
‚úÖ Datos de √Ålbumes y Last.fm reparados para MySQL.


In [8]:
# --- CELDA 3: INSERCI√ìN DE DATOS CON NORMALIZACI√ìN EN MYSQL (CORREGIDA: SOLO A√ëADIDA POPULARIDAD) ---
if 'engine' not in locals() or engine is None:
    print("‚ùå ERROR: El motor de conexi√≥n a MySQL no se cre√≥ correctamente.")
elif 'df_consolidado' not in locals():
    print("‚ùå ERROR: El DataFrame consolidado no se encontr√≥. ¬°Ejecuta la Celda 2 (Consolidaci√≥n) primero!")
else:
    print("--- INICIANDO INSERCI√ìN DE DATOS CONSOLIDADOS EN MYSQL ---")

    # Limpieza previa de tablas para evitar problemas con to_sql/replace y claves
    with engine.connect() as connection:
        connection.execute(text("DROP TABLE IF EXISTS CANCIONES"))
        connection.execute(text("DROP TABLE IF EXISTS ALBUMES"))
        connection.execute(text("DROP TABLE IF EXISTS ARTISTAS"))
        connection.execute(text("DROP TABLE IF EXISTS GENEROS"))
        connection.commit()

    # 0. Crear e insertar la tabla GENEROS
    df_generos_db.to_sql(
        'GENEROS',
        engine,
        if_exists='fail'
        index=False,
        dtype={
            'genero_id': Integer,
            'nombre_genero': VARCHAR(50)
        }
    )

    with engine.connect() as connection:
        connection.execute(
            text(
                "ALTER TABLE GENEROS "
                "MODIFY genero_id INT NOT NULL AUTO_INCREMENT, "
                "ADD PRIMARY KEY (genero_id)"
            )
        )
        connection.commit()

    print(f"‚úÖ Insertados {len(df_generos_db)} g√©neros √∫nicos en la tabla GENEROS.")

    # 1. Preparar e insertar la tabla ARTISTAS (con datos de Last.fm)
    df_artistas = df_consolidado[
        [
            'Artista',
            'Playcount_LastFM',
            'Listeners_LastFM',
            'Biografia_Resumen'
        ]
    ].drop_duplicates(subset=['Artista']).dropna(subset=['Artista'])

    df_artistas = df_artistas.replace({np.nan: None})

    df_artistas.to_sql(
        'ARTISTAS',
        engine,
        if_exists='fail',
        index=False,
        dtype={
            'Artista': VARCHAR(255),
            'Playcount_LastFM': BigInteger,
            'Listeners_LastFM': BigInteger,
            'Biografia_Resumen': Text
        }
    )

    with engine.connect() as connection:
        connection.execute(text("ALTER TABLE ARTISTAS ADD PRIMARY KEY (Artista)"))
        connection.commit()

    print(f"‚úÖ Insertados {len(df_artistas)} artistas √∫nicos en la tabla ARTISTAS (con m√©tricas Last.fm).")

    # 2. Preparar e insertar la tabla ALBUMES
    df_albumes = df_consolidado[
        [
            'ID_Album',
            'Nombre_Album',
            'A√±o_Lanzamiento_Album',
            'Artista'  # FK a ARTISTAS
        ]
    ].drop_duplicates(subset=['ID_Album']).dropna(subset=['ID_Album'])

    df_albumes = df_albumes.replace({np.nan: None})

    df_albumes.to_sql(
        'ALBUMES',
        engine,
        if_exists='fail',
        index=False,
        dtype={
            'ID_Album': VARCHAR(50),
            'Nombre_Album': VARCHAR(255),
            'A√±o_Lanzamiento_Album': Integer,
            'Artista': VARCHAR(255),
        },
        chunksize=100
    )

    with engine.connect() as connection:
        connection.execute(text("ALTER TABLE ALBUMES ADD PRIMARY KEY (ID_Album)"))
        connection.execute(
            text("ALTER TABLE ALBUMES "
                 "ADD CONSTRAINT fk_albumes_artista "
                 "FOREIGN KEY (Artista) REFERENCES ARTISTAS(Artista)")
        )
        connection.commit()

    print(f"‚úÖ Insertados {len(df_albumes)} √°lbumes √∫nicos en la tabla ALBUMES.")

    # 3. Preparar e insertar la tabla CANCIONES (a√±adimos solo Popularidad)
    df_canciones = df_consolidado[
        [
            'ID_Spotify',
            'Nombre',
            'A√±o_lanzamiento',
            'ID_Album',
            'Artista',
            'genero_id',
            'Popularidad'  # campo a√±adido
        ]
    ].drop_duplicates(subset=['ID_Spotify']).dropna(subset=['ID_Spotify'])

    df_canciones = df_canciones.replace({np.nan: None})

    df_canciones.to_sql(
        'CANCIONES',
        engine,
        if_exists='fail',
        index=False,
        dtype={
            'ID_Spotify': VARCHAR(50),
            'Nombre': VARCHAR(255),
            'A√±o_lanzamiento': Integer,
            'ID_Album': VARCHAR(50),
            'Artista': VARCHAR(255),
            'genero_id': Integer,
            'Popularidad': Integer
        },
        chunksize=100
    )

    with engine.connect() as connection:
        # 3.1 Definir la PK
        connection.execute(text("ALTER TABLE CANCIONES ADD PRIMARY KEY (ID_Spotify)"))

        # 3.2 A√±adir claves for√°neas (con nombres de constraint expl√≠citos)
        connection.execute(
            text("ALTER TABLE CANCIONES "
                 "ADD CONSTRAINT fk_canciones_album "
                 "FOREIGN KEY (ID_Album) REFERENCES ALBUMES(ID_Album)")
        )
        connection.execute(
            text("ALTER TABLE CANCIONES "
                 "ADD CONSTRAINT fk_canciones_genero "
                 "FOREIGN KEY (genero_id) REFERENCES GENEROS(genero_id)")
        )
        connection.execute(
            text("ALTER TABLE CANCIONES "
                 "ADD CONSTRAINT fk_canciones_artista "
                 "FOREIGN KEY (Artista) REFERENCES ARTISTAS(Artista)")
        )

        connection.commit()

    print(f"‚úÖ Insertadas {len(df_canciones)} canciones √∫nicas en la tabla CANCIONES (con Popularidad).")

    print("\n--- FASE 2 (MODELADO) COMPLETADA. Datos normalizados insertados en MySQL. ---")

# --- CELDA DE VERIFICACI√ìN (A√ëADIMOS LA POPULARIDAD) ---
try:
    query = """
    SELECT
        g.nombre_genero,
        COUNT(c.ID_Spotify) AS Total_Canciones,
        ROUND(AVG(c.Popularidad), 2) AS Avg_Popularidad
    FROM
        CANCIONES c
    JOIN
        GENEROS g ON c.genero_id = g.genero_id
    GROUP BY
        g.nombre_genero;
    """

    df_verification = pd.read_sql(query, engine)

    if df_verification.empty:
        print("‚ö†Ô∏è Advertencia: La tabla 'CANCIONES' est√° vac√≠a o no se encontr√≥.")
    else:
        print("\n--- VERIFICACI√ìN DE G√âNEROS Y POPULARIDAD EN LA BASE DE DATOS ---")
        print(df_verification)

except Exception as e:
    print(f"‚ùå ERROR al verificar la base de datos: {e}")


--- INICIANDO INSERCI√ìN DE DATOS CONSOLIDADOS EN MYSQL ---


  df_generos_db.to_sql(


‚úÖ Insertados 5 g√©neros √∫nicos en la tabla GENEROS.


  df_artistas.to_sql(


‚úÖ Insertados 1250 artistas √∫nicos en la tabla ARTISTAS (con m√©tricas Last.fm).


  df_albumes.to_sql(


‚úÖ Insertados 1489 √°lbumes √∫nicos en la tabla ALBUMES.


  df_canciones.to_sql(


‚úÖ Insertadas 2468 canciones √∫nicas en la tabla CANCIONES (con Popularidad).

--- FASE 2 (MODELADO) COMPLETADA. Datos normalizados insertados en MySQL. ---

--- VERIFICACI√ìN DE G√âNEROS Y POPULARIDAD EN LA BASE DE DATOS ---
  nombre_genero  Total_Canciones  Avg_Popularidad
0          Jazz              496            33.36
1          Funk              499            18.33
2    Pop Latino              490            40.54
3    Rock Indie              483            38.14
4     Reggaeton              500            45.30
