In [1]:
import pandas as pd
from sqlalchemy import create_engine
import numpy as np
import time
# Cargar el CSV de Spotify ignorando la primera columna sin nombre
spotify_csv_path = "../Data/spotify_dataset.csv"
spotify_df = pd.read_csv(spotify_csv_path)

# Eliminar la primera columna que es un contador sin nombre
spotify_df.drop(spotify_df.columns[0], axis=1, inplace=True)

# Asegurarse de que las columnas tienen los tipos correctos
spotify_df['explicit'] = spotify_df['explicit'].astype(bool)  # Convertir 'explicit' a booleano
spotify_df['popularity'] = pd.to_numeric(spotify_df['popularity'], errors='coerce')  # Convertir a numérico
spotify_df['duration_ms'] = pd.to_numeric(spotify_df['duration_ms'], errors='coerce')  # Convertir a numérico
spotify_df['danceability'] = pd.to_numeric(spotify_df['danceability'], errors='coerce')
spotify_df['energy'] = pd.to_numeric(spotify_df['energy'], errors='coerce')
spotify_df['key'] = pd.to_numeric(spotify_df['key'], errors='coerce')
spotify_df['loudness'] = pd.to_numeric(spotify_df['loudness'], errors='coerce')
spotify_df['speechiness'] = pd.to_numeric(spotify_df['speechiness'], errors='coerce')
spotify_df['acousticness'] = pd.to_numeric(spotify_df['acousticness'], errors='coerce')

# Transformar valores muy pequeños o infinitos a None
spotify_df['instrumentalness'] = spotify_df['instrumentalness'].apply(lambda x: None if pd.isna(x) or abs(x) < 1e-5 else round(x, 6))
spotify_df['liveness'] = pd.to_numeric(spotify_df['liveness'], errors='coerce').apply(lambda x: None if pd.isna(x) or abs(x) < 1e-5 else round(x, 6))
spotify_df['valence'] = pd.to_numeric(spotify_df['valence'], errors='coerce').apply(lambda x: None if pd.isna(x) else round(x, 6))
spotify_df['tempo'] = pd.to_numeric(spotify_df['tempo'], errors='coerce').apply(lambda x: None if pd.isna(x) else round(x, 6))
spotify_df['time_signature'] = pd.to_numeric(spotify_df['time_signature'], errors='coerce')

# Convertir columnas de texto a tipo str para evitar problemas
spotify_df['track_id'] = spotify_df['track_id'].astype(str)
spotify_df['artists'] = spotify_df['artists'].astype(str)
spotify_df['album_name'] = spotify_df['album_name'].astype(str)
spotify_df['track_name'] = spotify_df['track_name'].astype(str)
spotify_df['track_genre'] = spotify_df['track_genre'].astype(str)


In [2]:
from sqlalchemy import create_engine

# Crear el motor de conexión a MySQL
engine = create_engine('mysql+pymysql://root:password@localhost:3306')

# Crear la base de datos "spotify_data"
try:
    with engine.connect() as connection:
        connection.execute("CREATE DATABASE IF NOT EXISTS spotify_data;")
        print("Base de datos 'spotify_data' creada exitosamente.")
except Exception as e:
    print(f"Error al crear la base de datos: {e}")


Base de datos 'spotify_data' creada exitosamente.


  connection.execute("CREATE DATABASE IF NOT EXISTS spotify_data;")


In [5]:
import pandas as pd
import mysql.connector
import time

# Conexión a la base de datos
def conectar_mysql():
    return mysql.connector.connect(
        host='localhost',
        user='root',
        password='password',
        database='spotify_data'
    )

# Crear la tabla Spotify si no existe
def crear_tabla():
    connection = conectar_mysql()
    cursor = connection.cursor()
    create_table_query = """
    CREATE TABLE IF NOT EXISTS Spotify (
        id INT NOT NULL PRIMARY KEY,
        track_id VARCHAR(50),
        artists TEXT,
        album_name TEXT,
        track_name TEXT,
        popularity INT,
        duration_ms INT,
        explicit BOOLEAN,
        danceability FLOAT,
        energy FLOAT,
        `key` INT,
        loudness FLOAT,
        mode INT,
        speechiness FLOAT,
        acousticness FLOAT,
        instrumentalness FLOAT,
        liveness FLOAT,
        valence FLOAT,
        tempo FLOAT,
        time_signature INT,
        track_genre VARCHAR(50)
    );
    """
    cursor.execute(create_table_query)
    connection.commit()
    cursor.close()
    connection.close()

# Función para insertar datos en lotes
def insertar_datos_lotes(data, batch_size=500):
    connection = conectar_mysql()
    cursor = connection.cursor()

    insert_query = """
    INSERT INTO Spotify (id, track_id, artists, album_name, track_name, popularity, duration_ms, explicit, danceability, energy, `key`, loudness, mode, speechiness, acousticness, instrumentalness, liveness, valence, tempo, time_signature, track_genre)
    VALUES (%s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s)
    """

    total_records = len(data)
    for start in range(0, total_records, batch_size):
        end = start + batch_size
        batch = data[start:end]

        try:
            cursor.executemany(insert_query, batch)
            connection.commit()
            print(f"Lote de registros desde {start} hasta {end} insertado correctamente.")
        except mysql.connector.Error as err:
            print(f"Error al insertar datos: {err}")
            connection.rollback()  # Revertir cambios en caso de error
        time.sleep(1)  # Pausa para evitar bloqueos por sobrecarga

    cursor.close()
    connection.close()

# Cargar el dataset
dataset_path = '../Data/spotify_dataset.csv'
df = pd.read_csv(dataset_path)

# Eliminar la columna 'Unnamed: 0' si existe
if 'Unnamed: 0' in df.columns:
    df = df.drop(columns=['Unnamed: 0'])

# Reemplazar NaN con valores predeterminados
df = df.fillna({
    'track_id': 'Unknown',
    'artists': 'Unknown',
    'album_name': 'Unknown',
    'track_name': 'Unknown',
    'popularity': 0,
    'duration_ms': 0,
    'explicit': False,
    'danceability': 0.0,
    'energy': 0.0,
    'key': 0,
    'loudness': 0.0,
    'mode': 0,
    'speechiness': 0.0,
    'acousticness': 0.0,
    'instrumentalness': 0.0,
    'liveness': 0.0,
    'valence': 0.0,
    'tempo': 0.0,
    'time_signature': 0,
    'track_genre': 'Unknown'
})

# Agregar la columna 'id' que falta
df.reset_index(inplace=True)
df.rename(columns={'index': 'id'}, inplace=True)

# Convertir el DataFrame en una lista de tuplas para la inserción
data = df.values.tolist()

# Crear la tabla
crear_tabla()

# Insertar los datos en lotes
insertar_datos_lotes(data, batch_size=500)


Lote de registros desde 0 hasta 500 insertado correctamente.
Lote de registros desde 500 hasta 1000 insertado correctamente.
Lote de registros desde 1000 hasta 1500 insertado correctamente.
Lote de registros desde 1500 hasta 2000 insertado correctamente.
Lote de registros desde 2000 hasta 2500 insertado correctamente.
Lote de registros desde 2500 hasta 3000 insertado correctamente.
Lote de registros desde 3000 hasta 3500 insertado correctamente.
Lote de registros desde 3500 hasta 4000 insertado correctamente.
Lote de registros desde 4000 hasta 4500 insertado correctamente.
Lote de registros desde 4500 hasta 5000 insertado correctamente.
Lote de registros desde 5000 hasta 5500 insertado correctamente.
Lote de registros desde 5500 hasta 6000 insertado correctamente.
Lote de registros desde 6000 hasta 6500 insertado correctamente.
Lote de registros desde 6500 hasta 7000 insertado correctamente.
Lote de registros desde 7000 hasta 7500 insertado correctamente.
Lote de registros desde 7500 h

In [6]:
import mysql.connector
import pandas as pd

# Conexión a la base de datos
connection = mysql.connector.connect(
    host='localhost',
    user='root',
    password='password',
    database='spotify_data'
)

# Crear un cursor para ejecutar las consultas
cursor = connection.cursor()

# Ejecutar la consulta para verificar cuántos registros se insertaron
cursor.execute("SELECT COUNT(*) FROM Spotify")
total_registros = cursor.fetchone()[0]
print(f"Número total de registros en la tabla 'Spotify': {total_registros}")

# Ejecutar la consulta para ver los primeros 10 registros
query = "SELECT * FROM Spotify LIMIT 10"
df = pd.read_sql(query, connection)
print("Primeros 10 registros en la tabla 'Spotify':")
print(df)

# Cerrar la conexión
cursor.close()
connection.close()


Número total de registros en la tabla 'Spotify': 114000
Primeros 10 registros en la tabla 'Spotify':
   id                track_id                               artists  \
0   0  5SuOikwiRyPMVoIQDJUgSV                           Gen Hoshino   
1   1  4qPNDBW1i3p13qLCt0Ki3A                          Ben Woodward   
2   2  1iJBSr7s7jYXzM8EGcbK5b                Ingrid Michaelson;ZAYN   
3   3  6lfxq3CG4xtTiEg7opyCyx                          Kina Grannis   
4   4  5vjLSffimiIP26QG5WcN2K                      Chord Overstreet   
5   5  01MVOl9KtVTNfFiBU9I7dc                          Tyrone Wells   
6   6  6Vc5wAMmXdKIAM7WUoEb7N  A Great Big World;Christina Aguilera   
7   7  1EzrEOXmMH3G43AXT1y7pA                            Jason Mraz   
8   8  0IktbUcnAGrvD03AWnz3Q8             Jason Mraz;Colbie Caillat   
9   9  7k9GuJYLp2AzqokyEdwEw2                        Ross Copperman   

                                          album_name  \
0                                             Comedy   
1    

  df = pd.read_sql(query, connection)


In [7]:
import pandas as pd
import mysql.connector
import time

# Conexión a la base de datos
def conectar_mysql():
    return mysql.connector.connect(
        host='localhost',
        user='root',
        password='password',  # Cambia tu contraseña aquí
        database='spotify_data'
    )

# Crear la tabla Spotify_raw si no existe
def crear_tabla_raw():
    connection = conectar_mysql()
    cursor = connection.cursor()
    create_table_query = """
    CREATE TABLE IF NOT EXISTS Spotify_raw (
        id INT NOT NULL PRIMARY KEY,
        track_id VARCHAR(50),
        artists TEXT,
        album_name TEXT,
        track_name TEXT,
        popularity INT,
        duration_ms INT,
        explicit BOOLEAN,
        danceability FLOAT,
        energy FLOAT,
        `key` INT,
        loudness FLOAT,
        mode INT,
        speechiness FLOAT,
        acousticness FLOAT,
        instrumentalness FLOAT,
        liveness FLOAT,
        valence FLOAT,
        tempo FLOAT,
        time_signature INT,
        track_genre VARCHAR(50)
    );
    """
    cursor.execute(create_table_query)
    connection.commit()
    cursor.close()
    connection.close()

# Función para insertar datos en lotes
def insertar_datos_lotes_raw(data, batch_size=500):
    connection = conectar_mysql()
    cursor = connection.cursor()

    insert_query = """
    INSERT INTO Spotify_raw (id, track_id, artists, album_name, track_name, popularity, duration_ms, explicit, danceability, energy, `key`, loudness, mode, speechiness, acousticness, instrumentalness, liveness, valence, tempo, time_signature, track_genre)
    VALUES (%s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s)
    """

    total_records = len(data)
    for start in range(0, total_records, batch_size):
        end = start + batch_size
        batch = data[start:end]

        try:
            cursor.executemany(insert_query, batch)
            connection.commit()
            print(f"Lote de registros desde {start} hasta {end} insertado correctamente.")
        except mysql.connector.Error as err:
            print(f"Error al insertar datos: {err}")
            connection.rollback()  # Revertir cambios en caso de error
        time.sleep(1)  # Pausa para evitar bloqueos por sobrecarga

    cursor.close()
    connection.close()

# Cargar el dataset crudo
dataset_path = '../Data/spotify_dataset.csv'  # Asegúrate de que esta ruta sea la correcta
df_raw = pd.read_csv(dataset_path)

# Eliminar la columna 'Unnamed: 0' si existe
if 'Unnamed: 0' in df_raw.columns:
    df_raw = df_raw.drop(columns=['Unnamed: 0'])

# Agregar la columna 'id' que falta
df_raw.reset_index(inplace=True)
df_raw.rename(columns={'index': 'id'}, inplace=True)

# Convertir el DataFrame en una lista de tuplas para la inserción
data_raw = df_raw.values.tolist()

# Crear la tabla
crear_tabla_raw()

# Insertar los datos en lotes en la tabla cruda
insertar_datos_lotes_raw(data_raw, batch_size=500)


Lote de registros desde 0 hasta 500 insertado correctamente.
Lote de registros desde 500 hasta 1000 insertado correctamente.
Lote de registros desde 1000 hasta 1500 insertado correctamente.
Lote de registros desde 1500 hasta 2000 insertado correctamente.
Lote de registros desde 2000 hasta 2500 insertado correctamente.
Lote de registros desde 2500 hasta 3000 insertado correctamente.
Lote de registros desde 3000 hasta 3500 insertado correctamente.
Lote de registros desde 3500 hasta 4000 insertado correctamente.
Lote de registros desde 4000 hasta 4500 insertado correctamente.
Lote de registros desde 4500 hasta 5000 insertado correctamente.
Lote de registros desde 5000 hasta 5500 insertado correctamente.
Lote de registros desde 5500 hasta 6000 insertado correctamente.
Lote de registros desde 6000 hasta 6500 insertado correctamente.
Lote de registros desde 6500 hasta 7000 insertado correctamente.
Lote de registros desde 7000 hasta 7500 insertado correctamente.
Lote de registros desde 7500 h

In [8]:
import pandas as pd
import mysql.connector
import time

# Conexión a la base de datos
def conectar_mysql():
    return mysql.connector.connect(
        host='localhost',
        user='root',
        password='password',
        database='spotify_data'
    )

# Crear la tabla Grammy_awards si no existe
def crear_tabla_grammy():
    connection = conectar_mysql()
    cursor = connection.cursor()
    create_table_query = """
    CREATE TABLE IF NOT EXISTS Grammy_awards (
        year INT,
        title TEXT,
        published_at DATETIME,
        updated_at DATETIME,
        category TEXT,
        nominee TEXT,
        artist TEXT,
        workers TEXT,
        img TEXT,
        winner BOOLEAN
    );
    """
    cursor.execute(create_table_query)
    connection.commit()
    cursor.close()
    connection.close()

# Función para insertar datos en lotes
def insertar_datos_grammy(data, batch_size=500):
    connection = conectar_mysql()
    cursor = connection.cursor()

    insert_query = """
    INSERT INTO Grammy_awards (year, title, published_at, updated_at, category, nominee, artist, workers, img, winner)
    VALUES (%s, %s, %s, %s, %s, %s, %s, %s, %s, %s)
    """

    total_records = len(data)
    for start in range(0, total_records, batch_size):
        end = start + batch_size
        batch = data[start:end]

        try:
            cursor.executemany(insert_query, batch)
            connection.commit()
            print(f"Lote de registros desde {start} hasta {end} insertado correctamente.")
        except mysql.connector.Error as err:
            print(f"Error al insertar datos: {err}")
            connection.rollback()  # Revertir cambios en caso de error
        time.sleep(1)  # Pausa para evitar bloqueos por sobrecarga

    cursor.close()
    connection.close()

# Cargar el dataset
dataset_path = '../Data/the_grammy_awards.csv'
df = pd.read_csv(dataset_path)

# Reemplazar NaN con valores predeterminados si hay
df = df.fillna({
    'year': 0,
    'title': 'Unknown',
    'published_at': '2000-01-01T00:00:00-00:00',
    'updated_at': '2000-01-01T00:00:00-00:00',
    'category': 'Unknown',
    'nominee': 'Unknown',
    'artist': 'Unknown',
    'workers': 'Unknown',
    'img': 'Unknown',
    'winner': False
})

# Convertir las columnas 'published_at' y 'updated_at' a tipo datetime
df['published_at'] = pd.to_datetime(df['published_at'])
df['updated_at'] = pd.to_datetime(df['updated_at'])

# Convertir el DataFrame en una lista de tuplas para la inserción
data = df.values.tolist()

# Crear la tabla
crear_tabla_grammy()

# Insertar los datos en lotes
insertar_datos_grammy(data, batch_size=500)


  df['published_at'] = pd.to_datetime(df['published_at'])
  df['updated_at'] = pd.to_datetime(df['updated_at'])


Lote de registros desde 0 hasta 500 insertado correctamente.
Lote de registros desde 500 hasta 1000 insertado correctamente.
Lote de registros desde 1000 hasta 1500 insertado correctamente.
Lote de registros desde 1500 hasta 2000 insertado correctamente.
Lote de registros desde 2000 hasta 2500 insertado correctamente.
Lote de registros desde 2500 hasta 3000 insertado correctamente.
Lote de registros desde 3000 hasta 3500 insertado correctamente.
Lote de registros desde 3500 hasta 4000 insertado correctamente.
Lote de registros desde 4000 hasta 4500 insertado correctamente.
Lote de registros desde 4500 hasta 5000 insertado correctamente.


In [9]:
import pandas as pd
import mysql.connector
import time

# Conexión a la base de datos
def conectar_mysql():
    return mysql.connector.connect(
        host='localhost',
        user='root',
        password='password',  # Cambia a tu contraseña de MySQL
        database='spotify_data'
    )

# Crear la tabla Grammy_awards_raw si no existe
def crear_tabla_grammy_raw():
    connection = conectar_mysql()
    cursor = connection.cursor()
    create_table_query = """
    CREATE TABLE IF NOT EXISTS Grammy_awards_raw (
        year INT,
        title TEXT,
        published_at DATETIME,
        updated_at DATETIME,
        category TEXT,
        nominee TEXT,
        artist TEXT,
        workers TEXT,
        img TEXT,
        winner BOOLEAN
    );
    """
    cursor.execute(create_table_query)
    connection.commit()
    cursor.close()
    connection.close()

# Función para insertar datos en lotes
def insertar_datos_lotes_grammy_raw(data, batch_size=500):
    connection = conectar_mysql()
    cursor = connection.cursor()

    insert_query = """
    INSERT INTO Grammy_awards_raw (year, title, published_at, updated_at, category, nominee, artist, workers, img, winner)
    VALUES (%s, %s, %s, %s, %s, %s, %s, %s, %s, %s)
    """

    total_records = len(data)
    for start in range(0, total_records, batch_size):
        end = start + batch_size
        batch = data[start:end]

        try:
            cursor.executemany(insert_query, batch)
            connection.commit()
            print(f"Lote de registros desde {start} hasta {end} insertado correctamente.")
        except mysql.connector.Error as err:
            print(f"Error al insertar datos: {err}")
            connection.rollback()  # Revertir cambios en caso de error
        time.sleep(1)  # Pausa para evitar bloqueos por sobrecarga

    cursor.close()
    connection.close()

# Cargar el dataset
dataset_path = '../Data/the_grammy_awards.csv'
df = pd.read_csv(dataset_path)

# Reemplazar NaN con valores predeterminados
df = df.fillna({
    'year': 0,
    'title': 'Unknown',
    'published_at': '2000-01-01 00:00:00',
    'updated_at': '2000-01-01 00:00:00',
    'category': 'Unknown',
    'nominee': 'Unknown',
    'artist': 'Unknown',
    'workers': 'Unknown',
    'img': 'Unknown',
    'winner': False
})

# Convertir el formato de fecha si es necesario
df['published_at'] = pd.to_datetime(df['published_at'], errors='coerce')
df['updated_at'] = pd.to_datetime(df['updated_at'], errors='coerce')

# Convertir el DataFrame en una lista de tuplas para la inserción
data = df.values.tolist()

# Crear la tabla
crear_tabla_grammy_raw()

# Insertar los datos en lotes
insertar_datos_lotes_grammy_raw(data, batch_size=500)


  df['published_at'] = pd.to_datetime(df['published_at'], errors='coerce')
  df['updated_at'] = pd.to_datetime(df['updated_at'], errors='coerce')


Lote de registros desde 0 hasta 500 insertado correctamente.
Lote de registros desde 500 hasta 1000 insertado correctamente.
Lote de registros desde 1000 hasta 1500 insertado correctamente.
Lote de registros desde 1500 hasta 2000 insertado correctamente.
Lote de registros desde 2000 hasta 2500 insertado correctamente.
Lote de registros desde 2500 hasta 3000 insertado correctamente.
Lote de registros desde 3000 hasta 3500 insertado correctamente.
Lote de registros desde 3500 hasta 4000 insertado correctamente.
Lote de registros desde 4000 hasta 4500 insertado correctamente.
Lote de registros desde 4500 hasta 5000 insertado correctamente.
