In [11]:
%%time

# Herramientas.
import pandas as pd
import sqlalchemy # Para ver la versión
from sqlalchemy import create_engine, text
from datetime import datetime

# Versiones
print(f'pandas: {pd.__version__}')
print(f'sqlalchemy: {sqlalchemy.__version__}')
print('')

pandas: 2.2.2
sqlalchemy: 2.0.34

CPU times: total: 31.2 ms
Wall time: 201 ms


### Configuración, conexión y acceso a la BBDD.

In [13]:
%%time

# Configurar conexión
user = 'root'
password = 'Jp261191.'
database = 'Proyecto_Spotify'
host = "localhost"
port = 3306

# Crear conexión
engine = create_engine(f'mysql+pymysql://{user}:{password}@localhost/{database}')

# Abrir conección
connection = engine.connect()

CPU times: total: 15.6 ms
Wall time: 102 ms


### DF Original

In [90]:
%%time

# Cargar DF.
df_original = pd.read_csv('playlist_info_con_audio_features.csv')
df = pd.read_csv('datos_canciones.csv')

CPU times: total: 125 ms
Wall time: 140 ms


In [92]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 55826 entries, 0 to 55825
Data columns (total 18 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   Canción ID            55826 non-null  object 
 1   Nombre                55802 non-null  object 
 2   Artistas              55803 non-null  object 
 3   Duración (segundos)   55826 non-null  float64
 4   Popularidad           55826 non-null  int64  
 5   Explícito             55826 non-null  bool   
 6   Fecha de Lanzamiento  55826 non-null  object 
 7   Url de Spotify        55826 non-null  object 
 8   Imagen                55800 non-null  object 
 9   Danceability          55826 non-null  float64
 10  Energy                55826 non-null  float64
 11  Valence               55826 non-null  float64
 12  Tempo                 55826 non-null  float64
 13  Acousticness          55826 non-null  float64
 14  Instrumentalness      55826 non-null  float64
 15  Speechiness        

### Carga en tabla 'Artistas'

In [94]:
%%time

# Eliminar duplicados para generar el DataFrame de artistas
artistas_df = df[['Artistas']].drop_duplicates().rename(columns = {'Artistas': 'nombre'})

# Reemplazar nulos o vacíos con 'Desconocido'
artistas_df['nombre'] = artistas_df['nombre'].fillna('Desconocido')

# Crear lista de diccionarios con los artistas para insertarlos
artistas_data = artistas_df.to_dict(orient = 'records')

# Insertar con 'INSERT IGNORE' para evitar duplicados
try:
    with engine.connect() as connection:
        
        # Establecer autoincremento a X + 1
        connection.execute(text("ALTER TABLE artistas AUTO_INCREMENT = 1"))

        # Insertar artistas en la base de datos
        for artista in artistas_data:
            query = text("INSERT IGNORE INTO artistas (nombre) VALUES (:nombre)")
            connection.execute(query, artista)  # Usar el diccionario directamente
        
        # Confirmar la transacción
        connection.commit()
    print("Datos de artistas insertados exitosamente.")
except Exception as e:
    print("Error al insertar datos en la tabla 'artistas':", str(e))

# Total de registros en la tabla 'artistas'
with engine.connect() as connection:
    total_artistas = pd.read_sql('SELECT COUNT(*) FROM artistas', connection)
    print(f"Total de artistas en la base de datos: {total_artistas.iloc[0, 0]}")

Datos de artistas insertados exitosamente.
Total de artistas en la base de datos: 27574
CPU times: total: 156 ms
Wall time: 2.9 s


### Carga en tabla 'Canciones'

In [96]:
%%time

# Eliminar duplicados y renombrar columnas
canciones_df = df[['Canción ID', 'Nombre', 'Artistas', 'Duración (segundos)', 'Popularidad', 'Explícito', 
                   'Fecha de Lanzamiento', 'Url de Spotify', 'Imagen', 'Danceability', 'Energy', 'Valence', 
                   'Tempo', 'Acousticness', 'Instrumentalness', 'Speechiness']].drop_duplicates()

# Renombrar columnas.
canciones_df = canciones_df.rename(columns={
    'Canción ID': 'cancion_id',
    'Nombre': 'nombre',
    'Artistas': 'artista_nombre',
    'Duración (segundos)': 'duracion_segundos',
    'Popularidad': 'popularidad',
    'Explícito': 'explicito',
    'Fecha de Lanzamiento': 'fecha_lanzamiento',
    'Url de Spotify': 'url_spotify',
    'Imagen': 'imagen',
    'Danceability': 'danceability',
    'Energy': 'energy',
    'Valence': 'valence',
    'Tempo': 'tempo',
    'Acousticness': 'acousticness',
    'Instrumentalness': 'instrumentalness',
    'Speechiness': 'speechiness'
})

# Reemplazar NaNs en columnas críticas
canciones_df['nombre'] = canciones_df['nombre'].fillna('Desconocido')
canciones_df['artista_nombre'] = canciones_df['artista_nombre'].apply(lambda x: None if pd.isna(x) else x)
canciones_df['imagen'] = canciones_df['imagen'].apply(lambda x: None if pd.isna(x) else x)
canciones_df['fecha_lanzamiento'] = pd.to_datetime(canciones_df['fecha_lanzamiento'], errors='coerce')
canciones_df['fecha_lanzamiento'] = canciones_df['fecha_lanzamiento'].fillna('2000-01-01')

# Obtener IDs de los artistas de la base de datos para fusionar
with engine.connect() as connection:
    artistas_db_df = pd.read_sql('SELECT artista_id, nombre FROM artistas', connection)

# Fusionar el DataFrame con los IDs de los artistas
canciones_df = canciones_df.merge(artistas_db_df, left_on='artista_nombre', right_on='nombre', how='left')

# Renombrar 'nombre_x' a 'nombre'
canciones_df['nombre'] = canciones_df['nombre_x']
canciones_df.drop(columns=['nombre_x'], inplace=True, errors='ignore')

# Convertir 'artista_id' a int64 si no hay valores nulos
canciones_df['artista_id'] = canciones_df['artista_id'].astype('Int64', errors='ignore')

# Verificar que 'nombre' esté correctamente definida
if 'nombre' not in canciones_df.columns:
    print("Columna 'nombre' no encontrada. Verificando columnas disponibles.")
    print(canciones_df.columns)

# Cantidad de canciones
total_canciones = len(canciones_df)

# Insertar en base de datos
try:
    with engine.connect() as connection:
        
        # Insertar las canciones en la base de datos usando 'INSERT IGNORE' para evitar duplicados
        query = text("""INSERT IGNORE INTO canciones 
                (cancion_id, nombre, artista_id, duracion_segundos, popularidad, explicito, fecha_lanzamiento, 
                 danceability, energy, valence, tempo, acousticness, instrumentalness, speechiness, 
                 url_spotify, imagen) 
                VALUES 
                (:cancion_id, :nombre, :artista_id, :duracion_segundos, :popularidad, :explicito, :fecha_lanzamiento, 
                 :danceability, :energy, :valence, :tempo, :acousticness, :instrumentalness, :speechiness, 
                 :url_spotify, :imagen)""")
        
        # Insertar todas las canciones de una sola vez
        connection.execute(query, canciones_df.to_dict(orient='records'))
        connection.commit()
        
        print(f"Datos cargados exitosamente en la base de datos. Total de canciones insertadas: {total_canciones}")
except Exception as e:
    print(f"Error al insertar los datos: {str(e)}")

Datos cargados exitosamente en la base de datos. Total de canciones insertadas: 55826
CPU times: total: 1.05 s
Wall time: 2.74 s


### Carga en tabla 'Playlist'

In [26]:
%%time

df_playlist = pd.read_csv('tracks_playlists.csv')

# Renombrar columnas para que coincidan con los nombres en BBDD
playlist_df = playlist_df.rename(columns = {
    'Canción ID': 'cancion_id',
    'Playlist ID': 'playlist_id'
})

# Eliminar entradas con valores nulos
playlist_df = playlist_df.dropna(subset = ['cancion_id', 'playlist_id'])

# Cantidad de filas a insertar
total_playlists = len(playlist_df)

# Insertar datos en BBDD
try:
    with engine.connect() as connection:
        
        # Definir la query para insertar usando `INSERT IGNORE` para evitar duplicados
        query = text("""INSERT IGNORE INTO playlist 
                        (cancion_id, playlist_id, updated)
                        VALUES 
                        (:cancion_id, :playlist_id, CURRENT_TIMESTAMP)""")
        
        # Insertar los datos de una sola vez
        connection.execute(query, playlist_df.to_dict(orient = 'records'))
        connection.commit()
        
        print(f"Datos cargados exitosamente en la base de datos. Total de playlists insertadas: {total_playlists}")
except Exception as e:
    print(f"Error al insertar los datos: {str(e)}")

Datos cargados exitosamente en la base de datos. Total de playlists insertadas: 87237
CPU times: total: 312 ms
Wall time: 6.62 s


In [None]:
### FIN ###