In [1]:
%%time

# Herramientas.
import pandas as pd
import sqlalchemy # Para ver la versión
from sqlalchemy import create_engine

# Versiones
print(f'pandas: {pd.__version__}')
print(f'sqlalchemy: {sqlalchemy.__version__}')
print('')

pandas: 2.2.2
sqlalchemy: 2.0.25

CPU times: total: 1.31 s
Wall time: 1.75 s


### Configuración, conexión y acceso a la BBDD.

In [2]:
%%time

# Configuración de conexión
user = 'root'
password = 'Jp261191.'
database = 'Proyecto_Spotify'
host = "localhost"
port = 3306

# Crear la conexión
engine = create_engine(f'mysql+pymysql://{user}:{password}@localhost/{database}')

# Abrir la conección
connection = engine.connect()

CPU times: total: 141 ms
Wall time: 138 ms


### DF Original

In [3]:
%%time

# Cargar DF.
df = pd.read_csv('playlist_info_con_audio_features.csv')

CPU times: total: 46.9 ms
Wall time: 83.3 ms


In [4]:
df

Unnamed: 0,Nombre,Artistas,Duración (segundos),Popularidad,Explícito,Fecha de Lanzamiento,Danceability,Energy,Valence,Tempo,Acousticness,Instrumentalness,Speechiness
0,DEGENERE 👑 (feat. benny blanco),"Myke Towers, benny blanco",130.88,71,True,2024-10-17,0.744,0.709,0.712,194.055,0.0501,0.0,0.284
1,Q U E V A S H A C E R H O Y ?,"Omar Courtz, De La Rose",224.022,89,True,2024-09-20,0.56,0.681,0.388,155.079,0.103,0.0,0.244
2,Si Antes Te Hubiera Conocido,KAROL G,195.824,94,False,2024-06-21,0.924,0.668,0.787,128.027,0.446,0.000594,0.0469
3,IA,Clarent,171.428,70,True,2024-10-17,0.706,0.631,0.289,111.93,0.656,0.0,0.0366
4,Duro De Verdad pt.2,"Los Sufridos, Bad Gyal",204.303,77,False,2024-09-12,0.74,0.738,0.908,158.026,0.0756,0.0015,0.0495
5,Luna llena,Beny Jr,169.846,77,False,2024-02-15,0.674,0.603,0.741,62.344,0.621,2.2e-05,0.248
6,TAMBIÉN,Myke Towers,139.546,79,True,2024-08-22,0.629,0.643,0.928,119.944,0.291,0.0,0.205
7,Soltera,Shakira,214.642,86,False,2024-09-25,0.841,0.752,0.67,100.076,0.167,0.00046,0.105
8,UWAIE,Kapo,172.427,88,False,2024-08-15,0.705,0.783,0.454,103.001,0.138,0.0,0.0403
9,PELIGROSA,FloyyMenor,134.93,84,True,2024-08-09,0.763,0.519,0.804,100.025,0.22,6e-06,0.0636


### Carga en tabla 'Artistas'

In [5]:
%%time

# Elimina duplicados para generar el ID de los artista
artistas_df = df[['Artistas']].drop_duplicates().rename(columns = {'Artistas': 'nombre'})

# Carga artistas en la tabla 'artistas'
artistas_df.to_sql('artistas', con = engine, if_exists = 'append', index = False)

CPU times: total: 0 ns
Wall time: 33 ms


46

In [6]:
artistas_df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 46 entries, 0 to 49
Data columns (total 1 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   nombre  46 non-null     object
dtypes: object(1)
memory usage: 736.0+ bytes


### Carga en tabla 'Canciones'

In [7]:
%%time

# Obtener los ID de los artistas.
with engine.connect() as connection:
    artistas_db_df = pd.read_sql('SELECT * FROM artistas', connection)

# Fusionar DF para obtener el 'artista_id' correspondiente.
df_merged = df.merge(artistas_db_df, left_on = 'Artistas', right_on = 'nombre', how = 'left')

# Eliminar 'nombre' de estar duplicado.
if 'nombre' in df_merged.columns:
    df_merged = df_merged.drop(columns=['nombre'])

# Renombrar las columnas para que coincidan con la tabla 'canciones'
df_merged = df_merged.rename(columns = {
    'Nombre': 'nombre',
    'Duración (segundos)': 'duracion_segundos',
    'Popularidad': 'popularidad',
    'Explícito': 'explicito',
    'Fecha de Lanzamiento': 'fecha_lanzamiento',
    'Danceability': 'danceability',
    'Energy': 'energy',
    'Valence': 'valence',
    'Tempo': 'tempo',
    'Acousticness': 'acousticness',
    'Instrumentalness': 'instrumentalness',
    'Speechiness': 'speechiness'
})

# Convertir 'artista_id' a int64 si no hay valores nulos
if df_merged['artista_id'].notnull().all():
    df_merged['artista_id'] = df_merged['artista_id'].astype(int)
else:
    print("Existen valores nulos en 'artista_id'. No se puede convertir.")

# Agregar columna 'nombre' al DataFrame antes de la inserción
df_merged['nombre'] = df_merged['nombre'].fillna('Desconocido') 

# Verificar las columnas finales en df_merged
print('Columnas en df_merged:', df_merged.columns)
print('')
print(' ----- ----- Soy un separador ----- ----- ')
print('')

# Verificar que las columnas a insertar esten presentes
columnas_a_insertar = ['artista_id', 'duracion_segundos', 'popularidad', 'explicito', 
                        'fecha_lanzamiento', 'danceability', 'energy', 'valence', 
                        'tempo', 'acousticness', 'instrumentalness', 'speechiness', 'nombre']

# Imprimir columnas faltantes
faltan_columnas = [col for col in columnas_a_insertar if col not in df_merged.columns]
if faltan_columnas:
    print(f'Las siguientes columnas no están en df_merged: {faltan_columnas}')
else:
    # Insertar datos solo si todas las columnas están presentes
    df_merged[columnas_a_insertar].to_sql('canciones', con = engine, if_exists = 'append', index = False)
    print('Datos cargados exitosamente en la base de datos.')

Columnas en df_merged: Index(['nombre', 'Artistas', 'duracion_segundos', 'popularidad', 'explicito',
       'fecha_lanzamiento', 'danceability', 'energy', 'valence', 'tempo',
       'acousticness', 'instrumentalness', 'speechiness', 'artista_id'],
      dtype='object')

 ----- ----- Soy un separador ----- ----- 

Datos cargados exitosamente en la base de datos.
CPU times: total: 46.9 ms
Wall time: 74.6 ms


In [8]:
### FIN ###