# üõú Set-up para la conexi√≥n entre mysql y python üõú

In [1]:
import json
import pandas as pd
import mysql.connector
from mysql.connector import errorcode

1. Nos conectamos a la base de datos (script de creaci√≥n en _schema_bbdd.sql_)

In [2]:
cnx = mysql.connector.connect(user='root', password='AlumnaAdalab',
host='127.0.0.1',
database='musicstream', 
auth_plugin ='mysql_native_password')

2. Creamos el cursor

In [3]:
mycursor = cnx.cursor()

# üèóÔ∏è A√±adiendo datos desde los ficheros .csv üèóÔ∏è

### A√±adimos los datos a la tabla zonas

In [4]:
query = "INSERT INTO regions(region_name) VALUES(%s)"
val = [[('mediterranean')], [('north')], [('centre')], [('east')]]
mycursor.executemany(query, val)
cnx.commit()

### A√±adimos los datos a la tabla pa√≠ses

1. Definimos los diccionarios con los paises para cada zona

In [5]:
paises_mediterraneos = {
    "ES": "Espa√±a",
    "FR": "Francia",
    "MC": "M√≥naco",
    "IT": "Italia",
    "SI": "Eslovenia",
    "HR": "Croacia",
    "BA": "Bosnia y Herzegovina",
    "ME": "Montenegro",
    "AL": "Albania",
    "GR": "Grecia",
    "MT": "Malta",
    "CY": "Chipre"}
paises_este_europa = {
    "BY": "Bielorrusia",
    "BG": "Bulgaria",
    "CZ": "Chequia",
    "SK": "Eslovaquia",
    "HU": "Hungr√≠a",
    "MD": "Moldavia",
    "PL": "Polonia",
    "RO": "Ruman√≠a",
    "UA": "Ucrania"}
paises_norte_europa = {
    "DK": "Dinamarca",
    "EE": "Estonia",
    "FI": "Finlandia",
    "IS": "Islandia",
    "IE": "Irlanda",
    "LT": "Lituania",
    "LV": "Letonia",
    "NO": "Noruega",
    "SE": "Suecia",
    "GB": "Reino Unido"}
paises_europa_central = {
    "AT": "Austria",
    "DE": "Alemania",
    "CH": "Suiza",
    "LI": "Liechtenstein",
    "BE": "B√©lgica",
    "LU": "Luxemburgo",
    "NL": "Pa√≠ses Bajos"}

2. Definimos la funci√≥n `a√±adir_pais`

In [8]:
def add_country(dictionary, region_id):
    ''' A√±ade datos a la tabla de paises.

        Args: 
            diccionario (dict): Un diccionario de los definidos para cada zona donde se recogen los pa√≠ses y sus c√≥digos.
            id_zona (int): N√∫mero asignado a cada zona de europa en la tabla zonas. 

    '''
    for id, country in dictionary.items():
        query = "INSERT INTO countries(country_id, country_name, region_id) VALUES(%s, %s, %s)"
        val = [(id, country, region_id)] 
        mycursor.executemany(query, val)
        cnx.commit()

Los id_zona quedan entonces como: 
- 1 mediterraneo
- 2 norte
- 3 centro 
- 4 este 

3. Llamamos a la funci√≥n en bucle para a√±adir los pa√≠ses de cada zona de una sola vez. 

In [9]:
# Definimos estas dos listas, que nos van a servir para poder llamar en bucle a la funci√≥n. Es MUY IMPORTANTE el orden, debe coincidir el nombre del diccionario con el id_zona asignado a cada zona.
lista_diccionarios = [paises_mediterraneos, paises_norte_europa, paises_europa_central, paises_este_europa]
lista_zonas = [i for i in range(1,5)]

In [10]:
for i in range(len(lista_diccionarios)):
    add_country(lista_diccionarios[i], lista_zonas[i])

### A√±adimos los datos a la tabla a√±os

In [12]:
query_a√±os = "INSERT INTO decades(year_range) VALUES(%s)"
val_a√±os = [[('2000-2004')], [('2005-2009')], [('2010-2014')], [('2015-2019')], [('2020-2024')]]
mycursor.executemany(query_a√±os, val_a√±os)
cnx.commit()

### A√±adimos los datos a la tabla artistas

1. Definimos la funci√≥n `convertir_csv`, que convierte cada uno de los csv que hemos creado en un DataFrame.

In [22]:
def convertir_csv(zona, a√±os):
    ''' Convierte el csv de cada zona y rango de a√±os en un DataFrame.
    
        Args:
            zona (str): Nombre de la zona.
            a√±os (str): Rango de a√±os en la forma a√±oinicio_a√±ofin. 
    '''
    df = pd.read_csv(f'csv_files/{zona}_{a√±os}.csv',index_col = 0)
    return df

2. Llamamos a la funci√≥n una vez por cada csv que debemos convertir.

In [23]:
# Definimos estas dos listas, que nos van a servir para poder llamar a la funci√≥n.
lista_nombre_zona = ["east", "centre", "mediterranean", "north"]
lista_a√±os = ["2000_2004", "2005_2009", "2010_2014", "2015_2019", "2020_2024"]

In [24]:
# Pa√≠ses del este
df_east_2000_2004 = convertir_csv(lista_nombre_zona[0], lista_a√±os[0])
df_east_2005_2009 = convertir_csv(lista_nombre_zona[0], lista_a√±os[1])
df_east_2010_2014 = convertir_csv(lista_nombre_zona[0], lista_a√±os[2])
df_east_2015_2019 = convertir_csv(lista_nombre_zona[0], lista_a√±os[3])
df_east_2020_2024 = convertir_csv(lista_nombre_zona[0], lista_a√±os[4])

In [25]:
# Pa√≠ses del centro
df_centre_2000_2004 = convertir_csv(lista_nombre_zona[1], lista_a√±os[0])
df_centre_2005_2009 = convertir_csv(lista_nombre_zona[1], lista_a√±os[1])
df_centre_2010_2014 = convertir_csv(lista_nombre_zona[1], lista_a√±os[2])
df_centre_2015_2019 = convertir_csv(lista_nombre_zona[1], lista_a√±os[3])
df_centre_2020_2024 = convertir_csv(lista_nombre_zona[1], lista_a√±os[4])

In [26]:
# Pa√≠ses mediterr√°neos
df_medit_2000_2004 = convertir_csv(lista_nombre_zona[2], lista_a√±os[0])
df_medit_2005_2009 = convertir_csv(lista_nombre_zona[2], lista_a√±os[1])
df_medit_2010_2014 = convertir_csv(lista_nombre_zona[2], lista_a√±os[2])
df_medit_2015_2019 = convertir_csv(lista_nombre_zona[2], lista_a√±os[3])
df_medit_2020_2024 = convertir_csv(lista_nombre_zona[2], lista_a√±os[4])

In [27]:
# Pa√≠ses del norte
df_north_2000_2004 = convertir_csv(lista_nombre_zona[3], lista_a√±os[0])
df_north_2005_2009 = convertir_csv(lista_nombre_zona[3], lista_a√±os[1])
df_north_2010_2014 = convertir_csv(lista_nombre_zona[3], lista_a√±os[2])
df_north_2015_2019 = convertir_csv(lista_nombre_zona[3], lista_a√±os[3])
df_north_2020_2024 = convertir_csv(lista_nombre_zona[3], lista_a√±os[4])

In [45]:
csv_df_list = [df_east_2000_2004, df_east_2005_2009, df_east_2010_2014, df_east_2015_2019, df_east_2020_2024, df_centre_2000_2004, df_centre_2005_2009, df_centre_2010_2014,
                df_centre_2015_2019, df_centre_2020_2024, df_medit_2000_2004, df_medit_2005_2009, df_medit_2010_2014, df_medit_2015_2019, df_medit_2020_2024,df_north_2000_2004,
                df_north_2005_2009, df_north_2010_2014, df_north_2015_2019, df_north_2020_2024]

In [44]:
df_list_in_order = []
for l in lista_df_csv:
    var = l.sort_values(['popularity'], axis=0, ascending=False, ignore_index=True)[0:50]
    df_list_in_order.append(var)

3. Creamos una lista de artistas vac√≠a y luego un DataFrame con todos los artistas por zona.

In [31]:
artistas = []
df_mediterranean = pd.concat(
    [df_medit_2000_2004['artista'], df_medit_2005_2009['artista'], df_medit_2010_2014['artista'], df_medit_2015_2019['artista'], df_medit_2020_2024['artista']],
    axis=1,
    keys=["00-04", "05-09", "10-14", "15-19", "20-24"])
df_east = pd.concat(
    [df_east_2000_2004['artista'], df_east_2005_2009['artista'], df_east_2010_2014['artista'], df_east_2015_2019['artista'], df_east_2020_2024['artista']],
    axis=1,
    keys=["00-04", "05-09", "10-14", "15-19", "20-24"])
df_centre = pd.concat(
    [df_centre_2000_2004['artista'], df_centre_2005_2009['artista'], df_centre_2010_2014['artista'], df_centre_2015_2019['artista'], df_centre_2020_2024['artista']],
    axis=1,
    keys=["00-04", "05-09", "10-14", "15-19", "20-24"])
df_north = pd.concat(
    [df_north_2000_2004['artista'], df_north_2005_2009['artista'], df_north_2010_2014['artista'], df_north_2015_2019['artista'], df_north_2020_2024['artista']],
    axis=1,
    keys=["00-04", "05-09", "10-14", "15-19", "20-24"])

In [32]:
# Esta lista es para poder meter los datos de los df en bucle.
lista_df = [df_mediterranean, df_east, df_centre, df_north]

4. Con el siguiente bucle, convertimos cada artista en una lista y lo a√±adimos a la lista artistas.

In [None]:
for df in lista_df:
    for i in df.itertuples(name=None, index=False):
        for n in range(4):
            if ([i[n]]) not in artistas:
                artistas.append(i[n]) #avoiding repetitions

In [39]:
len(artistas)

981

5. Ejecutamos la inserci√≥n 

In [40]:
artists_query = "INSERT INTO artists(artist_name) VALUES(%s)"
for artist in artistas:
    try:
     mycursor.execute(artists_query, artist)
     cnx.commit()
    except:
      continue
cnx.close()

### A√±adimos los datos a la tabla canciones 

Recordemos los decade_id para cada conjunto de 5 a√±os: 
- 1 = 2000-2004
- 2 = 2005-2009
- 3 = 2010-2014
- 4 = 2015-2019
- 5 = 2020-2024

Volvemos a abrir la conexi√≥n y a definir el cursor

In [41]:
cnx = mysql.connector.connect(user='root', password='AlumnaAdalab', host='127.0.0.1',
                                    database='musicstream', 
                                    auth_plugin ='mysql_native_password')
mycursor = cnx.cursor()

Hay algunos datos que son `NaN`, y MySQL no los reconoce, por lo que hay que convertirlos a None. 

Para ello, creamos la funci√≥n `eliminar_nan`

In [43]:
def remove_nan (df):
    df_clean = df.replace({float('NaN'): None})
    return df_clean

Limpiamos los df y lo metemos en la lista `lista_df_limpios` 

In [46]:
df_clean_list = []

for data in df_list_in_order:
    df_clean = remove_nan(data)
    df_clean_list.append(df_clean)
    

Definimos una funci√≥n para insertar las canciones

In [49]:
def insert_songs (df):
    querys_list = []
    for i in range(len(df)):
        tupla_insercion = (str(df['nombre'][i]), str(df['genero'][i]), int(df['popularity'][i]))
        querys_list.append(tupla_insercion)
    return querys_list

Creamos la lista de tuplas para insertar, descartando aquellas canciones que coinciden en todos los campos.

In [51]:
tuples_list = []

for df in df_clean_list:    
    tuples = insert_songs(df)
    for t in tuples:
        if t not in tuples_list:
            tuples_list.append(t)   
    

Definimos la query canciones:

In [58]:
query_songs = "INSERT INTO songs(song_title, genre, popularity) VALUES(%s, %s, %s)"

In [59]:
mycursor.executemany(query_songs, tuples_list)
cnx.commit()

In [60]:
cnx.close()

### A√±adimos los datos a las tablas intermedias 

Primero, pais en cancion:

In [64]:
contador = 0
country_song_queries = []
for t in tuples_list:
    contador += 1
    for df in df_clean_list:
        for i in range(len(df)):
            if df['nombre'][i] in t:
                song_country_tuple = (df['pais'][i], contador)
                country_song_queries.append(song_country_tuple)
                

In [62]:
country_in_song_query = "INSERT INTO country_in_song(country_id, song_id) VALUES(%s, %s)"

In [83]:
cnx = mysql.connector.connect(user='root', password='AlumnaAdalab', host='127.0.0.1',
                                    database='musicstream', 
                                    auth_plugin ='mysql_native_password')
mycursor = cnx.cursor()

In [68]:
for q in country_song_queries:
    try:
        mycursor.execute(country_in_song_query, q)
        cnx.commit()
    except:
        print(f"La entrada {q} est√° repetida")
        

La entrada ('BY', 55) est√° repetida
La entrada ('BY', 55) est√° repetida
La entrada ('RO', 55) est√° repetida
La entrada ('BY', 58) est√° repetida
La entrada ('BY', 58) est√° repetida
La entrada ('RO', 58) est√° repetida


In [148]:
cnx.close()

Ahora, lo mismo con artista en cancion:

In [86]:
song_artist_query = []

for t in tuples_list:
    # Ajusta seg√∫n tu estructura real:
    song_title = t[0]
    artist_name = t[1]
    
    q_id_artist = "SELECT artist_id FROM artists WHERE artist_name = %s;"
    q_id_song = "SELECT song_id FROM songs WHERE song_title = %s;"
    
    # Buscar artista
    mycursor.execute(q_id_artist, (artist_name,))
    artist_result = mycursor.fetchone()
    mycursor.fetchall()  # limpiar resultados previos

    # Buscar canci√≥n
    mycursor.execute(q_id_song, (song_title,))
    song_result = mycursor.fetchone()
    mycursor.fetchall()

    if artist_result and song_result:
        artist_id = artist_result[0]
        song_id = song_result[0]
        song_artist_query.append((artist_id, song_id))
    else:
        print(f"‚ö†Ô∏è No match found for: {song_title} - {artist_name}")

# Insertar relaciones v√°lidas
if song_artist_query:
    insert_query = "INSERT INTO artist_in_song (artist_id, song_id) VALUES (%s, %s)"
    mycursor.executemany(insert_query, song_artist_query)
    cnx.commit()
    print(f"‚úÖ Inserted {len(song_artist_query)} artist-song relations successfully.")
else:
    print("‚ùå No valid artist-song pairs found.")


‚ö†Ô∏è No match found for: Yellow - rock
‚ö†Ô∏è No match found for: Numb - rock
‚ö†Ô∏è No match found for: Without Me - rap
‚ö†Ô∏è No match found for: Mr. Brightside - rock
‚ö†Ô∏è No match found for: In the End - rock
‚ö†Ô∏è No match found for: The Real Slim Shady - rap
‚ö†Ô∏è No match found for: Mockingbird - rap
‚ö†Ô∏è No match found for: Unwritten - pop
‚ö†Ô∏è No match found for: Headlock - electronic
‚ö†Ô∏è No match found for: Feel Good Inc. - alternative
‚ö†Ô∏è No match found for: Breakin' Dishes - rnb
‚ö†Ô∏è No match found for: 505 - indie rock
‚ö†Ô∏è No match found for: Flashing Lights - None
‚ö†Ô∏è No match found for: Hips Don't Lie (feat. Wyclef Jean) - None
‚ö†Ô∏è No match found for: Promiscuous - None
‚ö†Ô∏è No match found for: I Wanna Be Yours - indie rock
‚ö†Ô∏è No match found for: Sweater Weather - indie
‚ö†Ô∏è No match found for: Locked out of Heaven - pop
‚ö†Ô∏è No match found for: No. 1 Party Anthem - indie rock
‚ö†Ô∏è No match found for: A Sky Full of Stars - pop
‚ö†Ô

In [87]:
song_artist_query

[(20, 4), (20, 12), (109, 16), (20, 60)]

In [88]:
info_artists = f"SELECT artist_id FROM artists WHERE artist_name = '{df_clean_list[0]['artista'][0]}';"

In [89]:
info_songs = f"SELECT artist_id  FROM artists WHERE song_title = '{df_clean_list[0]['nombre'][0]}' AND id_lustro;"

Por √∫ltimo ,metemos lustro en cancion, es decir, relacionamos "decade_of_song" con "songs"