# 🛜 Set-up para la conexión entre mysql y python 🛜

In [1]:
import json
import pandas as pd
import mysql.connector
from mysql.connector import errorcode

1. Nos conectamos a la base de datos (script de creación en _schema_bbdd.sql_)

In [2]:
cnx = mysql.connector.connect(user='root', password='AlumnaAdalab',
host='127.0.0.1',
database='musicstream', 
auth_plugin ='mysql_native_password')

2. Creamos el cursor

In [3]:
mycursor = cnx.cursor()

# 🏗️ Añadiendo datos desde los ficheros .csv 🏗️

### Añadimos los datos a la tabla zonas

In [4]:
query = "INSERT INTO zonas(nombre_zona) VALUES(%s)"
val = [[('mediterraneo')], [('norte')], [('centro')], [('este')]]
mycursor.executemany(query, val)
cnx.commit()

### Añadimos los datos a la tabla países

1. Definimos los diccionarios con los paises para cada zona

In [5]:
paises_mediterraneos = {
    "ES": "España",
    "FR": "Francia",
    "MC": "Mónaco",
    "IT": "Italia",
    "SI": "Eslovenia",
    "HR": "Croacia",
    "BA": "Bosnia y Herzegovina",
    "ME": "Montenegro",
    "AL": "Albania",
    "GR": "Grecia",
    "MT": "Malta",
    "CY": "Chipre"}
paises_este_europa = {
    "BY": "Bielorrusia",
    "BG": "Bulgaria",
    "CZ": "Chequia",
    "SK": "Eslovaquia",
    "HU": "Hungría",
    "MD": "Moldavia",
    "PL": "Polonia",
    "RO": "Rumanía",
    "UA": "Ucrania"}
paises_norte_europa = {
    "DK": "Dinamarca",
    "EE": "Estonia",
    "FI": "Finlandia",
    "IS": "Islandia",
    "IE": "Irlanda",
    "LT": "Lituania",
    "LV": "Letonia",
    "NO": "Noruega",
    "SE": "Suecia",
    "GB": "Reino Unido"}
paises_europa_central = {
    "AT": "Austria",
    "DE": "Alemania",
    "CH": "Suiza",
    "LI": "Liechtenstein",
    "BE": "Bélgica",
    "LU": "Luxemburgo",
    "NL": "Países Bajos"}

2. Definimos la función `añadir_pais`

In [6]:
def añadir_pais(diccionario, id_zona):
    ''' Añade datos a la tabla de paises.

        Args: 
            diccionario (dict): Un diccionario de los definidos para cada zona donde se recogen los países y sus códigos.
            id_zona (int): Número asignado a cada zona de europa en la tabla zonas. 

    '''
    for id, pais in diccionario.items():
        query = "INSERT INTO paises(id_pais, nombre_pais, id_zona) VALUES(%s, %s, %s)"
        val = [(id, pais, id_zona)] 
        mycursor.executemany(query, val)
        cnx.commit()

Los id_zona quedan entonces como: 
- 1 mediterraneo
- 2 norte
- 3 centro 
- 4 este 

3. Llamamos a la función en bucle para añadir los países de cada zona de una sola vez. 

In [7]:
# Definimos estas dos listas, que nos van a servir para poder llamar en bucle a la función. Es MUY IMPORTANTE el orden, debe coincidir el nombre del diccionario con el id_zona asignado a cada zona.
lista_diccionarios = [paises_mediterraneos, paises_norte_europa, paises_europa_central, paises_este_europa]
lista_zonas = [i for i in range(1,5)]

In [8]:
for i in range(len(lista_diccionarios)):
    añadir_pais(lista_diccionarios[i], lista_zonas[i])

### Añadimos los datos a la tabla años

In [9]:
query_años = "INSERT INTO años(rango_años) VALUES(%s)"
val_años = [[('2000-2004')], [('2005-2009')], [('2010-2014')], [('2015-2019')], [('2020-2024')]]
mycursor.executemany(query_años, val_años)
cnx.commit()

### Añadimos los datos a la tabla artistas

1. Definimos la función `convertir_csv`, que convierte cada uno de los csv que hemos creado en un DataFrame.

In [10]:
def convertir_csv(zona, años):
    ''' Convierte el csv de cada zona y rango de años en un DataFrame.
    
        Args:
            zona (str): Nombre de la zona.
            años (str): Rango de años en la forma 0000_0000. 
        Returns: 
            El DataFrame creado.
    '''
    df = pd.read_csv(f'archivos_csv/paises_{zona}_{años}.csv',index_col = 0)
    return df

2. Llamamos a la función una vez por cada csv que debemos convertir.

In [11]:
# Definimos estas dos listas, que nos van a servir para poder llamar a la función.
lista_nombre_zona = ["este_europa", "europa_central", "mediterraneos", "norte_europa"]
lista_años = ["2000_2004", "2005_2009", "2010_2014", "2015_2019", "2020_2024"]

In [12]:
# Países del este
df_este_2000_2004 = convertir_csv(lista_nombre_zona[0], lista_años[0])
df_este_2005_2009 = convertir_csv(lista_nombre_zona[0], lista_años[1])
df_este_2010_2014 = convertir_csv(lista_nombre_zona[0], lista_años[2])
df_este_2015_2019 = convertir_csv(lista_nombre_zona[0], lista_años[3])
df_este_2020_2024 = convertir_csv(lista_nombre_zona[0], lista_años[4])

In [13]:
# Países del centro
df_centro_2000_2004 = convertir_csv(lista_nombre_zona[1], lista_años[0])
df_centro_2005_2009 = convertir_csv(lista_nombre_zona[1], lista_años[1])
df_centro_2010_2014 = convertir_csv(lista_nombre_zona[1], lista_años[2])
df_centro_2015_2019 = convertir_csv(lista_nombre_zona[1], lista_años[3])
df_centro_2020_2024 = convertir_csv(lista_nombre_zona[1], lista_años[4])

In [14]:
# Países mediterráneos
df_medit_2000_2004 = convertir_csv(lista_nombre_zona[2], lista_años[0])
df_medit_2005_2009 = convertir_csv(lista_nombre_zona[2], lista_años[1])
df_medit_2010_2014 = convertir_csv(lista_nombre_zona[2], lista_años[2])
df_medit_2015_2019 = convertir_csv(lista_nombre_zona[2], lista_años[3])
df_medit_2020_2024 = convertir_csv(lista_nombre_zona[2], lista_años[4])

In [15]:
# Países del norte
df_norte_2000_2004 = convertir_csv(lista_nombre_zona[3], lista_años[0])
df_norte_2005_2009 = convertir_csv(lista_nombre_zona[3], lista_años[1])
df_norte_2010_2014 = convertir_csv(lista_nombre_zona[3], lista_años[2])
df_norte_2015_2019 = convertir_csv(lista_nombre_zona[3], lista_años[3])
df_norte_2020_2024 = convertir_csv(lista_nombre_zona[3], lista_años[4])

In [16]:
lista_df_csv = [df_este_2000_2004, df_este_2005_2009, df_este_2010_2014, df_este_2015_2019, df_este_2020_2024, df_centro_2000_2004, df_centro_2005_2009, df_centro_2010_2014,
                df_centro_2015_2019, df_centro_2020_2024, df_medit_2000_2004, df_medit_2005_2009, df_medit_2010_2014, df_medit_2015_2019, df_medit_2020_2024,df_norte_2000_2004,
                df_norte_2005_2009, df_norte_2010_2014, df_norte_2015_2019, df_norte_2020_2024]

Ordenamos los valores de DataFrame por orden decrediente de popularidad de las canciones, y filtramos para quedarnos solamente con las 50 primeras.

In [17]:
lista_df_ordenados = []
for l in lista_df_csv:
    var = l.sort_values(['popularity'], axis=0, ascending=False, ignore_index=True)[0:50]
    lista_df_ordenados.append(var)

3. Con el siguiente bucle, convertimos cada artista en una lista y lo añadimos a la lista artistas.

In [18]:
lista_artistas = []
for df in lista_df_ordenados:
    for i in range(len(df)):
        lista_artistas.append(df['artista'][i])
artistas = set(lista_artistas) # Así evitamos que haya artistas duplicados.

4. Ejecutamos la inserción 

In [19]:
query_artistas = "INSERT INTO artistas(nombre_artista) VALUES(%s)"

for artista in artistas:
    artista = [artista]
    try:
     mycursor.execute(query_artistas, artista)
     cnx.commit()
    except:
      print("MEC")
      continue
cnx.close()

### Añadimos los datos a la tabla canciones 

Recordemos los id_lustro para cada conjunto de 5 años: 
- 1 = 2000-2004
- 2 = 2005-2009
- 3 = 2010-2014
- 4 = 2015-2019
- 5 = 2020-2024

Volvemos a abrir la conexión y a definir el cursor

In [20]:
cnx = mysql.connector.connect(user='root', password='AlumnaAdalab', host='127.0.0.1',
                                    database='musicstream', 
                                    auth_plugin ='mysql_native_password')
mycursor = cnx.cursor()

Hay algunos datos que son `NaN`, y MySQL no los reconoce, por lo que hay que convertirlos a None. 

Para ello, creamos la función `eliminar_nan`

In [21]:
def eliminar_nan (df):
    ''' Sustituye los valores NaN por None
    
        Args: 
            DataFrame a convertir
        Returns:
            DataFrame limpio.'''
            
    df_limpio = df.replace({float('NaN'): None})
    return df_limpio

Limpiamos los df y los metemos en la lista `lista_df_limpios` 

In [22]:
lista_df_limpios = []

for data in lista_df_ordenados:
    df_limpio = eliminar_nan(data)
    lista_df_limpios.append(df_limpio)
    

Definimos una función para insertar las canciones

In [23]:
def insertar_canciones (df):
    ''' Crea las queries necesarias para insertar las canciones. 
    
        Args:
            DataFrame limpio.
        Returns:
            Una lista de tuplas con las quieries'''
            
    lista_querys = []
    for i in range(len(df)):
        tupla_insercion = (str(df['nombre'][i]), str(df['genero'][i]), int(df['popularity'][i]))
        lista_querys.append(tupla_insercion)
    return lista_querys

Creamos la lista de tuplas para insertar, descartando aquellas canciones que coinciden en todos los campos.

In [24]:
lista_de_tuplas = []

for df in lista_df_limpios:    
    tuplas = insertar_canciones(df)
    for t in tuplas:
        if t not in lista_de_tuplas:
            lista_de_tuplas.append(t)   
    

Definimos la query canciones:

In [25]:
query_canciones = "INSERT INTO canciones(cancion, genero, popularidad) VALUES(%s, %s, %s)"

In [26]:
mycursor.executemany(query_canciones, lista_de_tuplas)
cnx.commit()

In [27]:
cnx.close()

### Añadimos los datos a las tablas intermedias 

Primero, pais en cancion:

In [28]:
contador = 0
queries_pais_cancion = []
for t in lista_de_tuplas:
    contador += 1
    for df in lista_df_limpios:
        for i in range(len(df)):
            if df['nombre'][i] in t:
                tupla_pais_cancion = (df['pais'][i], contador)
                queries_pais_cancion.append(tupla_pais_cancion)
                

In [29]:
query_pais_en_cancion = "INSERT INTO pais_en_cancion(id_pais, id_cancion) VALUES(%s, %s)"

In [30]:
cnx = mysql.connector.connect(user='root', password='AlumnaAdalab', host='127.0.0.1',
                                    database='musicstream', 
                                    auth_plugin ='mysql_native_password')
mycursor = cnx.cursor()

In [31]:
for q in queries_pais_cancion:
    try:
        mycursor.execute(query_pais_en_cancion, q)
        cnx.commit()
    except:
        print(f"La entrada {q} está repetida")
        

La entrada ('RO', 54) está repetida
La entrada ('BY', 54) está repetida
La entrada ('RO', 54) está repetida
La entrada ('RO', 57) está repetida
La entrada ('BY', 57) está repetida
La entrada ('RO', 57) está repetida


In [32]:
cnx.close()

Ahora, lo mismo con artista en cancion:

In [None]:
queries_artista_cancion = []
for t in lista_de_tuplas:
    for df in lista_df_limpios:
        for i in range(len(df)):
            if df['nombre'][i] in t:
                q_id_artista = f"SELECT id_artista FROM artistas WHERE nombre_artista = '{df['artista'][i]}';"
                q_id_cancion = f"SELECT id_cancion FROM canciones WHERE cancion = '{df['nombre'][i]}';"
                
                mycursor.execute(q_id_artista)
                id_artista = mycursor.fetchone()[0]
                mycursor.execute(q_id_cancion)
                id_cancion = mycursor.fetchone()[0]
                query = (id_artista, id_cancion)
                queries_artista_cancion.append(query)
                

In [142]:
queries_artista_cancion

[(20, 1)]

Por último ,metemos lustro en cancion: