# 🛜 Set-up para la conexión entre mysql y python 🛜

In [2]:
import json
import pandas as pd
import mysql.connector
from mysql.connector import errorcode

1. Nos conectamos a la base de datos (script de creación en _schema_bbdd.sql_)

In [3]:
cnx = mysql.connector.connect(user='root', password='AlumnaAdalab',
host='127.0.0.1',
database='musicstream', 
auth_plugin ='mysql_native_password')

2. Creamos el cursor

In [4]:
mycursor = cnx.cursor()

# 🏗️ Añadiendo datos desde los ficheros .csv 🏗️

### Añadimos los datos a la tabla zonas

In [123]:
query = "INSERT INTO zonas(nombre_zona) VALUES(%s)"
val = [[('mediterraneo')], [('norte')], [('centro')], [('este')]]
mycursor.executemany(query, val)
cnx.commit()

### Añadimos los datos a la tabla países

1. Definimos los diccionarios con los paises para cada zona

In [5]:
paises_mediterraneos = {
    "ES": "España",
    "FR": "Francia",
    "MC": "Mónaco",
    "IT": "Italia",
    "SI": "Eslovenia",
    "HR": "Croacia",
    "BA": "Bosnia y Herzegovina",
    "ME": "Montenegro",
    "AL": "Albania",
    "GR": "Grecia",
    "MT": "Malta",
    "CY": "Chipre"}
paises_este_europa = {
    "BY": "Bielorrusia",
    "BG": "Bulgaria",
    "CZ": "Chequia",
    "SK": "Eslovaquia",
    "HU": "Hungría",
    "MD": "Moldavia",
    "PL": "Polonia",
    "RO": "Rumanía",
    "UA": "Ucrania"}
paises_norte_europa = {
    "DK": "Dinamarca",
    "EE": "Estonia",
    "FI": "Finlandia",
    "IS": "Islandia",
    "IE": "Irlanda",
    "LT": "Lituania",
    "LV": "Letonia",
    "NO": "Noruega",
    "SE": "Suecia",
    "GB": "Reino Unido"}
paises_europa_central = {
    "AT": "Austria",
    "DE": "Alemania",
    "CH": "Suiza",
    "LI": "Liechtenstein",
    "BE": "Bélgica",
    "LU": "Luxemburgo",
    "NL": "Países Bajos"}

2. Definimos la función `añadir_pais`

In [125]:
def añadir_pais(diccionario, id_zona):
    ''' Añade datos a la tabla de paises.

        Args: 
            diccionario (dict): Un diccionario de los definidos para cada zona donde se recogen los países y sus códigos.
            id_zona (int): Número asignado a cada zona de europa en la tabla zonas. 

    '''
    for id, pais in diccionario.items():
        query = "INSERT INTO paises(id_pais, nombre_pais, id_zona) VALUES(%s, %s, %s)"
        val = [(id, pais, id_zona)] 
        mycursor.executemany(query, val)
        cnx.commit()

Los id_zona quedan entonces como: 
- 1 mediterraneo
- 2 norte
- 3 centro 
- 4 este 

3. Llamamos a la función en bucle para añadir los países de cada zona de una sola vez. 

In [6]:
# Definimos estas dos listas, que nos van a servir para poder llamar en bucle a la función. Es MUY IMPORTANTE el orden, debe coincidir el nombre del diccionario con el id_zona asignado a cada zona.
lista_diccionarios = [paises_mediterraneos, paises_norte_europa, paises_europa_central, paises_este_europa]
lista_zonas = [i for i in range(1,5)]

In [127]:
for i in range(len(lista_diccionarios)):
    añadir_pais(lista_diccionarios[i], lista_zonas[i])

### Añadimos los datos a la tabla años

In [128]:
query_años = "INSERT INTO años(rango_años) VALUES(%s)"
val_años = [[('2000-2004')], [('2005-2009')], [('2010-2014')], [('2015-2019')], [('2020-2024')]]
mycursor.executemany(query_años, val_años)
cnx.commit()

### Añadimos los datos a la tabla artistas

1. Definimos la función `convertir_csv`, que convierte cada uno de los csv que hemos creado en un DataFrame.

In [9]:
def convertir_csv(zona, años):
    ''' Convierte el csv de cada zona y rango de años en un DataFrame.
    
        Args:
            zona (str): Nombre de la zona.
            años (str): Rango de años en la forma añoinicio_añofin. 
    '''
    df = pd.read_csv(f'archivos_csv/paises_{zona}_{años}.csv',index_col = 0)
    return df

2. Llamamos a la función una vez por cada csv que debemos convertir.

In [7]:
# Definimos estas dos listas, que nos van a servir para poder llamar a la función.
lista_nombre_zona = ["este_europa", "europa_central", "mediterraneos", "norte_europa"]
lista_años = ["2000_2004", "2005_2009", "2010_2014", "2015_2019", "2020_2024"]

In [10]:
# Países del este
df_este_2000_2004 = convertir_csv(lista_nombre_zona[0], lista_años[0])
df_este_2005_2009 = convertir_csv(lista_nombre_zona[0], lista_años[1])
df_este_2010_2014 = convertir_csv(lista_nombre_zona[0], lista_años[2])
df_este_2015_2019 = convertir_csv(lista_nombre_zona[0], lista_años[3])
df_este_2020_2024 = convertir_csv(lista_nombre_zona[0], lista_años[4])

In [11]:
# Países del centro
df_centro_2000_2004 = convertir_csv(lista_nombre_zona[1], lista_años[0])
df_centro_2005_2009 = convertir_csv(lista_nombre_zona[1], lista_años[1])
df_centro_2010_2014 = convertir_csv(lista_nombre_zona[1], lista_años[2])
df_centro_2015_2019 = convertir_csv(lista_nombre_zona[1], lista_años[3])
df_centro_2020_2024 = convertir_csv(lista_nombre_zona[1], lista_años[4])

In [13]:
# Países mediterráneos
df_medit_2000_2004 = convertir_csv(lista_nombre_zona[2], lista_años[0])
df_medit_2005_2009 = convertir_csv(lista_nombre_zona[2], lista_años[1])
df_medit_2010_2014 = convertir_csv(lista_nombre_zona[2], lista_años[2])
df_medit_2015_2019 = convertir_csv(lista_nombre_zona[2], lista_años[3])
df_medit_2020_2024 = convertir_csv(lista_nombre_zona[2], lista_años[4])

In [14]:
# Países del norte
df_norte_2000_2004 = convertir_csv(lista_nombre_zona[3], lista_años[0])
df_norte_2005_2009 = convertir_csv(lista_nombre_zona[3], lista_años[1])
df_norte_2010_2014 = convertir_csv(lista_nombre_zona[3], lista_años[2])
df_norte_2015_2019 = convertir_csv(lista_nombre_zona[3], lista_años[3])
df_norte_2020_2024 = convertir_csv(lista_nombre_zona[3], lista_años[4])

In [15]:
lista_df_csv = [df_este_2000_2004, df_este_2005_2009, df_este_2010_2014, df_este_2015_2019, df_este_2020_2024, df_centro_2000_2004, df_centro_2005_2009, df_centro_2010_2014,
                df_centro_2015_2019, df_centro_2020_2024, df_medit_2000_2004, df_medit_2005_2009, df_medit_2010_2014, df_medit_2015_2019, df_medit_2020_2024,df_norte_2000_2004,
                df_norte_2005_2009, df_norte_2010_2014, df_norte_2015_2019, df_norte_2020_2024]

In [16]:
lista_def = []
for l in lista_df_csv:
    var = l.sort_values(['popularity', 'pais'], axis=0, ascending=[False, True])[0:50]
    lista_def.append(var)



3. Creamos una lista de artistas vacía y luego un DataFrame con todos los artistas por zona.

In [17]:
artistas = []
df_mediterraneo = pd.concat(
    [df_medit_2000_2004['artista'], df_medit_2005_2009['artista'], df_medit_2010_2014['artista'], df_medit_2015_2019['artista'], df_medit_2020_2024['artista']],
    axis=1,
    keys=["00-04", "05-09", "10-14", "15-19", "20-24"])
df_este = pd.concat(
    [df_este_2000_2004['artista'], df_este_2005_2009['artista'], df_este_2010_2014['artista'], df_este_2015_2019['artista'], df_este_2020_2024['artista']],
    axis=1,
    keys=["00-04", "05-09", "10-14", "15-19", "20-24"])
df_centro = pd.concat(
    [df_centro_2000_2004['artista'], df_centro_2005_2009['artista'], df_centro_2010_2014['artista'], df_centro_2015_2019['artista'], df_centro_2020_2024['artista']],
    axis=1,
    keys=["00-04", "05-09", "10-14", "15-19", "20-24"])
df_norte = pd.concat(
    [df_norte_2000_2004['artista'], df_norte_2005_2009['artista'], df_norte_2010_2014['artista'], df_norte_2015_2019['artista'], df_norte_2020_2024['artista']],
    axis=1,
    keys=["00-04", "05-09", "10-14", "15-19", "20-24"])

In [18]:
# Esta lista es para poder meter los datos de los df en bucle.
lista_df = [df_mediterraneo, df_este, df_centro, df_norte]

4. Con el siguiente bucle, convertimos cada artista en una lista y lo añadimos a la lista artistas.

In [19]:
for df in lista_df:
    for i in df.itertuples(name=None, index=False):
        for n in range(4):
            if ([i[n]]) not in artistas:
                artistas.append(([i[n]]))
    

In [56]:
len(artistas)

981

5. Ejecutamos la inserción 

In [140]:
query_artistas = "INSERT INTO artistas(nombre_artista) VALUES(%s)"
for artista in artistas:
    try:
     mycursor.execute(query_artistas, artista)
     cnx.commit()
    except:
      continue
cnx.close()

### Añadimos los datos a la tabla canciones 

Recordemos los id_lustro para cada conjunto de 5 años: 
- 1 = 2000-2004
- 2 = 2005-2009
- 3 = 2010-2014
- 4 = 2015-2019
- 5 = 2020-2024

In [1]:
cnx = mysql.connector.connect(user='root', password='AlumnaAdalab', host='127.0.0.1',
                                    database='musicstream', 
                                    auth_plugin ='mysql_native_password')
mycursor = cnx.cursor()

NameError: name 'mysql' is not defined

Definimos la query canciones:

In [20]:
query_canciones = "INSERT INTO canciones(cancion, genero, popularidad, id_lustro, id_pais) VALUES(%s, %s, %s, %s, %s)"

Hay algunos datos que son `NaN`, y MySQL no los reconoce, por lo que hay que convertirlos a None:

In [21]:
def eliminar_nan (df):
    #df_limpio = df.where(pd.notnull(df), None)
    df_limpio = df.replace({float('NaN'): None})
    return df_limpio

In [22]:
lista_df_limpios = []

for data in lista_def:
    df_limpio = eliminar_nan(data)
    lista_df_limpios.append(df_limpio)
    

In [145]:
len(lista_df_limpios)

20

Con este bucle insertamos las canciones de un solo DataFrame:

In [23]:
def insertar_canciones (df,id_lustro):
    lista_querys = []
    for i in range(len(df)):
        tupla_insercion = (str(df['nombre'][i]), str(df['genero'][i]), int(df['popularity'][i]), id_lustro, df['pais'][i])
        lista_querys.append(tupla_insercion)
    return lista_querys

In [24]:
insertar_canciones(df_centro_2000_2004, 1)

[('Unwritten', 'pop', 81, 1, 'AT'),
 ('Angel', 'nan', 28, 1, 'AT'),
 ('Mr. Brightside', 'rock', 82, 1, 'AT'),
 ('Rooftop', 'pop', 0, 1, 'AT'),
 ('Numb', 'rock', 83, 1, 'AT'),
 ('This Is My Time', 'pop', 0, 1, 'AT'),
 ('In the End', 'rock', 82, 1, 'AT'),
 ('Dímelo bajito', 'nan', 0, 1, 'AT'),
 ('Yellow', 'rock', 86, 1, 'AT'),
 ('La vita è', 'pop', 1, 1, 'AT'),
 ('Mockingbird', 'rap', 81, 1, 'AT'),
 ('Here She Comes Again', 'pop', 0, 1, 'AT'),
 ('Without Me', 'rap', 83, 1, 'AT'),
 ('Turn It into Something Special', 'pop', 0, 1, 'AT'),
 ('How You Remind Me', 'rock', 80, 1, 'AT'),
 ('San Pedro', 'nan', 0, 1, 'AT'),
 ('Faint', 'rock', 79, 1, 'AT'),
 ('Cabelo Raspadinho', 'brasil', 2, 1, 'AT'),
 ('The Scientist', 'Coldplay', 83, 1, 'AT'),
 ('Dar A Volta No Brasil - Ao Vivo', 'nan', 0, 1, 'AT'),
 ('Last Resort', 'rock', 76, 1, 'AT'),
 ("David's Arm - from Deuce", 'nan', 0, 1, 'AT'),
 ("Can't Stop", 'rock', 80, 1, 'AT'),
 ('Eso de saber', 'LO MAS', 0, 1, 'AT'),
 ('Irgendwie, irgendwo, irgendwa

In [33]:
df_centro_2000_2004

Unnamed: 0_level_0,nombre,popularity,artista,pais,genero
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
0,Unwritten,81,Natasha Bedingfield,AT,pop
1,Angel,28,"Shaggy, Rayvon",AT,
2,Mr. Brightside,82,The Killers,AT,rock
3,Rooftop,0,Sasha,AT,pop
4,Numb,83,Linkin Park,AT,rock
...,...,...,...,...,...
345,Mzael Kel El Banat,0,Wael Kfoury,NL,
346,Ms. Jackson,78,Outkast,NL,Hip-Hop
347,Ergaa Lel Shoua,0,Elissa,NL,
348,Dansen Aan Zee,50,BLØF,NL,pop


In [25]:
lustros = {1:"2000-2004", 2:"2005-2009", 3:"2010-2014", 4:"2015-2019", 5:"2020-2024"}

In [26]:
for df in lista_df_limpios:    
    for i in range(1, len(lustros)):
        tupla = insertar_canciones(df,i)
        mycursor.executemany(query_canciones, tupla)
        cnx.commit()
    

KeyError: 0

In [27]:
cnx.close()