# üõú Set-up para la conexi√≥n entre mysql y python üõú

In [1]:
import json
import pandas as pd
import mysql.connector
from mysql.connector import errorcode

1. Nos conectamos a la base de datos (script de creaci√≥n en _schema_bbdd.sql_)

In [2]:
cnx = mysql.connector.connect(user='root', password='AlumnaAdalab',
host='127.0.0.1',
database='musicstream', 
auth_plugin ='mysql_native_password')

2. Creamos el cursor

In [3]:
mycursor = cnx.cursor()

# üèóÔ∏è A√±adiendo datos desde los ficheros .csv üèóÔ∏è

### A√±adimos los datos a la tabla zonas

In [4]:
query = "INSERT INTO zonas(nombre_zona) VALUES(%s)"
val = [[('mediterraneo')], [('norte')], [('centro')], [('este')]]
mycursor.executemany(query, val)
cnx.commit()

### A√±adimos los datos a la tabla pa√≠ses

1. Definimos los diccionarios con los paises para cada zona

In [5]:
paises_mediterraneos = {
    "ES": "Espa√±a",
    "FR": "Francia",
    "MC": "M√≥naco",
    "IT": "Italia",
    "SI": "Eslovenia",
    "HR": "Croacia",
    "BA": "Bosnia y Herzegovina",
    "ME": "Montenegro",
    "AL": "Albania",
    "GR": "Grecia",
    "MT": "Malta",
    "CY": "Chipre"}
paises_este_europa = {
    "BY": "Bielorrusia",
    "BG": "Bulgaria",
    "CZ": "Chequia",
    "SK": "Eslovaquia",
    "HU": "Hungr√≠a",
    "MD": "Moldavia",
    "PL": "Polonia",
    "RO": "Ruman√≠a",
    "UA": "Ucrania"}
paises_norte_europa = {
    "DK": "Dinamarca",
    "EE": "Estonia",
    "FI": "Finlandia",
    "IS": "Islandia",
    "IE": "Irlanda",
    "LT": "Lituania",
    "LV": "Letonia",
    "NO": "Noruega",
    "SE": "Suecia",
    "GB": "Reino Unido"}
paises_europa_central = {
    "AT": "Austria",
    "DE": "Alemania",
    "CH": "Suiza",
    "LI": "Liechtenstein",
    "BE": "B√©lgica",
    "LU": "Luxemburgo",
    "NL": "Pa√≠ses Bajos"}

2. Definimos la funci√≥n `a√±adir_pais`

In [6]:
def a√±adir_pais(diccionario, id_zona):
    ''' A√±ade datos a la tabla de paises.

        Args: 
            diccionario (dict): Un diccionario de los definidos para cada zona donde se recogen los pa√≠ses y sus c√≥digos.
            id_zona (int): N√∫mero asignado a cada zona de europa en la tabla zonas. 

    '''
    for id, pais in diccionario.items():
        query = "INSERT INTO paises(id_pais, nombre_pais, id_zona) VALUES(%s, %s, %s)"
        val = [(id, pais, id_zona)] 
        mycursor.executemany(query, val)
        cnx.commit()

Los id_zona quedan entonces como: 
- 1 mediterraneo
- 2 norte
- 3 centro 
- 4 este 

3. Llamamos a la funci√≥n en bucle para a√±adir los pa√≠ses de cada zona de una sola vez. 

In [7]:
# Definimos estas dos listas, que nos van a servir para poder llamar en bucle a la funci√≥n. Es MUY IMPORTANTE el orden, debe coincidir el nombre del diccionario con el id_zona asignado a cada zona.
lista_diccionarios = [paises_mediterraneos, paises_norte_europa, paises_europa_central, paises_este_europa]
lista_zonas = [i for i in range(1,5)]

In [8]:
for i in range(len(lista_diccionarios)):
    a√±adir_pais(lista_diccionarios[i], lista_zonas[i])

### A√±adimos los datos a la tabla a√±os

In [9]:
query_a√±os = "INSERT INTO a√±os(rango_a√±os) VALUES(%s)"
val_a√±os = [[('2000-2004')], [('2005-2009')], [('2010-2014')], [('2015-2019')], [('2020-2024')]]
mycursor.executemany(query_a√±os, val_a√±os)
cnx.commit()

### A√±adimos los datos a la tabla artistas

1. Definimos la funci√≥n `convertir_csv`, que convierte cada uno de los csv que hemos creado en un DataFrame.

In [10]:
def convertir_csv(zona, a√±os):
    ''' Convierte el csv de cada zona y rango de a√±os en un DataFrame.
    
        Args:
            zona (str): Nombre de la zona.
            a√±os (str): Rango de a√±os en la forma a√±oinicio_a√±ofin. 
    '''
    df = pd.read_csv(f'archivos_csv/paises_{zona}_{a√±os}.csv',index_col = 0)
    return df

2. Llamamos a la funci√≥n una vez por cada csv que debemos convertir.

In [11]:
# Definimos estas dos listas, que nos van a servir para poder llamar a la funci√≥n.
lista_nombre_zona = ["este_europa", "europa_central", "mediterraneos", "norte_europa"]
lista_a√±os = ["2000_2004", "2005_2009", "2010_2014", "2015_2019", "2020_2024"]

In [12]:
# Pa√≠ses del este
df_este_2000_2004 = convertir_csv(lista_nombre_zona[0], lista_a√±os[0])
df_este_2005_2009 = convertir_csv(lista_nombre_zona[0], lista_a√±os[1])
df_este_2010_2014 = convertir_csv(lista_nombre_zona[0], lista_a√±os[2])
df_este_2015_2019 = convertir_csv(lista_nombre_zona[0], lista_a√±os[3])
df_este_2020_2024 = convertir_csv(lista_nombre_zona[0], lista_a√±os[4])

In [13]:
# Pa√≠ses del centro
df_centro_2000_2004 = convertir_csv(lista_nombre_zona[1], lista_a√±os[0])
df_centro_2005_2009 = convertir_csv(lista_nombre_zona[1], lista_a√±os[1])
df_centro_2010_2014 = convertir_csv(lista_nombre_zona[1], lista_a√±os[2])
df_centro_2015_2019 = convertir_csv(lista_nombre_zona[1], lista_a√±os[3])
df_centro_2020_2024 = convertir_csv(lista_nombre_zona[1], lista_a√±os[4])

In [14]:
# Pa√≠ses mediterr√°neos
df_medit_2000_2004 = convertir_csv(lista_nombre_zona[2], lista_a√±os[0])
df_medit_2005_2009 = convertir_csv(lista_nombre_zona[2], lista_a√±os[1])
df_medit_2010_2014 = convertir_csv(lista_nombre_zona[2], lista_a√±os[2])
df_medit_2015_2019 = convertir_csv(lista_nombre_zona[2], lista_a√±os[3])
df_medit_2020_2024 = convertir_csv(lista_nombre_zona[2], lista_a√±os[4])

In [15]:
# Pa√≠ses del norte
df_norte_2000_2004 = convertir_csv(lista_nombre_zona[3], lista_a√±os[0])
df_norte_2005_2009 = convertir_csv(lista_nombre_zona[3], lista_a√±os[1])
df_norte_2010_2014 = convertir_csv(lista_nombre_zona[3], lista_a√±os[2])
df_norte_2015_2019 = convertir_csv(lista_nombre_zona[3], lista_a√±os[3])
df_norte_2020_2024 = convertir_csv(lista_nombre_zona[3], lista_a√±os[4])

3. Creamos una lista de artistas vac√≠a y luego un DataFrame con todos los artistas por zona.

In [16]:
artistas = []
df_mediterraneo = pd.concat(
    [df_medit_2000_2004['artista'], df_medit_2005_2009['artista'], df_medit_2010_2014['artista'], df_medit_2015_2019['artista'], df_medit_2020_2024['artista']],
    axis=1,
    keys=["00-04", "05-09", "10-14", "15-19", "20-24"])
df_este = pd.concat(
    [df_este_2000_2004['artista'], df_este_2005_2009['artista'], df_este_2010_2014['artista'], df_este_2015_2019['artista'], df_este_2020_2024['artista']],
    axis=1,
    keys=["00-04", "05-09", "10-14", "15-19", "20-24"])
df_centro = pd.concat(
    [df_centro_2000_2004['artista'], df_centro_2005_2009['artista'], df_centro_2010_2014['artista'], df_centro_2015_2019['artista'], df_centro_2020_2024['artista']],
    axis=1,
    keys=["00-04", "05-09", "10-14", "15-19", "20-24"])
df_norte = pd.concat(
    [df_norte_2000_2004['artista'], df_norte_2005_2009['artista'], df_norte_2010_2014['artista'], df_norte_2015_2019['artista'], df_norte_2020_2024['artista']],
    axis=1,
    keys=["00-04", "05-09", "10-14", "15-19", "20-24"])

In [17]:
# Esta lista es para poder meter los datos de los df en bucle.
lista_df = [df_mediterraneo, df_este, df_centro, df_norte]

4. Con el siguiente bucle, convertimos cada artista en una lista y lo a√±adimos a la lista artistas.

In [18]:
for df in lista_df:
    for i in df.itertuples(name=None, index=False):
        for n in range(4):
            if ([i[n]]) not in artistas:
                artistas.append(([i[n]]))
    

In [19]:
len(artistas)

981

5. Ejecutamos la inserci√≥n 

In [20]:
query_artistas = "INSERT INTO artistas(nombre_artista) VALUES(%s)"
for artista in artistas:
    try:
     mycursor.execute(query_artistas, artista)
     cnx.commit()
    except:
      continue
cnx.close()

### A√±adimos los datos a la tabla canciones 

Recordemos los id_lustro para cada conjunto de 5 a√±os: 
- 1 = 2000-2004
- 2 = 2005-2009
- 3 = 2010-2014
- 4 = 2015-2019
- 5 = 2020-2024

In [21]:
cnx = mysql.connector.connect(user='root', password='AlumnaAdalab', host='127.0.0.1',
                                    database='musicstream', 
                                    auth_plugin ='mysql_native_password')
mycursor = cnx.cursor()

Definimos la query canciones:

In [22]:
query_canciones = "INSERT INTO canciones(cancion, genero, popularidad, id_lustro, id_pais) VALUES(%s, %s, %s, %s, %s)"

Hay algunos datos que son `nan`. MySQL no los reconoce, por lo que hay que convertirlos a None:

In [23]:
df_medit_2000_2004_notnull = df_medit_2000_2004.where(pd.notnull(df_medit_2000_2004), None)

In [24]:
df_medit_2000_2004.head()

Unnamed: 0_level_0,nombre,popularity,artista,pais,genero
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
0,Soldadito marinero,62,Fito y Fitipaldis,ES,spanish
1,Angel,28,"Shaggy, Rayvon",ES,
2,Rosas,75,La Oreja de Van Gogh,ES,pop
3,D√≠melo bajito,0,Manzanita,ES,
4,La vereda de la puerta de atr√°s,60,Extremoduro,ES,rock


In [25]:
df_medit_2000_2004_notnull.head()

Unnamed: 0_level_0,nombre,popularity,artista,pais,genero
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
0,Soldadito marinero,62,Fito y Fitipaldis,ES,spanish
1,Angel,28,"Shaggy, Rayvon",ES,
2,Rosas,75,La Oreja de Van Gogh,ES,pop
3,D√≠melo bajito,0,Manzanita,ES,
4,La vereda de la puerta de atr√°s,60,Extremoduro,ES,rock


Con este bucle insertamos las canciones de un solo DataFrame:

In [26]:
for i in range(len(df_medit_2000_2004_notnull)):
    tupla_insercion = (df_medit_2000_2004_notnull['nombre'][i], df_medit_2000_2004_notnull['genero'][i], int(df_medit_2000_2004_notnull['popularity'][i]), 1, df_medit_2000_2004_notnull['pais'][i])
    mycursor.execute(query_canciones, tupla_insercion)
    cnx.commit()

In [27]:
cnx.close()