## Conexión datos con SQL.

🤔📊 En este caso, se realizarán las conexiones necesarias con SQL mediante python alchemy para poder realizar los correspondientes análisis de datos.

❕ Cabe destacar que para con bases de datos relacionales necesitamos trabajar con consultas a SQL para, posteriormente, pasarlas a una matriz normal de registros o un dataframe.

In [1]:
import pandas as pd
import sqlalchemy as alch

from getpass import getpass

1️⃣ En primer lugar, cargamos los tres csv obtenidos en la limpieza del csv inicial.

In [2]:
pers = pd.read_csv("../data/calidad_personas.csv", index_col = 0)
ciud = pd.read_csv("../data/caracteristicas_ciudad.csv", index_col = 0)
act = pd.read_csv("../data/actividades_ciudad.csv", index_col = 0)

In [3]:
pers.head(2)

Unnamed: 0,City,Rank,Obesity levels(Country),Life expectancy(years) (Country),Annual avg. hours worked,Happiness levels(Country)
0,Amsterdam,1,20.4,81.2,1434.0,7.44
1,Sydney,2,29.0,82.1,1712.0,7.22


In [4]:
ciud.head(2)

Unnamed: 0,City,Rank,Sunshine hours(City),Pollution(Index score) (City),Number of take out places(City)
0,Amsterdam,1,1858.0,31.0,1048
1,Sydney,2,2636.0,27.0,1103


In [5]:
act.head(2)

Unnamed: 0,City,Rank,Cost of a bottle of water(City),Outdoor activities(City),Cost of a monthly gym membership(City)
0,Amsterdam,1,1.92,422,34.9
1,Sydney,2,1.48,406,41.66


2️⃣ Por otro lado, conectamos con nuestro SQL.Para conectarse a una base de datos, necesitamos crear un motor SQLAlchemy, de forma que se cree una interfaz común a la base de datos para ejecutar sentencias en SQL.

In [6]:
password = getpass("Contraseña de MySQL: ")

Contraseña de MySQL: ········


In [7]:
sql = 'rankciudades'

In [8]:
conex_SQL = f"mysql+pymysql://root:{password}@localhost/{sql}"

In [9]:
engine = alch.create_engine(conex_SQL)

❗ De esta forma, insertaremos los datos de cada uno de los csv en SQL equiparando los nombres de las columnas del csv con los creados en el modelo del programa.

In [13]:
pers.head(2)

Unnamed: 0,City,Rank,Obesity levels(Country),Life expectancy(years) (Country),Annual avg. hours worked,Happiness levels(Country)
0,Amsterdam,1,20.4,81.2,1434.0,7.44
1,Sydney,2,29.0,82.1,1712.0,7.22


In [14]:
for index, row in pers.iterrows():

    ciudad_id = engine.execute(f"""select idciudad from personas WHERE idciudad = "{row['City']}";""")
  

  
    if len(list(ciudad_id)) > 0: 
        pass
        
    else: 
        try:
            engine.execute(f"""
                INSERT INTO personas (idciudad, rango,  obesidad, expectativa_vida, horas_trabajadas, nivel_felicidad) VALUES
                ("{row['City']}",{row['Rank']}, {row['Obesity levels(Country)']}, {row['Life expectancy(years) (Country)']},{row['Annual avg. hours worked']}, {row['Happiness levels(Country)']});""")
        except:
            pass
            

In [15]:
ciud.head(2)

Unnamed: 0,City,Rank,Sunshine hours(City),Pollution(Index score) (City),Number of take out places(City)
0,Amsterdam,1,1858.0,31.0,1048
1,Sydney,2,2636.0,27.0,1103


In [16]:
for index, row in ciud.iterrows():
    
    ciudad_id = engine.execute(f"""select idciudad from ciudades WHERE idciudad = "{row['City']}";""")
    
    if len(list(ciudad_id)) > 0: 
        pass 
        
    else: 
        try:
            engine.execute(f"""
                INSERT INTO ciudades (idciudad, rango, horas_sol, polucion, exteriores,costes_idciudad1, personas_idciudad) VALUES
                ("{row['City']}", "{row['Rank']}", "{row['Sunshine hours(City)']}","{row['Pollution(Index score) (City)']}", "{row['Number of take out places(City)']}", "{row['City']}", "{row['City']}");""")
        except:
            pass


In [17]:
act.head(2)

Unnamed: 0,City,Rank,Cost of a bottle of water(City),Outdoor activities(City),Cost of a monthly gym membership(City)
0,Amsterdam,1,1.92,422,34.9
1,Sydney,2,1.48,406,41.66


In [18]:
for index, row in act.iterrows():
    
    ciudad_id = engine.execute(f"""select idciudad from costes WHERE idciudad = "{row['City']}";""")
    
    if len(list(ciudad_id)) > 0: 
        pass 
        
    else: 
        try:
            engine.execute(f"""
                INSERT INTO costes (idciudad, rango, coste_agua, actividades_fuera, coste_gimnasio) VALUES
                ("{row['City']}", "{row['Rank']}", "{row['Cost of a bottle of water(City)']}","{row['Outdoor activities(City)']}", "{row['Cost of a monthly gym membership(City)']}" );""")
        except:
            pass


🧐✔ Por último, a modo de ejemplo, podemos apreciar una posible query realizada para analizar la felicidad de las personas según las horas de sol y el número de espacios exteriores de las ciudades en las que viven.

In [23]:
nivel_felicidad = """
SELECT 
(CASE
        WHEN nivel_felicidad < 5.5 THEN "infelices"
        WHEN nivel_felicidad > 5.5 AND nivel_felicidad < 7 THEN "felicidad media"
        ELSE "muy felices"
    END) AS felicidad_personas, ct.idciudad, c.horas_sol, c.exteriores
FROM personas AS p
INNER JOIN costes AS ct ON p.idciudad = ct.idciudad
INNER JOIN ciudades AS c ON ct.idciudad = c.idciudad;

"""

In [24]:
dfelicidad = pd.read_sql(nivel_felicidad, engine)

In [25]:
dfelicidad.head(2)

Unnamed: 0,felicidad_personas,idciudad,horas_sol,exteriores
0,muy felices,Amsterdam,1858.0,1048
1,felicidad media,Bangkok,2624.0,1796
