<h1>Table of Contents<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#¿Qué-es-SQL-Alquemy?" data-toc-modified-id="¿Qué-es-SQL-Alquemy?-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>¿Qué es SQL-Alquemy?</a></span></li><li><span><a href="#Conexión-con-MySQL" data-toc-modified-id="Conexión-con-MySQL-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>Conexión con MySQL</a></span></li><li><span><a href="#Insertamos-datos-en-SQL" data-toc-modified-id="Insertamos-datos-en-SQL-3"><span class="toc-item-num">3&nbsp;&nbsp;</span>Insertamos datos en SQL</a></span></li><li><span><a href="#CASE" data-toc-modified-id="CASE-4"><span class="toc-item-num">4&nbsp;&nbsp;</span>CASE</a></span></li><li><span><a href="#Tablas-temporales" data-toc-modified-id="Tablas-temporales-5"><span class="toc-item-num">5&nbsp;&nbsp;</span>Tablas temporales</a></span></li><li><span><a href="#Subqueries" data-toc-modified-id="Subqueries-6"><span class="toc-item-num">6&nbsp;&nbsp;</span>Subqueries</a></span></li></ul></div>

# ¿Qué es SQL-Alquemy?

A menudo nos encontramos con datos en BBDD relacionales como SQL. Para trabajar con ellas necesitamos consultas SQL (o queries), y después pasarlas a una matriz normal de registros o un *dataframe*. 


SQLALchemy es una forma Pythonica de código abierto de interactuar con las bases de datos. Así que en lugar de lidiar con las diferencias entre los dialectos específicos de SQL tradicional como MySQL o PostgreSQL u Oracle, puedes aprovechar el marco pitónico de SQLAlchemy para agilizar tu flujo de trabajo y consultar tus datos de manera más eficiente. Usando SQLALchemy podemos escribir directamente consultas para crear, manipular, recuperar datos, actualizar registros usando simples scripts de python.

Lo primero que tenemos que hacer es instalarnos `sqlalchemy` y `pymysql` 👇🏽

In [None]:
#!pip install sqlalchemy==1.3.24
#!pip install pymysql

In [3]:
import pandas as pd
import sqlalchemy as alch

from getpass import getpass # sistema seguro para gestión de contraseñas


Hoy trabajaremos con tres csv que contienen información sobre los datos anuales de una compañia de seguros de coches. 

- En el csv de `clientes` tenemos información básica sobre los clientes. Género, raza, años de experiencia etc. 


- En el csv de `vehiculos` tenemos el id del vehículo, el del cliente, los años del coche etc. 


- En el csv de `seguro` tenemos información importante para el seguro como el *credit score*, el id del cliente o el id del seguro



In [4]:
# cargamos los datos: 

clientes = pd.read_csv("data/datos_clientes.csv", index_col = 0)
vehiculo = pd.read_csv("data/datos_vehiculos.csv", index_col = 0)
seguro = pd.read_csv("data/datos_seguro.csv", index_col = 0)

In [5]:
clientes.head(2)

Unnamed: 0,ID,GENDER,RACE,DRIVING_EXPERIENCE,EDUCATION,MARRIED,CHILDREN,INCOME,POSTAL_CODE
0,569520,female,majority,0-9y,high school,0.0,1.0,upper class,10238
1,750365,male,majority,0-9y,none,0.0,0.0,poverty,10238


In [6]:
vehiculo.head(2)

Unnamed: 0,VEHICLE_OWNERSHIP,VEHICLE_YEAR,ID_VEHICULO,ID
0,1.0,after 2015,BZ1WE0LF2U,569520
1,0.0,before 2015,78GJYCA4LI,750365


In [7]:
seguro.head(2)

Unnamed: 0,ID,DUIS,PAST_ACCIDENTS,CREDIT_SCORE,ID_SEGURO
0,569520,0,0,0.629027,6739391
1,750365,0,0,0.357757,2536595


![image.png](attachment:image.png)

# Conexión con MySQL 

In [8]:
# almacenamos la contraseña en una variable de forma segura, para que nadie la pueda ver. 

password = getpass("Contraseña de MySQL: ")

In [9]:
# almacenamos el nombre de nuestra BBDD en una variable
db_name = "seguros"

# creamos la conexipn con MySQL
conexion = f"mysql+pymysql://root:{password}@localhost/{db_name}"


Para conectarse a una base de datos, necesitamos crear un motor SQLAlchemy. El motor SQLAlchemy crea una interfaz común a la base de datos para ejecutar sentencias SQL. Lo hace envolviendo un grupo de conexiones a la base de datos y un dialecto de tal manera que puedan trabajar juntos para proporcionar un acceso uniforme a la base de datos.

In [10]:
engine = alch.create_engine(conexion)

# Insertamos datos en SQL

**INSERTAMOS DATOS EN LA TABLA CLIENTES**

In [11]:
clientes.tail(2)

Unnamed: 0,ID,GENDER,RACE,DRIVING_EXPERIENCE,EDUCATION,MARRIED,CHILDREN,INCOME,POSTAL_CODE
9998,903459,female,majority,10-19y,high school,0.0,1.0,poverty,10238
9999,442696,female,majority,0-9y,none,1.0,1.0,working class,10238


In [13]:
for index, row in clientes.iterrows():
    
    # hacemos una primera query para chequear si el id que le vamos a pasar ya existe
    cliente_id = engine.execute(f"""select idcliente from clientes WHERE idcliente = "{row['ID']}";""")
    
    # si lo que nos devuelve tiene algun valor decimos que ya existe y por lo tanto no lo podemos introducir
    if len(list(cliente_id)) > 0: 
        print("lo siento, este id ya existe")
        
    # si no existe, lo insertamos usando la sentencia INSERT INTO
    else: 
        engine.execute(f"""
            INSERT INTO clientes (idcliente, genero, raza , experiencia, educacion, estado_civil, hijos, clase, codigo_postal) VALUES
            ("{row['ID']}","{row["GENDER"]}", "{row["RACE"]}", "{row['DRIVING_EXPERIENCE']}","{row["EDUCATION"]}", "{row["MARRIED"]}", "{row["CHILDREN"]}", "{row["INCOME"]}", "{row["POSTAL_CODE"]}");""")


**INSERTAMOS DATOS EN LA TABLA VEHICULOS**

In [14]:
vehiculo.head(1)

Unnamed: 0,VEHICLE_OWNERSHIP,VEHICLE_YEAR,ID_VEHICULO,ID
0,1.0,after 2015,BZ1WE0LF2U,569520


In [15]:
for index, row in vehiculo.iterrows():
    
    # hacemos una primera query para chequear si el id que le vamos a pasar ya existe
    vehiculo_id = engine.execute(f"""select idvehiculos from vehiculos WHERE idvehiculos = "{row['ID_VEHICULO']}";""")
    
    # si lo que nos devuelve tiene algun valor decimos que ya existe y por lo tanto no lo podemos introducir
    if len(list(vehiculo_id)) > 0: 
        print("lo siento, este id ya existe") 
    else: 
        try:
            engine.execute(f"""
                INSERT INTO vehiculos (idvehiculos, propietarios, año, clientes_idcliente) VALUES
                ("{row['ID_VEHICULO']}", "{row['VEHICLE_OWNERSHIP']}", "{row['VEHICLE_YEAR']}","{row['ID']}" );""")
        except:
            pass


**INSERTAMOS DATOS EN LA TABLA SEGURO**

In [16]:
seguro.head(2)

Unnamed: 0,ID,DUIS,PAST_ACCIDENTS,CREDIT_SCORE,ID_SEGURO
0,569520,0,0,0.629027,6739391
1,750365,0,0,0.357757,2536595


In [17]:
for index, row in seguro.iterrows():
    # hacemos una primera query para chequear si el id que le vamos a pasar ya existe
    seguro_id = engine.execute(f"""select idseguro from seguro WHERE idseguro = "{row['ID_SEGURO']}";""")
    
    # si lo que nos devuelve tiene algun valor decimos que ya existe y por lo tanto no lo podemos introducir
    if len(list(seguro_id)) > 0: 
        print("lo siento, este id ya existe") 
    else: 
        try: 
            engine.execute(f"""
                INSERT INTO seguro (idseguro, duis, accidentes, score, clientes_idcliente) VALUES
                ("{row['ID_SEGURO']}","{row["DUIS"]}", "{row["PAST_ACCIDENTS"]}", "{row["CREDIT_SCORE"]}", "{row["ID"]}");""")
        except: 
            pass

lo siento, este id ya existe
lo siento, este id ya existe
lo siento, este id ya existe
lo siento, este id ya existe


# CASE 

La sentencia `CASE` recorre las condiciones y devuelve un valor cuando se cumple la primera condición (como una sentencia IF-THEN-ELSE de Python). Así, una vez que una condición es verdadera, dejará de leer y devolverá el resultado.

Si ninguna condición es verdadera, devolverá el valor de la cláusula ELSE.

Si no hay ninguna parte ELSE y ninguna condición es verdadera, devuelve NULL.

Su sintaxis es: 

```sql
CASE
    WHEN condition1 THEN result1
    WHEN condition2 THEN result2
    WHEN conditionN THEN resultN
    ELSE result
END;
```

En este caso vamos a usar la tabla de `clientes`, en concreto trabajaremos con la columna `experiencia`.  Nuestras condiciones serán: 

- Si la experiencia = '0-9y' lo clasificaremos como "cliente_joven"


- Si la experiencia = '10-19y' y experiencia = ''20-29y'  lo clasificaremos como "cliente_medio"


- Todo lo que no cumpla estas condiciones serán "cliente_senior"


- Además seleccionaremos las columnas `experiencia`, `idclientes`, `gender` y `race`


In [None]:
query_sql1 = """
select 
    (CASE
        WHEN experiencia = '0-9y' THEN "cliente_joven"
        WHEN experiencia = '10-19y' OR experiencia = '20-29y' THEN "cliente_medio"
        ELSE "cliente_senior"
    END) as tipo_cliente, experiencia, idcliente, genero, raza
    from clientes;
"""

Desglosemos la query: 

```sql
SELECT  -- seleccionamos la columna nueva que crearemos con la condición
    (CASE -- iniciamos nuestra condición 
        WHEN experiencia = '0-9y' THEN "cliente_joven" -- si se cumple esta condición la nueva columna ese cliente tendra el valor cliente_joven
        WHEN experiencia = '10-19y' OR experiencia = '20-29y' THEN "cliente_medio" -- si se cumple la condición cliente_medio
        ELSE "cliente_senior" -- si no se cumplen ninguna de las condiciones anteriores, cliente_senior
    END) AS tipo_cliente, experiencia, idcliente, genero, raza -- tambien seleccionamos las columnas experencia, idcliente, genero y raza
    FROM clientes; 
```

In [None]:
df_case1 = pd.read_sql(query_sql1, engine)

In [None]:
df_case1.head()

Hagamos otro ejemplo, pero esta vez combinaremos el `CASE` con múltiples `JOINs`. En este caso usaremos la columna `score`. 

Crearemos una condición nueva con la crearemos una columna nueva que sea tipo de cliente en función de su `score`. Además queremos sacar solo la información de esta condición, el idvehiculo, el genero y la educación de nuestros clientes. 

Para esto tendremos que: 

- 1️⃣ Utilizar el `CASE` para establecer las condiciones. 


    - Si `score` < 0.3 --> cliente_de_riesgo
    - Si `score` > 0.3 y score < 0.3 --> regulinchi
    - Si no se cumplen estas condiciones --> cliente_suuuper
    
- 2️⃣ Conectar la tabla de seguros con la de clientes para sacar el género y la educación


- 3️⃣ Conectar la tabla de clientes con la de vehículos para sacar el id del vehículo
    

In [None]:
case_sql2 = """
SELECT 
(CASE
        WHEN score < 0.3 THEN "de riesgo"
        WHEN score > 0.3 AND score < 0.8 THEN "regulinchi"
        ELSE "suuuper"
    END) AS tipos, v.idvehiculos, c.genero, c.educacion
FROM seguro AS s
INNER JOIN clientes AS c ON s.clientes_idcliente = c.idcliente
INNER JOIN vehiculos AS v ON c.idcliente = v.clientes_idcliente;

"""

Entendamos la query

```sql
SELECT 
    (CASE
        WHEN score < 0.3 THEN "de riesgo" -- si el valor de "credit_score" es menor que 0.3 asignamos la categría "de riesgo" al cliente
        WHEN score > 0.3 AND score < 0.8 THEN "regulinchi" -- si el valor es mayor que 0.3 y menor que 0.8 es cliente será regulinchi
        ELSE "suuuper" -- todos  los que no cumplan todas las condiciones anteriores seran "super" clientes.  
    END) AS tipos, s.idvehiculos, c.gender, c.educacion -- generamos el alias "tipos" para el resultado del condicional. Además seleccionamos las columnas idvehiculos de la tabla seguro y las columnas de género y educación de la tabla clientes. 
FROM seguro as s

-- hacemos los inner joins que necesitamos para sacar toda la info que necesitamos. 
INNER JOIN clientes AS c ON s.clientes_idcliente = c.idcliente
INNER JOIN vehiculos AS v ON c.idcliente = v.clientes_idcliente;
```

In [None]:
df_case2 = pd.read_sql(case_sql2, engine)

In [None]:
df_case2.head()

# Tablas temporales

En MySQL, una tabla temporal es un tipo especial de tabla que permite almacenar un conjunto de resultados de forma temporal,  pero que podremos reutilizar varias veces en una misma sesión.

Una tabla temporal es muy útil cuando es imposible o costoso consultar datos que requieren una única sentencia SELECT con las cláusulas JOIN. En este caso, puede utilizar una tabla temporal para almacenar el resultado inmediato y utilizar otra consulta para procesarlo.

Una tabla temporal de MySQL tiene las siguientes características especializadas:

- Una tabla temporal se crea utilizando la sentencia `CREATE TEMPORARY TABLE`. 


- MySQL elimina la tabla temporal automáticamente cuando la sesión termina o la conexión se termina. Por supuesto, puede utilizar la sentencia DROP TABLE para eliminar una tabla temporal explícitamente cuando ya no la utilice.


- Una tabla temporal sólo está disponible y accesible para el cliente que la crea. Diferentes clientes pueden crear tablas temporales con el mismo nombre sin causar errores porque sólo el cliente que crea la tabla temporal puede verla. Sin embargo, en la misma sesión, dos tablas temporales no pueden compartir el mismo nombre.


- Una tabla temporal puede tener el mismo nombre que una tabla normal de una base de datos. Por ejemplo, si se crea una tabla temporal con el nombre de empleados en la base de datos de ejemplo, la tabla de empleados existente queda inaccesible. Todas las consultas que se realicen en la tabla de empleados harán referencia a la tabla temporal empleados. Cuando elimine la tabla temporal empleados, la tabla permanente empleados estará disponible y accesible.



Hagamos un ejemplo: 

Queremos extraer la experiencia, la educación, el año y el numero de accidentes de nuestra BBDD de aquellos clientes que hayan tenido mas de de 5 accidentes. Para ello: 

- 1️⃣ Necesitaremos hacer un par de `JOINs`


- 2️⃣ Una condición usando el estamento `WHERE`

```sql

CREATE TEMPORARY TABLE problemas -- iniciamos la tabla temporal a la que llamaremos "problemas"
select accidentes, propietarios, año, experiencia, educacion -- seleccionamos las columnas de las tablas que nos interesan
from seguro as s
inner join clientes as c on s.clientes_idcliente = c.idcliente -- conectamos seguro con clientes
inner join vehiculos as v on c.idcliente = v.clientes_idcliente -- conectamos clientes con vehiculos
where accidentes > 5  -- establecemos la condición de que el número de accidentes sea mayor que 5
AND codigo_postal like "10%"; -- y que el código postal empiece por 10
```

Hagamos algunas operaciones con esta tabla temporal en MySQL Workbench: 

- ¿Cuántos tipos diferentes de accidentes tenemos? 
```sql
select count(distinct accidentes) from problemas;
```

- ¿Que tipo de educación tienen los clientes que tienen más de 5 accidentes? 
```sql
select distinct educacion from problemass
where educacion != "none"; -- para excluir a los "none" que tenemos
```


- ¿Cuántos clientes por tipo de educación tenemos?
```sql
select count(educacion), educacion from problemass
where educacion != "none"
group by educacion;
```

- ¿Y por tipo de educación y número de accidentes? Ordena los resultados por los accidentes
```sql
select  accidentes, count(educacion) as numero_accidentes, educacion from problemass
where educacion != "none"
group by educacion, accidentes
order by accidentes ;
```

# Subqueries

Una *subquery*  es una consulta anidada dentro de otra consulta. 


Las "condiciones" que debemos de tener en cuenta cuando vayamos a hacer una *subquery*: 

- Una *subquery* puede aparecer dentro de:

    - Una cláusula SELECT
    - Una cláusula FROM
    - Una cláusula WHERE
    
    
- En MySQL las *subquery* pueden estar anidada dentro de una sentencia SELECT, INSERT, UPDATE, DELETE, SET o DO o dentro de otra subconsulta.


- Se pueden utilizar los operadores de comparación, como >, < o =. El operador de comparación también puede ser un operador de varias filas, como IN, ANY, SOME o ALL.


- La consulta interna se ejecuta primero antes que su consulta principal, de modo que los resultados de la consulta interna pueden pasarse a la consulta externa.



Su sintaxis es: 

![image.png](attachment:image.png)


- La *subquery* (consulta interna) se ejecuta antes de que se ejecute la consulta principal (consulta externa).


- La consulta principal (consulta externa) utiliza el resultado de la *subquery*.

📝 **Manos a la obra** 📝

Queremos sacar solo la información de aquellos clientes que: 

- 1️⃣ Tengan estudios universitarios. 


- 2️⃣ Aquellos clientes que pertenezcan a las clases que cumplan los siguientes requisitos: 


    - Tengan hijos
    
    - Pertenzcan a una clase minoritaria
    
    - Tengan más de 30 años de experiencia como conductores

In [None]:
query = """
SELECT *
  FROM clientes
  WHERE educacion = 'university'
    AND clase IN
       (SELECT DISTINCT clase
        FROM clientes
        WHERE hijos = 1
          AND raza = "minority"
          AND experiencia = "30y+")
"""

Explicación de la query: 

📌 Recordamos que primero se ejecuta la subquery y luego la query principal. 

```sql
SELECT *
  FROM clientes
  WHERE educacion = 'university'
    AND clase IN -- En la subquery estamos sacando unicamente los valores únicos de la columna clase que cumplan las siguientes condiciones. Esto nos devolverá dos valores [upper class y middle class]. Sobre estos resultados se hará el IN. 
       (SELECT DISTINCT clase -- solo los valores únicos de la columna clase
        FROM clientes
        WHERE hijos = 1 -- que tengan hijos
          AND raza = "minority" -- que sean de raza minoritaria
          AND experiencia = "30y+" ) -- y que tenga más de 30 años de experiencia de conducción. 
```


In [None]:
subquery = pd.read_sql(query, engine)

In [None]:
subquery.head()

📝 **Vamos con otro ejemplo** 📝. 

Queremos sacar la información de aquellos clientes que: 

- 1️⃣ Sean hombres


- 2️⃣ Aquel grupo de personas que estén incluidas en los grupos de experiencia que tengan más de 3000 registros. 



In [None]:
query2 = """
SELECT * 
    FROM clientes
    WHERE genero = "male" AND
        experiencia IN 
            (SELECT experiencia FROM clientes
            GROUP BY experiencia
            HAVING count(experiencia) > 3000);
"""

In [None]:
subquery2 = pd.read_sql(query2, engine)

In [None]:
subquery2.head()