<img src = "https://drive.google.com/uc?export=view&id=1K9OCVYN1o-SI5c11HV1z2R-ruaN4IQet" alt = "Encabezado MLDS unidad 1" width = "100%">  </img>

# **SQL y Pandas**
---

En este notebook veremos cómo podemos integrar bases de datos SQL con `pandas`.

Recuerde que `pandas` es una librería que nos permite la manipulación de datos tabulares en _Python_ en forma de `DataFrames`. Este tipo de datos resulta ser bastante cercano a las tablas de SQL, por lo cual son dos herramientas altamente compatibles.

Para este ejemplo, usaremos la base de datos en [neon.tech](https://neon.tech/):

In [None]:
!pip install psycopg2
!pip install sqlalchemy

In [2]:
import psycopg2
import pandas as pd
from sqlalchemy import create_engine
from sqlalchemy import text

Debe ingresar a continuación la URL que te aparece en [neon.tech](https://neon.tech/). En las últimas versiones de alchemy se debe cambir `postgres` en la url  por `postgresql`:

In [3]:
PG_STRING = 'postgresql://santiflo:ANmS26qIPHaM@ep-sparkling-bush-21343104.us-east-2.aws.neon.tech/temporal?sslmode=require'

Para este ejemplo usaremos `sqlalchemy`, el cual es un [object-relational mapping (ORM)](https://en.wikipedia.org/wiki/Object%E2%80%93relational_mapping) para _Python_ que soporta distintos motores de bases de datos.

`sqlalchemy` permite mantener un registro programático (orientado a objetos) de los esquemas de las tablas y las consultas. Con esto conseguimos una mejor validación de tipos e integración con distintas aplicaciones.

Puede ver más información sobre `sqlalchemy` en [éste enlace](https://www.sqlalchemy.org/library.html).

En este caso, usaremos un `engine` de `sqlalchemy` como objecto de conexión para la integración con `pandas`.

> **Nota**: pandas puede usar cualquier objeto de conexión de cualquier driver de base de datos (`psycopg2`, `sqlite3`, entre otros), sin embargo, `sqlalchemy` valida tipos y suele ser más útil para la integración.

In [4]:
engine = create_engine(PG_STRING)

## **1. Escritura**
---

Para la escritura, vamos a usar la función `df.to_sql` de pandas, primero vamos a cargar un [conjunto de datos](https://www.kaggle.com/datasets/kevinmorgado/us-energy-generation-2001-2022) sobre el consumo de energía de distintas fuentes en Estados Unidos:

In [7]:
df_consumo = pd.read_parquet(
        "consumo.parquet"
        )
df_estados = pd.read_parquet(
        "estados.parquet"
        )

Veamos columnas y tipos de cada dataframe:

In [8]:
df_consumo.info()

<class 'pandas.core.frame.DataFrame'>
Index: 76299 entries, 409889 to 486187
Data columns (total 6 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   anio            76299 non-null  int64  
 1   mes             76299 non-null  int64  
 2   codigo_estado   76299 non-null  object 
 3   tipo_productor  76299 non-null  object 
 4   tipo_energia    76299 non-null  object 
 5   megawatthour    76299 non-null  float64
dtypes: float64(1), int64(2), object(3)
memory usage: 4.1+ MB


In [9]:
df_estados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 51 entries, 0 to 50
Data columns (total 3 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   nombre_estado  51 non-null     object
 1   abreviacion    51 non-null     object
 2   codigo_estado  51 non-null     object
dtypes: object(3)
memory usage: 1.3+ KB


Ahora, vamos a cargar estas tablas dentro de la base de datos de _PostgreSQL_:

In [10]:
df_consumo.to_sql(
        name="consumo",
        con=engine,
        if_exists="replace",
        index=False,
        method="multi"
        )

76299

In [11]:
df_estados.to_sql(
        name="estados",
        con=engine,
        if_exists="replace",
        index=False,
        method="multi"
        )

51

Debemos especificar:

* `name`: nombre de la tabla.
* `con`: objeto de conexión.
* `if_exists`: específica que se debe hacer cuando la tabla ya existe, puede ser `'fail'` (error), `'replace'` (reemplaza la tabla) o `'append'` (agrega los valores al final de la tabla).
* `index`: específica si se guarda el índice como una columna.
* `method`: método para guardar los registros, puede ser `None` (registro a registro) o `'multi'` (batch o varios registros al tiempo).

## **2. Lectura**
---

Con el método `pd.read_sql` podemos extraer una consulta de SQL en forma de dataframe, veamos un ejemplo:

In [12]:
query = text("""
SELECT
    anio,
    AVG(megawatthour) AS promedio_energia
FROM
    consumo
GROUP BY
    anio
HAVING
    anio >= 2020
;
""")

In [13]:
with engine.connect() as conn:
    data = pd.read_sql(query, conn)
data

Unnamed: 0,anio,promedio_energia
0,2020,1259574.0
1,2021,1295111.0


De esta forma, puede realizar operaciones costosas de forma persistida (disco) desde SQL y hacer depuraciones finales desde pandas (memoria).

Por ejemplo, la siguiente consulta calcula el promedio de energía por estado y por año:

In [14]:
query = text("""
SELECT
    l.anio AS anio,
    r.nombre_estado AS estado,
    AVG(l.megawatthour) AS promedio_energia
FROM
    consumo AS l
INNER JOIN
    estados AS r
ON
    l.codigo_estado = r.codigo_estado
GROUP BY
    anio, estado
;
""")

In [15]:
with engine.connect() as conn:
    data = pd.read_sql(query, conn)
data

Unnamed: 0,anio,estado,promedio_energia
0,2020,California,1.021560e+06
1,2020,Pennsylvania,1.447442e+06
2,2020,Montana,2.224123e+05
3,2020,Hawaii,7.645489e+04
4,2020,Minnesota,3.693473e+05
...,...,...,...
148,2021,Pennsylvania,1.519801e+06
149,2020,District of Columbia,6.094098e+03
150,2020,New Jersey,4.428004e+05
151,2019,Tennessee,6.381947e+05


## **3. Recursos Adicionales**
---

* [Neon tech y alchemy](https://neon.tech/docs/guides/sqlalchemy).
* [Pandas y SQL](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.to_sql.html)

## **4. Créditos**
---

**Profesor**

- [Jorge E. Camargo, PhD](https://dis.unal.edu.co/~jecamargom/)

**Diseño, desarrollo del notebook y material audiovisual**

- [Juan S. Lara MSc](https://www.linkedin.com/in/juan-sebastian-lara-ramirez-43570a214/)

**Universidad Nacional de Colombia** - *Facultad de Ingeniería*