> ### ETL para la carga de *`datasets`* de DENGUE en Argentina.

> #### Extracción

##### Instalamos las librerias necesarias para el ETL

In [None]:
# Una vez instaladas, las comentamos para saltear el paso.
#!pip install pandas
#!pip install sqlalchemy
#!pip install psycopg2-binary

- Importamos las librerias de Python para la realizacion del ETL.

In [None]:
import logging
import sys
module_path = './'
sys.path.append(module_path)
import pandas as pd
from sqlalchemy import create_engine

logging.basicConfig(level=logging.INFO)

- Cargamos los dataset que fueron obtenidos desde la pagina de datos abiertos de argentina
[https://www.datos.gob.ar/](https://www.datos.gob.ar/)

Cuando cargas un DataFrame desde un archivo CSV en Pandas y deseas establecer una columna específica como índice, puedes hacerlo mediante el parámetro ***`index_col`*** en la función read_csv(). Simplemente especifica el nombre de la columna que deseas utilizar como índice y Pandas configurará el índice en función de los valores de esa columna.

In [None]:
url ="http://datos.salud.gob.ar/dataset/ceaa8e87-297e-4348-84b8-5c643e172500/resource/30d76bcb-b8eb-4bf3-863e-c87d41724647/download/informacion-publica-dengue-zika-nacional-anio-2022.csv"
departamentos_df = pd.read_csv('./datos/departamentos.csv', index_col='id')
provincia_df = pd.read_csv('./datos/provincias.csv', index_col='id')
# Descargo el csv desde la url donde lo actualizan a diario.
# dengue_df = pd.read_csv('./datos/informacion-publica-dengue-zika-nacional-se-1-a-15-de-2024-2024-04-24.csv', sep=';')
dengue_df = pd.read_csv(url, encoding='latin-1', sep=';')

In [None]:
dengue_df.head()

> ### Conexión a la base de datos PostgreSQL

- Generamos la conexiøn al servidor de ***`PostgreSQL`***

In [None]:

engine = create_engine('postgresql://postgres:postgres@localhost/postgres')


> #### Transformación

- Visualizamos los datos que fueron cargados en el dataframe ***`provincia_df`***

In [None]:
provincia_df.head()

In [None]:
columnas_deseadas = ['nombre', 'nombre_completo', 'centroide_lat', 'centroide_lon', 'categoria']
provincia_transformado_df = provincia_df[columnas_deseadas]
provincia_transformado_df.head()

> #### Carga

##### Carga de datos en el servidor

Cuando cargamos datos en el servidor utilizando la función `to_sql` de Pandas, el parámetro `if_exists` especifica qué hacer si la tabla ya existe en la base de datos. Aquí están las opciones disponibles:

- **'fail'**: Esta es la opción predeterminada. Si la tabla ya existe, se generará un error y no se realizará ninguna acción.
- **'replace'**: Si la tabla ya existe, se eliminará y se creará una nueva tabla con los datos del DataFrame.
- **'append'**: Si la tabla ya existe, los nuevos datos se agregarán al final de la tabla existente.

Cuando estableces el parámetro `index` en `False` en la función `to_sql` de Pandas, estás indicando que no deseas incluir el índice del DataFrame como una columna en la tabla de la base de datos. El índice en un DataFrame de Pandas es una serie de etiquetas que identifican de forma única cada fila. Por defecto, Pandas incluirá el índice como una columna en la tabla de la base de datos cuando se utiliza `to_sql`.


In [None]:
# Nombre de la tabla en la base de datos
nombre_tabla = 'provincia'
# Cargar el DataFrame en la tabla de PostgreSQL
provincia_transformado_df.to_sql(nombre_tabla, engine, if_exists='append', index=True, index_label='id')
# Cerrar la conexión a la base de datos
engine.dispose()
logging.info("DataFrame cargado en PostgreSQL correctamente.")

- Visualizamos los datos que fueron cargados en el dataframe ***`departamentos_df`***

In [None]:
departamentos_df.head()

In [None]:
columnas_deseadas = ['nombre', 'nombre_completo', 'centroide_lat', 'centroide_lon', 'categoria', 'provincia_id']
departamentos_transformado_df = departamentos_df[columnas_deseadas]
departamentos_transformado_df.head()

In [None]:
# Nombre de la tabla en la base de datos
nombre_tabla = 'departamento'
# Cargar el DataFrame en la tabla de PostgreSQL
departamentos_transformado_df.to_sql(nombre_tabla, engine, if_exists='append', index=True, index_label='id')
# Cerrar la conexión a la base de datos
engine.dispose()
logging.info("DataFrame cargado en PostgreSQL correctamente.")

### Terminamos el proceso para todos los DF

In [None]:
dengue_df.head()

In [None]:
columnas_deseadas = ['evento', 'anio_min', 'grupo_etario', 'cantidad', 'id_depto_indec_residencia']
dengue_transformado_df = dengue_df[columnas_deseadas]
# Cambio el nombre de las columnas para que coincidan con el de la tabla que ya esta creada.
dengue_transformado_df = dengue_transformado_df.rename(columns={'anio_min': 'anio'})
dengue_transformado_df = dengue_transformado_df.rename(columns={'id_depto_indec_residencia': 'departamento_id'})
dengue_transformado_df.head()

In [None]:
# Nombre de la tabla en la base de datos
nombre_tabla = 'dengue'
# Cargar el DataFrame en la tabla de PostgreSQL
dengue_transformado_df.to_sql(nombre_tabla, engine, if_exists='replace', index=True, index_label='id')
# Cerrar la conexión a la base de datos
engine.dispose()
logging.info("DataFrame cargado en PostgreSQL correctamente.")