> ### ETL para la carga de *`datasets`* de transferencias de vehiculos en Argentina.

> #### Extracción

##### Instalamos las librerias necesarias para el ETL

In [2]:
# Una vez instaladas, las comentamos para saltear el paso.
#!pip install pandas
#!pip install sqlalchemy
#!pip install psycopg2-binary

#!pip se utiliza en entornos como Google Colab, jupyter, etc.
# pip se utiliza en entornos como Windows, en la terminar de powershell, etc.

- Importamos las librerias de Python para la realizacion del ETL.

In [2]:
import logging
import sys
module_path = './'
sys.path.append(module_path)
import pandas as pd
from sqlalchemy import create_engine

logging.basicConfig(level=logging.INFO)

- Cargamos los dataset que fueron obtenidos desde la pagina de datos abiertos de argentina
[https://www.datos.gob.ar/](https://www.datos.gob.ar/)

Cuando cargas un DataFrame desde un archivo CSV en Pandas y deseas establecer una columna específica como índice, puedes hacerlo mediante el parámetro ***`index_col`*** en la función read_csv(). Simplemente especifica el nombre de la columna que deseas utilizar como índice y Pandas configurará el índice en función de los valores de esa columna.

In [3]:
url = "https://datos.jus.gob.ar/dataset/f6932e82-a039-4462-968d-7dcda77d1a3e/resource/ff17485b-6711-405f-b628-676216e4d9e0/download/dnrpa-transferencias-autos-202504.csv"

departamentos_df = pd.read_csv('./datos/departamentos.csv', index_col='id')
provincia_df = pd.read_csv('./datos/provincias.csv', index_col='id')
registro_df = pd.read_csv('./datos/listado-registros-seccionales-202504.csv', index_col='codigo')

# Descargo el csv desde la url donde lo actualizan a diario.
transferencias_df = pd.read_csv(url, encoding='utf-8-sig', sep=',', low_memory=False)



In [None]:
#Muestra las primeras 5 filas del DataFrame transferencias_df.
transferencias_df.head()

> ### Conexión a la base de datos PostgreSQL

- Generamos la conexiøn al servidor de ***`PostgreSQL`***

In [5]:
engine = create_engine('postgresql://postgres:postgres@localhost/postgres?client_encoding=utf8')


> #### Transformación

- Visualizamos los datos que fueron cargados en el dataframe ***`provincia_df`***

In [None]:
#Muestra las primeras 5 filas del DataFrame provincia_df.
provincia_df.head()

In [None]:
columnas_deseadas = ['nombre', 'nombre_completo', 'centroide_lat', 'centroide_lon', 'categoria']
provincia_transformado_df = provincia_df[columnas_deseadas]
provincia_transformado_df.head()

In [None]:
columnas_deseadas = ['provincia_nombre', 'codigo_postal', 'denominacion', 'provincia_id']
registro_transformado_df = registro_df[columnas_deseadas]
registro_transformado_df.head()

> #### Carga

##### Carga de datos en el servidor

Cuando cargamos datos en el servidor utilizando la función `to_sql` de Pandas, el parámetro `if_exists` especifica qué hacer si la tabla ya existe en la base de datos. Aquí están las opciones disponibles:

- **'fail'**: Esta es la opción predeterminada. Si la tabla ya existe, se generará un error y no se realizará ninguna acción.
- **'replace'**: Si la tabla ya existe, se eliminará y se creará una nueva tabla con los datos del DataFrame.
- **'append'**: Si la tabla ya existe, los nuevos datos se agregarán al final de la tabla existente.

Cuando estableces el parámetro `index` en `False` en la función `to_sql` de Pandas, estás indicando que no deseas incluir el índice del DataFrame como una columna en la tabla de la base de datos. El índice en un DataFrame de Pandas es una serie de etiquetas que identifican de forma única cada fila. Por defecto, Pandas incluirá el índice como una columna en la tabla de la base de datos cuando se utiliza `to_sql`.


In [None]:
# Nombre de la tabla en la base de datos
nombre_tabla = 'provincia'
# Cargar el DataFrame en la tabla de PostgreSQL
provincia_transformado_df.to_sql(nombre_tabla, engine, if_exists='append', index=True, index_label='id')
# Cerrar la conexión a la base de datos
engine.dispose()
logging.info("DataFrame cargado en PostgreSQL correctamente.")

- Visualizamos los datos que fueron cargados en el dataframe ***`departamentos_df`***

In [None]:
departamentos_df.head()

In [None]:
# Nombre de la tabla en la base de datos
nombre_tabla = 'registro'
# Cargar el DataFrame en la tabla de PostgreSQL
registro_transformado_df.to_sql(nombre_tabla, engine, if_exists='append', index=True, index_label='id')
# Cerrar la conexión a la base de datos
engine.dispose()
logging.info("DataFrame cargado en PostgreSQL correctamente.")

### Terminamos el proceso para todos los DF

In [None]:
transferencias_df.head()

In [None]:
columnas_deseadas = ['registro_seccional_descripcion','tramite_fecha','automotor_origen','automotor_anio_modelo','automotor_tipo_codigo','automotor_tipo_descripcion','automotor_modelo_descripcion']
transferencias_transformado_df = transferencias_df[columnas_deseadas]

transferencias_transformado_df.head()

In [None]:
# Nombre de la tabla en la base de datos
nombre_tabla = 'transferencia'
# Cargar el DataFrame en la tabla de PostgreSQL
transferencias_transformado_df.to_sql(nombre_tabla, engine, if_exists='replace', index=True, index_label='id')
# Cerrar la conexión a la base de datos
engine.dispose()
logging.info("DataFrame cargado en PostgreSQL correctamente.")