> ### ETL para la carga de *`datasets`* de transferencias de vehiculos en Argentina.

> #### Extracción

##### Instalamos las librerias necesarias para el ETL

In [None]:
# Una vez instaladas, las comentamos para saltear el paso.
#!pip install pandas
#!pip install sqlalchemy
#!pip install psycopg2-binary

#!pip se utiliza en entornos como Google Colab, jupyter, etc.
# pip se utiliza en entornos como Windows, en la terminar de powershell, etc.

- Importamos las librerias de Python para la realizacion del ETL.

In [31]:
import logging
import sys
module_path = './'
sys.path.append(module_path)
import pandas as pd
from sqlalchemy import create_engine

logging.basicConfig(level=logging.INFO)

- Cargamos los dataset que fueron obtenidos desde la pagina de datos abiertos de argentina
[https://www.datos.gob.ar/](https://www.datos.gob.ar/)

Cuando cargas un DataFrame desde un archivo CSV en Pandas y deseas establecer una columna específica como índice, puedes hacerlo mediante el parámetro ***`index_col`*** en la función read_csv(). Simplemente especifica el nombre de la columna que deseas utilizar como índice y Pandas configurará el índice en función de los valores de esa columna.

In [32]:
url = "https://datos.jus.gob.ar/dataset/f6932e82-a039-4462-968d-7dcda77d1a3e/resource/ff17485b-6711-405f-b628-676216e4d9e0/download/dnrpa-transferencias-autos-202504.csv"

departamentos_df = pd.read_csv('./datos/departamentos.csv', index_col='id')
provincia_df = pd.read_csv('./datos/provincias.csv', index_col='id')
registro_df = pd.read_csv('./datos/listado-registros-seccionales-202504.csv', index_col='codigo')

# Descargo el csv desde la url donde lo actualizan a diario.
transferencias_df = pd.read_csv(url, encoding='utf-8-sig', sep=',', low_memory=False)



In [33]:
#Muestra las primeras 5 filas del DataFrame transferencias_df.
transferencias_df.head()

Unnamed: 0,tramite_tipo,tramite_fecha,fecha_inscripcion_inicial,registro_seccional_codigo,registro_seccional_descripcion,registro_seccional_provincia,automotor_origen,automotor_anio_modelo,automotor_tipo_codigo,automotor_tipo_descripcion,...,automotor_uso_descripcion,titular_tipo_persona,titular_domicilio_localidad,titular_domicilio_provincia,titular_genero,titular_anio_nacimiento,titular_pais_nacimiento,titular_porcentaje_titularidad,titular_domicilio_provincia_id,titular_pais_nacimiento_id
0,TRANSFERENCIA NACIONAL,2025-04-01,1984-07-03,1146,MERLO Nº 2,Buenos Aires,Nacional,1984.0,12,PICK-UP,...,Privado,Física,LIBERTAD,BUENOS AIRES,Masculino,1998,ARGENTINA,100.0,6,200.0
1,TRANSFERENCIA NACIONAL,2025-04-01,2007-11-26,1146,MERLO Nº 2,Buenos Aires,Nacional,2007.0,17,SEDAN 5 PTAS,...,Privado,Física,GONZALEZ CATAN,BUENOS AIRES,Masculino,1990,ARGENTINA,100.0,6,200.0
2,TRANSFERENCIA NACIONAL C/PEDIDO,2025-04-01,2019-01-25,1146,MERLO Nº 2,Buenos Aires,Nacional,2019.0,22,FURGON,...,Privado,Física,MERLO,BUENOS AIRES,Masculino,1997,ARGENTINA,100.0,6,200.0
3,TRANSFERENCIA NACIONAL,2025-04-01,2001-01-22,1146,MERLO Nº 2,Buenos Aires,Nacional,2001.0,13,RURAL 3 PUERTAS,...,Privado,Física,CIUDAD DE LIBERTAD,BUENOS AIRES,Femenino,1967,ARGENTINA,100.0,6,200.0
4,TRANSFERENCIA IMPORTADO C/PEDIDO,2025-04-01,2011-04-19,1146,MERLO Nº 2,Buenos Aires,Protocolo 21,2011.0,5,SEDAN 5 PTAS,...,Privado,Física,PARQUE SAN MARTIN,BUENOS AIRES,Femenino,1955,ARGENTINA,50.0,6,200.0


> ### Conexión a la base de datos PostgreSQL

- Generamos la conexiøn al servidor de ***`PostgreSQL`***

In [34]:
engine = create_engine('postgresql://postgres:postgres@localhost/postgres?client_encoding=utf8')


> #### Transformación

- Visualizamos los datos que fueron cargados en el dataframe ***`provincia_df`***

In [35]:
#Muestra las primeras 5 filas del DataFrame provincia_df.
provincia_df.head()

Unnamed: 0_level_0,categoria,centroide_lat,centroide_lon,fuente,iso_id,iso_nombre,nombre,nombre_completo
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
2,Ciudad Autonoma,-34.614442,-58.445876,IGN,AR-C,Ciudad Autonoma de Buenos Aires,Ciudad Autonoma de Buenos Aires,Ciudad Autonoma de Buenos Aires
58,Provincia,-38.641983,-70.119897,IGN,AR-Q,Neuquen,Neuquen,Provincia del Neuquen
74,Provincia,-33.761104,-66.025231,IGN,AR-D,San Luis,San Luis,Provincia de San Luis
82,Provincia,-30.708823,-60.950687,IGN,AR-S,Santa Fe,Santa Fe,Provincia de Santa Fe
46,Provincia,-29.684937,-67.181758,IGN,AR-F,La Rioja,La Rioja,Provincia de La Rioja


In [36]:
columnas_deseadas = ['nombre', 'nombre_completo', 'centroide_lat', 'centroide_lon', 'categoria']
provincia_transformado_df = provincia_df[columnas_deseadas]
provincia_transformado_df.head()

Unnamed: 0_level_0,nombre,nombre_completo,centroide_lat,centroide_lon,categoria
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2,Ciudad Autonoma de Buenos Aires,Ciudad Autonoma de Buenos Aires,-34.614442,-58.445876,Ciudad Autonoma
58,Neuquen,Provincia del Neuquen,-38.641983,-70.119897,Provincia
74,San Luis,Provincia de San Luis,-33.761104,-66.025231,Provincia
82,Santa Fe,Provincia de Santa Fe,-30.708823,-60.950687,Provincia
46,La Rioja,Provincia de La Rioja,-29.684937,-67.181758,Provincia


> #### Carga

##### Carga de datos en el servidor

Cuando cargamos datos en el servidor utilizando la función `to_sql` de Pandas, el parámetro `if_exists` especifica qué hacer si la tabla ya existe en la base de datos. Aquí están las opciones disponibles:

- **'fail'**: Esta es la opción predeterminada. Si la tabla ya existe, se generará un error y no se realizará ninguna acción.
- **'replace'**: Si la tabla ya existe, se eliminará y se creará una nueva tabla con los datos del DataFrame.
- **'append'**: Si la tabla ya existe, los nuevos datos se agregarán al final de la tabla existente.

Cuando estableces el parámetro `index` en `False` en la función `to_sql` de Pandas, estás indicando que no deseas incluir el índice del DataFrame como una columna en la tabla de la base de datos. El índice en un DataFrame de Pandas es una serie de etiquetas que identifican de forma única cada fila. Por defecto, Pandas incluirá el índice como una columna en la tabla de la base de datos cuando se utiliza `to_sql`.


In [None]:
# Nombre de la tabla en la base de datos
nombre_tabla = 'provincia'
# Cargar el DataFrame en la tabla de PostgreSQL
provincia_transformado_df.to_sql(nombre_tabla, engine, if_exists='append', index=True, index_label='id')
# Cerrar la conexión a la base de datos
engine.dispose()
logging.info("DataFrame cargado en PostgreSQL correctamente.")

- Visualizamos los datos que fueron cargados en el dataframe ***`departamentos_df`***

In [9]:
departamentos_df.head()

Unnamed: 0_level_0,categoria,centroide_lat,centroide_lon,fuente,nombre,nombre_completo,provincia_id,provincia_interseccion,provincia_nombre
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
6014,Partido,-37.964616,-60.248282,IGN,Adolfo Gonzales Chaves,Partido de Adolfo Gonzales Chaves,6,0.012582,Buenos Aires
30015,Departamento,-31.290298,-58.23787,IGN,Concordia,Departamento Concordia,30,0.041468,Entre Ríos
30035,Departamento,-30.992427,-58.89186,IGN,Federal,Departamento Federal,30,0.065743,Entre Ríos
30056,Departamento,-33.022349,-58.785805,IGN,Gualeguaychú,Departamento Gualeguaychú,30,0.097076,Entre Ríos
30063,Departamento,-33.624996,-58.933896,IGN,Islas del Ibicuy,Departamento Islas del Ibicuy,30,0.064137,Entre Ríos


In [10]:
columnas_deseadas = ['nombre', 'nombre_completo', 'centroide_lat', 'centroide_lon', 'categoria', 'provincia_id']
departamentos_transformado_df = departamentos_df[columnas_deseadas]
departamentos_transformado_df.head()

Unnamed: 0_level_0,nombre,nombre_completo,centroide_lat,centroide_lon,categoria,provincia_id
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
6014,Adolfo Gonzales Chaves,Partido de Adolfo Gonzales Chaves,-37.964616,-60.248282,Partido,6
30015,Concordia,Departamento Concordia,-31.290298,-58.23787,Departamento,30
30035,Federal,Departamento Federal,-30.992427,-58.89186,Departamento,30
30056,Gualeguaychú,Departamento Gualeguaychú,-33.022349,-58.785805,Departamento,30
30063,Islas del Ibicuy,Departamento Islas del Ibicuy,-33.624996,-58.933896,Departamento,30


In [None]:
# Nombre de la tabla en la base de datos
nombre_tabla = 'departamento'
# Cargar el DataFrame en la tabla de PostgreSQL
departamentos_transformado_df.to_sql(nombre_tabla, engine, if_exists='append', index=True, index_label='id')
# Cerrar la conexión a la base de datos
engine.dispose()
logging.info("DataFrame cargado en PostgreSQL correctamente.")

### Terminamos el proceso para todos los DF

In [12]:
transferencias_df.head()

Unnamed: 0,tramite_tipo,tramite_fecha,fecha_inscripcion_inicial,registro_seccional_codigo,registro_seccional_descripcion,registro_seccional_provincia,automotor_origen,automotor_anio_modelo,automotor_tipo_codigo,automotor_tipo_descripcion,...,automotor_uso_descripcion,titular_tipo_persona,titular_domicilio_localidad,titular_domicilio_provincia,titular_genero,titular_anio_nacimiento,titular_pais_nacimiento,titular_porcentaje_titularidad,titular_domicilio_provincia_id,titular_pais_nacimiento_id
0,TRANSFERENCIA NACIONAL,2025-04-01,1984-07-03,1146,MERLO Nº 2,Buenos Aires,Nacional,1984.0,12,PICK-UP,...,Privado,Física,LIBERTAD,BUENOS AIRES,Masculino,1998,ARGENTINA,100.0,6,200.0
1,TRANSFERENCIA NACIONAL,2025-04-01,2007-11-26,1146,MERLO Nº 2,Buenos Aires,Nacional,2007.0,17,SEDAN 5 PTAS,...,Privado,Física,GONZALEZ CATAN,BUENOS AIRES,Masculino,1990,ARGENTINA,100.0,6,200.0
2,TRANSFERENCIA NACIONAL C/PEDIDO,2025-04-01,2019-01-25,1146,MERLO Nº 2,Buenos Aires,Nacional,2019.0,22,FURGON,...,Privado,Física,MERLO,BUENOS AIRES,Masculino,1997,ARGENTINA,100.0,6,200.0
3,TRANSFERENCIA NACIONAL,2025-04-01,2001-01-22,1146,MERLO Nº 2,Buenos Aires,Nacional,2001.0,13,RURAL 3 PUERTAS,...,Privado,Física,CIUDAD DE LIBERTAD,BUENOS AIRES,Femenino,1967,ARGENTINA,100.0,6,200.0
4,TRANSFERENCIA IMPORTADO C/PEDIDO,2025-04-01,2011-04-19,1146,MERLO Nº 2,Buenos Aires,Protocolo 21,2011.0,5,SEDAN 5 PTAS,...,Privado,Física,PARQUE SAN MARTIN,BUENOS AIRES,Femenino,1955,ARGENTINA,50.0,6,200.0


In [13]:
columnas_deseadas = ['registro_seccional_descripcion','tramite_fecha','automotor_origen','automotor_anio_modelo','automotor_tipo_codigo','automotor_tipo_descripcion','automotor_modelo_descripcion']
transferencias_transformado_df = transferencias_df[columnas_deseadas]

transferencias_transformado_df.head()

Unnamed: 0,registro_seccional_descripcion,tramite_fecha,automotor_origen,automotor_anio_modelo,automotor_tipo_codigo,automotor_tipo_descripcion,automotor_modelo_descripcion
0,MERLO Nº 2,2025-04-01,Nacional,1984.0,12,PICK-UP,F-100 / 1984
1,MERLO Nº 2,2025-04-01,Nacional,2007.0,17,SEDAN 5 PTAS,206 X-LINE 1.4 5P
2,MERLO Nº 2,2025-04-01,Nacional,2019.0,22,FURGON,SPRINTER 411 CDI/F 3250 STREET V1
3,MERLO Nº 2,2025-04-01,Nacional,2001.0,13,RURAL 3 PUERTAS,PARPADDAA
4,MERLO Nº 2,2025-04-01,Protocolo 21,2011.0,5,SEDAN 5 PTAS,FIT LX


In [None]:
# Nombre de la tabla en la base de datos
nombre_tabla = 'transferencia'
# Cargar el DataFrame en la tabla de PostgreSQL
transferencias_transformado_df.to_sql(nombre_tabla, engine, if_exists='replace', index=True, index_label='id')
# Cerrar la conexión a la base de datos
engine.dispose()
logging.info("DataFrame cargado en PostgreSQL correctamente.")

In [None]:
import os
from dotenv import load_dotenv
import psycopg2

load_dotenv()  # carga variables del .env

print("PASSWORD:", repr(os.getenv("DATABASE_PASSWORD")))

conn = psycopg2.connect(
    host=os.getenv("DATABASE_HOST"),
    port=os.getenv("DATABASE_PORT"),
    dbname=os.getenv("DATABASE_NAME"),
    user=os.getenv("DATABASE_USER"),
    password=os.getenv("DATABASE_PASSWORD")
)

print("Conexión OK")
conn.close()


OperationalError: connection to server at "localhost" (::1), port 5432 failed: fe_sendauth: no password supplied
