
# ETL y ELT



## Qué es ETL?


ETL es un proceso que se utiliza para mover, limpiar y estructurar datos desde una o más fuentes hasta un sistema de almacenamiento central.

Sus siglas provienen de:
- Extract (Extracción)
- Transform (Transformación)
- Load (Carga)

Es un pilar fundamental en el mundo del análisis y la ingeniería de datos.




## Para qué sirve el ETL?


- Centralizar información dispersa
- Limpiar y validar datos inconsistentes
- Transformar datos crudos en información útil
- Preparar datos para reporting, dashboards o machine learning




## Revisemos cada uno de las letras de la sigla ETL



### E - Extract (Extracción)


Acá se toman los datos desde su fuente original, sin modificarlos, comúnmente de:
- Bases de datos (SQL Server, PostgreSQL, Oracle)
- Archivos planos (CSV, Excel, JSON)
- APIs REST
- Otros: ERP, CRM, sensores


### T - Transform (Transformación)


Acá los datos crudos son transformados en información útil y coherente. El objetivo es producir datos estructurados, consistentes y listos para ser cargados. Algunas transformaciones comunes son:
- **Limpieza de datos**: e.g. remover nulos, valores inválidos, duplicados
- **Conversión de tipos de datos**: e.g. texto a fecha
- **Unificación de formatos**: e.g. 2025/04/20 → 20-04-2025
- **Cálculos y KPIs derivados**: e.g. márgenes de ganancia
- **Reglas de negocio aplicadas**: e.g. definir categorías (rojo, amarillo, verde) según el márgen de ganancia
- **Enriquecimiento con fuentes externas**: para expandir las capacidades de la data original


### L - Load (Carga)


Acá se cargan los datos transformados al sistema destino.

Los modos de carga son:
- **Full Load**: se borra lo anterior y se carga todo nuevamente
- **Append**: se agregan datos al final sin borrar lo anterior
- **Incremental Load**: solo se cargan los cambios nuevos desde la última ejecución

Los destinos comunes para guardar datos son:
- **Data Warehouse**
- **Data Marts** (subconjuntos temáticos)
- **Bases SQL** optimizadas para BI


## Qué es un Data Warehouse?


Un Data Warehouse es una base de datos diseñada específicamente para facilitar consultas y análisis de grandes volúmenes de información estructurada. Sus características más importantes son:
- Almacena datos históricos
- Está optimizado para consultas rápidas, no para transacciones
- Integra información de múltiples fuentes
- Soporta decisiones estratégicas, no procesos operativos

Algunos ejemplos son: Snowflake, Amazon Redshift, Google BigQuery, Azure Synapse, bases de datos SQL.

En el mundo real, un data warehouse contiene información proveniente de transacciones (e.g. compras, pagos, visitas, operaciones, etc.), pero no se usa para ejecutar esas transacciones, sino para analizarlas. Por ejemplo:
1. Una base transaccional guarda la venta de un producto en tiempo real
2. Luego, esa venta se replica al data warehouse para incluirla en un reporte de facturación o un análisis de rentabilidad


## Qué es ELT y cómo se diferencia?


ELT invierte el orden: primero se extrae, luego se carga, y después se transforma directamente dentro del data warehouse. Esto es posible cuando el sistema de destino (ej. BigQuery, Snowflake) es lo suficientemente potente como para transformar datos internamente.


## Cuándo usar ETL y cuándo usar ELT?


**ETL**:
- Si se necesita preprocesar datos sensibles antes de almacenarlos
- Si los sistemas destino son limitados o no soportan cargas crudas
- Si ya se cuenta con infraestructura tradicional o herramientas ETL legacy

**ELT**:
- Si se usan herramientas cloud modernas (Snowflake, Redshift, BigQuery)
- Si se requiere trazabilidad y versionado de transformaciones en SQL
- Si los datos pueden ser cargados en crudo sin riesgos

**Considerar que**:
- Tanto ETL como ELT son fundamentales en ingeniería de datos
- No son excluyentes, ya que muchas arquitecturas modernas combinan ambos enfoques
- Lo importante no es la herramienta, sino entender el flujo de valor del dato: traerlo, hacerlo útil y disponibilizarlo


# Ejercicios



## 1. Leer las ventas del dataset online_retail, inspeccionar los datos, limpiarlos y guardarlos como otro csv


In [1]:
import pandas as pd
import numpy as np

# Leer el archivo CSV con codificación apropiada

retail_df = pd.read_csv("datos_a_levantar/online_retail.csv", encoding="ISO-8859-1")
retail_df

Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country
0,536365,85123A,WHITE HANGING HEART T-LIGHT HOLDER,6,12/1/2010 8:26,2.55,17850.0,United Kingdom
1,536365,71053,WHITE METAL LANTERN,6,12/1/2010 8:26,3.39,17850.0,United Kingdom
2,536365,84406B,CREAM CUPID HEARTS COAT HANGER,8,12/1/2010 8:26,2.75,17850.0,United Kingdom
3,536365,84029G,KNITTED UNION FLAG HOT WATER BOTTLE,6,12/1/2010 8:26,3.39,17850.0,United Kingdom
4,536365,84029E,RED WOOLLY HOTTIE WHITE HEART.,6,12/1/2010 8:26,3.39,17850.0,United Kingdom
...,...,...,...,...,...,...,...,...
541904,581587,22613,PACK OF 20 SPACEBOY NAPKINS,12,12/9/2011 12:50,0.85,12680.0,France
541905,581587,22899,CHILDREN'S APRON DOLLY GIRL,6,12/9/2011 12:50,2.10,12680.0,France
541906,581587,23254,CHILDRENS CUTLERY DOLLY GIRL,4,12/9/2011 12:50,4.15,12680.0,France
541907,581587,23255,CHILDRENS CUTLERY CIRCUS PARADE,4,12/9/2011 12:50,4.15,12680.0,France


Primeras filas del dataset:

In [2]:
retail_df.head()

Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country
0,536365,85123A,WHITE HANGING HEART T-LIGHT HOLDER,6,12/1/2010 8:26,2.55,17850.0,United Kingdom
1,536365,71053,WHITE METAL LANTERN,6,12/1/2010 8:26,3.39,17850.0,United Kingdom
2,536365,84406B,CREAM CUPID HEARTS COAT HANGER,8,12/1/2010 8:26,2.75,17850.0,United Kingdom
3,536365,84029G,KNITTED UNION FLAG HOT WATER BOTTLE,6,12/1/2010 8:26,3.39,17850.0,United Kingdom
4,536365,84029E,RED WOOLLY HOTTIE WHITE HEART.,6,12/1/2010 8:26,3.39,17850.0,United Kingdom


In [3]:
retail_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 541909 entries, 0 to 541908
Data columns (total 8 columns):
 #   Column       Non-Null Count   Dtype  
---  ------       --------------   -----  
 0   InvoiceNo    541909 non-null  object 
 1   StockCode    541909 non-null  object 
 2   Description  540455 non-null  object 
 3   Quantity     541909 non-null  int64  
 4   InvoiceDate  541909 non-null  object 
 5   UnitPrice    541909 non-null  float64
 6   CustomerID   406829 non-null  float64
 7   Country      541909 non-null  object 
dtypes: float64(2), int64(1), object(5)
memory usage: 33.1+ MB


In [4]:
# Eliminar filas completamente duplicadas

retail_df = retail_df = retail_df.drop_duplicates()
retail_df.shape

(536641, 8)

In [5]:
# Eliminar filas duplicadas según un subset de columnas

retail_df = retail_df.drop_duplicates(subset=["InvoiceNo", "StockCode"])
retail_df.shape

(531225, 8)

In [6]:
# Eliminar filas con nulos en columnas clave

retail_df = retail_df.dropna(subset=["InvoiceNo", "StockCode", "Quantity", "UnitPrice"])
retail_df.shape

(531225, 8)

In [7]:
# Filtrar para obtener sólo cantidades y precios mayores a 0

retail_df = retail_df[(retail_df["Quantity"] > 0) & (retail_df["UnitPrice"] > 0)]
retail_df.shape

(519582, 8)

In [8]:
# Convertir InvoiceDate a datetime

retail_df["InvoiceDate"] = pd.to_datetime(retail_df["InvoiceDate"])
retail_df.head(5)

Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country
0,536365,85123A,WHITE HANGING HEART T-LIGHT HOLDER,6,2010-12-01 08:26:00,2.55,17850.0,United Kingdom
1,536365,71053,WHITE METAL LANTERN,6,2010-12-01 08:26:00,3.39,17850.0,United Kingdom
2,536365,84406B,CREAM CUPID HEARTS COAT HANGER,8,2010-12-01 08:26:00,2.75,17850.0,United Kingdom
3,536365,84029G,KNITTED UNION FLAG HOT WATER BOTTLE,6,2010-12-01 08:26:00,3.39,17850.0,United Kingdom
4,536365,84029E,RED WOOLLY HOTTIE WHITE HEART.,6,2010-12-01 08:26:00,3.39,17850.0,United Kingdom


In [9]:
# Limpiar texto: quitar espacios

retail_df["StockCode"] = retail_df["StockCode"].str.strip()
retail_df["Description"] = retail_df["Description"].str.strip()

retail_df.head(5)

Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country
0,536365,85123A,WHITE HANGING HEART T-LIGHT HOLDER,6,2010-12-01 08:26:00,2.55,17850.0,United Kingdom
1,536365,71053,WHITE METAL LANTERN,6,2010-12-01 08:26:00,3.39,17850.0,United Kingdom
2,536365,84406B,CREAM CUPID HEARTS COAT HANGER,8,2010-12-01 08:26:00,2.75,17850.0,United Kingdom
3,536365,84029G,KNITTED UNION FLAG HOT WATER BOTTLE,6,2010-12-01 08:26:00,3.39,17850.0,United Kingdom
4,536365,84029E,RED WOOLLY HOTTIE WHITE HEART.,6,2010-12-01 08:26:00,3.39,17850.0,United Kingdom


In [10]:
# Reemplazar descripciones que contienen "?" por vacío

retail_df["Description"] = retail_df["Description"].apply(lambda x: np.nan if "?" in x else x)

retail_df.head(5)

Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country
0,536365,85123A,WHITE HANGING HEART T-LIGHT HOLDER,6,2010-12-01 08:26:00,2.55,17850.0,United Kingdom
1,536365,71053,WHITE METAL LANTERN,6,2010-12-01 08:26:00,3.39,17850.0,United Kingdom
2,536365,84406B,CREAM CUPID HEARTS COAT HANGER,8,2010-12-01 08:26:00,2.75,17850.0,United Kingdom
3,536365,84029G,KNITTED UNION FLAG HOT WATER BOTTLE,6,2010-12-01 08:26:00,3.39,17850.0,United Kingdom
4,536365,84029E,RED WOOLLY HOTTIE WHITE HEART.,6,2010-12-01 08:26:00,3.39,17850.0,United Kingdom


In [11]:
# Eliminar facturas de devolución (que empiezan con 'C')

retail_df = retail_df[~retail_df["InvoiceNo"].astype(str).str.startswith('C')]
retail_df.head(5)

Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country
0,536365,85123A,WHITE HANGING HEART T-LIGHT HOLDER,6,2010-12-01 08:26:00,2.55,17850.0,United Kingdom
1,536365,71053,WHITE METAL LANTERN,6,2010-12-01 08:26:00,3.39,17850.0,United Kingdom
2,536365,84406B,CREAM CUPID HEARTS COAT HANGER,8,2010-12-01 08:26:00,2.75,17850.0,United Kingdom
3,536365,84029G,KNITTED UNION FLAG HOT WATER BOTTLE,6,2010-12-01 08:26:00,3.39,17850.0,United Kingdom
4,536365,84029E,RED WOOLLY HOTTIE WHITE HEART.,6,2010-12-01 08:26:00,3.39,17850.0,United Kingdom


In [12]:
# Calcular campo TotalPrice

retail_df["TotalPrice"] = retail_df["Quantity"] * retail_df["UnitPrice"]
retail_df.head(5)

Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country,TotalPrice
0,536365,85123A,WHITE HANGING HEART T-LIGHT HOLDER,6,2010-12-01 08:26:00,2.55,17850.0,United Kingdom,15.3
1,536365,71053,WHITE METAL LANTERN,6,2010-12-01 08:26:00,3.39,17850.0,United Kingdom,20.34
2,536365,84406B,CREAM CUPID HEARTS COAT HANGER,8,2010-12-01 08:26:00,2.75,17850.0,United Kingdom,22.0
3,536365,84029G,KNITTED UNION FLAG HOT WATER BOTTLE,6,2010-12-01 08:26:00,3.39,17850.0,United Kingdom,20.34
4,536365,84029E,RED WOOLLY HOTTIE WHITE HEART.,6,2010-12-01 08:26:00,3.39,17850.0,United Kingdom,20.34


In [13]:
retail_df.shape

(519582, 9)

In [14]:
# Limpiar CustomerID

#retail_df = retail_df.dropna(subset=["CustomerID"])
retail_df["CustomerID"] = retail_df["CustomerID"].fillna(-1)

retail_df["CustomerID"] = retail_df["CustomerID"].astype(int)
retail_df.head(5)

Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country,TotalPrice
0,536365,85123A,WHITE HANGING HEART T-LIGHT HOLDER,6,2010-12-01 08:26:00,2.55,17850,United Kingdom,15.3
1,536365,71053,WHITE METAL LANTERN,6,2010-12-01 08:26:00,3.39,17850,United Kingdom,20.34
2,536365,84406B,CREAM CUPID HEARTS COAT HANGER,8,2010-12-01 08:26:00,2.75,17850,United Kingdom,22.0
3,536365,84029G,KNITTED UNION FLAG HOT WATER BOTTLE,6,2010-12-01 08:26:00,3.39,17850,United Kingdom,20.34
4,536365,84029E,RED WOOLLY HOTTIE WHITE HEART.,6,2010-12-01 08:26:00,3.39,17850,United Kingdom,20.34


In [15]:
retail_df.shape

(519582, 9)

In [16]:
# Resetear índice

retail_df = retail_df.reset_index(drop=True)
retail_df.head(5)

Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country,TotalPrice
0,536365,85123A,WHITE HANGING HEART T-LIGHT HOLDER,6,2010-12-01 08:26:00,2.55,17850,United Kingdom,15.3
1,536365,71053,WHITE METAL LANTERN,6,2010-12-01 08:26:00,3.39,17850,United Kingdom,20.34
2,536365,84406B,CREAM CUPID HEARTS COAT HANGER,8,2010-12-01 08:26:00,2.75,17850,United Kingdom,22.0
3,536365,84029G,KNITTED UNION FLAG HOT WATER BOTTLE,6,2010-12-01 08:26:00,3.39,17850,United Kingdom,20.34
4,536365,84029E,RED WOOLLY HOTTIE WHITE HEART.,6,2010-12-01 08:26:00,3.39,17850,United Kingdom,20.34


In [17]:
retail_df.to_csv("resultados/online_retail_clean.csv")


## 2. Leer un xlsx, unpivotearlo y pivotearlo, y guardar los resultados


In [18]:
"""
import pandas as pd
import numpy as np

np.random.seed(42)  # Para reproducibilidad

departamentos = [
    ("Finanzas", "Contabilidad"),
    ("IT", "Infraestructura"),
    ("IT", "Desarrollo"),
    ("Marketing", "Digital"),
    ("Marketing", "Eventos")
]

meses = [
    "Enero", "Febrero", "Marzo", "Abril", "Mayo", "Junio",
    "Julio", "Agosto", "Septiembre", "Octubre", "Noviembre", "Diciembre"
]

# Generar datos con dispersión
rows = []
for dept, sub in departamentos:
    base_headcount = np.random.randint(2, 7)
    for mes in meses:
        # Headcount varía un poco mes a mes
        headcount = base_headcount + np.random.randint(-1, 2)
        headcount = max(1, headcount)  # mínimo 1
        # Presupuesto basado en headcount con dispersión adicional
        presupuesto = headcount * np.random.randint(4000, 7000)
        rows.append({
            "Departamento": dept,
            "Subdepartamento": sub,
            f"{mes} Headcount": headcount,
            f"{mes} Presupuesto": presupuesto
        })

# Combinar columnas mensuales por tipo
from collections import defaultdict
rows_agrupados = defaultdict(dict)
for row in rows:
    key = (row["Departamento"], row["Subdepartamento"])
    for k, v in row.items():
        if k not in ("Departamento", "Subdepartamento"):
            rows_agrupados[key][k] = v
    rows_agrupados[key]["Departamento"] = key[0]
    rows_agrupados[key]["Subdepartamento"] = key[1]

# Convertir a DataFrame
presupuesto_df = pd.DataFrame(rows_agrupados.values())


# Definir orden de meses y métricas
meses = [
    "Enero", "Febrero", "Marzo", "Abril", "Mayo", "Junio",
    "Julio", "Agosto", "Septiembre", "Octubre", "Noviembre", "Diciembre"
]
metricas = ["Headcount", "Presupuesto"]

# Generar lista ordenada de columnas
columnas_ordenadas = ["Departamento", "Subdepartamento"]
for mes in meses:
    for m in metricas:
        columnas_ordenadas.append(f"{mes} {m}")

# Reordenar columnas
presupuesto_df = presupuesto_df[columnas_ordenadas]


# Guardar el archivo con datos más realistas
presupuesto_df.to_excel("datos_a_levantar/presupuesto_2024.xlsx", index=False)

print("Archivo generado con dispersión realista.")
"""

'\nimport pandas as pd\nimport numpy as np\n\nnp.random.seed(42)  # Para reproducibilidad\n\ndepartamentos = [\n    ("Finanzas", "Contabilidad"),\n    ("IT", "Infraestructura"),\n    ("IT", "Desarrollo"),\n    ("Marketing", "Digital"),\n    ("Marketing", "Eventos")\n]\n\nmeses = [\n    "Enero", "Febrero", "Marzo", "Abril", "Mayo", "Junio",\n    "Julio", "Agosto", "Septiembre", "Octubre", "Noviembre", "Diciembre"\n]\n\n# Generar datos con dispersión\nrows = []\nfor dept, sub in departamentos:\n    base_headcount = np.random.randint(2, 7)\n    for mes in meses:\n        # Headcount varía un poco mes a mes\n        headcount = base_headcount + np.random.randint(-1, 2)\n        headcount = max(1, headcount)  # mínimo 1\n        # Presupuesto basado en headcount con dispersión adicional\n        presupuesto = headcount * np.random.randint(4000, 7000)\n        rows.append({\n            "Departamento": dept,\n            "Subdepartamento": sub,\n            f"{mes} Headcount": headcount,\n  

In [19]:
# 1. Leer el archivo original
presupuesto_df = pd.read_excel("datos_a_levantar/presupuesto_2024.xlsx", engine="openpyxl")
presupuesto_df.head(5)

Unnamed: 0,Departamento,Subdepartamento,Enero Headcount,Enero Presupuesto,Febrero Headcount,Febrero Presupuesto,Marzo Headcount,Marzo Presupuesto,Abril Headcount,Abril Presupuesto,...,Agosto Headcount,Agosto Presupuesto,Septiembre Headcount,Septiembre Presupuesto,Octubre Headcount,Octubre Presupuesto,Noviembre Headcount,Noviembre Presupuesto,Diciembre Headcount,Diciembre Presupuesto
0,Finanzas,Contabilidad,4,21176,6,30570,4,22552,5,22330,...,6,34110,4,19076,5,34265,5,26075,4,20736
1,IT,Infraestructura,5,20105,4,18988,4,17896,6,39348,...,5,22810,6,31602,4,18584,4,27552,6,31782
2,IT,Desarrollo,4,25452,5,21205,5,34120,5,33060,...,6,24204,5,29775,5,25105,5,33065,5,27500
3,Marketing,Digital,3,16737,3,12603,3,14985,3,14445,...,2,13534,2,8674,4,20304,3,18792,2,10360
4,Marketing,Eventos,5,32840,5,30135,7,36134,7,46480,...,6,36528,7,29400,6,27012,7,40257,5,30730


In [20]:
# Unpivot

presupuesto_unpivot = presupuesto_df.melt(
    id_vars=["Departamento", "Subdepartamento"],
    var_name="Mes_Tipo",
    value_name="Valor"
)

presupuesto_unpivot = presupuesto_unpivot.sort_values(by=["Departamento", "Subdepartamento"], ascending=True)
presupuesto_unpivot.head(20)

Unnamed: 0,Departamento,Subdepartamento,Mes_Tipo,Valor
0,Finanzas,Contabilidad,Enero Headcount,4
5,Finanzas,Contabilidad,Enero Presupuesto,21176
10,Finanzas,Contabilidad,Febrero Headcount,6
15,Finanzas,Contabilidad,Febrero Presupuesto,30570
20,Finanzas,Contabilidad,Marzo Headcount,4
25,Finanzas,Contabilidad,Marzo Presupuesto,22552
30,Finanzas,Contabilidad,Abril Headcount,5
35,Finanzas,Contabilidad,Abril Presupuesto,22330
40,Finanzas,Contabilidad,Mayo Headcount,6
45,Finanzas,Contabilidad,Mayo Presupuesto,25980


In [21]:
# Separar mes y tipo a través de usar regular expressions (RegEx)

presupuesto_unpivot[["Mes", "Tipo"]] = presupuesto_unpivot["Mes_Tipo"].str.extract(r"(\w+)\s+(Headcount|Presupuesto)")
presupuesto_unpivot.head(10)

Unnamed: 0,Departamento,Subdepartamento,Mes_Tipo,Valor,Mes,Tipo
0,Finanzas,Contabilidad,Enero Headcount,4,Enero,Headcount
5,Finanzas,Contabilidad,Enero Presupuesto,21176,Enero,Presupuesto
10,Finanzas,Contabilidad,Febrero Headcount,6,Febrero,Headcount
15,Finanzas,Contabilidad,Febrero Presupuesto,30570,Febrero,Presupuesto
20,Finanzas,Contabilidad,Marzo Headcount,4,Marzo,Headcount
25,Finanzas,Contabilidad,Marzo Presupuesto,22552,Marzo,Presupuesto
30,Finanzas,Contabilidad,Abril Headcount,5,Abril,Headcount
35,Finanzas,Contabilidad,Abril Presupuesto,22330,Abril,Presupuesto
40,Finanzas,Contabilidad,Mayo Headcount,6,Mayo,Headcount
45,Finanzas,Contabilidad,Mayo Presupuesto,25980,Mayo,Presupuesto


(\w+)         → Captura una o más letras/dígitos/subguiones → corresponde al mes

\s+           → Uno o más espacios (separador entre palabras)

(Headcount|Presupuesto) → Captura exactamente una de esas dos palabras

Ahora, no queremos que cada mes aparezca dos veces para cada subdepartamento. Por lo cual, queremos pivotear la data para que para un mes y un subdepartamento dado, haya una columna de headcount y otra de presupuesto.

Esto se logra pivoteando la data, que lo hacemos a continuación.

In [22]:
# Pivot final

presupuesto_transformado = presupuesto_unpivot.pivot_table(
    index=["Departamento", "Subdepartamento", "Mes"],
    columns="Tipo",
    values="Valor",
    aggfunc="sum"
).reset_index()

presupuesto_transformado.head(15)

Tipo,Departamento,Subdepartamento,Mes,Headcount,Presupuesto
0,Finanzas,Contabilidad,Abril,5,22330
1,Finanzas,Contabilidad,Agosto,6,34110
2,Finanzas,Contabilidad,Diciembre,4,20736
3,Finanzas,Contabilidad,Enero,4,21176
4,Finanzas,Contabilidad,Febrero,6,30570
5,Finanzas,Contabilidad,Julio,4,27676
6,Finanzas,Contabilidad,Junio,6,36810
7,Finanzas,Contabilidad,Marzo,4,22552
8,Finanzas,Contabilidad,Mayo,6,25980
9,Finanzas,Contabilidad,Noviembre,5,26075


Los meses no están ordenados. Si bien no es indispensable, la data sería más fácil de leer si los meses estuvieran ordenados.

Pero hay un desafío. Pandas no entiende la cronología de estos meses, y los interpreta como strings (objects en Pandas). Por lo tanto, si ordenamos por mes, estaríamos ordenado alfabéticamente, y eso no es lo que querríamos hacer.

Para solucionar esto, vamos a definir a la columna mes como CATEGORICAL.

In [23]:
orden_meses = [
    "Enero", "Febrero", "Marzo", "Abril", "Mayo", "Junio",
    "Julio", "Agosto", "Septiembre", "Octubre", "Noviembre", "Diciembre"
]

In [24]:
presupuesto_transformado["Mes"] = pd.Categorical(
    presupuesto_transformado["Mes"],
    categories=orden_meses,
    ordered=True
)

In [25]:
presupuesto_transformado = presupuesto_transformado.sort_values(
    by=["Departamento", "Subdepartamento", "Mes"]
).reset_index(drop=True)

presupuesto_transformado.head(15)

Tipo,Departamento,Subdepartamento,Mes,Headcount,Presupuesto
0,Finanzas,Contabilidad,Enero,4,21176
1,Finanzas,Contabilidad,Febrero,6,30570
2,Finanzas,Contabilidad,Marzo,4,22552
3,Finanzas,Contabilidad,Abril,5,22330
4,Finanzas,Contabilidad,Mayo,6,25980
5,Finanzas,Contabilidad,Junio,6,36810
6,Finanzas,Contabilidad,Julio,4,27676
7,Finanzas,Contabilidad,Agosto,6,34110
8,Finanzas,Contabilidad,Septiembre,4,19076
9,Finanzas,Contabilidad,Octubre,5,34265


Convertimos la columna "Mes" de tipo object (texto común) a un tipo especial: Categorical.

Un Categorical en pandas es una columna que:
- Tiene un número limitado de valores posibles (categories)
- Puede tener un orden explícito si se lo indica (ordered=True)

In [26]:
# Finalmente, guardamos el archivo

presupuesto_transformado.to_excel("resultados/presupuesto_2024_transformado.xlsx", index=False)


## 3. Obtener datos usando una API, limpiarlos, y guardar el resultado como un csv


In [27]:
import requests

In [28]:
url = "https://api.bcra.gob.ar/estadisticascambiarias/v1.0/Cotizaciones"
params = {"fecha": "2025-04-16"}

response = requests.get(url, params=params, verify=False)

if response.status_code == 200:
    print(response.json())
else:
    print(f"Error: {response.status_code}")



{'status': 200, 'results': {'fecha': '2025-04-16', 'detalle': [{'codigoMoneda': 'ARS', 'descripcion': 'PESO', 'tipoPase': 0.000881, 'tipoCotizacion': 0.0}, {'codigoMoneda': 'AUD', 'descripcion': 'DOLAR AUSTRALIA', 'tipoPase': 0.6362, 'tipoCotizacion': 722.087}, {'codigoMoneda': 'AWG', 'descripcion': 'FLORIN (ANTILLAS HOLANDESAS)', 'tipoPase': 0.558659, 'tipoCotizacion': 634.078212}, {'codigoMoneda': 'BOB', 'descripcion': 'BOLIVIANOS', 'tipoPase': 0.145159, 'tipoCotizacion': 164.755407}, {'codigoMoneda': 'BRL', 'descripcion': 'REAL', 'tipoPase': 0.170413, 'tipoCotizacion': 193.418653}, {'codigoMoneda': 'CAD', 'descripcion': 'DOLAR CANADIEN.', 'tipoPase': 0.719683, 'tipoCotizacion': 816.84059}, {'codigoMoneda': 'CHF', 'descripcion': 'FRANCO SUIZO', 'tipoPase': 1.226392, 'tipoCotizacion': 1391.954869}, {'codigoMoneda': 'CLP', 'descripcion': 'PESO CHILENO', 'tipoPase': 0.001031, 'tipoCotizacion': 1.169633}, {'codigoMoneda': 'CNH', 'descripcion': 'YUAN CNH RENMINBI OFF SHORE', 'tipoPase': 0

In [29]:
response

<Response [200]>

In [30]:
type(response)

requests.models.Response

In [31]:
type(response.json())

dict

In [32]:
response.json().keys()

dict_keys(['status', 'results'])

In [33]:
response.json()['status']

200

In [34]:
response.json()['results']

{'fecha': '2025-04-16',
 'detalle': [{'codigoMoneda': 'ARS',
   'descripcion': 'PESO',
   'tipoPase': 0.000881,
   'tipoCotizacion': 0.0},
  {'codigoMoneda': 'AUD',
   'descripcion': 'DOLAR AUSTRALIA',
   'tipoPase': 0.6362,
   'tipoCotizacion': 722.087},
  {'codigoMoneda': 'AWG',
   'descripcion': 'FLORIN (ANTILLAS HOLANDESAS)',
   'tipoPase': 0.558659,
   'tipoCotizacion': 634.078212},
  {'codigoMoneda': 'BOB',
   'descripcion': 'BOLIVIANOS',
   'tipoPase': 0.145159,
   'tipoCotizacion': 164.755407},
  {'codigoMoneda': 'BRL',
   'descripcion': 'REAL',
   'tipoPase': 0.170413,
   'tipoCotizacion': 193.418653},
  {'codigoMoneda': 'CAD',
   'descripcion': 'DOLAR CANADIEN.',
   'tipoPase': 0.719683,
   'tipoCotizacion': 816.84059},
  {'codigoMoneda': 'CHF',
   'descripcion': 'FRANCO SUIZO',
   'tipoPase': 1.226392,
   'tipoCotizacion': 1391.954869},
  {'codigoMoneda': 'CLP',
   'descripcion': 'PESO CHILENO',
   'tipoPase': 0.001031,
   'tipoCotizacion': 1.169633},
  {'codigoMoneda': 'CNH

In [35]:
response.json()['results']['detalle']

[{'codigoMoneda': 'ARS',
  'descripcion': 'PESO',
  'tipoPase': 0.000881,
  'tipoCotizacion': 0.0},
 {'codigoMoneda': 'AUD',
  'descripcion': 'DOLAR AUSTRALIA',
  'tipoPase': 0.6362,
  'tipoCotizacion': 722.087},
 {'codigoMoneda': 'AWG',
  'descripcion': 'FLORIN (ANTILLAS HOLANDESAS)',
  'tipoPase': 0.558659,
  'tipoCotizacion': 634.078212},
 {'codigoMoneda': 'BOB',
  'descripcion': 'BOLIVIANOS',
  'tipoPase': 0.145159,
  'tipoCotizacion': 164.755407},
 {'codigoMoneda': 'BRL',
  'descripcion': 'REAL',
  'tipoPase': 0.170413,
  'tipoCotizacion': 193.418653},
 {'codigoMoneda': 'CAD',
  'descripcion': 'DOLAR CANADIEN.',
  'tipoPase': 0.719683,
  'tipoCotizacion': 816.84059},
 {'codigoMoneda': 'CHF',
  'descripcion': 'FRANCO SUIZO',
  'tipoPase': 1.226392,
  'tipoCotizacion': 1391.954869},
 {'codigoMoneda': 'CLP',
  'descripcion': 'PESO CHILENO',
  'tipoPase': 0.001031,
  'tipoCotizacion': 1.169633},
 {'codigoMoneda': 'CNH',
  'descripcion': 'YUAN CNH RENMINBI OFF SHORE',
  'tipoPase': 0.1

In [36]:
type(response.json()['results']['detalle'])

list

In [37]:
conv_df = pd.DataFrame(response.json()['results']['detalle'])
conv_df

Unnamed: 0,codigoMoneda,descripcion,tipoPase,tipoCotizacion
0,ARS,PESO,0.000881,0.0
1,AUD,DOLAR AUSTRALIA,0.6362,722.087
2,AWG,FLORIN (ANTILLAS HOLANDESAS),0.558659,634.078212
3,BOB,BOLIVIANOS,0.145159,164.755407
4,BRL,REAL,0.170413,193.418653
5,CAD,DOLAR CANADIEN.,0.719683,816.84059
6,CHF,FRANCO SUIZO,1.226392,1391.954869
7,CLP,PESO CHILENO,0.001031,1.169633
8,CNH,YUAN CNH RENMINBI OFF SHORE,0.136919,155.402815
9,CNY,YUAN CNY RENMINBI,0.136996,155.490102


In [38]:
# Agregamos la fecha que usamos como parámetro en la llamada como una columna más del dataset

conv_df_con_fecha = conv_df.copy(deep=True)
conv_df_con_fecha['fecha'] = params['fecha']
conv_df_con_fecha

Unnamed: 0,codigoMoneda,descripcion,tipoPase,tipoCotizacion,fecha
0,ARS,PESO,0.000881,0.0,2025-04-16
1,AUD,DOLAR AUSTRALIA,0.6362,722.087,2025-04-16
2,AWG,FLORIN (ANTILLAS HOLANDESAS),0.558659,634.078212,2025-04-16
3,BOB,BOLIVIANOS,0.145159,164.755407,2025-04-16
4,BRL,REAL,0.170413,193.418653,2025-04-16
5,CAD,DOLAR CANADIEN.,0.719683,816.84059,2025-04-16
6,CHF,FRANCO SUIZO,1.226392,1391.954869,2025-04-16
7,CLP,PESO CHILENO,0.001031,1.169633,2025-04-16
8,CNH,YUAN CNH RENMINBI OFF SHORE,0.136919,155.402815,2025-04-16
9,CNY,YUAN CNY RENMINBI,0.136996,155.490102,2025-04-16


In [39]:
# Ordenamos las columnas para que la fecha correspondiente a estos valores de conversión nos quede al comienzo del dataset

conv_df_con_fecha = conv_df_con_fecha[['fecha', 'codigoMoneda', 'descripcion', 'tipoPase', 'tipoCotizacion']]
conv_df_con_fecha.head(5)

Unnamed: 0,fecha,codigoMoneda,descripcion,tipoPase,tipoCotizacion
0,2025-04-16,ARS,PESO,0.000881,0.0
1,2025-04-16,AUD,DOLAR AUSTRALIA,0.6362,722.087
2,2025-04-16,AWG,FLORIN (ANTILLAS HOLANDESAS),0.558659,634.078212
3,2025-04-16,BOB,BOLIVIANOS,0.145159,164.755407
4,2025-04-16,BRL,REAL,0.170413,193.418653


Otra manera de agregar la fecha en la primera columna es utilizando la función insert del DataFrame

In [40]:
conv_df_con_fecha_insert = conv_df.copy(deep=True)

conv_df_con_fecha_insert.insert(0, 'fecha', params['fecha'])
conv_df_con_fecha_insert

Unnamed: 0,fecha,codigoMoneda,descripcion,tipoPase,tipoCotizacion
0,2025-04-16,ARS,PESO,0.000881,0.0
1,2025-04-16,AUD,DOLAR AUSTRALIA,0.6362,722.087
2,2025-04-16,AWG,FLORIN (ANTILLAS HOLANDESAS),0.558659,634.078212
3,2025-04-16,BOB,BOLIVIANOS,0.145159,164.755407
4,2025-04-16,BRL,REAL,0.170413,193.418653
5,2025-04-16,CAD,DOLAR CANADIEN.,0.719683,816.84059
6,2025-04-16,CHF,FRANCO SUIZO,1.226392,1391.954869
7,2025-04-16,CLP,PESO CHILENO,0.001031,1.169633
8,2025-04-16,CNH,YUAN CNH RENMINBI OFF SHORE,0.136919,155.402815
9,2025-04-16,CNY,YUAN CNY RENMINBI,0.136996,155.490102


Otra manera de obtener los mismos resultados, de manera más directa pero avanzada, se detalla a continuación:

In [41]:
conv_df_alt = pd.DataFrame(response.json()['results'])
conv_df_alt

Unnamed: 0,fecha,detalle
0,2025-04-16,"{'codigoMoneda': 'ARS', 'descripcion': 'PESO',..."
1,2025-04-16,"{'codigoMoneda': 'AUD', 'descripcion': 'DOLAR ..."
2,2025-04-16,"{'codigoMoneda': 'AWG', 'descripcion': 'FLORIN..."
3,2025-04-16,"{'codigoMoneda': 'BOB', 'descripcion': 'BOLIVI..."
4,2025-04-16,"{'codigoMoneda': 'BRL', 'descripcion': 'REAL',..."
5,2025-04-16,"{'codigoMoneda': 'CAD', 'descripcion': 'DOLAR ..."
6,2025-04-16,"{'codigoMoneda': 'CHF', 'descripcion': 'FRANCO..."
7,2025-04-16,"{'codigoMoneda': 'CLP', 'descripcion': 'PESO C..."
8,2025-04-16,"{'codigoMoneda': 'CNH', 'descripcion': 'YUAN C..."
9,2025-04-16,"{'codigoMoneda': 'CNY', 'descripcion': 'YUAN C..."


In [42]:
detalle_df = pd.json_normalize(conv_df_alt['detalle'])
detalle_df

Unnamed: 0,codigoMoneda,descripcion,tipoPase,tipoCotizacion
0,ARS,PESO,0.000881,0.0
1,AUD,DOLAR AUSTRALIA,0.6362,722.087
2,AWG,FLORIN (ANTILLAS HOLANDESAS),0.558659,634.078212
3,BOB,BOLIVIANOS,0.145159,164.755407
4,BRL,REAL,0.170413,193.418653
5,CAD,DOLAR CANADIEN.,0.719683,816.84059
6,CHF,FRANCO SUIZO,1.226392,1391.954869
7,CLP,PESO CHILENO,0.001031,1.169633
8,CNH,YUAN CNH RENMINBI OFF SHORE,0.136919,155.402815
9,CNY,YUAN CNY RENMINBI,0.136996,155.490102


In [43]:
conv_df_alt = pd.concat([conv_df_alt['fecha'], detalle_df], axis=1)
conv_df_alt

Unnamed: 0,fecha,codigoMoneda,descripcion,tipoPase,tipoCotizacion
0,2025-04-16,ARS,PESO,0.000881,0.0
1,2025-04-16,AUD,DOLAR AUSTRALIA,0.6362,722.087
2,2025-04-16,AWG,FLORIN (ANTILLAS HOLANDESAS),0.558659,634.078212
3,2025-04-16,BOB,BOLIVIANOS,0.145159,164.755407
4,2025-04-16,BRL,REAL,0.170413,193.418653
5,2025-04-16,CAD,DOLAR CANADIEN.,0.719683,816.84059
6,2025-04-16,CHF,FRANCO SUIZO,1.226392,1391.954869
7,2025-04-16,CLP,PESO CHILENO,0.001031,1.169633
8,2025-04-16,CNH,YUAN CNH RENMINBI OFF SHORE,0.136919,155.402815
9,2025-04-16,CNY,YUAN CNY RENMINBI,0.136996,155.490102


Ahora hacemos la misma llamada en un ciclo *for* para distintas fechas:

In [44]:
url = "https://api.bcra.gob.ar/estadisticascambiarias/v1.0/Cotizaciones"
fechas = [
            "2025-04-16"
            ,"2025-04-15"
            ,"2025-04-14"
        ]
resultados = pd.DataFrame(columns = ['fecha', 'codigoMoneda', 'descripcion', 'tipoPase', 'tipoCotizacion'])

for fecha in fechas:
    params = {"fecha": fecha}
    response = requests.get(url, params=params, verify=False)

    if response.status_code == 200:
        df = pd.DataFrame(response.json()['results']['detalle'])
        df['fecha'] = fecha
        #df = df[['fecha', 'codigoMoneda', 'descripcion', 'tipoPase', 'tipoCotizacion']]
        resultados = pd.concat([resultados, df], axis=0)
    else:
        print(f"Error: {response.status_code}")

  resultados = pd.concat([resultados, df], axis=0)


In [45]:
resultados[ resultados['fecha'] == '2025-04-16' ]

Unnamed: 0,fecha,codigoMoneda,descripcion,tipoPase,tipoCotizacion
0,2025-04-16,ARS,PESO,0.000881,0.0
1,2025-04-16,AUD,DOLAR AUSTRALIA,0.6362,722.087
2,2025-04-16,AWG,FLORIN (ANTILLAS HOLANDESAS),0.558659,634.078212
3,2025-04-16,BOB,BOLIVIANOS,0.145159,164.755407
4,2025-04-16,BRL,REAL,0.170413,193.418653
5,2025-04-16,CAD,DOLAR CANADIEN.,0.719683,816.84059
6,2025-04-16,CHF,FRANCO SUIZO,1.226392,1391.954869
7,2025-04-16,CLP,PESO CHILENO,0.001031,1.169633
8,2025-04-16,CNH,YUAN CNH RENMINBI OFF SHORE,0.136919,155.402815
9,2025-04-16,CNY,YUAN CNY RENMINBI,0.136996,155.490102


In [46]:
resultados.to_csv("resultados/bcra_conversion.csv")


## 4. Obtener datos de clima y guardarlos en un json (tratar convirtiendo la data a un DataFrame antes, y luego sin hacer esto)


In [47]:
# Coordenadas de algunas ciudades argentinas
ciudades = {
    "Buenos Aires": (-34.61, -58.38),
    "Córdoba": (-31.42, -64.18),
    "Mendoza": (-32.89, -68.84),
    "Rosario": (-32.95, -60.66),
    "Salta": (-24.78, -65.41)
}

In [48]:
url = "https://api.open-meteo.com/v1/forecast"
params = {
        "latitude": ciudades["Buenos Aires"][0],
        "longitude": ciudades["Buenos Aires"][1],
        "current_weather": "true"
    }

response = requests.get(url, params=params, verify=False)

if response.status_code == 200:
    print(response.json())
else:
    print(f"Error: {response.status_code}")



{'latitude': -34.625, 'longitude': -58.5, 'generationtime_ms': 0.026106834411621094, 'utc_offset_seconds': 0, 'timezone': 'GMT', 'timezone_abbreviation': 'GMT', 'elevation': 37.0, 'current_weather_units': {'time': 'iso8601', 'interval': 'seconds', 'temperature': '°C', 'windspeed': 'km/h', 'winddirection': '°', 'is_day': '', 'weathercode': 'wmo code'}, 'current_weather': {'time': '2025-04-21T12:15', 'interval': 900, 'temperature': 13.0, 'windspeed': 3.3, 'winddirection': 13, 'is_day': 1, 'weathercode': 1}}


In [49]:
response.json()["current_weather"]

{'time': '2025-04-21T12:15',
 'interval': 900,
 'temperature': 13.0,
 'windspeed': 3.3,
 'winddirection': 13,
 'is_day': 1,
 'weathercode': 1}

In [50]:
datos_clima_lista = []

# Recorremos cada ciudad y consultamos la API
for ciudad, (lat, lon) in ciudades.items():
    url = "https://api.open-meteo.com/v1/forecast"
    params = {
        "latitude": lat,
        "longitude": lon,
        "current_weather": "true"
    }
    response = requests.get(url, params=params)

    if response.status_code == 200:
        datos_clima = response.json()["current_weather"]
        datos_clima["ciudad"] = ciudad
        datos_clima_lista.append(datos_clima)
    else:
        print(f"Error al obtener datos para {ciudad}: {response.status_code}")

In [51]:
clima_df = pd.DataFrame(datos_clima_lista)
clima_df

Unnamed: 0,time,interval,temperature,windspeed,winddirection,is_day,weathercode,ciudad
0,2025-04-21T12:15,900,13.0,3.3,13,1,1,Buenos Aires
1,2025-04-21T12:15,900,11.5,4.3,24,1,1,Córdoba
2,2025-04-21T12:15,900,9.9,4.4,189,1,45,Mendoza
3,2025-04-21T12:15,900,14.1,7.3,57,1,2,Rosario
4,2025-04-21T12:15,900,13.9,3.1,45,1,45,Salta


In [52]:
clima_df.to_json("resultados/clima_ciudades_desde_pandas.json", orient="records", indent=4, force_ascii=False)

In [53]:
import json

with open("resultados/clima_ciudades_desde_lista.json", "w", encoding="utf-8") as f:
    json.dump(datos_clima_lista, f, ensure_ascii=False, indent=4)