# Estandarización de Datos del Dataset IGAC

Este notebook aplica estandarización y normalización a los datos limpios.

## Objetivos
1. Ajustar valores monetarios por inflación (IPC)
2. Normalizar códigos DIVIPOLA
3. Crear campos temporales derivados
4. Calcular métricas adicionales
5. Guardar dataset estandarizado

In [1]:
# Importar librerías
import sys
sys.path.append('../src')

import polars as pl
import matplotlib.pyplot as plt
import seaborn as sns
from etl.data_loader import load_from_parquet, save_to_parquet
from etl.normalizer import apply_all_standardization
from utils.config import CLEANED_PARQUET_FILE, STANDARDIZED_PARQUET_FILE, IPC_DATA, BASE_YEAR

plt.style.use('seaborn-v0_8-darkgrid')
%matplotlib inline

## 1. Cargar Datos Limpios

In [2]:
# Cargar datos limpios desde Parquet
df_cleaned = load_from_parquet(CLEANED_PARQUET_FILE, use_polars=True)
print(f"Datos cargados: {df_cleaned.shape[0]:,} filas, {df_cleaned.shape[1]} columnas")

Cargando datos desde Parquet: c:\Users\carlo\Documents\KrozFu\repos\challenge-opendata\igac-anomalias-inmobiliarias\notebooks\..\data\processed\igac_cleaned.parquet
✓ Datos cargados: 30903248 filas, 26 columnas
Datos cargados: 30,903,248 filas, 26 columnas


## 2. Verificar Datos del IPC

In [3]:
# Mostrar datos del IPC que se usarán para ajuste
print("\nÍndice de Precios al Consumidor (IPC) por año:")
print(f"Año base para ajuste: {BASE_YEAR}\n")
for year, ipc in sorted(IPC_DATA.items()):
    print(f"  {year}: {ipc}")


Índice de Precios al Consumidor (IPC) por año:
Año base para ajuste: 2024

  2015: 100.0
  2016: 107.5
  2017: 111.8
  2018: 115.3
  2019: 119.4
  2020: 121.5
  2021: 126.9
  2022: 139.4
  2023: 151.2
  2024: 160.0
  2025: 168.0


## 3. Aplicar Estandarización

In [None]:
# Aplicar todas las funciones de estandarización
df_standardized = apply_all_standardization(df_cleaned)
print(f"\nDataset estandarizado: {df_standardized.shape[0]:,} filas, {df_standardized.shape[1]} columnas")

## 4. Verificar Ajuste por Inflación

In [None]:
# Comparar valores originales vs ajustados
comparison = df_standardized.select([
    'YEAR_RADICA',
    'VALOR',
    'VALOR_AJUSTADO'
]).head(10)

print("\nComparación de valores originales vs ajustados:")
print(comparison)

In [None]:
# Estadísticas de valores ajustados por año
valor_stats = df_standardized.group_by('YEAR_RADICA').agg([
    pl.col('VALOR').mean().alias('Valor_Original_Promedio'),
    pl.col('VALOR_AJUSTADO').mean().alias('Valor_Ajustado_Promedio')
]).sort('YEAR_RADICA')

print("\nPromedio de valores por año (original vs ajustado):")
print(valor_stats)

In [None]:
# Visualizar impacto del ajuste por inflación
plt.figure(figsize=(14, 6))

years = valor_stats['YEAR_RADICA'].to_list()
original = valor_stats['Valor_Original_Promedio'].to_list()
adjusted = valor_stats['Valor_Ajustado_Promedio'].to_list()

x = range(len(years))
width = 0.35

plt.bar([i - width/2 for i in x], original, width, label='Valor Original', alpha=0.8)
plt.bar([i + width/2 for i in x], adjusted, width, label='Valor Ajustado', alpha=0.8)

plt.xlabel('Año')
plt.ylabel('Valor Promedio (COP)')
plt.title(f'Impacto del Ajuste por Inflación (Año Base: {BASE_YEAR})')
plt.xticks(x, years, rotation=45)
plt.legend()
plt.tight_layout()
plt.show()

## 5. Verificar Campos Temporales Derivados

In [None]:
# Ver campos temporales creados
temporal_fields = df_standardized.select([
    'FECHA_RADICA_TEXTO',
    'YEAR_RADICA',
    'MES_RADICA',
    'TRIMESTRE_RADICA',
    'SEMESTRE_RADICA',
    'DIA_SEMANA_RADICA'
]).head(10)

print("\nCampos temporales derivados:")
print(temporal_fields)

In [None]:
# Distribución de transacciones por mes
month_dist = df_standardized.group_by('MES_RADICA').agg([
    pl.count().alias('Transacciones')
]).sort('MES_RADICA')

print("\nDistribución de transacciones por mes:")
print(month_dist)

## 6. Verificar Clave Geográfica

In [None]:
# Ver ejemplos de claves geográficas
geo_sample = df_standardized.select([
    'DEPARTAMENTO',
    'MUNICIPIO',
    'GEO_KEY',
    'DIVIPOLA'
]).unique().head(20)

print("\nEjemplos de claves geográficas:")
print(geo_sample)

## 7. Guardar Datos Estandarizados

In [None]:
# Guardar dataset estandarizado
save_to_parquet(df_standardized, STANDARDIZED_PARQUET_FILE, compression='snappy')
print(f"\n✓ Datos estandarizados guardados en: {STANDARDIZED_PARQUET_FILE}")

## 8. Resumen de Columnas Finales

In [None]:
# Listar todas las columnas del dataset final
print("\nColumnas del dataset estandarizado:")
print(f"Total: {len(df_standardized.columns)} columnas\n")
for i, col in enumerate(df_standardized.columns, 1):
    print(f"  {i:2d}. {col}")

## Conclusiones

- ✅ Valores monetarios ajustados por inflación
- ✅ Códigos DIVIPOLA normalizados
- ✅ Campos temporales derivados creados
- ✅ Clave geográfica generada
- ✅ Métricas adicionales calculadas
- ✅ Dataset estandarizado guardado en Parquet

**Próximo paso:** Notebook 04 - Validación de calidad de datos