# Validaci√≥n de Calidad de Datos

Este notebook valida la calidad del dataset estandarizado y genera reportes finales.

## Objetivos
1. Generar reporte completo de calidad de datos
2. Validar rangos y valores l√≥gicos
3. Detectar outliers
4. Validar columnas cr√≠ticas
5. Documentar transformaciones aplicadas
6. Generar m√©tricas finales del dataset

In [1]:
# Importar librer√≠as
import sys
sys.path.append('../src')

import polars as pl
import matplotlib.pyplot as plt
import seaborn as sns
from etl.data_loader import load_from_parquet
from etl.validators import (
    generate_quality_report,
    validate_critical_columns,
    detect_outliers,
    validate_ranges
)
from utils.config import STANDARDIZED_PARQUET_FILE, VALID_RANGES

plt.style.use('seaborn-v0_8-darkgrid')
%matplotlib inline

## 1. Cargar Datos Estandarizados

In [3]:
import os

print(STANDARDIZED_PARQUET_FILE)
print("Existe?", os.path.exists(STANDARDIZED_PARQUET_FILE))

c:\Users\carlo\Documents\KrozFu\repos\fraud-detection-realestate\notebooks\..\data\processed\igac_standardized.parquet
Existe? False


In [2]:
# Cargar dataset estandarizado
df = load_from_parquet(STANDARDIZED_PARQUET_FILE, use_polars=True)
print(f"Dataset cargado: {df.shape[0]:,} filas, {df.shape[1]} columnas")

Cargando datos desde Parquet: c:\Users\carlo\Documents\KrozFu\repos\fraud-detection-realestate\notebooks\..\data\processed\igac_standardized.parquet


FileNotFoundError: The system cannot find the file specified. (os error 2): ...u\repos\fraud-detection-realestate\notebooks\..\data\processed\igac_standardized.parquet (set POLARS_VERBOSE=1 to see full path)

This error occurred with the following context stack:
	[1] 'parquet scan'
	[2] 'sink'


## 2. Reporte de Calidad General

In [None]:
# Generar reporte completo de calidad
quality_report = generate_quality_report(df)

## 3. Validaci√≥n de Columnas Cr√≠ticas

In [None]:
# Validar que columnas cr√≠ticas no tengan nulos
is_valid = validate_critical_columns(df)

if is_valid:
    print("\n‚úÖ TODAS LAS COLUMNAS CR√çTICAS SON V√ÅLIDAS")
else:
    print("\n‚ö†Ô∏è ALGUNAS COLUMNAS CR√çTICAS TIENEN PROBLEMAS")

## 4. Validaci√≥n de Rangos

In [None]:
# Validar rangos de a√±os
year_validation = validate_ranges(
    df,
    'YEAR_RADICA',
    min_val=VALID_RANGES['YEAR_RADICA'][0],
    max_val=VALID_RANGES['YEAR_RADICA'][1]
)

print("\nValidaci√≥n de rangos de a√±os:")
for key, value in year_validation.items():
    print(f"  {key}: {value}")

In [None]:
# Validar rangos de valores monetarios
valor_validation = validate_ranges(
    df,
    'VALOR_AJUSTADO',
    min_val=VALID_RANGES['VALOR'][0],
    max_val=VALID_RANGES['VALOR'][1]
)

print("\nValidaci√≥n de rangos de valores:")
for key, value in valor_validation.items():
    print(f"  {key}: {value}")

## 5. Detecci√≥n de Outliers

In [None]:
# Detectar outliers en valores ajustados usando m√©todo IQR
df_with_outliers = detect_outliers(df, 'VALOR_AJUSTADO', method='iqr', threshold=1.5)

# Contar outliers
outlier_count = df_with_outliers['VALOR_AJUSTADO_OUTLIER'].sum()
outlier_pct = (outlier_count / len(df)) * 100

print(f"\nOutliers detectados: {outlier_count:,} ({outlier_pct:.2f}%)")

In [None]:
# Visualizar distribuci√≥n con outliers marcados
plt.figure(figsize=(14, 6))

# Filtrar valores extremos para mejor visualizaci√≥n
valores = df['VALOR_AJUSTADO'].filter(df['VALOR_AJUSTADO'].is_not_null())
q99 = valores.quantile(0.99)
valores_filtered = valores.filter(valores <= q99).to_list()

plt.subplot(1, 2, 1)
plt.hist(valores_filtered, bins=50, edgecolor='black', alpha=0.7)
plt.xlabel('Valor Ajustado (hasta percentil 99)')
plt.ylabel('Frecuencia')
plt.title('Distribuci√≥n de Valores Ajustados')

plt.subplot(1, 2, 2)
plt.boxplot(valores_filtered)
plt.ylabel('Valor Ajustado')
plt.title('Boxplot de Valores Ajustados')

plt.tight_layout()
plt.show()

## 6. An√°lisis de Completitud por Columna

In [None]:
# Calcular porcentaje de completitud por columna
completeness = []
for col in df.columns:
    null_count = df[col].null_count()
    completeness_pct = ((len(df) - null_count) / len(df)) * 100
    completeness.append({
        'Columna': col,
        'Completitud_%': round(completeness_pct, 2)
    })

completeness_df = pl.DataFrame(completeness).sort('Completitud_%')

print("\nCompletitud por columna (ordenado de menor a mayor):")
print(completeness_df)

In [None]:
# Visualizar completitud
plt.figure(figsize=(12, 8))
plt.barh(completeness_df['Columna'].to_list(), completeness_df['Completitud_%'].to_list())
plt.xlabel('Completitud (%)')
plt.title('Completitud de Datos por Columna')
plt.axvline(x=95, color='r', linestyle='--', label='95% threshold')
plt.legend()
plt.tight_layout()
plt.show()

## 7. M√©tricas Finales del Dataset

In [None]:
# Resumen ejecutivo del dataset
print("\n" + "="*60)
print("RESUMEN EJECUTIVO DEL DATASET FINAL")
print("="*60)

print(f"\nüìä Dimensiones:")
print(f"   - Total de registros: {len(df):,}")
print(f"   - Total de columnas: {len(df.columns)}")

print(f"\nüìÖ Rango Temporal:")
print(f"   - A√±o m√≠nimo: {df['YEAR_RADICA'].min()}")
print(f"   - A√±o m√°ximo: {df['YEAR_RADICA'].max()}")

print(f"\nüåç Cobertura Geogr√°fica:")
print(f"   - Departamentos √∫nicos: {df['DEPARTAMENTO'].n_unique()}")
print(f"   - Municipios √∫nicos: {df['MUNICIPIO'].n_unique()}")

print(f"\nüí∞ Valores Monetarios (Ajustados):")
print(f"   - Valor m√≠nimo: ${df['VALOR_AJUSTADO'].min():,.0f}")
print(f"   - Valor m√°ximo: ${df['VALOR_AJUSTADO'].max():,.0f}")
print(f"   - Valor promedio: ${df['VALOR_AJUSTADO'].mean():,.0f}")
print(f"   - Valor mediano: ${df['VALOR_AJUSTADO'].median():,.0f}")

print(f"\n‚úÖ Calidad de Datos:")
total_nulls = sum([df[col].null_count() for col in df.columns])
total_cells = len(df) * len(df.columns)
completeness_overall = ((total_cells - total_nulls) / total_cells) * 100
print(f"   - Completitud general: {completeness_overall:.2f}%")
print(f"   - Duplicados: 0 (eliminados en limpieza)")
print(f"   - Outliers detectados: {outlier_count:,} ({outlier_pct:.2f}%)")

print("\n" + "="*60)

## 8. Documentaci√≥n de Transformaciones

In [None]:
# Documentar transformaciones aplicadas
transformations = """
TRANSFORMACIONES APLICADAS AL DATASET
======================================

1. LIMPIEZA DE DATOS:
   - Normalizaci√≥n de nombres de municipios y departamentos
   - Parseo de fechas a formato datetime
   - Limpieza de valores num√©ricos
   - Eliminaci√≥n de duplicados basado en PK
   - Manejo de valores nulos en columnas cr√≠ticas

2. ESTANDARIZACI√ìN:
   - Ajuste de valores monetarios por IPC (a√±o base: 2024)
   - Normalizaci√≥n de c√≥digos DIVIPOLA a 5 d√≠gitos
   - Creaci√≥n de campos temporales derivados:
     * MES_RADICA
     * TRIMESTRE_RADICA
     * SEMESTRE_RADICA
     * DIA_SEMANA_RADICA
   - Creaci√≥n de clave geogr√°fica (GEO_KEY)
   - C√°lculo de indicador de alto valor (ALTO_VALOR)

3. VALIDACI√ìN:
   - Validaci√≥n de rangos de a√±os (2015-2025)
   - Validaci√≥n de valores monetarios
   - Detecci√≥n de outliers usando m√©todo IQR
   - Verificaci√≥n de completitud de datos
"""

print(transformations)

## Conclusiones

### ‚úÖ Dataset Validado y Listo para An√°lisis

El dataset ha pasado por un proceso completo de ETL:

1. **Exploraci√≥n**: An√°lisis inicial de estructura y caracter√≠sticas
2. **Limpieza**: Normalizaci√≥n, eliminaci√≥n de duplicados, manejo de nulos
3. **Estandarizaci√≥n**: Ajuste por inflaci√≥n, creaci√≥n de campos derivados
4. **Validaci√≥n**: Verificaci√≥n de calidad y detecci√≥n de anomal√≠as

### üìà Pr√≥ximos Pasos

1. **Fase 3**: Definici√≥n de la "Normalidad"
   - An√°lisis estad√≠stico por municipio
   - C√°lculo de m√©tricas base (promedio m¬≤, desviaci√≥n est√°ndar)
   - Identificaci√≥n de patrones estacionales

2. **Fase 4**: Detecci√≥n de Anomal√≠as
   - Dise√±o de modelos de detecci√≥n
   - Implementaci√≥n de reglas de negocio
   - Validaci√≥n de resultados

3. **Fase 5**: Visualizaci√≥n y Monitoreo
   - Dashboard interactivo
   - Sistema de alertas
   - Reportes automatizados