# üõ°Ô∏è Arquitectura del Modelo de Detecci√≥n de Anomal√≠as: Enfoque H√≠brido
Para abordar el reto de identificar irregularidades en 31 millones de registros inmobiliarios sin contar con etiquetas previas de fraude (aprendizaje no supervisado), se dise√±√≥ una arquitectura de detecci√≥n h√≠brida. Esta combina la rigidez de las reglas de negocio forenses con la flexibilidad de la Inteligencia Artificial.

**1. Ingenier√≠a de Caracter√≠sticas (Feature Engineering)**
La selecci√≥n de variables no fue arbitraria; se bas√≥ en hip√≥tesis de fraude inmobiliario y calidad de datos. Se transformaron variables crudas en indicadores de riesgo matem√°tico:

**A. Variables Base y su Justificaci√≥n de Riesgo**
- **VALOR (Dimensi√≥n Financiera):** Variable cr√≠tica. Los valores extremos indican dos tipolog√≠as de fraude opuestas: Lavado de Activos (sobrevaloraci√≥n) o Evasi√≥n Fiscal/Ventas Simb√≥licas (subvaloraci√≥n).

- **FECHA_APERTURA_TEXTO (Dimensi√≥n de Calidad):** La ausencia de esta fecha rompe la trazabilidad hist√≥rica del predio, lo cual es una "Red Flag" operativa y un posible indicador de manipulaci√≥n de registros antiguos.

- **PREDIOS_NUEVOS (Dimensi√≥n de Urbanismo):** Los predios reci√©n matriculados presentan mayor riesgo de urbanizaci√≥n ilegal, "volteo de tierras" o inconsistencias en la tradici√≥n registral.

- **COUNT_DE y COUNT_A (Dimensi√≥n de Red/Complejidad):** Mide la fragmentaci√≥n de la propiedad. Un n√∫mero inusualmente alto de otorgantes (vendedores) o adquirientes (compradores) sugiere loteo ilegal, procesos de falsa tradici√≥n o testaferrato.

- **YEAR_RADICA (Dimensi√≥n Temporal):** Permite aislar el efecto inflacionario y detectar patrones an√≥malos espec√≠ficos en periodos electorales o cambios de administraci√≥n.

- **DIVIPOLA (Contexto Geogr√°fico):** Fundamental para la normalizaci√≥n. Permite comparar precios dentro de su mercado local (ej. no comparar precios de Bogot√° con Leticia).


**B. Transformaciones Avanzadas (El "Truco" Matem√°tico)**
Para que el modelo matem√°tico fuese robusto frente a la enorme variabilidad de precios en Colombia, se generaron tres caracter√≠sticas sint√©ticas:

1. **`FECHA_APERTURA_INCONSISTENTE` (Binaria):**

    - _L√≥gica:_ Flag (1/0) que penaliza expl√≠citamente la falta de integridad en la data temporal.

2. **`VALOR_LOG` (Normalizaci√≥n):**

    - _L√≥gica:_ Se aplic√≥ una transformaci√≥n logar√≠tmica (log1p) al valor de la transacci√≥n. Esto comprime la escala de precios, permitiendo que el modelo analice simult√°neamente transacciones de inter√©s social y megaproyectos sin que los valores extremos sesguen el aprendizaje.

3. **`Z_SCORE_RELATIVO` (Contextualizaci√≥n Geoespacial):**

    - _La Joya de la Corona:_ Calculamos cu√°ntas desviaciones est√°ndar se aleja el precio de una transacci√≥n respecto al promedio de su Municipio (DIVIPOLA).

    - _Impacto:_ Nos permite detectar la transacci√≥n m√°s cara de un pueblo pobre (posible lavado) o la m√°s barata de un barrio rico (evasi√≥n), haci√©ndolas comparables matem√°ticamente.


**2. Estrategia de Detecci√≥n: El Modelo H√≠brido**
Dado que las anomal√≠as inmobiliarias son heterog√©neas (algunas son errores de dedo, otras son esquemas complejos), un solo algoritmo no es suficiente. Implementamos un sistema de Defensa en Profundidad con tres capas:

**Capa 1: Reglas de Negocio Forenses (Hard Rules)**
Detecta lo obvio y lo inadmisible. Se establecieron umbrales basados en percentiles extremos (P01 y P99) y l√≥gica de mercado.

   - **Detecci√≥n de Subvaloraci√≥n Cr√≠tica:** Transacciones con valores inferiores a $100.000 COP (Umbral P01), indicativas de error de calidad o simulaci√≥n de venta.

   - **Detecci√≥n de Sobreprecio Extremo:** Transacciones que superan las 3.5 desviaciones est√°ndar (Z-Score > 3.5) respecto a su mercado local.

**Capa 2: Inteligencia Artificial (Isolation Forest)**
Detecta lo sutil y estructural. Se utiliz√≥ el algoritmo Isolation Forest (entrenado con contamination calculada de acuerdo al Z-score sobre las caracter√≠sticas transformadas).

   - **Objetivo:** Identificar patrones multidimensionales que escapan a las reglas simples, como combinaciones at√≠picas entre n√∫mero de intervinientes, antig√ºedad del predio y valor.

   - **Funcionamiento:** El modelo a√≠sla observaciones "raras" en el espacio vectorial; aquellas que requieren menos cortes para ser aisladas se marcan como an√≥malas.

**Capa 3: Consolidaci√≥n y Taxonom√≠a**
El resultado final no es binario, sino descriptivo. Se fusionan los hallazgos de las capas anteriores para etiquetar cada anomal√≠a con su causa ra√≠z, facilitando la auditor√≠a:

   - `Sobreprecio extremo` / `Subvaloraci√≥n extrema`

   - `Patr√≥n at√≠pico IA` (Detectado exclusivamente por el algoritmo)

**Resultado:** Un sistema robusto que minimiza falsos positivos al contextualizar los precios, pero maximiza la detecci√≥n de fraudes complejos gracias al aprendizaje de m√°quina.

# Preparaci√≥n del entorno

In [28]:
# Necesario para importar m√≥dulos desde el directorio ra√≠z

import sys
import os

ROOT = os.path.abspath(os.path.join(os.getcwd(), ".."))
sys.path.append(ROOT)

In [54]:
# Third-party imports
import numpy as np
import pandas as pd
import polars as pl

from sklearn.ensemble import IsolationForest

# Local application imports
from src.data_loader import obtener_datos_polars

# Obtenci√≥n de datos

In [None]:
# Se obtienen los datos que fueron previamente procesados en Databricks

sql = """
SELECT *
FROM default.data_modelo_anomalias_transaccionales
"""

datos_modelo = obtener_datos_polars(sql)

datos_modelo = datos_modelo.to_pandas()  # Convertir a pandas DataFrame para cargar al modelo

  df = pl.DataFrame(data=filas, schema=columnas)


In [None]:
# Vistazo r√°pido a los datos

datos_modelo.head()

Unnamed: 0,PK,VALOR,YEAR_RADICA,PREDIOS_NUEVOS,COUNT_DE,COUNT_A,FECHA_APERTURA_INCONSISTENTE,VALOR_LOG,Z_SCORE_RELATIVO
0,11001-50C-007144-00024-00125-2023,280000000.0,2023,0,1,1,0,19.4503,0.61223
1,11001-50C-010059-00021-00125-2023,269000000.0,2023,0,1,1,0,19.410222,0.588895
2,11001-50C-1076203-00009-00125-2022,103000000.0,2022,0,1,1,0,18.45024,0.02995
3,11001-50C-1127133-00012-00125-2021,180000000.0,2021,0,1,2,0,19.008467,0.354975
4,11001-50C-1129821-00017-00125-2023,125650000.0,2023,0,1,2,0,18.649011,0.145683


In [None]:
# Informaci√≥n de los datos

datos_modelo.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7512254 entries, 0 to 7512253
Data columns (total 9 columns):
 #   Column                        Dtype  
---  ------                        -----  
 0   PK                            object 
 1   VALOR                         float64
 2   YEAR_RADICA                   int64  
 3   PREDIOS_NUEVOS                int64  
 4   COUNT_DE                      int64  
 5   COUNT_A                       int64  
 6   FECHA_APERTURA_INCONSISTENTE  int64  
 7   VALOR_LOG                     float64
 8   Z_SCORE_RELATIVO              float64
dtypes: float64(3), int64(5), object(1)
memory usage: 515.8+ MB


# Enfoque con inteligencia artificial

## Alimentar el modelo

In [34]:
# Se obtienen las caracter√≠sticas para alimentar el modelo

features_modelo = datos_modelo.columns.tolist()
features_modelo.remove('PK')
features_modelo.remove('VALOR')

Para definir el porcentaje de contaminaci√≥n del modelo revisamos cu√°ntos valores con Z_SCORE_RELATIVO hay por encima de 3.5 o debajo de -3.5 (lo cual en estad√≠stica es raro que pase), y dividimos esta cantidad entre el total de datos.

In [38]:
conteo_z_extremo = sum(datos_modelo['Z_SCORE_RELATIVO'] > 3.5) + sum(datos_modelo['Z_SCORE_RELATIVO'] < -3.5)

porcentaje_contaminacion = conteo_z_extremo / datos_modelo.shape[0]
print(f"Porcentaje de contaminaci√≥n estimado: {porcentaje_contaminacion * 100:.4f}%")

Porcentaje de contaminaci√≥n estimado: 0.4174%


In [36]:
print("Iniciando entrenamiento del Isolation Forest...")

iso_forest = IsolationForest(
    n_estimators=100, 
    contamination=porcentaje_contaminacion,
    max_samples='auto',
    n_jobs=-1,
    random_state=42,
    verbose=1
)

iso_forest.fit(datos_modelo[features_modelo])

Iniciando entrenamiento del Isolation Forest...


[Parallel(n_jobs=12)]: Using backend ThreadingBackend with 12 concurrent workers.
[Parallel(n_jobs=12)]: Done   2 out of  12 | elapsed:    3.8s remaining:   19.4s
[Parallel(n_jobs=12)]: Done  12 out of  12 | elapsed:    4.1s finished
[Parallel(n_jobs=1)]: Done  49 tasks      | elapsed:   12.9s
[Parallel(n_jobs=1)]: Done 100 out of 100 | elapsed:   26.3s finished


0,1,2
,n_estimators,100
,max_samples,'auto'
,contamination,0.0041742465044446045
,max_features,1.0
,bootstrap,False
,n_jobs,-1
,random_state,42
,verbose,1
,warm_start,False


In [39]:
print("Calculando scores y etiquetas de anomal√≠as...")

datos_modelo['IF_LABEL'] = iso_forest.predict(datos_modelo[features_modelo])
datos_modelo['IF_SCORE'] = iso_forest.decision_function(datos_modelo[features_modelo])

Calculando scores y etiquetas de anomal√≠as...


[Parallel(n_jobs=1)]: Done  49 tasks      | elapsed:   12.9s
[Parallel(n_jobs=1)]: Done 100 out of 100 | elapsed:   26.5s finished
[Parallel(n_jobs=1)]: Done  49 tasks      | elapsed:   13.3s
[Parallel(n_jobs=1)]: Done 100 out of 100 | elapsed:   26.8s finished


In [40]:
# Resultados del modelo, los valores de IF_LABEL son -1 para anomal√≠as y 1 para normales

datos_modelo['IF_LABEL'].value_counts()

IF_LABEL
 1    7480896
-1      31358
Name: count, dtype: int64

In [41]:
cond_anomalia = datos_modelo['IF_LABEL'] == -1

In [42]:
# Estad√≠sticas de las transacciones marcadas como an√≥malas

datos_modelo[cond_anomalia].describe()

Unnamed: 0,VALOR,YEAR_RADICA,PREDIOS_NUEVOS,COUNT_DE,COUNT_A,FECHA_APERTURA_INCONSISTENTE,VALOR_LOG,Z_SCORE_RELATIVO,IF_LABEL,IF_SCORE
count,31358.0,31358.0,31358.0,31358.0,31358.0,31358.0,31358.0,31358.0,31358.0,31358.0
mean,20594080000.0,2019.762294,0.727119,3.256649,3.7975,0.689489,14.411661,-1.238586,-1.0,-0.030549
std,2879537000000.0,2.936933,0.445447,5.569452,11.725018,0.46271,5.109722,2.765534,0.0,0.026631
min,0.01,2015.0,0.0,0.0,0.0,0.0,0.00995,-11.863091,-1.0,-0.127529
25%,62440.0,2017.0,0.0,1.0,1.0,0.0,11.041977,-3.051495,-1.0,-0.04503
50%,500000.0,2021.0,1.0,1.0,1.0,1.0,13.122365,-1.684032,-1.0,-0.022201
75%,350000000.0,2022.0,1.0,3.0,3.0,1.0,19.673444,1.606324,-1.0,-0.009759
max,500000000000000.0,2023.0,1.0,278.0,828.0,1.0,33.845629,12.068409,-1.0,-1e-06


Se tienen varias observaciones:

- En la columna VALOR se observan valores extremos como 0.01 pesos hasta una transacci√≥n con 500 billones, lo cual tiene sentido que sean anomal√≠as ya que son valores muy extremos fuera de lo normal.

- La media del valor de las transacciones marcadas como an√≥malas es de 20'000 millones, valores muy altos para una transacci√≥n inmobiliaria normal.

- El 72.71% de las transacciones marcadas como an√≥malas son de predios nuevos, por lo que es posible que se est√©n usando predios nuevos para cometer alg√∫n tipo de fraude fiscal.

- La media de otorgantes y receptores est√° por encima de 3 cada uno, lo que significa que en la transacci√≥n an√≥mala participan 6 o m√°s personas en promedio, lo que puede indicar un posible loteo ilegal.

- El 68.95% tienen una fecha de apertura inconsistente, otro posible indicador de anomal√≠as.

- Z-Score relativos extremos con valores desde -11.86 hasta 12.06, lo cual es un indicador de anomal√≠as ya que en estad√≠stica los valores de Z-score por encima de 3.5 o debajo de -3.5 son escasos.

In [43]:
# Estad√≠sticas de las transacciones marcadas como normales

datos_modelo[~cond_anomalia].describe()

Unnamed: 0,VALOR,YEAR_RADICA,PREDIOS_NUEVOS,COUNT_DE,COUNT_A,FECHA_APERTURA_INCONSISTENTE,VALOR_LOG,Z_SCORE_RELATIVO,IF_LABEL,IF_SCORE
count,7480896.0,7480896.0,7480896.0,7480896.0,7480896.0,7480896.0,7480896.0,7480896.0,7480896.0,7480896.0
mean,1335039000.0,2019.802,0.01605142,1.283786,1.409441,0.6143491,17.01397,0.005191834,1.0,0.2248384
std,1822211000000.0,2.66163,0.1256733,1.058944,1.417019,0.4867487,1.932073,0.9826078,0.0,0.05352792
min,0.12,2015.0,0.0,0.0,0.0,0.0,0.1133287,-12.5137,1.0,5.765103e-09
25%,6979000.0,2017.0,0.0,1.0,1.0,0.0,15.75842,-0.603783,1.0,0.2055657
50%,30000000.0,2021.0,0.0,1.0,1.0,1.0,17.21671,0.1541236,1.0,0.2395273
75%,100000000.0,2022.0,0.0,1.0,1.0,1.0,18.42068,0.6927791,1.0,0.2632121
max,3790000000000000.0,2023.0,1.0,302.0,1304.0,1.0,35.87114,12.16523,1.0,0.2862627


Se tienen varias observaciones:

- En la columna VALOR se observan valores extremos como 0.12 pesos hasta una transacci√≥n con 3'790 billones, lo cual deber√≠a ser una anomal√≠a, pero el modelo no fue capaz de detectarlo.

- La media del valor de las transacciones marcadas como normales es de 1'335 millones, un valor alto pero que puede llegar a ser com√∫n en algunas zonas del pa√≠s. Tambi√©n se debe tener en cuenta que esta media est√° sesgada por el valor extremo de 3'790 billones.

- El 1.61% de las transacciones marcadas como normales son de predios nuevos.

- La media de otorgantes y receptores est√° por encima de 1 cada uno, lo que significa que en las transacciones normales en promedio participan 2 o 3 personas.

- El 6.14% tienen una fecha de apertura inconsistente.

- Z-Score relativos extremos con valores desde -12.51 hasta 12.17, lo cual es extra√±o en una transacci√≥n normal, por lo que es posible que el modelo no haya sido capaz de detectarlo.

# Enfoque con reglas de negocio

Aqu√≠ se definir√°n reglas de los l√≠mites de valores para considerar una transacci√≥n como normal.

In [51]:
limite_z_score = 3.5 # L√≠mite para considerar una transacci√≥n como an√≥mala seg√∫n Z-Score en estad√≠stica

limite_valor_alto = datos_modelo['VALOR'].quantile(0.999) # Percentil 999 de los datos
print(f"L√≠mite valor alto (percentil 99.9): {limite_valor_alto}")

limite_valor_bajo = datos_modelo['VALOR'].quantile(0.01)  # Percentil 1
print(f"L√≠mite valor bajo (percentil 1): {limite_valor_bajo}")

L√≠mite valor alto (percentil 99.9): 11912566800.0
L√≠mite valor bajo (percentil 1): 100000.0


Los l√≠mites superiores e inferiores se obtuvieron calculando los percentiles 99.9 y 1 respectivamente, obteniendo $11'912.566.800 y $100.000, lo cual son valores aptos para umbrales de anomal√≠as. 

En Colombia existen predios con valores superiores a los $10'000.000.000, pero sus transacciones no son muy comunes. Por otra parte, una transacci√≥n inmobiliaria de $100.000 es muy raro y es posible que sean transacciones ficticias para evadir impuestos y ocultar ganancias reales de una transacci√≥n.

In [52]:
# Definimos la funci√≥n para clasificar las transacciones seg√∫n reglas de negocio

def categorizar_transaccion(row):
    etiquetas = []
    
    # --- REGLA 1: ANOMAL√çA FINANCIERA (PRIORIDAD ALTA) ---
    # Captura los "Billonarios" que el modelo ignor√≥ y los "Regalados"
    if row['Z_SCORE_RELATIVO'] > limite_z_score:
        etiquetas.append("Sobreprecio extremo")
    elif row['Z_SCORE_RELATIVO'] < -limite_z_score:
        etiquetas.append("Subvaloraci√≥n extrema")
        
    if row['VALOR'] > limite_valor_alto:
        etiquetas.append("Valor exorbitante")

    # --- REGLA 2: ANOMAL√çA DE PATR√ìN (INTELIGENCIA ARTIFICIAL) ---
    # Usamos el Isolation Forest para lo que NO es obvio por precio
    if row['IF_LABEL'] == -1:
        # Solo agregamos la etiqueta de IA si NO es ya una anomal√≠a de precio obvia
        # para darle cr√©dito al modelo por encontrar cosas "nuevas"
        if len(etiquetas) == 0: 
            etiquetas.append("Patr√≥n at√≠pico detectado por IA")
        else:
            # Si ya ten√≠a etiqueta, es una confirmaci√≥n doble
            etiquetas.append("Confirmado por IA")

    # Resultado Final
    if len(etiquetas) > 0:
        return " | ".join(etiquetas)
    else:
        return "Normal"

In [53]:
print("Clasificando anomal√≠as...")
datos_modelo['DETALLE_ANOMALIA'] = datos_modelo.apply(categorizar_transaccion, axis=1)

Clasificando anomal√≠as...


In [56]:
# Creamos una bandera binaria final para facilitar el filtrado
datos_modelo['ES_ANOMALO_FINAL'] = np.where(datos_modelo['DETALLE_ANOMALIA'] == "Normal", 0, 1)

In [69]:
# Vemos el resumen del √©xito
print('\n--- RESUMEN DE HALLAZGOS ---')
print(datos_modelo['DETALLE_ANOMALIA'].value_counts())
print('-' * 30)
print('Porcentaje de transacciones con valor an√≥malas: ')
print(f"{datos_modelo['ES_ANOMALO_FINAL'].mean() * 100:.4f}%")


--- RESUMEN DE HALLAZGOS ---
DETALLE_ANOMALIA
Normal                                                         7453778
Patr√≥n at√≠pico detectado por IA                                  24471
Subvaloraci√≥n extrema                                            21373
Subvaloraci√≥n extrema | Confirmado por IA                         6315
Valor exorbitante                                                 2451
Sobreprecio extremo | Valor exorbitante                           1826
Sobreprecio extremo                                               1468
Sobreprecio extremo | Valor exorbitante | Confirmado por IA        200
Valor exorbitante | Confirmado por IA                              196
Sobreprecio extremo | Confirmado por IA                            176
Name: count, dtype: int64
------------------------------
Porcentaje de transacciones con valor an√≥malas: 
0.7784%


In [70]:
datos_modelo.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7512254 entries, 0 to 7512253
Data columns (total 13 columns):
 #   Column                        Dtype  
---  ------                        -----  
 0   PK                            object 
 1   VALOR                         float64
 2   YEAR_RADICA                   int64  
 3   PREDIOS_NUEVOS                int64  
 4   COUNT_DE                      int64  
 5   COUNT_A                       int64  
 6   FECHA_APERTURA_INCONSISTENTE  int64  
 7   VALOR_LOG                     float64
 8   Z_SCORE_RELATIVO              float64
 9   IF_LABEL                      int64  
 10  IF_SCORE                      float64
 11  DETALLE_ANOMALIA              object 
 12  ES_ANOMALO_FINAL              int64  
dtypes: float64(4), int64(7), object(2)
memory usage: 745.1+ MB


In [68]:
# Guardamos los resultados en un nuevo archivo Parquet para an√°lisis en Power BI

datos_con_anomalias = datos_modelo[datos_modelo['ES_ANOMALO_FINAL'] == 1]
datos_con_anomalias = datos_con_anomalias[['PK', 'ES_ANOMALO_FINAL', 'DETALLE_ANOMALIA']]
datos_con_anomalias.to_parquet('transacciones_anomalas_valor.parquet', index=False)