In [1]:
import re
import ast
import pickle
import pandas as pd
from google import genai
from utils import *


# Patrón regex

In [2]:
EMAIL_RE = re.compile(r"\b[A-Z0-9._%+-]+@[A-Z0-9.-]+\.[A-Z]{2,}\b", re.IGNORECASE)

PHONE_RE = re.compile(r"(\+?\d{1,3}[\s\-\.]?)?(\(?\d{2,4}\)?[\s\-\.]?)?\d{3}[\s\-\.]?\d{4}\b")

ADDRESS_RE = re.compile(r"""
(
    # --- US style: 135 Abbott St ---
    \b\d{1,6}\s+[A-Z0-9ÁÉÍÓÚÑa-záéíóúñ.\- ]{2,}\s+
    (St|Street|Ave|Avenue|Rd|Road|Blvd|Boulevard|Ln|Lane|Dr|Drive|Ct|Court|Pl|Place|Way|Pkwy|Parkway)\b
)
|
(
    # --- CO urban: Calle/Carrera/... 123 #45-67 (con letras y Sur/Este/Oeste) ---
    \b(?:calle|cl|carrera|cra|kr|avenida|av(?:\.|enida)?|transversal|trv|tv|diagonal|diag|dg|pasaje|psj)\s*
    \d{1,4}(?:ra|a|o)?[A-Za-z]{0,3}                   # 60N, 10A, 1ra, 25aa
    (?:\s*(?:norte|sur|este|oeste))?                  # opcional
    \s*(?:\#|n[°o\.]?|no\.?)\s*                        # separador (# / No / N°)
    \d{1,4}[A-Za-z]{0,3}                              # 45, 12C, 18B, 40f
    (?:\s*(?:norte|sur|este|oeste)\s*\d{0,4}[A-Za-z]{0,3})?  # sur67
    (?:\s*[-–]\s*\d{1,4}[A-Za-z]{0,3})?               # -67, -22
    \b
)
|
(
    # --- Rural / Km / Vía / Vereda ---
    \b(?:vereda)\s+[A-Za-zÁÉÍÓÚÑa-záéíóúñ ]+(?:,\s*parcela\s+[A-Za-zÁÉÍÓÚÑa-záéíóúñ0-9 ]+)?\b
)
|
(
    \b(?:kil[oó]metro|km)\s*\d+(?:[.,]\d+)?(?:\s*,?\s*(?:v[ií]a|via)\s+[A-Za-zÁÉÍÓÚÑa-záéíóúñ ]+)?\b
)
""", re.IGNORECASE | re.VERBOSE)

NAME_RE = re.compile(r"\b([A-ZÁÉÍÓÚÑ][a-záéíóúñ]+(?:\s+[A-ZÁÉÍÓÚÑ][a-záéíóúñ]+){1,2})\b")

PUNT_RE = re.compile(r"[,.;:-]\b")

# Funciones

In [3]:
resp_vacia = "SIN_DESCRIPCION_TRAS_SANITIZACION"


def is_effectively_empty(s: str) -> bool:
    if s is None:
        return True
    return re.sub(r"[^A-Za-z0-9ÁÉÍÓÚÑáéíóúñ]+", "", str(s)) == ""

def cleanup_punctuation(t: str) -> str:
    t = re.sub(r"[,\.\-;:]{2,}", " ", t)

    t = re.sub(r"(?<=\s)[,\.\-;:]+(?=\s)", " ", t)

    t = t.strip(" ,.-;:")

    t = re.sub(r"\s+", " ", t).strip()
    return t

def sanitizar_texto(texto: str) -> str:

    if texto is None:
        return resp_vacia

    t = str(texto)

    # eliminar patrones claros
    t = EMAIL_RE.sub("", t)
    t = PHONE_RE.sub("", t)
    t = ADDRESS_RE.sub("", t)
    

    # Nombres propios (heurístico)
    t = NAME_RE.sub("", t)

    # Normalización
    t = re.sub(r"\s+", " ", t).strip()
    
    # Elimina puntuación
    t = cleanup_punctuation(t)

    return resp_vacia if is_effectively_empty(t) else t

In [4]:
tests = [
    # email + teléfono + nombre
    "Contactar a Juan Perez al +57 300-123-4567 o jperez@mail.com para validar.",
    # dirección + nombre
    "La propiedad está en 135 Abbott St y el responsable es Maria Lopez.",
    # caso que quede vacío
    "Juan Perez, +57 300-123-4567, jperez@mail.com, 22 Main Street"
]

res = [sanitizar_texto(txt) for txt in tests]

# Salida estructurada

In [5]:
nivel_alerta = {"BAJA", "MEDIA", "ALTA", "CRITICA"}

def salida_estructurada(request: dict) -> dict:
    
    if request["nivel_alerta"] not in nivel_alerta:
        raise ValueError(f"nivel_alerta inválido: {nivel_alerta}. Debe ser uno de {sorted(nivel_alerta)}")

    motivo_s = sanitizar_texto(request["motivo"])
    recomendacion_s = sanitizar_texto(request["recomendacion"])

    return {
        "id_propiedad": str(request["id_propiedad"]),
        "nivel_alerta": request["nivel_alerta"],
        "motivo_tecnico": motivo_s,
        "recomendacion": recomendacion_s,
    }


In [6]:
casos_prueba = [
    {
        "id_propiedad": "077-0044-0000",
        "nivel_alerta": "ALTA",
        "motivo": "Inconsistencia detectada. Llamar a Maria Lopez al (301) 555-0199 para confirmar datos.",
        "recomendacion": "Verificar en Calle 123 #45-67 y escribir a mlopez@ejemplo.com para soporte.",
    },
    {
        "id_propiedad": "030-0452-0000",
        "nivel_alerta": "MEDIA",
        "motivo": "Posible error de clasificación. Contactar a Carlos Perez al +57 310-555-0000.",
        "recomendacion": "Solicitar documentación adicional al correo carlos.perez@correo.co y ajustar registro si aplica.",
    },
    {
        "id_propiedad": "015-0467-0000",
        "nivel_alerta": "BAJA",
        "motivo": "Caso atípico por ubicación. Responsable: Ana Gomez, teléfono 3001234567.",
        "recomendacion": "Revisar historial de pagos y enviar notificación a ana.gomez@mail.com con pasos a seguir.",
    },
    {
        "id_propiedad":"077-0144-0000",
        "nivel_alerta": "CRITICA",
        "motivo":"Juan Perez, +57 300-123-4567, jperez@mail.com, Calle 123 #45-67",
        "recomendacion":"Calle 60N #12C-08"
    }
]

for caso in casos_prueba:
    print(salida_estructurada(caso))

{'id_propiedad': '077-0044-0000', 'nivel_alerta': 'ALTA', 'motivo_tecnico': 'Inconsistencia detectada. Llamar a al para confirmar datos', 'recomendacion': 'Verificar en y escribir a para soporte'}
{'id_propiedad': '030-0452-0000', 'nivel_alerta': 'MEDIA', 'motivo_tecnico': 'Posible error de clasificación. Contactar a al', 'recomendacion': 'Solicitar documentación adicional al correo y ajustar registro si aplica'}
{'id_propiedad': '015-0467-0000', 'nivel_alerta': 'BAJA', 'motivo_tecnico': 'Caso atípico por ubicación. Responsable: teléfono', 'recomendacion': 'Revisar historial de pagos y enviar notificación a con pasos a seguir'}
{'id_propiedad': '077-0144-0000', 'nivel_alerta': 'CRITICA', 'motivo_tecnico': 'SIN_DESCRIPCION_TRAS_SANITIZACION', 'recomendacion': 'SIN_DESCRIPCION_TRAS_SANITIZACION'}


# Explicación con LLM

## Cargado de modelo ML

In [7]:
with open("modelo_xgb.pkl", "rb") as f:
    best_pipe = pickle.load(f)

In [8]:
data_path = "../data/"
file_name = "df_pred_test.csv"
file_full_name = "2024_Property_Tax_Roll.csv"
labels = [ 1,  2,  3,  4,  5,  6,  7, 10, 12, 13, 14, 23, 24, 33, 70, 71, 72, 73, 74, 75, 76, 78, 79, 80, 82, 83, 84]

df_full = pd.read_csv(data_path + file_full_name)
df_final = pd.read_csv(data_path + file_name)
df_final.shape

(8807, 37)

#### Cálculo de probabilidad de X_test

In [11]:
def percentil_en_grupo(valor, serie_grupo):

    return (serie_grupo.rank(pct=True, method="average")[serie_grupo.index[0]]
            if isinstance(serie_grupo, pd.Series) else np.nan)

def build_evidence_packet(row, df_ref, alerta_info):

    class_reg = int(row["CLASS"])
    p_true = float(row["p_true"])

    proba_dict_raw = row["y_proba_full"]
    proba_dict = ast.literal_eval(proba_dict_raw) if isinstance(proba_dict_raw, str) else proba_dict_raw

    items_sorted = sorted(
        [(int(k), float(v)) for k, v in (proba_dict or {}).items()],
        key=lambda x: x[1],
        reverse=True
    )

    if not items_sorted:
        class_pred_top1 = int(row["pred_class"])
        p_pred_max = float("nan")
        top_k = []
    else:
        class_pred_top1 = items_sorted[0][0]
        p_pred_max = items_sorted[0][1]
        top_k = items_sorted[:3]

    p_margin = (p_pred_max - p_true) if np.isfinite(p_pred_max) else float("nan")

    assmt = float(row["TOTAL_ASSMT"])
    taxes = float(row["TOTAL_TAXES"])
    exempt = float(row["TOTAL_EXEMPT"])

    tax_rate = taxes / max(assmt, 1.0)
    exempt_rate = exempt / max(assmt, 1.0)

    assmt_pct = taxes_pct = exempt_pct = np.nan
    if df_ref is not None:
        df_ref2 = df_ref.dropna(subset=["CLASS"])
        grp = df_ref2[df_ref2["CLASS"] == class_reg]
        if len(grp):
            assmt_pct  = float((grp["TOTAL_ASSMT"]  <= assmt).mean())
            taxes_pct  = float((grp["TOTAL_TAXES"]  <= taxes).mean())
            exempt_pct = float((grp["TOTAL_EXEMPT"] <= exempt).mean())

    flags = []
    if exempt > assmt:
        flags.append("exencion_mayor_que_avaluo")
    if taxes == 0 and assmt > 0:
        flags.append("impuesto_cero_con_avaluo_positivo")
    if np.isfinite(assmt_pct) and assmt_pct >= 0.99:
        flags.append("avaluo_extremo_para_clase")

    nivel = str(row["nivel_alerta"])
    if isinstance(alerta_info, dict) and nivel in alerta_info:
        info_nivel = alerta_info[nivel]

    packet = {
        "id_propiedad": int(row["P_ID"]),
        "nivel_alerta": nivel,

        "grupos_p_true": alerta_info if isinstance(alerta_info, dict) else None,

        "modelo": {
            "class_registrada": class_reg,
            "class_predicha": int(row["pred_class"]),
            "class_pred_top1": class_pred_top1,
            "p_true": p_true,
            "p_pred_max": p_pred_max,
            "p_margin": p_margin,
            "top_k": top_k,
        },
        "tributario": {
            "total_assmt": assmt,
            "total_exempt": exempt,
            "total_taxes": taxes,
            "tax_rate": tax_rate,
            "exempt_rate": exempt_rate,
            "assmt_pct_in_class_reg": assmt_pct,
            "taxes_pct_in_class_reg": taxes_pct,
            "exempt_pct_in_class_reg": exempt_pct,
            "flags": flags,
        },
        "ubicacion": {
            "zip": str(row["ZIP_POSTAL"]),
            "geo_cluster": int(row["geo_cluster"]),
        },
        "administrativo": {
            "levy_code_1": str(row["LEVY_CODE_1"]),
        },
        "descripcion": {
            "short_desc": str(row["SHORT_DESC"]),
        },
    }
    return packet
dict_alerta_info = df_final.groupby("nivel_alerta")["p_true"].agg(median="median").to_dict()

df_final.loc[:,"evidencia_registro"] = df_final.apply(lambda x: build_evidence_packet(x, df_full, dict_alerta_info), axis = 1)

In [12]:
df_final["evidencia_registro"].values[:3]

array([{'id_propiedad': 628, 'nivel_alerta': 'BAJA', 'grupos_p_true': {'median': {'ALTA': 0.813552475, 'BAJA': 0.995016455, 'CRITICA': 0.37041493000000003, 'MEDIA': 0.94688535}}, 'modelo': {'class_registrada': 13, 'class_predicha': 13, 'class_pred_top1': 13, 'p_true': 0.9765976, 'p_pred_max': 0.9765976071357727, 'p_margin': 7.135772750466174e-09, 'top_k': [(13, 0.9765976071357727), (23, 0.02216828428208828), (1, 0.0008303006179630756)]}, 'tributario': {'total_assmt': 73700.0, 'total_exempt': 0.0, 'total_taxes': 1352.4, 'tax_rate': 0.018350067842605157, 'exempt_rate': 0.0, 'assmt_pct_in_class_reg': 0.9317361339021989, 'taxes_pct_in_class_reg': 0.9317361339021989, 'exempt_pct_in_class_reg': 0.9977026583524778, 'flags': []}, 'ubicacion': {'zip': '02906', 'geo_cluster': 3}, 'administrativo': {'levy_code_1': 'NO01'}, 'descripcion': {'short_desc': 'Residential Vacant Land'}},
       {'id_propiedad': 29585, 'nivel_alerta': 'CRITICA', 'grupos_p_true': {'median': {'ALTA': 0.813552475, 'BAJA': 0

In [14]:
detalle_tecnico = """
#### Campos raíz
- **`id_propiedad`** *(int)*: Identificador de la propiedad (`P_ID`).
- **`nivel_alerta`** *(str)*: Nivel de alerta pre-asignado por la lógica del sistema. Valores esperados: `"BAJA"`, `"MEDIA"`, `"ALTA"`, `"CRITICA"`.

---

### `modelo` (señales del modelo predictivo)
- **`class_registrada`** *(int)*: Clase oficial registrada (`CLASS`).
- **`class_predicha`** *(int)*: Clase predicha por el modelo (`pred_class`).
- **`class_pred_top1`** *(int, opcional)*: Clase top-1 según el diccionario de probabilidades top-5 (útil si se guardan solo top-k).
- **`p_true`** *(float)*: Probabilidad asignada por el modelo a la **clase registrada**.
- **`p_pred_max`** *(float)*: Probabilidad máxima (clase top-1).
- **`p_margin`** *(float)*: Diferencia `p_pred_max - p_true`. Indica conflicto entre registro y predicción.
- **`top_k`** *(list[tuple])*: Top 3 clases con sus probabilidades: `[(clase, prob), ...]`.

**Interpretación típica:**
- `p_true` bajo + `p_margin` alto ⇒ alta probabilidad de inconsistencia (registro no “parece” de esa clase).
- `p_true` alto ⇒ el registro es consistente con el modelo.

---

### `tributario` (evidencia cuantitativa)
- **`total_assmt`** *(float)*: Valor tasado (`TOTAL_ASSMT`).
- **`total_exempt`** *(float)*: Exenciones (`TOTAL_EXEMPT`).
- **`total_taxes`** *(float)*: Impuestos totales (`TOTAL_TAXES`).
- **`tax_rate`** *(float)*: Tasa efectiva estimada: `TOTAL_TAXES / max(TOTAL_ASSMT, 1)`.
- **`exempt_rate`** *(float)*: Proporción exenta estimada: `TOTAL_EXEMPT / max(TOTAL_ASSMT, 1)`.
- **`assmt_pct_in_class_reg`** *(float | NaN)*: Percentil empírico de `TOTAL_ASSMT` dentro de la clase registrada.
- **`taxes_pct_in_class_reg`** *(float | NaN)*: Percentil empírico de `TOTAL_TAXES` dentro de la clase registrada.
- **`exempt_pct_in_class_reg`** *(float | NaN)*: Percentil empírico de `TOTAL_EXEMPT` dentro de la clase registrada.
- **`flags`** *(list[str])*: Banderas de inconsistencia tributaria.

#### Flags implementadas (actuales)
- **`exencion_mayor_que_avaluo`**: `TOTAL_EXEMPT > TOTAL_ASSMT`.
- **`impuesto_cero_con_avaluo_positivo`**: `TOTAL_TAXES == 0` y `TOTAL_ASSMT > 0`.
- **`avaluo_extremo_para_clase`**: `assmt_pct_in_class_reg >= 0.99` (avalúo extremo vs su clase registrada).

> Nota: los percentiles requieren un dataframe de referencia (`df_ref`) para calcular distribuciones por `CLASS`.

---

### `ubicacion` (contexto geográfico sin PII)
- **`zip`** *(str)*: Código postal (`ZIP_POSTAL`).
- **`geo_cluster`** *(int)*: Cluster geográfico precomputado (agrupación espacial).

---

### `administrativo` (contexto de régimen/levy)
- **`levy_code_1`** *(str)*: Código de levy (`LEVY_CODE_1`).

---

### `descripcion` (contexto semántico)
- **`short_desc`** *(str)*: Descripción corta de la propiedad (`SHORT_DESC`).

---

## Uso esperado por el LLM
El LLM debe basar el `motivo_tecnico` y la `recomendacion` en:
1. Señales del modelo (`p_true`, `p_pred_max`, `p_margin`, `top_k`, conflicto entre `class_registrada` y `class_predicha`).
2. Evidencia tributaria (montos, ratios, percentiles y `flags`).
3. Contexto adicional (ZIP/cluster, levy, short_desc).
"""

In [16]:
api_key = "AIzaSyDZdYMuNmahKg8WLaSuxVoP7nZJ505qFQ8"
client = genai.Client(api_key=api_key)
dict_info = {'id_propiedad': 628, 'nivel_alerta': 'BAJA', 'grupos_p_true': {'median': {'ALTA': 0.813552475, 'BAJA': 0.995016455, 'CRITICA': 0.37041493000000003, 'MEDIA': 0.94688535}}, 'modelo': {'class_registrada': 13, 'class_predicha': 13, 'class_pred_top1': 13, 'p_true': 0.9765976, 'p_pred_max': 0.9765976071357727, 'p_margin': 7.135772750466174e-09, 'top_k': [(13, 0.9765976071357727), (23, 0.02216828428208828), (1, 0.0008303006179630756)]}, 'tributario': {'total_assmt': 73700.0, 'total_exempt': 0.0, 'total_taxes': 1352.4, 'tax_rate': 0.018350067842605157, 'exempt_rate': 0.0, 'assmt_pct_in_class_reg': 0.9317361339021989, 'taxes_pct_in_class_reg': 0.9317361339021989, 'exempt_pct_in_class_reg': 0.9977026583524778, 'flags': []}, 'ubicacion': {'zip': '02906', 'geo_cluster': 3}, 'administrativo': {'levy_code_1': 'NO01'}, 'descripcion': {'short_desc': 'Residential Vacant Land'}}

prompt = f"tu tarea es explicar las inconsistencias detectadas en cada caso según este diccionario = {dict_info}.  Debes explicar la razón por la cual se llegó a la decidisón de nivel_alerta.  Este diccionario contiene el detalle técnico sobre la razón del porqué el nivel_alerta.  El nivel_alerta tiene 4 posibles opciones: CRITICA, ALTA, MEDIA, BAJA, donde cada una define la probabilidad de pertenencia a la clase predicha.  En el diccionario se encuentran los límites a partir del cuál se neceista para pertenecer a la clase.  Finalmente, la descripción de los elementos del diccioanrio es esta= {detalle_tecnico}"
response = client.models.generate_content(model="gemini-2.5-flash", contents=prompt)

print(response.text)


Para la propiedad con `id_propiedad`: **628**, se ha asignado un **nivel_alerta: BAJA**. A continuación, se detalla el análisis de las inconsistencias detectadas y la justificación de este nivel de alerta:

---

### **1. Motivo de la Decisión del Nivel de Alerta: BAJA**

El nivel de alerta se determina principalmente por la `p_true` (probabilidad asignada por el modelo a la clase registrada) en relación con los umbrales definidos en `grupos_p_true`.

*   **`p_true` de la propiedad:** `0.9765976`
*   **Umbrales de probabilidad para los niveles de alerta (median):**
    *   `CRITICA`: `0.37041493`
    *   `ALTA`: `0.813552475`
    *   `MEDIA`: `0.94688535`
    *   `BAJA`: `0.995016455` (Este valor representa la mediana de p_true para propiedades con alerta BAJA, no necesariamente su umbral inferior directo).

La lógica de asignación del nivel de alerta opera de la siguiente manera, basándose en la `p_true`:
*   Si `p_true` es menor que el umbral de `CRITICA` (`< 0.370`), la alerta es CRI