In [5]:
# %% ================================================================
# üì¶ IMPORTACIONES OPTIMIZADAS ‚Äî SENASOFT MODELO H√çBRIDO (2025)
# ================================================================

# üî¢ Manipulaci√≥n de datos
import pandas as pd
import numpy as np
from collections import Counter
df = pd.read_csv("dataset_comunidades_senasoft.csv")

# ‚öôÔ∏è Machine Learning / Modelos
from sklearn.model_selection import StratifiedKFold, train_test_split
from sklearn.preprocessing import RobustScaler
from sklearn.utils.class_weight import compute_class_weight
from sklearn.metrics import (
    accuracy_score, precision_score, recall_score, f1_score,
    confusion_matrix, precision_recall_curve, classification_report
)
from sklearn.ensemble import RandomForestClassifier, GradientBoostingClassifier
from sklearn.linear_model import LogisticRegression

# ‚öñÔ∏è Balanceo de clases
from imblearn.over_sampling import SMOTE, ADASYN
from imblearn.combine import SMOTEENN

# üß† Deep Learning (TensorFlow / Keras)
import tensorflow as tf 
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense, Dropout, BatchNormalization
from tensorflow.keras.callbacks import EarlyStopping, ReduceLROnPlateau
from tensorflow.keras import Input, regularizers

# üìä Visualizaci√≥n
import plotly.graph_objects as go

# üö´ Suprimir warnings molestos (opcional)
import warnings
warnings.filterwarnings("ignore", category=FutureWarning)
warnings.filterwarnings("ignore", category=UserWarning)

print("‚úÖ Importaciones completadas correctamente.")
print(f"TensorFlow versi√≥n: {tf.__version__}")


‚úÖ Importaciones completadas correctamente.
TensorFlow versi√≥n: 2.20.0




In [6]:
# %% ================================================================
# üßπ LIMPIEZA Y RECLASIFICACI√ìN AUTOM√ÅTICA DE COMENTARIOS + URGENCIA
# ================================================================

import pandas as pd
import numpy as np
import re

# ================================================================
# 1Ô∏è‚É£ Cargar dataset
# ================================================================
df = pd.read_csv("dataset_comunidades_senasoft.csv")

print("="*70)
print("üßπ LIMPIEZA + RECLASIFICACI√ìN DE CATEGOR√çAS (por contenido de comentario)")
print("="*70)
print(f"üìä Registros iniciales: {len(df)}")

# ================================================================
# 2Ô∏è‚É£ Limpieza b√°sica de espacios y valores nulos comunes
# ================================================================
for col in df.columns:
    if df[col].dtype == 'object':
        df[col] = df[col].apply(lambda x: x.strip() if isinstance(x, str) else x)

df = df.replace(['', ' ', 'nan', 'NaN', 'None', 'null', 'NULL'], np.nan)

# ================================================================
# 3Ô∏è‚É£ Imputaci√≥n de valores perdidos (num√©ricos ‚Üí mediana, categ√≥ricos ‚Üí moda)
# ================================================================
for col in df.columns:
    if df[col].dtype in [np.float64, np.int64]:
        df[col].fillna(df[col].median(), inplace=True)
    else:
        moda = df[col].mode(dropna=True)
        if not moda.empty:
            df[col].fillna(moda[0], inplace=True)

# ================================================================
# 4Ô∏è‚É£ Normalizaci√≥n de texto (comentarios, categor√≠a, ciudad)
# ================================================================
if "Comentario" in df.columns:
    df["Comentario"] = df["Comentario"].astype(str).str.strip().str.lower()

if "Categor√≠a del problema" in df.columns:
    df["Categor√≠a del problema"] = df["Categor√≠a del problema"].astype(str).str.strip().str.title()

if "Ciudad" in df.columns:
    df["Ciudad"] = df["Ciudad"].astype(str).str.strip().str.title()
    df["Ciudad"].replace('', np.nan, inplace=True)

# ================================================================
# 5Ô∏è‚É£ Diccionario de palabras clave por categor√≠a
# ================================================================
mapa_categorias = {
    "Medio Ambiente": [
        "basura", "contaminaci√≥n", "r√≠o", "r√≠os", "agua", "√°rbol", "medio ambiente",
        "residuos", "limpieza", "aire", "pl√°stico", "verde", "naturaleza"
    ],
    "Salud": [
        "salud", "m√©dico", "hospital", "doctor", "cl√≠nica", "enfermo", "vacuna", "medicina"
    ],
    "Educaci√≥n": [
        "escuela", "educaci√≥n", "colegio", "profesor", "estudiante", "biblioteca", "cultural", "universidad"
    ],
    "Seguridad": [
        "polic√≠a", "robo", "delincuencia", "seguridad", "peligroso", "violencia", "ladrones", "presencia policial"
    ]
}

# ================================================================
# 6Ô∏è‚É£ Funci√≥n para reclasificar seg√∫n palabras clave del comentario
# ================================================================
def detectar_categoria(comentario):
    if not isinstance(comentario, str) or comentario.strip() == "":
        return np.nan
    comentario = comentario.lower()
    for categoria, palabras in mapa_categorias.items():
        if any(re.search(rf"\b{palabra}\b", comentario) for palabra in palabras):
            return categoria
    return np.nan  # Si no se encuentra ninguna coincidencia

# ================================================================
# 7Ô∏è‚É£ Aplicar detecci√≥n de categor√≠a
# ================================================================
df["Categor√≠a detectada"] = df["Comentario"].apply(detectar_categoria)

# ================================================================
# 8Ô∏è‚É£ Priorizar la categor√≠a detectada sobre la original
# ================================================================
df["Categor√≠a final"] = df["Categor√≠a detectada"].combine_first(df["Categor√≠a del problema"])

# ================================================================
# 9Ô∏è‚É£ Filtrar categor√≠as v√°lidas
# ================================================================
df = df[df["Categor√≠a final"].isin(["Salud", "Medio Ambiente", "Seguridad", "Educaci√≥n"])].copy()

# ================================================================
# üîü Generaci√≥n autom√°tica del nivel de urgencia (Urgencia_num)
# ================================================================
def detectar_urgencia(texto):
    """
    Asigna 1 (urgente) si el comentario expresa problema o necesidad grave,
    0 (no urgente) en caso contrario.
    """
    if not isinstance(texto, str) or texto.strip() == "":
        return 0

    texto = texto.lower()

    palabras_urgentes = [
        "no hay", "falta", "problema", "urgente", "grave", "peligro", "riesgo", "cr√≠tico",
        "contaminaci√≥n", "basura", "enfermo", "no tenemos", "emergencia"
    ]

    if any(palabra in texto for palabra in palabras_urgentes):
        return 1
    return 0

df["Urgencia_num"] = df["Comentario"].apply(detectar_urgencia)

# ================================================================
# 11Ô∏è‚É£ Filtrar los registros de Medio Ambiente
# ================================================================
ambiente = df[df["Categor√≠a final"] == "Medio Ambiente"].copy().reset_index(drop=True)

# ================================================================
# 12Ô∏è‚É£ Reporte final
# ================================================================
print("\n‚úÖ LIMPIEZA + RECLASIFICACI√ìN COMPLETA")
print(f"üìä Registros finales totales: {len(df)}")
print(f"üè∑Ô∏è Distribuci√≥n de categor√≠as finales:\n{df['Categor√≠a final'].value_counts()}")

print("\nüß© Distribuci√≥n de niveles de urgencia:")
print(df['Urgencia_num'].value_counts(normalize=True).apply(lambda x: f"{x:.2%}"))

print(f"\nüåç Total registros de Medio Ambiente: {len(ambiente)}")
print(ambiente[["Comentario", "Urgencia_num"]].head(10))


üßπ LIMPIEZA + RECLASIFICACI√ìN DE CATEGOR√çAS (por contenido de comentario)
üìä Registros iniciales: 10000

‚úÖ LIMPIEZA + RECLASIFICACI√ìN COMPLETA
üìä Registros finales totales: 10000
üè∑Ô∏è Distribuci√≥n de categor√≠as finales:
Categor√≠a final
Medio Ambiente    4096
Seguridad         2298
Salud             2259
Educaci√≥n         1347
Name: count, dtype: int64

üß© Distribuci√≥n de niveles de urgencia:
Urgencia_num
1    80.93%
0    19.07%
Name: proportion, dtype: object

üåç Total registros de Medio Ambiente: 4096
                                      Comentario  Urgencia_num
0  no tenemos centros culturales ni bibliotecas.             1
1            las basuras no se recogen a tiempo.             1
2      la contaminaci√≥n del r√≠o est√° aumentando.             1
3    hay problemas con la recolecci√≥n de basura.             1
4      la contaminaci√≥n del r√≠o est√° aumentando.             1
5  necesitamos m√°s acceso a internet en la zona.             0
6            falta a

In [7]:
ambiente.to_csv("dataset_ambiente_senasoft.csv", index=False)
print("‚úÖ Dataset de ambiente guardado como 'dataset_ambiente_senasoft.csv'")

‚úÖ Dataset de ambiente guardado como 'dataset_ambiente_senasoft.csv'


In [8]:
df['Comentario'].unique()

array(['las calles est√°n muy oscuras y peligrosas.',
       'no tenemos centros culturales ni bibliotecas.',
       'las basuras no se recogen a tiempo.',
       'la contaminaci√≥n del r√≠o est√° aumentando.',
       'no hay suficientes escuelas p√∫blicas.',
       'hay problemas con la recolecci√≥n de basura.',
       'necesitamos m√°s acceso a internet en la zona.',
       'faltan m√©dicos en el centro de salud.',
       'falta agua potable en varias casas.',
       'queremos m√°s presencia policial.'], dtype=object)

In [9]:
df['Ciudad'].unique()

array(['Manizales', 'Santa Marta', 'Medell√≠n', 'Bogot√°', 'Cartagena',
       'Cali', 'Barranquilla', 'Pereira', 'C√∫cuta', 'Bucaramanga'],
      dtype=object)

In [10]:
df.isnull().mean() * 100

ID                               0.00
Nombre                           0.00
Edad                             0.00
G√©nero                           0.00
Ciudad                           0.00
Comentario                       0.00
Categor√≠a del problema           0.00
Nivel de urgencia                0.00
Fecha del reporte                0.00
Acceso a internet                0.00
Atenci√≥n previa del gobierno     0.00
Zona rural                       0.00
Categor√≠a detectada             53.41
Categor√≠a final                  0.00
Urgencia_num                     0.00
dtype: float64

In [11]:
# %%
def crear_features_efectivas(df):
    df = df.copy()
    df["Zona rural"] = df["Zona rural"].astype(int)
    df["Acceso a internet"] = df["Acceso a internet"].astype(int)
    df["Atenci√≥n previa del gobierno"] = df["Atenci√≥n previa del gobierno"].astype(int)
    df["Edad"] = df["Edad"].astype(float)

    df["Vulnerabilidad_Total"] = (
        df["Zona rural"] * 3 +
        (1 - df["Acceso a internet"]) * 2 +
        (1 - df["Atenci√≥n previa del gobierno"]) * 2.5
    )
    df["Edad_Normalizada"] = df["Edad"] / 100
    df["Es_Vulnerable_Edad"] = ((df["Edad"] < 18) | (df["Edad"] > 65)).astype(int)
    df["Rural_Sin_Internet"] = ((df["Zona rural"] == 1) & (df["Acceso a internet"] == 0)).astype(int)
    df["Desatendido"] = (df["Atenci√≥n previa del gobierno"] == 0).astype(int)
    df["Desatendido_Rural"] = df["Desatendido"] * df["Zona rural"]
    df["Edad_Rural"] = df["Edad"] * df["Zona rural"]
    df["Internet_Atencion"] = df["Acceso a internet"] * df["Atenci√≥n previa del gobierno"]
    return df


In [12]:
def build_keras_model_regularizado(input_dim):
    """
    üß† Modelo Keras optimizado para ALTA PRECISI√ìN:
    - Regularizaci√≥n L2 y Dropout controlado
    - Focal Loss (mejor manejo de clases minoritarias)
    - M√©tricas: precisi√≥n, recall, accuracy
    - Optimizador AdamW con decaimiento de learning rate
    """
    from tensorflow.keras import backend as K

    # üîπ Definir Focal Loss personalizada
    def focal_loss(gamma=2., alpha=.25):
        def focal_loss_fixed(y_true, y_pred):
            y_true = K.cast(y_true, K.floatx())
            bce = K.binary_crossentropy(y_true, y_pred)
            bce_exp = K.exp(-bce)
            focal_loss = alpha * K.pow((1 - bce_exp), gamma) * bce
            return K.mean(focal_loss)
        return focal_loss_fixed

    # üîπ Arquitectura
    model = Sequential([
        Input(shape=(input_dim,)),
        Dense(256, activation='relu', kernel_regularizer=regularizers.l2(0.005)),
        BatchNormalization(),
        Dropout(0.25),

        Dense(128, activation='relu', kernel_regularizer=regularizers.l2(0.005)),
        BatchNormalization(),
        Dropout(0.2),

        Dense(64, activation='relu', kernel_regularizer=regularizers.l2(0.005)),
        BatchNormalization(),

        Dense(1, activation='sigmoid')
    ])

    # üîπ Optimizador AdamW (m√°s estable)
    opt = tf.keras.optimizers.AdamW(learning_rate=0.001, weight_decay=1e-5)

    # üîπ Compilaci√≥n con Focal Loss
    model.compile(
        optimizer=opt,
        loss=focal_loss(gamma=2.0, alpha=0.25),
        metrics=[
            tf.keras.metrics.Precision(name="precision"),
            tf.keras.metrics.Recall(name="recall"),
            tf.keras.metrics.BinaryAccuracy(name="accuracy")
        ]
    )

    return model


In [13]:
def entrenar_hibrido_mejor_precision(ciudad, metodo_balanceo='smoteenn', random_state=42):
    """
    Entrenamiento h√≠brido optimizado para mejorar PRECISI√ìN:
    - Regularizaci√≥n fuerte + Dropout
    - Focal Loss
    - Balanceo SMOTE o SMOTEENN
    - Umbral adaptativo con precisi√≥n m√≠nima deseada (default: 0.9)
    """

    df_ciudad = ambiente[ambiente["Ciudad"].str.lower() == ciudad.lower()].copy()
    if df_ciudad.empty:
        print(f"\n‚ùå No hay registros para {ciudad}")
        return None

    print(f"\n{'='*70}")
    print(f"üìç ENTRENANDO MODELO PARA CIUDAD: {ciudad.upper()}")
    print(f"{'='*70}")

    df_ciudad = crear_features_efectivas(df_ciudad)

    X = df_ciudad.select_dtypes(include=[np.number]).drop(columns=["Urgencia_num"], errors="ignore")
    y = df_ciudad["Urgencia_num"].astype(int)

    X = X.replace([np.inf, -np.inf], np.nan).dropna()
    y = y.loc[X.index]

    if len(y) < 10 or len(np.unique(y)) < 2:
        print("‚ö†Ô∏è Datos insuficientes para entrenamiento en esta ciudad.")
        return None

    # üß© Balanceo
    min_class = y.value_counts().min()
    if metodo_balanceo.lower() == "smote" and min_class >= 6:
        sm = SMOTE(random_state=random_state)
        X, y = sm.fit_resample(X, y)
        print(f"‚úÖ Balanceo con SMOTE ‚Üí Clase 0: {sum(y==0)}, Clase 1: {sum(y==1)}")
    elif metodo_balanceo.lower() == "smoteenn" and min_class >= 6:
        smenn = SMOTEENN(random_state=random_state)
        X, y = smenn.fit_resample(X, y)
        print(f"‚úÖ Balanceo con SMOTEENN ‚Üí Clase 0: {sum(y==0)}, Clase 1: {sum(y==1)}")
    else:
        print("‚ö†Ô∏è No se aplic√≥ balanceo (datos insuficientes o m√©todo distinto).")

    # üßÆ Escalado
    scaler = RobustScaler()
    X_scaled = scaler.fit_transform(X)

    skf = StratifiedKFold(n_splits=5, shuffle=True, random_state=random_state)
    f1_scores, prec_scores, rec_scores, acc_scores = [], [], [], []
    thresholds = []

    for fold, (train_idx, test_idx) in enumerate(skf.split(X_scaled, y), 1):
        print(f"\nüìÇ Fold {fold}/5")

        X_train, X_test = X_scaled[train_idx], X_scaled[test_idx]
        y_train, y_test = y.iloc[train_idx], y.iloc[test_idx]

        weights = compute_class_weight('balanced', classes=np.unique(y_train), y=y_train)
        class_weights = dict(zip(np.unique(y_train), weights))

        model = build_keras_model_regularizado(input_dim=X_train.shape[1])

        callbacks = [
            tf.keras.callbacks.EarlyStopping(monitor='val_loss', patience=8, restore_best_weights=True),
            tf.keras.callbacks.ReduceLROnPlateau(monitor='val_loss', factor=0.3, patience=3)
        ]

        model.fit(
            X_train, y_train,
            validation_data=(X_test, y_test),
            epochs=80,
            batch_size=16,
            verbose=0,
            callbacks=callbacks,
            class_weight=class_weights
        )

        y_pred_proba = model.predict(X_test).ravel()
        prec_arr, rec_arr, th_arr = precision_recall_curve(y_test, y_pred_proba)

        # üéØ Priorizar precisi√≥n
        desired_prec = 0.9
        valid_idx = np.where(prec_arr >= desired_prec)[0]
        if len(valid_idx) > 0:
            best_idx = valid_idx[np.argmax(rec_arr[valid_idx])]
        else:
            best_idx = np.argmax(2 * prec_arr * rec_arr / (prec_arr + rec_arr + 1e-8))

        best_th = th_arr[best_idx] if best_idx < len(th_arr) else 0.5
        thresholds.append(best_th)

        y_pred_opt = (y_pred_proba >= best_th).astype(int)
        f1 = f1_score(y_test, y_pred_opt)
        acc = accuracy_score(y_test, y_pred_opt)
        prec_val = precision_score(y_test, y_pred_opt)
        rec_val = recall_score(y_test, y_pred_opt)

        f1_scores.append(f1)
        acc_scores.append(acc)
        prec_scores.append(prec_val)
        rec_scores.append(rec_val)

        print(f"üîπ Fold {fold} ‚Üí F1: {f1:.3f} | Acc: {acc:.3f} | Prec: {prec_val:.3f} | Rec: {rec_val:.3f} | Th: {best_th:.2f}")

    avg_threshold = np.mean(thresholds)
    print(f"\nüîß Umbral promedio (prec ‚â• 0.9): {avg_threshold:.3f}")

    # üß© Entrenamiento final
    model_final = build_keras_model_regularizado(input_dim=X_scaled.shape[1])
    model_final.fit(X_scaled, y, epochs=80, batch_size=16, verbose=0)

    y_pred_proba_full = model_final.predict(X_scaled).ravel()
    y_pred_final = (y_pred_proba_full >= avg_threshold).astype(int)

    print(f"\nüîß Umbral global: {avg_threshold:.3f}")
    print("üìä Reporte final:")
    print(classification_report(y, y_pred_final, target_names=["No Urgente", "Urgente"]))
    print("üìâ Matriz de confusi√≥n:")
    print(confusion_matrix(y, y_pred_final))

    print(f"\nüìà F1 promedio: {np.mean(f1_scores):.3f}")
    print(f"üéØ Precisi√≥n promedio: {np.mean(prec_scores):.3f}")
    print(f"üìâ Recall promedio: {np.mean(rec_scores):.3f}")
    print(f"‚úÖ Exactitud promedio: {np.mean(acc_scores):.3f}")

    print(f"\nüèÅ Entrenamiento completado para {ciudad.upper()} ‚úÖ")
    return model_final, scaler, avg_threshold

In [14]:
# %%
print("\n" + "="*70)
print("üöÄ ENTRENAMIENTO H√çBRIDO (scikit-learn + Keras)")
print("="*70)

ciudades = ["Pereira", "Bogot√°", "Cali"]
resultados = {}

for ciudad in ciudades:
    print(f"\nüåÜ Ciudad: {ciudad}")
    try:
        modelo, escalador, umbral = entrenar_hibrido_mejor_precision(ciudad, metodo_balanceo='smoteenn')

        # Guardar resultados por ciudad
        resultados[ciudad] = {
            "modelo": modelo,
            "escalador": escalador,
            "umbral": umbral
        }

        print(f"‚úÖ {ciudad} entrenada correctamente. Umbral √≥ptimo: {umbral:.3f}")
    except Exception as e:
        print(f"‚ùå Error entrenando {ciudad}: {str(e)}")

    print(f"\n{'-'*70}\n")

print("üèÅ ENTRENAMIENTO COMPLETADO PARA TODAS LAS CIUDADES")



üöÄ ENTRENAMIENTO H√çBRIDO (scikit-learn + Keras)

üåÜ Ciudad: Pereira

üìç ENTRENANDO MODELO PARA CIUDAD: PEREIRA
‚úÖ Balanceo con SMOTEENN ‚Üí Clase 0: 128, Clase 1: 82

üìÇ Fold 1/5
[1m2/2[0m [32m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m[37m[0m [1m0s[0m 181ms/step
üîπ Fold 1 ‚Üí F1: 0.867 | Acc: 0.905 | Prec: 0.929 | Rec: 0.812 | Th: 0.56

üìÇ Fold 2/5
[1m2/2[0m [32m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m[37m[0m [1m0s[0m 174ms/step
üîπ Fold 2 ‚Üí F1: 0.741 | Acc: 0.833 | Prec: 0.909 | Rec: 0.625 | Th: 0.60

üìÇ Fold 3/5
[1m2/2[0m [32m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m[37m[0m [1m0s[0m 183ms/step
üîπ Fold 3 ‚Üí F1: 0.828 | Acc: 0.881 | Prec: 0.923 | Rec: 0.750 | Th: 0.66

üìÇ Fold 4/5
[1m2/2[0m [32m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m[37m[0m [1m0s[0m 173ms/step
üîπ Fold 4 ‚Üí F1: 0.211 | Acc: 0.643 | Prec: 1.000 | Rec: 0.118 | Th: 0.88

üìÇ

In [15]:
# ====================================================
# üìä Visualizaci√≥n por Ciudad (con Plotly y widgets)
# ====================================================
import pandas as pd
import plotly.express as px
import plotly.graph_objects as go
from ipywidgets import interact, widgets, interactive_output
from IPython.display import display, clear_output

# --- Cargar dataset base ---
df = pd.read_csv("dataset_comunidades_senasoft.csv")

# --- Filtrar solo Medio Ambiente ---
ambiente_viz = df[df["Categor√≠a del problema"].str.lower() == "medio ambiente"].copy()

# --- Limpieza b√°sica ---
ambiente_viz = ambiente_viz.dropna(subset=["Ciudad", "Edad", "Nivel de urgencia"])
ambiente_viz["Edad"] = pd.to_numeric(ambiente_viz["Edad"], errors="coerce")
ambiente_viz = ambiente_viz.dropna(subset=["Edad"])
ambiente_viz["Nivel de urgencia"] = ambiente_viz["Nivel de urgencia"].str.lower().str.strip()

# --- Crear feature de vulnerabilidad (simplificada) ---
def crear_features_viz(df):
    df = df.copy()
    df["Acceso a internet"] = pd.to_numeric(df["Acceso a internet"], errors="coerce").fillna(0).astype(int)
    df["Atenci√≥n previa del gobierno"] = pd.to_numeric(df["Atenci√≥n previa del gobierno"], errors="coerce").fillna(0).astype(int)
    df["Zona rural"] = pd.to_numeric(df["Zona rural"], errors="coerce").fillna(0).astype(int)
    df["Vulnerabilidad_Total"] = (
        df["Zona rural"] * 3 +
        (1 - df["Acceso a internet"]) * 2 +
        (1 - df["Atenci√≥n previa del gobierno"]) * 2.5
    )
    return df

ambiente_viz = crear_features_viz(ambiente_viz)

# --- Coordenadas aproximadas de ciudades ---
coords_ciudades = {
    "Bogot√°": (4.7110, -74.0721),
    "Medell√≠n": (6.2442, -75.5812),
    "Cali": (3.4516, -76.5320),
    "Barranquilla": (10.9639, -74.7964),
    "Cartagena": (10.3910, -75.4794),
    "Bucaramanga": (7.1193, -73.1227),
    "Pereira": (4.8143, -75.6946),
    "Manizales": (5.0703, -75.5138),
    "C√∫cuta": (7.8939, -72.5078),
    "Ibagu√©": (4.4389, -75.2322),
    "Neiva": (2.9386, -75.2819),
    "Villavicencio": (4.1420, -73.6266),
    "Santa Marta": (11.2408, -74.1990),
    "Popay√°n": (2.4448, -76.6147),
    "Monter√≠a": (8.7489, -75.8814),
    "Pasto": (1.2136, -77.2811)
}
ambiente_viz["lat"] = ambiente_viz["Ciudad"].map(lambda c: coords_ciudades.get(c, (None, None))[0])
ambiente_viz["lon"] = ambiente_viz["Ciudad"].map(lambda c: coords_ciudades.get(c, (None, None))[1])

# --- Ciudades disponibles ---
ciudades_disponibles = sorted(ambiente_viz["Ciudad"].dropna().unique())

# --- Funci√≥n principal de visualizaci√≥n ---
def visualizar_ciudad(ciudad):
    clear_output(wait=True)
    print(f"üìç Ciudad seleccionada: {ciudad}")

    dfc = ambiente_viz[ambiente_viz["Ciudad"] == ciudad]
    if dfc.empty:
        print("‚ùå No hay registros para esta ciudad.")
        return

    # 1Ô∏è‚É£ Distribuci√≥n de nivel de urgencia
    urg_counts = dfc["Nivel de urgencia"].value_counts().reset_index()
    urg_counts.columns = ["Nivel de urgencia", "Cantidad"]
    fig1 = px.bar(
        urg_counts, x="Nivel de urgencia", y="Cantidad",
        color="Nivel de urgencia", text="Cantidad",
        title=f"Distribuci√≥n de Nivel de Urgencia - {ciudad}",
        template="plotly_white"
    )
    fig1.update_traces(textposition="outside")
    fig1.show()

    # 2Ô∏è‚É£ Distribuci√≥n por edad
    fig2 = px.histogram(
        dfc, x="Edad", nbins=20, color="Nivel de urgencia",
        marginal="box",
        title=f"Distribuci√≥n de Edades por Urgencia - {ciudad}",
        template="plotly_white"
    )
    fig2.show()

    # 7Ô∏è‚É£ Promedio de vulnerabilidad total por ciudad
    vuln_city = (
        ambiente_viz.groupby("Ciudad")["Vulnerabilidad_Total"]
        .mean().reset_index().sort_values(by="Vulnerabilidad_Total", ascending=False)
    )
    fig3 = px.bar(
        vuln_city, x="Vulnerabilidad_Total", y="Ciudad",
        orientation="h", text="Vulnerabilidad_Total",
        title="Promedio de Vulnerabilidad Total por Ciudad",
        template="plotly_white", color="Vulnerabilidad_Total"
    )
    fig3.update_traces(texttemplate="%{text:.2f}", textposition="outside")
    fig3.show()

    # 8Ô∏è‚É£ Relaci√≥n Edad vs Vulnerabilidad Total
    fig4 = px.scatter(
        dfc, x="Edad", y="Vulnerabilidad_Total", color="Nivel de urgencia",
        symbol="Zona rural",
        hover_data=["Acceso a internet", "Atenci√≥n previa del gobierno"],
        title=f"Edad vs Vulnerabilidad Total - {ciudad}",
        template="plotly_white"
    )
    fig4.show()

    # 9Ô∏è‚É£ Mapa geogr√°fico de calor (casos por ciudad)
    casos_ciudad = (
        ambiente_viz.groupby(["Ciudad", "lat", "lon"])
        .size().reset_index(name="Casos")
    )
    casos_ciudad = casos_ciudad.dropna(subset=["lat", "lon"])

    fig5 = px.scatter_mapbox(
        casos_ciudad,
        lat="lat", lon="lon", size="Casos",
        color="Casos", hover_name="Ciudad",
        zoom=4.3,
        color_continuous_scale="Viridis",
        mapbox_style="carto-positron",
        title="Mapa geogr√°fico de calor - Casos por ciudad"
    )
    fig5.show()

# --- Selector interactivo manual ---
selector = widgets.Dropdown(
    options=ciudades_disponibles,
    description='Ciudad:',
    style={'description_width': 'initial'},
    layout=widgets.Layout(width='50%')
)
display(selector)

def on_change(change):
    if change['type'] == 'change' and change['name'] == 'value':
        visualizar_ciudad(change['new'])

selector.observe(on_change)
print("‚úÖ Selecciona una ciudad en el men√∫ desplegable para ver las gr√°ficas.")


In [14]:
import joblib

joblib.dump(resultados["Pereira"]["modelo"], "modelo_urgencia_pereira.keras")
joblib.dump(resultados["Pereira"]["escalador"], "scaler_pereira.pkl")
joblib.dump(resultados["Pereira"]["umbral"], "umbral_pereira.pkl")


['umbral_pereira.pkl']

In [16]:
modelo_final, scaler, avg_threshold = entrenar_hibrido_mejor_precision("Bogot√°")


üìç ENTRENANDO MODELO PARA CIUDAD: BOGOT√Å
‚úÖ Balanceo con SMOTEENN ‚Üí Clase 0: 212, Clase 1: 166

üìÇ Fold 1/5
[1m3/3[0m [32m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m[37m[0m [1m0s[0m 80ms/step
üîπ Fold 1 ‚Üí F1: 0.909 | Acc: 0.921 | Prec: 0.909 | Rec: 0.909 | Th: 0.51

üìÇ Fold 2/5
[1m3/3[0m [32m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m[37m[0m [1m0s[0m 56ms/step
üîπ Fold 2 ‚Üí F1: 0.909 | Acc: 0.921 | Prec: 0.909 | Rec: 0.909 | Th: 0.51

üìÇ Fold 3/5
[1m3/3[0m [32m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m[37m[0m [1m0s[0m 83ms/step
üîπ Fold 3 ‚Üí F1: 0.912 | Acc: 0.921 | Prec: 0.912 | Rec: 0.912 | Th: 0.53

üìÇ Fold 4/5
[1m3/3[0m [32m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m[37m[0m [1m0s[0m 62ms/step
üîπ Fold 4 ‚Üí F1: 0.875 | Acc: 0.893 | Prec: 0.903 | Rec: 0.848 | Th: 0.52

üìÇ Fold 5/5
[1m3/3[0m [32m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚î

In [17]:
import pickle
import os

os.makedirs("modelos", exist_ok=True)

# Guardar el modelo Keras
modelo_final.save("modelos/modelo_urgencia_bogota.keras")

# Guardar el escalador (scaler)
with open("modelos/escalador_bogota.pkl", "wb") as f:
    pickle.dump(scaler, f)

# Guardar el umbral
with open("modelos/umbral_bogota.pkl", "w") as f:
    f.write(str(avg_threshold))

print("‚úÖ Archivos del modelo de Pereira guardados correctamente.")


‚úÖ Archivos del modelo de Pereira guardados correctamente.
