In [1]:
import pandas as pd
import joblib
from sklearn.ensemble import IsolationForest

def train_anomaly_detector():
    """
    Entrena el modelo Isolation Forest en el dataset de hemogramas
    para detectar patrones at√≠picos o Outliers.
    """
    print("üß† Entrenando Isolation Forest para Anomaly Detection...")
    
    # Cargar el dataset etiquetado (nhanes_labeled_data.csv)
    try:
        df = pd.read_csv("nhanes_labeled_data.csv")
    except FileNotFoundError:
        print("‚ùå Error: No se encuentra 'nhanes_labeled_data.csv'. Aseg√∫rate de que exista.")
        return
    
    # Preprocesamiento: Excluimos la columna de diagn√≥stico ('Diagnosis') e 'ID'
    # Solo entrenamos con las caracter√≠sticas num√©ricas (X)
    X = df.drop(columns=['Diagnosis', 'ID'])
    
    # Inicializar Isolation Forest
    # contamination='auto' permite que el modelo estime el porcentaje de outliers.
    model_if = IsolationForest(contamination='auto', random_state=42)
    
    # Entrenar el modelo
    model_if.fit(X)
    
    # Guardar el modelo
    joblib.dump(model_if, 'anomaly_detector_v1.joblib')
    print("‚úÖ Modelo Isolation Forest guardado como 'anomaly_detector_v1.joblib'")
    
    # Prueba r√°pida (ver cu√°ntos outliers detecta en el set de entrenamiento)
    # El modelo predice -1 para Outlier y 1 para Inlier.
    outliers_detected = (model_if.predict(X) == -1).sum()
    print(f"üî¨ El modelo detect√≥ {outliers_detected} anomal√≠as en el dataset de entrenamiento.")

if __name__ == "__main__":
    train_anomaly_detector()

üß† Entrenando Isolation Forest para Anomaly Detection...
‚úÖ Modelo Isolation Forest guardado como 'anomaly_detector_v1.joblib'
üî¨ El modelo detect√≥ 1322 anomal√≠as en el dataset de entrenamiento.
