### SETUP AND DATA LOADING

In [None]:
import os
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import mlflow
import mlflow.sklearn
from sqlalchemy import create_engine
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.compose import ColumnTransformer
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, confusion_matrix
from sklearn.model_selection import train_test_split

# Modelos ligeros
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier

In [None]:
plt.style.use('ggplot')
sns.set(style="whitegrid")

# Configurar MLflow
mlflow.set_tracking_uri("http://10.43.101.175:30500")
mlflow.set_experiment("diabetes_readmission_experiment")

# 1. CARGA Y EXPLORACIÓN DE DATOS
# Conectar a PostgreSQL
conn_string = "postgresql://airflow:airflow@localhost:5432/airflow"
engine = create_engine(conn_string)

# Cargar datos de entrenamiento (limitado para no sobrecargar)
train_df = pd.read_sql("SELECT * FROM clean_data.diabetes_train LIMIT 5000", engine)
val_df = pd.read_sql("SELECT * FROM clean_data.diabetes_validation LIMIT 1000", engine)

### DATA EXPLORATION


In [None]:
# Exploración básica
print("Dimensiones del conjunto de entrenamiento:", train_df.shape)
print("\nInformación sobre los tipos de datos:")
print(train_df.dtypes)

print("\nEstadísticas descriptivas de variables numéricas:")
print(train_df.describe())

# Visualizar distribución de la variable objetivo
plt.figure(figsize=(8, 5))
readmitted_counts = train_df['readmitted'].value_counts()
plt.bar(readmitted_counts.index, readmitted_counts.values)
plt.title('Distribución de readmisiones')
plt.xlabel('Readmitido')
plt.ylabel('Conteo')
plt.xticks(rotation=45)
plt.tight_layout()
plt.show()

# Verificar valores faltantes
missing_values = train_df.isnull().sum()
print("\nValores faltantes por columna:")
print(missing_values[missing_values > 0] if missing_values.sum() > 0 else "No hay valores faltantes")

### LIMPIEZA Y PREPROCESAMIENTO

In [None]:
# Excluir columnas no útiles para el modelo
columns_to_drop = ['id', 'batch_id', 'dataset', 'encounter_id', 'patient_nbr']
X_train = train_df.drop(columns=[col for col in columns_to_drop if col in train_df.columns] + ['readmitted'], errors='ignore')
y_train = train_df['readmitted']

X_val = val_df.drop(columns=[col for col in columns_to_drop if col in val_df.columns] + ['readmitted'], errors='ignore')
y_val = val_df['readmitted']

# Identificar tipos de columnas
numeric_features = X_train.select_dtypes(include=['int64', 'float64']).columns
categorical_features = X_train.select_dtypes(include=['object']).columns

print(f"\nCaracterísticas numéricas: {len(numeric_features)}")
print(f"Características categóricas: {len(categorical_features)}")

# Crear preprocesador
preprocessor = ColumnTransformer(
    transformers=[
        ('num', StandardScaler(), numeric_features),
        ('cat', OneHotEncoder(handle_unknown='ignore'), categorical_features)
    ])

# Aplicar preprocesamiento
X_train_processed = preprocessor.fit_transform(X_train)
X_val_processed = preprocessor.transform(X_val)

print(f"\nDimensiones después del preprocesamiento:")
print(f"X_train_processed: {X_train_processed.shape}")
print(f"X_val_processed: {X_val_processed.shape}")


### MODELADO Y EVALUACIÓN

In [None]:
# Función para evaluar modelo
def evaluate_model(model, X, y, dataset_name=""):
    y_pred = model.predict(X)
    metrics = {
        'accuracy': accuracy_score(y, y_pred),
        'precision': precision_score(y, y_pred, average='weighted'),
        'recall': recall_score(y, y_pred, average='weighted'),
        'f1_score': f1_score(y, y_pred, average='weighted')
    }
    
    print(f"\nMétricas en {dataset_name}:")
    for metric_name, metric_value in metrics.items():
        print(f"  {metric_name}: {metric_value:.4f}")
    
    return metrics, y_pred

# Entrenar y evaluar modelos
models = {
    'LogisticRegression': LogisticRegression(max_iter=500, C=1.0, solver='liblinear', random_state=42),
    'DecisionTree': DecisionTreeClassifier(max_depth=5, min_samples_split=5, random_state=42)
}

results = {}
for name, model in models.items():
    print(f"\n=== Entrenando modelo: {name} ===")
    
    with mlflow.start_run(run_name=name):
        # Registrar parámetros
        for param, value in model.get_params().items():
            mlflow.log_param(param, value)
        
        # Entrenar
        model.fit(X_train_processed, y_train)
        
        # Evaluar en entrenamiento
        train_metrics, _ = evaluate_model(model, X_train_processed, y_train, "entrenamiento")
        for metric_name, metric_value in train_metrics.items():
            mlflow.log_metric(f"train_{metric_name}", metric_value)
        
        # Evaluar en validación
        val_metrics, y_val_pred = evaluate_model(model, X_val_processed, y_val, "validación")
        for metric_name, metric_value in val_metrics.items():
            mlflow.log_metric(f"val_{metric_name}", metric_value)
        
        # Registrar modelo
        mlflow.sklearn.log_model(model, name)
        
        # Matriz de confusión
        plt.figure(figsize=(8, 6))
        cm = confusion_matrix(y_val, y_val_pred)
        sns.heatmap(cm, annot=True, fmt='d', cmap='Blues')
        plt.title(f'Matriz de Confusión - {name}')
        plt.xlabel('Predicción')
        plt.ylabel('Valor real')
        plt.tight_layout()
        plt.savefig(f"{name}_confusion_matrix.png")
        mlflow.log_artifact(f"{name}_confusion_matrix.png")
        plt.close()
        
        results[name] = val_metrics



### SELECCIÓN DEL MEJOR MODELO

In [None]:
print("\n=== Selección del mejor modelo ===")
val_f1_scores = {name: metrics['f1_score'] for name, metrics in results.items()}
best_model_name = max(val_f1_scores, key=val_f1_scores.get)
best_model = models[best_model_name]

print(f"El mejor modelo es: {best_model_name} con F1-score: {val_f1_scores[best_model_name]:.4f}")

# 5. OPTIMIZACIÓN DEL MEJOR MODELO
print(f"\n=== Optimización de hiperparámetros para {best_model_name} ===")

if best_model_name == "LogisticRegression":
    param_grid = [
        {'C': 0.1, 'solver': 'liblinear'},
        {'C': 1.0, 'solver': 'liblinear'},
        {'C': 10.0, 'solver': 'liblinear'},
        {'C': 0.1, 'solver': 'saga'},
        {'C': 1.0, 'solver': 'saga'},
        {'C': 10.0, 'solver': 'saga'}
    ]
else:  # DecisionTree
    param_grid = [
        {'max_depth': 3, 'min_samples_split': 2},
        {'max_depth': 5, 'min_samples_split': 2},
        {'max_depth': 3, 'min_samples_split': 5},
        {'max_depth': 5, 'min_samples_split': 5},
        {'max_depth': 8, 'min_samples_split': 2},
        {'max_depth': 8, 'min_samples_split': 5}
    ]

best_score = 0
best_params = None
best_tuned_model = None

model_class = LogisticRegression if best_model_name == "LogisticRegression" else DecisionTreeClassifier

for params in param_grid:
    with mlflow.start_run(run_name=f"tuning_{best_model_name}"):
        # Registrar parámetros
        for param, value in params.items():
            mlflow.log_param(param, value)
        
        # Crear y entrenar modelo
        if best_model_name == "LogisticRegression":
            model = LogisticRegression(max_iter=500, random_state=42, **params)
        else:
            model = DecisionTreeClassifier(random_state=42, **params)
        
        model.fit(X_train_processed, y_train)
        
        # Evaluar
        val_metrics, _ = evaluate_model(model, X_val_processed, y_val, f"validación con {params}")
        for metric_name, metric_value in val_metrics.items():
            mlflow.log_metric(f"val_{metric_name}", metric_value)
        
        # Guardar modelo
        mlflow.sklearn.log_model(model, f"tuned_{best_model_name}")
        
        # Actualizar mejor modelo
        if val_metrics['f1_score'] > best_score:
            best_score = val_metrics['f1_score']
            best_params = params
            best_tuned_model = model

print(f"\nMejores parámetros para {best_model_name}: {best_params}")
print(f"Mejor F1-score después de optimización: {best_score:.4f}")

### PREDICCIÓN

In [None]:
print("\n=== Panel de Predicción con el Mejor Modelo Optimizado ===")

# Función para realizar predicciones
def predict_readmission(patient_data, model=best_tuned_model, preprocessor=preprocessor):
    """
    Realizar predicción de readmisión hospitalaria usando el modelo optimizado
    
    Args:
        patient_data: Diccionario con datos del paciente o DataFrame
        model: Modelo entrenado (por defecto, el mejor modelo optimizado)
        preprocessor: Preprocesador utilizado
        
    Returns:
        Predicción de readmisión
    """
    # Convertir a DataFrame si es un diccionario
    if isinstance(patient_data, dict):
        input_data = pd.DataFrame([patient_data])
    else:
        input_data = patient_data
    
    # Mapeo de campos con guiones bajos a guiones
    field_mapping = {
        'glyburide_metformin': 'glyburide-metformin',
        'glipizide_metformin': 'glipizide-metformin',
        'glimepiride_pioglitazone': 'glimepiride-pioglitazone',
        'metformin_rosiglitazone': 'metformin-rosiglitazone',
        'metformin_pioglitazone': 'metformin-pioglitazone'
    }
    
    # Normalizar nombres de campos
    for old_col, new_col in field_mapping.items():
        if old_col in input_data.columns and new_col not in input_data.columns:
            input_data[new_col] = input_data[old_col]
            input_data = input_data.drop(old_col, axis=1)
            print(f"Convertido campo {old_col} a {new_col}")
    
    # Preprocesar los datos con el mismo preprocesador usado en entrenamiento
    processed_data = preprocessor.transform(input_data)
    
    # Realizar predicción
    prediction = model.predict(processed_data)
    
    # Interpretar la predicción
    prediction_value = prediction[0]
    
    return prediction_value

# Datos de ejemplo (los proporcionados)
patient_data = {
    "race": "Caucasian",
    "gender": "Male",
    "age": "50-60",
    "admission_type_id": 1,
    "time_in_hospital": 7,
    "num_lab_procedures": 45,
    "num_procedures": 2,
    "num_medications": 18,
    "number_outpatient": 2,
    "number_emergency": 1,
    "number_inpatient": 3,
    "number_diagnoses": 8,
    "max_glu_serum": ">300",
    "A1Cresult": ">8",
    "insulin": "Up",
    "diabetesMed": "Yes",
    "encounter_id": 12345,
    "patient_nbr": 67890,
    "discharge_disposition_id": 1,
    "admission_source_id": 7,
    "weight": ">200",
    "payer_code": "MC",
    "medical_specialty": "Cardiology",
    "diag_1": "414.01",
    "diag_2": "250.00",
    "diag_3": "427.31",
    "metformin": "No",
    "repaglinide": "No",
    "nateglinide": "No",
    "chlorpropamide": "No",
    "glimepiride": "No",
    "acetohexamide": "No",
    "glipizide": "No",
    "glyburide": "No",
    "tolbutamide": "No",
    "pioglitazone": "No",
    "rosiglitazone": "No",
    "acarbose": "No",
    "miglitol": "No",
    "troglitazone": "No",
    "tolazamide": "No",
    "examide": "No",
    "citoglipton": "No",
    "glyburide_metformin": "No",
    "glipizide_metformin": "No",
    "glimepiride_pioglitazone": "No",
    "metformin_rosiglitazone": "No",
    "metformin_pioglitazone": "No",
    "change": "No"
}

try:
    # Realizar predicción
    prediction = predict_readmission(patient_data)
    
    print(f"\n Resultado de predicción: {prediction}")
    print(f"Interpretación: {'Readmitido' if prediction != 'NO' else 'No readmitido'}")
    
    # Mostrar características del paciente importantes
    print("\nCaracterísticas del paciente:")
    print(f"  Edad: {patient_data['age']}")
    print(f"  Género: {patient_data['gender']}")
    print(f"  Tiempo en hospital: {patient_data['time_in_hospital']} días")
    print(f"  Nivel de glucosa: {patient_data['max_glu_serum']}")
    print(f"  Resultado A1C: {patient_data['A1Cresult']}")
    print(f"  Diagnóstico principal: {patient_data['diag_1']}")
    print(f"  Insulina: {patient_data['insulin']}")
    print(f"  Medicamentos para diabetes: {patient_data['diabetesMed']}")
    
    # Registro de la predicción en MLflow
    with mlflow.start_run(run_name=f"prediction_example"):
        # Registrar los datos del paciente
        mlflow.log_param("patient_age", patient_data['age'])
        mlflow.log_param("patient_gender", patient_data['gender'])
        mlflow.log_param("time_in_hospital", patient_data['time_in_hospital'])
        mlflow.log_param("max_glu_serum", patient_data['max_glu_serum'])
        mlflow.log_param("A1Cresult", patient_data['A1Cresult'])
        
        # Registrar la predicción
        mlflow.log_metric("prediction", 1 if prediction != 'NO' else 0)
        
        # Guardar datos de entrada como artefacto
        import json
        with open("patient_data.json", "w") as f:
            json.dump(patient_data, f)
        mlflow.log_artifact("patient_data.json")
    
except Exception as e:
    print(f" Error al realizar predicción: {str(e)}")

# 9. FUNCIÓN PARA PREDICCIONES EN LOTE
print("\n=== Predicciones en Lote ===")

def batch_predict(patients_data, model=best_tuned_model, preprocessor=preprocessor):
    """
    Realizar predicciones para un lote de pacientes
    
    Args:
        patients_data: Lista de diccionarios o DataFrame con datos de pacientes
        model: Modelo entrenado
        preprocessor: Preprocesador utilizado
        
    Returns:
        Lista de predicciones
    """
    # Convertir a DataFrame si es una lista de diccionarios
    if isinstance(patients_data, list):
        input_data = pd.DataFrame(patients_data)
    else:
        input_data = patients_data
    
    # Preprocesar los datos
    processed_data = preprocessor.transform(input_data)
    
    # Realizar predicciones
    predictions = model.predict(processed_data)
    
    return predictions

# Crear varios casos de ejemplo para predicción en lote
batch_patients = [
    # Caso 1: Paciente similar al ejemplo pero distinto género y edad
    {**patient_data, "gender": "Female", "age": "60-70"},
    
    # Caso 2: Paciente con menos tiempo en hospital y mejor control glucémico
    {**patient_data, "time_in_hospital": 3, "max_glu_serum": "<200", "A1Cresult": "<7"},
    
    # Caso 3: Paciente sin medicación para diabetes
    {**patient_data, "insulin": "No", "diabetesMed": "No"}
]

try:
    # Realizar predicciones en lote
    batch_results = batch_predict(batch_patients)
    
    print("\nResultados de predicciones en lote:")
    for i, (patient, result) in enumerate(zip(batch_patients, batch_results)):
        print(f"\nPaciente {i+1}:")
        print(f"  Edad: {patient['age']}")
        print(f"  Género: {patient['gender']}")
        print(f"  Tiempo en hospital: {patient['time_in_hospital']} días")
        print(f"  Nivel de glucosa: {patient['max_glu_serum']}")
        print(f"  Resultado A1C: {patient['A1Cresult']}")
        print(f"  Insulina: {patient['insulin']}")
        print(f"  Medicamentos para diabetes: {patient['diabetesMed']}")
        print(f"  → Predicción: {result} ({'Readmitido' if result != 'NO' else 'No readmitido'})")
    
except Exception as e:
    print(f" Error al realizar predicciones en lote: {str(e)}")

print("\n=== Sistema de Predicción Completo ===")
print(" El modelo optimizado está listo para uso en producción")
print(f" Modelo utilizado: {best_model_name} con parámetros: {best_params}")
print(f" F1-score del modelo: {best_score:.4f}")

### GUARDADO

In [None]:
# 6. REGISTRAR EL MEJOR MODELO EN MLFLOW
print("\n=== Registro del mejor modelo en MLflow ===")

# Registrar el mejor modelo directamente en MLflow
with mlflow.start_run(run_name=f"best_model_{best_model_name}"):
    # Registrar parámetros
    for param, value in best_params.items():
        mlflow.log_param(param, value)
    
    # Registrar métricas finales
    final_val_metrics, _ = evaluate_model(best_tuned_model, X_val_processed, y_val, "validación final")
    for metric_name, metric_value in final_val_metrics.items():
        mlflow.log_metric(f"val_{metric_name}", metric_value)
    
    # Registrar modelo en el registro de modelos de MLflow
    mlflow.sklearn.log_model(
        best_tuned_model, 
        f"final_model",
        registered_model_name=f"diabetes_readmission_{best_model_name}"
    )
    
    # Registrar también el preprocesador como artefacto
    import pickle
    preprocessor_path = "preprocessor.pkl"
    with open(preprocessor_path, 'wb') as f:
        pickle.dump(preprocessor, f)
    mlflow.log_artifact(preprocessor_path)
    
    print(f"\n Mejor modelo registrado en MLflow como 'diabetes_readmission_{best_model_name}'")
    print(" El modelo y el preprocesador están almacenados en MinIO")