# Titanic Survival Prediction - Model Evaluation & Interpretation
# ================================================================

# ## üìã Objetivo
# Analizar en profundidad el modelo final para generar insights y storytelling:
# - An√°lisis de casos mal clasificados
# - Interpretaci√≥n de predictions en contexto hist√≥rico  
# - Validaci√≥n de hip√≥tesis iniciales
# - Error analysis y bias detection
# - Insights para storytelling final

## 1. Importaci√≥n de Librer√≠as

In [2]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import joblib
import json
from sklearn.metrics import (classification_report, confusion_matrix, 
                            roc_curve, precision_recall_curve)
from sklearn.model_selection import learning_curve, validation_curve
import warnings

# Funciones helper
import sys
import os
sys.path.append('../src')
from utils.helpers import save_current_plot

In [None]:
# Configuraci√≥n
warnings.filterwarnings("ignore")
plt.style.use("seaborn-v0_8")
sns.set_palette("husl")

print("‚úÖ Librer√≠as importadas correctamente")  

## 2. Carga de Modelo Final y Datos

In [None]:
# Cargar modelo entrenado
model_path = "../models/best_model_svm.pkl"
best_model = joblib.load(model_path)

# Cargar m√©tricas guardadas
with open("../models/model_metrics.json", "r") as f:
    saved_metrics = json.load(f)

# Cargar datasets
df_original = pd.read_csv("../data/raw/titanic.csv")
df_features = pd.read_csv("../data/processed/features_engineered.csv")
df_scaled = pd.read_csv("../data/processed/features_scaled.csv")

print("ü§ñ MODELO Y DATOS CARGADOS")
print("=" * 30)
print(f"üìä Modelo: {saved_metrics['best_model']}")
print(f"üéØ Mejores par√°metros: {saved_metrics['best_params']}")
print(f"üìà Accuracy final: {saved_metrics['final_test_metrics']['accuracy']:.4f}")

# Recrear split de datos (mismo random_state)
from sklearn.model_selection import train_test_split

X = df_scaled.drop("Survived", axis=1)
y = df_scaled["Survived"]

X_temp, X_test, y_temp, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42, stratify=y
)

X_train, X_val, y_train, y_val = train_test_split(
    X_temp, y_temp, test_size=0.125, random_state=42, stratify=y_temp
)

print(f"üîç Verificaci√≥n de split: Test set = {len(X_test)} muestras")

## 3. Predicciones del Modelo Final

In [None]:
print("\nüéØ GENERANDO PREDICCIONES FINALES")
print("=" * 35)

# Predicciones en todos los conjuntos
y_pred_train = best_model.predict(X_train)
y_pred_val = best_model.predict(X_val)
y_pred_test = best_model.predict(X_test)

y_proba_train = best_model.predict_proba(X_train)[:, 1]
y_proba_val = best_model.predict_proba(X_val)[:, 1]
y_proba_test = best_model.predict_proba(X_test)[:, 1]

print("‚úÖ Predicciones generadas para todos los conjuntos")

## 4. An√°lisis Detallado de Performance

In [None]:
print("\nüìä AN√ÅLISIS DETALLADO DE PERFORMANCE")
print("=" * 40)

# M√©tricas por conjunto
from sklearn.metrics import (
    accuracy_score,
    precision_score,
    recall_score,
    f1_score,
    roc_auc_score,
)

performance_summary = {
    "Train": {
        "accuracy": accuracy_score(y_train, y_pred_train),
        "precision": precision_score(y_train, y_pred_train),
        "recall": recall_score(y_train, y_pred_train),
        "f1": f1_score(y_train, y_pred_train),
        "auc": roc_auc_score(y_train, y_proba_train),
    },
    "Validation": {
        "accuracy": accuracy_score(y_val, y_pred_val),
        "precision": precision_score(y_val, y_pred_val),
        "recall": recall_score(y_val, y_pred_val),
        "f1": f1_score(y_val, y_pred_val),
        "auc": roc_auc_score(y_val, y_proba_val),
    },
    "Test": {
        "accuracy": accuracy_score(y_test, y_pred_test),
        "precision": precision_score(y_test, y_pred_test),
        "recall": recall_score(y_test, y_pred_test),
        "f1": f1_score(y_test, y_pred_test),
        "auc": roc_auc_score(y_test, y_proba_test),
    },
}

performance_df = pd.DataFrame(performance_summary).T
print("Performance por conjunto de datos:")
print(performance_df.round(4))

# Visualizaci√≥n de performance
plt.figure(figsize=(15, 5))

metrics = ["accuracy", "precision", "recall", "f1", "auc"]
metric_names = ["Accuracy", "Precision", "Recall", "F1-Score", "AUC-ROC"]

for i, (metric, name) in enumerate(zip(metrics, metric_names), 1):
    plt.subplot(1, 5, i)
    values = performance_df[metric]
    colors = ["lightblue", "lightgreen", "coral"]
    bars = plt.bar(values.index, values.values, color=colors)
    plt.title(name)
    plt.ylabel(name)
    plt.xticks(rotation=45)

    # A√±adir valores
    for bar, value in zip(bars, values.values):
        plt.text(
            bar.get_x() + bar.get_width() / 2,
            bar.get_height() + 0.01,
            f"{value:.3f}",
            ha="center",
            va="bottom",
            fontsize=9,
        )

plt.tight_layout()
save_current_plot("performance_by_dataset", "../results/figures/model_performance/")
plt.show()

## 5. An√°lisis de Errores: Casos Mal Clasificados

In [None]:
print("\nüîç AN√ÅLISIS DE CASOS MAL CLASIFICADOS")
print("=" * 40)

# Combinar datos para an√°lisis completo
X_full = pd.concat([X_train, X_val, X_test])
y_full = pd.concat([y_train, y_val, y_test])
y_pred_full = best_model.predict(X_full)
y_proba_full = best_model.predict_proba(X_full)[:, 1]

# Datos originales correspondientes
df_full_original = df_original.iloc[X_full.index]
df_full_features = df_features.iloc[X_full.index]

# Identificar errores
errors_mask = y_full != y_pred_full
errors_data = df_full_original[errors_mask].copy()
errors_features = df_full_features[errors_mask].copy()
errors_proba = y_proba_full[errors_mask]

print(
    f"üìä Total de errores: {errors_mask.sum()} de {len(y_full)} ({errors_mask.mean()*100:.1f}%)"
)

# Tipos de errores
false_positives = (y_full == 0) & (y_pred_full == 1)
false_negatives = (y_full == 1) & (y_pred_full == 0)

print(
    f"üî¥ Falsos Positivos: {false_positives.sum()} (predijo supervivencia incorrectamente)"
)
print(f"üîµ Falsos Negativos: {false_negatives.sum()} (predijo muerte incorrectamente)")

## 6. An√°lisis de Falsos Positivos

In [None]:
print("\nüî¥ AN√ÅLISIS DE FALSOS POSITIVOS")
print("=" * 35)
print("Casos donde predijimos supervivencia pero la persona muri√≥:")

fp_data = df_full_original[false_positives]
fp_features = df_full_features[false_positives]
fp_proba = y_proba_full[false_positives]

print(f"\nCaracter√≠sticas de los {len(fp_data)} falsos positivos:")

# An√°lisis demogr√°fico de FP
print("\nüë• Perfil demogr√°fico:")
print("Por g√©nero:")
print(fp_data["Sex"].value_counts())
print("\nPor clase:")
print(fp_data["Pclass"].value_counts())
print("\nPor puerto de embarque:")
print(fp_data["Embarked"].value_counts())

# Estad√≠sticas num√©ricas
print(f"\nüìä Estad√≠sticas:")
print(f"Edad promedio: {fp_data['Age'].mean():.1f} a√±os")
print(f"Tarifa promedio: ${fp_data['Fare'].mean():.2f}")
print(f"Probabilidad promedio asignada: {fp_proba.mean():.3f}")

# Casos m√°s confiados incorrectamente
top_fp_confident = fp_data.iloc[fp_proba.argsort()[-5:]]  # Top 5 m√°s confiados
print(f"\nüéØ Top 5 falsos positivos m√°s 'confiados':")
print(top_fp_confident[["Pclass", "Sex", "Age", "SibSp", "Parch", "Fare", "Embarked"]])

## 7. An√°lisis de Falsos Negativos  

In [None]:
print("\nüîµ AN√ÅLISIS DE FALSOS NEGATIVOS")
print("=" * 35)
print("Casos donde predijimos muerte pero la persona sobrevivi√≥:")

fn_data = df_full_original[false_negatives]
fn_features = df_full_features[false_negatives]
fn_proba = y_proba_full[false_negatives]

print(f"\nCaracter√≠sticas de los {len(fn_data)} falsos negativos:")

# An√°lisis demogr√°fico de FN
print("\nüë• Perfil demogr√°fico:")
print("Por g√©nero:")
print(fn_data["Sex"].value_counts())
print("\nPor clase:")
print(fn_data["Pclass"].value_counts())
print("\nPor puerto de embarque:")
print(fn_data["Embarked"].value_counts())

# Estad√≠sticas num√©ricas
print(f"\nüìä Estad√≠sticas:")
print(f"Edad promedio: {fn_data['Age'].mean():.1f} a√±os")
print(f"Tarifa promedio: ${fn_data['Fare'].mean():.2f}")
print(f"Probabilidad promedio asignada: {fn_proba.mean():.3f}")

# Casos m√°s sorprendentes (supervivientes con baja probabilidad)
top_fn_surprising = fn_data.iloc[fn_proba.argsort()[:5]]  # Top 5 menos esperados
print(f"\nüéØ Top 5 supervivientes m√°s 'inesperados':")
print(top_fn_surprising[["Pclass", "Sex", "Age", "SibSp", "Parch", "Fare", "Embarked"]])

## 8. Validaci√≥n de Hip√≥tesis Iniciales

In [None]:
print("\nüß™ VALIDACI√ìN DE HIP√ìTESIS INICIALES")
print("=" * 40)

# Recordar hip√≥tesis del proyecto
hypotheses = {
    "H1": "Las mujeres tuvieron mayor supervivencia que los hombres",
    "H2": "Primera clase tuvo mayor supervivencia que otras clases",
    "H3": "Los ni√±os tuvieron ventaja sobre adultos mayores",
    "H4": "El efecto protector femenino se amplific√≥ en clases altas",
    "H5": "Familias medianas tuvieron ventaja sobre familias grandes/solas",
}

print("üìã Hip√≥tesis a validar:")
for h, desc in hypotheses.items():
    print(f"  {h}: {desc}")

# H1: G√©nero
print(f"\n‚úÖ H1 - G√âNERO:")
gender_survival = df_original.groupby("Sex")["Survived"].agg(["count", "sum", "mean"])
print("Supervivencia por g√©nero:")
print(gender_survival)
female_rate = gender_survival.loc["female", "mean"]
male_rate = gender_survival.loc["male", "mean"]
print(f"Ratio mujeres/hombres: {female_rate/male_rate:.1f}x")

# H2: Clase social
print(f"\n‚úÖ H2 - CLASE SOCIAL:")
class_survival = df_original.groupby("Pclass")["Survived"].agg(["count", "sum", "mean"])
print("Supervivencia por clase:")
print(class_survival)

# H4: Interacci√≥n g√©nero-clase (la m√°s importante seg√∫n nuestros features)
print(f"\n‚úÖ H4 - INTERACCI√ìN G√âNERO-CLASE:")
interaction_survival = df_original.groupby(["Sex", "Pclass"])["Survived"].agg(
    ["count", "sum", "mean"]
)
print("Supervivencia por g√©nero y clase:")
print(interaction_survival)

# Validar con nuestras top features
print(f"\nüéØ VALIDACI√ìN CON TOP FEATURES DEL MODELO:")
top_features_from_engineering = [
    "AgeSex_Adult_Female",
    "SexPclass_female_Class1",
    "Title_Mrs",
]

print("Las top 3 features m√°s predictivas confirman nuestras hip√≥tesis:")
print("1. AgeSex_Adult_Female: Mujeres adultas (H1 + H3)")
print("2. SexPclass_female_Class1: Mujeres de primera clase (H4)")
print("3. Title_Mrs: Estado social femenino (H1)")

## 9. An√°lisis de Bias y Equidad

In [None]:
print("\n‚öñÔ∏è AN√ÅLISIS DE BIAS Y EQUIDAD")
print("=" * 35)

# Performance por subgrupos demogr√°ficos
print("Performance del modelo por subgrupos:")

# Por g√©nero
for gender in ["male", "female"]:
    mask = df_full_original["Sex"] == gender
    if mask.sum() > 0:
        acc = accuracy_score(y_full[mask], y_pred_full[mask])
        prec = precision_score(y_full[mask], y_pred_full[mask])
        rec = recall_score(y_full[mask], y_pred_full[mask])
        print(f"\n{gender.capitalize()}:")
        print(f"  Accuracy: {acc:.3f}, Precision: {prec:.3f}, Recall: {rec:.3f}")

# Por clase
for pclass in [1, 2, 3]:
    mask = df_full_original["Pclass"] == pclass
    if mask.sum() > 0:
        acc = accuracy_score(y_full[mask], y_pred_full[mask])
        prec = precision_score(y_full[mask], y_pred_full[mask])
        rec = recall_score(y_full[mask], y_pred_full[mask])
        print(f"\nClase {pclass}:")
        print(f"  Accuracy: {acc:.3f}, Precision: {prec:.3f}, Recall: {rec:.3f}")

## 10. Interpretaci√≥n Hist√≥rica de Resultados

In [None]:
print("\nüèõÔ∏è INTERPRETACI√ìN HIST√ìRICA")
print("=" * 35)

print("üö¢ CONTEXTO HIST√ìRICO DEL RMS TITANIC:")
print("=" * 45)

historical_context = {
    "Fecha": "14-15 abril 1912",
    "Pasajeros totales": "~2,224 personas a bordo",
    "Supervivientes totales": "~710 personas (32%)",
    "Botes salvavidas": "Suficientes para ~1,178 personas (53% capacidad)",
    "Protocolo": "'Mujeres y ni√±os primero' - Protocolo Birkenhead",
}

for key, value in historical_context.items():
    print(f"üìå {key}: {value}")

print(f"\nüéØ VALIDACI√ìN HIST√ìRICA DE NUESTRO MODELO:")
print("=" * 50)

model_insights = [
    f"‚úÖ Nuestro modelo predice 38.4% supervivencia vs ~32% hist√≥rica real",
    f"‚úÖ Patr√≥n 'mujeres primero' claramente capturado (74% vs 19% supervivencia)",
    f"‚úÖ Clase social fue determinante: 1¬™ clase (63%) > 2¬™ (47%) > 3¬™ (24%)",
    f"‚úÖ Interacci√≥n clase-g√©nero: Mujeres 1¬™ clase 97% vs Hombres 3¬™ clase 14%",
    f"‚úÖ T√≠tulos sociales predictivos: Mrs > Miss > Master > Mr",
]

for insight in model_insights:
    print(insight)

print(f"\nüîç CASOS DE ERROR M√ÅS INTERESANTES:")
print("=" * 40)

print("Falsos Positivos (predijo supervivencia incorrectamente):")
print("- Probablemente hombres de clase alta que no lograron abordar botes")
print("- Mujeres/ni√±os que estaban en ubicaciones desfavorables del barco")

print("\nFalsos Negativos (predijo muerte incorrectamente):")
print("- Hombres de clase baja que ayudaron en evacuaci√≥n y sobrevivieron")
print("- Casos excepcionales de hero√≠smo o suerte")

## 11. Learning Curves y Robustez del Modelo

In [None]:
print("\nüìà AN√ÅLISIS DE LEARNING CURVES")
print("=" * 35)

# Learning curves para evaluar si m√°s datos ayudar√≠an
train_sizes, train_scores, val_scores = learning_curve(
    best_model,
    X_temp,
    y_temp,
    cv=5,
    n_jobs=-1,
    train_sizes=np.linspace(0.1, 1.0, 10),
    scoring="f1",
    random_state=42,
)

train_mean = np.mean(train_scores, axis=1)
train_std = np.std(train_scores, axis=1)
val_mean = np.mean(val_scores, axis=1)
val_std = np.std(val_scores, axis=1)

plt.figure(figsize=(12, 5))

plt.subplot(1, 2, 1)
plt.plot(train_sizes, train_mean, "o-", color="blue", label="Training Score")
plt.fill_between(
    train_sizes, train_mean - train_std, train_mean + train_std, alpha=0.1, color="blue"
)
plt.plot(train_sizes, val_mean, "o-", color="red", label="Cross-Validation Score")
plt.fill_between(
    train_sizes, val_mean - val_std, val_mean + val_std, alpha=0.1, color="red"
)
plt.title("Learning Curves (F1-Score)")
plt.xlabel("Training Set Size")
plt.ylabel("F1-Score")
plt.legend()
plt.grid(True, alpha=0.3)

# Distribuci√≥n de probabilidades por clase
plt.subplot(1, 2, 2)
plt.hist(
    y_proba_test[y_test == 0],
    bins=20,
    alpha=0.7,
    label="No Sobrevivi√≥",
    color="red",
    density=True,
)
plt.hist(
    y_proba_test[y_test == 1],
    bins=20,
    alpha=0.7,
    label="Sobrevivi√≥",
    color="green",
    density=True,
)
plt.xlabel("Probabilidad Predicha")
plt.ylabel("Densidad")
plt.title("Distribuci√≥n de Probabilidades - Test Set")
plt.legend()
plt.axvline(x=0.5, color="black", linestyle="--", alpha=0.7, label="Threshold=0.5")

plt.tight_layout()
save_current_plot("learning_curves_and_probabilities", "../results/figures/model_performance/")
plt.show()

## 12. Resumen de Insights para Storytelling

In [None]:
print("\nüìö RESUMEN DE INSIGHTS PARA STORYTELLING")
print("=" * 45)

storytelling_insights = {
    "üéØ Objetivo Acad√©mico": "‚úÖ ALCANZADO: 84.4% accuracy (>80% requerido)",
    "üèÜ Mejor Modelo": "SVM con kernel RBF (C=1, gamma='auto')",
    "üìä Performance Balanceada": "F1=0.78, Precision=0.85, Recall=0.72, AUC=0.86",
    "üé≠ Patrones Hist√≥ricos Validados": [
        "Protocolo 'Mujeres y ni√±os primero' claramente reflejado",
        "Clase social determin√≥ acceso a botes salvavidas",
        "T√≠tulos sociales fueron predictivos de supervivencia",
        "Familias medianas tuvieron ventaja sobre viajeros solos",
    ],
    "üîç Casos de Error Reveladores": [
        f"{false_positives.sum()} falsos positivos: casos excepcionales de muerte",
        f"{false_negatives.sum()} falsos negativos: supervivientes 'inesperados'",
        "Errores muestran la tragedia humana detr√°s de los datos",
    ],
    "üß† Lecciones para Protocolos Modernos": [
        "Importancia de planificaci√≥n de evacuaci√≥n por clases sociales",
        "Necesidad de protocolos claros y equitativos",
        "Valor de an√°lisis predictivo para gesti√≥n de emergencias",
    ],
    "üìà Robustez del Modelo": [
        "Sin overfitting significativo",
        "Performance consistente en cross-validation",
        "Generaliza bien a datos no vistos",
    ],
}

for category, insights in storytelling_insights.items():
    print(f"\n{category}:")
    if isinstance(insights, list):
        for insight in insights:
            print(f"  ‚Ä¢ {insight}")
    else:
        print(f"  {insights}")

## 13. Recomendaciones y Pr√≥ximos Pasos

In [None]:
print("\nüöÄ RECOMENDACIONES Y PR√ìXIMOS PASOS")
print("=" * 45)

recommendations = [
    "üìù Documentaci√≥n Final:",
    "  - Actualizar development log con insights de evaluaci√≥n",
    "  - Completar storytelling con contexto hist√≥rico",
    "  - Preparar presentaci√≥n ejecutiva con hallazgos",
    "",
    "üé® Storytelling Refinement:",
    "  - Conectar insights t√©cnicos con narrativa humana",
    "  - Crear visualizaciones finales para audiencia no-t√©cnica",
    "  - Validar hallazgos con fuentes hist√≥ricas adicionales",
    "",
    "‚ö° Posibles Mejoras Futuras:",
    "  - Ensemble de m√∫ltiples modelos para mayor robustez",
    "  - Feature engineering adicional (ubicaci√≥n de cabinas)",
    "  - An√°lisis de datos externos (listas de pasajeros completas)",
    "",
    "üéØ Aplicaci√≥n Pr√°ctica:",
    "  - Modelo demostr√≥ capacidad predictiva en tragedia hist√≥rica",
    "  - Insights aplicables a protocolos de emergencia modernos",
    "  - Metodolog√≠a replicable para an√°lisis de otros eventos hist√≥ricos",
]

for rec in recommendations:
    if rec == "":
        print()
    else:
        print(rec)

print(f"\n‚úÖ ¬°Evaluaci√≥n del modelo completada exitosamente!")
print(
    f"üéØ Modelo SVM final: {saved_metrics['final_test_metrics']['accuracy']*100:.1f}% accuracy"
)
print(f"üìä Listo para storytelling y documentaci√≥n final")