In [None]:
import pandas as pd
import joblib
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
import xgboost as xgb
import os
import sys
import matplotlib.pyplot as plt # Para visualizar la importancia

# --- Preparación ---
sys.path.insert(0, os.path.abspath('..'))
from src.feature_engineering import add_pythagorean_expectation, EloRatingSystem, add_elo_ratings, add_rolling_win_percentage

print("--- Fase Final: Selección de Características y Modelo Campeón ---")

# 1. Cargar el dataset experto (contiene TODAS las columnas que hemos creado)
csv_path = os.path.join('..', 'data', 'historical_games_expert.csv')
df = pd.read_csv(csv_path, parse_dates=['game_date'])
print(f"Dataset completo cargado con {df.shape} filas.")

# 2. Aplicar TODA la ingeniería de características
df_final = add_pythagorean_expectation(df)
df_final = add_rolling_win_percentage(df_final)
#... (entrenamiento de Elo)...
elo_sys = EloRatingSystem()
df_final['winner'] = df_final.apply(lambda row: row['h_team_name'] if row['target'] == 1 else row['v_team_name'], axis=1)
df_final['loser'] = df_final.apply(lambda row: row['v_team_name'] if row['target'] == 1 else row['h_team_name'], axis=1)
for index, row in df_final.sort_values('game_date').iterrows():
    elo_sys.update_ratings(row['winner'], row['loser'])
df_final = add_elo_ratings(df_final, elo_sys)
df_final['era_diff'] = df_final['h_pitcher_era'] - df_final['v_pitcher_era']
df_final['pitcher_win_diff'] = df_final['h_pitcher_wins'] - df_final['v_pitcher_losses']

# 3. Entrenar un modelo con TODAS las características disponibles
y = df_final['target']
# Creamos una lista con todas las características que hemos diseñado
all_features = [
    'h_team_wins_season', 'h_team_losses_season', 'v_team_wins_season', 'v_team_losses_season',
    'pythag_diff', 
    'win_pct_roll_diff',
    'elo_diff',
    'era_diff', 
    'pitcher_win_diff'
]
X = df_final[all_features]
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Usamos el modelo que mejor nos funcionó (el XGBoost de fábrica)
model_all_features = xgb.XGBClassifier(objective='binary:logistic', n_estimators=100, learning_rate=0.1, max_depth=3, eval_metric='logloss')
model_all_features.fit(X_train, y_train)

# 4. OBTENER Y VISUALIZAR LA IMPORTANCIA DE LAS CARACTERÍSTICAS
importances = model_all_features.feature_importances_
feature_importance_df = pd.DataFrame({'feature': all_features, 'importance': importances})
feature_importance_df = feature_importance_df.sort_values(by='importance', ascending=False)

print("\n" + "="*60)
print("--- IMPORTANCIA DE CADA CARACTERÍSTICA (DE MEJOR A PEOR) ---")
print(feature_importance_df)
print("="*60)
print("\nEsto nos dice qué características son realmente útiles y cuáles son 'ruido'.")

# 5. Entrenar nuestro MODELO CAMPEÓN usando solo las MEJORES características
# Vamos a seleccionar las 3 mejores características según el modelo
best_features_list = feature_importance_df.head(3)['feature'].tolist()
print(f"\nSeleccionando las 3 mejores características: {best_features_list}")

X_best = df_final[best_features_list]
X_train_best, X_test_best, y_train_best, y_test_best = train_test_split(X_best, y, test_size=0.2, random_state=42)

model_champion = xgb.XGBClassifier(objective='binary:logistic', n_estimators=100, learning_rate=0.1, max_depth=3, eval_metric='logloss')
model_champion.fit(X_train_best, y_train_best)
predictions_champion = model_champion.predict(X_test_best)
accuracy_champion = accuracy_score(y_test_best, predictions_champion)

print("\n" + "="*60)
print(f"  PRECISIÓN MÁXIMA ANTERIOR: 0.6411")
print(f"  PRECISIÓN DEL MODELO CAMPEÓN (con las mejores features): {accuracy_champion:.4f}")
print("="*60)

# 6. Guardar el modelo campeón definitivo
assets_dir = os.path.join('..', 'src', 'assets')
model_path_champion = os.path.join(assets_dir, 'mlb_model_champion.joblib')
joblib.dump(model_champion, model_path_champion)
print(f"\n¡Modelo CAMPEÓN guardado en '{model_path_champion}'!")
print("Este es el modelo que deberías usar en tu aplicación Flask para obtener la máxima precisión.")