In [13]:
import pandas as pd
import joblib
from sklearn.model_selection import train_test_split, RandomizedSearchCV
from sklearn.metrics import accuracy_score
import xgboost as xgb
import os
import sys

# Añadimos la carpeta principal al path para encontrar nuestros módulos
sys.path.insert(0, os.path.abspath('..'))

# Importamos TODAS nuestras funciones de ingeniería de características
from src.feature_engineering import add_pythagorean_expectation, EloRatingSystem, add_elo_ratings, add_rolling_win_percentage

print("--- Fase 4: Optimización de Hiperparámetros para XGBoost ---")

# 1. Cargar el dataset enriquecido
csv_path = os.path.join('..', 'data', 'historical_games_rich.csv')
df = pd.read_csv(csv_path, parse_dates=['game_date'])
print(f"Dataset enriquecido cargado con {df.shape} filas.")

# 2. Aplicar TODA la ingeniería de características
df_v5 = add_pythagorean_expectation(df)
df_v5 = add_rolling_win_percentage(df_v5)

# 3. Entrenar el sistema Elo
elo_sys = EloRatingSystem()
df_v5['winner'] = df_v5.apply(lambda row: row['h_team_name'] if row['target'] == 1 else row['v_team_name'], axis=1)
df_v5['loser'] = df_v5.apply(lambda row: row['v_team_name'] if row['target'] == 1 else row['h_team_name'], axis=1)
for index, row in df_v5.sort_values('game_date').iterrows():
    elo_sys.update_ratings(row['winner'], row['loser'])
df_v5 = add_elo_ratings(df_v5, elo_sys)

# 4. Preparar los datos
y = df_v5['target']
features = ['h_team_wins_season', 'h_team_losses_season', 'v_team_wins_season', 'v_team_losses_season', 
            'pythag_diff', 'elo_diff', 'win_pct_roll_diff']
X = df_v5[features]
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 5. Optimización de Hiperparámetros con RandomizedSearchCV
print("\nIniciando la búsqueda de los mejores hiperparámetros... (Esto puede tardar unos minutos)")

# Definimos el "espacio de búsqueda": los ajustes que queremos probar
param_grid = {
    # =================================================================
    # === LA CORRECCIÓN DEFINITIVA Y VERIFICADA ESTÁ AQUÍ ===
    # Le damos una LISTA de valores (iterable) para que el optimizador pruebe.
    'n_estimators': [50,100],
    # =================================================================
    'learning_rate': [0.01, 0.05, 0.1, 0.2],
    'max_depth': [1, 2, 3, 4, 5],
    'subsample': [0.6, 0.7, 0.8, 0.9, 1.0],
    'colsample_bytree': [0.6, 0.7, 0.8, 0.9, 1.0],
    'gamma': [0, 0.1, 0.2, 0.3]
}

# Creamos el modelo base
xgb_base = xgb.XGBClassifier(objective='binary:logistic', eval_metric='logloss')

# Configuramos la búsqueda aleatoria
random_search = RandomizedSearchCV(
    estimator=xgb_base,
    param_distributions=param_grid,
    n_iter=50,
    cv=5,
    verbose=1,
    scoring='accuracy',
    n_jobs=-1,
    random_state=42
)

# ¡Comienza la búsqueda!
random_search.fit(X_train, y_train)

print("\n¡Búsqueda completada!")
print(f"Los mejores parámetros encontrados son: {random_search.best_params_}")

# 6. Evaluar el modelo OPTIMIZADO
best_model = random_search.best_estimator_
predictions_v5 = best_model.predict(X_test)
accuracy_v5 = accuracy_score(y_test, predictions_v5)

print("\n" + "="*60)
print(f"  PRECISIÓN ANTERIOR (XGBoost de fábrica): 0.6411")
print(f"  PRECISIÓN OPTIMIZADA (XGBoost ajustado): {accuracy_v5:.4f}")
print("="*60)

improvement_v5 = accuracy_v5 - 0.6411
print(f"\n¡Mejora por ajuste de hiperparámetros: {improvement_v5:+.2%}!")
total_improvement = accuracy_v5 - 0.5585
print(f"¡Mejora total sobre la línea base: {total_improvement:+.2%}!")

# 7. Guardar nuestro modelo campeón
assets_dir = os.path.join('..', 'src', 'assets')
model_path_v5 = os.path.join(assets_dir, 'mlb_model_final_tuned.joblib')
joblib.dump(best_model, model_path_v5)
print(f"\n¡Modelo final optimizado guardado en '{model_path_v5}'!")
print("Este es el modelo que deberías usar en tu aplicación Flask.")

SyntaxError: invalid syntax (3522726585.py, line 99)