# Modelo Conjunto GrandSlams + Masters1000

## Modelo Regresión Logistica (GS + M1000)

In [None]:
# Lista de columnas a escalar
features_to_scale = [
    "Surface_WinRate_Favorite", "Surface_WinRate_Not_Favorite",
    "Surface_Matches_Favorite", "Surface_Matches_Not_Favorite",
    "WinStreak_Favorite", "WinStreak_Not_Favorite", "Win_Streak_Diff",
    "Rank_Favorite", "Rank_Not_Favorite", "Rank_Diff_Signed", "Rank_Diff_Abs",
    "GrandSlams_Favorite", "GrandSlams_Not_Favorite",
    "Masters1000_Favorite","Masters1000_Not_Favorite"
]

# Asegurarse de que son numéricos
for col in features_to_scale:
    df[col] = pd.to_numeric(df[col], errors="coerce")

# Escalado con StandardScaler
scaler = StandardScaler()
df[features_to_scale] = scaler.fit_transform(df[features_to_scale])

In [None]:
# Contar los valores nulos por columna para comprobar que no haya nulos
print(df[features_to_scale + ["Favorite_Wins"]].isna().sum())

In [None]:
X = df[features_to_scale]  # Asegurarse de que no haya columnas extra
y = df["Favorite_Wins"]

In [None]:
#Comprobamos que no haya nulos en x ni en y
print("¿NaNs en X?:", X.isna().any().any()) 
print("¿NaNs en y?:", y.isna().any())

In [None]:
# Dividir los datos
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Modelo de regresión logística
model = LogisticRegression(max_iter=1000, random_state=42)
model.fit(X_train, y_train)

# Predicción
y_pred = model.predict(X_test)

# Calcular y mostrar la métrica
score = balanced_accuracy_score(y_test, y_pred)
print("Balanced Accuracy:", round(score, 3))

In [None]:
print(y.value_counts(normalize=True))

In [None]:
# Dividir los datos
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Modelo de regresión logística con ajuste por desbalance
model = LogisticRegression(class_weight='balanced', max_iter=1000, random_state=42)
model.fit(X_train, y_train)

# Predicción
y_pred = model.predict(X_test)

# Evaluar con balanced accuracy
score = balanced_accuracy_score(y_test, y_pred)
print("Balanced Accuracy:", round(score, 3))

In [None]:
#Prueba con validación cruzada

# Usamos solo las columnas que queremos escalar
X = df[features_to_scale]
y = df["Favorite_Wins"]  

# Modelo con validación cruzada (5 folds)
model = LogisticRegression(class_weight='balanced', max_iter=1000, random_state=42)
y_pred_cv = cross_val_predict(model, X, y, cv=5)

# Evaluación
score_cv = balanced_accuracy_score(y, y_pred_cv)
print("Balanced Accuracy (CV):", round(score_cv, 3))

### Evaluación del modelo Regresión Logística (GS + M1000)

In [None]:
# Predicciones con validación cruzada
y_proba = cross_val_predict(model, X, y, cv=5, method='predict_proba')
y_pred = (y_proba[:, 1] >= 0.5).astype(int)  # convertir probabilidades en clases

# Métricas
print("Accuracy:", round(accuracy_score(y, y_pred), 3))
print("Balanced Accuracy:", round(balanced_accuracy_score(y, y_pred), 3))
print("Precision:", round(precision_score(y, y_pred), 3))
print("Recall:", round(recall_score(y, y_pred), 3))
print("F1-Score:", round(f1_score(y, y_pred), 3))
print("AUC-ROC:", round(roc_auc_score(y, y_proba[:, 1]), 3))
print("Log Loss:", round(log_loss(y, y_proba[:, 1]), 3))

# Matriz de confusión e informe
print("Confusion Matrix:\n", confusion_matrix(y, y_pred))
print("\nClassification Report:\n", classification_report(y, y_pred))

## Random Forest + validación cruzada (GS + M1000)

In [None]:
# Modelo Random Forest
rf_model = RandomForestClassifier(n_estimators=100, class_weight='balanced', random_state=42)

# Validación cruzada
y_proba_rf = cross_val_predict(rf_model, X, y, cv=5, method='predict_proba')
y_pred_rf = (y_proba_rf[:, 1] >= 0.5).astype(int)


In [None]:
# Métricas
print("Accuracy:", round(accuracy_score(y, y_pred_rf), 3))
print("Balanced Accuracy:", round(balanced_accuracy_score(y, y_pred_rf), 3))
print("Precision:", round(precision_score(y, y_pred_rf), 3))
print("Recall:", round(recall_score(y, y_pred_rf), 3))
print("F1-Score:", round(f1_score(y, y_pred_rf), 3))
print("AUC-ROC:", round(roc_auc_score(y, y_proba_rf[:, 1]), 3))
print("Log Loss:", round(log_loss(y, y_proba_rf[:, 1]), 3))

# Matriz de confusión e informe
print("Confusion Matrix:\n", confusion_matrix(y, y_pred_rf))
print("\nClassification Report:\n", classification_report(y, y_pred_rf))

## Modelo Gradient Boosting (GS + M1000)

In [None]:
# Modelo Gradient Boosting
gb_model = GradientBoostingClassifier(n_estimators=100, learning_rate=0.1, max_depth=3, random_state=42)

# Validación cruzada
y_proba_gb = cross_val_predict(gb_model, X, y, cv=5, method='predict_proba')
y_pred_gb = (y_proba_gb[:, 1] >= 0.5).astype(int)


# Métricas
print("Accuracy:", round(accuracy_score(y, y_pred_gb), 3))
print("Balanced Accuracy:", round(balanced_accuracy_score(y, y_pred_gb), 3))
print("Precision:", round(precision_score(y, y_pred_gb), 3))
print("Recall:", round(recall_score(y, y_pred_gb), 3))
print("F1-Score:", round(f1_score(y, y_pred_gb), 3))
print("AUC-ROC:", round(roc_auc_score(y, y_proba_gb[:, 1]), 3))
print("Log Loss:", round(log_loss(y, y_proba_gb[:, 1]), 3))

# Matriz de confusión e informe
print("Confusion Matrix:\n", confusion_matrix(y, y_pred_gb))
print("\nClassification Report:\n", classification_report(y, y_pred_gb))

## Modelo Gradient Boosting balanceado (GS + M1000)

In [None]:
gb_model = HistGradientBoostingClassifier(class_weight='balanced', max_iter=100, learning_rate=0.1, max_depth=6, random_state=42)

# Validación cruzada
y_proba_gb = cross_val_predict(gb_model, X, y, cv=5, method='predict_proba')
y_pred_gb = (y_proba_gb[:, 1] >= 0.5).astype(int)


print("Accuracy:", round(accuracy_score(y, y_pred_gb), 3))
print("Balanced Accuracy:", round(balanced_accuracy_score(y, y_pred_gb), 3))
print("Precision:", round(precision_score(y, y_pred_gb), 3))
print("Recall:", round(recall_score(y, y_pred_gb), 3))
print("F1-Score:", round(f1_score(y, y_pred_gb), 3))
print("AUC-ROC:", round(roc_auc_score(y, y_proba_gb[:, 1]), 3))
print("Log Loss:", round(log_loss(y, y_proba_gb[:, 1]), 3))

print("Confusion Matrix:\n", confusion_matrix(y, y_pred_gb))
print("\nClassification Report:\n", classification_report(y, y_pred_gb))

## MLPClassifier (GS + M1000)

In [None]:
# Modelo MLP
mlp_model = MLPClassifier(
    hidden_layer_sizes=(100,),  # una capa oculta con 100 neuronas
    max_iter=300,
    alpha=1e-4,
    solver='adam',
    random_state=42
)

# Validación cruzada
y_proba_mlp = cross_val_predict(mlp_model, X, y, cv=5, method='predict_proba')
y_pred_mlp = (y_proba_mlp[:, 1] >= 0.5).astype(int)

In [None]:
# Métricas
print("Accuracy:", round(accuracy_score(y, y_pred_mlp), 3))
print("Balanced Accuracy:", round(balanced_accuracy_score(y, y_pred_mlp), 3))
print("Precision:", round(precision_score(y, y_pred_mlp), 3))
print("Recall:", round(recall_score(y, y_pred_mlp), 3))
print("F1-Score:", round(f1_score(y, y_pred_mlp), 3))
print("AUC-ROC:", round(roc_auc_score(y, y_proba_mlp[:, 1]), 3))
print("Log Loss:", round(log_loss(y, y_proba_mlp[:, 1]), 3))

# Matriz de confusión e informe
print("Confusion Matrix:\n", confusion_matrix(y, y_pred_mlp))
print("\nClassification Report:\n", classification_report(y, y_pred_mlp))

## MLPClassifier con SMOTE (GS + M1000)

In [None]:
# 1. Dividir los datos
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 2. Aplicar SMOTE al conjunto de entrenamiento
smote = SMOTE(random_state=42)
X_train_sm, y_train_sm = smote.fit_resample(X_train, y_train)

# 3. Entrenar MLP sobre datos balanceados
mlp_model = MLPClassifier(hidden_layer_sizes=(100,), max_iter=300, random_state=42)
mlp_model.fit(X_train_sm, y_train_sm)

# 4. Predecir sobre el test original
y_pred_mlp = mlp_model.predict(X_test)
y_proba_mlp = mlp_model.predict_proba(X_test)


# 5. Métricas
print("Accuracy:", round(accuracy_score(y_test, y_pred_mlp), 3))
print("Balanced Accuracy:", round(balanced_accuracy_score(y_test, y_pred_mlp), 3))
print("Precision:", round(precision_score(y_test, y_pred_mlp), 3))
print("Recall:", round(recall_score(y_test, y_pred_mlp), 3))
print("F1-Score:", round(f1_score(y_test, y_pred_mlp), 3))
print("AUC-ROC:", round(roc_auc_score(y_test, y_proba_mlp[:, 1]), 3))
print("Log Loss:", round(log_loss(y_test, y_proba_mlp[:, 1]), 3))

print("Confusion Matrix:\n", confusion_matrix(y_test, y_pred_mlp))
print("\nClassification Report:\n", classification_report(y_test, y_pred_mlp))

| Modelo                    | Accuracy | Balanced Accuracy | Precision | Recall | F1-Score | AUC-ROC | Log Loss |
|--------------------------|----------|--------------------|-----------|--------|----------|---------|----------|
| Regresión Logística      | 0.612    | 0.615              | 0.771     | 0.608  | 0.680    | 0.657   | 0.656    |
| Random Forest            | 0.673    | 0.548              | 0.701     | 0.901  | 0.789    | 0.646   | 0.606    |
| Gradient Boosting        | 0.679    | 0.545              | 0.699     | 0.925  | 0.796    | **0.671** | 0.589 |
| Gradient Boosting (bal.) | 0.608    | 0.625              | 0.787 | 0.577  | 0.666    | 0.669   | 0.640    |
| MLPClassifier            | 0.679    | 0.555              | 0.704     | 0.906  | 0.793    | **0.666**   | 0.596    |
| MLP + SMOTE              | 0.596    | 0.613              | 0.776     | 0.564  | 0.653    | 0.653   | 0.669    |


## Mejora de Modelos con mas AUC-ROC : Gradient Bossting y MLPClassifier (GS + M1000)

## Modelo Gradient Boosting con Optua (GS + M1000)

In [None]:
#Objetivo de optimización
def objective(trial):
    # Hiperparámetros a optimizar
    params = {
        'learning_rate': trial.suggest_float('learning_rate', 0.005, 0.2, log=True),
        'n_estimators': trial.suggest_int('n_estimators', 100, 500),
        'max_depth': trial.suggest_int('max_depth', 3, 10),
        'subsample': trial.suggest_float('subsample', 0.5, 1.0),
    }

    # Validación cruzada
    kf = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)
    aucs = []

    for train_idx, test_idx in kf.split(X, y):
        X_train, X_test = X.iloc[train_idx], X.iloc[test_idx]
        y_train, y_test = y.iloc[train_idx], y.iloc[test_idx]
        weights = compute_sample_weight(class_weight='balanced', y=y_train)

        model = GradientBoostingClassifier(
            **params,
            random_state=42
        )

        model.fit(X_train, y_train, sample_weight=weights)
        y_proba = model.predict_proba(X_test)[:, 1]
        auc = roc_auc_score(y_test, y_proba)
        aucs.append(auc)

    return np.mean(aucs)

# Crear y ejecutar estudio
study = optuna.create_study(direction='maximize', study_name='GB_AUC_Optimization')
study.optimize(objective, n_trials=100, n_jobs=1)  # subir n_trials para mejor resultado

# Mostrar mejor resultado
print(" Mejor AUC-ROC:", round(study.best_value, 4))
print(" Mejores hiperparámetros encontrados:")
print(study.best_params)

In [None]:
 Mejor AUC-ROC: 0.6818
 Mejores hiperparámetros encontrados:
{'learning_rate': 0.014538386775171604, 'n_estimators': 475, 'max_depth': 4, 'subsample': 0.5162888716243986}

In [None]:
# Inicializar
kf = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)
y_proba = np.zeros(len(y))
y_pred = np.zeros(len(y))

# Validación cruzada manual con los mejores hiperparámetros encontrados
for train_idx, test_idx in kf.split(X, y):
    X_train, X_test = X.iloc[train_idx], X.iloc[test_idx]
    y_train, y_test = y.iloc[train_idx], y.iloc[test_idx]
    w = compute_sample_weight(class_weight='balanced', y=y_train)

    model = GradientBoostingClassifier(
        learning_rate=0.014538386775171604,
        n_estimators=475,
        max_depth=4,
        subsample=0.5162888716243986,
        random_state=42
    )

    model.fit(X_train, y_train, sample_weight=w)
    y_proba[test_idx] = model.predict_proba(X_test)[:, 1]
    y_pred[test_idx] = model.predict(X_test)

# Evaluación
y_pred = y_pred.astype(int)

print("MÉTRICAS DEL MODELO FINAL (Optuna):")
print("Accuracy:", round(accuracy_score(y, y_pred), 3))
print("Balanced Accuracy:", round(balanced_accuracy_score(y, y_pred), 3))
print("Precision:", round(precision_score(y, y_pred), 3))
print("Recall:", round(recall_score(y, y_pred), 3))
print("F1-Score:", round(f1_score(y, y_pred), 3))
print("AUC-ROC:", round(roc_auc_score(y, y_proba), 3))
print("Log Loss:", round(log_loss(y, y_proba), 3))
print("\nMatriz de Confusión:\n", confusion_matrix(y, y_pred))
print("\nClassification Report:\n", classification_report(y, y_pred))

## MLPClassifier Optua (GS + M1000)

In [None]:

# Mostrar progreso en consola
#optuna.logging.set_verbosity(optuna.logging.INFO)

# Objetivo de optimización
def objective(trial):
    params = {
        'hidden_layer_sizes': trial.suggest_categorical('hidden_layer_sizes', [(50,), (100,), (50, 50), (100, 50), (100, 100)]),
        'alpha': trial.suggest_float('alpha', 1e-5, 1e-2, log=True),
        'learning_rate_init': trial.suggest_float('learning_rate_init', 0.0005, 0.1, log=True),
        'solver': trial.suggest_categorical('solver', ['adam', 'sgd']),
        'activation': trial.suggest_categorical('activation', ['relu', 'tanh'])
    }

    aucs = []
    kf = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)

    for train_idx, test_idx in kf.split(X, y):
        X_train, X_test = X.iloc[train_idx], X.iloc[test_idx]
        y_train, y_test = y.iloc[train_idx], y.iloc[test_idx]

        model = MLPClassifier(
            **params,
            max_iter=300,
            random_state=42
        )

        model.fit(X_train, y_train)
        y_proba = model.predict_proba(X_test)[:, 1]
        auc = roc_auc_score(y_test, y_proba)
        aucs.append(auc)

    return np.mean(aucs)

# Crear estudio y optimizar
study = optuna.create_study(direction='maximize', study_name='MLP_AUC_Optimization')
study.optimize(objective, n_trials=150, n_jobs=1)  

# Mostrar mejores resultados
print("Mejor AUC-ROC:", round(study.best_value, 4))
print("Mejores hiperparámetros encontrados:")
print(study.best_params)

In [None]:
Mejor AUC-ROC: 0.6777
Mejores hiperparámetros encontrados:
{'hidden_layer_sizes': (100, 50), 'alpha': 0.007356732091984054, 'learning_rate_init': 0.003647090832896848, 'solver': 'sgd', 'activation': 'tanh'}

In [None]:
# 1. Modelo con los mejores hiperparámetros encontrados por Optuna
best_mlp = MLPClassifier(
    hidden_layer_sizes=(100, 50),
    alpha=0.007356732091984054,
    learning_rate_init=0.003647090832896848,
    solver='sgd',
    activation='tanh',
    max_iter=300,
    random_state=42
)

# 2. Validación cruzada (probabilidades)
y_proba = cross_val_predict(best_mlp, X, y, cv=5, method='predict_proba')
y_pred = (y_proba[:, 1] >= 0.5).astype(int)

# 3. Métricas
print("MÉTRICAS DEL MLP OPTIMIZADO (Optuna actualizado):")
print("Accuracy:", round(accuracy_score(y, y_pred), 3))
print("Balanced Accuracy:", round(balanced_accuracy_score(y, y_pred), 3))
print("Precision:", round(precision_score(y, y_pred), 3))
print("Recall:", round(recall_score(y, y_pred), 3))
print("F1-Score:", round(f1_score(y, y_pred), 3))
print("AUC-ROC:", round(roc_auc_score(y, y_proba[:, 1]), 3))
print("Log Loss:", round(log_loss(y, y_proba[:, 1]), 3))

# 4. Matriz de confusión
print("\nMatriz de Confusión:\n", confusion_matrix(y, y_pred))
print("\nClassification Report:\n", classification_report(y, y_pred))


| Modelo                    | Accuracy | Balanced Accuracy | Precision | Recall | F1-Score | AUC-ROC | Log Loss |
|--------------------------|----------|--------------------|-----------|--------|----------|---------|----------|
| Gradient Boosting (Optuna) | 0.613    | **0.631**          | **0.792** | 0.581  | 0.670    | **0.682** | 0.636    |
| MLPClassifier (Optuna)     | **0.682**| 0.545              | 0.698     | **0.934** | **0.799** | 0.672   | **0.588** |


### Comparativa de los Mejores Modelos por AUC-ROC

| Métrica               | Grand Slams (GB Optuna) | Masters 1000 (GB Optuna) | GS + M1000 (GB Optuna) | GS + M1000 (MLP Optuna) |
|-----------------------|-------------------------|---------------------------|-------------------------|--------------------------|
| **Accuracy**          | 0.643                   | 0.594                     | 0.613                   | **0.682**                |
| **Balanced Accuracy** | **0.658**               | 0.606                     | **0.631**               | 0.545                    |
| **Precision**         | **0.835**               | 0.743                     | **0.792**               | 0.698                    |
| **Recall**            | 0.623                   | 0.563                     | 0.581                   | **0.934**                |
| **F1-Score**          | 0.714                   | 0.641                     | 0.670                   | **0.799**                |
| **AUC-ROC**           | **0.713**               | 0.649                     | **0.682**               | 0.672                    |
| **Log Loss**          | 0.613                   | 0.654                     | 0.636                   | **0.588**                |

---

### Conclusión Final

- El modelo **Gradient Boosting con Optuna en Grand Slams** sigue siendo el mejor en cuanto a **AUC-ROC (0.713)**, además de tener el **mejor balance entre precisión y sensibilidad**.
- El modelo **combinado (Grand Slams + Masters 1000)** mejora el recall al usar MLP optimizado y alcanza el **mejor F1-Score y Accuracy**, aunque pierde en Balanced Accuracy y AUC.
- El conjunto de **Masters 1000** es el más difícil de predecir en términos de AUC-ROC y precisión general.
- Si el objetivo es **máxima discriminación entre clases (AUC-ROC)**, el modelo de Grand Slams con Gradient Boosting es el mejor. Si se prioriza **recall o F1**, el modelo MLP conjunto es más potente.


# Comparación entre modelos entrenados con diferentes datasets
# Modelo Conjunto (GS + M1000) o Modelo GrandSlam

En este apartado se evaluará si conviene entrenar modelos específicos por tipo de torneo (como Grand Slams) o si un modelo conjunto entrenado con torneos de tipo **Grand Slam + Masters 1000** puede generalizar mejor a los partidos de alto nivel.

####  Objetivo
Comparar el rendimiento de dos modelos de **Gradient Boosting (Optuna)** sobre el mismo conjunto de test: **partidos de Grand Slams**.

- 🔹 **Modelo 1**: Entrenado exclusivamente con datos de torneos **Grand Slam**.
- 🔹 **Modelo 2**: Entrenado con partidos de **Grand Slam + Masters 1000**.

Ambos modelos han sido optimizados con **Optuna** y sus hiperparámetros fueron ajustados para maximizar el AUC-ROC.

####  Proceso
1. Se filtra el dataset para quedarnos únicamente con los partidos de **Grand Slams**.
2. Se utilizan ambos modelos ya entrenados para predecir sobre ese conjunto.
3. Se comparan las métricas :  
   - Accuracy  
   - Balanced Accuracy  
   - Precision  
   - Recall  
   - F1-Score  
   - AUC-ROC  
   - Log Loss  

Este análisis permite responder la siguiente pregunta clave del proyecto:

> ¿Es preferible entrenar modelos específicos por tipo de torneo o uno conjunto para todos?

Un mejor rendimiento del modelo conjunto sobre los datos de Grand Slams indicaría una **mejor generalización** al beneficiarse de un mayor volumen y variedad de datos. Por el contrario, si el modelo entrenado solo con datos de Grand Slams ofrece mejores métricas, esto sugiere que la especialización por tipo de torneo puede ser más eficaz para predecir su resultado.


In [None]:
# === Paso 1: Cargar el dataset ===
ruta_base = r"./Modelo_Completo/columnas_añadidas"
nombre_archivo = "escaladofinal.csv"
ruta_completa = os.path.join(ruta_base, nombre_archivo)

df = pd.read_csv(
    ruta_completa,
    delimiter=";",   # separador de columnas
    decimal=","      # separador decimal 
)

df["Date"] = pd.to_datetime(df["Date"], format="%d/%m/%Y", errors="coerce")
df = df.sort_values(by="Date")

# === Corregir comas decimales en las columnas numéricas ===
features = [
    "Surface_WinRate_Favorite", "Surface_WinRate_Not_Favorite",
    "Surface_Matches_Favorite", "Surface_Matches_Not_Favorite",
    "WinStreak_Favorite", "WinStreak_Not_Favorite", "Win_Streak_Diff",
    "Rank_Favorite", "Rank_Not_Favorite", "Rank_Diff_Signed", "Rank_Diff_Abs",
    "Masters1000_Favorite", "Masters1000_Not_Favorite",
    "GrandSlams_Favorite", "GrandSlams_Not_Favorite"
]

for col in features:
    if df[col].dtype == object:
        df[col] = df[col].str.replace(',', '.').astype(float)

# === Separar datos ===
df_gs = df[df["Series"] == "Grand Slam"].copy()
df_comb = df[df["Series"].isin(["Grand Slam", "Masters 1000"])].copy()

X_gs = df_gs[features]
y_gs = df_gs["Favorite_Wins"]
X_comb = df_comb[features]
y_comb = df_comb["Favorite_Wins"]

# === Entrenar modelo combinado (fuera del loop para acelerar) ===
w_comb = compute_sample_weight(class_weight='balanced', y=y_comb)
modelo_combinado = GradientBoostingClassifier(
    learning_rate=0.014538386775171604,
    n_estimators=475,
    max_depth=4,
    subsample=0.5162888716243986,
    random_state=42
)
modelo_combinado.fit(X_comb, y_comb, sample_weight=w_comb)

# === Validación cruzada solo en partidos de GS ===
kf = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)
y_pred_gs = np.zeros(len(y_gs))
y_proba_gs = np.zeros(len(y_gs))
y_pred_comb = np.zeros(len(y_gs))
y_proba_comb = np.zeros(len(y_gs))

for train_idx, test_idx in kf.split(X_gs, y_gs):
    X_train, X_test = X_gs.iloc[train_idx], X_gs.iloc[test_idx]
    y_train, y_test = y_gs.iloc[train_idx], y_gs.iloc[test_idx]
    w = compute_sample_weight(class_weight='balanced', y=y_train)

    modelo_gs = GradientBoostingClassifier(
        learning_rate=0.0222992728201512,
        n_estimators=484,
        max_depth=3,
        subsample=0.6374765489547842,
        random_state=42
    )
    modelo_gs.fit(X_train, y_train, sample_weight=w)

    y_pred_gs[test_idx] = modelo_gs.predict(X_test)
    y_proba_gs[test_idx] = modelo_gs.predict_proba(X_test)[:, 1]

    y_pred_comb[test_idx] = modelo_combinado.predict(X_test)
    y_proba_comb[test_idx] = modelo_combinado.predict_proba(X_test)[:, 1]

# === Función de evaluación ===
def evaluar(nombre, y_true, y_pred, y_proba):
    print(f"\n--- {nombre} ---")
    print("Accuracy:", round(accuracy_score(y_true, y_pred), 3))
    print("Balanced Accuracy:", round(balanced_accuracy_score(y_true, y_pred), 3))
    print("Precision:", round(precision_score(y_true, y_pred), 3))
    print("Recall:", round(recall_score(y_true, y_pred), 3))
    print("F1 Score:", round(f1_score(y_true, y_pred), 3))
    print("AUC-ROC:", round(roc_auc_score(y_true, y_proba), 3))
    print("Log Loss:", round(log_loss(y_true, y_proba), 3))
    print("Matriz de Confusión:\n", confusion_matrix(y_true, y_pred))
    print("Classification Report:\n", classification_report(y_true, y_pred))

# === Resultados ===
y_true = y_gs.to_numpy()
evaluar("Modelo SOLO Grand Slams", y_true, y_pred_gs.astype(int), y_proba_gs)
evaluar("Modelo COMBINADO (entrenado en GS + M1000)", y_true, y_pred_comb.astype(int), y_proba_comb)

###  Comparativa de Modelos: Evaluación sobre Partidos de Grand Slams

| Métrica               | GB (Solo GS) | GB (GS + M1000) |
|-----------------------|--------------|------------------|
| **Accuracy**          | 0.641        | **0.669**        |
| **Balanced Accuracy** | 0.656        | **0.685**        |
| **Precision**         | 0.834        | **0.853**        |
| **Recall**            | 0.620        | **0.648**        |
| **F1-Score**          | 0.711        | **0.737**        |
| **AUC-ROC**           | 0.713        | **0.752**        |
| **Log Loss**          | 0.612        | **0.585**        |

---

###  Evaluación del modelo combinado sobre todos los torneos (GS + M1000)

| Métrica               | Valor         |
|-----------------------|---------------|
| **Accuracy**          | 0.613         |
| **Balanced Accuracy** | 0.631         |
| **Precision**         | 0.792         |
| **Recall**            | 0.581         |
| **F1-Score**          | 0.670         |
| **AUC-ROC**           | 0.682         |
| **Log Loss**          | 0.636         |

---

###  Conclusiones sobre Grand Slams

- El modelo **combinado (entrenado con Grand Slams + Masters 1000)** mejora claramente en todos los aspectos cuando se evalúa exclusivamente en partidos de Grand Slam:
  - **Mejor discriminación (AUC-ROC: 0.752)**
  - **Mayor precisión y recall**
  - **Menor log loss**

- Esto indica que los datos de Masters 1000 **aportan conocimiento útil que generaliza bien hacia los partidos de Grand Slam**, posiblemente porque:
  - Ambos tipos de torneos son de alto nivel competitivo.
  - Jugadores y condiciones similares permiten al modelo extraer patrones adicionales que no estaban presentes solo en los Grand Slams.

---

### ¿Por qué el modelo combinado rinde peor cuando se le evalúa sobre *todos los torneos*?

- Cuando el modelo se evalúa sobre **el conjunto completo de partidos (GS + M1000)**, su rendimiento baja notablemente:
  - **Accuracy pasa de 0.669 (en GS) a 0.613 (en total)**
  - **AUC-ROC cae de 0.752 a 0.682**

Esto puede deberse a:

1. **Mayor variabilidad en los partidos de Masters 1000:**
   - Estos torneos pueden incluir más sorpresas, rotaciones, lesiones, o jugadores menos constantes, lo que introduce más *ruido* en los datos.

2. **Desbalance estructural más complejo:**
   - El conjunto combinado tiene aún más partidos con el favorito ganando, lo que puede desestabilizar el equilibrio del modelo.

3. **Contexto competitivo distinto:**
   - Aunque ambos torneos son de nivel alto, **la motivación, duración, y preparación** de los jugadores puede variar. En Grand Slams hay más al mejor de 5 sets, lo que tiende a beneficiar al favorito.

4. **Dificultad del problema:**
   - Predecir correctamente todos los torneos a la vez implica aprender a manejar **más heterogeneidad** (distintas superficies, niveles de presión, jugadores en forma o en baja), lo cual es más difícil.

---

### Conclusión Final

> **Entrenar con datos de Masters 1000 ayuda al modelo a predecir mejor los Grand Slams**, pero esa ganancia **no se transfiere al predecir ambos tipos de torneo simultáneamente**, donde el modelo enfrenta mayor complejidad y menor consistencia en los patrones.

Esto resalta la importancia de:
- Evaluar los modelos según el objetivo específico.
- No asumir que más datos siempre implican mejor rendimiento en todos los escenarios.


# Comparación entre modelos entrenados con diferentes datasets  
## Modelo Conjunto (GS + M1000) vs. Modelo Masters 1000

En este apartado se evaluará si conviene entrenar modelos específicos por tipo de torneo (como los **Masters 1000**) o si un modelo conjunto entrenado con torneos de tipo **Grand Slam + Masters 1000** puede generalizar mejor a los partidos de alto nivel.

---

### Objetivo
Comparar el rendimiento de dos modelos de **Gradient Boosting (Optuna)** sobre el mismo conjunto de test: **partidos de Masters 1000**.

- 🔹 **Modelo 1**: Entrenado exclusivamente con datos de torneos **Masters 1000**.  
- 🔹 **Modelo 2**: Entrenado con partidos de **Masters 1000 + Grand Slam**.

Ambos modelos han sido optimizados con **Optuna** y sus hiperparámetros fueron ajustados específicamente para maximizar el rendimiento en sus datasets respectivos.

---

### Proceso
1. Se filtra el dataset para quedarnos únicamente con los partidos de **Masters 1000**.
2. Se realiza validación cruzada estratificada para evaluar ambos modelos exclusivamente sobre estos partidos.
3. Se comparan las siguientes métricas:
   - Accuracy  
   - Balanced Accuracy  
   - Precision  
   - Recall  
   - F1-Score  
   - AUC-ROC  
   - Log Loss  

Este análisis permite responder la siguiente pregunta clave del proyecto:

> ¿Es preferible entrenar modelos específicos para torneos Masters 1000, o un modelo conjunto con más variedad de datos mejora la predicción?

Un mejor rendimiento del modelo conjunto sobre los datos de Masters 1000 indicaría una **mejor capacidad de generalización**, posiblemente debido al uso de una mayor diversidad de ejemplos competitivos. Por el contrario, si el modelo entrenado exclusivamente con datos de Masters 1000 ofrece mejores resultados, esto sugiere que la especialización por tipo de torneo puede ser más eficaz para capturar patrones propios de estos eventos.


In [None]:
#  Separar datasets 
df_m1000 = df[df["Series"] == "Masters 1000"].copy()
df_combined = df[df["Series"].isin(["Grand Slam", "Masters 1000"])].copy()

X_m1000 = df_m1000[features]
y_m1000 = df_m1000["Favorite_Wins"]
X_comb = df_combined[features]
y_comb = df_combined["Favorite_Wins"]

# === Modelo combinado (entrenado una vez) ===
w_comb = compute_sample_weight(class_weight='balanced', y=y_comb)
modelo_combinado = GradientBoostingClassifier(
    learning_rate=0.014538386775171604,
    n_estimators=475,
    max_depth=4,
    subsample=0.5162888716243986,
    random_state=42
)
modelo_combinado.fit(X_comb, y_comb, sample_weight=w_comb)

#  Validación cruzada para evaluación en M1000 
kf = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)
y_pred_m1000 = np.zeros(len(y_m1000))
y_proba_m1000 = np.zeros(len(y_m1000))
y_pred_comb = np.zeros(len(y_m1000))
y_proba_comb = np.zeros(len(y_m1000))

for train_idx, test_idx in kf.split(X_m1000, y_m1000):
    X_train, X_test = X_m1000.iloc[train_idx], X_m1000.iloc[test_idx]
    y_train, y_test = y_m1000.iloc[train_idx], y_m1000.iloc[test_idx]
    w_m1000 = compute_sample_weight(class_weight='balanced', y=y_train)

    modelo_m1000 = GradientBoostingClassifier(
        learning_rate=0.011215234584834815,
        n_estimators=392,
        max_depth=4,
        subsample=0.7922129095414916,
        random_state=42
    )
    modelo_m1000.fit(X_train, y_train, sample_weight=w_m1000)

    y_pred_m1000[test_idx] = modelo_m1000.predict(X_test)
    y_proba_m1000[test_idx] = modelo_m1000.predict_proba(X_test)[:, 1]

    y_pred_comb[test_idx] = modelo_combinado.predict(X_test)
    y_proba_comb[test_idx] = modelo_combinado.predict_proba(X_test)[:, 1]

# Evaluación final
def evaluar_modelo(nombre, y_true, y_pred, y_proba):
    print(f"\n--- MÉTRICAS: {nombre} ---")
    print("Accuracy:", round(accuracy_score(y_true, y_pred), 3))
    print("Balanced Accuracy:", round(balanced_accuracy_score(y_true, y_pred), 3))
    print("Precision:", round(precision_score(y_true, y_pred), 3))
    print("Recall:", round(recall_score(y_true, y_pred), 3))
    print("F1-Score:", round(f1_score(y_true, y_pred), 3))
    print("AUC-ROC:", round(roc_auc_score(y_true, y_proba), 3))
    print("Log Loss:", round(log_loss(y_true, y_proba), 3))
    print("Matriz de Confusión:\n", confusion_matrix(y_true, y_pred))
    print("Classification Report:\n", classification_report(y_true, y_pred))

# === Resultados ===
evaluar_modelo("Modelo SOLO Masters 1000", y_m1000, y_pred_m1000.astype(int), y_proba_m1000)
evaluar_modelo("Modelo COMBINADO (entrenado en GS + M1000)", y_m1000, y_pred_comb.astype(int), y_proba_comb)

###  Comparativa de Modelos: Evaluación sobre Partidos de Masters 1000

| Métrica               | GB (Solo M1000) | GB (GS + M1000) |
|-----------------------|------------------|------------------|
| **Accuracy**          | 0.598            | **0.605**        |
| **Balanced Accuracy** | 0.612            | **0.634**        |
| **Precision**         | 0.756            | **0.789**        |
| **Recall**            | **0.568**        | 0.540            |
| **F1-Score**          | **0.649**        | 0.641            |
| **AUC-ROC**           | 0.650            | **0.694**        |
| **Log Loss**          | 0.652            | **0.639**        |

---

###  Conclusiones sobre Masters 1000

- El modelo **combinado (entrenado con Grand Slams + Masters 1000)** mejora en:
  - **Precision (0.789 vs 0.756)**
  - **Balanced Accuracy (0.634 vs 0.612)**
  - **AUC-ROC (0.694 vs 0.650)**
  - **Log Loss (0.639 vs 0.652)**

  Lo cual sugiere una **mejor discriminación entre clases** y mayor robustez general en sus predicciones.

- Por otro lado, el modelo **entrenado exclusivamente en Masters 1000** presenta:
  - **Mejor recall (0.568 vs 0.540)**
  - **Mejor F1-Score (0.649 vs 0.641)**

  Esto indica que tiene **mejor capacidad para detectar victorias reales del favorito**, sacrificando algo de precisión.

---

### Conclusión Final

> Aunque el modelo especializado en Masters 1000 obtiene mejor **recall y F1**, el modelo conjunto ofrece **mejor discriminación general y precisión**.

Esto sugiere que:
- El modelo combinado es útil cuando se busca **consistencia general**.
- El modelo específico de Masters 1000 puede ser preferido si se prioriza **capturar más victorias reales del favorito**, aunque eso implique más falsos positivos.

Ambos enfoques tienen valor, y la elección entre ellos dependerá del **objetivo final del sistema de predicción**.
