### Modelo de regresion logistica para la predicción de victorias, empates, y derrotas.
- Preprocesamiento: Convertimos result en binario (1 si gana, 0 si no gana).
- Selección de Características: Usamos variables relevantes (home_adv, estadísticas del equipo y del rival).
- Entrenamiento del Modelo: Usamos LogisticRegression de sklearn.
- Evaluación: Métricas como accuracy y classification_report.

#### 1. Carga de datos y preparación
- Cargamos el dataset y seleccionamos las características relevantes.
- Eliminamos las columnas `goals_team`, `goals_rival` y `result` (ya que `result` será la variable objetivo).
- Separamos los datos en entrenamiento y validación (los últimos 15 partidos serán usados para evaluar el modelo).


In [4]:
import pandas as pd
from sklearn.preprocessing import LabelEncoder, StandardScaler
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix
import numpy as np
import matplotlib.pyplot as plt
import mlflow
import dagshub
import warnings
warnings.filterwarnings("ignore")


In [None]:
USERNAME = "anaigs"
TOKEN = "6906b8ec6ea34a63bacb40b89eed8c6e9b9ff49d"
REPO_NAME = "tfg_inso_github"

# Configurar el tracking URI con autenticación
mlflow.set_tracking_uri(f"https://dagshub.com/anaigs/tfg_inso_github")

print(mlflow.get_tracking_uri()) 

https://dagshub.com/anaigs/tfg_inso_github


In [17]:
print(mlflow.get_tracking_uri())  # Debería mostrar una URI diferente a DagsHub

https://anaigs:6906b8ec6ea34a63bacb40b89eed8c6e9b9ff49d@dagshub.com/anaigs/tfg_inso_github.mlflow


In [2]:
# Cargar los datos
file_path = "../../datasets/datasets_equipos/real_madrid.csv"
df = pd.read_csv(file_path)
df


Unnamed: 0,season,date,team,rival_team,home_adv,last_season_team,last_season_rival,pct_wins,avg_goals_scored,avg_goals_received,...,avg_goals_received_vs_rival,goal_difference_vs_rival,goals_team,goals_rival,result,AvgWin,AvgLoss,AvgDraw,AvgAHWin,AvgAHLoss
0,2003-04,2003-08-30,Real Madrid,Betis,1,21,21,0.00,0.00,0.00,...,0.0,0.0,2,1,1,1.38,7.18,4.00,1.94,1.91
1,2003-04,2003-09-02,Real Madrid,Villarreal,0,21,21,1.00,2.00,1.00,...,0.0,0.0,1,1,0,1.80,3.99,3.28,1.96,1.88
2,2003-04,2003-09-13,Real Madrid,Valladolid,1,21,21,0.50,1.50,1.00,...,0.0,0.0,7,2,1,1.29,9.10,4.39,1.82,2.02
3,2003-04,2003-09-21,Real Madrid,Malaga,0,21,21,0.67,3.33,1.33,...,0.0,0.0,3,1,1,1.62,4.90,3.40,1.92,1.93
4,2003-04,2003-09-27,Real Madrid,Valencia,0,21,21,0.75,3.25,1.25,...,0.0,0.0,0,2,-1,2.27,2.79,3.13,1.95,1.90
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
793,2023-24,2024-05-04,Real Madrid,Cadiz,1,2,16,0.80,2.30,0.70,...,2.0,6.0,3,0,1,7.09,6.00,2.13,2.02,1.88
794,2023-24,2024-05-11,Real Madrid,Granada,0,2,21,0.80,2.20,0.70,...,2.0,11.0,4,0,1,3.96,2.52,5.59,1.86,1.99
795,2023-24,2024-05-14,Real Madrid,Alaves,1,2,21,0.90,2.50,0.60,...,4.0,9.0,5,0,1,11.32,8.03,2.46,2.08,1.84
796,2023-24,2024-05-19,Real Madrid,Villarreal,0,2,5,0.90,2.90,0.60,...,6.0,1.0,4,4,0,3.61,2.34,3.35,1.84,2.02


Inicializamos repositorio de dagshub

In [None]:
# Reemplaza con tu usuario y token de acceso de DagsHub
USERNAME = "anaigs"
TOKEN = "2b312523646821cc810d399b737cee4ff4be55e5"

# Configurar autenticación en DagsHub
dagshub.auth.add_basic_auth(USERNAME, TOKEN)

dagshub.init(repo_owner=USERNAME, repo_name="tfg_inso_github", mlflow=True)

# Intenta obtener los experimentos de MLflow para verificar la autenticación
experiment = mlflow.get_experiment_by_name("real_madrid_logistic_regression")
print("Experimento encontrado:", experiment)


In [None]:
# Eliminar columnas irrelevantes
df = df.drop(columns=["season", "date", "team"])

# Codificar la columna 'rival_team'
label_encoder = LabelEncoder()
df["rival_team"] = label_encoder.fit_transform(df["rival_team"])

#### 3. Preparación de datos para el modelo
- Eliminamos las columnas `goals_team`, `goals_rival` y `result` (esta última será nuestra variable objetivo).
- Convertimos `rival_team` en valores numéricos usando **Label Encoding**.
- Separamos los datos en **X (variables predictoras)** e **y (variable objetivo)**.
- Dividimos los datos en entrenamiento y validación:
  - **Entrenamiento:** Todos los partidos excepto los últimos 15.
  - **Validación:** Últimos 15 partidos.
- Escalamos los datos usando `StandardScaler` para mejorar la estabilidad del modelo.

In [None]:
# Codificar la columna 'rival_team'
label_encoder = LabelEncoder()
df["rival_team"] = label_encoder.fit_transform(df["rival_team"])

# Separar variables predictoras y variable objetivo
X = df.drop(columns=["goals_team", "goals_rival", "result"])
y = df["result"]  # -1 (derrota), 0 (empate), 1 (victoria)

# Dividir en conjunto de entrenamiento y validación
X_train, X_val = X.iloc[:-15], X.iloc[-15:]
y_train, y_val = y.iloc[:-15], y.iloc[-15:]

# Escalar los datos
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_val_scaled = scaler.transform(X_val)

#### 4. Entrenamiento del modelo
- Utilizamos **Random Forest Classifier**, que maneja bien datos tabulares.
- Entrenamos el modelo con los datos de entrenamiento.

In [None]:
# Definir y entrenar el modelo de Regresión Logística
model = LogisticRegression(multi_class='multinomial', solver='lbfgs', max_iter=1000, random_state=42)
model.fit(X_train_scaled, y_train)

#### 5. Evaluación del modelo
- **Métricas a evaluar:**
  - **Precisión global** (`accuracy_score`).
  - **Reporte de clasificación** (`classification_report`).
  - **Matriz de confusión** para visualizar los errores del modelo.

In [None]:
# Predicciones en el conjunto de validación
y_pred = model.predict(X_val_scaled)

# Evaluación del modelo
accuracy = accuracy_score(y_val, y_pred)
report = classification_report(y_val, y_pred, labels=[-1, 0, 1], target_names=["Derrota (-1)", "Empate (0)", "Victoria (1)"])
print("\nReporte de clasificación:\n", report)

# Mostrar resultados
print(f"Accuracy del modelo: {accuracy:.4f}")

# Verificar las clases presentes en la validación
print("Clases presentes en y_val:", set(y_val))

# Obtener las clases presentes realmente en la validación
clases_presentes = sorted(set(y_val))  # Clases reales en la validación

# Generar la matriz de confusión
conf_matrix = confusion_matrix(y_val, y_pred, labels=clases_presentes)

# Visualizar la matriz de confusión
plt.figure(figsize=(6, 5))
plt.imshow(conf_matrix, cmap="Blues", interpolation="nearest")
plt.colorbar()
plt.xticks(range(len(clases_presentes)), [f"{c}" for c in clases_presentes])
plt.yticks(range(len(clases_presentes)), [f"{c}" for c in clases_presentes])
plt.xlabel("Predicción")
plt.ylabel("Realidad")
plt.title("Matriz de Confusión")

# Mostrar valores dentro de la matriz
for i in range(len(clases_presentes)):
    for j in range(len(clases_presentes)):
        plt.text(j, i, conf_matrix[i, j], ha="center", va="center", color="black")

plt.show()


#### Enfoque secuencial acumulativo
- En lugar de dividir en un bloque fijo de partidos para validación, predeciremos un partido a la vez, actualizando los datos después de cada predicción.
- El modelo se entrenará con todos los partidos previos a cada predicción.
- Ventaja: La predicción del partido N+1 incluirá los datos del partido N, simulando cómo se usaría el modelo en tiempo real.

#### Algoritmo 
1. Usamos la última temporada completa para validación.
2. Para cada partido de esa temporada:
    - Entrenamos el modelo con todos los partidos anteriores.
    - Predecimos el resultado del siguiente partido.
    - Guardamos la predicción y actualizamos los datos disponibles.
3. Al final, evaluamos el desempeño global del modelo.

In [None]:
# Número de partidos a usar como validación (última temporada completa)
n_validacion = 38  # 38 partidos en una temporada de LaLiga

# Separar los datos en entrenamiento inicial y validación progresiva
X_train_init = X.iloc[: -n_validacion]  # Todos los partidos excepto la última temporada
y_train_init = y.iloc[: -n_validacion]  # Etiquetas de entrenamiento inicial
X_val_seq = X.iloc[-n_validacion:]  # Última temporada completa para validación progresiva
y_val_seq = y.iloc[-n_validacion:]

# Inicializar listas para almacenar predicciones y resultados reales
y_pred_seq = []
y_real_seq = []

# Escalar datos inicialmente
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train_init)

In [None]:
# Iterar sobre los partidos de validación de manera secuencial
for i in range(n_validacion):
    # Entrenar el modelo con todos los partidos anteriores
    # Definir y entrenar el modelo de Regresión Logística
    model = LogisticRegression(solver='lbfgs', max_iter=1000, random_state=42)
    model.fit(X_train_scaled, y_train_init)

    # Obtener el partido a predecir
    X_next = X_val_seq.iloc[i:i+1]  # Tomamos solo el siguiente partido
    y_next = y_val_seq.iloc[i]  # Resultado real del partido

    # Escalar con los mismos parámetros del entrenamiento
    X_next_scaled = scaler.transform(X_next)

    # Predecir el partido
    y_pred_next = model.predict(X_next_scaled)[0]

    # Guardar la predicción y el resultado real
    y_pred_seq.append(y_pred_next)
    y_real_seq.append(y_next)

    # Agregar el partido actual al conjunto de entrenamiento para la siguiente iteración
    X_train_init = pd.concat([X_train_init, X_next])
    y_train_init = pd.concat([y_train_init, pd.Series([y_next])])

    # Volver a escalar los datos con la nueva información incluida
    X_train_scaled = scaler.fit_transform(X_train_init)

In [None]:
# Evaluación del desempeño global
accuracy = accuracy_score(y_real_seq, y_pred_seq)
report = classification_report(y_real_seq, y_pred_seq, labels=[-1, 0, 1], target_names=["Derrota (-1)", "Empate (0)", "Victoria (1)"])

print(f"Accuracy del modelo en validación secuencial: {accuracy:.4f}")
print("\nReporte de clasificación:\n", report)

# Matriz de confusión
conf_matrix = confusion_matrix(y_real_seq, y_pred_seq, labels=[-1, 0, 1])

# Visualizar la matriz de confusión
plt.figure(figsize=(6, 5))
plt.imshow(conf_matrix, cmap="Blues", interpolation="nearest")
plt.colorbar()
plt.xticks([0, 1, 2], ["Derrota", "Empate", "Victoria"])
plt.yticks([0, 1, 2], ["Derrota", "Empate", "Victoria"])
plt.xlabel("Predicción")
plt.ylabel("Realidad")
plt.title("Matriz de Confusión")

# Mostrar los valores dentro de la matriz
for i in range(3):
    for j in range(3):
        plt.text(j, i, conf_matrix[i, j], ha="center", va="center", color="black")

plt.show()

#### Conclusiones del modelo con Real Madrid

- **Precisión global:** 68.42%, con un buen desempeño general pero sesgado.  
- **Predicción de victorias:** Alta precisión y recall, el modelo detecta bien las victorias.  
- **Predicción de empates y derrotas:** Desempeño muy bajo, con 0% de recall en ambas categorías.  
- **Desbalance de clases:** El Real Madrid tiene muchas más victorias en su historial, lo que hace que el modelo aprenda a predecir victorias con más frecuencia.  
- **Próximo paso:** Probar con los datos de **Athletic Bilbao (`ath_bilbao.csv`)**, un equipo con una distribución de resultados más equilibrada.  


In [None]:
# Cargar los datos
file_path_bilbao = "../../datasets/datasets_equipos/ath_bilbao.csv"
df_bilbao = pd.read_csv(file_path_bilbao)

# Eliminar columnas irrelevantes
df_bilbao = df_bilbao.drop(columns=["season", "date", "team"])

# Codificar la columna 'rival_team'
label_encoder = LabelEncoder()
df_bilbao["rival_team"] = label_encoder.fit_transform(df_bilbao["rival_team"])

# Separar variables predictoras y variable objetivo
X_bilbao = df_bilbao.drop(columns=["goals_team", "goals_rival", "result"])
y_bilbao = df_bilbao["result"]  # -1 (derrota), 0 (empate), 1 (victoria)

# Definir la última temporada como validación
n_validacion = 38  # Número de partidos en una temporada
X_train_bilbao = X_bilbao.iloc[: -n_validacion]
y_train_bilbao = y_bilbao.iloc[: -n_validacion]
X_val_bilbao = X_bilbao.iloc[-n_validacion:]
y_val_bilbao = y_bilbao.iloc[-n_validacion:]

# Verificar estructura
X_train_bilbao.shape, X_val_bilbao.shape, y_train_bilbao.shape, y_val_bilbao.shape

#### Entrenamiento y validación secuencial

- Entrenamos un modelo de **Regresión Logística** con los datos previos a cada partido.
- Predecimos partido a partido, actualizando los datos después de cada predicción.
- Evaluamos el desempeño del modelo.

In [None]:
# Inicializar listas para almacenar predicciones y resultados reales
y_pred_seq_bilbao = []
y_real_seq_bilbao = []

# Escalar datos inicialmente
scaler_bilbao = StandardScaler()
X_train_scaled_bilbao = scaler_bilbao.fit_transform(X_train_bilbao)

# Iterar sobre los partidos de validación de manera secuencial
for i in range(n_validacion):
    # Entrenar el modelo con todos los partidos anteriores
    model_bilbao = LogisticRegression(solver='lbfgs', max_iter=1000, random_state=42)
    model_bilbao.fit(X_train_scaled_bilbao, y_train_bilbao)

    # Obtener el partido a predecir
    X_next_bilbao = X_val_bilbao.iloc[i:i+1]  # Tomamos solo el siguiente partido
    y_next_bilbao = y_val_bilbao.iloc[i]  # Resultado real del partido

    # Escalar con los mismos parámetros del entrenamiento
    X_next_scaled_bilbao = scaler_bilbao.transform(X_next_bilbao)

    # Predecir el partido
    y_pred_next_bilbao = model_bilbao.predict(X_next_scaled_bilbao)[0]

    # Guardar la predicción y el resultado real
    y_pred_seq_bilbao.append(y_pred_next_bilbao)
    y_real_seq_bilbao.append(y_next_bilbao)

    # Agregar el partido actual al conjunto de entrenamiento para la siguiente iteración
    X_train_bilbao = pd.concat([X_train_bilbao, X_next_bilbao])
    y_train_bilbao = pd.concat([y_train_bilbao, pd.Series([y_next_bilbao])])

    # Volver a escalar los datos con la nueva información incluida
    X_train_scaled_bilbao = scaler_bilbao.fit_transform(X_train_bilbao)


In [None]:
# Evaluación del desempeño global
accuracy_bilbao = accuracy_score(y_real_seq_bilbao, y_pred_seq_bilbao)
report_bilbao = classification_report(y_real_seq_bilbao, y_pred_seq_bilbao, labels=[-1, 0, 1], target_names=["Derrota (-1)", "Empate (0)", "Victoria (1)"])

print(f"Accuracy del modelo en validación secuencial: {accuracy_bilbao:.4f}")
print("\nReporte de clasificación:\n", report_bilbao)

# Matriz de confusión
conf_matrix_bilbao = confusion_matrix(y_real_seq_bilbao, y_pred_seq_bilbao, labels=[-1, 0, 1])

# Visualizar la matriz de confusión
plt.figure(figsize=(6, 5))
plt.imshow(conf_matrix_bilbao, cmap="Blues", interpolation="nearest")
plt.colorbar()
plt.xticks([0, 1, 2], ["Derrota", "Empate", "Victoria"])
plt.yticks([0, 1, 2], ["Derrota", "Empate", "Victoria"])
plt.xlabel("Predicción")
plt.ylabel("Realidad")
plt.title("Matriz de Confusión")

# Mostrar los valores dentro de la matriz
for i in range(3):
    for j in range(3):
        plt.text(j, i, conf_matrix_bilbao[i, j], ha="center", va="center", color="black")

plt.show()

#### Conclusiones del modelo con Athletic Bilbao

- **Precisión global:** 39.47%, menor que con Real Madrid, indicando mayor dificultad para predecir correctamente.  
- **Predicción de derrotas:** Muy precisa (100% recall), pero puede indicar un sesgo excesivo hacia esta clase.  
- **Predicción de empates:** Totalmente fallida, con 0% de recall y precisión.  
- **Predicción de victorias:** Moderada, con un recall del 37%, indicando que muchas victorias fueron clasificadas erróneamente.  
- **Desbalance en predicciones:** El modelo predice demasiadas derrotas y pocas victorias y empates, lo que sugiere la necesidad de mejorar el balance de clases o ajustar hiperparámetros.  
- **Próximo paso:** Probar estrategias de balanceo de clases

#### Balanceo de clases

- Se observa que el modelo tiende a favorecer una clase sobre las demás.  
- Para corregir esto, se aplicará **oversampling** en las clases menos representadas usando `SMOTE`.  
- Se volverá a entrenar el modelo y se evaluará si mejora la precisión en empates y victorias.  


In [None]:
from imblearn.over_sampling import SMOTE

# Aplicar SMOTE para balancear las clases en el conjunto de entrenamiento
smote = SMOTE(random_state=42)
X_train_balanced, y_train_balanced = smote.fit_resample(X_train_bilbao, y_train_bilbao)

# Verificar distribución de clases después del balanceo
y_train_balanced.value_counts()

#### Entrenamiento y validación con datos balanceados

- Se entrena el modelo con el nuevo conjunto balanceado.  
- Se repite el proceso de validación secuencial con los partidos de la última temporada.  


In [None]:
# Inicializar listas para almacenar predicciones y resultados reales
y_pred_seq_balanced = []
y_real_seq_balanced = []

# Escalar los datos balanceados
scaler_balanced = StandardScaler()
X_train_scaled_balanced = scaler_balanced.fit_transform(X_train_balanced)

# Iterar sobre los partidos de validación
for i in range(n_validacion):
    # Entrenar el modelo con el conjunto balanceado
    model_balanced = LogisticRegression(solver='lbfgs', max_iter=1000, random_state=42)
    model_balanced.fit(X_train_scaled_balanced, y_train_balanced)

    # Obtener el partido a predecir
    X_next_balanced = X_val_bilbao.iloc[i:i+1]
    y_next_balanced = y_val_bilbao.iloc[i]

    # Escalar con los mismos parámetros del entrenamiento
    X_next_scaled_balanced = scaler_balanced.transform(X_next_balanced)

    # Predecir el partido
    y_pred_next_balanced = model_balanced.predict(X_next_scaled_balanced)[0]

    # Guardar la predicción y el resultado real
    y_pred_seq_balanced.append(y_pred_next_balanced)
    y_real_seq_balanced.append(y_next_balanced)

    # Agregar el partido actual al conjunto de entrenamiento
    X_train_balanced = pd.concat([pd.DataFrame(X_train_balanced, columns=X_train_bilbao.columns), X_next_balanced])
    y_train_balanced = pd.concat([pd.Series(y_train_balanced), pd.Series([y_next_balanced])])

    # Volver a escalar los datos con la nueva información incluida
    X_train_scaled_balanced = scaler_balanced.fit_transform(X_train_balanced)


In [None]:
# Evaluación del desempeño con datos balanceados
accuracy_balanced = accuracy_score(y_real_seq_balanced, y_pred_seq_balanced)
report_balanced = classification_report(y_real_seq_balanced, y_pred_seq_balanced, labels=[-1, 0, 1], target_names=["Derrota (-1)", "Empate (0)", "Victoria (1)"])

print(f"Accuracy del modelo con balanceo de clases: {accuracy_balanced:.4f}")
print("\nReporte de clasificación:\n", report_balanced)

# Matriz de confusión
conf_matrix_balanced = confusion_matrix(y_real_seq_balanced, y_pred_seq_balanced, labels=[-1, 0, 1])

# Visualizar la matriz de confusión
plt.figure(figsize=(6, 5))
plt.imshow(conf_matrix_balanced, cmap="Blues", interpolation="nearest")
plt.colorbar()
plt.xticks([0, 1, 2], ["Derrota", "Empate", "Victoria"])
plt.yticks([0, 1, 2], ["Derrota", "Empate", "Victoria"])
plt.xlabel("Predicción")
plt.ylabel("Realidad")
plt.title("Matriz de Confusión (Balanceado)")

# Mostrar los valores dentro de la matriz
for i in range(3):
    for j in range(3):
        plt.text(j, i, conf_matrix_balanced[i, j], ha="center", va="center", color="black")

plt.show()

#### Conclusiones tras el balanceo de clases

- **Precisión global:** 44.74%, mejor distribución entre clases pero con impacto en la precisión general.  
- **Predicción de derrotas:** Mejorada, con un recall del 75%, lo que indica que el modelo las identifica con más frecuencia.  
- **Predicción de empates:** Ligera mejora, pero aún con un recall bajo del 27%.  
- **Predicción de victorias:** Ha perdido precisión, con un recall del 42%, lo que indica que ahora algunas victorias se clasifican como derrotas o empates.  
- **Efecto del balanceo:** Se logró una mejor representación de empates y derrotas, pero afectó la estabilidad de la predicción de victorias.  

#### Posibles problemas con muchas columnas en Regresión Logística

- **Sobreajuste:** Un número alto de variables puede hacer que el modelo aprenda patrones espurios en lugar de tendencias generales.  
- **Multicolinealidad:** Si algunas columnas están altamente correlacionadas, el modelo puede volverse inestable.  
- **Dificultad en la optimización:** Regresión Logística es más efectiva con conjuntos de datos más simples y puede tener problemas cuando hay muchas variables irrelevantes.  


#### Selección de características

- Se utilizará **SelectFromModel** con **Regresión Logística** para identificar las características más importantes.  
- Se entrenará el modelo con solo estas variables y se evaluará su desempeño.  
- Esto ayudará a reducir el impacto del sobreajuste y mejorar la interpretabilidad.  


In [None]:
from sklearn.feature_selection import SelectFromModel

# Entrenar un modelo inicial de Regresión Logística para la selección de características
selector = SelectFromModel(estimator=LogisticRegression(solver='lbfgs', max_iter=1000, random_state=42))
selector.fit(X_train_scaled_balanced, y_train_balanced)

# Obtener las características seleccionadas
selected_features = X_train_bilbao.columns[selector.get_support()]
print("Características seleccionadas:", list(selected_features))

# Reducir el dataset a solo las características importantes
X_train_selected = selector.transform(X_train_scaled_balanced)
X_val_selected = selector.transform(scaler_balanced.transform(X_val_bilbao))

#### Entrenamiento y evaluación con características seleccionadas

- Se reentrena el modelo con las características más relevantes.  
- Se evalúa si la reducción de variables mejora la precisión y estabilidad del modelo.  

In [None]:
# Inicializar listas para almacenar predicciones y resultados reales
y_pred_seq_selected = []
y_real_seq_selected = []

# Iterar sobre los partidos de validación
for i in range(n_validacion):
    # Entrenar el modelo con las características seleccionadas
    model_selected = LogisticRegression(solver='lbfgs', max_iter=1000, random_state=42)
    model_selected.fit(X_train_selected, y_train_balanced)

    # Obtener el partido a predecir
    X_next_selected = X_val_selected[i:i+1]
    y_next_selected = y_val_bilbao.iloc[i]

    # Predecir el partido
    y_pred_next_selected = model_selected.predict(X_next_selected)[0]

    # Guardar la predicción y el resultado real
    y_pred_seq_selected.append(y_pred_next_selected)
    y_real_seq_selected.append(y_next_selected)

    # Agregar el partido actual al conjunto de entrenamiento
    X_train_selected = np.vstack([X_train_selected, X_next_selected])
    y_train_balanced = pd.concat([pd.Series(y_train_balanced), pd.Series([y_next_selected])])

In [None]:
# Evaluación del modelo con características seleccionadas
accuracy_selected = accuracy_score(y_real_seq_selected, y_pred_seq_selected)
report_selected = classification_report(y_real_seq_selected, y_pred_seq_selected, labels=[-1, 0, 1], target_names=["Derrota (-1)", "Empate (0)", "Victoria (1)"])

print(f"Accuracy del modelo con selección de características: {accuracy_selected:.4f}")
print("\nReporte de clasificación:\n", report_selected)

# Matriz de confusión
conf_matrix_selected = confusion_matrix(y_real_seq_selected, y_pred_seq_selected, labels=[-1, 0, 1])

# Visualizar la matriz de confusión
plt.figure(figsize=(6, 5))
plt.imshow(conf_matrix_selected, cmap="Blues", interpolation="nearest")
plt.colorbar()
plt.xticks([0, 1, 2], ["Derrota", "Empate", "Victoria"])
plt.yticks([0, 1, 2], ["Derrota", "Empate", "Victoria"])
plt.xlabel("Predicción")
plt.ylabel("Realidad")
plt.title("Matriz de Confusión (Selección de Características)")

# Mostrar los valores dentro de la matriz
for i in range(3):
    for j in range(3):
        plt.text(j, i, conf_matrix_selected[i, j], ha="center", va="center", color="black")

plt.show()

#### Conclusiones tras la selección de características

- **Precisión global:** 39.47%, sin mejoras significativas respecto al modelo anterior.  
- **Predicción de derrotas y empates:** Ligera mejora en recall, pero sigue con baja precisión.  
- **Predicción de victorias:** Ha bajado su desempeño, con menor recall.  
- **Impacto de la selección de características:** No ha mejorado la precisión general, lo que indica que el problema no era solo el exceso de variables.  
- **Próximo paso:** Explorar reducción de dimensionalidad con **PCA**

#### Reducción de dimensionalidad con PCA

- Se aplicará **PCA (Análisis de Componentes Principales)** para reducir la dimensionalidad del dataset.  
- PCA transforma los datos en nuevas variables ortogonales que capturan la mayor varianza posible.  
- Se mantendrán suficientes componentes para conservar al menos el **95% de la varianza** original.  


In [None]:
from sklearn.decomposition import PCA

# Aplicar PCA manteniendo el 95% de la varianza
pca = PCA(n_components=0.95)
X_train_pca = pca.fit_transform(X_train_scaled_balanced)
X_val_pca = pca.transform(scaler_balanced.transform(X_val_bilbao))

# Mostrar el número de componentes seleccionados
print(f"Número de componentes principales retenidos: {pca.n_components_}")

In [None]:
# Verificar dimensiones originales antes de empezar
print("Dimensiones iniciales:")
print(f"X_train_pca: {X_train_pca.shape}")
print(f"y_train_balanced: {y_train_balanced.shape}")

# Asegurar que ambas variables tengan el mismo número de filas
min_samples = min(X_train_pca.shape[0], y_train_balanced.shape[0])
X_train_pca_seq = X_train_pca[:min_samples]  # Tomar solo las filas necesarias
y_train_pca_seq = np.array(y_train_balanced[:min_samples])  # Convertir y truncar si es necesario

# Volver a verificar dimensiones después del ajuste
print("Dimensiones después del ajuste:")
print(f"X_train_pca_seq: {X_train_pca_seq.shape}")
print(f"y_train_pca_seq: {y_train_pca_seq.shape}")

#### Entrenamiento y evaluación con datos reducidos por PCA

- Se entrena el modelo con las nuevas características generadas por PCA.  
- Se evalúa si la reducción de dimensionalidad mejora la precisión y estabilidad del modelo.  


In [None]:
# Inicializar listas para almacenar predicciones y resultados reales
y_pred_seq_pca = []
y_real_seq_pca = []

# Iterar sobre los partidos de validación
for i in range(n_validacion):
    # Verificar dimensiones antes de entrenar
    if X_train_pca_seq.shape[0] != y_train_pca_seq.shape[0]:
        print(f"Error de dimensión en la iteración {i}:")
        print(f"X_train_pca_seq.shape = {X_train_pca_seq.shape}")
        print(f"y_train_pca_seq.shape = {y_train_pca_seq.shape}")
        break  # Detener si hay un error de dimensiones

    # Entrenar el modelo con los datos transformados por PCA
    model_pca = LogisticRegression(solver='lbfgs', max_iter=1000, random_state=42)
    model_pca.fit(X_train_pca_seq, y_train_pca_seq)

    # Obtener el partido a predecir
    X_next_pca = X_val_pca[i:i+1]
    y_next_pca = y_val_bilbao.iloc[i]

    # Predecir el partido
    y_pred_next_pca = model_pca.predict(X_next_pca)[0]

    # Guardar la predicción y el resultado real
    y_pred_seq_pca.append(y_pred_next_pca)
    y_real_seq_pca.append(y_next_pca)

    # Agregar el partido actual al conjunto de entrenamiento
    X_train_pca_seq = np.vstack([X_train_pca_seq, X_next_pca])  # Agregar nueva fila a X
    y_train_pca_seq = np.append(y_train_pca_seq, y_next_pca)  # Agregar nuevo valor a y

# Evaluación del modelo con PCA
accuracy_pca = accuracy_score(y_real_seq_pca, y_pred_seq_pca)
report_pca = classification_report(y_real_seq_pca, y_pred_seq_pca, labels=[-1, 0, 1], target_names=["Derrota (-1)", "Empate (0)", "Victoria (1)"])

print(f"Accuracy del modelo con PCA: {accuracy_pca:.4f}")
print("\nReporte de clasificación:\n", report_pca)

# Matriz de confusión
conf_matrix_pca = confusion_matrix(y_real_seq_pca, y_pred_seq_pca, labels=[-1, 0, 1])

# Visualizar la matriz de confusión
plt.figure(figsize=(6, 5))
plt.imshow(conf_matrix_pca, cmap="Blues", interpolation="nearest")
plt.colorbar()
plt.xticks([0, 1, 2], ["Derrota", "Empate", "Victoria"])
plt.yticks([0, 1, 2], ["Derrota", "Empate", "Victoria"])
plt.xlabel("Predicción")
plt.ylabel("Realidad")
plt.title("Matriz de Confusión (PCA)")

# Mostrar los valores dentro de la matriz
for i in range(3):
    for j in range(3):
        plt.text(j, i, conf_matrix_pca[i, j], ha="center", va="center", color="black")

plt.show()


#### Conclusiones tras aplicar PCA

- **Precisión global:** 55.26%, una mejora en comparación con el modelo sin PCA.  
- **Predicción de derrotas:** Alto recall (88%) y buena precisión, el modelo detecta bien las derrotas.  
- **Predicción de empates:** Ligera mejora respecto a modelos anteriores, pero sigue siendo la categoría más difícil de predecir.  
- **Predicción de victorias:** Se mantiene en un nivel aceptable con un 53% de recall.  
- **Impacto del PCA:** La reducción de dimensionalidad ayudó a mejorar la estabilidad del modelo y a evitar sobreajuste.  