# **Semana 11: Introducción al Modelado Predictivo en Fútbol**

## Ciencia de Datos en el Deporte - Análisis Avanzado

### 🚀 **Bloque 3: Análisis Avanzado y Modelado**

---

**Objetivos de Aprendizaje:**
- ✅ Entender qué es el modelado predictivo en el fútbol
- ✅ Conocer los tipos de predicciones más comunes
- ✅ Preparar datos para modelado predictivo
- ✅ Seleccionar variables relevantes
- ✅ Crear nuestro primer modelo simple

**Herramientas:**
- 🐍 Python
- 📊 Pandas (preparación de datos)
- 🔢 NumPy (cálculos)
- 🤖 Scikit-learn (machine learning)
- 📈 Matplotlib/Seaborn (visualización)

---

## 1. ¿Qué es el Modelado Predictivo en Fútbol?

### 1.1 Definición Simple

El **modelado predictivo** es usar datos del pasado para predecir qué va a pasar en el futuro. En el fútbol, esto significa:

### Ejemplos de Predicciones en Fútbol:

#### 🎯 **Predicciones de Resultados**
- ¿Ganará el equipo local?
- ¿Cuántos goles se anotarán?
- ¿Habrá empate?

#### ⚽ **Predicciones de Jugadores**
- ¿Anotará gol este delantero?
- ¿Cuántos pases completará?
- ¿Será expulsado?

#### 🏆 **Predicciones de Temporada**
- ¿Qué equipo ganará la liga?
- ¿Quién descenderá?
- ¿Cuántos puntos obtendrá cada equipo?

### 1.2 ¿Por qué es Útil?

- **Para entrenadores**: Tomar mejores decisiones tácticas
- **Para clubes**: Fichar mejores jugadores
- **Para aficionados**: Entender mejor el juego
- **Para analistas**: Encontrar patrones ocultos

## 2. Tipos de Modelos Predictivos

### 2.1 Clasificación vs Regresión

#### **Clasificación** (Predecir categorías)
- ¿Victoria, empate o derrota?
- ¿Gol o no gol?
- ¿Tarjeta roja o no?

#### **Regresión** (Predecir números)
- ¿Cuántos goles?
- ¿Cuántos pases?
- ¿Cuántos puntos en la temporada?

### 2.2 Variables en el Modelado de Fútbol

#### **Variables de Entrada (Features)**
Son los datos que usamos para hacer la predicción:

- **Historial del equipo**: Victorias, derrotas, goles
- **Ventaja de local**: ¿Juega en casa?
- **Forma reciente**: Últimos 5 partidos
- **Enfrentamientos directos**: Historial entre equipos
- **Calidad de jugadores**: Experiencia, valor de mercado

#### **Variable Objetivo (Target)**
Es lo que queremos predecir:

- Resultado del partido (1: Victoria local, X: Empate, 2: Victoria visitante)
- Número de goles
- Probabilidad de victoria

## 3. Preparación del Entorno

### Librerías Necesarias

Para el modelado predictivo necesitamos nuevas herramientas:

In [1]:
# Importar librerías básicas
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
warnings.filterwarnings('ignore')

# Nuevas librerías para machine learning
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, classification_report
from sklearn.preprocessing import LabelEncoder

# Configuración de gráficos
sns.set_theme(style="whitegrid", palette="Set2")
plt.rcParams['figure.figsize'] = (10, 6)

print("Librerías listas para modelado predictivo")
print("Pandas: Para manipular datos")
print("Scikit-learn: Para machine learning")
print("Seaborn: Para visualizar resultados")
print("\n¡Todo listo para crear nuestro primer modelo!")

Librerías listas para modelado predictivo
Pandas: Para manipular datos
Scikit-learn: Para machine learning
Seaborn: Para visualizar resultados

¡Todo listo para crear nuestro primer modelo!


## 4. Creación de Datos de Entrenamiento

### 4.1 Simular Datos de Partidos

Vamos a crear un dataset con información relevante para predecir resultados:

In [2]:
# Crear datos simulados de partidos para modelado
np.random.seed(42)

# Número de partidos para entrenamiento
n_partidos = 500

# Crear equipos ficticios
equipos = ['Real Madrid', 'Barcelona', 'Atletico', 'Valencia', 'Sevilla', 
           'Villarreal', 'Betis', 'Athletic', 'Sociedad', 'Getafe']

# Generar datos de partidos
datos_partidos = {
    'equipo_local': np.random.choice(equipos, n_partidos),
    'equipo_visitante': np.random.choice(equipos, n_partidos),
    'goles_local_ultimos_5': np.random.randint(0, 15, n_partidos),  # Goles en últimos 5 partidos
    'goles_visitante_ultimos_5': np.random.randint(0, 15, n_partidos),
    'victorias_local_ultimos_5': np.random.randint(0, 6, n_partidos),  # Victorias en últimos 5
    'victorias_visitante_ultimos_5': np.random.randint(0, 6, n_partidos),
    'posicion_liga_local': np.random.randint(1, 21, n_partidos),  # Posición en la tabla
    'posicion_liga_visitante': np.random.randint(1, 21, n_partidos),
    'es_derbi': np.random.choice([0, 1], n_partidos, p=[0.8, 0.2])  # Si es derbi (rivalidad)
}

# Crear DataFrame
df_partidos = pd.DataFrame(datos_partidos)

# Eliminar partidos donde un equipo juega contra sí mismo
df_partidos = df_partidos[df_partidos['equipo_local'] != df_partidos['equipo_visitante']]

print(f"Dataset creado con {len(df_partidos)} partidos")
print("\nPrimeros 5 partidos:")
print(df_partidos.head())

Dataset creado con 433 partidos

Primeros 5 partidos:
  equipo_local equipo_visitante  goles_local_ultimos_5  \
0        Betis         Sociedad                      0   
1     Valencia      Real Madrid                     14   
2     Athletic      Real Madrid                      7   
3      Sevilla         Valencia                     11   
4        Betis         Sociedad                     10   

   goles_visitante_ultimos_5  victorias_local_ultimos_5  \
0                          0                          4   
1                         12                          2   
2                         13                          1   
3                          4                          2   
4                         11                          5   

   victorias_visitante_ultimos_5  posicion_liga_local  \
0                              5                    5   
1                              3                   20   
2                              0                   17   
3             

### 4.2 Crear la Variable Objetivo

Ahora necesitamos crear el resultado que queremos predecir. Usaremos una lógica simple pero realista:

In [None]:
# Función para simular el resultado del partido
def simular_resultado(row):
    """
    Simula el resultado basado en las características del partido
    Lógica: Equipos mejor posicionados y con mejor forma tienen más probabilidad de ganar
    """
    # Calcular "fortaleza" de cada equipo
    fortaleza_local = (
        row['goles_local_ultimos_5'] * 0.3 +
        row['victorias_local_ultimos_5'] * 0.4 +
        (21 - row['posicion_liga_local']) * 0.3 +  # Mejor posición = más puntos
        3  # Ventaja de local
    )
    
    fortaleza_visitante = (
        row['goles_visitante_ultimos_5'] * 0.3 +
        row['victorias_visitante_ultimos_5'] * 0.4 +
        (21 - row['posicion_liga_visitante']) * 0.3
    )
    
    # Añadir factor aleatorio para realismo
    diferencia = fortaleza_local - fortaleza_visitante + np.random.normal(0, 2)
    
    # Determinar resultado
    if diferencia > 1.5:
        return 'Victoria_Local'
    elif diferencia < -1.5:
        return 'Victoria_Visitante'
    else:
        return 'Empate'

# Aplicar la función para crear los resultados
df_partidos['resultado'] = df_partidos.apply(simular_resultado, axis=1)

# Ver la distribución de resultados
print("Distribución de resultados:")
print(df_partidos['resultado'].value_counts())
print(f"\nPorcentajes:")
print(df_partidos['resultado'].value_counts(normalize=True) * 100)

## 5. Análisis Exploratorio para Modelado

### 5.1 Visualizar las Variables Importantes

Antes de crear el modelo, exploremos las relaciones entre variables:

In [None]:
# Analizar la relación entre posición en liga y resultados
plt.figure(figsize=(12, 8))

# Crear subplots
plt.subplot(2, 2, 1)
sns.boxplot(data=df_partidos, x='resultado', y='posicion_liga_local')
plt.title('Posición Liga Local vs Resultado')
plt.xticks(rotation=45)

plt.subplot(2, 2, 2)
sns.boxplot(data=df_partidos, x='resultado', y='victorias_local_ultimos_5')
plt.title('Victorias Recientes Local vs Resultado')
plt.xticks(rotation=45)

plt.subplot(2, 2, 3)
sns.boxplot(data=df_partidos, x='resultado', y='goles_local_ultimos_5')
plt.title('Goles Recientes Local vs Resultado')
plt.xticks(rotation=45)

plt.subplot(2, 2, 4)
# Contar resultados por tipo de partido (derbi o no)
resultado_derbi = pd.crosstab(df_partidos['es_derbi'], df_partidos['resultado'])
resultado_derbi.plot(kind='bar', ax=plt.gca())
plt.title('Resultados en Derbis vs Partidos Normales')
plt.xticks([0, 1], ['Partido Normal', 'Derbi'], rotation=0)
plt.legend(title='Resultado', bbox_to_anchor=(1.05, 1), loc='upper left')

plt.tight_layout()
plt.show()

print("Observaciones importantes:")
print("- Los equipos mejor posicionados tienden a ganar más")
print("- Las victorias recientes influyen en el resultado")
print("- Los goles recientes también son predictivos")

## 6. Preparación de Datos para el Modelo

### 6.1 Selección de Variables Predictivas

Para nuestro primer modelo, seleccionaremos las variables más importantes:

In [None]:
# Seleccionar las variables para el modelo (Features)
features = [
    'goles_local_ultimos_5',
    'goles_visitante_ultimos_5',
    'victorias_local_ultimos_5',
    'victorias_visitante_ultimos_5',
    'posicion_liga_local',
    'posicion_liga_visitante',
    'es_derbi'
]

# Preparar los datos
X = df_partidos[features]  # Variables predictivas
y = df_partidos['resultado']  # Variable objetivo

print("Variables seleccionadas para el modelo:")
for i, feature in enumerate(features, 1):
    print(f"{i}. {feature}")

print(f"\nForma de los datos:")
print(f"X (variables predictivas): {X.shape}")
print(f"y (variable objetivo): {y.shape}")

# Mostrar estadísticas básicas
print("\nEstadísticas de las variables:")
print(X.describe())

### 6.2 División en Entrenamiento y Prueba

Una regla fundamental en machine learning: **nunca probar el modelo con los mismos datos que usamos para entrenarlo**.

In [None]:
# Dividir los datos en entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(
    X, y, 
    test_size=0.2,  # 20% para prueba, 80% para entrenamiento
    random_state=42,  # Para reproducibilidad
    stratify=y  # Mantener proporción de resultados
)

print("División de datos completada:")
print(f"Datos de entrenamiento: {X_train.shape[0]} partidos")
print(f"Datos de prueba: {X_test.shape[0]} partidos")

print("\nDistribución en entrenamiento:")
print(y_train.value_counts())

print("\nDistribución en prueba:")
print(y_test.value_counts())

print("\n¡Los datos están listos para entrenar nuestro modelo!")

## 7. Nuestro Primer Modelo Predictivo

### 7.1 Regresión Logística

Empezaremos con **Regresión Logística**, un modelo simple pero poderoso para clasificación:

In [None]:
# Crear y entrenar el modelo
modelo = LogisticRegression(random_state=42, max_iter=1000)

# Entrenar el modelo
print("Entrenando el modelo...")
modelo.fit(X_train, y_train)
print("¡Modelo entrenado exitosamente!")

# Hacer predicciones en los datos de prueba
y_pred = modelo.predict(X_test)
y_pred_proba = modelo.predict_proba(X_test)

# Calcular la precisión
precision = accuracy_score(y_test, y_pred)

print(f"\nPrecisión del modelo: {precision:.2%}")
print(f"Esto significa que el modelo acierta {precision:.1%} de las veces")

# Mostrar algunas predicciones
print("\nPrimeras 10 predicciones vs realidad:")
comparacion = pd.DataFrame({
    'Predicción': y_pred[:10],
    'Realidad': y_test[:10].values
})
print(comparacion)

### 7.2 Análisis de Resultados

Veamos qué tan bien funciona nuestro modelo:

In [None]:
# Reporte detallado de clasificación
print("Reporte detallado del modelo:")
print(classification_report(y_test, y_pred))

# Matriz de confusión visual
from sklearn.metrics import confusion_matrix

plt.figure(figsize=(10, 6))

# Subplot 1: Matriz de confusión
plt.subplot(1, 2, 1)
cm = confusion_matrix(y_test, y_pred)
sns.heatmap(cm, annot=True, fmt='d', cmap='Blues', 
            xticklabels=modelo.classes_, 
            yticklabels=modelo.classes_)
plt.title('Matriz de Confusión')
plt.ylabel('Realidad')
plt.xlabel('Predicción')

# Subplot 2: Importancia de variables (coeficientes)
plt.subplot(1, 2, 2)
# Para regresión logística multinomial, promediamos los coeficientes
coef_promedio = np.mean(np.abs(modelo.coef_), axis=0)
importancia = pd.DataFrame({
    'Variable': features,
    'Importancia': coef_promedio
}).sort_values('Importancia', ascending=True)

plt.barh(importancia['Variable'], importancia['Importancia'])
plt.title('Importancia de Variables')
plt.xlabel('Importancia (valor absoluto)')

plt.tight_layout()
plt.show()

print("\nInterpretación:")
print("- La matriz muestra dónde el modelo acierta y falla")
print("- Las variables más importantes tienen mayor influencia")
print("- Un modelo perfecto tendría solo valores en la diagonal")

## 8. Hacer Predicciones con Nuevos Datos

### 8.1 Ejemplo Práctico

Ahora usemos nuestro modelo para predecir un partido específico:

In [None]:
# Crear un partido hipotético para predecir
partido_nuevo = pd.DataFrame({
    'goles_local_ultimos_5': [12],      # Buen ataque reciente
    'goles_visitante_ultimos_5': [6],   # Ataque más débil
    'victorias_local_ultimos_5': [4],   # Buena racha
    'victorias_visitante_ultimos_5': [2], # Racha regular
    'posicion_liga_local': [3],         # Tercer lugar
    'posicion_liga_visitante': [12],    # Doceavo lugar
    'es_derbi': [0]                     # No es derbi
})

# Hacer la predicción
prediccion = modelo.predict(partido_nuevo)[0]
probabilidades = modelo.predict_proba(partido_nuevo)[0]

print("PREDICCIÓN PARA NUEVO PARTIDO:")
print("=" * 40)
print("Características del partido:")
print(f"- Equipo local: 3° lugar, 12 goles y 4 victorias en últimos 5 partidos")
print(f"- Equipo visitante: 12° lugar, 6 goles y 2 victorias en últimos 5 partidos")
print(f"- Tipo: Partido regular (no derbi)")

print(f"\nPREDICCIÓN: {prediccion}")

print("\nPROBABILIDADES:")
for clase, prob in zip(modelo.classes_, probabilidades):
    print(f"- {clase}: {prob:.1%}")

# Interpretación
prob_max = max(probabilidades)
if prob_max > 0.6:
    confianza = "Alta"
elif prob_max > 0.4:
    confianza = "Media"
else:
    confianza = "Baja"

print(f"\nConfianza en la predicción: {confianza}")
print(f"Probabilidad más alta: {prob_max:.1%}")

## 9. Resumen y Próximos Pasos

### 9.1 Lo que Aprendimos Hoy

✅ **Conceptos de Modelado Predictivo**:
- Qué es y para qué sirve en el fútbol
- Diferencia entre clasificación y regresión
- Importancia de las variables predictivas

✅ **Preparación de Datos**:
- Selección de variables relevantes
- División en entrenamiento y prueba
- Creación de datasets sintéticos

✅ **Primer Modelo**:
- Regresión logística para clasificación
- Evaluación con matriz de confusión
- Interpretación de resultados

✅ **Aplicación Práctica**:
- Predicciones en partidos nuevos
- Probabilidades e interpretación
- Análisis de confianza

### 9.2 Conceptos Clave para Recordar

🎯 **Variables Predictivas**: Los datos del pasado que usamos para predecir

🎯 **Variable Objetivo**: Lo que queremos predecir

🎯 **Entrenamiento vs Prueba**: Nunca evaluar con los mismos datos de entrenamiento

🎯 **Precisión**: Porcentaje de predicciones correctas

🎯 **Probabilidades**: El modelo nos da confianza, no certeza absoluta

### 9.3 ¿Qué Viene Después?

En las siguientes semanas mejoraremos nuestro modelo:
- **Semana 12**: Modelos más sofisticados (Random Forest, SVM)
- **Semana 13**: Métricas avanzadas y evaluación detallada
- **Semana 14**: Variables y KPIs más complejos
- **Semana 15**: Proyecto final integrado

### 9.4 Ejercicio para Practicar

**Tarea**: Modifica las características del partido en la celda anterior y observa cómo cambian las predicciones. 

**Preguntas para explorar**:
1. ¿Qué pasa si ambos equipos están en posiciones similares?
2. ¿Cómo afecta que sea un derbi?
3. ¿Qué variable parece más importante?

¡Excelente trabajo! Has dado el primer paso en el modelado predictivo para fútbol. 🏆⚽