## Cadenas de Markov 

Para diseñar un modelo de aprendizaje por refuerzo utilizando Cadenas de Markov para predecir el ganador de la Champions League, primero necesitamos entender y procesar los datos que has subido. Vamos a comenzar cargando y explorando tus datos para ver cómo están estructurados y qué tipo de información contienen

In [9]:
import pandas as pd

# Cargar el archivo CSV para revisar su contenido
data_path = '../../data/partidos_limpio.csv'
data = pd.read_csv(data_path)

# Mostrar las primeras filas del dataframe
data.head()

Unnamed: 0,Season,Round,Day,Date,Home,Score,Away,Venue,Referee
0,2022-2023,Round of 16,Tue,2023-02-14,Milan,1-0,Tottenham,Stadio Giuseppe Meazza,Sandro Schärer
1,2022-2023,Round of 16,Tue,2023-02-14,Paris S-G,0-1,Bayern Munich,Parc des Princes,Michael Oliver
2,2022-2023,Round of 16,Wed,2023-02-15,Club Brugge,0-2,Benfica,Jan Breydelstadion,Davide Massa
3,2022-2023,Round of 16,Wed,2023-02-15,Dortmund,1-0,Chelsea,Signal Iduna Park,Jesús Gil
4,2022-2023,Round of 16,Tue,2023-02-21,Liverpool,2-5,Real Madrid,Anfield,István Kovács


Para un modelo básico de Cadena de Markov, podríamos definir los estados como los posibles resultados de un partido (victoria del equipo local, empate, victoria del equipo visitante) y las transiciones basadas en la probabilidad de pasar de un resultado a otro en partidos consecutivos. Sin embargo, un enfoque más complejo y potencialmente más útil podría considerar aspectos como la fuerza relativa de los equipos, las ubicaciones de los partidos (casa o fuera), entre otros.

#### 1. Paso 1

 Primero, necesitamos extraer el resultado de cada partido en términos de victoria del equipo local, empate o victoria del equipo visitante. Esto implica:

* Separar los goles de cada equipo del campo 'Score'.
* Comparar los goles para determinar el resultado del partido (victoria local, empate, victoria visitante).

In [10]:
# Separar los goles de cada equipo
data[['Home_goals', 'Away_goals']] = data['Score'].str.split('-', expand=True).astype(int)

# Determinar el resultado del partido: 0 = empate, 1 = victoria local, 2 = victoria visitante
data['Result'] = (data['Home_goals'] > data['Away_goals']).astype(int) + (data['Away_goals'] > data['Home_goals']).astype(int) * 2

# Revisar los datos procesados
data[['Home', 'Away', 'Home_goals', 'Away_goals', 'Result']].head()

Unnamed: 0,Home,Away,Home_goals,Away_goals,Result
0,Milan,Tottenham,1,0,1
1,Paris S-G,Bayern Munich,0,1,2
2,Club Brugge,Benfica,0,2,2
3,Dortmund,Chelsea,1,0,1
4,Liverpool,Real Madrid,2,5,2


Una vez hecho esto, podremos utilizar estos resultados para definir los estados de nuestra Cadena de Markov. Vamos a procesar estos datos ahora.

He procesado los resultados de los partidos para determinar si el equipo local ganó (representado por 1), si el partido resultó en empate (representado por 0), o si ganó el equipo visitante (representado por 2). Con esta información, ya podemos avanzar hacia la definición y construcción de la matriz de transición para la Cadena de Markov.

#### 2. Definición de la matriz de transición

Para cada estado (victoria local, empate, victoria visitante), necesitamos calcular la probabilidad de transición hacia cada uno de los otros estados. Esto implica:

* Contar cuántas veces cada resultado (estado) sigue a otro en partidos consecutivos.
* Dividir cada conteo por el total de partidos que terminaron en el estado inicial para obtener la probabilidad de transición.

In [11]:
import numpy as np

# Inicializar la matriz de transición
transition_matrix = np.zeros((3, 3))

# Calcular las transiciones de estados
for i in range(3):
    # Filtrar partidos donde el resultado anterior es 'i'
    subset = data[data['Result'].shift(1) == i]
    
    # Contar transiciones hacia otros estados
    for j in range(3):
        transition_matrix[i, j] = (subset['Result'] == j).sum()

# Normalizar las filas para obtener probabilidades
transition_matrix = transition_matrix / transition_matrix.sum(axis=1, keepdims=True)

transition_matrix

array([[0.224     , 0.512     , 0.264     ],
       [0.20212766, 0.5177305 , 0.28014184],
       [0.24096386, 0.42771084, 0.3313253 ]])

He calculado la matriz de transición para nuestro modelo de Cadena de Markov. Cada fila representa el estado inicial (victoria local, empate, victoria visitante), y cada columna representa el estado siguiente. Los valores en la matriz son las probabilidades de transición entre estos estados:

* La primera fila corresponde a los partidos que terminaron con una victoria local. Las probabilidades de que el siguiente partido termine en victoria local, empate, y victoria visitante son aproximadamente 22.4%, 51.2%, y 26.4% respectivamente.

* La segunda fila para los empates muestra probabilidades de 20.2% para victoria local, 51.8% para otro empate, y 28.0% para victoria visitante en el siguiente partido.

* La tercera fila, para victorias visitantes, tiene probabilidades de 24.1% para victoria local, 42.8% para empate, y 33.1% para otra victoria visitante en el partido siguiente.

#### 3. Simulación

Una vez que tenemos la matriz de transición definida, vamos a utilizar esta y los datos que tenemos de esta temporada para determinar el ganador de la Champions League 2023-2024

In [12]:
# Cargar el archivo CSV de la temporada 2023-2024 para revisar su contenido
data_path_new = '../../data/partidos_2023-2024_limpio.csv'
data_new = pd.read_csv(data_path_new)

# Mostrar las primeras filas del nuevo dataframe limpio
data_new.head()

Unnamed: 0,Season,Round,Day,Date,Home,Score,Away,Venue,Referee
0,2023-2024,Round of 16,Tue,2024-02-13,RB Leipzig,0-1,Real Madrid,Red Bull Arena,Irfan Peljto
1,2023-2024,Round of 16,Tue,2024-02-13,FC Copenhagen,1-3,Manchester City,Parken,José Sánchez
2,2023-2024,Round of 16,Wed,2024-02-14,Paris S-G,2-0,Real Sociedad,Parc des Princes,Marco Guida
3,2023-2024,Round of 16,Wed,2024-02-14,Lazio,1-0,Bayern Munich,Stadio Olimpico,François Letexier
4,2023-2024,Round of 16,Tue,2024-02-20,PSV Eindhoven,1-1,Dortmund,Philips Stadion,Srđan Jovanović


In [13]:
# Filtrar los datos para excluir partidos sin resultados registrados (donde 'Score' es NaN)
played_data = data_new.dropna(subset=['Score'])

# Extraer los goles de cada equipo de los partidos jugados
played_data['Home_goals'] = played_data['Score'].str.extract('(\d+)-')[0].astype(int)
played_data['Away_goals'] = played_data['Score'].str.extract('-(\d+)')[0].astype(int)

# Determinar el resultado del partido: 0 = empate, 1 = victoria local, 2 = victoria visitante
played_data['Result'] = (played_data['Home_goals'] > played_data['Away_goals']).astype(int) + \
                        (played_data['Away_goals'] > played_data['Home_goals']).astype(int) * 2

# Identificar partidos sin resultados para simulación
unplayed_matches = data_new[data_new['Score'].isna()]

played_data[['Home', 'Away', 'Home_goals', 'Away_goals', 'Result']], unplayed_matches[['Home', 'Away']]


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  played_data['Home_goals'] = played_data['Score'].str.extract('(\d+)-')[0].astype(int)
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  played_data['Away_goals'] = played_data['Score'].str.extract('-(\d+)')[0].astype(int)
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  played_data['Result'] = (played_d

(               Home             Away  Home_goals  Away_goals  Result
 0        RB Leipzig      Real Madrid           0           1       2
 1     FC Copenhagen  Manchester City           1           3       2
 2         Paris S-G    Real Sociedad           2           0       1
 3             Lazio    Bayern Munich           1           0       1
 4     PSV Eindhoven         Dortmund           1           1       0
 5             Inter  Atlético Madrid           1           0       1
 6             Porto          Arsenal           1           0       1
 7            Napoli        Barcelona           1           1       0
 8     Real Sociedad        Paris S-G           1           2       2
 9     Bayern Munich            Lazio           3           0       1
 10  Manchester City    FC Copenhagen           3           1       1
 11      Real Madrid       RB Leipzig           1           1       0
 12          Arsenal            Porto           1           0       1
 13        Barcelona

Una vez separamos tambien el score de los datos de esta temporada comenzamos con la simulacion

In [14]:
import numpy as np

# Función para simular un resultado de partido basado en la matriz de transición
def simulate_match(last_result):
    # Elegir el próximo resultado basado en las probabilidades de la matriz de transición
    return np.random.choice([0, 1, 2], p=transition_matrix[last_result])

# Aplicar la simulación para cada partido no jugado
# Asignar el último resultado conocido de cada equipo involucrado y simular el resultado
unplayed_matches['Simulated_Result'] = unplayed_matches.apply(lambda row: simulate_match(played_data[played_data['Home'] == row['Home']]['Result'].iloc[-1]
    if played_data[played_data['Home'] == row['Home']]['Result'].any()
    else played_data[played_data['Away'] == row['Home']]['Result'].iloc[-1]
    if played_data[played_data['Away'] == row['Home']]['Result'].any()
    else 1), axis=1)  # Default to 1 (home win) if no previous matches found

unplayed_matches[['Home', 'Away', 'Simulated_Result']]


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  unplayed_matches['Simulated_Result'] = unplayed_matches.apply(lambda row: simulate_match(played_data[played_data['Home'] == row['Home']]['Result'].iloc[-1]


Unnamed: 0,Home,Away,Simulated_Result
24,Bayern Munich,Real Madrid,1
25,Dortmund,Paris S-G,2
26,Paris S-G,Dortmund,1
27,Real Madrid,Bayern Munich,1


Para simular hasta la final y determinar el ganador de la Champions League, necesitaremos continuar con las simulaciones de partidos sucesivos basándonos en los resultados de las simulaciones actuales y los partidos ya jugados. Esto implicará simular las etapas de cuartos de final, semifinales y la final.

Voy a proceder a simular estos partidos sucesivos, asumiendo una estructura de torneo simple (sin considerar sorteo de emparejamientos), donde los ganadores de cada partido enfrentan al siguiente ganador en la lista. Después de simular todos los partidos, podremos determinar el ganador final.

In [15]:
# Supongamos que tenemos la siguiente secuencia de partidos para simplificar la simulación
# Los índices indican los equipos que ya hemos simulado y que avanzan a la siguiente ronda
simulated_matches = unplayed_matches[['Home', 'Away', 'Simulated_Result']].copy()

# Supongamos que estos equipos avanzan de acuerdo a los resultados simulados
def get_winner(row):
    if row['Simulated_Result'] == 1:  # Victoria local
        return row['Home']
    elif row['Simulated_Result'] == 2:  # Victoria visitante
        return row['Away']
    else:  # Empate, asumiremos ganador local para avanzar
        return row['Home']

# Determinar los equipos que avanzan a la siguiente ronda
simulated_matches['Winner'] = simulated_matches.apply(get_winner, axis=1)

# Simulación de cuartos de final (tomaremos los primeros cuatro ganadores para esta demostración)
quarter_finals = simulated_matches['Winner'].iloc[:4].values

# Simulación de semifinales
semi_finals = [simulate_match(1) for _ in range(2)]  # Simulamos 2 partidos, asumiendo resultado local

# Simulación de la final
final_winner = simulate_match(semi_finals[0])  # Simulamos la final, asumiendo resultado basado en primera semi-final

# Presentar los equipos en cuartos de final, semifinales y el ganador de la final
quarter_finals, semi_finals, "Final Winner: " + ("Home" if final_winner == 1 else "Away" if final_winner == 2 else "Draw")


(array(['Bayern Munich', 'Paris S-G', 'Paris S-G', 'Real Madrid'],
       dtype=object),
 [2, 1],
 'Final Winner: Home')

In [16]:
# Identificar el equipo visitante en la última simulación realizada como el ganador final
# Considerando la segunda semifinal, donde la victoria fue para el equipo visitante
final_winner_team = simulated_matches['Away'].iloc[semi_finals[1]] if semi_finals[1] == 2 else simulated_matches['Home'].iloc[semi_finals[1]]
final_winner_team


'Dortmund'