# Projet

## Chargement des données

In [2]:
import pandas as pd

# Charger les données à partir du fichier CSV
data = pd.read_csv("dataset/premierleague/season-1819.csv")
data_ligue1_1718 = pd.read_csv("dataset/ligue1/season-1718.csv")
data_premierleague_1819 = pd.read_csv("dataset/premierleague/season-1819.csv")

# Afficher les premières lignes pour vérifier que les données sont chargées correctement
print(data.head())
data = pd.concat([data, data_ligue1_1718, data_premierleague_1819], ignore_index=True)


       Date      HomeTeam        AwayTeam  FTHG  FTAG FTR  HTHG  HTAG HTR  \
0  10/08/18    Man United       Leicester     2     1   H     1     0   H   
1  11/08/18   Bournemouth         Cardiff     2     0   H     1     0   H   
2  11/08/18        Fulham  Crystal Palace     0     2   A     0     1   A   
3  11/08/18  Huddersfield         Chelsea     0     3   A     0     2   A   
4  11/08/18     Newcastle       Tottenham     1     2   A     1     2   A   

      Referee  ...  HST  AST  HF  AF  HC  AC  HY  AY  HR  AR  
0  A Marriner  ...    6    4  11   8   2   5   2   1   0   0  
1    K Friend  ...    4    1  11   9   7   4   1   1   0   0  
2      M Dean  ...    6    9   9  11   5   5   1   2   0   0  
3  C Kavanagh  ...    1    4   9   8   2   5   2   1   0   0  
4  M Atkinson  ...    2    5  11  12   3   5   2   2   0   0  

[5 rows x 22 columns]


## Transformation en series de score

In [3]:
# Créer une nouvelle colonne pour le score final du match
data['Final_Score'] = data['FTHG'].astype(str) + '-' + data['FTAG'].astype(str)

# Créer une nouvelle colonne pour le score à la mi-temps du match
data['Half_Time_Score'] = data['HTHG'].astype(str) + '-' + data['HTAG'].astype(str)

# Afficher les premières lignes pour vérifier les transformations
print(data[['Half_Time_Score', 'Final_Score' ]].head())
print(data[['Half_Time_Score', 'Final_Score']].tail())



  Half_Time_Score Final_Score
0             1-0         2-1
1             1-0         2-0
2             0-1         0-2
3             0-2         0-3
4             1-2         1-2
    Half_Time_Score Final_Score
795             1-1         1-2
796             0-0         0-2
797             0-0         2-2
798             0-0         0-2
799             1-0         2-1


## Modèle Markov

### Proba Transition

In [4]:
from collections import defaultdict

# Fonction pour calculer les probabilités de transition à partir des séries de score
def calculer_probabilites_transition(series_de_scores):
    transitions = defaultdict(lambda: defaultdict(int))
    for score in series_de_scores:
        scores = score.split('-')
        for i in range(len(scores) - 1):
            transitions[int(scores[i])][int(scores[i + 1])] += 1
    
    # Calculer les probabilités de transition
    probabilites_transition = defaultdict(dict)
    for score, transitions_suivantes in transitions.items():
        total_transitions = sum(transitions_suivantes.values())
        for suivant, count in transitions_suivantes.items():
            probabilites_transition[score][suivant] = count / total_transitions
    
    return probabilites_transition

# Calculer les probabilités de transition pour le score final du match
probabilites_transition_final = calculer_probabilites_transition(data['Final_Score'])

# Calculer les probabilités de transition pour le score à la mi-temps du match
probabilites_transition_mi_temps = calculer_probabilites_transition(data['Half_Time_Score'])

# Afficher les probabilités de transition
print("Probabilités de transition pour le score final du match:")
print(probabilites_transition_final)
print("\nProbabilités de transition pour le score à la mi-temps du match:")
print(probabilites_transition_mi_temps)


Probabilités de transition pour le score final du match:
defaultdict(<class 'dict'>, {2: {1: 0.36666666666666664, 0: 0.32222222222222224, 2: 0.23333333333333334, 3: 0.05, 6: 0.011111111111111112, 4: 0.005555555555555556, 5: 0.011111111111111112}, 0: {2: 0.25, 3: 0.11274509803921569, 0: 0.24019607843137256, 1: 0.30392156862745096, 5: 0.03431372549019608, 4: 0.058823529411764705}, 1: {2: 0.26141078838174275, 3: 0.08298755186721991, 0: 0.2821576763485477, 1: 0.3360995850622407, 5: 0.029045643153526972, 4: 0.008298755186721992}, 4: {0: 0.34285714285714286, 2: 0.3142857142857143, 1: 0.34285714285714286}, 3: {2: 0.22033898305084745, 1: 0.4491525423728814, 0: 0.2627118644067797, 3: 0.06779661016949153}, 6: {1: 0.5555555555555556, 2: 0.2222222222222222, 0: 0.1111111111111111, 3: 0.1111111111111111}, 5: {0: 0.6363636363636364, 1: 0.2727272727272727, 2: 0.09090909090909091}, 8: {0: 1.0}, 7: {1: 1.0}})

Probabilités de transition pour le score à la mi-temps du match:
defaultdict(<class 'dict'>, {

### Matrice de transition

In [5]:
import numpy as np

# Fonction pour construire la matrice de transition à partir des probabilités de transition
def construire_matrice_transition(probabilites_transition):
    # Nombre total d'états (scores)
    nb_etats = len(probabilites_transition)
    
    # Initialisation de la matrice de transition avec des zéros
    matrice_transition = np.zeros((nb_etats, nb_etats))
    
    # Remplissage de la matrice de transition avec les probabilités de transition
    for i in range(nb_etats):
        for j in range(nb_etats):
            matrice_transition[i][j] = probabilites_transition[i].get(j, 0)
    
    return matrice_transition

# Construire la matrice de transition pour le score final du match
matrice_transition_final = construire_matrice_transition(probabilites_transition_final)

# Construire la matrice de transition pour le score à la mi-temps du match
matrice_transition_mi_temps = construire_matrice_transition(probabilites_transition_mi_temps)

# Afficher les matrices de transition
print("Matrice de transition pour le score final du match :")
print(matrice_transition_final)
print("\nMatrice de transition pour le score à la mi-temps du match :")
print(matrice_transition_mi_temps)


Matrice de transition pour le score final du match :
[[0.24019608 0.30392157 0.25       0.1127451  0.05882353 0.03431373
  0.         0.         0.        ]
 [0.28215768 0.33609959 0.26141079 0.08298755 0.00829876 0.02904564
  0.         0.         0.        ]
 [0.32222222 0.36666667 0.23333333 0.05       0.00555556 0.01111111
  0.01111111 0.         0.        ]
 [0.26271186 0.44915254 0.22033898 0.06779661 0.         0.
  0.         0.         0.        ]
 [0.34285714 0.34285714 0.31428571 0.         0.         0.
  0.         0.         0.        ]
 [0.63636364 0.27272727 0.09090909 0.         0.         0.
  0.         0.         0.        ]
 [0.11111111 0.55555556 0.22222222 0.11111111 0.         0.
  0.         0.         0.        ]
 [0.         1.         0.         0.         0.         0.
  0.         0.         0.        ]
 [1.         0.         0.         0.         0.         0.
  0.         0.         0.        ]]

Matrice de transition pour le score à la mi-temps du matc

## Prediction

In [6]:
from sklearn.model_selection import train_test_split

# Diviser les données en ensembles d'entraînement et de test
train_data, test_data = train_test_split(data, test_size=0.2, random_state=42)


In [7]:
import numpy as np

# Fonction pour prédire le prochain état en utilisant la chaîne de Markov
def predire_prochain_etat(probabilites_transition, etat_actuel):
    # Sélectionner les probabilités de transition pour l'état actuel
    probabilites_suivantes = probabilites_transition[etat_actuel]
    
    # S'il n'y a pas de probabilités de transition pour cet état, retourner un état aléatoire
    if not probabilites_suivantes:
        return np.random.choice(list(probabilites_transition.keys()))
    
    # Choisir le prochain état en fonction des probabilités de transition
    etats_possibles = list(probabilites_suivantes.keys())
    probabilites = list(probabilites_suivantes.values())
    prochain_etat = np.random.choice(etats_possibles, p=probabilites)
    
    return prochain_etat

# Fonction pour prédire les scores futurs pour une série de scores donnée
def predire_scores(probabilites_transition, series_de_scores):
    predictions = []
    for serie_de_scores in series_de_scores:
        prediction = [serie_de_scores[0]]  # Le premier score est le score initial
        for i in range(len(serie_de_scores) - 1):
            prochain_etat = predire_prochain_etat(probabilites_transition, serie_de_scores[i])
            prediction.append(prochain_etat)
        predictions.append(prediction)
    return predictions

# Prédire les scores futurs pour l'ensemble d'entraînement
predictions_train = predire_scores(probabilites_transition_final, train_data)

# Prédire les scores futurs pour l'ensemble de test
predictions_test = predire_scores(probabilites_transition_final, test_data)



In [8]:
# Exemple de données de score
exemple_serie_scores = [[0, 1, 1, 2, 2], [1, 1, 2, 2, 3]]

# Appel de la fonction pour prédire les scores
predictions = predire_scores(probabilites_transition_final, exemple_serie_scores)

# Affichage des prédictions et des séries de scores originales pour comparaison
for i, prediction in enumerate(predictions):
    print("Série de scores originale :", exemple_serie_scores[i])
    print("Prédictions de la chaîne de Markov :", prediction)
    print()


Série de scores originale : [0, 1, 1, 2, 2]
Prédictions de la chaîne de Markov : [0, 0, 0, 0, 0]

Série de scores originale : [1, 1, 2, 2, 3]
Prédictions de la chaîne de Markov : [1, 0, 2, 0, 2]

