In [None]:
#On importe tous les modules nécessaires
import pandas as pd
import requests
from bs4 import BeautifulSoup
import time
import numpy as np
import ace_tools_open as tools
from huggingface_hub import InferenceClient
import time
from tqdm import tqdm
import re
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from xgboost import XGBClassifier
import optuna
from sklearn.metrics import accuracy_score

## Récupération des données

In [None]:
#annee
year=2016
#Le code met environ 10 minutes pour s'exécuter, les fichiers peuvent être téléchargés directement sur le dépôt GitHub
for i in range(9):
    time.sleep(50) # On attend 50 secondes pour éviter de surcharger le serveur
    date = f'{year}-{year+1}'
    year +=1
    # URL de la page contenant le tableau
    url = f"https://fbref.com/fr/comps/9/{date}/calendrier/Calendrier-et-resultats-{date}-Premier-League"



    response = requests.get(url)
    response.raise_for_status()

    # Analyse HTML de la page
    soup = BeautifulSoup(response.text, 'html.parser')

    # Recherche du tableau spécifique (généralement avec une classe ou un ID unique)
    table = soup.find('table', {'id': f'sched_{date}_9_1'})  # a modifier selon l'id que l'on veut 
    time.sleep(10)

    # Vérification que le tableau est trouvé
    if table:
        # Conversion du tableau HTML en DataFrame pandas
        df = pd.read_html(str(table))[0]
    
        # Enregistrement du tableau au format CSV
        df.to_csv(f'Calendrier_et_resultats_{date}_Premier_League.csv', index=False, encoding='utf-8')
        print("Le tableau a été sauvegardé au format CSV avec succès !")
    else:
        print("Le tableau n'a pas été trouvé sur la page.")


In [None]:
#On ajoute les données de chaque saison dans un seul fichier csv
df = pd.read_csv("Calendrier_et_resultats_2016-2017_Premier_League.csv")

for k in range(2017,2025):
    df1 = pd.read_csv(f"Calendrier_et_resultats_{k}-{k+1}_Premier_League.csv")
    df = pd.concat([df,df1])

df.to_csv("Calendrier_et_resultats_Premier_League.csv", index=False)
df = pd.read_csv("Calendrier_et_resultats_Premier_League.csv")
#On supprime les lignes qui ne contiennent pas de données
list_to_del = []
for i in range(len(df)):
    if np.isnan(df.loc[i,"Sem."]):
        list_to_del.append(i)

#On supprime les colonnes inutiles ou dures à traiter
df.drop(list_to_del, inplace=True)
df.drop(columns=["Sem.","Jour", "Rapport de match","Heure","Arbitre",'Notes','Affluence','xG','xG.1','Tribune'], axis =1,inplace=True)

df.set_index("Date", inplace=True)
df.index = pd.to_datetime(df.index)

#On enregistre le fichier
df.to_csv("Calendrier_et_resultats_Premier_League.csv", index=True)


In [None]:
#On découpe le fichier en deux, la saison en cours avec les matchs non joués et les saisons avec les matchs joués
df = pd.read_csv("Calendrier_et_resultats_Premier_League.csv")

df2 = df.loc[:3209]

df3 = df.loc[3210:]

df3.drop(columns=["Score"], inplace=True)
df2.to_csv("Calendrier_et_resultats_Premier_League_clean.csv", index=False)
df3.to_csv("Calendrier_et_resultats_Premier_League_test.csv", index=False)


In [13]:
#On ajoute la fonction qui permet de déterminer le vainqueur du match
df2 = pd.read_csv("Calendrier_et_resultats_Premier_League_clean.csv")
df2["Score"] = df2["Score"].fillna("0–0").astype(str)
df2.fillna(0, inplace=True)

df2["winner"] = df2["Score"].str.split("–").apply(lambda x: 1 if x[0] > x[1] else ( -1 if x[0] < x[1] else 0))
df2.drop(columns=["Score"], axis=1, inplace=True)

df2.to_csv("Calendrier_et_resultats_Premier_League_clean.csv", index=False)


In [None]:
#On récupère ici les valeurs des équipes et leur age moyen pour chaque saison.
# Années à scraper
start_year = 2016
end_year = 2024

# URL de base de Transfermarkt
BASE_URL = "https://www.transfermarkt.fr/premier-league/startseite/wettbewerb/GB1/plus/?saison_id={year}"

# Initialisation d'une liste pour stocker les données
data = []

# Boucle sur les années
for year in range(start_year, end_year + 1):
    print(f"Scraping des données pour la saison {year}...")
    url = BASE_URL.format(year=year)
    
    try:
        response = requests.get(url, headers={"User-Agent": "Mozilla/5.0"})
        response.raise_for_status()
    except requests.exceptions.RequestException as e:
        print(f"Erreur avec la saison {year}: {e}")
        continue
    
    # Parse le contenu HTML avec BeautifulSoup
    soup = BeautifulSoup(response.content, "html.parser")
    
    # Trouver le tableau principal des équipes
    table = soup.find("table", {"class": "items"})
    time.sleep(5)  # Pause pour éviter le blocage par le serveur
    
    if table:
        rows = table.find_all("tr", {"class": ["odd", "even"]})
        
        for row in rows:
            columns = row.find_all("td")
            if len(columns) > 5:
                team_name = columns[1].text.strip()
                avg_age = columns[4].text.strip()
                market_value = columns[5].text.strip()
                
                data.append({
                    "Season": year,
                    "Team": team_name,
                    "Market Value": market_value,
                    "Average Age": avg_age
                })
        print(f"Données de la saison {year} collectées avec succès.")
    else:
        print(f"Pas de tableau trouvé pour la saison {year}.")

# Conversion des données en DataFrame
df = pd.DataFrame(data)

# Sauvegarde du DataFrame en CSV
df.to_csv("Premier_League_Team_Data_2016_2024.csv", index=False, encoding='utf-8')


## Visualisation des données

In [None]:
#On affiche d'abord le nombre de victoire à domicile de chaque club de manière intemporelle
df = pd.read_csv("Calendrier_et_resultats_Premier_League_clean.csv", index_col=['Date'])
df.index = pd.to_datetime(df.index)

plt.figure(figsize=(15, 10))
sns.countplot(data=df, x='Domicile', order=df['Domicile'].value_counts().index)

In [None]:
#Puis de manière temporelle, à domicile
df2 =df.copy()
clubs = list(set(df2["Domicile"]))

for club in clubs :
    df_to_plot = df2[df2["Domicile"] == club]
    plt.figure(figsize=(10, 6))
    sns.scatterplot(data=df_to_plot, x=df_to_plot.index, y="winner").set_title(f'Winner for {club} at Domicile')
    plt.show()

In [None]:
#Et à l'extérieur
df2 =df.copy()

clubs = list(set(df2["Domicile"]))

for club in clubs :
    df_to_plot = df2[df2["Extérieur"] == club]
    plt.figure(figsize=(10, 6))
    sns.scatterplot(data=df_to_plot, x=df_to_plot.index, y="winner").set_title(f'Winner for {club} at Extérieur')
    plt.show()

In [None]:
#On calcule ensuite l'espérance de chaque club
clubs = list(set(df2["Domicile"]))

for club in clubs :
    df_dom = df2[df2["Domicile"] == club]
    df_ext = df2[df2["Extérieur"] == club]
    esp_dom = df_dom["winner"].value_counts(normalize=True)
    esp_ext = df_ext["winner"].value_counts(normalize=True)
    if 1 not in esp_dom.index:
        esp_dom[1] = 0
    if 1 not in esp_ext.index:
        esp_dom[1] = 0
    print(f'Pour le club {club}, il y a {esp_dom[1]*100:.2f}% de victoire à domicile, {esp_dom[-1]*100:.2f}% de défaite à domicile et {esp_dom[0]*100:.2f}% de match nul à domicile')
    print(f'Pour le club {club}, il y a {esp_ext[1]*100:.2f}% de victoire à l extérieur, {esp_ext[-1]*100:.2f}% de défaite à l extérieur et {esp_ext[0]*100:.2f}% de match nul à l exterieur ')


In [None]:
#On affiche ensuite la répartition des victoires à domicile par saison
data = pd.read_csv('Calendrier_et_resultats_Premier_League_clean.csv')

# On convertit la colonne Date en datetime
data['Date'] = pd.to_datetime(data['Date'], format='%Y-%m-%d')

# On définit une saison qui commence en août et se termine en mai
data['Season'] = data['Date'].apply(lambda x: f"{x.year}-{x.year + 1}" if x.month >= 8 else f"{x.year - 1}-{x.year}")

home_wins = data[data['winner'] == 1]

# On groupe par Saison et club pour compter le nombre de victoires à domicile
home_wins_count = home_wins.groupby(['Season', 'Domicile']).size().reset_index(name='Home Wins')

tools.display_dataframe_to_user(name="Premier League Home Wins by Season and Club", dataframe=home_wins_count)

pivot_table = home_wins_count.pivot(index='Season', columns='Domicile', values='Home Wins')

# Plotting
pivot_table.plot(kind='bar', stacked=True, figsize=(15, 7))
plt.title("Home Wins by Club and Season in the Premier League")
plt.xlabel("Season")
plt.ylabel("Number of Home Wins")
plt.legend(title="Club", bbox_to_anchor=(1.05, 1), loc='upper left')
plt.tight_layout()
plt.show()

## Enrichissement de nos données

In [None]:
#On charge nos données 
df = pd.read_csv("Calendrier_et_resultats_Premier_League_clean.csv", index_col=['Date'])
df.index = pd.to_datetime(df.index)


In [None]:
# On ajoute la colonne de la saison jouée.
df['Season'] = df.index.to_period('A-Aug')

In [None]:
#On calcule les points de chaque équipe pour chaque match

data = df.copy()
team_points = {}

# On initialise les colonnes de points cumulés
cumul_points_dom = []
cumul_points_ext = []
season = df['Season'][0]
# On itère sur chaque match
for _, row in data.iterrows():
    home_team = row['Domicile']
    away_team = row['Extérieur']
    winner = row['winner']
    current_season = row['Season']
    
    #On reset si la saison change
    if current_season != season:
        team_points = {}
        season = current_season
    
    home_points = team_points.get(home_team, 0)
    away_points = team_points.get(away_team, 0)
    # On actualise selon le résultat du match
    if winner == 1:  # Home team wins
        team_points[home_team] = home_points + 3
    elif winner == -1:  # Away team wins
        team_points[away_team] = away_points + 3
    elif winner == 0:  # Draw
        team_points[home_team] = home_points + 1
        team_points[away_team] = away_points + 1
    
    home_points = team_points.get(home_team, 0)
    away_points = team_points.get(away_team, 0)

    cumul_points_dom.append(home_points)
    cumul_points_ext.append(away_points)
    
    

# On ajoute les colonnes de points cumulés au dataframe
data['Cumul_Points_Dom'] = cumul_points_dom
data['Cumul_Points_Ext'] = cumul_points_ext

# Calcule performance differences
data['Diff_Cumul_Points'] = data['Cumul_Points_Dom'] - data['Cumul_Points_Ext']

# On affiche le dataframe
tools.display_dataframe_to_user(name="Corrected Cumulative Points Football Dataset", dataframe=data)


In [None]:
# On essaie de créer une tendance pour les équipes sur les 5derniers matchs
forme_dom = []
forme_ext = []

for i, row in data.iterrows():
    home_team = row['Domicile']
    away_team = row['Extérieur']
    
    # On récupère les 5 derniers matchs de chaque équipe
    last_5_home_matches = data[(data['Domicile'] == home_team) | (data['Extérieur'] == home_team)].loc[:i].tail(5)
    last_5_away_matches = data[(data['Domicile'] == away_team) | (data['Extérieur'] == away_team)].loc[:i].tail(5)
    
    # On calcule les points de forme pour chaque équipe
    home_form_points = 0
    for _, match in last_5_home_matches.iterrows():
        if match['Domicile'] == home_team:
            if match['winner'] == 1:
                home_form_points += 3
            elif match['winner'] == 0:
                home_form_points += 1
        elif match['Extérieur'] == home_team:
            if match['winner'] == -1:
                home_form_points += 3
            elif match['winner'] == 0:
                home_form_points += 1
    
    
    away_form_points = 0
    for _, match in last_5_away_matches.iterrows():
        if match['Domicile'] == away_team:
            if match['winner'] == 1:
                away_form_points += 3
            elif match['winner'] == 0:
                away_form_points += 1
        elif match['Extérieur'] == away_team:
            if match['winner'] == -1:
                away_form_points += 3
            elif match['winner'] == 0:
                away_form_points += 1
    
    forme_dom.append(home_form_points)
    forme_ext.append(away_form_points)

# On ajoute les colonnes de forme au dataframe
data['Forme_dom'] = forme_dom
data['Forme_ext'] = forme_ext

#On affiche le dataframe
tools.display_dataframe_to_user(name="Forme Points Football Dataset", dataframe=data)

In [None]:
#On va demander à Mistral IA son avis sur chaque match, et ensuite l'ajouter au dataframe

home_team = data['Domicile'].values
away_team = data['Extérieur'].values
season = data['Season'].values.astype(str)

Attention, la prochaine étape nécessite beaucoup de temps afin d'être réaliser (4 jours) à cause d'une limite de requêtes journalière.
Je vous invite donc à télécharger le document 

In [None]:
client = InferenceClient(api_key="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")
ai_opinion = []

for i in tqdm(range(0, len(home_team))):
    messages = [
        {
            "role": "user",
            "content": (
                f"You are a football analyst. Your goal is to predict the winner "
                f"of the following match. According to your analysis, give a score "
                f"between -1 and 1. -1 corresponds to a win for the away team, 0 corresponds "
                f"to a draw, and 1 corresponds to a win for the home team. "
                f"GIVE ONLY the score, NOTHING ELSE, no explanation. "
                f"The home team is {home_team[i]} and the away team is {away_team[i]}, "
                f"the season is {season[i]}."
            ),
        }
    ]
    
    # En mettant stream=False, on obtient directement la réponse complète sans itérer
    response = client.chat.completions.create(
        model="mistralai/Mistral-7B-Instruct-v0.3",
        messages=messages,
        max_tokens=500,
        stream=False,  # on désactive le streaming
    )
    
    # Le contenu textuel renvoyé par le modèle
    text_answer = response.choices[0].message["content"].strip()
    
    # Essayons de convertir directement en float
    try:
        score = float(text_answer)
    except ValueError:
        # Si le modèle ne renvoie pas un float direct, on peut en dernier recours
        # récupérer la 1ère occurrence d'un nombre avec re.findall,
        # ou éventuellement définir un score par défaut
        found = re.findall(r"[+-]?\d+(?:\.\d+)?", text_answer)
        score = float(found[0]) if found else float('nan')
    
    ai_opinion.append(score)

    time.sleep(1)

    #Attention il y a une requête de 1000 demandes par jour. Il faut le faire en 4 fois.

In [None]:
data['AI_Opinion'] = ai_opinion
data.to_csv("TRAIN_Premier_League.csv")

In [None]:
#On ajoute maintenant les données de l'age et de la valeur marchande
df1 = pd.read_csv('TRAIN_Calendrier_et_resultats_Premier_League.csv')
df2 = pd.read_csv('Premier_League_Team_Data_2016_2024.csv')

In [None]:
df2['Market Value'] = df2['Market Value'].replace('[mio. €]', '', regex=True)
df2['Market Value'] = df2['Market Value'].replace('[,]', '.', regex=True).astype(float)

In [None]:
df2['Team'] = df2['Team'].str.replace('FC ', '')
df2['Team'] = df2['Team'].str.replace(' FC', '')
df2['Team'] = df2['Team'].replace('ASunderland', 'Sunderland')
df2['Team'] = df2['Team'].replace('ABournemouth', 'Bournemouth')
df2['Team'] = df2['Team'].replace('ACrystal Palace', 'Crystal Palace')
df2['Team'] = df2['Team'].replace('AStoke City', 'Stoke City')
df2['Team'] = df2['Team'].replace('West Bromwich Albion', 'West Brom')
df2['Team'] = df2['Team'].replace('Tottenham Hotspur', 'Tottenham')
df2['Team'] = df2['Team'].replace('Manchester United', 'Manchester Utd')
df2['Team'] = df2['Team'].replace('West Ham United', 'West Ham')
df2['Team'] = df2['Team'].replace('Newcastle United', 'Newcastle Utd')
df2['Team'] = df2['Team'].replace('Brighton & Hove Albion', 'Brighton')
df2['Team'] = df2['Team'].replace('Huddersfield Town', 'Huddersfield')
df2['Team'] = df2['Team'].replace('Wolverhampton Wanderers', 'Wolves')
df2['Team'] = df2['Team'].replace('Sheffield United', 'Sheffield Utd')
df2['Team'] = df2['Team'].replace('Nottingham Forest', "Nott'ham Forest")

In [None]:
df2_dom = df2.copy()
df2_dom.rename(columns={
    'Team': 'Domicile',
    'Market Value': 'Domicile Market Value',
    'Average Age': 'Domicile Average Age'
}, inplace=True)


In [None]:
df_merged = df1.merge(df2_dom, how='left', on=['Domicile','Season'])


In [None]:
df2_ext = df2.copy()
df2_ext.rename(columns={
    'Team': 'Extérieur',
    'Market Value': 'Extérieur Market Value',
    'Average Age': 'Extérieur Average Age'
}, inplace=True)


In [None]:
df_final = df_merged.merge(df2_ext, how='left', on=['Extérieur','Season'])
df_final['Domicile Market Value'] = df_final['Domicile Market Value'].fillna(np.mean(df_final['Domicile Market Value']))
df_final['Extérieur Market Value'] = df_final['Extérieur Market Value'].fillna(np.mean(df_final['Extérieur Market Value']))
df_final['Domicile Average Age'] = df_final['Domicile Average Age'].fillna(np.mean(df_final['Domicile Average Age']))
df_final['Extérieur Average Age'] = df_final['Extérieur Average Age'].fillna(np.mean(df_final['Extérieur Average Age']))

In [None]:
df_final.to_csv('final.csv', index=False)

## Entraînement du modèle de ML

In [22]:
#Chargement des données
df = pd.read_csv("final.csv", index_col=['Date'])
df.index = pd.to_datetime(df.index)

In [23]:
#On applique un label_encoder sur nos colonnes "Domicile" et "Extérieur" (pas de one hot encoding car trop de colonnes)

clubs = list(set(df["Domicile"]))
id_club = {club: i for i, club in enumerate(clubs)}
df["Domicile"] = df["Domicile"].apply(lambda x: id_club[x])
df["Extérieur"] = df["Extérieur"].apply(lambda x: id_club[x])

In [24]:
    
# Charger les données
data = df.copy()  # Remplacez par votre dataframe

# Préparation des données
X = data.drop(columns=['winner']) 
y = data['winner']

# Encodage de la variable cible 
y = y.map({-1: 0, 0: 1, 1: 2})  

# Division des données en ensemble d'entraînement et de test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, shuffle=False) #shuffle = False pour respecter l'ordre chronologique

#On utilise un modèle XGBoost avec optuna afin de faire l'hyperparamétrage
def objective(trial):
    params = {
        'learning_rate': trial.suggest_loguniform('learning_rate', 0.01, 0.3),
        'max_depth': trial.suggest_int('max_depth', 3, 10),
        'n_estimators': trial.suggest_int('n_estimators', 50, 300),
        'subsample': trial.suggest_uniform('subsample', 0.5, 1.0),
        'colsample_bytree': trial.suggest_uniform('colsample_bytree', 0.5, 1.0),
        'gamma': trial.suggest_uniform('gamma', 0, 5),
        'min_child_weight': trial.suggest_int('min_child_weight', 1, 10),
    }

    model = XGBClassifier(eval_metric='mlogloss', **params)
    model.fit(X_train, y_train)
    y_pred = model.predict(X_test)
    return accuracy_score(y_test, y_pred)

study = optuna.create_study(direction='maximize')
study.optimize(objective, n_trials=150)

print("Best hyperparameters: ", study.best_params)
print("Best accuracy: ", study.best_value)


[I 2024-12-29 22:44:47,984] A new study created in memory with name: no-name-8920aa25-3788-4691-937c-e50e83663d9a
  'learning_rate': trial.suggest_loguniform('learning_rate', 0.01, 0.3),
  'subsample': trial.suggest_uniform('subsample', 0.5, 1.0),
  'colsample_bytree': trial.suggest_uniform('colsample_bytree', 0.5, 1.0),
  'gamma': trial.suggest_uniform('gamma', 0, 5),
[I 2024-12-29 22:44:48,253] Trial 0 finished with value: 0.660436137071651 and parameters: {'learning_rate': 0.29897406325577625, 'max_depth': 9, 'n_estimators': 144, 'subsample': 0.5130772371883248, 'colsample_bytree': 0.9638932101308141, 'gamma': 0.9598668965414814, 'min_child_weight': 9}. Best is trial 0 with value: 0.660436137071651.
  'learning_rate': trial.suggest_loguniform('learning_rate', 0.01, 0.3),
  'subsample': trial.suggest_uniform('subsample', 0.5, 1.0),
  'colsample_bytree': trial.suggest_uniform('colsample_bytree', 0.5, 1.0),
  'gamma': trial.suggest_uniform('gamma', 0, 5),
[I 2024-12-29 22:44:48,486] Tr

Best hyperparameters:  {'learning_rate': 0.24526739476541057, 'max_depth': 6, 'n_estimators': 208, 'subsample': 0.8551215636593119, 'colsample_bytree': 0.6184742280254039, 'gamma': 1.4595062409116148, 'min_child_weight': 7}
Best accuracy:  0.7024922118380063


Pour la suite, on peut prédire le résultat de la compétition en cours, et accuser de la justesse de notre algorithme ! 