
# 📊 Analyse exploratoire des performances des clubs de Ligue 1 (2015-2024)

Ce projet explore les performances des clubs de Ligue 1 entre 2015 et 2024 à partir d'un jeu de données agrégé par équipe et par saison.

L'objectif est double :
- D'une part, analyser les facteurs associés à la réussite (classements élevés, efficacité).
- D'autre part, comparer les profils des clubs présents durablement en Ligue 1 avec ceux montés ou relégués.

Toutes les étapes d'analyse sont reproduites ci-dessous, accompagnées de visualisations et d'interprétations.
    


## 📁 Chargement et description des données

Le jeu de données contient :
- Des données saisonnières par club (ex : `Pts`, `GF`, `GA`, `Poss`, `CS%`, `PK`, etc.)
- Une période couverte de 2015-2016 à 2023-2024
- Une normalisation des statistiques a été effectuée par match (`_per_MP`) pour assurer la comparabilité entre saisons, y compris celles avec 18 équipes ou tronquées par la COVID.

Les clubs ayant participé à chaque saison ont été identifiés pour les comparer à ceux ayant connu des promotions ou des relégations.
    


## 🔎 1. Analyse comparative : clubs toujours présents vs promus/relégués

Une première analyse a comparé les **moyennes statistiques des clubs toujours présents** en Ligue 1 sur la période à celles des clubs **plus instables** (montées/relégations).

📌 Résultat : les clubs établis présentent des niveaux moyens plus élevés de points par match, de possession et de clean sheets, ce qui témoigne d'une plus grande régularité structurelle.

Des graphiques par statistique ont permis de visualiser ces écarts.
    


## 📈 2. Évolution temporelle du niveau de la Ligue 1

Cette section étudie :
- L'évolution globale de la possession, des buts marqués et des points moyens
- Le suivi de clubs spécifiques (PSG, Lyon, Monaco) sur plusieurs saisons
- La stabilité relative des classements dans le temps

🔍 Cela permet d’observer l’évolution du niveau moyen et la domination de certains clubs.
    


## 📊 3. Variabilité des classements par équipe

Le classement final (`LgRank`) a été transformé en score numérique pour :
- Calculer la moyenne et l'écart-type du classement pour chaque équipe
- Identifier les clubs les plus réguliers et ceux les plus inconstants

📌 Les clubs en bas à gauche (faible rang moyen et faible écart-type) sont les plus dominants et constants.
    


## ⚔️ 4. Comparaisons statistiques des clubs

Deux types de comparaison ont été menées :
- **Par moyenne sur la période** : Possession, buts marqués, CS%
- **Par radar chart** : visualisation synthétique des profils des clubs les plus performants

Les radars ont été normalisés pour rendre la comparaison lisible et cohérente.
    


## 🔁 5. Analyse de corrélations

Corrélations spécifiques :
- Possession vs Points
- Buts marqués vs Points
- Clean Sheets vs Rang

Une heatmap de corrélation a permis de visualiser l’ensemble des liens entre variables.

🎯 Objectif : identifier les statistiques les plus liées à la performance.
    


## 🧠 6. Facteurs de succès et prédiction du Top 3

Une classification des clubs a été tentée :
- Régression logistique
- Arbre de décision
- Random Forest

Le but était de prédire l'appartenance au **Top 3** de fin de saison à partir des statistiques disponibles.

📊 Résultat : GF_per_MP, CS% et Possession ressortent comme facteurs les plus discriminants.
    


## 📈 7. Classement modélisé & surprises

Grâce au modèle, une **probabilité d’être Top 3** a été attribuée à chaque club/saison.

Cela a permis d’identifier :
- Les **clubs ayant surperformé** (Monaco 16-17, Lille 20-21…)
- Les **clubs ayant sous-performé** selon le modèle

🔍 Cette analyse met en évidence les styles "non standards" de réussite.
    


## 🧪 8. Efficacité offensive et défensive

Deux indicateurs synthétiques ont été construits :
- Efficacité offensive = (GF - PK) / Poss
- Efficacité défensive = CS% / GA_per_MP

Ils ont été normalisés puis combinés en un **score total** permettant de classer les équipes les plus complètes.

📌 Cela permet de visualiser les clubs à la fois efficaces en attaque et solides défensivement.
    


## 🎯 9. Analyse des penaltys

L’analyse des penaltys a porté sur :
- Le nombre moyen de penaltys obtenus et réussis
- Le taux de réussite
- La dépendance aux penaltys pour marquer (PK / GF)

📌 Certaines équipes affichent une forte dépendance aux penaltys, ce qui peut être un levier stratégique ou un signe de faiblesse offensive.
    


## ✅ Conclusion & perspectives

Ce projet a permis de :
- Mieux comprendre les leviers statistiques du succès en Ligue 1
- Identifier des clubs au profil atypique mais performant
- Construire une base pour une modélisation plus fine (ranking, simulation de saison…)

📌 Prochaines étapes possibles :
- Analyse par match plutôt que par saison
- Simulation de saison complète (type "Monaco 2019-20")
- Dashboard ou API interactive avec scoring modélisé

💾 Le projet sera également versionné via Git et documenté en markdown pour diffusion.
    

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import classification_report
from sklearn.impute import SimpleImputer
from sklearn.ensemble import RandomForestClassifier
from sklearn.tree import DecisionTreeClassifier, plot_tree

In [None]:
df = pd.read_csv("ligue-1-stat-15-24.csv", skiprows=1, sep=";")

In [None]:
df.head()

In [None]:
print(df.columns)

df.columns = df.columns.str.strip().str.lower().str.replace(' ', '_')

df.info()
df.isna().sum()

In [None]:
df = df.drop(columns = ['comp', 'w.1', 'min', 'rk'])

In [None]:
df['gf/mp'] = df['gf']/df['mp']
df['ga/mp'] = df['ga']/df['mp']
df['gd/mp'] = df['gd']/df['mp']

In [None]:
saisons = df["season"].unique()

for saison in saisons:
    plt.figure(figsize=(12,6))
    
    data_saison = df[df["season"] == saison]
    
    ax = sns.barplot(
            data=data_saison,
            x="team",
            y="gf",
            order=data_saison.sort_values("gf", ascending=False)["team"]
        )
    
    plt.title(f"Goals scored by team - Season {saison}")
    plt.xlabel("Club")
    plt.ylabel("Goals")
    plt.xticks(rotation=45)
    
    for bar in ax.patches:
        height = bar.get_height()
        ax.text(
            bar.get_x() + bar.get_width() / 2,
            height + 1,
            f'{int(height)}',
            ha='center',
            va='bottom',
            fontsize=9
        )
        
    plt.tight_layout()
    plt.show()

In [None]:
saisons = df["season"].unique()

for saison in saisons:
    plt.figure(figsize=(12,6))
    
    data_saison = df[df["season"] == saison]
    
    ax = sns.barplot(
            data=data_saison,
            x="team",
            y="gd",
            order=data_saison.sort_values("gd", ascending=False)["team"]
        )
    
    plt.title(f"Goal difference by team - Season {saison}")
    plt.xlabel("Club")
    plt.ylabel("Goals")
    plt.xticks(rotation=45)
    
    for bar in ax.patches:
        height = bar.get_height()
        ax.text(
            bar.get_x() + bar.get_width() / 2,
            height + 1,
            f'{int(height)}',
            ha='center',
            va='bottom',
            fontsize=9
        )
        
    plt.tight_layout()
    plt.show()

In [None]:
saisons = df["season"].unique()
print("Seasons available :", saisons)

clubs_par_saison = {saison: set(df[df["season"] == saison]["team"]) for saison in saisons}

clubs_toujours_present = set.intersection(*clubs_par_saison.values())

print("Teams that have never been relegated :", sorted(clubs_toujours_present))

In [None]:
df["presence_toutes_saisons"] = df["team"].apply(lambda club: 1 if club in clubs_toujours_present else 0)

In [None]:
statistiques = ["pts/mp", "gf/mp", "ga/mp", "gd", "poss", "cs%", "w", "d", "l", "pk", "pkatt"]

df_clubs_toujours_present = df[df["team"].isin(clubs_toujours_present)]

moyennes_par_equipe = {}

for equipe in df_clubs_toujours_present["team"].unique():
    data_equipe = df_clubs_toujours_present[df_clubs_toujours_present["team"] == equipe]
    
    moyennes_equipe = data_equipe.mean(numeric_only=True)
    
    moyennes_par_equipe[equipe] = moyennes_equipe

moyennes_equipe_df = pd.DataFrame(moyennes_par_equipe).T

for stat in statistiques:
    plt.figure(figsize=(12, 6))
    moyennes_equipe_df[stat].sort_values(ascending=False).plot(kind='bar', figsize=(12, 6))
    plt.title(f"Mean of {stat} by team across the stretch")
    plt.ylabel(f"Mean of {stat}")
    plt.xticks(rotation=90)
    plt.tight_layout()
    plt.show()

In [None]:
statistiques = ["pts/mp", "gf/mp", "ga/mp", "gd", "poss", "cs%", "w", "d", "l", "pk", "pkatt"]

df_clubs_toujours_present = df[~df["team"].isin(clubs_toujours_present)]

moyennes_par_equipe = {}

for equipe in df_clubs_toujours_present["team"].unique():
    data_equipe = df_clubs_toujours_present[df_clubs_toujours_present["team"] == equipe]
    
    moyennes_equipe = data_equipe.mean(numeric_only=True)
    
    moyennes_par_equipe[equipe] = moyennes_equipe

moyennes_equipe_df = pd.DataFrame(moyennes_par_equipe).T

for stat in statistiques:
    plt.figure(figsize=(12, 6))
    moyennes_equipe_df[stat].sort_values(ascending=False).plot(kind='bar', figsize=(12, 6))
    plt.title(f"Mean of {stat} by team across the stretch")
    plt.ylabel(f"Mean of {stat}")
    plt.xticks(rotation=90)
    plt.tight_layout()
    plt.show()

In [None]:
moyennes_saison = []

for saison in df["season"].unique():
    df_saison = df[df["season"] == saison]
    
    clubs_toujours = df_saison[df_saison["team"].isin(clubs_toujours_present)]
    clubs_ponctuels = df_saison[~df_saison["team"].isin(clubs_toujours_present)]
    
    moyenne_toujours = clubs_toujours["pts/mp"].mean()
    moyenne_ponctuels = clubs_ponctuels["pts/mp"].mean()
    
    moyennes_saison.append({
        "saison": saison,
        "clubs_toujours": moyenne_toujours,
        "clubs_ponctuels": moyenne_ponctuels
    })

df_moyennes = pd.DataFrame(moyennes_saison).sort_values("saison")

plt.figure(figsize=(10,6))
plt.plot(df_moyennes['saison'].values, df_moyennes['clubs_toujours'].values, label="Clubs toujours présents", marker='o')
plt.plot(df_moyennes['saison'].values, df_moyennes['clubs_ponctuels'].values, label="Clubs ponctuels", marker='s')
plt.title("Evolution of points per game by group of teams")
plt.xlabel("Season")
plt.ylabel("Points per game")
plt.xticks(rotation=45)
plt.legend()
plt.tight_layout()
plt.show()

In [None]:
stats = ["pts/mp", "gf/mp", "poss"]

evolution_generale = df.groupby("season")[stats].mean().reset_index()

for stat in stats:
    plt.figure(figsize=(10, 5))
    plt.plot(evolution_generale["season"].values, evolution_generale[stat].values, marker='o')
    plt.title(f"Mean of {stat} evolution by Ligue 1 season")
    plt.xlabel("Season")
    plt.ylabel(f"Mean of {stat}")
    plt.xticks(rotation=45)
    plt.grid(True)
    plt.tight_layout()
    plt.show()

In [None]:
clubs_suivis = ["Paris S-G", "Lyon", "Monaco", "Marseille"]

stats = ["pts/mp", "gf/mp", "poss"]

for stat in stats:
    plt.figure(figsize=(10, 5))
    
    for club in clubs_suivis:
        data_club = df[df["team"] == club].sort_values("season")
        plt.plot(data_club["season"].values, data_club[stat].values, label=club, marker='o')
    
    plt.title(f"Evolution of {stat} by season for the teams selected")
    plt.xlabel("Season")
    plt.ylabel(stat)
    plt.xticks(rotation=45)
    plt.legend()
    plt.grid(True)
    plt.tight_layout()
    plt.show()

In [None]:
df["LgRank_num"] = df["lgrank"].str.extract(r'(\d+)').astype(int)

rang_stats = df.groupby("team").agg(
    moyenne_rang=("LgRank_num", "mean"),
    ecart_type_rang=("LgRank_num", "std"),
    saisons_jouees=("season", "count")
).reset_index()

rang_stats_filtre = rang_stats[rang_stats["saisons_jouees"] >= 5]

plt.figure(figsize=(10, 6))
plt.scatter(rang_stats_filtre["moyenne_rang"], rang_stats_filtre["ecart_type_rang"])

for i, row in rang_stats_filtre.iterrows():
    plt.text(row["moyenne_rang"], row["ecart_type_rang"], row["team"], fontsize=8)

plt.title("Stability of clubs in Ligue 1 (average rank vs. standard deviation)")
plt.xlabel("Average rank (lower = better)")
plt.ylabel("Standard deviation of rank (lower = more stable)")
plt.grid(True)
plt.tight_layout()
plt.show()

In [None]:
stats_classement = df.groupby("team")[["poss", "cs%", "gf/mp"]].mean().sort_values("gf/mp", ascending=False)

for stat in stats_classement.columns:
    plt.figure(figsize=(12, 6))
    stats_classement[stat].sort_values(ascending=False).plot(kind="bar")
    plt.title(f"Club ranking by mean of {stat}")
    plt.ylabel(stat)
    plt.xticks(rotation=90)
    plt.tight_layout()
    plt.show()

In [None]:
stats_radar = ["gf/mp", "ga/mp", "poss", "cs%"]

df_radar = df.groupby("team")[stats_radar].mean()

df_radar["ga/mp"] = df_radar["ga/mp"].max() - df_radar["ga/mp"]

df_radar_norm = df_radar.copy()
for col in stats_radar:
    min_val = df_radar[col].min()
    max_val = df_radar[col].max()
    df_radar_norm[col] = (df_radar[col] - min_val) / (max_val - min_val)
    
df_radar_norm["ga/mp"] = 1 - df_radar_norm["ga/mp"]

top_clubs = df_radar.sort_values("gf/mp", ascending=False).head(5)

def plot_radar(data, club_name):
    values = data.loc[club_name].values
    labels = data.columns
    num_vars = len(labels)
    
    angles = np.linspace(0, 2 * np.pi, num_vars, endpoint=False).tolist()
    values = np.concatenate((values, [values[0]]))
    angles += angles[:1]

    fig, ax = plt.subplots(figsize=(6, 6), subplot_kw=dict(polar=True))
    ax.plot(angles, values, label=club_name)
    ax.fill(angles, values, alpha=0.25)
    ax.set_title(club_name, size=14)
    ax.set_xticks(angles[:-1])
    ax.set_xticklabels(labels)
    plt.tight_layout()
    plt.show()

for club in top_clubs.index:
    plot_radar(df_radar_norm, club)


In [None]:
clubs_comparaison = ["Paris S-G", "Lyon", "Monaco", "Lille", "Rennes"]

labels = stats_radar
num_vars = len(labels)
angles = np.linspace(0, 2 * np.pi, num_vars, endpoint=False).tolist()
angles += angles[:1]

fig, ax = plt.subplots(figsize=(8, 8), subplot_kw=dict(polar=True))

for club in clubs_comparaison:
    values = df_radar_norm.loc[club].tolist()
    values += values[:1]  
    ax.plot(angles, values, label=club)
    ax.fill(angles, values, alpha=0.1)

ax.set_xticks(angles[:-1])
ax.set_xticklabels(labels)
ax.set_title("Multi-club comparison - Normalized performance profile", size=14)
ax.legend(loc='upper right', bbox_to_anchor=(1.2, 1.1))
plt.tight_layout()
plt.show()

In [None]:
sns.lmplot(x="poss", y="pts/mp", data=df)
plt.title("Correlation: Possession vs. Points per Game")
plt.tight_layout()
plt.show()

sns.lmplot(x="gf/mp", y="pts/mp", data=df)
plt.title("Correlation: Goals scored per game vs. Points")
plt.tight_layout()
plt.show()

sns.lmplot(x="cs%", y="LgRank_num", data=df)
plt.title("Correlation: Clean Sheets vs. Ranking (inverse)")
plt.tight_layout()
plt.show()


In [None]:
df["Top3"] = df["LgRank_num"] <= 3

stats_compare = ["gf/mp", "ga/mp", "poss", "cs%", "pts/mp"]

moyennes = df.groupby("Top3")[stats_compare].mean().T


for stat in stats_compare:
    plt.figure(figsize=(6, 4))
    df.groupby("Top3")[stat].mean().plot(kind="bar")
    plt.title(f"{stat} - Average Top 3 vs Others")
    plt.ylabel(stat)
    plt.xticks(rotation=0)
    plt.tight_layout()
    plt.show()


In [None]:
df['pk%'] = df['pk']/df['pkatt']

features = ["gf/mp", "ga/mp", "poss", "cs%", "pk%"]
X = df[features]
y = df["Top3"]

imputer = SimpleImputer(strategy="mean")
X_imputed = imputer.fit_transform(X)

X = pd.DataFrame(X_imputed, columns=features)

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

model = LogisticRegression()
model.fit(X_train, y_train)

y_pred = model.predict(X_test)

print("🔎 Evaluation on the train dataset :")
print(classification_report(y_test, y_pred))

coefficients = pd.DataFrame({
    "Variable": features,
    "Coefficient": model.coef_[0]
}).sort_values("Coefficient", ascending=False)

print("\n📊 Influence of variables on the probability of being in the Top 3:")
print(coefficients)


In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

tree_model = DecisionTreeClassifier(max_depth=3, random_state=42)
tree_model.fit(X_train, y_train)

y_pred_tree = tree_model.predict(X_test)

print("🔍 Evaluation of the tree :")
print(classification_report(y_test, y_pred_tree))

plt.figure(figsize=(15, 8))
plot_tree(tree_model, feature_names=features, class_names=["Non Top 3", "Top 3"], filled=True)
plt.title("Decision Tree - Predicting a Top 3 Place")
plt.show()

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

rf_model = RandomForestClassifier(n_estimators=100, max_depth=4, random_state=42)
rf_model.fit(X_train, y_train)

y_pred_rf = rf_model.predict(X_test)
print("🔍 Evaluation Random Forest :")
print(classification_report(y_test, y_pred_rf))

importances = rf_model.feature_importances_
features_importance = pd.DataFrame({
    "Variable": X.columns,
    "Importance": importances
}).sort_values("Importance", ascending=False)

plt.figure(figsize=(10, 5))
plt.barh(features_importance["Variable"], features_importance["Importance"])
plt.title("📊 Variable importance (Random Forest)")
plt.xlabel("Importance")
plt.gca().invert_yaxis()
plt.tight_layout()
plt.show()

print("\n📋 Most important variables according to Random Forest:")
print(features_importance)


In [None]:
df["proba_Top3"] = rf_model.predict_proba(X)[:, 1] 

df_top_preds = df[["season", "team", "proba_Top3", "Top3", "LgRank_num", "pts/mp"]]
df_top_preds_sorted = df_top_preds.sort_values("proba_Top3", ascending=False)

print("🔝 Ranking of teams according to the probability of being Top 3 (RF model):")
print(df_top_preds_sorted.head(20))

In [None]:
df_sans_psg = df_top_preds[df_top_preds["team"] != "Paris S-G"]

classement_sans_psg = df_sans_psg.sort_values("proba_Top3", ascending=False)

print("🔝 Ranking of teams according to the probability of being Top 3 (excluding PSG):")
print(classement_sans_psg.head(10))

In [None]:
df["Top3_gap"] = df["Top3"].astype(int) - df["proba_Top3"]

overperformers = df[df["Top3"] == True].sort_values("Top3_gap", ascending=False)

underperformers = df[df["Top3"] == False].sort_values("Top3_gap", ascending=True)

cols_display = ["season", "team", "Top3", "LgRank_num", "proba_Top3", "Top3_gap", "pts/mp"]

print("Teams that surprised the most (overperformers):")
print(overperformers[cols_display].head(5))

print("Teams that disappointed the most according to the model (underperformers):")
print(underperformers[cols_display].head(5))


In [None]:
df_eff = df.copy()

df_eff["effic_off"] = (df_eff["gf"] - df_eff["pk"]) / df_eff["poss"]

df_eff["effic_def"] = df_eff["cs"] / df_eff["ga"]


In [None]:
for col in ["effic_off", "effic_def"]:
    min_val = df_eff[col].min()
    max_val = df_eff[col].max()
    df_eff[col + "_norm"] = (df_eff[col] - min_val) / (max_val - min_val)


In [None]:
df_eff["score_total"] = df_eff["effic_off_norm"] + df_eff["effic_def_norm"]

classement_eff = df_eff.sort_values("score_total", ascending=False)

cols_to_show = ["season", "team", "LgRank_num", "pts/mp", 
                "effic_off", "effic_def", 
                "effic_off_norm", "effic_def_norm", "score_total"]

print("Cross-ranking attack + defense:")
print(classement_eff[cols_to_show].head(10))


In [None]:
df_eff = df.groupby("team")[["gf/mp", "ga/mp", "cs%"]].mean().reset_index()

df_eff["cs%"] = pd.to_numeric(df_eff["cs%"], errors="coerce")

df_eff["Off_Eff"] = df_eff["gf/mp"]

cs_min, cs_max = df_eff["cs%"].min(), df_eff["cs%"].max()
ga_min, ga_max = df_eff["ga/mp"].min(), df_eff["ga/mp"].max()

df_eff["CS_norm"] = (df_eff["cs%"] - cs_min) / (cs_max - cs_min)
df_eff["GA_norm"] = (df_eff["ga/mp"] - ga_min) / (ga_max - ga_min)

df_eff["GA_eff"] = 1 - df_eff["GA_norm"]

df_eff["Def_Eff"] = (df_eff["CS_norm"] + df_eff["GA_eff"]) / 2

print("Indicators by team:")
print(df_eff[["team", "Off_Eff", "Def_Eff"]].sort_values("Off_Eff", ascending=False))


In [None]:
plt.figure(figsize=(10, 8))
plt.scatter(df_eff["Off_Eff"], df_eff["Def_Eff"], s=80, alpha=0.7)

for i, row in df_eff.iterrows():
    plt.text(row["Off_Eff"] + 0.01, row["Def_Eff"] + 0.01, row["team"], fontsize=9)

plt.xlabel("Offensive Efficiency (GF per MP)")
plt.ylabel("Defensive effectiveness (composite)")
plt.title("Cross-team ranking: Offensive vs. Defensive efficiency")
plt.grid(True)
plt.tight_layout()
plt.show()

In [None]:
penalty_stats = df.groupby("team")[["pk", "pkatt", "gf"]].mean().reset_index()

penalty_stats["PK_success_rate"] = penalty_stats["pk"] / penalty_stats["pkatt"]
penalty_stats["PK_dependency"] = penalty_stats["pk"] / penalty_stats["gf"]

penalty_stats = penalty_stats.dropna()
penalty_stats = penalty_stats[penalty_stats["pkatt"] > 0]


In [None]:
top_dependency = penalty_stats.sort_values("PK_dependency", ascending=False)

print("Teams most dependent on penalties (PK / GF):")
print(top_dependency[["team", "pk", "pkatt", "PK_success_rate", "PK_dependency"]].head(10))


In [None]:
top10 = top_dependency.head(10)

plt.figure(figsize=(10, 6))
plt.barh(top10["team"], top10["PK_dependency"] * 100)
plt.xlabel("Percentage of goals scored from penalties (%)")
plt.title("Top 10 teams most dependent on penalties")
plt.gca().invert_yaxis()
plt.tight_layout()
plt.show()