In [23]:
import pandas as pd


df = pd.read_csv('../data/players_data-2024_2025.csv')

print(df.shape)
df.head()


(2854, 267)


Unnamed: 0,Rk,Player,Nation,Pos,Squad,Comp,Age,Born,MP,Starts,...,Att (GK),Thr,Launch%,AvgLen,Opp,Stp,Stp%,#OPA,#OPA/90,AvgDist
0,1,Max Aarons,eng ENG,DF,Bournemouth,eng Premier League,24.0,2000.0,3,1,...,,,,,,,,,,
1,2,Max Aarons,eng ENG,"DF,MF",Valencia,es La Liga,24.0,2000.0,4,1,...,,,,,,,,,,
2,3,Rodrigo Abajas,es ESP,DF,Valencia,es La Liga,21.0,2003.0,1,1,...,,,,,,,,,,
3,4,James Abankwah,ie IRL,"DF,MF",Udinese,it Serie A,20.0,2004.0,6,0,...,,,,,,,,,,
4,5,Keyliane Abdallah,fr FRA,FW,Marseille,fr Ligue 1,18.0,2006.0,1,0,...,,,,,,,,,,


In [21]:
import pandas as pd

# Charger le fichier
df = pd.read_csv("../data/players_data-2024_2025.csv")

# Définir les colonnes à garder
colonnes_utiles = [
    'Player', 'Nation', 'Age', 'Pos', 'Squad',
    'Gls', 'Ast', 'xG', 'xAG', 'Tkl', 'PrgP', 'Carries', 'KP'
]

# Garder uniquement ces colonnes
df = df[colonnes_utiles].copy()

# Remplacer les valeurs manquantes par 0
df = df.fillna(0)

# Ajouter une colonne "style" vide à remplir manuellement
df['style'] = ""

# Sauvegarder dans un nouveau fichier
df.to_csv("../data/players_clean.csv", index=False)


In [57]:
import pandas as pd
import numpy as np

# --- Étape 1: Chargement et préparation ---

# Charger le fichier nettoyé
# Assurez-vous que le chemin est correct
try:
    df = pd.read_csv("../data/players_clean.csv")
except FileNotFoundError:
    print("Erreur: Le fichier '../data/players_clean.csv' est introuvable.")
    # Pour la démonstration, je crée un DataFrame vide avec les colonnes nécessaires
    df = pd.DataFrame(columns=['Player', 'Nation', 'Age', 'Pos', 'Squad', 'Gls', 'Ast', 'xG', 'xAG', 'Tkl', 'PrgP', 'Carries', 'KP'])


# Si la colonne "style" existe déjà, corriger les NaN -> chaîne vide ""
if 'style' in df.columns:
    df['style'] = df['style'].fillna("").astype(str)
else:
    # Initialiser la colonne si elle n'existe pas
    df['style'] = ""

# --- Étape 2: Calculer les quantiles pour des seuils dynamiques ---

# On ne calcule les quantiles que sur les joueurs de champ ayant un minimum de temps de jeu
# (ici, on filtre sur les passes progressives > 0 comme indicateur simple)
field_players = df[(~df['Pos'].str.contains("GK", na=False)) & (df['PrgP'] > 0)]

# Dictionnaire pour stocker les seuils (quantiles)
# On utilise différents niveaux (médian, élevé, très élevé)
quantiles = {
    'Gls':  {'high': field_players['Gls'].quantile(0.80), 'top': field_players['Gls'].quantile(0.95)},
    'Ast':  {'high': field_players['Ast'].quantile(0.80), 'top': field_players['Ast'].quantile(0.95)},
    'xG':   {'median': field_players['xG'].quantile(0.50), 'high': field_players['xG'].quantile(0.85), 'top': field_players['xG'].quantile(0.95)},
    'xAG':  {'median': field_players['xAG'].quantile(0.50), 'high': field_players['xAG'].quantile(0.85), 'top': field_players['xAG'].quantile(0.95)},
    'Tkl':  {'median': field_players['Tkl'].quantile(0.50), 'high': field_players['Tkl'].quantile(0.85), 'top': field_players['Tkl'].quantile(0.95)},
    'PrgP': {'low': field_players['PrgP'].quantile(0.25), 'median': field_players['PrgP'].quantile(0.50), 'high': field_players['PrgP'].quantile(0.85), 'top': field_players['PrgP'].quantile(0.95)},
    'KP':   {'low': field_players['KP'].quantile(0.25), 'median': field_players['KP'].quantile(0.50), 'high': field_players['KP'].quantile(0.85), 'top': field_players['KP'].quantile(0.95)},
    'Carries': {'high': field_players['Carries'].quantile(0.85)}
}


# --- Étape 3: Définition de la nouvelle fonction d'attribution ---

def attribuer_style_equilibre(row):
    # Ignorer les gardiens
    if 'GK' in row['Pos']:
        return "Gardien"

    # Récupérer les stats de la ligne
    pos = row['Pos']
    gls, ast, xg, xag = row['Gls'], row['Ast'], row['xG'], row['xAG']
    tkl, prgp, carries, kp = row['Tkl'], row['PrgP'], row['Carries'], row['KP']

    # L'ordre des conditions est important. On commence par les styles les plus spécifiques.

    # 1. Catenaccio: Défenseur pur, très peu d'apport offensif.
    if pos.startswith("DF") and tkl > quantiles['Tkl']['top'] and prgp < quantiles['PrgP']['low']:
        return "Catenaccio"

    # 2. Football total: Joueur d'élite qui excelle partout. Très rare.
    if xg > quantiles['xG']['high'] and xag > quantiles['xAG']['high'] and prgp > quantiles['PrgP']['high'] and tkl > quantiles['Tkl']['median']:
        return "Football total"

    # 3. Jeu de possession (Maestro): Le maître à jouer, au cœur de la création.
    if kp > quantiles['KP']['top'] and prgp > quantiles['PrgP']['top']:
        return "Jeu de possession"

    # 4. Jeu de contre-attaque (Finisseur): Marqueur de buts avant tout, moins créatif.
    if gls > quantiles['Gls']['top'] and kp < quantiles['KP']['median']:
        return "Jeu de contre-attaque"

    # 5. Gegenpressing (Presseur): Harcèle constamment, tacle beaucoup.
    if tkl > quantiles['Tkl']['top'] and (xg + xag) < quantiles['xG']['high']:
        return "Gegenpressing"
        
    # 6. Jeu positionnel (Créateur / Relayeur): Très bon passeur et créateur, sans être le Maestro absolu.
    if prgp > quantiles['PrgP']['high'] and kp > quantiles['KP']['high'] and xag > quantiles['xAG']['high']:
        return "Jeu positionnel"

    # 7. Jeu direct (Perforateur / Dribbleur): Progresse beaucoup en portant le ballon.
    if carries > quantiles['Carries']['high'] and prgp < quantiles['PrgP']['median']:
        return "Jeu direct"
        
    # 8. Polyvalent offensif: Bonnes stats offensives générales.
    if xg > quantiles['xG']['high'] and xag > quantiles['xAG']['median'] and kp > quantiles['KP']['median']:
        return "Polyvalent offensif"

    # 9. Polyvalent défensif: Bonnes stats défensives générales.
    if tkl > quantiles['Tkl']['high'] and prgp > quantiles['PrgP']['median']:
        return "Polyvalent défensif"

    return "" # Pour ceux qui ne rentrent dans aucune case

# --- Étape 4: Application et Sauvegarde ---

# Appliquer la fonction
# On applique à toutes les lignes pour réévaluer tout le monde
df['style'] = df.apply(attribuer_style_equilibre, axis=1)

# Afficher les résultats
print("Distribution des styles équilibrée :")
print(df['style'].value_counts())

# Sauvegarder le fichier mis à jour
df.to_csv("../data/players_with_styles.csv", index=False)

Distribution des styles équilibrée :
style
Indéfini                 1965
Polyvalent offensif       255
Gardien                   212
Polyvalent défensif       211
Football total             63
Jeu positionnel            63
Gegenpressing              59
Jeu de possession          24
Jeu de contre-attaque       2
Name: count, dtype: int64
