<div style="display:flex; align-items:center; gap:10px;">
  <img src="assets\ece_logo.png" width="198" height="91" alt="ECE logo" />
</div>

# **Rapport de projet ‚Äì Analyse de donn√©es et apprentissage automatique**
## R√©alis√© par les √©tudiants de B3 Data & IA :
## _Kenza BELALOUI - Anis FETOUAB - Nathan BRUNET - Oleksandr KSHYVNYAK - Sirine BESSOUS_

### Ce projet a pour objectif de conduire un pipeline complet d‚Äôanalyse de donn√©es, depuis le choix du dataset jusqu‚Äô√† l‚Äôapplication d‚Äôun ou plusieurs mod√®les de machine learning.

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np
from matplotlib.patches import Patch
from math import pi
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn.inspection import permutation_importance
from sklearn.preprocessing import StandardScaler

# Partie 1 ‚Äì D√©finition du sujet et choix du dataset
## 1.1 Th√©matique

Notre projet se situe dans le domaine du sport, plus pr√©cis√©ment l'analyse de donn√©es dans le football.

L'objectif est de cr√©er un mod√®le d'apprentissage automatique (machine learning) pour pr√©dire si un joueur est un "Top Attaquant". Pour d√©finir cette variable cible (TopAttacker), nous avons identifi√© les joueurs qui sont au-dessus de la m√©diane (la moyenne statistique) en GCA (Actions cr√©ant un but) et SCA (Actions cr√©ant un tir).

Ce sujet m√©lange nos deux passions : le football et l'application concr√®te de la data science. Le d√©fi √©tait d'utiliser des statistiques avanc√©es (au-del√† des simples buts) pour mod√©liser une notion qui est d'habitude subjective.

Ce projet sert concr√®tement au secteur sportif (clubs, m√©dias) :

1.	Aide au recrutement : Les clubs peuvent utiliser le mod√®le pour rep√©rer des talents sous-√©valu√©s, en se basant sur des m√©triques avanc√©es comme les GCA et SCA.
2.	Analyse de performance : Les entra√Æneurs peuvent √©valuer la contribution r√©elle d'un joueur √† l'attaque, m√™me s'il ne marque pas beaucoup.
3.	M√©dias et fans : Il fournit une base analytique pour comparer les joueurs et enrichir les d√©bats.


## 1.2 Recherche et s√©lection du dataset
### Informations g√©n√©rales sur le dataset :

Nom du dataset : 2022-2023 Football Player Stats <br>
Source et lien d‚Äôacc√®s : [source](https://www.kaggle.com/datasets/vivovinco/20222023-football-player-stats) <br>
Auteur ou organisation : Vivo Vinco <br>
Taille (nombre de lignes et de colonnes) : 2690 lignes et 97 colonnes <br>
Format du fichier (CSV, JSON, Excel, etc.) : Fichier en .CSV <br>

### V√©rification de la qualit√© :
Le dataset est-il r√©cent ?
Les variables sont-elles clairement nomm√©es et document√©es ?
Contient-il suffisamment de donn√©es (au moins plusieurs centaines de lignes) ?
Le dataset comporte-t-il une variable cible que vous pourrez pr√©dire ou expliquer ?
Les donn√©es semblent-elles compl√®tes et coh√©rentes ?

### Justification du choix :
Le fichier √©tait id√©al car il contenait les stats de GCA (Actions cr√©ant un But) et SCA (Actions cr√©ant un Tir). C'est crucial, car ces deux m√©triques nous ont permis de construire la variable cible (TopAttacker). Le reste des donn√©es (passes progressives, tirs, etc.) a servi de features (variables explicatives) pour entra√Æner le mod√®le.

#### Avantages

Richesse : Le dataset est hyper complet, avec des dizaines de m√©triques avanc√©es comme PasProg (Passes Progressives) et CarProg (Port√©es Progressives), ce qui donne une description tr√®s fine du profil de chaque joueur.

- Comparabilit√© : Toutes les donn√©es sont ramen√©es "par 90 minutes" (90s), ce qui garantit une comparaison √©quitable entre les joueurs, peu importe leur temps de jeu total.

- Qualit√© : Les performances sont issues d'une comp√©tition de haut niveau (Ligue des Champions), ce sont donc des donn√©es tr√®s pertinentes.

#### Limites et Difficult√©s

Nettoyage Technique : Le CSV a demand√© un gros travail de preprocessing. On a d√ª corriger l'encodage (latin1) pour lire les noms des joueurs et surtout convertir beaucoup de colonnes en format num√©rique car le m√©lange de points et de virgules pour les d√©cimales les rendait illisibles pour Python.

Donn√©es Manquantes : Certaines lignes avaient des valeurs nulles (NaN). On a √©t√© oblig√© de les supprimer, ce qui a r√©duit un peu notre √©chantillon de travail.

D√©s√©quilibre des Classes : Le plus gros probl√®me, c'est que nous avions peu de vrais "Top Attaquants" (classe 1) par rapport aux autres joueurs (classe 0). Ce dataset d√©s√©quilibr√© rend la t√¢che plus dure pour le mod√®le et nous oblige √† utiliser des m√©triques plus solides que la simple accuracy.

## 1.3 Validation du dataset

### R√©sultats du Mod√®le KNN (Test Set)

| **Crit√®res**      | **Questions**                                                  | **R√©ponses** | **D√©tail/Justification**                                                                                                                                                                           |
|:------------------|:---------------------------------------------------------------|:-------------|----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
| **Pertinence**    | Le dataset permet-il de r√©pondre √† votre question de d√©part ?  | OUI          | Oui, le dataset est pertinent car il contient les m√©triques fines et granulaires n√©cessaires pour quantifier et classifier la performance des attaquants.                                          |
| **Clart√©**        | Les variables sont-elles bien nomm√©es et compr√©hensibles ?     | NON          | Les variables sont lisibles mais n√©cessitent un renommage pour passer des abr√©viations anglaises techniques (SCA, CarProg) √† une nomenclature fran√ßaise claire pour le rapport.                    |
| **Propret√©**      | Les donn√©es semblent-elles utilisables sans nettoyage majeur ? | NON          | Les donn√©es n√©cessitent un nettoyage s√©lectif majeur car il faut filtrer les lignes (joueurs non attaquants) et les colonnes (statistiques non pertinentes) pour garantir la pertinence du mod√®le. |
| **Taille**        | Le dataset est-il d‚Äôune taille adapt√©e √† votre analyse ?       | OUI          | Avec 2689 lignes initiales, le dataset est d'une taille adapt√©e pour une classification par Machine Learning, m√™me apr√®s le filtrage des lignes non pertinentes.                                   |
| **Accessibilit√©** | Le format est-il compatible avec Python (CSV, XLSX) ?          | OUI          | Le format CSV est parfaitement compatible avec les librairies d'analyse Python, notamment Pandas, via pd.read_csv.                                                                                 |
| **Actualit√©**     | Les donn√©es sont-elles r√©centes ou encore valides ?            | OUI          | Les donn√©es sont valides et r√©centes, car l'horodatage du fichier CSV (2022-2023-football-player-stats.csv) indique la saison 2022-2023, les rendant actuelles pour une analyse en Data Science.   |

# Partie 2 ‚Äì Exploration initiale des donn√©es
## 2.1 Chargement et aper√ßu du dataset (Importez le dataset dans un notebook Python √† l‚Äôaide de pandas. )

#### Comment le dataset a-t-il √©t√© charg√© ?

On a utilis√© la biblioth√®que **pandas** pour lire le fichier 2022-2023-football-player-stats.csv. La commande cl√© √©tait :

`df = pd.read_csv(csv_path, sep=';', decimal=',', index_col='Rk', encoding='latin1')`

L'astuce a √©t√© de sp√©cifier sep=';' (point-virgule) et decimal=',' (virgule) pour le format europ√©en, et surtout encoding='latin1' pour √©viter les erreurs de lecture de caract√®res sp√©ciaux dans les noms de joueurs.

##### Nombre de lignes et de colonnes

Apr√®s le chargement, le DataFrame contenait un certain nombre de lignes (joueurs) et de colonnes (statistiques). √áa regroupe toutes les stats d√©taill√©es des joueurs de la Ligue des Champions 2024.

##### Principales variables (Features) cl√©s

- Statistiques de but : Goals (buts marqu√©s), Shots (tirs), SoT (tirs cadr√©s).
- Ratios : SoT% (pourcentage de tirs cadr√©s) et G/Sh, G/SoT (efficacit√© du tir).
- M√©triques de Cr√©ativit√© (les plus importantes) : GCA, SCA, PasProg (Passes Progressives) et CarProg (Port√©es Progressives). C'est sur ces derni√®res qu'on a bas√© notre classification.
- Temps de jeu : 90s, qui est le temps total jou√© ramen√© √† des matchs complets de 90 minutes.

##### Gestion des valeurs manquantes / incoh√©rences

Nous avons d√ª g√©rer des valeurs manquantes (NaN) et des valeurs infinies (inf) dans certaines colonnes, notamment dans les ratios comme G/SoT. Une valeur devenait infinie quand, par exemple, un joueur n'avait aucun tir cadr√© (division par z√©ro).
Pour nettoyer √ßa et garantir la coh√©rence des donn√©es avant de mod√©liser, on a appliqu√© deux √©tapes :
<ol>
<li>Remplacer toutes les valeurs infinies par NaN (valeur manquante) : df.replace([np.inf, -np.inf], np.nan, inplace=True)</li>
<li>Remplacer ces NaN dans la colonne G/SoT par la m√©diane de la colonne (une valeur centrale) : df_filtered['G/SoT'] = df_filtered['G/SoT'].fillna(df_filtered['G/SoT'].median())</li>
</ol>

In [None]:
import pandas as pd

df = pd.read_csv('dataset/2022-2023-football-player-stats.csv', sep=';')
df_attaquants = df[
    (df['Pos'].str.contains('FW', na=False)) & 
    (df['Min'] >= 300)
].copy()

print(f"Dataset initial : {df.shape}")
print(f"Dataset filtr√© (Attaquants) : {df_attaquants.shape}")

## 2.2 Typologie des donn√©es Classification des variables

__Quantitatives continues :__ Ce sont principalement les ratios ou les donn√©es liss√©es par le temps de jeu, comme le SoT% (pr√©cision), G/Sh (efficacit√© du tir), ShoDist (distance moyenne de tir) et le temps de jeu 90s.

**Quantitatives discr√®tes :** Les d√©comptes bruts qui sont des nombres entiers, comme Goals, Shots, les m√©triques de cr√©ativit√© GCA et SCA, ainsi que PasProg et CarProg (passes et port√©es progressives).

**Qualitatives nominales :** Les identifiants comme le nom du joueur, son club ou sa position sur le terrain. Nous les avons exclues ou utilis√©es uniquement pour l'affichage, pas pour le mod√®le ML.

#### Variables les plus importantes pour l'analyse

Les features cl√©s pour notre analyse sont celles li√©es √† la cr√©ation d'occasions : GCA, SCA, PasProg et CarProg. Ces variables sont essentielles car elles permettent de mesurer l'influence offensive globale d'un joueur, bien au-del√† de ses buts personnels, et servent de base √† notre classification.

#### Variable Cible :

Oui, l'objectif principal du projet est de pr√©dire notre variable cible : TopAttacker (qui est binaire : 1 ou 0).

D√©finition technique : Nous avons cr√©√© cette cible en √©tiquetant un joueur 1 seulement si ses mesures de GCA_p90 (cr√©ation de buts par 90 minutes) ET de SCA_p90 (cr√©ation de tirs par 90 minutes) sont toutes deux au-dessus de la m√©diane des joueurs du dataset. En clair, on cible les joueurs qui excellent √† la fois dans la phase de construction et dans l'avant-derni√®re passe.

# Partie 3 ‚Äì Nettoyage et pr√©paration du dataset

## 3.1 Gestion des valeurs manquantes

Apr√®s la conversion des donn√©es en num√©rique, les deux principales colonnes qui avaient des probl√®mes √©taient G/SoT (Buts par Tir Cadr√©) et SoT% (Pourcentage de Tirs Cadr√©s). Ces NaN (valeurs manquantes) sont apparus souvent apr√®s qu'on ait transform√© les valeurs infinies (inf) en NaN.

Notre strat√©gie a √©t√© l'imputation par la m√©diane :

```Python
df_numeric = df_numeric.fillna(df_numeric.median())
```
En r√©sum√©, nous avons remplac√© chaque valeur manquante dans une colonne par la valeur m√©diane (la valeur centrale) de cette m√™me colonne.

Nous avons choisi la m√©diane plut√¥t que la moyenne pour une raison technique : la m√©diane est moins sensible aux valeurs extr√™mes (outliers).

Comme les ratios d'efficacit√© (comme G/SoT) peuvent avoir des valeurs tr√®s √©lev√©es ou tr√®s basses pour certains joueurs (ce qui fausserait la moyenne), la m√©diane donne une estimation plus robuste et repr√©sentative de la performance typique de l'ensemble des joueurs.

In [None]:
cols_to_keep = [
    'Player', 'Squad', 'Age',       # Identit√©
    'Goals', 'Shots', 'SoT',        # Finition brute
    'SoT%', 'Assists',              # Pr√©cision et Altruisme
    'SCA', 'GCA',                   # Cr√©ation (Shot/Goal Creating Actions)
    'TouAttPen',                    # Pr√©sence : Touches dans la surface de r√©paration
    'CarProg'                       # Percussion : Conduites de balle progressives
]

df_final = df_attaquants[cols_to_keep].copy()

rename_dict = {
    'Player': 'Joueur',
    'Squad': 'Equipe',
    'Goals': 'Buts',
    'Shots': 'Tirs_Total',
    'SoT': 'Tirs_Cadres',
    'SoT%': 'Tirs_Cadres_Pct',
    'Assists': 'Passes_Decisives',
    'SCA': 'Actions_Creation_Tir',
    'GCA': 'Actions_Creation_But',
    'TouAttPen': 'Touches_Surface',
    'CarProg': 'Percussions_Progressives'
}

df_final = df_final.rename(columns=rename_dict)
df_final = df_final.reset_index(drop=True)
display(df_final.head())

## 3.2 D√©tection et traitement des doublons

Techniquement, nous n'avons pas trouv√© de doublons, car nous n'avons pas ex√©cut√© de v√©rification explicite (df.duplicated()) sur l'ensemble du DataFrame.

Toutefois, dans le contexte de ce projet, un tel contr√¥le n'a pas √©t√© jug√© prioritaire. Notre dataset provient de statistiques de football tr√®s structur√©es, o√π chaque ligne repr√©sente une observation unique, index√©e par le rang (Rk). Il est extr√™mement improbable qu'un m√™me joueur figure deux fois avec le m√™me jeu de statistiques, car cela impliquerait une erreur dans la source de donn√©es elle-m√™me.
**Aucun traitement sp√©cifique** n'a √©t√© n√©cessaire.

Nous avons consid√©r√© que l'unicit√© des joueurs, garantie par la colonne _Player_ et l'index _Rk_, √©tait suffisante.
Si nous avions trouv√© des doublons, la strat√©gie standard dans le preprocessing des donn√©es aurait √©t√© de les identifier et de les supprimer imm√©diatement pour √©viter de biaiser l'apprentissage du mod√®le :
Dans notre cas, nous nous sommes concentr√©s sur les √©tapes de nettoyage les plus cruciales pour le KNN : le traitement des valeurs manquantes et la normalisation des variables, qui √©taient des probl√®mes bien plus critiques pour le bon fonctionnement de notre algorithme.

## 3.3 D√©tection des valeurs aberrantes

Des valeurs extr√™mes ont √©t√© identifi√©es dans des colonnes bas√©es sur des ratios, comme _G/SoT_ ou _SoT%_.

Ces valeurs ne sont pas consid√©r√©es comme des erreurs de donn√©es, mais comme des cas particuliers qui refl√®tent la r√©alit√© sportive (par exemple, un joueur tr√®s efficace sur un tr√®s faible nombre de tirs).

La justification est double :
<ol>
<li>Elles repr√©sentent le profil de performance exceptionnelle que notre variable cible _(TopAttacker)_ cherche justement √† isoler.</li>

<li>L'√©tape de normalisation (Standardisation) appliqu√©e plus tard au dataset minimise l'influence disproportionn√©e de ces outliers sur le calcul des distances de l'algorithme KNN, rendant le mod√®le plus robuste.</li>
</ol>

Les seules corrections appliqu√©es concernaient les valeurs infinies _(inf)_ qui rendaient le mod√®le inutilisable ; elles ont √©t√© trait√©es pour assurer la coh√©rence num√©rique du jeu de donn√©es.

## 3.4 Encodage et mise √† l‚Äô√©chelle des variables

Aucun encodage n'a √©t√© n√©cessaire. Nous avons filtr√© les colonnes et utilis√© uniquement les variables num√©riques du dataset, excluant les variables qualitatives (nom du joueur, club, etc.) de l'entra√Ænement.

La m√©thode utilis√©e pour la mise √† l'√©chelle est la Standardisation, impl√©ment√©e avec la classe _StandardScaler_ de _scikit-learn_. Cette technique centre et r√©duit les variables pour qu'elles aient toutes une **moyenne de 0** et un **√©cart-type de 1**.

La standardisation est une √©tape obligatoire et cruciale pour l'algorithme des K-Plus Proches Voisins (KNN) que nous avons s√©lectionn√© :
<ol>
<li>Distance Euclidienne : Le KNN fonctionne en calculant la distance euclidienne entre les joueurs. Si nous n'harmonisons pas les √©chelles, les variables ayant une grande magnitude (comme _PasProg_, qui peut √™tre un grand nombre) auraient un poids disproportionn√© sur la distance totale, faussant la notion de "proximit√©" des joueurs.</li>

<li>Comparabilit√© : Elle garantit que toutes les features (buts, tirs, cr√©ativit√©, etc.) sont mises sur un pied d'√©galit√©, assurant ainsi la stabilit√© et la performance du mod√®le.</li>
</ol>

# Partie 4 ‚Äì Analyse exploratoire et visualisations

#### 1. **Corr√©lations et Relations Observ√©es :**
 Nous avons observ√© une corr√©lation positive marqu√©e entre les m√©triques de cr√©ation d'occasions (SCA - Actions de Cr√©ation de Tir) et l'efficacit√© pure de la finition.
- Ca signifie qu'un joueur tr√®s impliqu√© dans la construction offensive (celui qui initie, dribble ou passe avant un tir) est statistiquement plus susceptible d'√™tre performant √† la finition. Cela tend √† prouver que le Top Attaquant moderne ne se limite pas √† marquer, il doit √™tre un facteur d'influence global sur l'approche de la surface adverse.

In [None]:
plt.figure(figsize=(12, 8))

# Filtrer les joueurs avec au moins 6 tirs
df_filtered = df[(df['Shots'] >= 6)].copy()

# Calculer les m√©dianes
median_sca = df_filtered['SCA'].median()
median_gca = df_filtered['GCA'].median()

# Identifier les top attaquants
df_filtered['TopAttacker'] = np.where(
    (df_filtered['GCA'] > median_gca) &
    (df_filtered['SCA'] > median_sca), 1, 0
)

colors = ['#3498db' if x == 0 else '#e74c3c' for x in df_filtered['TopAttacker']]
plt.scatter(
    df_filtered['SCA'],
    df_filtered['GCA'],
    c=colors,
    s=150,
    alpha=0.7,
    edgecolors='white',
    linewidth=2
)

plt.axvline(median_sca, color='black', linestyle='--', linewidth=2, alpha=0.5)
plt.axhline(median_gca, color='black', linestyle='--', linewidth=2, alpha=0.5)

plt.axvspan(median_sca, df_filtered['SCA'].max(), median_gca, df_filtered['GCA'].max(),
            alpha=0.1, color='red')
plt.text(df_filtered['SCA'].max() * 0.85, df_filtered['GCA'].max() * 0.95,
         'MEILLEURS\nATTAQUANTS',
         fontsize=16, weight='bold', ha='center', color='darkred',
         bbox=dict(boxstyle='round', facecolor='white', alpha=0.8))

plt.title('Qui sont les meilleurs attaquants ?', fontsize=18, weight='bold', pad=20)
plt.xlabel('Cr√©ation de Tirs', fontsize=14, weight='bold')
plt.ylabel('Cr√©ation de Buts', fontsize=14, weight='bold')

legend_elements = [
    Patch(facecolor='#e74c3c', label='Top Attaquants'),
    Patch(facecolor='#3498db', label='Autres joueurs')
]
plt.legend(handles=legend_elements, fontsize=12, loc='upper left', frameon=True)

plt.grid(True, alpha=0.2, linestyle='-', linewidth=0.5)

plt.tight_layout()
plt.show()

print("\n" + "="*60)
print(f"üéØ {len(df_filtered[df_filtered['TopAttacker'] == 1])} joueurs sont dans la zone rouge")
print(f"   ‚Üí Ils cr√©ent PLUS de tirs ET PLUS de buts que la moyenne")
print("="*60)

#### 2. **Influence sur la Variable Cible :**
L'analyse de l'importance des features (post-mod√©lisation) est tr√®s claire : ce ne sont pas uniquement les buts qui discriminent nos classes. Les variables qui d√©crivent la progression du jeu sont primordiales.
- Les m√©triques comme SCA, Percussions_Progressives (CarProg) et les passes progressives sont en t√™te de liste. Elles poss√®dent la plus forte capacit√© discriminante pour le mod√®le KNN, ce qui signifie que ces actions sont d√©terminantes pour classer un joueur dans la cat√©gorie "Top Attaquant".

In [None]:
df = pd.read_csv('dataset/2022-2023-football-player-stats.csv', sep=';', encoding='latin-1')
df = df.dropna()

df['TopAttacker'] = ((df['GCA'] > df['GCA'].median()) & (df['SCA'] > df['SCA'].median())).astype(int)

features = ['Goals', 'SCA', 'CarProg', 'PasProg', 'Assists', 'Shots', 'SoT', 'PasTotCmp', 'Touches']
X = df[features]
y = df['TopAttacker']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

knn = KNeighborsClassifier(n_neighbors=5)
knn.fit(X_train_scaled, y_train)

results = permutation_importance(knn, X_test_scaled, y_test, n_repeats=10, random_state=42)

importance_df = pd.DataFrame({
    'Feature': features,
    'Importance': results.importances_mean
}).sort_values(by='Importance', ascending=False)

plt.figure(figsize=(10, 6))
sns.barplot(
    x='Importance',
    y='Feature',
    data=importance_df,
    palette='viridis',
    hue='Feature',
    legend=False
)
plt.title('Influence sur la Variable Cible (Top Attaquant)')
plt.xlabel('Importance (Permutation)')
plt.ylabel('Features')
plt.tight_layout()
plt.show()

#### 3. **Hypoth√®ses et Tendances Graphiques :**
Notre premi√®re hypoth√®se est que le succ√®s d'un attaquant est multifactoriel. La classification ne d√©pend pas d'un seul pic de statistique, mais d'une r√©partition √©quilibr√©e de la performance sur plusieurs axes (finition, cr√©ation, progression).
- Si on regarde nos tendances visuelles le Quadrant Plot (Cr√©ation vs. Finition) confirme cette hypoth√®se en regroupant nos meilleurs joueurs dans le quadrant de "Haute Cr√©ation et Haute Efficacit√©". Ils sont √† la fois cr√©ateurs et finisseurs.

- Le Radar Plot renforce cette id√©e en montrant que le profil moyen des "Top Finisseurs" pr√©sente une enveloppe statistique plus large et homog√®ne sur toutes les features compar√©es aux autres joueurs.

In [None]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn.inspection import permutation_importance
from sklearn.preprocessing import StandardScaler

df = pd.read_csv('dataset/2022-2023-football-player-stats.csv', sep=';', encoding='latin-1')
df = df.dropna()

df['TopAttacker'] = ((df['GCA'] > df['GCA'].median()) & (df['SCA'] > df['SCA'].median())).astype(int)

features = ['Goals', 'SCA', 'CarProg', 'PasProg', 'Assists', 'Shots', 'SoT', 'PasTotCmp', 'Touches']
X = df[features]
y = df['TopAttacker']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

knn = KNeighborsClassifier(n_neighbors=5)
knn.fit(X_train_scaled, y_train)

results = permutation_importance(knn, X_test_scaled, y_test, n_repeats=10, random_state=42)

importance_df = pd.DataFrame({
    'Feature': features,
    'Importance': results.importances_mean
}).sort_values(by='Importance', ascending=False)

plt.figure(figsize=(10, 6))
sns.barplot(
    x='Importance',
    y='Feature',
    data=importance_df,
    palette='viridis',
    hue='Feature',
    legend=False
)
plt.title('Influence sur la Variable Cible (Top Attaquant)')
plt.xlabel('Importance (Permutation)')
plt.ylabel('Features')
plt.tight_layout()
plt.show()

In [None]:
metrics_dict = {
    'Finition': 'G/SoT',
    'Cr√©ation': 'SCA',
    'Progression': 'CarPrgDist',
    'Passes': 'PasTotCmp%',
    'Tirs': 'Shots'
}

# Filtrer attaquants
if 'Pos' in df.columns:
    df_att = df[df['Pos'].str.contains('FW', na=False)].copy()
else:
    df_att = df.copy()

# Nettoyer donn√©es
for col in metrics_dict.values():
    if col in df_att.columns:
        df_att[col] = pd.to_numeric(df_att[col], errors='coerce').fillna(0)

# Classifier (top 20%)
if 'Goals' in df_att.columns:
    seuil = df_att['Goals'].quantile(0.80)
    df_att['Groupe'] = df_att['Goals'].apply(
        lambda x: 'Top' if x >= seuil else 'Autres'
    )
else:
    df_att['Groupe'] = 'Tous'

# Normaliser
def norm(serie):
    return serie / serie.max() if serie.max() > 0 else serie

for nom, col in metrics_dict.items():
    if col in df_att.columns:
        df_att[f'{nom}_n'] = norm(df_att[col])

# Moyennes
top_moy = df_att[df_att['Groupe'] == 'Top'][[f'{m}_n' for m in metrics_dict]].mean()
autres_moy = df_att[df_att['Groupe'] == 'Autres'][[f'{m}_n' for m in metrics_dict]].mean()

# Radar
fig, ax = plt.subplots(figsize=(8, 8), subplot_kw=dict(projection='polar'), facecolor='#f8f9fa')

cats = list(metrics_dict.keys())
N = len(cats)
angles = [n / N * 2 * pi for n in range(N)] + [0]

top_vals = [top_moy[f'{m}_n'] for m in cats] + [top_moy[f'{cats[0]}_n']]
autres_vals = [autres_moy[f'{m}_n'] for m in cats] + [autres_moy[f'{cats[0]}_n']]

ax.plot(angles, top_vals, 'o-', linewidth=2.5, label='Top Attaquants', color='#3498db', markersize=7)
ax.fill(angles, top_vals, alpha=0.2, color='#3498db')

ax.plot(angles, autres_vals, 'o-', linewidth=2.5, label='Autres', color='#95a5a6', markersize=7)
ax.fill(angles, autres_vals, alpha=0.15, color='#95a5a6')

ax.set_xticks(angles[:-1])
ax.set_xticklabels(cats, fontsize=11)
ax.set_ylim(0, 1)
ax.set_yticks([0.25, 0.5, 0.75])
ax.set_yticklabels(['0.25', '0.5', '0.75'], fontsize=9, color='#7f8c8d')
ax.grid(True, linestyle='--', alpha=0.5, color='#bdc3c7')
ax.set_facecolor('#f8f9fa')

ax.set_title('Profil des Attaquants', fontsize=14, pad=25, color='#2c3e50')
ax.legend(loc='upper right', bbox_to_anchor=(1.25, 1.1), fontsize=10, frameon=False)

plt.tight_layout()
plt.show()