# üîó Fusion des donn√©es pour la pr√©diction du Ballon d'Or 2025

Ce notebook fusionne :
- Les performances de `ballondor_dataset.csv`
- Les troph√©es individuels de `individual_titles_2025_cleaned.csv`
- Les troph√©es collectifs de `team_titles_2025.csv`

‚û°Ô∏è R√©sultat : `ballondor_dataset_merged.csv` pr√™t pour la mod√©lisation


In [4]:
import os
import pandas as pd

# Cr√©ation du dossier si n√©cessaire
os.makedirs("../data", exist_ok=True)

# Chargement des fichiers
ballon_dor_df = pd.read_csv("../data/ballondor_dataset.csv", sep=";")
individual_titles_df = pd.read_csv("../data/individual_titles_2025_cleaned.csv", sep=";", encoding="ISO-8859-1")
team_titles_df = pd.read_csv("../data/team_titles_2025.csv", sep=";", encoding="ISO-8859-1")

# Fusion des donn√©es
df_merged = ballon_dor_df.merge(individual_titles_df, on="Player", how="left")
df_merged = df_merged.merge(team_titles_df, on="Player", how="left", suffixes=("", "_Team"))

# Nettoyage des colonnes
df_merged["Nb_IndividualTitles"] = df_merged["Nb_IndividualTitles"].fillna(0).astype(int)
df_merged["TeamTitles"] = df_merged["TeamTitles"].fillna(0).astype(int)
df_merged["IndividualTitlesDetail"] = df_merged["IndividualTitlesDetail"].fillna("Aucun")

# Sauvegarde
df_merged.to_csv("../data/ballondor_dataset_merged.csv", index=False)
print("‚úÖ Fusion r√©ussie ! Fichier sauvegard√© dans : ../data/ballondor_dataset_merged.csv")


‚úÖ Fusion r√©ussie ! Fichier sauvegard√© dans : ../data/ballondor_dataset_merged.csv


## üß† Cr√©ation des variables subjectives pour la pr√©diction

Pour enrichir notre dataset, nous avons int√©gr√© 5 variables cruciales qui influencent fortement les votes du Ballon d‚ÄôOr :

| Variable             | Description                                                                 |
|----------------------|-----------------------------------------------------------------------------|
| `ImpactScore`        | Score subjectif (0-10) bas√© sur la contribution du joueur dans les matchs cl√©s (LDC, Euro, Copa, finale nationale). |
| `RecordsScore`       | Score bas√© sur les records atteints par le joueur (plus jeune buteur, top scoreur, pr√©cocit√©, etc.). |
| `PopularityScore`    | Niveau de notori√©t√© du joueur sur les r√©seaux sociaux, couverture m√©diatique et influence globale. |
| `Finalist_UCL`       | Bool√©en (1 ou 0) indiquant si le joueur a atteint la finale de la Ligue des champions 2025. |
| `BookmakersScore`    | Score invers√© bas√© sur les cotes des bookmakers (plus petit = plus favori). |

Ces valeurs ont √©t√© estim√©es √† partir de sources fiables telles que :
- **Foot Africa**
- **The Independent**
- **talkSPORT**
- **The Sun**
- **Cadena SER**
- **Sky Sports**
- **Wikipedia et Transfermarkt pour les records**
- **R√©seaux sociaux (Instagram, Twitter) pour la popularit√©**

Elles permettent au mod√®le de prendre en compte non seulement les performances statistiques, mais aussi l‚Äôaspect r√©putationnel et m√©diatique, tr√®s important dans le vote du Ballon d'Or.


In [8]:
import pandas as pd
import os

# === üìÅ S'assurer que le dossier existe
os.makedirs("data", exist_ok=True)

# === üì• Charger les deux fichiers
# ‚ö†Ô∏è Attention : fichier des features subjectives utilise un s√©parateur `;`
df_base = pd.read_csv("../data/ballondor_dataset_merged.csv")
df_scores = pd.read_csv("../data/ballondor_additional_features_updated.csv", sep=";")

# === üîó Fusionner les deux datasets sur la colonne "Player"
df_final = df_base.merge(df_scores, on="Player", how="left")

# === üíæ Sauvegarder le fichier final pr√™t pour le mod√®le
df_final.to_csv("../data/ballondor_dataset_ready.csv", index=False)

print("‚úÖ Fusion termin√©e ! Fichier pr√™t pour la mod√©lisation :../ data/ballondor_dataset_ready.csv")


‚úÖ Fusion termin√©e ! Fichier pr√™t pour la mod√©lisation :../ data/ballondor_dataset_ready.csv
