# 🔗 Fusion des données pour la prédiction du Ballon d'Or 2025

Ce notebook fusionne :
- Les performances de `ballondor_dataset.csv`
- Les trophées individuels de `individual_titles_2025_cleaned.csv`
- Les trophées collectifs de `team_titles_2025.csv`

➡️ Résultat : `ballondor_dataset_merged.csv` prêt pour la modélisation


In [4]:
import os
import pandas as pd

# Création du dossier si nécessaire
os.makedirs("../data", exist_ok=True)

# Chargement des fichiers
ballon_dor_df = pd.read_csv("../data/ballondor_dataset.csv", sep=";")
individual_titles_df = pd.read_csv("../data/individual_titles_2025_cleaned.csv", sep=";", encoding="ISO-8859-1")
team_titles_df = pd.read_csv("../data/team_titles_2025.csv", sep=";", encoding="ISO-8859-1")

# Fusion des données
df_merged = ballon_dor_df.merge(individual_titles_df, on="Player", how="left")
df_merged = df_merged.merge(team_titles_df, on="Player", how="left", suffixes=("", "_Team"))

# Nettoyage des colonnes
df_merged["Nb_IndividualTitles"] = df_merged["Nb_IndividualTitles"].fillna(0).astype(int)
df_merged["TeamTitles"] = df_merged["TeamTitles"].fillna(0).astype(int)
df_merged["IndividualTitlesDetail"] = df_merged["IndividualTitlesDetail"].fillna("Aucun")

# Sauvegarde
df_merged.to_csv("../data/ballondor_dataset_merged.csv", index=False)
print("✅ Fusion réussie ! Fichier sauvegardé dans : ../data/ballondor_dataset_merged.csv")


✅ Fusion réussie ! Fichier sauvegardé dans : ../data/ballondor_dataset_merged.csv


## 🧠 Création des variables subjectives pour la prédiction

Pour enrichir notre dataset, nous avons intégré 5 variables cruciales qui influencent fortement les votes du Ballon d’Or :

| Variable             | Description                                                                 |
|----------------------|-----------------------------------------------------------------------------|
| `ImpactScore`        | Score subjectif (0-10) basé sur la contribution du joueur dans les matchs clés (LDC, Euro, Copa, finale nationale). |
| `RecordsScore`       | Score basé sur les records atteints par le joueur (plus jeune buteur, top scoreur, précocité, etc.). |
| `PopularityScore`    | Niveau de notoriété du joueur sur les réseaux sociaux, couverture médiatique et influence globale. |
| `Finalist_UCL`       | Booléen (1 ou 0) indiquant si le joueur a atteint la finale de la Ligue des champions 2025. |
| `BookmakersScore`    | Score inversé basé sur les cotes des bookmakers (plus petit = plus favori). |

Ces valeurs ont été estimées à partir de sources fiables telles que :
- **Foot Africa**
- **The Independent**
- **talkSPORT**
- **The Sun**
- **Cadena SER**
- **Sky Sports**
- **Wikipedia et Transfermarkt pour les records**
- **Réseaux sociaux (Instagram, Twitter) pour la popularité**

Elles permettent au modèle de prendre en compte non seulement les performances statistiques, mais aussi l’aspect réputationnel et médiatique, très important dans le vote du Ballon d'Or.


In [8]:
import pandas as pd
import os

# === 📁 S'assurer que le dossier existe
os.makedirs("data", exist_ok=True)

# === 📥 Charger les deux fichiers
# ⚠️ Attention : fichier des features subjectives utilise un séparateur `;`
df_base = pd.read_csv("../data/ballondor_dataset_merged.csv")
df_scores = pd.read_csv("../data/ballondor_additional_features_updated.csv", sep=";")

# === 🔗 Fusionner les deux datasets sur la colonne "Player"
df_final = df_base.merge(df_scores, on="Player", how="left")

# === 💾 Sauvegarder le fichier final prêt pour le modèle
df_final.to_csv("../data/ballondor_dataset_ready.csv", index=False)

print("✅ Fusion terminée ! Fichier prêt pour la modélisation :../ data/ballondor_dataset_ready.csv")


✅ Fusion terminée ! Fichier prêt pour la modélisation :../ data/ballondor_dataset_ready.csv
