# 📊 01_EDA - Analyse exploratoire des données Ligue 1

Ce notebook explore les données brutes dans `data/raw/` afin d'identifier des patterns intéressants pour la prédiction des résultats de matchs.

## Structure
- Données : `../data/raw/`
- Résultats : exploration visuelle et statistique
- Objectifs : détecter des corrélations, patterns temporels, et influence de la valeur des joueurs

In [None]:
# 📥 Importation des bibliothèques
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from datetime import datetime
import os

In [None]:
# 📂 Chargement des fichiers depuis ../data/raw
base_path = '../data/raw/'

matches = pd.read_csv(os.path.join(base_path, 'matchs_2013_2022.csv'))
valuations = pd.read_csv(os.path.join(base_path, 'player_valuation_before_season.csv'))
appearances = pd.read_csv(os.path.join(base_path, 'player_appearance.csv'))
clubs = pd.read_csv(os.path.join(base_path, 'clubs_fr.csv'))

In [None]:
# 🧼 Aperçu des données
print(matches.shape)
print(matches.columns)
matches.head()

## 📅 Analyse temporelle des résultats par saison et mois

In [None]:
# Extraire année et mois
df = matches.copy()
df['date'] = pd.to_datetime(df['date'])
df['year'] = df['date'].dt.year
df['month'] = df['date'].dt.month

plt.figure(figsize=(12, 6))
sns.countplot(data=df, x='season', hue='results')
plt.title('Distribution des résultats par saison')
plt.legend(title='Résultat', labels=['Victoire ext (-1)', 'Nul (0)', 'Victoire dom (1)'])
plt.xticks(rotation=45)
plt.show()

In [None]:
# Résultats par mois
plt.figure(figsize=(12, 6))
sns.countplot(data=df, x='month', hue='results')
plt.title('Distribution des résultats par mois')
plt.legend(title='Résultat', labels=['Victoire ext (-1)', 'Nul (0)', 'Victoire dom (1)'])
plt.xticks(rotation=45)
plt.show()

## 💸 Les équipes les plus fortes économiquement gagnent-elles plus ?

In [None]:
# Valeur moyenne des joueurs par club et par an
valuations['date'] = pd.to_datetime(valuations['date'])
valuations['year'] = valuations['date'].dt.year
team_valuation = valuations.groupby(['current_club_id', 'year'])['market_value_in_eur'].mean().reset_index()
team_valuation.rename(columns={'market_value_in_eur': 'avg_market_value'}, inplace=True)
team_valuation.head()

➡️ Prochaine étape : fusion avec les matchs pour relier valeur économique d’une équipe au résultat.

## 🧠 Normalisation des valeurs de joueurs
Nous testerons des méthodes comme StandardScaler, MinMaxScaler pour comparer leur impact sur les modèles.

## 🔍 Corrélations futures
Analyse de l’importance statistique de chaque variable avec les résultats (feature importance).