# üìä 01_EDA - Analyse exploratoire des donn√©es Ligue 1

Ce notebook explore les donn√©es brutes dans `data/raw/` afin d'identifier des patterns int√©ressants pour la pr√©diction des r√©sultats de matchs.

## Structure
- Donn√©es : `../data/raw/`
- R√©sultats : exploration visuelle et statistique
- Objectifs : d√©tecter des corr√©lations, patterns temporels, et influence de la valeur des joueurs

In [None]:
# üì• Importation des biblioth√®ques
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from datetime import datetime
import os

In [None]:
# üìÇ Chargement des fichiers depuis ../data/raw
base_path = '../data/raw/'

matches = pd.read_csv(os.path.join(base_path, 'matchs_2013_2022.csv'))
valuations = pd.read_csv(os.path.join(base_path, 'player_valuation_before_season.csv'))
appearances = pd.read_csv(os.path.join(base_path, 'player_appearance.csv'))
clubs = pd.read_csv(os.path.join(base_path, 'clubs_fr.csv'))

In [None]:
# üßº Aper√ßu des donn√©es
print(matches.shape)
print(matches.columns)
matches.head()

## üìÖ Analyse temporelle des r√©sultats par saison et mois

In [None]:
# Extraire ann√©e et mois
df = matches.copy()
df['date'] = pd.to_datetime(df['date'])
df['year'] = df['date'].dt.year
df['month'] = df['date'].dt.month

plt.figure(figsize=(12, 6))
sns.countplot(data=df, x='season', hue='results')
plt.title('Distribution des r√©sultats par saison')
plt.legend(title='R√©sultat', labels=['Victoire ext (-1)', 'Nul (0)', 'Victoire dom (1)'])
plt.xticks(rotation=45)
plt.show()

In [None]:
# R√©sultats par mois
plt.figure(figsize=(12, 6))
sns.countplot(data=df, x='month', hue='results')
plt.title('Distribution des r√©sultats par mois')
plt.legend(title='R√©sultat', labels=['Victoire ext (-1)', 'Nul (0)', 'Victoire dom (1)'])
plt.xticks(rotation=45)
plt.show()

## üí∏ Les √©quipes les plus fortes √©conomiquement gagnent-elles plus ?

In [None]:
# Valeur moyenne des joueurs par club et par an
valuations['date'] = pd.to_datetime(valuations['date'])
valuations['year'] = valuations['date'].dt.year
team_valuation = valuations.groupby(['current_club_id', 'year'])['market_value_in_eur'].mean().reset_index()
team_valuation.rename(columns={'market_value_in_eur': 'avg_market_value'}, inplace=True)
team_valuation.head()

‚û°Ô∏è Prochaine √©tape : fusion avec les matchs pour relier valeur √©conomique d‚Äôune √©quipe au r√©sultat.

## üß† Normalisation des valeurs de joueurs
Nous testerons des m√©thodes comme StandardScaler, MinMaxScaler pour comparer leur impact sur les mod√®les.

## üîç Corr√©lations futures
Analyse de l‚Äôimportance statistique de chaque variable avec les r√©sultats (feature importance).