# Tennis Match Prediction - Data Collection & Exploratory Data Analysis
## 1. Introduction
Ce notebook est la première étape de notre projet de machine learning visant à prédire l'issue des matchs de tennis ATP. 

**Objectifs :**
- Charger les données historiques (2000-2024)
- Nettoyer et préparer le dataset
- Réaliser une analyse exploratoire (EDA) pour comprendre les facteurs influençant la victoire

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import os
import glob

# Configuration du style des graphiques
plt.style.use('ggplot')
sns.set_palette("viridis")

## 2. Chargement des données
Nous utilisons les données de Jeff Sackmann (atp_matches). Nous nous concentrons sur les matchs depuis l'an 2000 pour avoir des données modernes et complètes (statistiques de match).

In [None]:
RAW_DATA_PATH = "../data/raw/tennis-atp-master"
all_data = []
years = range(2000, 2025)

for year in years:
    file_path = os.path.join(RAW_DATA_PATH, f"atp_matches_{year}.csv")
    if os.path.exists(file_path):
        df_temp = pd.read_csv(file_path)
        all_data.append(df_temp)

df = pd.concat(all_data, ignore_index=True)
print(f"Dataset chargé : {df.shape[0]} matchs et {df.shape[1]} colonnes.")

## 3. Analyse Exploratoire (EDA)
Avant de passer au machine learning, il est crucial de comprendre nos données.

In [None]:
fig, axes = plt.subplots(1, 2, figsize=(15, 6))

# Distribution des surfaces
sns.countplot(data=df, x='surface', ax=axes[0])
axes[0].set_title('Distribution des surfaces de jeu')

# Distribution de l'âge des vainqueurs
sns.histplot(df['winner_age'].dropna(), kde=True, ax=axes[1], color='skyblue')
axes[1].set_title('Distribution de l\'âge des vainqueurs')

plt.tight_layout()
plt.show()

## 4. Nettoyage de base
On retire les lignes avec trop de valeurs manquantes dans les colonnes critiques.

In [None]:
# Conversion de la date
df['tourney_date'] = pd.to_datetime(df['tourney_date'], format='%Y%m%d')

# Suppression des matchs sans classement (important pour la prédiction)
df = df.dropna(subset=['winner_rank', 'loser_rank'])

print(f"Données après nettoyage : {df.shape[0]} matchs.")

## 5. Sauvegarde
On sauvegarde le dataset concaténé pour l'étape suivante.

In [None]:
os.makedirs("../data/processed", exist_ok=True)
df.to_csv("../data/processed/atp_matches_clean.csv", index=False)
print("Données sauvegardées dans data/processed/atp_matches_clean.csv")