In [4]:
import requests
import os
import time

# Dossier pour sauvegarder les fichiers
folder = "data_atp_matches"
os.makedirs(folder, exist_ok=True)

# URL correcte (les fichiers sont à la racine du repo)
base_url = "https://raw.githubusercontent.com/JeffSackmann/tennis_atp/master/atp_matches_{}.csv"

for year in range(2000, 2025):
    file_path = os.path.join(folder, f"atp_matches_{year}.csv")
    url = base_url.format(year)

    if os.path.exists(file_path):
        print(f"⏭️  Déjà téléchargé : {file_path}")
        continue

    response = requests.get(url)
    if response.status_code == 200:
        with open(file_path, "wb") as f:
            f.write(response.content)
        print(f"✅ Téléchargé : {file_path}")
    else:
        print(f"❌ Erreur pour {year} ({response.status_code})")

    time.sleep(1)


✅ Téléchargé : data_atp_matches/atp_matches_2000.csv
✅ Téléchargé : data_atp_matches/atp_matches_2001.csv
✅ Téléchargé : data_atp_matches/atp_matches_2002.csv
✅ Téléchargé : data_atp_matches/atp_matches_2003.csv
✅ Téléchargé : data_atp_matches/atp_matches_2004.csv
✅ Téléchargé : data_atp_matches/atp_matches_2005.csv
✅ Téléchargé : data_atp_matches/atp_matches_2006.csv
✅ Téléchargé : data_atp_matches/atp_matches_2007.csv
✅ Téléchargé : data_atp_matches/atp_matches_2008.csv
✅ Téléchargé : data_atp_matches/atp_matches_2009.csv
⏭️  Déjà téléchargé : data_atp_matches/atp_matches_2010.csv
⏭️  Déjà téléchargé : data_atp_matches/atp_matches_2011.csv
⏭️  Déjà téléchargé : data_atp_matches/atp_matches_2012.csv
⏭️  Déjà téléchargé : data_atp_matches/atp_matches_2013.csv
⏭️  Déjà téléchargé : data_atp_matches/atp_matches_2014.csv
⏭️  Déjà téléchargé : data_atp_matches/atp_matches_2015.csv
⏭️  Déjà téléchargé : data_atp_matches/atp_matches_2016.csv
⏭️  Déjà téléchargé : data_atp_matches/atp_matches

In [5]:
import pandas as pd
import os

# Dossier où sont les fichiers
folder = "data_atp_matches"

# Liste tous les fichiers CSV dans le dossier
csv_files = [f for f in os.listdir(folder) if f.endswith(".csv") and f.startswith("atp_matches_")]

# Trie les fichiers par année 
csv_files.sort()

# Liste pour stocker les DataFrames
dfs = []

# Charger et ajouter chaque CSV
for file in csv_files:
    path = os.path.join(folder, file)
    df = pd.read_csv(path)
    dfs.append(df)
    print(f"✅ Ajouté : {file} ({df.shape[0]} lignes)")

# Fusionner tous les fichiers
df_all = pd.concat(dfs, ignore_index=True)

# Résumé
print(f"\n🎯 Total : {df_all.shape[0]} matchs de {len(csv_files)} années")

# Sauvegarder le fichier fusionné
df_all.to_csv("atp_matches_2000_2024.csv", index=False)
print("💾 Fichier fusionné sauvegardé : atp_matches_2000_2024.csv")


✅ Ajouté : atp_matches_2000.csv (3378 lignes)
✅ Ajouté : atp_matches_2001.csv (3307 lignes)
✅ Ajouté : atp_matches_2002.csv (3213 lignes)
✅ Ajouté : atp_matches_2003.csv (3218 lignes)
✅ Ajouté : atp_matches_2004.csv (3288 lignes)
✅ Ajouté : atp_matches_2005.csv (3264 lignes)
✅ Ajouté : atp_matches_2006.csv (3267 lignes)
✅ Ajouté : atp_matches_2007.csv (3192 lignes)
✅ Ajouté : atp_matches_2008.csv (3123 lignes)
✅ Ajouté : atp_matches_2009.csv (3085 lignes)
✅ Ajouté : atp_matches_2010.csv (3030 lignes)
✅ Ajouté : atp_matches_2011.csv (3015 lignes)
✅ Ajouté : atp_matches_2012.csv (3009 lignes)
✅ Ajouté : atp_matches_2013.csv (2944 lignes)
✅ Ajouté : atp_matches_2014.csv (2901 lignes)
✅ Ajouté : atp_matches_2015.csv (2943 lignes)
✅ Ajouté : atp_matches_2016.csv (2941 lignes)
✅ Ajouté : atp_matches_2017.csv (2911 lignes)
✅ Ajouté : atp_matches_2018.csv (2897 lignes)
✅ Ajouté : atp_matches_2019.csv (2806 lignes)
✅ Ajouté : atp_matches_2020.csv (1462 lignes)
✅ Ajouté : atp_matches_2021.csv (2

In [6]:
df_all.head()

Unnamed: 0,tourney_id,tourney_name,surface,draw_size,tourney_level,tourney_date,match_num,winner_id,winner_seed,winner_entry,...,l_1stIn,l_1stWon,l_2ndWon,l_SvGms,l_bpSaved,l_bpFaced,winner_rank,winner_rank_points,loser_rank,loser_rank_points
0,2000-301,Auckland,Hard,32,A,20000110,1,103163,1.0,,...,55.0,39.0,29.0,17.0,4.0,7.0,11.0,1612.0,63.0,595.0
1,2000-301,Auckland,Hard,32,A,20000110,2,102607,,Q,...,32.0,25.0,18.0,12.0,3.0,6.0,211.0,157.0,49.0,723.0
2,2000-301,Auckland,Hard,32,A,20000110,3,103252,,,...,33.0,20.0,7.0,8.0,7.0,11.0,48.0,726.0,59.0,649.0
3,2000-301,Auckland,Hard,32,A,20000110,4,103507,7.0,,...,43.0,29.0,14.0,10.0,6.0,8.0,45.0,768.0,61.0,616.0
4,2000-301,Auckland,Hard,32,A,20000110,5,102103,,Q,...,46.0,34.0,18.0,12.0,5.0,9.0,167.0,219.0,34.0,873.0
