In [1]:
import pandas as pd 
import matplotlib.pyplot as plt


# Création du Dataset Info_rank

In [2]:
""" Le but de ce fichier est de récupérer pour chaque année le top 100 des joueurs,
qui est jusque là mis sous forme d'identifiant et de le relier aux informations du joueurs grâce à son ID"""

Years=['00','10','20','90']


liste_concat=[]
for year in Years:

    #On importe le classement des joueurs par année
    df_ranking= pd.read_csv('atp_rankings_{}s.csv'.format(year))

    #On supprime les joueurs qui ont un rang superieur à 100
    df_ranking = df_ranking[df_ranking['rank'] <= 100]



    #On commence par renommer la colonne du nom du joueur histoire de pouvoir merge via une colonne en commun
    df_ranking=df_ranking.rename(columns={'player':'player_id'})

    liste_concat.append(df_ranking.copy())


df_ranking=pd.concat(liste_concat)


#On importe les données relatives à chaque joueur
df_info_joueurs = pd.read_csv('atp_players.csv')

#On peut ensuite joindre les deux datasets

df_info_joueurs=pd.merge(df_ranking,df_info_joueurs,on='player_id')
df_info_joueurs.sort_values(['ranking_date','rank'],ascending=True,inplace=True)

df_info_joueurs.to_csv('info_rank')

In [10]:
df_infos_rang_joueurs=pd.read_csv('./Data/Data_utiles/info_rank')

df_infos_rang_joueurs.head()


Unnamed: 0.1,Unnamed: 0,ranking_date,rank,player_id,points,name_first,name_last,hand,dob,ioc,height,wikidata_id
0,134199,19900101,1,100656,2913.0,Ivan,Lendl,R,19600307.0,USA,188.0,Q182736
1,134465,19900101,2,101414,2279.0,Boris,Becker,R,19671122.0,GER,190.0,Q76334
2,134961,19900101,3,101222,2111.0,Stefan,Edberg,R,19660119.0,SWE,188.0,Q189542
3,135361,19900101,4,100763,1398.0,Brad,Gilbert,R,19610809.0,USA,185.0,Q715134
4,135627,19900101,5,100581,1354.0,John,McEnroe,L,19590216.0,USA,180.0,Q16474


In [16]:
df_infos_rang_joueurs.shape

(162982, 12)

On voit que ce dataset est composé de $12$ colonnes et $162982$ lignes, ce qui est assez conséquent. 

Le but de notre projet étant de définir des caractéristiques qui distinguent un joueur du top 10 d'un autre du top 50, nous pouvons d'ors et déjà supprimer certaines colonnes qui ne nous seront pas utiles telles que:

- IOC vu que le pays d'origine du joueur n'a aucun impact sur ses performances
- wikidata_id
- dob
- Unnamed :0 (qui est un duplicat des indexes)

In [11]:
df_infos_rang_joueurs.drop(['Unnamed: 0', 'ioc', 'wikidata_id','dob'],axis=1,inplace=True)


In [13]:
#On va également fusionner les colonnes name_first et name_last
df_infos_rang_joueurs['Name']=df_infos_rang_joueurs['name_first']+ ' ' +df_infos_rang_joueurs['name_last']

df_infos_rang_joueurs=df_infos_rang_joueurs.drop(['name_first','name_last'],axis=1)

In [14]:
df_infos_rang_joueurs.head()

Unnamed: 0,ranking_date,rank,player_id,points,hand,height,Name
0,19900101,1,100656,2913.0,R,188.0,Ivan Lendl
1,19900101,2,101414,2279.0,R,190.0,Boris Becker
2,19900101,3,101222,2111.0,R,188.0,Stefan Edberg
3,19900101,4,100763,1398.0,R,185.0,Brad Gilbert
4,19900101,5,100581,1354.0,L,180.0,John McEnroe


In [15]:
df_infos_rang_joueurs.to_csv('./Data/Data_utiles/info_rank.csv')

# Création du Dataset Info_match

Ce dataset va regrouper tous les matchs joués par les joueurs du top 100. On aura accès aux informations suivantes:

- Vainqueur / Perdant
- Rang du vainqueur / Rang du perdant
- surface du match
- tournois

In [9]:
liste_concat=[]

for year in range(1993,2022):
    df_matches_annee=pd.read_csv('./Data/atp_matches_{}.csv'.format(year))

    #On garde seulement les matches des joueurs du top 100

    df_matches=df_matches_annee[(df_matches_annee['winner_rank']<=100) | (df_matches_annee['loser_rank']<=100)].copy()
    
    liste_concat.append(df_matches)

info_matches=pd.concat(liste_concat)
colonnes_a_supprimer = ['winner_ioc', 'winner_entry', 'winner_seed', 'draw_size','loser_ioc', 'loser_entry', 'loser_seed']
info_matches=info_matches.drop(colonnes_a_supprimer,axis=1)

In [9]:
print(info_matches.shape)
print(info_matches.columns)

(80978, 42)
Index(['tourney_id', 'tourney_name', 'surface', 'tourney_level',
       'tourney_date', 'match_num', 'winner_id', 'winner_name', 'winner_hand',
       'winner_ht', 'winner_age', 'loser_id', 'loser_name', 'loser_hand',
       'loser_ht', 'loser_age', 'score', 'best_of', 'round', 'minutes',
       'w_ace', 'w_df', 'w_svpt', 'w_1stIn', 'w_1stWon', 'w_2ndWon', 'w_SvGms',
       'w_bpSaved', 'w_bpFaced', 'l_ace', 'l_df', 'l_svpt', 'l_1stIn',
       'l_1stWon', 'l_2ndWon', 'l_SvGms', 'l_bpSaved', 'l_bpFaced',
       'winner_rank', 'winner_rank_points', 'loser_rank', 'loser_rank_points'],
      dtype='object')


In [10]:
info_matches.to_csv('./Data/Data_utiles/info_matches.csv')

### Fonction pour calculer le winrate d'un joueur sur une année

In [11]:
def winrate(year,_id,dataset):
    
    df_year = dataset[(dataset['tourney_date'] >= year * 10000) & (dataset['tourney_date'] < (year + 1) * 10000)].copy()

    nombre_matches_gagnes=0
    nombre_matches_joues=0
    for index, row in df_year.iterrows():
        
        if row['winner_id']==_id :
            nombre_matches_gagnes+=1
            nombre_matches_joues+=1
            
        elif row['loser_id']==_id:
            nombre_matches_joues+=1
    
    winrate=(nombre_matches_gagnes/nombre_matches_joues)
    
    return winrate,nombre_matches_gagnes,nombre_matches_joues


In [13]:
print(winrate(1993,101948,info_matches))

(0.8415841584158416, 85, 101)


# Création du dataset Info_joueurs

In [11]:
info_matches1=pd.read_csv('./Data/Data_utiles/info_matches.csv')
columns_needed = ['l_1stIn', 'l_svpt', 'l_1stWon', 'l_2ndWon', 'w_svpt', 'w_1stWon', 'w_2ndWon','tourney_date', 'loser_rank', 'winner_rank','loser_rank','w_bpFaced','l_bpFaced','l_bpSaved','w_bpSaved','l_SvGms','w_SvGms']

# Filtrer le DataFrame pour exclure les lignes avec des NaN dans les colonnes spécifiées
info_matches=info_matches1.dropna(subset=columns_needed)

In [13]:
# Initialiser le dictionnaire avec des valeurs vides
joueurs_dict = {}

for index, row in info_matches.iterrows():
    winner_id = row['winner_id']
    loser_id = row['loser_id']

    if (row['winner_rank'] <= 100) and (winner_id not in joueurs_dict):
        joueurs_dict[winner_id] = {'name': row['winner_name'], 'hand': row['winner_hand'], 'height': row['winner_ht']}
        for year in range(1993, 2023):  
            joueurs_dict[winner_id].setdefault(str(year), {})

    if (row['loser_rank'] <= 100) and (loser_id not in joueurs_dict):
        joueurs_dict[loser_id] = {'name': row['loser_name'], 'hand': row['loser_hand'], 'height': row['loser_ht']}
        for year in range(1993, 2023):  
            joueurs_dict[loser_id].setdefault(str(year), {})

def calculate_percentage(value, total):
    return value / total if total != 0 else 0

def process_match(win,row, player_id, stats):
    stats['matchs'] += 1
    if win :
        stats['win'] += 1
        stats['pourc_serv_in'] += calculate_percentage(int(row['w_1stIn']), int(row['w_svpt']))
        stats['pourc_serv_win_pnt'] += calculate_percentage(int(row['w_1stWon']) + int(row['w_2ndWon']), int(row['w_svpt']))
        stats['pourc_return_win_pnt'] += calculate_percentage(int(row['l_svpt']) - int(row['l_1stWon']) - int(row['l_2ndWon']), int(row['l_svpt']))
        stats['pourc_serv_games_win'] += calculate_percentage(int(row['w_SvGms']) - (int(row['w_bpFaced']) - int(row['w_bpSaved'])), int(row['w_SvGms']))
        stats['pourc_break_games'] += 1 - calculate_percentage(int(row['l_SvGms']) - (int(row['l_bpFaced']) - int(row['l_bpSaved'])), int(row['l_SvGms']))
        stats['mean_ranking_oppo'] += int(row['loser_rank'])
        stats['pourc_break_point_made']+= calculate_percentage(int(row['l_bpFaced'])-int(row['l_bpSaved']),int(row['l_bpFaced']))
        stats['pourc_break_point_saved']+=calculate_percentage(int(row['w_bpSaved']),int(row['w_bpFaced']))
    else:
        stats['pourc_serv_in'] += calculate_percentage(int(row['l_1stIn']), int(row['l_svpt']))
        stats['pourc_serv_win_pnt'] += calculate_percentage(int(row['l_1stWon']) + int(row['l_2ndWon']), int(row['l_svpt']))
        stats['pourc_return_win_pnt'] += calculate_percentage(int(row['w_svpt']) - int(row['w_1stWon']) - int(row['w_2ndWon']), int(row['w_svpt']))
        stats['pourc_serv_games_win'] += calculate_percentage(int(row['l_SvGms']) - (int(row['l_bpFaced']) - int(row['l_bpSaved'])), int(row['l_SvGms']))
        stats['pourc_break_games'] += 1 - calculate_percentage(int(row['w_SvGms']) - (int(row['w_bpFaced']) - int(row['w_bpSaved'])), int(row['w_SvGms']))
        stats['mean_ranking_oppo'] += int(row['winner_rank'])
        stats['pourc_break_point_made']+= calculate_percentage(int(row['w_bpFaced'])-int(row['w_bpSaved']),int(row['w_bpFaced']))
        stats['pourc_break_point_saved']+=calculate_percentage(int(row['l_bpSaved']),int(row['l_bpFaced']))

def update_stats_for_player(player_id, stats, year):
    if stats['matchs'] > 0:
        for key in ['pourc_serv_in', 'pourc_serv_win_pnt', 'pourc_return_win_pnt', 'pourc_serv_games_win', 'pourc_break_games']:
            stats[key] = calculate_percentage(stats[key], stats['matchs'])

        for key in ['pourc_break_point_saved', 'pourc_break_point_made', 'mean_ranking_oppo']:
            stats[key] = calculate_percentage(stats[key], stats['matchs'])

        joueurs_dict[player_id][str(year)] = {
            'matchs': stats['matchs'],
            'win': stats['win'],
            'pourc_return_win_pnt': stats['pourc_return_win_pnt'],
            'pourc_break_games': stats['pourc_break_games'],
            'pourc_break_point_made': stats['pourc_break_point_made'],
            'pourc_break_point_saved': stats['pourc_break_point_saved'],
            'pourc_serv_games_win': stats['pourc_serv_games_win'],
            'pourc_serv_in': stats['pourc_serv_in'],
            'mean_ranking_oppo':stats['mean_ranking_oppo'],
            'pourc_serv_win_pnt':stats['pourc_serv_win_pnt']
        }




for year in range(1993,1995):
    for joueur in joueurs_dict.keys():
        
        stats = {
            'matchs': 0,
            'win': 0,
            'pourc_serv_win_pnt': 0,
            'pourc_return_win_pnt': 0,
            'pourc_serv_in': 0,
            'pourc_break_games': 0,
            'pourc_serv_games_win': 0,
            'pourc_break_point_saved': 0,
            'pourc_break_point_made': 0,
            'mean_ranking_oppo': 0
        }
        df_year = info_matches[(info_matches['tourney_date'] >= year * 10000) & (info_matches['tourney_date'] < (year + 1) * 10000)].copy()

        for i in range(len(df_year)):
            winner_id = df_year['winner_id'].iloc[i]
            loser_id = df_year['loser_id'].iloc[i]

            if winner_id == joueur :
                process_match(True,df_year.iloc[i], joueur, stats)

            elif loser_id == joueur :
                process_match(False,df_year.iloc[i], joueur, stats)


        update_stats_for_player(joueur, stats, year)

In [14]:
# Restructurer le dictionnaire pour obtenir une liste de dictionnaires
list_of_player_dicts = []
for player_id, player_data in joueurs_dict.items():
    player_data['id'] = player_id
    list_of_player_dicts.append(player_data)

# Utiliser pd.DataFrame pour convertir la liste de dictionnaires en DataFrame
df_info_joueurs = pd.DataFrame(list_of_player_dicts)

# Sauvegarder le DataFrame au format CSV
df_info_joueurs.to_csv('./Data/Data_utiles/info_joueurs.csv', index=False)




### On va maintenant ajouter les données que nous avons scrappé au fichier info_joueurs 

In [15]:
df_info_retours=pd.read_csv('./Data/Data_utiles/stats_return_1991_2022.csv')
df_under_pressure=pd.read_csv('./Data/Data_utiles/stats_under_pressure_1991_2022.csv')
df_rang=pd.read_csv('./Data/Data_utiles/info_rank.csv')

df_info_joueurs=pd.read_csv('./Data/Data_utiles/info_joueurs.csv')



In [27]:
df_info_retours.head()

Unnamed: 0,Ranking,Name,Unnamed: 3,Return Rating,% 1 Serve Return Points Won,% 2nd Serve Return Points Won,% Return Games Won,% Break Points Converted,Year
0,1,Guillermo Perez-Roldan,,183.3,37.5%,56.6%,38.6%,50.6%,1991
1,2,Magnus Gustafsson,,177.2,37.9%,55.4%,36.1%,47.8%,1991
2,3,Thomas Muster,,175.7,37.7%,54.4%,36.0%,47.6%,1991
3,4,Michael Chang,,172.7,34.5%,54.8%,35.2%,48.2%,1991
4,5,Andrei Chesnokov,,172.0,36.4%,52.7%,35.1%,47.8%,1991


In [28]:
df_under_pressure.head()

Unnamed: 0,Ranking,Name,Unnamed: 3,Under Pressure Rating,% Break Points Converted,% Break Point Saved,% Tie Breaks Won,% Deciding Sets Won,Year
0,1,Jaime Yzaga,,249.0,44.0%,59.3%,85.7%,60.0%,1991
1,2,Sergi Bruguera,,241.2,45.1%,59.8%,72.7%,63.6%,1991
2,3,Petr Korda,,240.1,44.3%,56.8%,75.0%,64.0%,1991
3,4,Stefan Edberg,,239.4,45.0%,64.5%,66.7%,63.2%,1991
4,5,Alberto Mancini,,238.6,40.5%,60.1%,73.3%,64.7%,1991


In [3]:
df_info_joueurs.head()

Unnamed: 0.1,Unnamed: 0,name,hand,height,1993,1994,1995,1996,1997,1998,...,2014,2015,2016,2017,2018,2019,2020,2021,2022,id
0,0,Richard Krajicek,R,196.0,"{'matchs': 53, 'win': 53, 'pourc_return_win_pn...","{'matchs': 44, 'win': 44, 'pourc_return_win_pn...","{'matchs': 62, 'win': 62, 'pourc_return_win_pn...","{'matchs': 71, 'win': 71, 'pourc_return_win_pn...","{'matchs': 65, 'win': 65, 'pourc_return_win_pn...","{'matchs': 60, 'win': 60, 'pourc_return_win_pn...",...,{},{},{},{},{},{},{},{},{},101990
1,1,Thomas Enqvist,R,190.0,"{'matchs': 38, 'win': 38, 'pourc_return_win_pn...","{'matchs': 41, 'win': 41, 'pourc_return_win_pn...","{'matchs': 83, 'win': 83, 'pourc_return_win_pn...","{'matchs': 78, 'win': 78, 'pourc_return_win_pn...","{'matchs': 54, 'win': 54, 'pourc_return_win_pn...","{'matchs': 50, 'win': 50, 'pourc_return_win_pn...",...,{},{},{},{},{},{},{},{},{},102358
2,2,Jonathan Stark,R,188.0,"{'matchs': 48, 'win': 48, 'pourc_return_win_pn...","{'matchs': 48, 'win': 48, 'pourc_return_win_pn...","{'matchs': 42, 'win': 42, 'pourc_return_win_pn...","{'matchs': 27, 'win': 27, 'pourc_return_win_pn...","{'matchs': 38, 'win': 38, 'pourc_return_win_pn...","{'matchs': 13, 'win': 13, 'pourc_return_win_pn...",...,{},{},{},{},{},{},{},{},{},101890
3,3,Todd Woodbridge,R,178.0,"{'matchs': 36, 'win': 36, 'pourc_return_win_pn...","{'matchs': 25, 'win': 25, 'pourc_return_win_pn...","{'matchs': 53, 'win': 53, 'pourc_return_win_pn...","{'matchs': 58, 'win': 58, 'pourc_return_win_pn...","{'matchs': 43, 'win': 43, 'pourc_return_win_pn...","{'matchs': 43, 'win': 43, 'pourc_return_win_pn...",...,{},{},{},{},{},{},{},{},{},101889
4,4,David Wheaton,R,193.0,"{'matchs': 52, 'win': 52, 'pourc_return_win_pn...","{'matchs': 40, 'win': 40, 'pourc_return_win_pn...","{'matchs': 51, 'win': 51, 'pourc_return_win_pn...","{'matchs': 19, 'win': 19, 'pourc_return_win_pn...","{'matchs': 11, 'win': 11, 'pourc_return_win_pn...","{'matchs': 10, 'win': 10, 'pourc_return_win_pn...",...,{},{},{},{},{},{},{},{},{},101609


In [19]:
#liste de toutes les dernières semaines de chaque année
#Cela nous permet d'avoir le classement final
annees = [19930104,19940103,19950102,19960101, 19970106,19980105,19990104,20000110,20010108,20020107,20030106,20040105,20050110,20060109,20070108,20080107,20090119,20100104,20110110,20120102,20130107,20140106,20150105,20160111,20170109,20180108,20190114,20200106,20210104]  # Ajoutez les années nécessaires

compteur=0
for year in range(1993, 2022):
    df_year_return = df_info_retours[df_info_retours['Year'] == year].copy()
    df_year_pressure = df_under_pressure[df_under_pressure['Year'] == year].copy()
    
    df_year_rang=df_rang[df_rang['ranking_date']==annees[compteur]]

    for index, row in df_year_return.iterrows():
        # Normaliser les noms en minuscules avant la comparaison
        normalized_name = row['Name'].lower()

        if normalized_name in df_info_joueurs['name'].str.lower().values:
            # Trouver l'indice ici
            indice = df_info_joueurs[df_info_joueurs['name'].str.lower() == normalized_name].index[0]

            indice_colonne = df_info_joueurs.columns.get_loc(str(year))

            # Convertir la chaîne en dictionnaire (si elle n'est pas déjà un dictionnaire)
            current_dict = eval(df_info_joueurs.at[indice, str(year)])

            # Mettre à jour les clés et valeurs dans le dictionnaire
            current_dict.update({
                'Return Rating': df_year_return['Return Rating'][index],
                ' % Serve Return Points Won': df_year_return['% 1 Serve Return Points Won'][index],
                ' % 2nd Serve Return Points Won': df_year_return['% 2nd Serve Return Points Won'][index],
                ' % Return Games Won': df_year_return['% Return Games Won'][index],
                ' % Break Points Converted': df_year_return['% Break Points Converted'][index],
            })

            # Mettre à jour la cellule dans le DataFrame avec le nouveau dictionnaire
            df_info_joueurs.at[indice, str(year)] = str(current_dict)


    for index, row in df_year_pressure.iterrows():
        # Normaliser les noms en minuscules avant la comparaison
        normalized_name = row['Name'].lower()

        if normalized_name in df_info_joueurs['name'].str.lower().values:
            # Trouver l'indice ici
            indice = df_info_joueurs[df_info_joueurs['name'].str.lower() == normalized_name].index[0]

            indice_colonne = df_info_joueurs.columns.get_loc(str(year))

            # Convertir la chaîne en dictionnaire (si elle n'est pas déjà un dictionnaire)
            current_dict = eval(df_info_joueurs.at[indice, str(year)])

            # Créer un nouveau dictionnaire avec les nouvelles clés et valeurs
            new_dict = {
                'Under Pressure Rating': df_year_pressure['Under Pressure Rating'][index],
                ' % Break Point Saved': df_year_pressure['% Break Point Saved'][index],
                ' % Break Points Converted Pressure': df_year_pressure['% Break Points Converted'][index],
                ' % Deciding Sets Won': df_year_pressure['% Deciding Sets Won'][index],
                ' % Tie Breaks Won': df_year_pressure['% Tie Breaks Won'][index],
            }

            # Mettre à jour la cellule dans le DataFrame avec le nouveau dictionnaire
            current_dict.update(new_dict)
            df_info_joueurs.at[indice, str(year)] = str(current_dict)
    
    for index, row in df_year_rang.iterrows():
        normalized_name = row['Name'].lower()

        if normalized_name in df_info_joueurs['name'].str.lower().values:
            # Trouver l'indice ici
            indice = df_info_joueurs[df_info_joueurs['name'].str.lower() == normalized_name].index[0]

            # Convertir la chaîne en dictionnaire (si elle n'est pas déjà un dictionnaire)
            current_dict = eval(df_info_joueurs.at[indice, str(year)])

            # Créer un nouveau dictionnaire avec les nouvelles clés et valeurs
            new_dict = {
                'rang': df_year_rang['rank'][index]
            }

            # Mettre à jour la cellule dans le DataFrame avec le nouveau dictionnaire
            current_dict.update(new_dict)
            df_info_joueurs.at[indice, str(year)] = str(current_dict)


In [20]:
df_info_joueurs.to_csv('./Data/Data_utiles/info_joueurs.csv')

### On met tous les noms des joueurs en minuscules pour éviter les erreurs lors des recheches

In [5]:
df_info_joueurs=pd.read_csv('./Data/Data_utiles/info_joueurs.csv')

df_info_joueurs['name'] = df_info_joueurs['name'].str.lower()

# Sauvegarde du dataframe modifié dans un nouveau fichier CSV
df_info_joueurs.to_csv('./Data/Data_utiles/info_joueurs.csv', index=False)
