In [1]:
import pandas as pd
import numpy as np
import datetime

In [30]:
df = pd.read_csv('atp_data_all_years_3', sep = ";")

FileNotFoundError: [Errno 2] No such file or directory: 'atp_data_all_years_3'

In [3]:
#suppression des lignes dupliquées
df = df.drop_duplicates(keep='first')

In [4]:
#observation des NaN par année
df_nan = df.set_index('Year').isna().groupby(level=0).sum()
df_nan.to_csv('data_matchs_original_year_nan.csv', sep=';')

In [5]:
df['Series'].value_counts()

ATP250                14190
International         12204
Grand Slam            11049
Masters 1000           6905
Masters                5183
ATP500                 5048
International Gold     3755
Masters Cup             330
Name: Series, dtype: int64

In [6]:
#on remplace tous les noms des anciens types de tournoi par les nouveaux
df = df.replace(to_replace=['International Gold', 'International', 'Masters'], value = ['ATP500', 'ATP250', 'Masters 1000'])

In [7]:
#on remplace tous les noms des tournois + round par des noms plus court
df = df.replace(to_replace = ['1st Round', '2nd Round', '3rd Round', '4th Round', 
                              'Quarterfinals', 'Semifinals', 'The Final', 'Round Robin',
                              'Masters 1000', 'Grand Slam', 'Masters Cup'],
                value = ['1R', '2R', '3R', '8th', 'Q', 'SF', 'F', 'RR', 'M1000', 'GS', 'ATP Final'])

In [8]:
df[ (df['Tournament']=='Dubai Championships') | 
    (df['Tournament']=='Dubai Open') ]['Location'].value_counts()

Dubai     93
Dubai     62
Name: Location, dtype: int64

In [9]:
#on remplace certains noms de localisation rentrés avec une erreur de typographie
df = df.replace(to_replace = ['Dubai ', 'Estoril ', 'Vienna ', "'s-Hertogenbosch", "Winston-Salem", "Nur-Sultan",
                             ], 
                     value = ['Dubai', 'Estoril', 'Vienna', "Hertogenbosch", "Winston Salem", "Nur Sultan"])

In [10]:
df[ df['Location'] == 'Indian Wells']['Tournament'].value_counts()

BNP Paribas Open     1140
Pacific Life Open     601
Indian Wells TMS      126
Name: Tournament, dtype: int64

In [11]:
# 3 tournois différents et pourtant ce sont les mêmes tournois. Il y a simplement eu des changements de 
# noms au cours des années. En général nous avons qu'un seul tournoi par ville sauf rare exception où il peut y
# avoir 2 tournois mais ils sont de catégories différentes (GC, M1000, ATP500, ATP250) donc nous allons rassembler 
# les tournois qui ont changés de nombs en un seul nom lié à la ville dans laquelle ils se déroulent.
# Pour les 4 tournois du GC on leur donnera leur propre nom mais quand il s'agira d'un master 1000 on rajoutera
# l'attribut 'Master' et si c'est un ATP 500 ou 250 on donnera l'attribut 'Championships'.

# La seule exception où nous avons 2 tournois de même catégorie dans la même ville est ici :

In [12]:
df[df['Location']=='Melbourne']['Tournament'].value_counts()

Australian Open          2794
Great Ocean Road Open      55
Murray River Open          55
Name: Tournament, dtype: int64

In [13]:
# l'Australian Open ne pose pas de problème car c'est un tournoi du GC mais les 2 autres sont 2 tournois
# de même catégorie et qui se déroulent dans la même ville, il est donc important de différencier la localisation
# pour la suite. Nous rétablierons la véritable localisation par la suite.

In [14]:
df.loc[df['Tournament']=='Great Ocean Road Open', ['Location']] = 'Melbourne Great Ocean Road'
df.loc[df['Tournament']=='Murray River Open', ['Location']] = 'Melbourne Murray River'

In [15]:
# on remplace donc tous les noms des tournois en fonction de leur localisation et leur catégorie

df['Tournament'] = df['Location'] + '-' + df['Series']

def rename_tournament(tournament) :
    
    tournament = tournament.split('-')
    if (tournament[1] == 'ATP250') or (tournament[1] == 'ATP500') :
        return tournament[0] + ' Championship'
    elif (tournament[1] == 'M1000') :
        return tournament[0] + ' Master'
    elif (tournament[1] == 'GS') :  
        if (tournament[0] == 'Paris') :
            return 'Roland Garros'
        elif (tournament[0] == 'London') :
            return 'Wimbledon'
        elif (tournament[0] == 'New York') :
            return 'US Open'
        elif (tournament[0] == 'Melbourne') :
            return 'Australian Open'
    elif (tournament[1] == 'ATP Final') :
        return tournament[0] + ' ATP Final'
    
df['Tournament'] = df['Tournament'].apply(rename_tournament)

In [16]:
df[df['Tournament'] == 'Madrid Master']['Surface'].value_counts()

Clay    660
Hard    329
Name: Surface, dtype: int64

In [17]:
# on constate maintenant ici que le tournoi de Madrid qui est un tournoi de catégorie Master 1000 a subi
# un changement de surface au cours des années. Nous voulons donc faire en sorte de différencier à nouveau
# les tournois qui ont subit un changement de court (indoor ou outdoor) et de surface.

In [18]:
df['Tournament'] = df['Tournament'] + '-' + df['Court'] + '-' + df['Surface']

tournament = list(df['Tournament'].value_counts().index.sort_values(ascending=True))

for i, t in enumerate(tournament) :
    tournament[i] = t.split('-')

name_city = np.array(tournament)[:,0]

import collections
doublons = [item for item, count in collections.Counter(name_city).items() if count > 1]

doublons_tournament = []
new_doublons_tournament = []

for i, t in enumerate(tournament) : 
    if t[0] in doublons :
        doublons_tournament.append(t[0]+'-'+t[1]+'-'+t[2])
        new_name = t[0]+' '+ t[1][0] + t[2][0]+'-'+t[1]+'-'+t[2]
        new_doublons_tournament.append(new_name)
        
df = df.replace(to_replace = doublons_tournament, value = new_doublons_tournament)

df['Tournament'] = df['Tournament'].apply(lambda tournament : str(tournament).split('-')[0])

In [19]:
df[df['Location'] == 'Madrid']['Tournament'].value_counts()

Madrid Master OC    660
Madrid Master IH    329
Name: Tournament, dtype: int64

In [20]:
# on voit bien ici que maintenant on distingue bien le tournoi de Madrid où il était en indoor-hard 
# à l'époque et que maintenant il est outdoor-clay

In [21]:
# on rétablit la location de départ pour ces 2 exceptions

df.loc[df['Location']=='Melbourne Great Ocean Road', ['Location']] = 'Melbourne'
df.loc[df['Location']=='Melbourne Murray River', ['Location']] = 'Melbourne'

In [22]:
# certains tournois ne comptent pas le même nombre de rounds. De manière générale cela dépend de la catégorie
# à laquelle le tournoi appartient.
# le problème est que le dataset est organisé de telle manière que pour tous les tournois le 1er tour sera
# toujours le 1R et le dernier la finale F. Les GC comptent 7 tours : 1R, 2R, 3R, 8th, Q, SF, F mais les ATP 250
# n'en contiennent que 5 et les tours sont rerésentés de la manière suivante : 1R, 2R, Q, SF, F. Sauf que cette
# notation pose un problème pour la suite de ce que nous voulons faire. Nous voulons que la successions de tours
# soient cohérentes avec celles des autres tournois. On voudrait qu'ici 1R, 2R, Q, SF, F se transforment en
# 3R, 8th, Q, SF, F. On ne veut pas de saut dans le noms des tours.

In [23]:
# ici on cherche à représenter le format du tableau et du nombre de matchs par tour pour avoir une idée 
# du type de tableau auxquels on à a faire et quelles catégories de tournois concernent les changements à 
# faire

df_round = df.groupby(['Year', 'Tournament', 'Series', 'Round']).count().loc[:,['Court']]
df_round = df_round.reset_index()
df_round['id Tournament'] = df_round['Year'].astype(str) +'-'+df_round['Tournament']+'-'+df_round['Series']
df_round = df_round.drop(['Year', 'Tournament', 'Series'], axis = 1)

all_tournaments = list(df_round['id Tournament'].value_counts().index.sort_values(ascending=True))
df_round = df_round.set_index('id Tournament')

def concat_round_nb_round(data, id_tournament, type_round, nb_matchs_round) :

    df_int = data.loc[[id_tournament],:].sort_values(by = nb_matchs_round, ascending = False)

    Round = ''
    Court = ''
    Nb_tours = 0

    for element1, element2 in zip(df_int[type_round], df_int[nb_matchs_round]) :
        Round += element1+'/'
        Court += str(element2)+'/'
        Nb_tours += element2

    return [Round[:-1], Court[:-1], Nb_tours]

data = []

for tournament in all_tournaments :
    data.append(concat_round_nb_round(df_round, tournament, 'Round', 'Court'))
    
infos_tournament = pd.DataFrame(data = data,
                                index = all_tournaments,
                                columns = ['Round', 'Nb_matchs_round', 'Nb_matchs_tournament'])

In [24]:
infos_tournament

Unnamed: 0,Round,Nb_matchs_round,Nb_matchs_tournament
2000-Adelaide Championship-ATP250,1R/2R/Q/SF/F,16/8/4/2/1,31
2000-Amsterdam Championship-ATP250,1R/2R/Q/SF/F,16/8/4/2/1,31
2000-Atlanta Championship OC-ATP250,1R/2R/Q/SF/F,16/8/4/2/1,31
2000-Auckland Championship-ATP250,1R/2R/Q/SF/F,16/8/4/2/1,31
2000-Australian Open-GS,1R/2R/3R/8th/Q/SF/F,64/32/16/8/4/2/1,127
...,...,...,...
2021-Umag Championship-ATP250,1R/2R/Q/SF/F,12/8/4/2/1,27
2021-Vienna Championship-ATP500,1R/2R/Q/SF/F,16/8/4/2/1,31
2021-Washington Championship OH-ATP500,1R/2R/3R/Q/SF/F,16/16/8/4/2/1,47
2021-Wimbledon-GS,1R/2R/3R/8th/Q/SF/F,64/32/16/8/4/2/1,127


In [25]:
tournament_type_2 = list(infos_tournament[(infos_tournament['Round'] == '1R/2R/3R/Q/SF/F') |
                                          (infos_tournament['Round'] == '2R/1R/3R/Q/SF/F')].index)

tournament_type_3 = list(infos_tournament[infos_tournament['Round'] == '1R/2R/Q/SF/F'].index)

df['Year-Tournament'] = df['Year'].astype(str) + '-' + df['Tournament'] + '-' + df['Series']

df = df.set_index('Year-Tournament')

df.loc[tournament_type_2, ['Round']] = df.loc[tournament_type_2, ['Round']].replace(to_replace = ['1R', '2R', '3R'],
                                                                                    value = ['2R', '3R', '8th'])

df.loc[tournament_type_3, ['Round']] = df.loc[tournament_type_3, ['Round']].replace(to_replace = ['1R', '2R'],
                                                                                    value = ['3R', '8th'])

df = df.reset_index().drop('Year-Tournament', axis = 1)

In [26]:
#transforme la date en type datetime
df['Date'] = pd.to_datetime(df['Date'], format = "%d/%m/%Y")

df.rename(columns={'Best of': 'Format'}, inplace=True)

#permet de réordonner le dataframe
def create_id_round(tour):
    dictionnaire = {'RR':1, '1R':2, '2R':3, '3R':4, '8th':5, 'Q':6, 'SF':7, 'F':8}
    return dictionnaire[tour]

df['id_round'] = df['Round'].apply(create_id_round)

df = df.sort_values(by = ['Date', 'Tournament', 'id_round'])
df = df.drop('id_round', axis=1)

#ajout numéro de semaine en se placant dans la base de 2000 à 2021
dictionnaire_year_week = {}

for i, year_week in enumerate(df['Year_week'].unique()) :
    dictionnaire_year_week[year_week] = i+1

def create_id_week(year_week) :
    return dictionnaire_year_week[year_week]

df['id_week'] = df['Year_week'].apply(create_id_week)

In [27]:
df.to_csv('atp_data_clean.csv', sep=';')

In [28]:
df

Unnamed: 0,Year,Week_number,Year_week,Date,Location,Tournament,Series,Court,Surface,Round,...,CBL,IWW,IWL,SBW,SBL,B&WW,B&WL,GBW,GBL,id_week
0,2000,1,2000-01,2000-01-03,Adelaide,Adelaide Championship,ATP250,Outdoor,Hard,3R,...,,,,,,,,,,1
1,2000,1,2000-01,2000-01-03,Adelaide,Adelaide Championship,ATP250,Outdoor,Hard,3R,...,,,,,,,,,,1
2,2000,1,2000-01,2000-01-03,Adelaide,Adelaide Championship,ATP250,Outdoor,Hard,3R,...,,,,,,,,,,1
3,2000,1,2000-01,2000-01-03,Adelaide,Adelaide Championship,ATP250,Outdoor,Hard,3R,...,,,,,,,,,,1
4,2000,1,2000-01,2000-01-03,Adelaide,Adelaide Championship,ATP250,Outdoor,Hard,3R,...,,,,,,,,,,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
58659,2021,46,2021-46,2021-11-19,Turin,Turin ATP Final,ATP Final,Indoor,Hard,RR,...,,,,,,,,,,926
58660,2021,46,2021-46,2021-11-19,Turin,Turin ATP Final,ATP Final,Indoor,Hard,RR,...,,,,,,,,,,926
58661,2021,46,2021-46,2021-11-20,Turin,Turin ATP Final,ATP Final,Indoor,Hard,SF,...,,,,,,,,,,926
58662,2021,46,2021-46,2021-11-20,Turin,Turin ATP Final,ATP Final,Indoor,Hard,SF,...,,,,,,,,,,926


In [29]:
df[[]]

Index(['Year', 'Week_number', 'Year_week', 'Date', 'Location', 'Tournament',
       'Series', 'Court', 'Surface', 'Round', 'Format', 'Winner', 'Loser',
       'player_A', 'player_B', 'target', 'WRank', 'LRank', 'WPts', 'LPts',
       'Wsets', 'Lsets', 'Comment', 'elo_winner', 'elo_loser', 'proba_elo',
       'B365W', 'B365L', 'PSW', 'PSL', 'EXW', 'EXL', 'LBW', 'LBL', 'SJW',
       'SJL', 'UBW', 'UBL', 'CBW', 'CBL', 'IWW', 'IWL', 'SBW', 'SBL', 'B&WW',
       'B&WL', 'GBW', 'GBL', 'id_week'],
      dtype='object')