# Notebook 2 : Pandas avancé

In [4]:
import pandas as pd

## Tennis

Nous considérons les données des résultats des matchs de tennis masculin des tournois de Roland Garros et Wimbledon en 2013. La liste des variables et leur signification se trouvent sur [cette page](https://archive.ics.uci.edu/dataset/300/tennis+major+tournament+match+statistics) dans la section *Additional Variable Information*.

1. Commencer par charger le jeu de données relatif au tournoi de Roland Garros dans un dataframe `rg` à partir du fichier `rolandgarros2013.csv`.

In [6]:
rg = pd.read_csv('C:/Users/cepe-s3-08/Downloads/data/rolandgarros2013.csv')

2. Afficher les noms des demi-finalistes.

In [7]:
rg[rg.Round==6]

Unnamed: 0,Player1,Player2,Round,Result,FNL.1,FNL.2,FSP.1,FSW.1,SSP.1,SSW.1,...,BPC.2,BPW.2,NPA.2,NPW.2,TPW.2,ST1.2,ST2.2,ST3.2,ST4.2,ST5.2
122,David Ferrer,Jo-Wilfried Tsonga,6,1,3,0,60,35,40,23,...,2,5,7,16,84,1,6,2.0,,
123,Novak Djokovic,Rafael Nadal,6,0,2,3,67,76,33,30,...,8,16,15,26,177,6,3,6.0,6.0,9.0


3. Calculer le nombre moyen d'aces par match dans le tournoi.

In [8]:
rg["ACE_sum"] = rg["ACE.1"] + rg["ACE.2"]
rg["ACE_sum"].mean()

12.688

4. Combien y a-t-il eu d'aces par match en moyenne à chaque niveau du tournoi ?

In [9]:
print( # Remarquer la syntaxe de cet exemple
rg
.groupby(rg.Round)
.agg( # NamedAgg permet de nommer les agrégations
nb_aces=pd.NamedAgg(column="ACE_sum", aggfunc="mean")
)
)

         nb_aces
Round           
1      13.476190
2      13.193548
3      12.562500
4       9.125000
5       7.000000
6      10.000000
7       6.000000


5. Filtrer les matchs pour lesquels au moins une des variables `DBF.1` et `DBF.2` est manquante.

In [51]:
rg[(rg["DBF.1"].isna()==True) | (rg["DBF.2"].isna()==True)]

Unnamed: 0,Player1,Player2,Round,Result,FNL.1,FNL.2,FSP.1,FSW.1,SSP.1,SSW.1,...,BPW.2,NPA.2,NPW.2,TPW.2,ST1.2,ST2.2,ST3.2,ST4.2,ST5.2,ACE_sum
56,Simone Bolelli,Yen-Hsun Lu,1,0,0,3,63,33,37,12,...,11,4,6,78,6,6,2.0,,,8
63,Somdev Devvarman,Roger Federer,2,0,0,3,61,19,39,16,...,14,19,30,88,6,6,6.0,,,5


6. Remplacer les valeurs manquantes de `DBF.1` par zéro avec la méthode `loc`.

In [17]:
rg.loc[rg["DBF.1"].isna()==False, "DBF.1"] = (0)
print(rg["DBF.1"])

0      0.0
1      0.0
2      0.0
3      0.0
4      0.0
      ... 
120    0.0
121    0.0
122    0.0
123    0.0
124    0.0
Name: DBF.1, Length: 125, dtype: float64


7. Remplacer les valeurs manquantes de `DBF.2` par zéro avec la méthode `fillna`.

In [19]:
rg["DBF.2"].fillna(0, inplace=True)
print(rg["DBF.2"])

0       0.0
1       2.0
2       8.0
3      10.0
4       1.0
       ... 
120     4.0
121     5.0
122     3.0
123     3.0
124     5.0
Name: DBF.2, Length: 125, dtype: float64


8. Extraire la liste des participants à partir des colonnes `Player1` et `Player2`. Une façon de faire consiste à utiliser `concat` et la méthode `drop_duplicates` pour obtenir le résultat sous la forme d'une série et de la convertir en dataframe avec la méthode `to_frame`.

In [96]:
liste_player = pd.concat([rg.Player1, rg.Player2]).drop_duplicates().to_frame()
liste_player.columns = ['Player']
print(liste_player)

                 Player
0   Pablo Carreno-Busta
1      Somdev Devvarman
2          Tobias Kamke
3      Julien Benneteau
4           Lukas Lacko
..                  ...
56          Yen-Hsun Lu
59      Grigor Dimitrov
61          Guido Pella
62         David Goffin
87     Janko Tipsarevic

[127 rows x 1 columns]


9. Écrire une fonction `n_match` qui prend une chaîne de caractères `joueur` en entrée et retourne le nombre de matchs disputés par le joueur.

In [91]:
def n_match(joueur):
    return(len(rg[rg.Player1 == joueur]) + len(rg[rg.Player2 == joueur]))

In [92]:
n_match("Rafael Nadal")

7

10. Utiliser les deux question précédentes et la méthode `apply` pour compter le nombre de matchs que chaque participant a disputé et ordonner le résultat par ordre décroissant.

In [99]:
liste_player["n_matchs"] = liste_player.Player.apply(n_match)
liste_player

Unnamed: 0,Player,n_matchs
0,Pablo Carreno-Busta,1
1,Somdev Devvarman,2
2,Tobias Kamke,2
3,Julien Benneteau,3
4,Lukas Lacko,1
...,...,...
56,Yen-Hsun Lu,1
59,Grigor Dimitrov,3
61,Guido Pella,2
62,David Goffin,1


11. Charger maintenant le jeu de données relatif au tournoi de Wimbledon dans un dataframe `wb` à partir du fichier `wimbledon2013.csv`.

In [119]:
wb = pd.read_csv('C:/Users/cepe-s3-08/Downloads/data/wimbledon2013.csv')
rg = pd.read_csv('C:/Users/cepe-s3-08/Downloads/data/rolandgarros2013.csv')

12. Ajouter une colonne `Tournoi` dans les dataframes `rg` et `wb` contenant respectivement les chaînes de caractères `"RG"` et `"WB"`.

In [120]:
rg["Tournoi"] = 'RG'
wb["Tournoi"] = 'WB'


13. Concaténer les deux dataframes dans un nouveau dataframe `tennis`.

In [124]:
tennis = pd.concat([rg, wb], ignore_index=True)
tennis["ACE_sum"] = tennis["ACE.1"] + tennis["ACE.2"]
print(tennis)

                 Player1                  Player2  Round  Result  FNL.1  \
0    Pablo Carreno-Busta            Roger Federer      1       0      0   
1       Somdev Devvarman  Daniel Munoz-De La Nava      1       1      3   
2           Tobias Kamke            Paolo Lorenzi      1       1      3   
3       Julien Benneteau        Ricardas Berankis      1       1      3   
4            Lukas Lacko              Sam Querrey      1       0      0   
..                   ...                      ...    ...     ...    ...   
234             D.Ferrer              J.Del Potro      5       0      0   
235           N.Djokovic                T.Berdych      5       1      3   
236           J.Janowicz                 A.Murray      6       0      1   
237           N.Djokovic              J.Del Potro      6       1      3   
238           N.Djokovic                 A.Murray      7       0      0   

     FNL.2  FSP.1  FSW.1  SSP.1  SSW.1  ...  NPA.2  NPW.2  TPW.2  ST1.2  \
0        3     62     27

14. Utiliser le dataframe `tennis` pour comparer le nombre moyen d'aces par match à chaque niveau du tournoi à Roland Garros et à Wimbledon. Afficher le résultat en format large.

In [135]:
print(
    tennis
    .groupby([tennis.Round, tennis.Tournoi])
    .agg(nb_aces=pd.NamedAgg(column="ACE_sum", aggfunc="mean"))
    .reset_index()
    .pivot(index="Tournoi", columns="Round", values="nb_aces")
)

Round           1          2        3       4     5     6     7
Tournoi                                                        
RG       13.47619  13.193548  12.5625   9.125   7.0  10.0   6.0
WB       21.12500  23.869565  24.0000  24.375  26.5  27.5  13.0


15. Quelle différence y a-t-il dans le format des noms des joueurs entre les dataframes `rg` et `wb` ?

16. Construire un dataframe `rg_victoires` avec les trois colonnes suivantes pour le tournoi de Roland Garros :
- `joueur` : nom du joueur tel qu'il est donné dans `rg`,
- `nom_joueur` : nom de famille du joueur uniquement,
- `n_victoire` : nombre de matchs gagnés dans le tournoi.

In [149]:
rg_victoires = pd.DataFrame()
rg_victoires["joueur"] = pd.concat([rg.Player1, rg.Player2]).drop_duplicates().to_frame()
rg_victoires["nom_joueur"] = rg_victoires["joueur"].str.split(" ").apply(lambda v:v[-1])

def n_victoire(df, joueur):
    return (
        len(df[(df.Player1 == joueur) & (df.Result == 1)])
        + len(df[(df.Player2 == joueur) & (df.Result == 0)])
    )

rg_victoires["n_victoire"] = (
    rg_victoires.joueur
    .apply(lambda joueur: n_victoire(rg, joueur))
)
rg_victoires

Unnamed: 0,joueur,nom_joueur,n_victoire
0,Pablo Carreno-Busta,Carreno-Busta,0
1,Somdev Devvarman,Devvarman,1
2,Tobias Kamke,Kamke,1
3,Julien Benneteau,Benneteau,2
4,Lukas Lacko,Lacko,0
...,...,...,...
56,Yen-Hsun Lu,Lu,1
59,Grigor Dimitrov,Dimitrov,2
61,Guido Pella,Pella,1
62,David Goffin,Goffin,0


17. Construire un dataframe `wb_victoires` avec les trois colonnes suivantes pour le tournoi de Wimbledon :
- `joueur` : nom du joueur tel qu'il est donné dans `wb`,
- `nom_joueur` : nom de famille du joueur uniquement,
- `n_victoire` : nombre de matchs gagnés dans le tournoi.

In [151]:
wb_victoires = pd.DataFrame()
wb_victoires["joueur"] = pd.concat([wb.Player1, wb.Player2]).drop_duplicates().to_frame()
wb_victoires["nom_joueur"] = wb_victoires["joueur"].str.split(".").apply(lambda v:v[-1])

wb_victoires["n_victoire"] = (
    wb_victoires.joueur
    .apply(lambda joueur: n_victoire(wb, joueur))
)
wb_victoires

Unnamed: 0,joueur,nom_joueur,n_victoire
0,B.Becker,Becker,0
1,J.Ward,Ward,0
2,N.Mahut,Mahut,1
3,T.Robredo,Robredo,2
4,R.Haase,Haase,0
...,...,...,...
57,Y-T.Wang,Wang,1
58,P-H.Mathieu,Mathieu,1
60,J.Chardy,Chardy,1
62,S.Johnson,Johnson,0


18. Faire une jointure entre `rg_victoires` et `wb_victoires` sur la colonne `nom_joueur` pour comparer le nombre de victoires par tournoi pour chaque joueur. Expliquer la différence de résultat selon que la jointure est à gauche, à droite, intérieure ou extérieure.

In [158]:
pd.merge(rg_victoires, wb_victoires, on="nom_joueur", suffixes = ["_rg", "_wb"], how="left").sort_values(by=["n_victoire_wb", "n_victoire_rg"], ascending=False)

Unnamed: 0,joueur_rg,nom_joueur,n_victoire_rg,joueur_wb,n_victoire_wb
63,Novak Djokovic,Djokovic,5,N.Djokovic,6.0
107,Jerzy Janowicz,Janowicz,2,J.Janowicz,4.0
31,Tomas Berdych,Berdych,0,T.Berdych,4.0
81,David Ferrer,Ferrer,6,D.Ferrer,3.0
49,Fernando Verdasco,Verdasco,1,F.Verdasco,3.0
...,...,...,...,...,...
93,Gilles Muller,Muller,0,,
104,Rogerio Dutra Silva,Silva,0,,
106,Rhyne Williams,Williams,0,,
109,Thiemo De Bakker,Bakker,0,,


In [159]:
pd.merge(rg_victoires, wb_victoires, on="nom_joueur", suffixes = ["_rg", "_wb"], how="right").sort_values(by=["n_victoire_wb", "n_victoire_rg"], ascending=False)

Unnamed: 0,joueur_rg,nom_joueur,n_victoire_rg,joueur_wb,n_victoire_wb
79,,Murray,,A.Murray,7
64,Novak Djokovic,Djokovic,5.0,N.Djokovic,6
103,,Del Potro,,J.Del Potro,5
77,Jerzy Janowicz,Janowicz,2.0,J.Janowicz,4
115,Tomas Berdych,Berdych,0.0,T.Berdych,4
...,...,...,...,...,...
101,,Andreev,,I.Andreev,0
108,,Ebden,,M.Ebden,0
113,,Gabashvili,,T.Gabashvili,0
118,,Rochus,,O.Rochus,0


In [160]:
pd.merge(rg_victoires, wb_victoires, on="nom_joueur", suffixes = ["_rg", "_wb"], how="inner").sort_values(by=["n_victoire_wb", "n_victoire_rg"], ascending=False)

Unnamed: 0,joueur_rg,nom_joueur,n_victoire_rg,joueur_wb,n_victoire_wb
53,Novak Djokovic,Djokovic,5,N.Djokovic,6
86,Jerzy Janowicz,Janowicz,2,J.Janowicz,4
26,Tomas Berdych,Berdych,0,T.Berdych,4
67,David Ferrer,Ferrer,6,D.Ferrer,3
42,Fernando Verdasco,Verdasco,1,F.Verdasco,3
...,...,...,...,...,...
92,Michael Russell,Russell,0,M.Russell,0
94,Marc Gicquel,Gicquel,0,M.Gicquel,0
96,Pablo Andujar,Andujar,0,P.Andujar,0
98,Guillermo Garcia-Lopez,Garcia-Lopez,0,G.Garcia-Lopez,0


In [161]:
pd.merge(rg_victoires, wb_victoires, on="nom_joueur", suffixes = ["_rg", "_wb"], how="outer").sort_values(by=["n_victoire_wb", "n_victoire_rg"], ascending=False)

Unnamed: 0,joueur_rg,nom_joueur,n_victoire_rg,joueur_wb,n_victoire_wb
141,,Murray,,A.Murray,7.0
65,Novak Djokovic,Djokovic,5.0,N.Djokovic,6.0
147,,Del Potro,,J.Del Potro,5.0
107,Jerzy Janowicz,Janowicz,2.0,J.Janowicz,4.0
31,Tomas Berdych,Berdych,0.0,T.Berdych,4.0
...,...,...,...,...,...
95,Gilles Muller,Muller,0.0,,
104,Rogerio Dutra Silva,Silva,0.0,,
106,Rhyne Williams,Williams,0.0,,
109,Thiemo De Bakker,Bakker,0.0,,
