# Notebook 2 : Pandas avancé

In [1]:
import pandas as pd

## Tennis

Nous considérons les données des résultats des matchs de tennis masculin des tournois de Roland Garros et Wimbledon en 2013. La liste des variables et leur signification se trouvent sur [cette page](https://archive.ics.uci.edu/dataset/300/tennis+major+tournament+match+statistics) dans la section *Additional Variable Information*.

1. Commencer par charger le jeu de données relatif au tournoi de Roland Garros dans un dataframe `rg` à partir du fichier `rolandgarros2013.csv`.

In [2]:
rg = pd.read_csv("data/rolandgarros2013.csv")
rg

Unnamed: 0,Player1,Player2,Round,Result,FNL.1,FNL.2,FSP.1,FSW.1,SSP.1,SSW.1,...,BPC.2,BPW.2,NPA.2,NPW.2,TPW.2,ST1.2,ST2.2,ST3.2,ST4.2,ST5.2
0,Pablo Carreno-Busta,Roger Federer,1,0,0,3,62,27,38,11,...,7,7,14,18,88,6,6,6.0,,
1,Somdev Devvarman,Daniel Munoz-De La Nava,1,1,3,0,62,54,38,22,...,1,16,22,25,106,3,3,5.0,,
2,Tobias Kamke,Paolo Lorenzi,1,1,3,2,62,53,38,15,...,10,18,19,27,139,3,3,6.0,6.0,3.0
3,Julien Benneteau,Ricardas Berankis,1,1,3,1,72,87,28,19,...,4,13,33,43,149,6,3,7.0,6.0,
4,Lukas Lacko,Sam Querrey,1,0,0,3,52,31,48,22,...,4,7,12,13,93,6,6,6.0,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
120,Rafael Nadal,Stanislas Wawrinka,5,1,3,0,75,40,25,11,...,1,5,16,30,64,2,3,1.0,,
121,Novak Djokovic,Tommy Haas,5,1,3,0,64,41,36,22,...,2,2,2,17,84,3,6,5.0,,
122,David Ferrer,Jo-Wilfried Tsonga,6,1,3,0,60,35,40,23,...,2,5,7,16,84,1,6,2.0,,
123,Novak Djokovic,Rafael Nadal,6,0,2,3,67,76,33,30,...,8,16,15,26,177,6,3,6.0,6.0,9.0


2. Afficher les noms des demi-finalistes.

In [3]:
rg[rg.Round == 6].filter(["Player1", "Player2"])

Unnamed: 0,Player1,Player2
122,David Ferrer,Jo-Wilfried Tsonga
123,Novak Djokovic,Rafael Nadal


3. Calculer le nombre moyen d'aces par match dans le tournoi.

In [4]:
(rg["ACE.1"] + rg["ACE.2"]).mean()

12.688

4. Combien y a-t-il eu d'aces par match en moyenne à chaque niveau du tournoi ?

In [5]:
(rg["ACE.1"] + rg["ACE.2"]).groupby(rg.Round).mean()

Round
1    13.476190
2    13.193548
3    12.562500
4     9.125000
5     7.000000
6    10.000000
7     6.000000
dtype: float64

5. Filtrer les matchs pour lesquels au moins une des variables `DBF.1` et `DBF.2` est manquante.

In [6]:
rg[rg["DBF.1"].isna() | rg["DBF.2"].isna()]

Unnamed: 0,Player1,Player2,Round,Result,FNL.1,FNL.2,FSP.1,FSW.1,SSP.1,SSW.1,...,BPC.2,BPW.2,NPA.2,NPW.2,TPW.2,ST1.2,ST2.2,ST3.2,ST4.2,ST5.2
56,Simone Bolelli,Yen-Hsun Lu,1,0,0,3,63,33,37,12,...,4,11,4,6,78,6,6,2.0,,
63,Somdev Devvarman,Roger Federer,2,0,0,3,61,19,39,16,...,7,14,19,30,88,6,6,6.0,,


6. Remplacer les valeurs manquantes de `DBF.1` par zéro avec la méthode `loc`.

In [7]:
# La commande suivante ne fonctionne pas, il faut utiliser loc
# rg[rg["DBF.1"].isna()]["DBF.1"] = 0

In [8]:
rg.loc[rg["DBF.1"].isna(), "DBF.1"] = 0

7. Remplacer les valeurs manquantes de `DBF.2` par zéro avec la méthode `fillna`.

In [9]:
rg["DBF.2"] = rg["DBF.2"].fillna(0)

8. Extraire la liste des participants à partir des colonnes `Player1` et `Player2`. Une façon de faire consiste à utiliser `concat` et la méthode `drop_duplicates` pour obtenir le résultat sous la forme d'une série et de la convertir en dataframe avec la méthode `to_frame`.

In [10]:
joueurs = (
    pd.concat([rg.Player1, rg.Player2])
    .drop_duplicates()
    .to_frame(name="joueur")
)
joueurs

Unnamed: 0,joueur
0,Pablo Carreno-Busta
1,Somdev Devvarman
2,Tobias Kamke
3,Julien Benneteau
4,Lukas Lacko
...,...
56,Yen-Hsun Lu
59,Grigor Dimitrov
61,Guido Pella
62,David Goffin


9. Écrire une fonction `n_match` qui prend une chaîne de caractères `joueur` en entrée et retourne le nombre de matchs disputés par le joueur.

In [11]:
def n_match(joueur):
    return len(rg[rg.Player1 == joueur]) + len(rg[rg.Player2 == joueur])

n_match("Roger Federer")

5

10. Utiliser les deux question précédentes et la méthode `apply` pour compter le nombre de matchs que chaque participant a disputé et ordonner le résultat par ordre décroissant.

In [12]:
joueurs["n_match"] = joueurs.joueur.apply(n_match)
joueurs.sort_values(by="n_match", ascending=False, inplace=True)
joueurs

Unnamed: 0,joueur,n_match
47,Rafael Nadal,7
122,David Ferrer,7
62,Novak Djokovic,6
15,Jo-Wilfried Tsonga,6
113,Tommy Robredo,5
...,...,...
5,Denis Kudla,1
19,Marcel Granollers,1
51,Carlos Berlocq,1
10,James Blake,1


11. Charger maintenant le jeu de données relatif au tournoi de Wimbledon dans un dataframe `wb` à partir du fichier `wimbledon2013.csv`.

In [13]:
wb = pd.read_csv("data/wimbledon2013.csv")
wb

Unnamed: 0,Player1,Player2,Round,Result,FNL.1,FNL.2,FSP.1,FSW.1,SSP.1,SSW.1,...,BPC.2,BPW.2,NPA.2,NPW.2,TPW.2,ST1.2,ST2.2,ST3.2,ST4.2,ST5.2
0,B.Becker,A.Murray,1,0,0,3,59,29,41,14,...,10,5,23,17,,6,6,6,,
1,J.Ward,Y-H.Lu,1,0,1,3,62,77,38,35,...,15,2,46,39,,6,6,7,7.0,
2,N.Mahut,J.Hajek,1,1,3,0,72,44,28,10,...,1,0,19,12,,2,4,3,,
3,T.Robredo,A.Bogomolov Jr.,1,1,3,0,77,40,23,12,...,0,0,22,13,,2,2,4,,
4,R.Haase,M.Youzhny,1,0,0,3,68,61,32,15,...,21,3,44,30,,6,7,7,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
109,D.Ferrer,J.Del Potro,5,0,0,3,68,45,32,17,...,8,3,21,17,,6,6,7,,
110,N.Djokovic,T.Berdych,5,1,3,0,61,42,39,21,...,2,2,31,21,,6,4,3,,
111,J.Janowicz,A.Murray,6,0,1,3,55,54,45,27,...,13,5,36,22,,6,6,6,6.0,
112,N.Djokovic,J.Del Potro,6,1,3,2,69,102,31,21,...,7,2,37,25,,5,6,6,7.0,3.0


12. Ajouter une colonne `Tournoi` dans les dataframes `rg` et `wb` contenant respectivement les chaînes de caractères `"RG"` et `"WB"`.

In [14]:
rg["Tournoi"] = "RG"
wb["Tournoi"] = "WB"

13. Concaténer les deux dataframes dans un nouveau dataframe `tennis`.

In [15]:
tennis = pd.concat([rg, wb], ignore_index=True)

# Le même résultat peut être obtenu sans la création préalable de la colonne Tournoi.
# Cela demande de bien comprendre la fonction concat et ses paramètres keys et names.
# tennis = (
#     pd.concat(
#         [
#             # Supprime la colonne Tournoi de la question précédente
#             rg.drop(columns=["Tournoi"]),
#             wb.drop(columns=["Tournoi"])
#         ],
#         keys=["RG", "WB"],
#         names=["Tournoi", "Index"]
#     )
#     .reset_index()
#     .drop(columns=["Index"])
# )

tennis

Unnamed: 0,Player1,Player2,Round,Result,FNL.1,FNL.2,FSP.1,FSW.1,SSP.1,SSW.1,...,BPW.2,NPA.2,NPW.2,TPW.2,ST1.2,ST2.2,ST3.2,ST4.2,ST5.2,Tournoi
0,Pablo Carreno-Busta,Roger Federer,1,0,0,3,62,27,38,11,...,7,14,18,88.0,6,6,6.0,,,RG
1,Somdev Devvarman,Daniel Munoz-De La Nava,1,1,3,0,62,54,38,22,...,16,22,25,106.0,3,3,5.0,,,RG
2,Tobias Kamke,Paolo Lorenzi,1,1,3,2,62,53,38,15,...,18,19,27,139.0,3,3,6.0,6.0,3.0,RG
3,Julien Benneteau,Ricardas Berankis,1,1,3,1,72,87,28,19,...,13,33,43,149.0,6,3,7.0,6.0,,RG
4,Lukas Lacko,Sam Querrey,1,0,0,3,52,31,48,22,...,7,12,13,93.0,6,6,6.0,,,RG
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
234,D.Ferrer,J.Del Potro,5,0,0,3,68,45,32,17,...,3,21,17,,6,6,7.0,,,WB
235,N.Djokovic,T.Berdych,5,1,3,0,61,42,39,21,...,2,31,21,,6,4,3.0,,,WB
236,J.Janowicz,A.Murray,6,0,1,3,55,54,45,27,...,5,36,22,,6,6,6.0,6.0,,WB
237,N.Djokovic,J.Del Potro,6,1,3,2,69,102,31,21,...,2,37,25,,5,6,6.0,7.0,3.0,WB


14. Utiliser le dataframe `tennis` pour comparer le nombre moyen d'aces par match à chaque niveau du tournoi à Roland Garros et à Wimbledon. Afficher le résultat en format large.

In [16]:
(
    (tennis["ACE.1"] + tennis["ACE.2"])
    .to_frame(name="Aces")
    .groupby([tennis.Tournoi, tennis.Round])
    .mean()
    .reset_index()
    .pivot(index="Tournoi", columns="Round", values="Aces")
)

Round,1,2,3,4,5,6,7
Tournoi,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
RG,13.47619,13.193548,12.5625,9.125,7.0,10.0,6.0
WB,21.125,23.869565,24.0,24.375,26.5,27.5,13.0


15. Quelle différence y a-t-il dans le format des noms des joueurs entre les dataframes `rg` et `wb` ?

In [17]:
# Le prénom des joueurs est limité à son initiale (e.g. "Roger Federer" devient "R.Federer")

print("*** ROLAND GARROS ***")
print(rg[rg.Player2.str.contains("Federer")].Player2)

print("*** WIMBLEDON ***")
print(wb[wb.Player2.str.contains("Federer")].Player2)

*** ROLAND GARROS ***
0      Roger Federer
63     Roger Federer
94     Roger Federer
110    Roger Federer
118    Roger Federer
Name: Player2, dtype: object
*** WIMBLEDON ***
16    R.Federer
71    R.Federer
Name: Player2, dtype: object


16. Construire un dataframe `rg_victoires` avec les trois colonnes suivantes pour le tournoi de Roland Garros :
- `joueur` : nom du joueur tel qu'il est donné dans `rg`,
- `nom_joueur` : nom de famille du joueur uniquement,
- `n_victoire` : nombre de matchs gagnés dans le tournoi.

In [18]:
# Liste des joueurs
rg_victoires = (
    pd.concat([rg.Player1, rg.Player2])
    .drop_duplicates()
    .to_frame(name="joueur")
)

# Extraction du nom de famille
rg_victoires["nom_joueur"] = (
    rg_victoires.joueur.str.split()
    .apply(lambda v: v[-1]) # Alternative: .str.get(-1)
)

# Nombre de victoires
def n_victoire(df, joueur):
    return (
        len(df[(df.Player1 == joueur) & (df.Result == 1)])
        + len(df[(df.Player2 == joueur) & (df.Result == 0)])
    )

rg_victoires["n_victoire"] = (
    rg_victoires.joueur
    .apply(lambda joueur: n_victoire(rg, joueur))
)

rg_victoires.sort_values(by="n_victoire", ascending=False)

Unnamed: 0,joueur,nom_joueur,n_victoire
47,Rafael Nadal,Nadal,7
122,David Ferrer,Ferrer,6
62,Novak Djokovic,Djokovic,5
15,Jo-Wilfried Tsonga,Tsonga,5
39,Stanislas Wawrinka,Wawrinka,4
...,...,...,...
5,Denis Kudla,Kudla,0
20,Illya Marchenko,Marchenko,0
51,Carlos Berlocq,Berlocq,0
19,Marcel Granollers,Granollers,0


17. Construire un dataframe `wb_victoires` avec les trois colonnes suivantes pour le tournoi de Wimbledon :
- `joueur` : nom du joueur tel qu'il est donné dans `wb`,
- `nom_joueur` : nom de famille du joueur uniquement,
- `n_victoire` : nombre de matchs gagnés dans le tournoi.

In [19]:
# Liste des joueurs
wb_victoires = (
    pd.concat([wb.Player1, wb.Player2])
    .drop_duplicates()
    .to_frame(name="joueur")
)

# Extraction du nom de famille
wb_victoires["nom_joueur"] = (
    wb_victoires.joueur.str.split(".") # On utilise le point comme séparateur
    .apply(lambda v: v[-1]) # Alternative: .str.get(-1)
)

# Nombre de victoires
wb_victoires["n_victoire"] = (
    wb_victoires.joueur
    .apply(lambda joueur: n_victoire(wb, joueur))
)

wb_victoires.sort_values(by="n_victoire", ascending=False)

Unnamed: 0,joueur,nom_joueur,n_victoire
0,A.Murray,Murray,7
63,N.Djokovic,Djokovic,6
32,J.Del Potro,Del Potro,5
101,J.Janowicz,Janowicz,4
48,T.Berdych,Berdych,4
...,...,...,...
54,A.Haider-Maurer,Haider-Maurer,0
50,P.Petzschner,Petzschner,0
48,M.Klizan,Klizan,0
45,H.Zeballos,Zeballos,0


18. Faire une jointure entre `rg_victoires` et `wb_victoires` sur la colonne `nom_joueur` pour comparer le nombre de victoires par tournoi pour chaque joueur. Expliquer la différence de résultat selon que la jointure est à gauche, à droite, intérieure ou extérieure.

In [20]:
# Jointure à gauche : joueurs au moins présents à Roland Garros mais pas nécessairement à Wimbledon
(
    rg_victoires.filter(["nom_joueur", "n_victoire"])
    .merge(
        wb_victoires.filter(["nom_joueur", "n_victoire"]),
        how="left",
        on="nom_joueur",
        suffixes=["_rg", "_wb"], # Utilisation des suffixes
    )
    .sort_values(by=["n_victoire_rg", "n_victoire_wb"], ascending=False)
)

Unnamed: 0,nom_joueur,n_victoire_rg,n_victoire_wb
48,Nadal,7,0.0
81,Ferrer,6,3.0
63,Djokovic,5,6.0
15,Tsonga,5,1.0
80,Robredo,4,2.0
...,...,...,...
93,Muller,0,
104,Silva,0,
106,Williams,0,
109,Bakker,0,


In [21]:
# Jointure à droite : joueurs au moins présents à Wimbledon mais pas nécessairement à Roland Garros
(
    rg_victoires.filter(["nom_joueur", "n_victoire"])
    .merge(
        wb_victoires.filter(["nom_joueur", "n_victoire"]),
        how="right",
        on="nom_joueur",
        suffixes=["_rg", "_wb"], # Utilisation des suffixes
    )
    .sort_values(by=["n_victoire_wb", "n_victoire_rg"], ascending=False)
)

Unnamed: 0,nom_joueur,n_victoire_rg,n_victoire_wb
79,Murray,,7
64,Djokovic,5.0,6
103,Del Potro,,5
77,Janowicz,2.0,4
115,Berdych,0.0,4
...,...,...,...
101,Andreev,,0
108,Ebden,,0
113,Gabashvili,,0
118,Rochus,,0


In [22]:
# Jointure intérieure : joueurs présents à Roland Garros et à Wimbledon
(
    rg_victoires.filter(["nom_joueur", "n_victoire"])
    .merge(
        wb_victoires.filter(["nom_joueur", "n_victoire"]),
        how="inner",
        on="nom_joueur",
        suffixes=["_rg", "_wb"], # Utilisation des suffixes
    )
    .sort_values(by=["n_victoire_rg", "n_victoire_wb"], ascending=False)
)

Unnamed: 0,nom_joueur,n_victoire_rg,n_victoire_wb
41,Nadal,7,0
67,Ferrer,6,3
53,Djokovic,5,6
12,Tsonga,5,1
66,Robredo,4,2
...,...,...,...
92,Russell,0,0
94,Gicquel,0,0
96,Andujar,0,0
98,Garcia-Lopez,0,0


In [23]:
# Jointure extérieure : joueurs présents à Roland Garros ou à Wimbledon
(
    rg_victoires.filter(["nom_joueur", "n_victoire"])
    .merge(
        wb_victoires.filter(["nom_joueur", "n_victoire"]),
        how="outer",
        on="nom_joueur",
        suffixes=["_rg", "_wb"], # Utilisation des suffixes
    )
    .sort_values(by=["n_victoire_rg", "n_victoire_wb"], ascending=False)
)

Unnamed: 0,nom_joueur,n_victoire_rg,n_victoire_wb
50,Nadal,7.0,0.0
83,Ferrer,6.0,3.0
65,Djokovic,5.0,6.0
15,Tsonga,5.0,1.0
82,Robredo,4.0,2.0
...,...,...,...
146,Andreev,,0.0
148,Ebden,,0.0
149,Gabashvili,,0.0
150,Rochus,,0.0
