# Exemples de base sur le module Pandas.

#### Copyright(C) 2024, Charles Theetten, <chalimede@proton.me>

Les codes présentés dans ce notebook sont des exemples de base qui servent avant tout à se familiariser avec le module Pandas pour la science des données.

In [1]:
import numpy as np
import pandas as pd

In [2]:
pd.set_option("display.width", 200)

In [3]:
chessbase = pd.read_csv("csv/chess_players.csv", sep = ",", index_col = 0)

print(chessbase)

                           Nom   Age      Pays  Classique  Rapide   Blitz      Genre
Index                                                                               
0               Carlsen Magnus  33.0   Norvège     2830.0  2815.0  2887.0      Homme
1              Caruana Fabiano  31.0       USA     2804.0  2745.0  2815.0      Homme
2              Nakamura Hikaru  36.0       USA     2788.0  2740.0  2874.0      Homme
3                   Ding Liren  31.0     Chine     2780.0  2830.0  2787.0      Homme
4           Nepomniachtchi Ian  33.0    Russie     2769.0  2778.0  2801.0      Homme
5                    So Wesley  30.0       USA     2757.0  2743.0  2767.0      Homme
6              Dominguez Perez  40.0       USA     2756.0  2706.0  2654.0      Homme
7             Firouzja Alireza  20.0    France     2750.0  2722.0  2863.0      Homme
8                   Giri Anish  29.0  Pays-Bas     2749.0  2698.0  2731.0      Homme
9       Vachier-Lagrave Maxime  33.0    France     2733.0  2759.0

In [4]:
print(f"Dimensions du dataset                           : {chessbase.shape}\n")
print("--------------------\n")
print(f"Colonnes du dataset                             :\n")
chessbase.info()
print("\n--------------------\n")
print(f"Statistiques des colonnes numériques du dataset :\n\n{chessbase.describe()}")

Dimensions du dataset                           : (25, 7)

--------------------

Colonnes du dataset                             :

<class 'pandas.core.frame.DataFrame'>
Index: 25 entries, 0 to 24
Data columns (total 7 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   Nom        24 non-null     object 
 1   Age        20 non-null     float64
 2   Pays       23 non-null     object 
 3   Classique  24 non-null     float64
 4   Rapide     24 non-null     float64
 5   Blitz      24 non-null     float64
 6   Genre      24 non-null     object 
dtypes: float64(4), object(3)
memory usage: 1.6+ KB

--------------------

Statistiques des colonnes numériques du dataset :

             Age    Classique       Rapide        Blitz
count  20.000000    24.000000    24.000000    24.000000
mean   31.450000  2539.916667  2496.041667  2495.666667
std     4.382681   473.569784   501.119397   551.613023
min    20.000000  1400.000000  1300.000000  1200.000000
25%  

In [5]:
chess_player                        = ["Test", np.nan, np.nan, np.nan, np.nan, np.nan, np.nan]
chessbase.loc[len(chessbase.index)] = chess_player

print(f"Ajout du joueur Test :\n\n{chessbase}")

Ajout du joueur Test :

                           Nom   Age      Pays  Classique  Rapide   Blitz      Genre
Index                                                                               
0               Carlsen Magnus  33.0   Norvège     2830.0  2815.0  2887.0      Homme
1              Caruana Fabiano  31.0       USA     2804.0  2745.0  2815.0      Homme
2              Nakamura Hikaru  36.0       USA     2788.0  2740.0  2874.0      Homme
3                   Ding Liren  31.0     Chine     2780.0  2830.0  2787.0      Homme
4           Nepomniachtchi Ian  33.0    Russie     2769.0  2778.0  2801.0      Homme
5                    So Wesley  30.0       USA     2757.0  2743.0  2767.0      Homme
6              Dominguez Perez  40.0       USA     2756.0  2706.0  2654.0      Homme
7             Firouzja Alireza  20.0    France     2750.0  2722.0  2863.0      Homme
8                   Giri Anish  29.0  Pays-Bas     2749.0  2698.0  2731.0      Homme
9       Vachier-Lagrave Maxime  33.0    F

In [6]:
print(f"Nombre de lignes dupliquées               : {chessbase.duplicated().sum()}\n")
print(f"Nombre de classements Blitz identiques    : {chessbase.duplicated("Blitz").sum()}\n")
print(f"Nombre de valeurs manquantes par lignes   :\n\n{chessbase.isna().sum(axis = 1)[:-6:-1]}\n")
print(f"Nombre de valeurs manquantes par colonnes :\n\n{chessbase.isna().sum(axis = 0)}\n")
print(f"Nombre total de valeurs manquantes        : {chessbase.isnull().sum().sum()}")

Nombre de lignes dupliquées               : 1

Nombre de classements Blitz identiques    : 4

Nombre de valeurs manquantes par lignes   :

Index
25    6
24    1
23    1
22    1
21    7
dtype: int64

Nombre de valeurs manquantes par colonnes :

Nom          1
Age          6
Pays         3
Classique    2
Rapide       2
Blitz        2
Genre        2
dtype: int64

Nombre total de valeurs manquantes        : 18


In [7]:
print("Suppression des lignes dupliquées et des lignes nulles :\n")

chessbase = chessbase.drop_duplicates(subset = None, keep = "first", inplace = False, ignore_index = False)
chessbase = chessbase.dropna(axis = 0, how = "all")

print(chessbase)

Suppression des lignes dupliquées et des lignes nulles :

                           Nom   Age      Pays  Classique  Rapide   Blitz      Genre
Index                                                                               
0               Carlsen Magnus  33.0   Norvège     2830.0  2815.0  2887.0      Homme
1              Caruana Fabiano  31.0       USA     2804.0  2745.0  2815.0      Homme
2              Nakamura Hikaru  36.0       USA     2788.0  2740.0  2874.0      Homme
3                   Ding Liren  31.0     Chine     2780.0  2830.0  2787.0      Homme
4           Nepomniachtchi Ian  33.0    Russie     2769.0  2778.0  2801.0      Homme
5                    So Wesley  30.0       USA     2757.0  2743.0  2767.0      Homme
6              Dominguez Perez  40.0       USA     2756.0  2706.0  2654.0      Homme
7             Firouzja Alireza  20.0    France     2750.0  2722.0  2863.0      Homme
8                   Giri Anish  29.0  Pays-Bas     2749.0  2698.0  2731.0      Homme
9      

In [8]:
column_names = { "Nom"       : "Name",
                 "Pays"      : "Country",
                 "Classique" : "Classic",
                 "Rapide"    : "Rapid",
                 "Genre"     : "Gender" }
chessbase    = chessbase.rename(column_names, axis = 1)

print(f"Changement du nom des colonnes du dataset :\n\n\n {chessbase}")

Changement du nom des colonnes du dataset :


                           Name   Age   Country  Classic   Rapid   Blitz     Gender
Index                                                                             
0               Carlsen Magnus  33.0   Norvège   2830.0  2815.0  2887.0      Homme
1              Caruana Fabiano  31.0       USA   2804.0  2745.0  2815.0      Homme
2              Nakamura Hikaru  36.0       USA   2788.0  2740.0  2874.0      Homme
3                   Ding Liren  31.0     Chine   2780.0  2830.0  2787.0      Homme
4           Nepomniachtchi Ian  33.0    Russie   2769.0  2778.0  2801.0      Homme
5                    So Wesley  30.0       USA   2757.0  2743.0  2767.0      Homme
6              Dominguez Perez  40.0       USA   2756.0  2706.0  2654.0      Homme
7             Firouzja Alireza  20.0    France   2750.0  2722.0  2863.0      Homme
8                   Giri Anish  29.0  Pays-Bas   2749.0  2698.0  2731.0      Homme
9       Vachier-Lagrave Maxime  33.0    

In [9]:
chessbase = chessbase.replace(to_replace = ["Homme", "Femme"], value = ["Man", "Woman"])

print(f"Changement des valeurs \"Homme\" \"Femme\" par les valeurs \"Man\" \"Woman\" :\n\n\n {chessbase}")

Changement des valeurs "Homme" "Femme" par les valeurs "Man" "Woman" :


                           Name   Age   Country  Classic   Rapid   Blitz     Gender
Index                                                                             
0               Carlsen Magnus  33.0   Norvège   2830.0  2815.0  2887.0        Man
1              Caruana Fabiano  31.0       USA   2804.0  2745.0  2815.0        Man
2              Nakamura Hikaru  36.0       USA   2788.0  2740.0  2874.0        Man
3                   Ding Liren  31.0     Chine   2780.0  2830.0  2787.0        Man
4           Nepomniachtchi Ian  33.0    Russie   2769.0  2778.0  2801.0        Man
5                    So Wesley  30.0       USA   2757.0  2743.0  2767.0        Man
6              Dominguez Perez  40.0       USA   2756.0  2706.0  2654.0        Man
7             Firouzja Alireza  20.0    France   2750.0  2722.0  2863.0        Man
8                   Giri Anish  29.0  Pays-Bas   2749.0  2698.0  2731.0        Man
9       Vachi

In [10]:
print(f"Récupération de l'enregistrement ayant le classement elo classique maximum :\n\n{chessbase[chessbase["Classic"] == chessbase["Classic"].max()]}\n")
print(f"Index du plus haut classement elo                                          : {chessbase["Classic"].idxmax(axis = 0)}")

Récupération de l'enregistrement ayant le classement elo classique maximum :

            Name  Age Country  Classic   Rapid   Blitz     Gender
Index                                                            
20     StockFish  NaN     NaN   3500.0  3500.0  3500.0  Programme

Index du plus haut classement elo                                          : 20


In [11]:
print(f"Nombre d'éléments pour chaque pays :\n\n{chessbase["Country"].value_counts()}")

Nombre d'éléments pour chaque pays :

Country
Chine       5
USA         4
France      4
Russie      3
Inde        2
Ukraine     2
Norvège     1
Pays-Bas    1
Name: count, dtype: int64


In [12]:
dictionnary       = {"Classic" : "float",
                     "Rapid"   : "float",
                     "Blitz"   : "float"}
chessbase         = chessbase.astype(dictionnary)
chessbase["Mean"] = chessbase.apply(lambda row: np.round((row["Classic"] + row["Rapid"] + row["Blitz"]) / 3, decimals = 2), axis = 1)

print(f"Ajout de la colonne Mean :\n\n{chessbase}")

Ajout de la colonne Mean :

                          Name   Age   Country  Classic   Rapid   Blitz     Gender     Mean
Index                                                                                      
0               Carlsen Magnus  33.0   Norvège   2830.0  2815.0  2887.0        Man  2844.00
1              Caruana Fabiano  31.0       USA   2804.0  2745.0  2815.0        Man  2788.00
2              Nakamura Hikaru  36.0       USA   2788.0  2740.0  2874.0        Man  2800.67
3                   Ding Liren  31.0     Chine   2780.0  2830.0  2787.0        Man  2799.00
4           Nepomniachtchi Ian  33.0    Russie   2769.0  2778.0  2801.0        Man  2782.67
5                    So Wesley  30.0       USA   2757.0  2743.0  2767.0        Man  2755.67
6              Dominguez Perez  40.0       USA   2756.0  2706.0  2654.0        Man  2705.33
7             Firouzja Alireza  20.0    France   2750.0  2722.0  2863.0        Man  2778.33
8                   Giri Anish  29.0  Pays-Bas   274

In [13]:
def get_level(rating):
    level = ""

    if rating > 3000:
        level = "Chess God"
    elif rating >= 2830:
        level = "World Champion"
    elif rating > 2550:
        level = "Grand Master"
    elif rating >= 2300:
        level = "Master"
    elif rating >= 1000:
        level = "Amateur"
    else:
        level = "NC"
    return level


chessbase["Level"] = chessbase["Mean"].apply(get_level)

print(f"Ajout de la colonne Level :\n\n{chessbase}")

Ajout de la colonne Level :

                          Name   Age   Country  Classic   Rapid   Blitz     Gender     Mean           Level
Index                                                                                                      
0               Carlsen Magnus  33.0   Norvège   2830.0  2815.0  2887.0        Man  2844.00  World Champion
1              Caruana Fabiano  31.0       USA   2804.0  2745.0  2815.0        Man  2788.00    Grand Master
2              Nakamura Hikaru  36.0       USA   2788.0  2740.0  2874.0        Man  2800.67    Grand Master
3                   Ding Liren  31.0     Chine   2780.0  2830.0  2787.0        Man  2799.00    Grand Master
4           Nepomniachtchi Ian  33.0    Russie   2769.0  2778.0  2801.0        Man  2782.67    Grand Master
5                    So Wesley  30.0       USA   2757.0  2743.0  2767.0        Man  2755.67    Grand Master
6              Dominguez Perez  40.0       USA   2756.0  2706.0  2654.0        Man  2705.33    Grand Master

In [14]:
grandmaster    = chessbase[(chessbase["Mean"] > 2550) & -(chessbase["Name"] == "StockFish")]
amateur        = chessbase[chessbase["Level"] == "Amateur"]
union_vertical = pd.concat([grandmaster, amateur], axis = 0)

print(f"Concaténation des amateurs et des grands maîtres :\n\n{union_vertical}")

Concaténation des amateurs et des grands maîtres :

                         Name   Age   Country  Classic   Rapid   Blitz Gender     Mean           Level
Index                                                                                                 
0              Carlsen Magnus  33.0   Norvège   2830.0  2815.0  2887.0    Man  2844.00  World Champion
1             Caruana Fabiano  31.0       USA   2804.0  2745.0  2815.0    Man  2788.00    Grand Master
2             Nakamura Hikaru  36.0       USA   2788.0  2740.0  2874.0    Man  2800.67    Grand Master
3                  Ding Liren  31.0     Chine   2780.0  2830.0  2787.0    Man  2799.00    Grand Master
4          Nepomniachtchi Ian  33.0    Russie   2769.0  2778.0  2801.0    Man  2782.67    Grand Master
5                   So Wesley  30.0       USA   2757.0  2743.0  2767.0    Man  2755.67    Grand Master
6             Dominguez Perez  40.0       USA   2756.0  2706.0  2654.0    Man  2705.33    Grand Master
7            Firouzja

In [15]:
grandmaster = grandmaster.sort_values(by = [ "Name" ], ascending = True)

print(f"Tri des grands maîtres par classements elo :\n\n{grandmaster}")

Tri des grands maîtres par classements elo :

                         Name   Age   Country  Classic   Rapid   Blitz Gender     Mean           Level
Index                                                                                                 
0              Carlsen Magnus  33.0   Norvège   2830.0  2815.0  2887.0    Man  2844.00  World Champion
1             Caruana Fabiano  31.0       USA   2804.0  2745.0  2815.0    Man  2788.00    Grand Master
3                  Ding Liren  31.0     Chine   2780.0  2830.0  2787.0    Man  2799.00    Grand Master
6             Dominguez Perez  40.0       USA   2756.0  2706.0  2654.0    Man  2705.33    Grand Master
7            Firouzja Alireza  20.0    France   2750.0  2722.0  2863.0    Man  2778.33    Grand Master
8                  Giri Anish  29.0  Pays-Bas   2749.0  2698.0  2731.0    Man  2726.00    Grand Master
10                 Hou, Yifan  29.0     Chine   2632.0  2545.0  2561.0  Woman  2579.33    Grand Master
2             Nakamura Hika

In [16]:
chessbase["Mean"] = chessbase["Mean"].fillna(chessbase["Mean"].min())

print(f"Remplacement des valeurs nulles sur la colonne Mean par la valeur minimale de la colonne :\n\n{chessbase}")

Remplacement des valeurs nulles sur la colonne Mean par la valeur minimale de la colonne :

                          Name   Age   Country  Classic   Rapid   Blitz     Gender     Mean           Level
Index                                                                                                      
0               Carlsen Magnus  33.0   Norvège   2830.0  2815.0  2887.0        Man  2844.00  World Champion
1              Caruana Fabiano  31.0       USA   2804.0  2745.0  2815.0        Man  2788.00    Grand Master
2              Nakamura Hikaru  36.0       USA   2788.0  2740.0  2874.0        Man  2800.67    Grand Master
3                   Ding Liren  31.0     Chine   2780.0  2830.0  2787.0        Man  2799.00    Grand Master
4           Nepomniachtchi Ian  33.0    Russie   2769.0  2778.0  2801.0        Man  2782.67    Grand Master
5                    So Wesley  30.0       USA   2757.0  2743.0  2767.0        Man  2755.67    Grand Master
6              Dominguez Perez  40.0       U

In [17]:
X = chessbase.drop(["Name", "Age", "Country", "Level"], axis = 1)
y = chessbase["Level"]

print(f"Extraction des colonnes numériques :\n\n{X}")

Extraction des colonnes numériques :

       Classic   Rapid   Blitz     Gender     Mean
Index                                             
0       2830.0  2815.0  2887.0        Man  2844.00
1       2804.0  2745.0  2815.0        Man  2788.00
2       2788.0  2740.0  2874.0        Man  2800.67
3       2780.0  2830.0  2787.0        Man  2799.00
4       2769.0  2778.0  2801.0        Man  2782.67
5       2757.0  2743.0  2767.0        Man  2755.67
6       2756.0  2706.0  2654.0        Man  2705.33
7       2750.0  2722.0  2863.0        Man  2778.33
8       2749.0  2698.0  2731.0        Man  2726.00
9       2733.0  2759.0  2748.0        Man  2746.67
10      2632.0  2545.0  2561.0      Woman  2579.33
11      2554.0  2444.0  2452.0      Woman  2483.33
12      2553.0  2483.0  2475.0      Woman  2503.67
13      2550.0  2517.0  2530.0      Woman  2532.33
14      2549.0  2575.0  2522.0      Woman  2548.67
15      2542.0  2469.0  2522.0      Woman  2511.00
16      2525.0  2424.0  2447.0      Woman  2

In [18]:
mean               = lambda m: m.mean().round(2)
functions_to_apply = { "Mean" : mean }

print("Comparaison des moyennes des différents niveaux d'échecs en fonction du genre :\n\n")

chessbase.groupby(["Gender", "Level"]).agg(functions_to_apply)

Comparaison des moyennes des différents niveaux d'échecs en fonction du genre :




Unnamed: 0_level_0,Unnamed: 1_level_0,Mean
Gender,Level,Unnamed: 2_level_1
Man,Amateur,1366.67
Man,Grand Master,2764.7
Man,World Champion,2844.0
Programme,Chess God,3500.0
Woman,Amateur,1300.0
Woman,Grand Master,2579.33
Woman,Master,2497.85
