In [63]:
# valeur manquante
import pandas as pd
import numpy as np
data = {
    "Nom": ["Alice", "Bob", "Charlie", "David", "Eve"],
    "Âge": [25, 30, np.nan, 40, 22],  # Une valeur manquante
    "Score": [85, 90, 78, np.nan, 95],  # Une valeur manquante
    "Ville": ["Paris", "Lyon", "Lyon", "Lille", "Lyon"]
}

df = pd.DataFrame(data)
print(df)


       Nom   Âge  Score  Ville
0    Alice  25.0   85.0  Paris
1      Bob  30.0   90.0   Lyon
2  Charlie   NaN   78.0   Lyon
3    David  40.0    NaN  Lille
4      Eve  22.0   95.0   Lyon


In [54]:
# verifier les valeurs manquantes
print(df.isna())

     Nom    Âge  Score  Ville
0  False  False  False  False
1  False  False  False  False
2  False   True  False  False
3  False  False   True  False
4  False  False  False  False


In [55]:
# remplacer les valeurs manquantes par une valeur par defaut
df.fillna({"Score": 0}, inplace=True) # inplace=True permet de modifier le dataframe directement, remplacer les valeurs manquantes par 0
df.fillna({"Âge": df["Âge"].mean()}, inplace=True) # remplacer les valeurs manquantes par la moyenne
print(df)

       Nom    Âge  Score      Ville
0    Alice  25.00   85.0      Paris
1      Bob  30.00   90.0       Lyon
2  Charlie  29.25   78.0  Marseille
3    David  40.00    0.0      Lille
4      Eve  22.00   95.0   Bordeaux


In [34]:
# selection
print(df[df["Score"] > 80]) # selectionner les lignes ou le score est superieur a 90
print("___"*10)
print(df[df["Score"] > 80]["Nom"]) # selectionner les noms ou le score est superieur a 90
print("___"*10)
print(df[["Nom", "Score"]]) # selectionner les colonnes Nom et Score
print("___"*10)
print(df.loc[0]) # selectionner les 2 premières lignes et les 2 premières colonnes

     Nom   Âge  Score     Ville
0  Alice  25.0   85.0     Paris
1    Bob  30.0   90.0      Lyon
4    Eve  22.0   95.0  Bordeaux
______________________________
0    Alice
1      Bob
4      Eve
Name: Nom, dtype: object
______________________________
       Nom  Score
0    Alice   85.0
1      Bob   90.0
2  Charlie   78.0
3    David    0.0
4      Eve   95.0
______________________________
Nom      Alice
Âge       25.0
Score     85.0
Ville    Paris
Name: 0, dtype: object


In [73]:
df["Note"] = [10, 12, 14, 16, 18] # ajouter une colonne Note
print(df)


       Nom   Âge  Score  Ville  Bonus  Note
0    Alice  25.0   85.0  Paris      9    10
1      Bob  30.0   90.0   Lyon      9    12
2  Charlie   NaN   78.0   Lyon      9    14
3    David  40.0    NaN  Lille      9    16
4      Eve  22.0   95.0   Lyon      9    18


In [39]:
df.loc[len(df)] = ["Fanny", 20, 90, "Toulouse", 10] # ajouter une ligne
print(df.iloc[len(df)-1])

Nom         Fanny
Âge          20.0
Score        90.0
Ville    Toulouse
Note           10
Name: 6, dtype: object


In [48]:
# selection d'une colonne
print(df.loc[:, "Nom"])

0      Alice
1        Bob
2    Charlie
3      David
4        Eve
Name: Nom, dtype: object
0      Alice
1        Bob
2    Charlie
3      David
4        Eve
Name: Nom, dtype: object


In [74]:
# modifier une valeur
df.loc[df["Nom"] == "Alice", "Note"] = 15 # modifier la note de Alice
print(df)

       Nom   Âge  Score  Ville  Bonus  Note
0    Alice  25.0   85.0  Paris      9    15
1      Bob  30.0   90.0   Lyon      9    12
2  Charlie   NaN   78.0   Lyon      9    14
3    David  40.0    NaN  Lille      9    16
4      Eve  22.0   95.0   Lyon      9    18


In [75]:
# appliquer une fonction a une colonne
df["Note"] = df["Note"].apply(lambda x: x + 1) # ajouter 1 a chaque note
print(df)

       Nom   Âge  Score  Ville  Bonus  Note
0    Alice  25.0   85.0  Paris      9    16
1      Bob  30.0   90.0   Lyon      9    13
2  Charlie   NaN   78.0   Lyon      9    15
3    David  40.0    NaN  Lille      9    17
4      Eve  22.0   95.0   Lyon      9    19


In [61]:
# trier le dataFrame par une colonne
print(df.sort_values(by="Note")) # trier par note
print("___"*10)
print(df.sort_values(by="Nom", ascending=False)) # trier par nom en ordre decroissant

       Nom    Âge  Score      Ville  Note
1      Bob  30.00   90.0       Lyon    13
2  Charlie  29.25   78.0  Marseille    15
0    Alice  25.00   85.0      Paris    16
3    David  40.00    0.0      Lille    17
4      Eve  22.00   95.0   Bordeaux    19
______________________________
       Nom    Âge  Score      Ville  Note
4      Eve  22.00   95.0   Bordeaux    19
3    David  40.00    0.0      Lille    17
2  Charlie  29.25   78.0  Marseille    15
1      Bob  30.00   90.0       Lyon    13
0    Alice  25.00   85.0      Paris    16


Manipulation avec numpy

In [76]:
# ajouter une colonne bonus
df["Bonus"] = np.random.randint(0, 10, len(df)) # ajouter une colonne Bonus
print(df)

       Nom   Âge  Score  Ville  Bonus  Note
0    Alice  25.0   85.0  Paris      9    16
1      Bob  30.0   90.0   Lyon      5    13
2  Charlie   NaN   78.0   Lyon      2    15
3    David  40.0    NaN  Lille      0    17
4      Eve  22.0   95.0   Lyon      4    19


In [78]:
# admit ou pas
df["Admis"] = np.where(df["Note"] + df["Bonus"] > 20, "Oui", "Non")
print(df)

       Nom   Âge  Score  Ville  Bonus  Note Admis
0    Alice  25.0   85.0  Paris      9    16   Oui
1      Bob  30.0   90.0   Lyon      5    13   Non
2  Charlie   NaN   78.0   Lyon      2    15   Non
3    David  40.0    NaN  Lille      0    17   Non
4      Eve  22.0   95.0   Lyon      4    19   Oui
