# Rappels

Filtrage

In [5]:
import numpy as np 
import pandas as pd 
df = pd.DataFrame(np.arange(16).reshape(4,4), index=["Ohio", "Colorado", "Utah", "New York"], columns=["one", "two", "three", "four"])
df

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [6]:
# Selectionner une sous-partie du DF
# 1. ligne Colorado, colonnes "two" et "three"
# obtenu avec .loc[] : requête par nom
df.loc["Colorado", ["two", "three"]]

two      5
three    6
Name: Colorado, dtype: int64

In [7]:
# Selectionner une sous-partie du DF
# 1. ligne Colorado, colonnes "two" et "three"
# même résultat, obtenu avec .iloc[]
df.iloc[1, 1:3]

two      5
three    6
Name: Colorado, dtype: int64

In [8]:
# 2. toutes les lignes, colonnes "two" et "three"
# Avec .loc[] : 
df.loc[:, ["two", "three"]]

Unnamed: 0,two,three
Ohio,1,2
Colorado,5,6
Utah,9,10
New York,13,14


In [9]:
# 2. toutes les lignes, colonnes "two" et "three"
# Avec .iloc[] : 
df.iloc[:, 1:3]

Unnamed: 0,two,three
Ohio,1,2
Colorado,5,6
Utah,9,10
New York,13,14


In [10]:
# 3. lignes jusqu'a "Utah", colonne "two"
df.loc[:"Utah", "two"]

Ohio        1
Colorado    5
Utah        9
Name: two, dtype: int64

In [11]:
# 3. lignes jusqu'a "Utah", colonne "two"
df.iloc[:3, 1]

Ohio        1
Colorado    5
Utah        9
Name: two, dtype: int64

In [12]:
# Selectionner une sous-partie du DF
# .iloc() : requête par position (numéro de ligne/colonne)
df.iloc[2]

one       8
two       9
three    10
four     11
Name: Utah, dtype: int64

In [13]:
# Selectionner une sous-partie du DF
# .iloc() : requête par position (numéro de ligne/colonne)
df.iloc[:,2]

Ohio         2
Colorado     6
Utah        10
New York    14
Name: three, dtype: int64

In [14]:
# Selectionner une sous-partie du DF
# approche hybride
df[df.three > 5].iloc[:,:3]

Unnamed: 0,one,two,three
Colorado,4,5,6
Utah,8,9,10
New York,12,13,14


In [15]:
# Selectionner une sous-partie du DF
# Traiter les cas plus complexes
df.loc[lambda df: df.index.str.len() > 4]

Unnamed: 0,one,two,three,four
Colorado,4,5,6,7
New York,12,13,14,15


Données manquantes

In [16]:
string_data = pd.Series(["aarggfx", "artichaut", np.nan, "avocado"])
string_data.isnull()

0    False
1    False
2     True
3    False
dtype: bool

In [17]:
# Par défaut, .dropna() supprime des lignes ("axis = 0")
df_with_na = pd.DataFrame(
    [[1, np.nan], [2, 3], [np.nan, 7]], 
    index= ["a", "b", "c"], 
    columns = ["A", "B"])
df_with_na

Unnamed: 0,A,B
a,1.0,
b,2.0,3.0
c,,7.0


In [18]:
df_with_na.dropna()

Unnamed: 0,A,B
b,2.0,3.0


In [19]:
# Il peut aussi supprimer des colonnes
df_with_na.dropna(axis=1)

a
b
c


In [20]:
# .fillna()
value_to_replace_na_with = 0
df_with_na.fillna(value_to_replace_na_with)

Unnamed: 0,A,B
a,1.0,0.0
b,2.0,3.0
c,0.0,7.0


In [21]:
# .fillna() avec dict
value_to_replace_na_with = {"A":1, "B":3}
df_with_na.fillna(value_to_replace_na_with)

Unnamed: 0,A,B
a,1.0,3.0
b,2.0,3.0
c,1.0,7.0


Exercices

In [22]:
# Lire les données du Titanic
# Créer un dataframe avec 100 lignes
df_titanic = pd.read_csv("../data/titanic.csv").sample(100)
df_titanic
# Filtrer le df pour n'obtenir que les hommes qui ont payé plus de 50$
# Combien y en a-t-il ? 

df_titanic.loc[df_titanic.Sex == "male"].loc[df_titanic.Fare > 50.0].shape

(10, 12)

In [23]:
# Filtrer le df pour n'obtenir que les femmes de moins de 18 ans
# Combien y en a-t-il ? 

df_titanic.loc[df_titanic.Sex == "female"].loc[df_titanic.Age < 18.0].shape

(5, 12)

In [25]:
# Remplacer les valeurs manquantes de la colonne prix par le prix moyen, et les lieux d'embarquement manquants par "C"
# Est-il possible de faire cela en un seul appel ? 
df_titanic = df_titanic.fillna({"Fare": df_titanic["Fare"].mean(), "Embarked": "C"})

df_titanic["Fare"] = df_titanic["Fare"].fillna(df_titanic["Fare"].mean())
df_titanic["Embarked"] = df_titanic["Embarked"].fillna("C")
df_titanic

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
827,828,1,2,"Mallet, Master. Andre",male,1.0,0,2,S.C./PARIS 2079,37.0042,,C
12,13,0,3,"Saundercock, Mr. William Henry",male,20.0,0,0,A/5. 2151,8.0500,,S
169,170,0,3,"Ling, Mr. Lee",male,28.0,0,0,1601,56.4958,,S
345,346,1,2,"Brown, Miss. Amelia ""Mildred""",female,24.0,0,0,248733,13.0000,F33,S
235,236,0,3,"Harknett, Miss. Alice Phoebe",female,,0,0,W./C. 6609,7.5500,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
43,44,1,2,"Laroche, Miss. Simonne Marie Anne Andree",female,3.0,1,2,SC/Paris 2123,41.5792,,C
885,886,0,3,"Rice, Mrs. William (Margaret Norton)",female,39.0,0,5,382652,29.1250,,Q
160,161,0,3,"Cribb, Mr. John Hatfield",male,44.0,0,1,371362,16.1000,,S
135,136,0,2,"Richard, Mr. Emile",male,23.0,0,0,SC/PARIS 2133,15.0458,,C


In [26]:
# Bonus
# Supprimer les lignes où l'âge est manquant
df_titanic["Age"] = df_titanic["Age"].dropna()

In [27]:
# Bonus
# Créer une fonction qui effectue les opérations des trois cellules précédentes
def clean_df(df: pd.DataFrame) -> pd.DataFrame:
    return (df
            .dropna(subset="Age")
            .loc[(df.Sex == "female") & (df.Age < 18.0)]
            .fillna({"Fare": df["Fare"].mean(), "Embarked": "C"}))

clean_df(df_titanic)


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
852,853,0,3,"Boulos, Miss. Nourelain",female,9.0,1,1,2678,15.2458,,C
781,782,1,1,"Dick, Mrs. Albert Adrian (Vera Gillespie)",female,17.0,1,0,17474,57.0,B20,S
435,436,1,1,"Carter, Miss. Lucile Polk",female,14.0,1,2,113760,120.0,B96 B98,S
43,44,1,2,"Laroche, Miss. Simonne Marie Anne Andree",female,3.0,1,2,SC/Paris 2123,41.5792,,C
184,185,1,3,"Kink-Heilmann, Miss. Luise Gretchen",female,4.0,0,2,315153,22.025,,S


In [4]:
# Bonus : filtrage avancé
# Filtrer le df suivant pour ne garder que les lignes où le prénom commence par un "A"
data = {"prenom" : ["Anna", "Ben", "Camille"], "poste": ["DE", "DE", "DS"]}
df = pd.DataFrame(data)

df.loc[df.prenom.str.startswith("A")]

Unnamed: 0,prenom,poste
0,Anna,DE
