# Rappels

Filtrage

In [2]:
import numpy as np 
import pandas as pd 
df = pd.DataFrame(np.arange(16).reshape(4,4), index=["Ohio", "Colorado", "Utah", "New York"], columns=["one", "two", "three", "four"])
df

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [9]:
# Selectionner une sous-partie du DF
# 1. ligne Colorado, colonnes "two" et "three"
# obtenu avec .loc[] : requête par nom
df.loc["Colorado", ["two", "three"]]

two      5
three    6
Name: Colorado, dtype: int64

In [6]:
# Selectionner une sous-partie du DF
# 1. ligne Colorado, colonnes "two" et "three"
# même résultat, obtenu avec .iloc[]
df.iloc[1, 1:3]

two      5
three    6
Name: Colorado, dtype: int64

In [3]:
# 2. toutes les lignes, colonnes "two" et "three"
# Avec .loc[] : 
df.loc[:, ["two", "three"]]

Unnamed: 0,two,three
Ohio,1,2
Colorado,5,6
Utah,9,10
New York,13,14


In [8]:
# 2. toutes les lignes, colonnes "two" et "three"
# Avec .iloc[] : 
df.iloc[:, 1:3]

Unnamed: 0,two,three
Ohio,1,2
Colorado,5,6
Utah,9,10
New York,13,14


In [9]:
# 3. lignes jusqu'a "Utah", colonne "two"
df.loc[:"Utah", "two"]

Ohio        1
Colorado    5
Utah        9
Name: two, dtype: int64

In [11]:
# 3. lignes jusqu'a "Utah", colonne "two"
df.iloc[:3, 1]

Ohio        1
Colorado    5
Utah        9
Name: two, dtype: int64

In [12]:
# Selectionner une sous-partie du DF
# .iloc() : requête par position (numéro de ligne/colonne)
df.iloc[2]

one       8
two       9
three    10
four     11
Name: Utah, dtype: int64

In [13]:
# Selectionner une sous-partie du DF
# .iloc() : requête par position (numéro de ligne/colonne)
df.iloc[:,2]

Ohio         2
Colorado     6
Utah        10
New York    14
Name: three, dtype: int64

In [27]:
# Selectionner une sous-partie du DF
# approche hybride
df[df.three > 5].iloc[:,:3]

Unnamed: 0,one,two,three
Colorado,4,5,6
Utah,8,9,10
New York,12,13,14


In [3]:
# Selectionner une sous-partie du DF
# Traiter les cas plus complexes
df.loc[lambda df: df.index.str.len() > 4]

Unnamed: 0,one,two,three,four
Colorado,4,5,6,7
New York,12,13,14,15


Données manquantes

In [29]:
string_data = pd.Series(["aarggfx", "artichaut", np.nan, "avocado"])
string_data.isnull()

0    False
1    False
2     True
3    False
dtype: bool

In [32]:
# Par défaut, .dropna() supprime des lignes ("axis = 0")
df_with_na = pd.DataFrame(
    [[1, np.nan], [2, 3], [np.nan, 7]], 
    index= ["a", "b", "c"], 
    columns = ["A", "B"])
df_with_na

Unnamed: 0,A,B
a,1.0,
b,2.0,3.0
c,,7.0


In [33]:
df_with_na.dropna()

Unnamed: 0,A,B
b,2.0,3.0


In [34]:
# Il peut aussi supprimer des colonnes
df_with_na.dropna(axis=1)

a
b
c


In [35]:
# .fillna()
value_to_replace_na_with = 0
df_with_na.fillna(value_to_replace_na_with)

Unnamed: 0,A,B
a,1.0,0.0
b,2.0,3.0
c,0.0,7.0


In [36]:
# .fillna() avec dict
value_to_replace_na_with = {"A":1, "B":3}
df_with_na.fillna(value_to_replace_na_with)

Unnamed: 0,A,B
a,1.0,3.0
b,2.0,3.0
c,1.0,7.0


Exercices

In [48]:
# Lire les données du Titanic
# Créer un dataframe avec 100 lignes
df_titanic = pd.read_csv("../data/titanic.csv").sample(100)
df_titanic
# Filtrer le df pour n'obtenir que les hommes qui ont payé plus de 50$
# Combien y en a-t-il ? 

df_titanic.loc[df_titanic.Sex == "male"].loc[df_titanic.Fare > 50.0].shape

(9, 12)

In [46]:
# Filtrer le df pour n'obtenir que les femmes de moins de 18 ans
# Combien y en a-t-il ? 
df_titanic.loc[df_titanic.Sex == "female"].loc[df_titanic.Age < 18.0].shape

(4, 12)

In [47]:
# Remplacer les valeurs manquantes de la colonne prix par le prix moyen, et les lieux d'embarquement manquants par "C"
# Est-il possible de faire cela en un seul appel ? 
df_titanic.fillna({"Fare": df_titanic["Fare"].mean(), "Embarked": "C"})

df_titanic["Fare"] = df_titanic["Fare"].fillna(df_titanic["Fare"].mean())
df_titanic["Embarked"] = df_titanic["Embarked"].fillna("C")

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
341,342,1,1,"Fortune, Miss. Alice Elizabeth",female,24.0,3,2,19950,263.0000,C23 C25 C27,S
22,23,1,3,"McGowan, Miss. Anna ""Annie""",female,15.0,0,0,330923,8.0292,,Q
146,147,1,3,"Andersson, Mr. August Edvard (""Wennerstrom"")",male,27.0,0,0,350043,7.7958,,S
870,871,0,3,"Balkic, Mr. Cerin",male,26.0,0,0,349248,7.8958,,S
72,73,0,2,"Hood, Mr. Ambrose Jr",male,21.0,0,0,S.O.C. 14879,73.5000,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
753,754,0,3,"Jonkoff, Mr. Lalio",male,23.0,0,0,349204,7.8958,,S
101,102,0,3,"Petroff, Mr. Pastcho (""Pentcho"")",male,,0,0,349215,7.8958,,S
583,584,0,1,"Ross, Mr. John Hugo",male,36.0,0,0,13049,40.1250,A10,C
681,682,1,1,"Hassab, Mr. Hammad",male,27.0,0,0,PC 17572,76.7292,D49,C


In [None]:
# Bonus
# Supprimer les lignes où l'âge est manquant

In [4]:
# Bonus
# Créer une fonction qui effectue les opérations des trois cellules précédentes

In [30]:
# Bonus : filtrage avancé
# Filtrer le df suivant pour ne garder que les lignes où le prénom commence par un "A"
data = {"prenom" : ["Anna", "Ben", "Camille"], "poste": ["DE", "DE", "DS"]}
df = pd.DataFrame(data)