# Rappels

Filtrage

In [1]:
import numpy as np 
import pandas 
df = pandas.DataFrame(np.arange(16).reshape(4,4), index=["Ohio", "Colorado", "Utah", "New York"], columns=["one", "two", "three", "four"])
df

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [2]:
# Selectionner une sous-partie du DF
# 1. ligne Colorado, colonnes "two" et "three"
# obtenu avec .loc[] : requête par nom
df.loc["Colorado", ["two", "three"]]

two      5
three    6
Name: Colorado, dtype: int64

In [None]:
# 2. toutes les lignes, colonnes "two" et "three"
df.loc[:, ["two", "three"]]

Unnamed: 0,two,three
Ohio,1,2
Colorado,5,6
Utah,9,10
New York,13,14


In [None]:
# 3. toutes les lignes, colonnes "two" à "four"
df.loc[:, "two": "four"]

Unnamed: 0,two,three,four
Ohio,1,2,3
Colorado,5,6,7
Utah,9,10,11
New York,13,14,15


In [7]:
# 4. lignes jusqu'a "Utah", colonne "two"
df.loc[:"Utah", "two"]

Ohio        1
Colorado    5
Utah        9
Name: two, dtype: int64

In [None]:
# Selectionner une sous-partie du DF: une seule ligne
df.loc["Utah",:]

one       8
two       9
three    10
four     11
Name: Utah, dtype: int64

In [None]:
# Selectionner une sous-partie du DF : une seule colonne
df.loc[:,"one"]

Ohio         0
Colorado     4
Utah         8
New York    12
Name: one, dtype: int64

In [11]:
# Selectionner une sous-partie du DF
# Traiter les cas plus complexes
df.loc[lambda df: df.index.str.len() > 4]

Unnamed: 0,one,two,three,four
Colorado,4,5,6,7
New York,12,13,14,15


Données manquantes

In [12]:
string_data = pandas.Series(["aarggfx", "artichaut", np.nan, "avocado"])
string_data.isnull()

0    False
1    False
2     True
3    False
dtype: bool

In [13]:
# Par défaut, .dropna() supprime des lignes ("axis = 0")
df_with_na = pandas.DataFrame(
    [[1, np.nan], [2, 3], [np.nan, 7]], 
    index= ["a", "b", "c"], 
    columns = ["A", "B"])
df_with_na

Unnamed: 0,A,B
a,1.0,
b,2.0,3.0
c,,7.0


In [14]:
df_with_na.dropna()

Unnamed: 0,A,B
b,2.0,3.0


In [15]:
# Il peut aussi supprimer des colonnes
df_with_na.dropna(axis=1)

a
b
c


In [16]:
# .fillna()
value_to_replace_na_with = 0
df_with_na.fillna(value_to_replace_na_with)

Unnamed: 0,A,B
a,1.0,0.0
b,2.0,3.0
c,0.0,7.0


In [17]:
# .fillna() avec dict
value_to_replace_na_with = {"A":1, "B":3}
df_with_na.fillna(value_to_replace_na_with)

Unnamed: 0,A,B
a,1.0,3.0
b,2.0,3.0
c,1.0,7.0


Exercices

In [None]:
# Lire les données du Titanic
# Créer un dataframe avec 100 lignes
from pandas import read_csv
url = 'https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv'
df_titanic = read_csv(url).sample(100)
df_titanic
# Filtrer le df pour n'obtenir que les hommes qui ont payé plus de 50$
# Combien y en a-t-il ? 

df_titanic.loc[df_titanic.Sex == "male"].loc[df_titanic.Fare > 50.0].shape

(12, 12)

In [19]:
# Filtrer le df pour n'obtenir que les femmes de moins de 18 ans
# Combien y en a-t-il ? 

df_titanic.loc[df_titanic.Sex == "female"].loc[df_titanic.Age < 18.0].shape

(5, 12)

In [20]:
# Remplacer les valeurs manquantes de la colonne prix par le prix moyen, et les lieux d'embarquement manquants par "C"
# Est-il possible de faire cela en un seul appel ? 
df_titanic = df_titanic.fillna({"Fare": df_titanic["Fare"].mean(), "Embarked": "C"})

df_titanic["Fare"] = df_titanic["Fare"].fillna(df_titanic["Fare"].mean())
df_titanic["Embarked"] = df_titanic["Embarked"].fillna("C")
df_titanic

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
234,235,0,2,"Leyson, Mr. Robert William Norman",male,24.0,0,0,C.A. 29566,10.5000,,S
726,727,1,2,"Renouf, Mrs. Peter Henry (Lillian Jefferys)",female,30.0,3,0,31027,21.0000,,S
775,776,0,3,"Myhrman, Mr. Pehr Fabian Oliver Malkolm",male,18.0,0,0,347078,7.7500,,S
506,507,1,2,"Quick, Mrs. Frederick Charles (Jane Richards)",female,33.0,0,2,26360,26.0000,,S
408,409,0,3,"Birkeland, Mr. Hans Martin Monsen",male,21.0,0,0,312992,7.7750,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
629,630,0,3,"O'Connell, Mr. Patrick D",male,,0,0,334912,7.7333,,Q
424,425,0,3,"Rosblom, Mr. Viktor Richard",male,18.0,1,1,370129,20.2125,,S
102,103,0,1,"White, Mr. Richard Frasar",male,21.0,0,1,35281,77.2875,D26,S
51,52,0,3,"Nosworthy, Mr. Richard Cater",male,21.0,0,0,A/4. 39886,7.8000,,S


In [21]:
# Bonus
# Supprimer les lignes où l'âge est manquant
df_titanic["Age"] = df_titanic["Age"].dropna()

In [22]:
# Bonus
# Créer une fonction qui effectue les opérations des trois cellules précédentes
def clean_df(df: pandas.DataFrame) -> pandas.DataFrame:
    return (df
            .dropna(subset="Age")
            .loc[(df.Sex == "female") & (df.Age < 18.0)]
            .fillna({"Fare": df["Fare"].mean(), "Embarked": "C"}))

clean_df(df_titanic)


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
329,330,1,1,"Hippach, Miss. Jean Gertrude",female,16.0,0,1,111361,57.9792,B18,C
71,72,0,3,"Goodwin, Miss. Lillian Amy",female,16.0,5,2,CA 2144,46.9,,S
114,115,0,3,"Attalah, Miss. Malake",female,17.0,0,0,2627,14.4583,,C
642,643,0,3,"Skoog, Miss. Margit Elizabeth",female,2.0,3,2,347088,27.9,,S
147,148,0,3,"Ford, Miss. Robina Maggie ""Ruby""",female,9.0,2,2,W./C. 6608,34.375,,S


In [23]:
# Bonus : filtrage avancé
# Filtrer le df suivant pour ne garder que les lignes où le prénom commence par un "A"
data = {"prenom" : ["Anna", "Ben", "Camille"], "poste": ["DE", "DE", "DS"]}
df = pandas.DataFrame(data)

df.loc[df.prenom.str.startswith("A")]

Unnamed: 0,prenom,poste
0,Anna,DE
