# Data Processing

> La manipulation de données peut se résumer à l'utilisation de quatre opérations essentielles : filtrer, unir, ordonner et grouper.
>
> Si la structure DataFrame s’est imposée dans la manipulation de données, c’est parce qu’il suffit souvent de répéter ou combiner ces quatre opérations. Chaque fonction cache une boucle ou deux, ce qui rend rapide l'exécution des tâches.
>
> Dans ce notebook vous apprendrez différentes méthodes de manipulation des données au sein d'un DataFrame.
>
> Avant de commencer, exécuter la case suivante afin de récupérer le travail effectué dans les notebooks précédents.

In [1]:
# Importation du module
import pandas as pd

# Chargement de la base titanic et indexation
titanic = pd.read_csv("titanic_train.csv", sep =',', index_col = 0)

# Création de titanic_new : suppréssion de 'Cabin'
titanic_new = titanic.drop("Cabin", axis = 1)

# Gestion des valeurs manquantes de 'Age'
titanic_new["Age"].fillna(30, inplace = True)

# Suppression des lignes contenant des valeurs manquantes
titanic_new = titanic_new.dropna(axis = 0)

> **Filtrer** consiste à sélectionner un sous-ensemble de lignes d'un DataFrame qui vérifient ou non d'une condition.
Pour filtrer sur plusieurs conditions, il faut utiliser les opérateurs logiques: `&` (et), `|` (ou), `~`(non).
>
> Exemple :

In [2]:
subset = titanic[(titanic.Sex == 'male') & (titanic.Pclass == 3)]
display(subset)

Unnamed: 0_level_0,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
6,0,3,"Moran, Mr. James",male,,0,0,330877,8.4583,,Q
8,0,3,"Palsson, Master. Gosta Leonard",male,2.0,3,1,349909,21.0750,,S
13,0,3,"Saundercock, Mr. William Henry",male,20.0,0,0,A/5. 2151,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...
878,0,3,"Petroff, Mr. Nedelio",male,19.0,0,0,349212,7.8958,,S
879,0,3,"Laleff, Mr. Kristo",male,,0,0,349217,7.8958,,S
882,0,3,"Markun, Mr. Johann",male,33.0,0,0,349257,7.8958,,S
885,0,3,"Sutehall, Mr. Henry Jr",male,25.0,0,0,SOTON/OQ 392076,7.0500,,S


- Extraire de `titanic_new`, un tableau `female_C` contenant uniquement les informations sur les femmes (`Sex='female'`) ayant embarqué à Cherbourg (`Embarked='C'`).
- Créer `male_C`qui contient les informations des hommes ayant eux aussi embarqués à Cherbourg.
- Comparer la proportion de survivants chez les femmes et les hommes qui ont embarqué à Cherbourg.

In [3]:
female_C = titanic_new[(titanic_new['Sex'] == 'female') & (titanic_new['Embarked'] == 'C')]
male_C   = titanic_new[(titanic_new['Sex'] == 'male')   & (titanic_new['Embarked'] == 'C')]

print('Proportion de survivantes : %0.3f.' %female_C['Survived'].mean())
print('Proportion de survivants : %0.3f.' %male_C['Survived'].mean())

Proportion de survivantes : 0.877.
Proportion de survivants : 0.305.


> La concaténation permet d'assembler deux ou plusieurs DataFrames (qui n’ont pas nécessairement les mêmes colonnes).
>
> Les DataFrames peuvent être concaténer par lignes (axis=0) ou par colonnes (axis=1). La concaténation se fait en utilisant la fonction `concat()`.

- Créer le DataFrame `Cherbourg` obtenu en concaténant par lignes les deux tableaux `female_C` et `male_C`.
- Afficher les effectifs de la variable `Sex` de `Cherbourg`.

In [4]:
cherbourg = pd.concat([female_C, male_C])
cherbourg['Sex'].value_counts()

male      95
female    73
Name: Sex, dtype: int64

> Deux DataFrames peuvent également être joints par rapport à leurs index ou à des colonnes en commun (ou non si elles sont spécifiées), grâce à la méthode `merge()`.
>
> L'argument `how` permet de choisir parmis quatre types de jointures, basées sur les jointures de la syntaxe SQL:
> 
> - `inner` : La jointure interne (Inner Join) retourne les lignes dans lesquelles les indices ou les éléments de la/les colonne(s) commune(s) sont présent dans les deux DataFrames. Ce type de jointure, bien que considéré par défaut, est souvent déconseillé car il peut amener à la perte de beaucoup d'informations.
> - `outer` : La jointure externe (Full Join) fusionne la totalité des deux DataFrames. Aucune ligne ne sera supprimée.
> - `left` : La jointure à gauche (Left Join) retourne toutes les lignes du DataFrame de gauche, et les complète avec les lignes du second DataFrame qui matchent selon les indices ou la colonne commune.
> - `right` : La jointure à droite (Right Join) retourne toutes les lignes du DataFrame de droite, et les complète avec les lignes du second DataFrame qui matchent selon les indices ou la colonne commune.
>
> Exemple :

In [5]:
df = pd.DataFrame({'A': ['A0', 'A1', 'A2', 'A3', 'A4', 'A5'],
                  'B': ['B0', 'B1', 'B2', 'B3', 'B4', 'B5']})

df2 = pd.DataFrame({'A': ['A0', 'A1', 'A2', 'A6'],
                       'C': ['b0', 'B1', 'B2', 'C3']})

display(df)
display(df2)
display(pd.merge(df, df2, how='right'))

Unnamed: 0,A,B
0,A0,B0
1,A1,B1
2,A2,B2
3,A3,B3
4,A4,B4
5,A5,B5


Unnamed: 0,A,C
0,A0,b0
1,A1,B1
2,A2,B2
3,A6,C3


Unnamed: 0,A,B,C
0,A0,B0,b0
1,A1,B1,B1
2,A2,B2,B2
3,A6,,C3


> La méthode `sort_values()` permet de trier un DataFrame selon les valeurs d'une ou de plusieurs colonnes, dans l'ordre croissant ou décroissant.
>
> Exemple : `mon_df.sort_values(by='C')` renvoie un dataframe avec les lignes triées de telle sorte que la colonne 'C' soit dans l'ordre croissant.
>
> La méthode `sort_index()` permet de trier un DataFrame selon les labels de ses lignes ou de ses colonnes.
>
> Exemple : `mon_df.sort_index(axis=0, ascending=False)` renvoie un DataFrame avec les lignes triées par ordre décroissant des labels (par défaut, `ascending=True`).

- Afficher `titanic_new` trié de façon décroissante en fonction de l'âge des passagers.
- De quel endroit a embarqué le passager le plus âgé?

In [6]:
titanic_new.sort_values(by='Age', ascending=False)

Unnamed: 0_level_0,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Embarked
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
631,1,1,"Barkworth, Mr. Algernon Henry Wilson",male,80.00,0,0,27042,30.0000,S
852,0,3,"Svensson, Mr. Johan",male,74.00,0,0,347060,7.7750,S
494,0,1,"Artagaveytia, Mr. Ramon",male,71.00,0,0,PC 17609,49.5042,C
97,0,1,"Goldschmidt, Mr. George B",male,71.00,0,0,PC 17754,34.6542,C
117,0,3,"Connors, Mr. Patrick",male,70.50,0,0,370369,7.7500,Q
...,...,...,...,...,...,...,...,...,...,...
79,1,2,"Caldwell, Master. Alden Gates",male,0.83,0,2,248738,29.0000,S
645,1,3,"Baclini, Miss. Eugenie",female,0.75,2,1,2666,19.2583,C
470,1,3,"Baclini, Miss. Helene Barbara",female,0.75,2,1,2666,19.2583,C
756,1,2,"Hamalainen, Master. Viljo",male,0.67,1,1,250649,14.5000,S


> La méthode `groupby()` permet de grouper les lignes qui partagent une caractéristique commune (une valeur dans une colonne ou plusieurs valeurs dans plusieurs colonnes). On peut conserver chaque groupe ou calculer une somme, une moyenne... .
>
> Exemple : `titanic.groupby('Embarked').count()` retourne le nombre de passager qui ont embarqué pour chaque groupe d'embarquement.

- Les survivants ont-ils payé leur billet plus cher?

In [7]:
titanic_new.groupby('Survived').mean()

Unnamed: 0_level_0,Pclass,Age,SibSp,Parch,Fare
Survived,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
0,2.531876,30.483607,0.553734,0.32969,22.117887
1,1.955882,28.469618,0.476471,0.467647,48.209498


- Afficher pour chaque classe (`'Pclass'`) la proportion d'hommes ayant survécu.

In [8]:
titanic_new[titanic_new.Sex == 'male'].groupby('Pclass')['Survived'].mean()

Pclass
1    0.368852
2    0.157407
3    0.135447
Name: Survived, dtype: float64