# pandas

*pandas* (sans majuscules) est une librairie de traitement de données en python très performante qui part d'un principe très simple :

![Schéma pandas](https://pandas.pydata.org/docs/_images/02_io_readwrite.svg)

pandas comprend presque n'importe quel schéma de données et le transforme en *DataFrame*, un objet à lui capable d'effectuer énormément de commandes (filtres, tris, transformations...), puis de cette DataFrame, pandas est capable de l'exporter dans un autre format

Nous allons utiliser pandas avec un fichier csv assez complet comprenant l'intégralité des passagers du Titanic.  
Les stats que nous allons sortir risquent d'être un poil morbide mais elle seront probablement très intéressantes.

## Les bases

Pour commencer avec pandas, il nous faut d'abord l'importer, on en profite aussi pour lui donner un alias plus court

In [1]:
import pandas as p

Une fois importé, il nous faut lire notre fichier csv, pour ça il suffit d'utiliser la fonction `read_csv()` de pandas

In [2]:
titanic = p.read_csv("demo-pandas/titanic.csv")

La variable `titanic` est donc une DataFrame contenant l'intégralité des informations de notre csv.
Voyons comment Jupyter est capable de nous afficher ces informations

In [3]:
titanic

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
885,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S
886,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S
887,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S
888,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C


Ah pas mal, c'est beaucoup d'information d'un coup, on peut utiliser la fonction `head()` pour ne se concentrer que sur les premières lignes (ou `tail` pour se concentrer sur les dernières)

In [4]:
titanic.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


Ok, donc on a pas mal d'informations dans ce csv :

- PassengerId : Un identifiant unique pour chaque passager, pas très utile pour l'instant
- Survived : 1 si la personne a survécu au drame, 0 sinon (très utile pour les stats morbides)
- Pclass : Classe de la cabine dans laquelle le passager a voyagé
- Name : Noms et titres des passagers
- Sex : "male" ou "female"
- Age : L'age des passager, décimal pour les bébés 😖
- SibSp : 1 si le passager avait un·e époux·ses ou des frères/soeurs, 0 sinon
- Parch : 1 si le passager était en famille, 0 sinon
- Ticket : Numéro du ticket du passager (pas très utile ici)
- Fare : Le coût du ticket pour ce passager
- Cabin : Le numéro de la cabine du passager, NaN si pas de cabine
- Embarked : D'où les passagers ont embarqués (C = Cherbourg; Q = Queenstown; S = Southampton)

Pour accéder à une colonne en particulier, et créer un sous-ensemble du tableau sous la forme d'un autre DataFrame, on utilise les \[crochets\] sur notre DataFrame

In [5]:
titanic["Name"].head()

0                              Braund, Mr. Owen Harris
1    Cumings, Mrs. John Bradley (Florence Briggs Th...
2                               Heikkinen, Miss. Laina
3         Futrelle, Mrs. Jacques Heath (Lily May Peel)
4                             Allen, Mr. William Henry
Name: Name, dtype: object

Pour accéder à la forme du tableau (combien de lignes et combien de colonne) on peut utiliser l'attribut `shape` qui renvoit un tuple d'entiers

In [6]:
(lines, cols) = titanic.shape
print(f"{lines} lignes et {cols} colonnes")

890 lignes et 12 colonnes


## Les filtres

Pour filtrer une colonne, il faut d'abord obtenir un sous-ensemble de booléen sous la forme d'une list.

Imaginez une autre colonne avec autant de lignes que le tableau, mais chaque ligne stipule `True` ou `False`. C'est ce que pandas appelle une `Series`.

Pour créer une series, vous pouvez simplement attribuer à un DataType, une condition :

In [7]:
is_adult = titanic["Age"] > 18
is_adult

0       True
1       True
2       True
3       True
4       True
       ...  
885     True
886     True
887    False
888     True
889     True
Name: Age, Length: 890, dtype: bool

On peut maintenant passer cette serie à notre DataFrame pour la filtrer.
On pouvait voir dans le résultat précédent que l'index `887` ne passait pas le filtre

In [8]:
adults = titanic[is_adult]
adults

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
884,886,0,3,"Rice, Mrs. William (Margaret Norton)",female,39.0,0,5,382652,29.1250,,Q
885,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S
886,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S
888,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C


Hop, on viens de passer de 890 lignes à 600, et l'index `887` a disparu comme prévu.

On peut aussi filtrer sur des colonnes textuelles avec l'attribut `.str` d'une series  
[Voir la doc sur str](https://pandas.pydata.org/docs/reference/api/pandas.Series.str.startswith.html)

In [9]:
is_margaret_brown = titanic["Name"].str.startswith("Brown, Mrs. James Joseph")
titanic[is_margaret_brown]

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
194,195,1,1,"Brown, Mrs. James Joseph (Margaret Tobin)",female,44.0,0,0,PC 17610,27.7208,B4,C


Pour simplifier la vue (et éviter les pensées morbides), on peut sélectionner un ensemble de colonnes

In [10]:
# Puis on passe une liste de colonnes à notre DataFrame pour filtrer les colonnes
simple_adult_list = adults[["Name", "Sex", "Age", "Pclass", "Survived"]]

simple_adult_list

Unnamed: 0,Name,Sex,Age,Pclass,Survived
0,"Braund, Mr. Owen Harris",male,22.0,3,0
1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,1
2,"Heikkinen, Miss. Laina",female,26.0,3,1
3,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,1
4,"Allen, Mr. William Henry",male,35.0,3,0
...,...,...,...,...,...
884,"Rice, Mrs. William (Margaret Norton)",female,39.0,3,0
885,"Montvila, Rev. Juozas",male,27.0,2,0
886,"Graham, Miss. Margaret Edith",female,19.0,1,1
888,"Behr, Mr. Karl Howell",male,26.0,1,1


Maintenant, admettons que je veuille filtrer cette nouvelle liste pour ne sélectionner que les femmes, je pourrais tout à fait appliquer un filtre à notre liste

In [11]:
is_female = simple_adult_list["Sex"] == "female"

simple_adult_list[is_female]

Unnamed: 0,Name,Sex,Age,Pclass,Survived
1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,1
2,"Heikkinen, Miss. Laina",female,26.0,3,1
3,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,1
8,"Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)",female,27.0,3,1
11,"Bonnell, Miss. Elizabeth",female,58.0,1,1
...,...,...,...,...,...
878,"Potter, Mrs. Thomas Jr (Lily Alexenia Wilson)",female,56.0,1,1
879,"Shelley, Mrs. William (Imanita Parrish Hall)",female,25.0,2,1
881,"Dahlberg, Miss. Gerda Ulrika",female,22.0,3,0
884,"Rice, Mrs. William (Margaret Norton)",female,39.0,3,0


Le problème c'est que ce nouveau filtre (series) a été basé sur une liste déjà modifiée, donc il ne pourra pas fonctionner sur la liste de base

In [12]:
try:
    titanic[is_female]
except p.core.indexing.IndexingError:
    print("Et non, l'erreur dit \"Unalignable boolean Series provided as indexer (index of the boolean Series and of the indexed object do not match).\"")
    print("Donc impossible d'utiliser une Series créé depuis une liste sur une autre liste")

Et non, l'erreur dit "Unalignable boolean Series provided as indexer (index of the boolean Series and of the indexed object do not match)."
Donc impossible d'utiliser une Series créé depuis une liste sur une autre liste


  titanic[is_female]


Idem pour un filtre créé depuis `titanic` pour l'appliquer sur notre sous-ensemble `simple-list` ?

In [13]:
is_female = titanic["Sex"] == "female"

simple_adult_list[is_female]

  simple_adult_list[is_female]


Unnamed: 0,Name,Sex,Age,Pclass,Survived
1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,1
2,"Heikkinen, Miss. Laina",female,26.0,3,1
3,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,1
8,"Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)",female,27.0,3,1
11,"Bonnell, Miss. Elizabeth",female,58.0,1,1
...,...,...,...,...,...
878,"Potter, Mrs. Thomas Jr (Lily Alexenia Wilson)",female,56.0,1,1
879,"Shelley, Mrs. William (Imanita Parrish Hall)",female,25.0,2,1
881,"Dahlberg, Miss. Gerda Ulrika",female,22.0,3,0
884,"Rice, Mrs. William (Margaret Norton)",female,39.0,3,0


Et non ! Dans ce sens ça fonctionne, pourquoi donc ?

### Fonctionnement des series

La series créée à partir de `titanic` comporte pour *chaque* index de la liste, une valeur booléene capable d'indique si oui on non la ligne passe le filtre.
Lorsqu'on applique cette series à un sous-ensemble, il existe bien une valeur booléene pour chaque index du sous ensemble donc ça fonctionne.

Exemple avec l'index 78 (Garçon de 1 an (qui a survécu !)) :

In [14]:
# On crée une series depuis la liste complète
is_female_titanic = (titanic["Sex"] == "female")

# On crée une series depuis la liste des adultes
is_female_simplelist = (simple_adult_list["Sex"] == "female")

# Quand on se base sur toute la liste, l'index 78 est bien présent et considéré comme False car == "male"
# On utilise la propriété `loc` qui indexe les ligne de notre tableau
print(is_female_titanic.loc[78])
print("L'index 78 existe dans la liste complète de titanic ET dans la liste des adultes, c'est donc possible de filtrer ces deux listes avec is_female_titanic")

try:
    print(is_female_simplelist.loc[78])
except KeyError :
    print("L'index 78 n'existe pas dans la liste des adultes, donc impossible de filter une liste qui possède cet indexe comme titanic")

False
L'index 78 existe dans la liste complète de titanic ET dans la liste des adultes, c'est donc possible de filtrer ces deux listes avec is_female_titanic
L'index 78 n'existe pas dans la liste des adultes, donc impossible de filter une liste qui possède cet indexe comme titanic


Tout ça pour dire qu'on doit filter une DataFrame avec une Series qui provient d'un ensemble égal ou supérieur mais pas d'un sous-ensemble.

Et pour simplifier encore plus : créez vos filtres sur la liste la plus complète, pas sur des liste déjà filtrées

### Cumuler les filtres

Comment j'ai fait pour trouver l'index 78 ? J'ai du trouver un passager masculin et mineur (et qui a survécu, pour les bonnes vibes).

Pour "additionner" les filtres, on peux continuer d'utiliser les symbole de calcul booléen comme `&` pour l'addition ou `|` pour la soustraction

In [15]:
is_male = titanic["Sex"] == "male"
is_child = titanic["Age"] < 18
has_survived = titanic["Survived"] == 1

# La liste des garçons qui ont survécu
titanic[is_male & is_child & has_survived].head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
78,79,1,2,"Caldwell, Master. Alden Gates",male,0.83,0,2,248738,29.0,,S
125,126,1,3,"Nicola-Yarred, Master. Elias",male,12.0,1,0,2651,11.2417,,C
165,166,1,3,"Goldsmith, Master. Frank John William ""Frankie""",male,9.0,0,2,363291,20.525,,S
183,184,1,2,"Becker, Master. Richard F",male,1.0,2,1,230136,39.0,F4,S
193,194,1,2,"Navratil, Master. Michel M",male,3.0,1,1,230080,26.0,F2,S


On pourrais techniquement appliquer des series à des sous-sous-ensemble pour faire le même effet qu'un `&` mais pandas n'aime pas trop ça et nous lève un warning

In [16]:
males = titanic[is_male]
boys = males[is_child]
surviving_boys = boys[has_survived]

# Pas la peine de l'afficher c'est le même tableau qu'au dessus
surviving_boys;

  boys = males[is_child]
  surviving_boys = boys[has_survived]


## 📝 À vous ! (2)

Ouvrez le fichier notebook dans le dossier `a-vous/a-vous-2.ipynb` et remplissez les blocs de code pour obtenir le résultat attendu.

## Sortir des informations

Maintenant qu'on sait comment filtrer et organiser nos données, il est temps d'extraire des informations de ce tableau.

Commençons par des données simple comme le ratio de survie. Il n'est pas indiqué par un booléen ce qui nous permet d'effectuer des calculs comme une moyenne.

In [17]:
# Tout d'abord on prépare nos sous-ensembles
males = titanic[is_male]
females = titanic[is_female]
children = titanic[is_child]

# Puis on séléctionne la colonne et on effectue la moyenne avec `.mean()`
total_survival_ratio = titanic["Survived"].mean()
print(f"{round(total_survival_ratio * 100, 1)}% des gens ont survécu")

male_survival_ratio = males["Survived"].mean()
print(f"{round(male_survival_ratio * 100, 1)}% des hommes ont survécu")

female_survival_ratio = females["Survived"].mean()
print(f"{round(female_survival_ratio * 100, 1)}% des femmes ont survécu")

child_survival_ratio = children["Survived"].mean()
print(f"{round(child_survival_ratio * 100, 1)}% des enfants ont survécu")


38.4% des gens ont survécu
18.9% des hommes ont survécu
74.2% des femmes ont survécu
54.0% des enfants ont survécu


Donc en fait on devrait dire : "Les femmes, PUIS les enfants d'abord".

On si on voulais d'autres informations rapidement pour se faire une idées des données, il est possible d'utiliser la méthode `describe()` sur un ensemble.

In [18]:
titanic["Age"].describe()

count    713.000000
mean      29.636985
std       14.441441
min        0.420000
25%       20.000000
50%       28.000000
75%       38.000000
max       80.000000
Name: Age, dtype: float64

En faisant ça on peux observer la moyenne d'age (29 ans), l'age minimum (5 mois) et l'age maximum (80 ans).
On a aussi des percentile pour les informations plus poussées.

On peut d'ailleurs effectuer ces opérations sur plusieurs colonnes à la fois

In [19]:
titanic[["Age", "Fare"]].median()

Age     28.0000
Fare    14.4542
dtype: float64

On peut aussi grouper des informations (un peu à la manière d'une requête SQL).

Ici on sélectionne le sexe et l'age, on les regroupe par sexe et on affiche la moyenne pour obtenir la moyenne d'age par sexe.

In [20]:
titanic[["Sex", "Age"]].groupby("Sex").mean()

Unnamed: 0_level_0,Age
Sex,Unnamed: 1_level_1
female,27.915709
male,30.630907


Cette façon de procéder s'appelle `split-apply-combine`, soit :

- Split : On découpe les données dans des groupes
- Apply : On exécute une fonction sur ces groupes
- Combine : On regroupe nos données dans un seul tableau

In [21]:
# Si on fait juste la moyenne sur notre groupby, elle s'applique sur toutes les colonnes numérique
titanic.groupby("Sex").mean()

Unnamed: 0_level_0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
Sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
female,431.028662,0.742038,2.159236,27.915709,0.694268,0.649682,44.479818
male,453.456597,0.189236,2.388889,30.630907,0.430556,0.236111,25.554707


In [22]:
# Et sur ce groupby, on peux aussi sélectionner des colonnes comme on le fait habituellement
titanic.groupby("Sex")["Age"].mean()

Sex
female    27.915709
male      30.630907
Name: Age, dtype: float64

### Recouper les informations

Maintenant pour aller plus loin, on va se poser une question et essayer d'y répondre : "Quel est la ratio de survie, par classe, sexe et age ?"

Tout d'abord il nous faut :

1. En extraire uniquement les colonnes classe, sexe, age et survie
1. Grouper nos données par classe, sexe et age
1. Appliquer notre moyenne à cet ensemble

In [23]:
common_cols = ["Pclass", "Sex", "Age"]
titanic[[*common_cols, "Survived"]].groupby(common_cols).mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Survived
Pclass,Sex,Age,Unnamed: 3_level_1
1,female,2.0,0.0
1,female,14.0,1.0
1,female,15.0,1.0
1,female,16.0,1.0
1,female,17.0,1.0
...,...,...,...
3,male,55.5,0.0
3,male,59.0,0.0
3,male,61.0,0.0
3,male,65.0,0.0


Ah presque, mais on a une ligne par age différent, c'est peut-être pas ce qu'on imaginait ?

Pour simplifier, il nous faudrait remplacer cette colonne Age par deux valeurs : adulte et enfant.
Pour ce faire, on va ajouter une colonne à notre tableau, et remplir chaque ligne avec deux données :

- Si l'age est entre 0 et 18 compris, on écrit "child"
- Si l'age est entre 19 et 100, on écrit "adult"

Pour effectuer cette action, on va utiliser la fonction `cut()` de pandas qui découpe des valeurs [continues](https://fr.wikipedia.org/wiki/Continu) (ex: ages) en sections [discrètes](https://fr.wikipedia.org/wiki/Discret)  
(En gros passer de plein de données à des catégories de données)

`cut()` prend trois paramètres principaux :

1. L'ensemble à découper, ici, ça sera notre colonne "Age"
1. Une plage de valeurs pour découper notre ensemble (il faut forcément au moins une valeur de plus que les nombre de libellés)
1. Une plage de libellés à assigner à notre ensemble.

In [24]:
titanic["AgeRange"] = p.cut(titanic["Age"], [0, 18, 100], labels=["child", "adult"])
titanic["AgeRange"].head(80) # pour voir notre numéro 78


0     adult
1     adult
2     adult
3     adult
4     adult
      ...  
75    adult
76      NaN
77      NaN
78    child
79    adult
Name: AgeRange, Length: 80, dtype: category
Categories (2, object): ['child' < 'adult']

Au passage on viens de voir comment ajouter une colonne à notre tableau, c'est pas plus compliqué de d'accéder à un index de colonne et de lui donner un DataFrame comme on a fait avec `cut()`

On peut maintenant réessayer notre croisement de données de tout à l'heure, en groupant par "AgeRange" maintenant

In [25]:
common_cols = ["Pclass", "Sex", "AgeRange"]
survival_info = titanic[[*common_cols, "Survived"]].groupby(common_cols).mean()
survival_info

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Survived
Pclass,Sex,AgeRange,Unnamed: 3_level_1
1,female,child,0.909091
1,female,adult,0.972973
1,male,child,0.8
1,male,adult,0.375
2,female,child,1.0
2,female,adult,0.9
2,male,child,0.6
2,male,adult,0.071429
3,female,child,0.511628
3,female,adult,0.423729


C'est tout de suite plus clair ! On peux maintenant traiter ce résultat comme un nouvel ensemble et travailler dessus

In [26]:
min_val = survival_info["Survived"].min()
max_val = survival_info["Survived"].max()

print(survival_info[survival_info["Survived"] == min_val])
print(survival_info[survival_info["Survived"] == max_val])

                      Survived
Pclass Sex  AgeRange          
2      male adult     0.071429
                        Survived
Pclass Sex    AgeRange          
2      female child          1.0


Toutes les filles en deuxième classe ont survécue mais seulement 7% des hommes en deuxième classe ont survécu

### Cumuler les données

Maintenant sur ce dernier tableau, on aimerais voir apparaître en plus de la moyenne de survie, le nombre de personnes qui ont survécu.

On peut déjà commencer par créer une nouvelle version du tableau, comportant exclusivement le nombre plutot que la moyenne

In [27]:
titanic[[*common_cols, "Survived"]].groupby(common_cols).count()

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Survived
Pclass,Sex,AgeRange,Unnamed: 3_level_1
1,female,child,11
1,female,adult,74
1,male,child,5
1,male,adult,96
2,female,child,14
2,female,adult,60
2,male,child,15
2,male,adult,84
3,female,child,43
3,female,adult,59


La méthode `count()` fait parfaitement l'affaire dans cette situation.  
Maintenant comment obtenir un seul tableau avec la moyenne et le compte ?

Puisque nos deux tableaux sont très similaires, à une colonne près, on peut utiliser une fonction de concaténation de pandas : `concat([])`

In [28]:
ratio = titanic[[*common_cols, "Survived"]].groupby(common_cols).mean()
count = titanic[[*common_cols, "Survived"]].groupby(common_cols).count()

survival_infos = p.concat([ratio, count], axis=1)
survival_infos

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Survived,Survived
Pclass,Sex,AgeRange,Unnamed: 3_level_1,Unnamed: 4_level_1
1,female,child,0.909091,11
1,female,adult,0.972973,74
1,male,child,0.8,5
1,male,adult,0.375,96
2,female,child,1.0,14
2,female,adult,0.9,60
2,male,child,0.6,15
2,male,adult,0.071429,84
3,female,child,0.511628,43
3,female,adult,0.423729,59


Très important, on a passé le paramètre `axis=1` pour ajouter cette colonne horizontalement, sinon on aurait ajouté 12 lignes de plus à la suite de notre tableau pour afficher nos données.  
(Vous pouvez essayer en remplacant le paramètre par `axis=0`)

Vous pouvez aussi renommer les colonnes des ensembles pour faire propre

In [29]:
survival_infos.columns = ["SurvivalRatio", "SurvivalCount"]
survival_infos.head()

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,SurvivalRatio,SurvivalCount
Pclass,Sex,AgeRange,Unnamed: 3_level_1,Unnamed: 4_level_1
1,female,child,0.909091,11
1,female,adult,0.972973,74
1,male,child,0.8,5
1,male,adult,0.375,96
2,female,child,1.0,14


Pour finir, on va ajouter encore une colonne pour obtenir le cumul des gens qui ont survécu. Je reconnais que ce n'est pas très utile dans ce cas de figure mais c'est principalement pour l'exemple.

Maintenant qu'on a une colonne avec des valeur numériques, on peut demander à pandas de se baser sur cette colonne pour en créer une nouvelle qui en fait le cumul

In [30]:
# On utilise la méthode `cumsum()` pour cumulated sum
survival_infos["SurvivalCumulated"] = survival_infos["SurvivalCount"].cumsum()
survival_infos

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,SurvivalRatio,SurvivalCount,SurvivalCumulated
Pclass,Sex,AgeRange,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1,female,child,0.909091,11,11
1,female,adult,0.972973,74,85
1,male,child,0.8,5,90
1,male,adult,0.375,96,186
2,female,child,1.0,14,200
2,female,adult,0.9,60,260
2,male,child,0.6,15,275
2,male,adult,0.071429,84,359
3,female,child,0.511628,43,402
3,female,adult,0.423729,59,461


### Trier les données

Maintenant, regardons comment afficher nos données dans l'ordre.  
Reprenons une liste très simple comme la liste des adultes, et trions par age

In [31]:
titanic[titanic["Age"] > 18].sort_values("Age")

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,AgeRange
238,239,0,2,"Pengelly, Mr. Frederick William",male,19.0,0,0,28665,10.5000,,S,adult
546,547,1,2,"Beane, Mrs. Edward (Ethel Clarke)",female,19.0,1,0,2908,26.0000,,S,adult
226,227,1,2,"Mellors, Mr. William John",male,19.0,0,0,SW/PP 751,10.5000,,S,adult
136,137,1,1,"Newsom, Miss. Helen Monypeny",female,19.0,0,2,11752,26.2833,D47,S,adult
566,567,0,3,"Stoytcheff, Mr. Ilia",male,19.0,0,0,349205,7.8958,,S,adult
...,...,...,...,...,...,...,...,...,...,...,...,...,...
672,673,0,2,"Mitchell, Mr. Henry Michael",male,70.0,0,0,C.A. 24580,10.5000,,S,adult
116,117,0,3,"Connors, Mr. Patrick",male,70.5,0,0,370369,7.7500,,Q,adult
493,494,0,1,"Artagaveytia, Mr. Ramon",male,71.0,0,0,PC 17609,49.5042,,C,adult
96,97,0,1,"Goldschmidt, Mr. George B",male,71.0,0,0,PC 17754,34.6542,A5,C,adult


In [32]:
# et à l'envers !
titanic[titanic["Age"] > 18].sort_values("Age", ascending = False)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,AgeRange
630,631,1,1,"Barkworth, Mr. Algernon Henry Wilson",male,80.0,0,0,27042,30.0000,A23,S,adult
493,494,0,1,"Artagaveytia, Mr. Ramon",male,71.0,0,0,PC 17609,49.5042,,C,adult
96,97,0,1,"Goldschmidt, Mr. George B",male,71.0,0,0,PC 17754,34.6542,A5,C,adult
116,117,0,3,"Connors, Mr. Patrick",male,70.5,0,0,370369,7.7500,,Q,adult
745,746,0,1,"Crosby, Capt. Edward Gifford",male,70.0,1,1,WE/P 5735,71.0000,B22,S,adult
...,...,...,...,...,...,...,...,...,...,...,...,...,...
283,284,1,3,"Dorking, Mr. Edward Arthur",male,19.0,0,0,A/5. 10482,8.0500,,S,adult
748,749,0,1,"Marvin, Mr. Daniel Warner",male,19.0,1,0,113773,53.1000,D30,S,adult
44,45,1,3,"Devaney, Miss. Margaret Delia",female,19.0,0,0,330958,7.8792,,Q,adult
238,239,0,2,"Pengelly, Mr. Frederick William",male,19.0,0,0,28665,10.5000,,S,adult


On peut aussi trier par plusieurs colonnes en passant un tableau de colonnes

In [33]:
survival_infos.sort_values(["Pclass","SurvivalRatio"])

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,SurvivalRatio,SurvivalCount,SurvivalCumulated
Pclass,Sex,AgeRange,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1,male,adult,0.375,96,186
1,male,child,0.8,5,90
1,female,child,0.909091,11,11
1,female,adult,0.972973,74,85
2,male,adult,0.071429,84,359
2,male,child,0.6,15,275
2,female,adult,0.9,60,260
2,female,child,1.0,14,200
3,male,adult,0.134328,201,713
3,male,child,0.215686,51,512


## 📝 À vous ! (3)

Ouvrez le fichier notebook dans le dossier `a-vous/a-vous-3.ipynb` et remplissez les blocs de code pour obtenir le résultat attendu.