# Cours 1 - Préparation et exploration des donnés (Data Exploration - Data Preprocessing)
Tech & Code Factory 2021 - Camille Duquesne

## Introduction

### Pourquoi étudier les donnés ?

- Pour extraires des informations, trouver des patterns
- Pour stocker, protéger, transformer et utiliser les donnés
- pour comprendre le passé et prédire le futur

### Quels sont les principaux domaines d'étude autour de la donnée ?

<img src="datascience_n.png" alt="Drawing" style="width: 400px;"/>

### Objectif du cours entier

**Acquérir de la data literacy**: "la capacité de lire, d'écrire et de communiquer des données dans leur contexte, y compris la compréhension des sources et des constructions de données, des méthodes et des techniques analytiques appliquées - et la capacité de décrire le cas d'utilisation, l'application et la valeur qui en résulte". [Source](https://www.gartner.com/smarterwithgartner/a-data-and-analytics-leaders-guide-to-data-literacy/)

### Plan du cours

Session 1: Data Exploration & Data Preprocessing  
Session 2: Data Visualisation   
Session 3: Text Preprocessing  
Session 4: Introduction to Statistics  
Session 5: Introduction to Machine Learning  
Session 6: Ethics in data science  
Session 7: Data Collection  
Session 8: Data Storytelling  
Session 9: Projet  
Session 10: Projet   
Session 11: Evaluation Finale  


### Projet Final & Syllabus

Reférez vous au Syllabus pour savoir quelles compétences seront attendues lors de l'évaluation finale (projet)

### Objectif du cours 1

- Savoir décider quelles informations extraire d'un tableau de données
- Utiliser la librairie `pandas` pour charger des tableaux de donnés
- Savoir manipuler les structures de `DataFrame` (séléctionner des colonnes, lignes,  appliquer des conditions, changer les types, ...)

## Partie 1 - Charger les donnés 

Nous avons un fichier `train.csv` avec nos données.

**Comment faire pour charger des donnés dans notre notebook ?**

Heureusement, il existe des bibliothèques Python qui nous aident à charger, visualiser et manipuler les données. La bibliothèque que nous allons utiliser s'appelle `pandas`.

Je vous invite à installer la librairie pandas sur votre environnement conda si elle n'est pas déjà installée.

Pour cela vous pouvez essayer d'executer la commande suivante dans votre terminal:

`conda install pandas`

ou bien si la première commande ne fonctionne pas, essayez :

`pip install pandas`

Nous devons ensuite importer la librairie pour pouvoir l'utiliser dans notre notebook.

In [132]:
import pandas as pd

*L'alias convenu par la communauté pour pandas est pd, donc charger pandas en tant que pd est considéré comme une pratique standard.*

Pour charger notre jeu de données, nous allons utiliser `pandas` pour :
- utiliser une fonction pour lire les fichiers csv
- stocker nos données dans une variable. Cette variable aura un type spécifique qui est `DataFrame`.

![title](01_table_dataframe.svg)
    

In [133]:
titanic_dataset = pd.read_csv("train.csv")

In [134]:
titanic_dataset

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C


Wow, tant de colonnes et de lignes ! ! Mais que représente réellement chaque colonne ? Je vous invite à consulter le site web d'où je tire les données et à lire vous-même les descriptions des colonnes https://www.kaggle.com/c/titanic/data !

- Que représente la colonne `SibS` ? 
- Que représente la colonne `Pclas` ? 
- Que représente la colonne `Survived`  ?

Maintenant, voyons comment nous pouvons afficher toutes les lignes de notre ensemble de données, des colonnes spécifiques uniquement ou des lignes spécifiques uniquement.

### **Comment sélectionner des colonnes spécifiques dans un DataFrame ?**

![title](03_subset_columns.svg)

In [135]:
titanic_dataset["Age"]

0      22.0
1      38.0
2      26.0
3      35.0
4      35.0
       ... 
886    27.0
887    19.0
888     NaN
889    26.0
890    32.0
Name: Age, Length: 891, dtype: float64

In [136]:
titanic_dataset[["Age", "Sex"]]

Unnamed: 0,Age,Sex
0,22.0,male
1,38.0,female
2,26.0,female
3,35.0,female
4,35.0,male
...,...,...
886,27.0,male
887,19.0,female
888,,female
889,26.0,male


In [137]:
titanic_dataset[["Age"]]

Unnamed: 0,Age
0,22.0
1,38.0
2,26.0
3,35.0
4,35.0
...,...
886,27.0
887,19.0
888,
889,26.0


In [138]:
subset = titanic_dataset[["Age", "Sex"]]

In [139]:
subset

Unnamed: 0,Age,Sex
0,22.0,male
1,38.0,female
2,26.0,female
3,35.0,female
4,35.0,male
...,...,...
886,27.0,male
887,19.0,female
888,,female
889,26.0,male


### **Comment afficher un certain nombre de lignes/toutes les lignes ?**

In [140]:
subset.head(5)

Unnamed: 0,Age,Sex
0,22.0,male
1,38.0,female
2,26.0,female
3,35.0,female
4,35.0,male


In [141]:
subset.head(50)

Unnamed: 0,Age,Sex
0,22.0,male
1,38.0,female
2,26.0,female
3,35.0,female
4,35.0,male
5,,male
6,54.0,male
7,2.0,male
8,27.0,female
9,14.0,female


In [142]:
titanic_dataset["Age"].head(20)

0     22.0
1     38.0
2     26.0
3     35.0
4     35.0
5      NaN
6     54.0
7      2.0
8     27.0
9     14.0
10     4.0
11    58.0
12    20.0
13    39.0
14    14.0
15    55.0
16     2.0
17     NaN
18    31.0
19     NaN
Name: Age, dtype: float64

### Comment afficher des colonnes en ordre croissant et décroissant ?

In [143]:
titanic_dataset["Age"].sort_values()

803    0.42
755    0.67
644    0.75
469    0.75
78     0.83
       ... 
859     NaN
863     NaN
868     NaN
878     NaN
888     NaN
Name: Age, Length: 891, dtype: float64

In [144]:
titanic_dataset["Age"].sort_values(ascending=False)

630    80.0
851    74.0
493    71.0
96     71.0
116    70.5
       ... 
859     NaN
863     NaN
868     NaN
878     NaN
888     NaN
Name: Age, Length: 891, dtype: float64

In [145]:
titanic_dataset.sort_values(by=['Age'])

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
803,804,1,3,"Thomas, Master. Assad Alexander",male,0.42,0,1,2625,8.5167,,C
755,756,1,2,"Hamalainen, Master. Viljo",male,0.67,1,1,250649,14.5000,,S
644,645,1,3,"Baclini, Miss. Eugenie",female,0.75,2,1,2666,19.2583,,C
469,470,1,3,"Baclini, Miss. Helene Barbara",female,0.75,2,1,2666,19.2583,,C
78,79,1,2,"Caldwell, Master. Alden Gates",male,0.83,0,2,248738,29.0000,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
859,860,0,3,"Razi, Mr. Raihed",male,,0,0,2629,7.2292,,C
863,864,0,3,"Sage, Miss. Dorothy Edith ""Dolly""",female,,8,2,CA. 2343,69.5500,,S
868,869,0,3,"van Melkebeke, Mr. Philemon",male,,0,0,345777,9.5000,,S
878,879,0,3,"Laleff, Mr. Kristo",male,,0,0,349217,7.8958,,S


In [146]:
titanic_dataset.sort_values(by=['Pclass', 'Age'],
        ascending=[True, False])

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
630,631,1,1,"Barkworth, Mr. Algernon Henry Wilson",male,80.0,0,0,27042,30.0000,A23,S
96,97,0,1,"Goldschmidt, Mr. George B",male,71.0,0,0,PC 17754,34.6542,A5,C
493,494,0,1,"Artagaveytia, Mr. Ramon",male,71.0,0,0,PC 17609,49.5042,,C
745,746,0,1,"Crosby, Capt. Edward Gifford",male,70.0,1,1,WE/P 5735,71.0000,B22,S
54,55,0,1,"Ostby, Mr. Engelhart Cornelius",male,65.0,0,1,113509,61.9792,B30,C
...,...,...,...,...,...,...,...,...,...,...,...,...
859,860,0,3,"Razi, Mr. Raihed",male,,0,0,2629,7.2292,,C
863,864,0,3,"Sage, Miss. Dorothy Edith ""Dolly""",female,,8,2,CA. 2343,69.5500,,S
868,869,0,3,"van Melkebeke, Mr. Philemon",male,,0,0,345777,9.5000,,S
878,879,0,3,"Laleff, Mr. Kristo",male,,0,0,349217,7.8958,,S


In [147]:
titanic_dataset["Age"].sort_values().head(20)

803    0.42
755    0.67
644    0.75
469    0.75
78     0.83
831    0.83
305    0.92
827    1.00
381    1.00
164    1.00
183    1.00
386    1.00
172    1.00
788    1.00
642    2.00
7      2.00
530    2.00
297    2.00
824    2.00
205    2.00
Name: Age, dtype: float64

### **Comment filtrer des lignes spécifiques d'un DataFrame ?**

![title](03_subset_rows.svg)

In [148]:
above_35 = titanic_dataset[titanic_dataset["Age"] > 35]

In [149]:
above_35

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
6,7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.8625,E46,S
11,12,1,1,"Bonnell, Miss. Elizabeth",female,58.0,0,0,113783,26.5500,C103,S
13,14,0,3,"Andersson, Mr. Anders Johan",male,39.0,1,5,347082,31.2750,,S
15,16,1,2,"Hewlett, Mrs. (Mary D Kingcome)",female,55.0,0,0,248706,16.0000,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
865,866,1,2,"Bystrom, Mrs. (Karolina)",female,42.0,0,0,236852,13.0000,,S
871,872,1,1,"Beckwith, Mrs. Richard Leonard (Sallie Monypeny)",female,47.0,1,1,11751,52.5542,D35,S
873,874,0,3,"Vander Cruyssen, Mr. Victor",male,47.0,0,0,345765,9.0000,,S
879,880,1,1,"Potter, Mrs. Thomas Jr (Lily Alexenia Wilson)",female,56.0,0,1,11767,83.1583,C50,C


In [150]:
titanic_dataset["Age"] > 35

0      False
1       True
2      False
3      False
4      False
       ...  
886    False
887    False
888    False
889    False
890    False
Name: Age, Length: 891, dtype: bool

In [151]:
titanic_dataset[titanic_dataset["Sex"] == "male"]

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
5,6,0,3,"Moran, Mr. James",male,,0,0,330877,8.4583,,Q
6,7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.8625,E46,S
7,8,0,3,"Palsson, Master. Gosta Leonard",male,2.0,3,1,349909,21.0750,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
883,884,0,2,"Banfield, Mr. Frederick James",male,28.0,0,0,C.A./SOTON 34068,10.5000,,S
884,885,0,3,"Sutehall, Mr. Henry Jr",male,25.0,0,0,SOTON/OQ 392076,7.0500,,S
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C


In [152]:
titanic_dataset[(titanic_dataset["Sex"] == "male") & (titanic_dataset["Age"] > 35.) ]

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
6,7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.8625,E46,S
13,14,0,3,"Andersson, Mr. Anders Johan",male,39.0,1,5,347082,31.2750,,S
30,31,0,1,"Uruchurtu, Don. Manuel E",male,40.0,0,0,PC 17601,27.7208,,C
33,34,0,2,"Wheadon, Mr. Edward H",male,66.0,0,0,C.A. 24579,10.5000,,S
35,36,0,1,"Holverson, Mr. Alexander Oskar",male,42.0,1,0,113789,52.0000,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
845,846,0,3,"Abbing, Mr. Anthony",male,42.0,0,0,C.A. 5547,7.5500,,S
851,852,0,3,"Svensson, Mr. Johan",male,74.0,0,0,347060,7.7750,,S
857,858,1,1,"Daly, Mr. Peter Denis",male,51.0,0,0,113055,26.5500,E17,S
860,861,0,3,"Hansen, Mr. Claus Peter",male,41.0,2,0,350026,14.1083,,S


**Exercices:**
- Essayez d'afficher le jeu de données des personnes qui ont payé un tarif supérieur à 50.
- Essayez d'afficher le jeu de données des personnes qui ont survécu.
- Essayez d'afficher le jeu de données des mâles qui ont survécu.

In [153]:
#Votre code ici

### **Comment sélectionner des lignes et des colonnes spécifiques dans un DataFrame ?**

![title](03_subset_columns_rows.svg)

In [154]:
titanic_dataset.iloc[9:25]

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
9,10,1,2,"Nasser, Mrs. Nicholas (Adele Achem)",female,14.0,1,0,237736,30.0708,,C
10,11,1,3,"Sandstrom, Miss. Marguerite Rut",female,4.0,1,1,PP 9549,16.7,G6,S
11,12,1,1,"Bonnell, Miss. Elizabeth",female,58.0,0,0,113783,26.55,C103,S
12,13,0,3,"Saundercock, Mr. William Henry",male,20.0,0,0,A/5. 2151,8.05,,S
13,14,0,3,"Andersson, Mr. Anders Johan",male,39.0,1,5,347082,31.275,,S
14,15,0,3,"Vestrom, Miss. Hulda Amanda Adolfina",female,14.0,0,0,350406,7.8542,,S
15,16,1,2,"Hewlett, Mrs. (Mary D Kingcome)",female,55.0,0,0,248706,16.0,,S
16,17,0,3,"Rice, Master. Eugene",male,2.0,4,1,382652,29.125,,Q
17,18,1,2,"Williams, Mr. Charles Eugene",male,,0,0,244373,13.0,,S
18,19,0,3,"Vander Planke, Mrs. Julius (Emelia Maria Vande...",female,31.0,1,0,345763,18.0,,S


In [155]:
titanic_dataset.iloc[9:25, 3:6]

Unnamed: 0,Name,Sex,Age
9,"Nasser, Mrs. Nicholas (Adele Achem)",female,14.0
10,"Sandstrom, Miss. Marguerite Rut",female,4.0
11,"Bonnell, Miss. Elizabeth",female,58.0
12,"Saundercock, Mr. William Henry",male,20.0
13,"Andersson, Mr. Anders Johan",male,39.0
14,"Vestrom, Miss. Hulda Amanda Adolfina",female,14.0
15,"Hewlett, Mrs. (Mary D Kingcome)",female,55.0
16,"Rice, Master. Eugene",male,2.0
17,"Williams, Mr. Charles Eugene",male,
18,"Vander Planke, Mrs. Julius (Emelia Maria Vande...",female,31.0


In [156]:
titanic_dataset[["Age", "Name","Sex"]].iloc[9:25]

Unnamed: 0,Age,Name,Sex
9,14.0,"Nasser, Mrs. Nicholas (Adele Achem)",female
10,4.0,"Sandstrom, Miss. Marguerite Rut",female
11,58.0,"Bonnell, Miss. Elizabeth",female
12,20.0,"Saundercock, Mr. William Henry",male
13,39.0,"Andersson, Mr. Anders Johan",male
14,14.0,"Vestrom, Miss. Hulda Amanda Adolfina",female
15,55.0,"Hewlett, Mrs. (Mary D Kingcome)",female
16,2.0,"Rice, Master. Eugene",male
17,,"Williams, Mr. Charles Eugene",male
18,31.0,"Vander Planke, Mrs. Julius (Emelia Maria Vande...",female


In [157]:
titanic_dataset.iloc[9:25, [3,6,1]]

Unnamed: 0,Name,SibSp,Survived
9,"Nasser, Mrs. Nicholas (Adele Achem)",1,1
10,"Sandstrom, Miss. Marguerite Rut",1,1
11,"Bonnell, Miss. Elizabeth",0,1
12,"Saundercock, Mr. William Henry",0,0
13,"Andersson, Mr. Anders Johan",1,0
14,"Vestrom, Miss. Hulda Amanda Adolfina",0,0
15,"Hewlett, Mrs. (Mary D Kingcome)",0,1
16,"Rice, Master. Eugene",4,0
17,"Williams, Mr. Charles Eugene",0,1
18,"Vander Planke, Mrs. Julius (Emelia Maria Vande...",1,0


In [158]:
titanic_dataset.loc[titanic_dataset["Age"] > 35, "Name"]

1      Cumings, Mrs. John Bradley (Florence Briggs Th...
6                                McCarthy, Mr. Timothy J
11                              Bonnell, Miss. Elizabeth
13                           Andersson, Mr. Anders Johan
15                      Hewlett, Mrs. (Mary D Kingcome) 
                             ...                        
865                             Bystrom, Mrs. (Karolina)
871     Beckwith, Mrs. Richard Leonard (Sallie Monypeny)
873                          Vander Cruyssen, Mr. Victor
879        Potter, Mrs. Thomas Jr (Lily Alexenia Wilson)
885                 Rice, Mrs. William (Margaret Norton)
Name: Name, Length: 217, dtype: object

In [159]:
titanic_dataset.loc[titanic_dataset["Age"] > 35, "Name"].iloc[13:36]

62                           Harris, Mr. Henry Birkhardt
92                           Chaffee, Mr. Herbert Fuller
94                                     Coxon, Mr. Daniel
96                             Goldschmidt, Mr. George B
104                       Gustafsson, Mr. Anders Vilhelm
108                                      Rekic, Mr. Tido
110                       Porter, Mr. Walter Chamberlain
116                                 Connors, Mr. Patrick
124                          White, Mr. Percival Wayland
129                                   Ekstrom, Mr. Johan
132       Robins, Mrs. Alexander A (Grace Charity Laury)
137                          Futrelle, Mr. Jacques Heath
148             Navratil, Mr. Michel ("Louis M Hoffman")
149                    Byles, Rev. Thomas Roussel Davids
150                           Bateman, Rev. Robert James
152                                     Meo, Mr. Alfonzo
153                      van Billiard, Mr. Austin Blyler
155                          Wi

In [160]:
male_age35_subset = titanic_dataset[(titanic_dataset["Sex"] == "male") & (titanic_dataset["Age"] > 35.)]
male_age35_subset.iloc[12:26]

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
110,111,0,1,"Porter, Mr. Walter Chamberlain",male,47.0,0,0,110465,52.0,C110,S
116,117,0,3,"Connors, Mr. Patrick",male,70.5,0,0,370369,7.75,,Q
124,125,0,1,"White, Mr. Percival Wayland",male,54.0,0,1,35281,77.2875,D26,S
129,130,0,3,"Ekstrom, Mr. Johan",male,45.0,0,0,347061,6.975,,S
137,138,0,1,"Futrelle, Mr. Jacques Heath",male,37.0,1,0,113803,53.1,C123,S
148,149,0,2,"Navratil, Mr. Michel (""Louis M Hoffman"")",male,36.5,0,2,230080,26.0,F2,S
149,150,0,2,"Byles, Rev. Thomas Roussel Davids",male,42.0,0,0,244310,13.0,,S
150,151,0,2,"Bateman, Rev. Robert James",male,51.0,0,0,S.O.P. 1166,12.525,,S
152,153,0,3,"Meo, Mr. Alfonzo",male,55.5,0,0,A.5. 11206,8.05,,S
153,154,0,3,"van Billiard, Mr. Austin Blyler",male,40.5,0,2,A/5. 851,14.5,,S


**Exercices:**
- Essayez d'afficher les 20 premiers prénoms des passagers de moins de 18 ans
- d'afficher les 10 premières lignes du sous-ensemble contenant les colonnes class, name et fare
- afficher les lignes 12 à 26 du sous-ensemble des noms des femmes ayant survécu au Titanic

In [161]:
#Votre code ici

**Maintenant c'est votre tour ! 
Essayons d'appliquer ce que nous avons appris avec un nouveau jeu de données ! 
Téléchargez le jeu de données sur les AVC que je vous ai envoyé par mail, chargez-le dans votre notebook Jupyter, comprenez vos données (https://www.kaggle.com/fedesoriano/stroke-prediction-dataset) et essayez d'afficher certaines colonnes et lignes spécifiques de votre choix !**.

In [162]:
#Votre code ici

## Partie 2 - Décrire les données 

Vérifions les types de nos colonnes

In [163]:
titanic_dataset.dtypes

PassengerId      int64
Survived         int64
Pclass           int64
Name            object
Sex             object
Age            float64
SibSp            int64
Parch            int64
Ticket          object
Fare           float64
Cabin           object
Embarked        object
dtype: object

Et avec un peu plus de détail:

In [164]:
titanic_dataset.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


### Statistiques basiques 

![title](06_aggregate.svg)

In [165]:
titanic_dataset[["Age"]].max()

Age    80.0
dtype: float64

In [166]:
titanic_dataset[["Age"]].min()

Age    0.42
dtype: float64

In [167]:
titanic_dataset[["Age"]].mean()

Age    29.699118
dtype: float64

In [168]:
titanic_dataset[["Age"]].median()

Age    28.0
dtype: float64

In [169]:
titanic_dataset[["Age"]].std()

Age    14.526497
dtype: float64

Quelle est la différence entre moyenne, médiane et std ? Pour plus d'informations, vous pouvez lire cet article https://www.clinfo.eu/mean-median/

**Exercice**
- Quels sont le minimum, le maximum, la moyenne et la médiane du prix du billet ?

In [170]:
#Votre code

In [171]:
titanic_dataset.describe()

Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
count,891.0,891.0,891.0,714.0,891.0,891.0,891.0
mean,446.0,0.383838,2.308642,29.699118,0.523008,0.381594,32.204208
std,257.353842,0.486592,0.836071,14.526497,1.102743,0.806057,49.693429
min,1.0,0.0,1.0,0.42,0.0,0.0,0.0
25%,223.5,0.0,2.0,20.125,0.0,0.0,7.9104
50%,446.0,0.0,3.0,28.0,0.0,0.0,14.4542
75%,668.5,1.0,3.0,38.0,1.0,0.0,31.0
max,891.0,1.0,3.0,80.0,8.0,6.0,512.3292


### Statistiques de base regroupées par catégorie

![title](06_groupby.svg)

**Quel est l'âge moyen des passagers masculins et féminins du Titanic?**

In [172]:
titanic_dataset[["Sex", "Age"]].groupby("Sex").mean()

Unnamed: 0_level_0,Age
Sex,Unnamed: 1_level_1
female,27.915709
male,30.726645


In [173]:
titanic_dataset.groupby("Sex").mean()

Unnamed: 0_level_0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
Sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
female,431.028662,0.742038,2.159236,27.915709,0.694268,0.649682,44.479818
male,454.147314,0.188908,2.389948,30.726645,0.429809,0.235702,25.523893


In [174]:
titanic_dataset.groupby("Sex")["Age"].mean()

Sex
female    27.915709
male      30.726645
Name: Age, dtype: float64

**Quel est le prix moyen du billet pour chacune des combinaisons de sexe et de classe de cabine ?**

In [175]:
titanic_dataset.groupby(["Sex", "Pclass"])["Fare"].mean()

Sex     Pclass
female  1         106.125798
        2          21.970121
        3          16.118810
male    1          67.226127
        2          19.741782
        3          12.661633
Name: Fare, dtype: float64

**Exercice:**
- Quels sont les prix min, max, moyenne, médiane, std pour chaque genre ? 
- Quels sont les prix minimum, maximum, moyen, médian, std pour chaque classe de cabine ? 
- Quel est l'âge moyen pour chaque combinaison de sexe et de classe de cabine ?

In [176]:
#Votre code

### Compter le nombre d'enregistrements par catégorie

![title](06_valuecounts.svg)

**Quel est le nombre de passagers dans chacune des classes de cabine?**

In [177]:
titanic_dataset["Pclass"].value_counts() #Compte le nombre d'occurences de catégories différentes 

3    491
1    216
2    184
Name: Pclass, dtype: int64

In [178]:
titanic_dataset.groupby("Pclass")["Pclass"].count() #Compte le nombre de lignes

Pclass
1    216
2    184
3    491
Name: Pclass, dtype: int64

In [179]:
titanic_dataset["Pclass"].value_counts(normalize=True)

3    0.551066
1    0.242424
2    0.206510
Name: Pclass, dtype: float64

In [180]:
titanic_dataset[(titanic_dataset["Sex"] == "male") & (titanic_dataset["Age"] > 35.)]["Pclass"].value_counts()

1    66
3    48
2    30
Name: Pclass, dtype: int64

**Exercice:**
- Combien d'hommes et de femmes y a-t-il dans ce jeu de données ? Quel est leur pourcentage respectif ? 
- Combien de survivants et de non survivants y a-t-il dans ce jeu de données ? Quel est leur pourcentage respectif ? 
- Combien de femmes de plus de 55 ans étaient dans la classe 1 ? 
- Combien d'hommes et de femmes ont survécu au Titanic ? 
- Quelle classe a eu le plus de survivants du Titanic ? 

In [181]:
#Votre code

### Les valeurs NaN

**Qu'est ce que sont les valeurs NaN ?*** 

**NaN** : NaN (acronyme de Not a Number) est une valeur spéciale en float reconnue par tous les systèmes qui utilisent la représentation standard en float de l'IEEE.

**Pourquoi y a t'il des valeurs NaN ?**

- données non collectés 
- erreur lors de la collection de données
- donneés non existantes

In [182]:
titanic_dataset.isna().sum()

PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64

**Exercice:**
- A votre avis pourquoi y a t'il des donnés manquantes sur l'age de certains passagers ?
- Pourquoi y a t'il autant de valeurs manquantes sur les valeurs de `Cabin`?

In [183]:
#Votre code

## Partie 3 - Nettoyage des données 

### Changer le type de colonnes

In [184]:
titanic_dataset.groupby("Sex").mean()

Unnamed: 0_level_0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
Sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
female,431.028662,0.742038,2.159236,27.915709,0.694268,0.649682,44.479818
male,454.147314,0.188908,2.389948,30.726645,0.429809,0.235702,25.523893


In [185]:
titanic_dataset["Pclass"] = titanic_dataset["Pclass"].astype(object)

In [186]:
titanic_dataset.dtypes

PassengerId      int64
Survived         int64
Pclass          object
Name            object
Sex             object
Age            float64
SibSp            int64
Parch            int64
Ticket          object
Fare           float64
Cabin           object
Embarked        object
dtype: object

In [187]:
titanic_dataset.groupby("Sex").mean()

Unnamed: 0_level_0,PassengerId,Survived,Age,SibSp,Parch,Fare
Sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
female,431.028662,0.742038,27.915709,0.694268,0.649682,44.479818
male,454.147314,0.188908,30.726645,0.429809,0.235702,25.523893


### Supprimmer les colonnes non pertinentes

In [188]:
titanic_dataset = titanic_dataset.drop(columns= ["Cabin", "Name"])

In [189]:
titanic_dataset

Unnamed: 0,PassengerId,Survived,Pclass,Sex,Age,SibSp,Parch,Ticket,Fare,Embarked
0,1,0,3,male,22.0,1,0,A/5 21171,7.2500,S
1,2,1,1,female,38.0,1,0,PC 17599,71.2833,C
2,3,1,3,female,26.0,0,0,STON/O2. 3101282,7.9250,S
3,4,1,1,female,35.0,1,0,113803,53.1000,S
4,5,0,3,male,35.0,0,0,373450,8.0500,S
...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,male,27.0,0,0,211536,13.0000,S
887,888,1,1,female,19.0,0,0,112053,30.0000,S
888,889,0,3,female,,1,2,W./C. 6607,23.4500,S
889,890,1,1,male,26.0,0,0,111369,30.0000,C


### Creer des nouvelles colonnes 

In [190]:
titanic_dataset["New Column"] = titanic_dataset["SibSp"] + titanic_dataset["Parch"]
titanic_dataset

Unnamed: 0,PassengerId,Survived,Pclass,Sex,Age,SibSp,Parch,Ticket,Fare,Embarked,New Column
0,1,0,3,male,22.0,1,0,A/5 21171,7.2500,S,1
1,2,1,1,female,38.0,1,0,PC 17599,71.2833,C,1
2,3,1,3,female,26.0,0,0,STON/O2. 3101282,7.9250,S,0
3,4,1,1,female,35.0,1,0,113803,53.1000,S,1
4,5,0,3,male,35.0,0,0,373450,8.0500,S,0
...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,male,27.0,0,0,211536,13.0000,S,0
887,888,1,1,female,19.0,0,0,112053,30.0000,S,0
888,889,0,3,female,,1,2,W./C. 6607,23.4500,S,3
889,890,1,1,male,26.0,0,0,111369,30.0000,C,0


In [191]:
#Apply
titanic_dataset["Sex"] = titanic_dataset["Sex"].apply(lambda x: 0 if x =="male" else 1)
titanic_dataset

Unnamed: 0,PassengerId,Survived,Pclass,Sex,Age,SibSp,Parch,Ticket,Fare,Embarked,New Column
0,1,0,3,0,22.0,1,0,A/5 21171,7.2500,S,1
1,2,1,1,1,38.0,1,0,PC 17599,71.2833,C,1
2,3,1,3,1,26.0,0,0,STON/O2. 3101282,7.9250,S,0
3,4,1,1,1,35.0,1,0,113803,53.1000,S,1
4,5,0,3,0,35.0,0,0,373450,8.0500,S,0
...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,0,27.0,0,0,211536,13.0000,S,0
887,888,1,1,1,19.0,0,0,112053,30.0000,S,0
888,889,0,3,1,,1,2,W./C. 6607,23.4500,S,3
889,890,1,1,0,26.0,0,0,111369,30.0000,C,0


In [192]:
category = pd.cut(titanic_dataset.Age, bins=[0,20, 30, 40, 50, 60, 100], labels=["0-19", "20-29", "30-39", "40-49", "50-59","60++"])

In [193]:
titanic_dataset.insert(6, "Age Group", category)

In [194]:
titanic_dataset

Unnamed: 0,PassengerId,Survived,Pclass,Sex,Age,SibSp,Age Group,Parch,Ticket,Fare,Embarked,New Column
0,1,0,3,0,22.0,1,20-29,0,A/5 21171,7.2500,S,1
1,2,1,1,1,38.0,1,30-39,0,PC 17599,71.2833,C,1
2,3,1,3,1,26.0,0,20-29,0,STON/O2. 3101282,7.9250,S,0
3,4,1,1,1,35.0,1,30-39,0,113803,53.1000,S,1
4,5,0,3,0,35.0,0,30-39,0,373450,8.0500,S,0
...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,0,27.0,0,20-29,0,211536,13.0000,S,0
887,888,1,1,1,19.0,0,0-19,0,112053,30.0000,S,0
888,889,0,3,1,,1,,2,W./C. 6607,23.4500,S,3
889,890,1,1,0,26.0,0,20-29,0,111369,30.0000,C,0


In [195]:
titanic_dataset["Age Group"].value_counts()

20-29    230
0-19     179
30-39    155
40-49     86
50-59     42
60++      22
Name: Age Group, dtype: int64

### Partie 4 - Extraire des informations de base 

L'objectif principal de tout ce que nous avons vu aujourd'hui est de tirer des conclusions humaines compréhensibles à partir de nos données. Par exemple, dans le cas du Titanic, nous pouvons voir qu'il y avait plus d'hommes que de femmes à bord, mais que plus de femmes ont survécu, probablement parce qu'il était de coutume de sauver "les dames et les enfants d'abord".

**Maintenant à vous de jouer ! Essayez d'extraire au moins 3 informations que vous considerez intéréssantes sur les dataset relié aux AVC**

In [196]:
# Votre code ici