# Traiter les valeurs manquantes

## Trouver les valeurs manquantes

- Lire le dataset titanic_survival.csv

- Compter le nombre de valeurs dans la colonne "age" possédant des valeurs manquantes:
>- Assigner à la variable age la colonne des ages du dataframe titanic_survival
>- Utiliser pandas.isnull() sur la variable age pour créer une Series de valeurs True et False
>- Utiliser la Series résultante pour sélectionner seulement les élements de la colonne "age" qui sont nuls et assigner le résultat à la variable age_null
>- Assigner le nombre de valeurs manquantes de age_null à la variable age_null_count (fonction len() )
- Afficher age_null_count pour voir le nombre de valeurs manquantes de la colonne "age"

In [2]:
import pandas as pd

titanic_survival = pd.read_csv("Jeux_de_donnees/titanic_survival.csv")

In [3]:
age = titanic_survival["age"]
print(age.loc[10:25])

10    47.0
11    18.0
12    24.0
13    26.0
14    80.0
15     NaN
16    24.0
17    50.0
18    32.0
19    36.0
20    37.0
21    47.0
22    26.0
23    42.0
24    29.0
25    25.0
Name: age, dtype: float64


In [4]:
print(pd.isnull(age))

0       False
1       False
2       False
3       False
4       False
        ...  
1305     True
1306    False
1307    False
1308    False
1309     True
Name: age, Length: 1310, dtype: bool


In [5]:
age_is_null = pd.isnull(age)
age_null = age[age_is_null]
age_null_count = len(age_null)
print(age_null_count)

264


In [6]:
print(age_null)

15     NaN
37     NaN
40     NaN
46     NaN
59     NaN
        ..
1297   NaN
1302   NaN
1303   NaN
1305   NaN
1309   NaN
Name: age, Length: 264, dtype: float64


## Problème avec les valeurs manquantes

- Utiliser age_is_null pour créer un vecteur qui contient seulement les valeurs de la colonne "age" qui ne sont pas NaN (c'est à dire pour lesquelles age_is_null vaut False)
- Assigner ce résultat à la variable good_ages
- Calculer la moyenne de ce nouveau vecteur et assigner le résultat à la variable mean_age
- Afficher cette moyenne.

In [7]:
age_is_null = pd.isnull(titanic_survival["age"])
good_ages = titanic_survival["age"][age_is_null == False]
mean_age = sum(good_ages) / len(good_ages)
print(mean_age)

29.8811345124283


## Calculer une moyenne plus simplement

- Assigner la moyenne de la colonne "fare" à la variable mean_fare.
- Afficher le résultat.

In [8]:
mean_fare = titanic_survival["fare"].mean()
print(mean_fare)

33.29547928134572


## Calculer des statistiques de prix

- Créer un dictionnaire vide qu'on nommera fares_by_class.
- Créer la liste passenger_classes qui contient les éléments [1,2,3].
- Utiliser une boucle for pour parcourir la liste passenger_classes:
>- Sélectionner juste les lignes de titanic_survival pour lesquelles la colonne pclass est égale à la variable temporaire (l'itérareur) de la boucle for, c'est à dire correspondant au numéro de classe (1, 2 ou 3)
>- Sélectionner seulement la colonne fare pour ce sous-ensemble de lignes (correspondant à la classe)
>- Utiliser la méthode Series.mean() pour calculer la moyenne de ce sous-ensemble
>- Ajouter cette moyenne calculée de la classe au dictionnaire fares_by_class avec comme clé le numéro de la classe (et donc comme valeur la moyenne du prix du billet d'embarquement)
- Une fois la boucle achevée, le dictionnaire fares_by_class devrait avoir 1,2 et 3 comme clés avec en valeur les moyennes correpondantes.
- Afficher le résultat.

In [9]:
fares_by_class = {}
passenger_classes = [1,2,3]

for this_class in passenger_classes:
    is_class = (titanic_survival["pclass"] == this_class)
    pclass_rows = titanic_survival[is_class]
    pclass_fares = pclass_rows["fare"]
    fare_for_class = pclass_fares.mean()
    fares_by_class[this_class] = fare_for_class
    
print(fares_by_class)

{1: 87.50899164086687, 2: 21.1791963898917, 3: 13.302888700564957}


## Introduction aux pivots de table

Le pivots de table est un moyen de créer un sous ensemble directment sur une colonne et d'effectuer un calcul sur une colonne comme la somme ou une moyenne. 

- Utiliser la méthode dataFrame.pivot_table() pour calculer la moyenne de l'âge pour chaque classe de passager ("pclass").
- Assigner le résultat à la variable passenger_age.
- Afficher passenger_age.
- Faire de même avec la colonne survived pour chaque classe de passager.

In [11]:
passenger_age = titanic_survival.pivot_table(index="pclass", values="age")
print(passenger_age)

              age
pclass           
1.0     39.159918
2.0     29.506705
3.0     24.816367


In [12]:
passenger_survival = titanic_survival.pivot_table(index="pclass", values="survived")
print(passenger_survival)

        survived
pclass          
1.0     0.619195
2.0     0.429603
3.0     0.255289


## Tables Pivot Niveau 2

- Faire un pivot de table qui calcule le total d'argent encaissé ("fare") et le nombre total de survivants ("survived") pour chaque port d'embarcation ("embarked"). Il faudra utiliser la fonction numpy.sum
- Assigner le résultat à la variable port_stats.
- Afficher le résultat.

In [14]:
import numpy as np

port_stats = titanic_survival.pivot_table(index="embarked", values=["fare","survived"], aggfunc=np.sum)
print(port_stats)

                fare  survived
embarked                      
C         16830.7922     150.0
Q          1526.3085      44.0
S         25033.3862     304.0


## Eliminer les valeurs manquantes

- Supprimer toutes les lignes de titanic_survival pour lesquelles les colonnes "age" ou "sex" ont des valeurs manquantes et assigner le résultat à la variable new_titanic_survival.
- Comparer le nombre de lignes qu'il reste avec l'attribut shape.

In [15]:
#axis = 0 pour supprimer les lignes et axis = 1 pour supprimer les colonnes
new_titanic_survival = titanic_survival.dropna(axis=0, subset=["age", "sex"])
new_titanic_survival

Unnamed: 0,pclass,survived,name,sex,age,sibsp,parch,ticket,fare,cabin,embarked,boat,body,home.dest
0,1.0,1.0,"Allen, Miss. Elisabeth Walton",female,29.0000,0.0,0.0,24160,211.3375,B5,S,2,,"St Louis, MO"
1,1.0,1.0,"Allison, Master. Hudson Trevor",male,0.9167,1.0,2.0,113781,151.5500,C22 C26,S,11,,"Montreal, PQ / Chesterville, ON"
2,1.0,0.0,"Allison, Miss. Helen Loraine",female,2.0000,1.0,2.0,113781,151.5500,C22 C26,S,,,"Montreal, PQ / Chesterville, ON"
3,1.0,0.0,"Allison, Mr. Hudson Joshua Creighton",male,30.0000,1.0,2.0,113781,151.5500,C22 C26,S,,135.0,"Montreal, PQ / Chesterville, ON"
4,1.0,0.0,"Allison, Mrs. Hudson J C (Bessie Waldo Daniels)",female,25.0000,1.0,2.0,113781,151.5500,C22 C26,S,,,"Montreal, PQ / Chesterville, ON"
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1301,3.0,0.0,"Youseff, Mr. Gerious",male,45.5000,0.0,0.0,2628,7.2250,,C,,312.0,
1304,3.0,0.0,"Zabour, Miss. Hileni",female,14.5000,1.0,0.0,2665,14.4542,,C,,328.0,
1306,3.0,0.0,"Zakarian, Mr. Mapriededer",male,26.5000,0.0,0.0,2656,7.2250,,C,,304.0,
1307,3.0,0.0,"Zakarian, Mr. Ortin",male,27.0000,0.0,0.0,2670,7.2250,,C,,,


In [16]:
print(new_titanic_survival.shape)
print(titanic_survival.shape)

(1046, 14)
(1310, 14)


## iloc pour accéder à des lignes

- Assigner les 10 premières lignes de new_titanic_survival à la variable first_ten_rows.
- Assigner la 5e ligne de new_titanic_survival à la variable row_position-fifth.
- Assigner la ligne dont l'intitulé d'index est 25 pour new_titanic_survival à la variable row_index_25.

In [18]:
first_ten_rows = new_titanic_survival.iloc[0:10]
row_position_fifth = new_titanic_survival.iloc[4]
row_index_25 = new_titanic_survival.loc[25]

## Les index de colonne

- Assigner la valeur d'intitule de ligne 1100 pour la colonne "age" de new_titanic_survival à la variable row_index_1100_age.
- Assigner la valeur d'intitulé de ligne 25 pour la colonne "survived" de new_titanic_survival à la variable row_index_25_survived.
- Assigner les 5 premières lignes et 3 premières colonnes de new_titanic_survival à la variable five_rows_three_cols.
- Afficher tous les résultats.

In [19]:
row_index_1100_age = new_titanic_survival.loc[1100,"age"]
row_index_25_survived = new_titanic_survival.loc[25,"survived"]
five_rows_three_cols = new_titanic_survival.iloc[0:5,0:3]

In [20]:
print(type(row_index_25_survived))

<class 'numpy.float64'>


In [16]:
print(five_rows_three_cols)

   pclass  survived                                             name
0     1.0       1.0                    Allen, Miss. Elisabeth Walton
1     1.0       1.0                   Allison, Master. Hudson Trevor
2     1.0       0.0                     Allison, Miss. Helen Loraine
3     1.0       0.0             Allison, Mr. Hudson Joshua Creighton
4     1.0       0.0  Allison, Mrs. Hudson J C (Bessie Waldo Daniels)


## Réindexer les lignes d'un dataframe

- Ré-indexer le dataframe new_titanic_survival pour que la première ligne commence à 0 et supprimer l'ancien indexage.
- Assigner le résultat à la variable titanic_reindexed.
- Afficher les 5 premières lignes et 3 premières colonnes de titanic_reindexed.

In [28]:
titanic_reindexed = new_titanic_survival.reset_index(drop=True)
titanic_reindexed.iloc[0:5,0:3]

Unnamed: 0,pclass,survived,name
0,1.0,1.0,"Allen, Miss. Elisabeth Walton"
1,1.0,1.0,"Allison, Master. Hudson Trevor"
2,1.0,0.0,"Allison, Miss. Helen Loraine"
3,1.0,0.0,"Allison, Mr. Hudson Joshua Creighton"
4,1.0,0.0,"Allison, Mrs. Hudson J C (Bessie Waldo Daniels)"


## Appliquer des fonctions sur un DataFrame

- Ecrire une fonction qui compte le nombre d'éléments manquants d'un objet Series.
- Utiliser la méthode DataFrame.apply() pour appliquer votre fonction sur titanic_survival.
- Assigner le résultat  à la variable column_null_count.
- Afficher le résultat.

In [26]:
def null_count(column):
    column_null = pd.isnull(column)
    null = column[column_null]
    return len(null)

In [34]:
column_null_count = titanic_survival.apply(null_count)
print(column_null_count)

pclass          1
survived        1
name            1
sex             1
age           264
sibsp           1
parch           1
ticket          1
fare            2
cabin        1015
embarked        3
boat          824
body         1189
home.dest     565
dtype: int64


## Appliquer une fonction à une ligne

- Créer une fonction qui retourne la chaine de caractères "minor" pour quelqu'un de moins de 18 ans, "adult" si son age est supérieur ou égal à 18 et "unknown" si la valeur est manquante.
- utiliser cette fonction avec la méthode apply() pour trouver l'intitulé correct pour chaque pssager du dataframe titanic_survival. Ajouter l'option axis=1.
- Assigner le résultat à la variable age_labels.
- Afficher le résultat.

In [36]:
def generate_age_label(row):
    age = row["age"]
    
    if pd.isnull(age):
        return "Unknown"
    elif age < 18:
        return "minor"
    else:
        return "adult"

In [37]:
age_labels = titanic_survival.apply(generate_age_label, axis=1)
print(type(age_labels))

<class 'pandas.core.series.Series'>


## Pratique: Calculer le pourcentage de survie par groupe d'âge

- Ajouter la colonne "age_labels" au dataframe titanic_survival contenant la variable age_labels qu'on a créé précédement.
- Créer une table pivot qui calcule la moyenne de chance de survie (colonne "survived") pour chaque groupe d'âge (colonne "age_labels") du dataframe titanic_survival.
- Assigner l'objet Series résultant à la variable age_group_survival.
- Afficher le résultat.

In [38]:
titanic_survival["age_labels"] = age_labels

age_group_survival = titanic_survival.pivot_table(index="age_labels", values="survived")

print(age_group_survival)

            survived
age_labels          
Unknown     0.277567
adult       0.387892
minor       0.525974
