<p style="font-family: Arial; font-size:1.75em;color:blue; font-style:bold"><br>
Présentation de Pandas</p><br>
pandas est une bibliothèque Python pour l'analyse de données. Il propose un certain nombre d'opérations d'exploration, de nettoyage et de transformation des données qui sont essentielles pour travailler avec des données en Python.

pandas s'appuie sur  numpy et scipy  fournissant des structures de données et des fonctions de manipulation de données faciles à utiliser avec indexation intégrée.

Les principales structures de données fournies par pandas sont Series et  DataFrames. Après une brève introduction à ces deux structures de données et à l'ingestion de données, les principales caractéristiques de pandas sont les suivantes:
* Génération de statistiques descriptives sur les données
* Nettoyage des données à l'aide des fonctions pandas intégrées
* Opérations de données fréquentes pour le sous-ensemble, le filtrage, l'insertion, la suppression et l'agrégation de données
* Fusion(merging) de plusieurs ensembles de données à l'aide de dataframes

**Resources:**
* *pandas* Documentation: http://pandas.pydata.org/pandas-docs/stable/
* *Python for Data Analysis* by Wes McKinney
* *Python Data Science Handbook* by Jake VanderPlas


Attention: `pandas` est une bibliothèque qui évolue régulièrement, on vous recommande donc d'utiliser au moins `pandas` dans sa version 1.0.5.

In [40]:
import numpy as np
#Pour afficher la version de  numpy
print(f"numpy version {np.__version__}")

import pandas as pd
# Pour afficher la version de pandas
print(f"pandas version {pd.__version__}")

numpy version 1.16.4
pandas version 1.1.2


#### Les structures de données en `pandas`

`Pandas` nous offre deux structures de données principales à savoir: la classe `Series` et la classe `DataFrame`.   

1. Une `Series` est un tableau à une dimension où chaque élément est indexé avec essentiellement un autre array (souvent de chaînes de caractères).
2. Une `DataFrame` est un tableau à deux dimensions où les lignes et les colonnes sont indexées.

Vous pouvez bien sûr vous demander à quoi cela sert, alors regardons un petit exemple. Nous allons revenir sur les notions utilisées dans cet exemple, notre but ici est de vous montrer l'utilité de `pandas` sur un exemple.  

Vous voyez qu'en quelques requêtes simples et intuitives, on peut grâce à la notion d'index, obtenir des informations précieuses sur nos données. Vous voyez qu'en l'occurrence, travailler directement sur le tableau `numpy` aurait été beaucoup moins aisé.

## Création d'une `DataFrame`
Il y a de nombreuses manières de construire une `DataFrame`.

### Création d'une DataFrame avec des séries

In [41]:
# Regardons la construction d'une DataFrame
import numpy as np
import pandas as pd

# Créons une Series pour définir des âges
age = pd.Series([23, 22, 25], index=['Etudiant1', 'Etudiant2', 'Etudiant3'])
print(age)
# et une Series pour définir des tailles
height = pd.Series([155, 175, 168], index=['Etudiant1', 'Etudiant3', 'Etudiant4'])
print(height)
city= pd.Series(['tunis','ariana','manouba'], index=['Etudiant1', 'Etudiant3', 'Etudiant4'])
print(city)

Etudiant1    23
Etudiant2    22
Etudiant3    25
dtype: int64
Etudiant1    155
Etudiant3    175
Etudiant4    168
dtype: int64
Etudiant1      tunis
Etudiant3     ariana
Etudiant4    manouba
dtype: object


On peut maintenant combiner ces deux Series en DataFrame, chaque Serie définissant une colonne, une manière de le faire est
de définir un dictionnaire qui contient pour clé le nom de la colonne et pour valeur la Serie correspondante


### Création d'une DataFrame avec un dictionnaire

In [42]:
stat = pd.DataFrame({'age': age, 'height': height})
print(stat)

            age  height
Etudiant1  23.0   155.0
Etudiant2  22.0     NaN
Etudiant3  25.0   175.0
Etudiant4   NaN   168.0


On remarque que `pandas` fait automatiquement l'alignement des index, lorsqu'une valeur n'est pas présente, elle est automatiquement remplacée par `NaN`. `Pandas` va également broadcaster une valeur unique définissant une colonne sur toutes les lignes. Regardons cela :

In [43]:
stat = pd.DataFrame({'age': age, 'height': height, 'city': city})
print(stat)

            age  height     city
Etudiant1  23.0   155.0    tunis
Etudiant2  22.0     NaN      NaN
Etudiant3  25.0   175.0   ariana
Etudiant4   NaN   168.0  manouba


On peut maintenant accéder aux index des lignes et des colonnes

In [44]:
# l'index des lignes
print(stat.index)

Index(['Etudiant1', 'Etudiant2', 'Etudiant3', 'Etudiant4'], dtype='object')


In [45]:
# l'index des colonnes
print(stat.columns)

Index(['age', 'height', 'city'], dtype='object')


Il y a de nombreuses manières d'accéder aux éléments de la `DataFrame`, certaines sont bonnes et d'autres à proscrire, commençons par prendre de bonnes habitudes. Comme il s'agit d'une structure à deux dimensions, il faut donner un indice de ligne et de colonne :

In [46]:
a = stat.loc['Etudiant1': 'Etudiant2', 'age']
a

Etudiant1    23.0
Etudiant2    22.0
Name: age, dtype: float64

In [47]:
# Quel est la moyenne de tous les âges
c = stat.loc[:, 'age']
m = c.mean()
print(f"L'âge moyen est de {m:.2f} ans.")

L'âge moyen est de 23.33 ans.


On peut déjà noter plusieurs choses intéressantes :

- On peut utiliser `.loc[]` et `.iloc` comme pour les `Series`. Pour les `DataFrame` c'est encore plus important parce qu'il y a plus de risques d'ambiguïtés.

### Création d'une DataFrame avec des array

Une autre manière de construire une `DataFrame` est de partir d'un `array` de `numpy`, et de spécifier les index pour les lignes et les colonnes avec les arguments `index` et `columns` :


In [48]:
a = np.random.randint(1, 10, 9).reshape(3, 3)
p = pd.DataFrame(a, index=['a', 'b', 'c'], columns=['x', 'y', 'z'])
print(p)


   x  y  z
a  1  8  3
b  5  2  9
c  1  9  4


<p style="font-family: Arial; font-size:1.9em;color:blue; font-style:bold"><br>
Cas d'étude: Base de données Titanic</p><br>

##  Charger vos données dans une DataFrame Pandas
Les options les plus courantes :
- read_csv
- read_excel

Importer l'ensemble de données avec read_csv

In [49]:
data = pd.read_csv('titanic.csv')

In [50]:
# Pour afficher le nombre de lignes et de colonnes
data.shape

(1309, 12)

Vérification des premiers éléments de DataFrame avec la méthode .head ()

In [51]:
# head() affiche les 5 premières lignes. 
#Pour voir moins ou plusieurs lignes, passer un entier, par exemple: head(10)
data.head()

Unnamed: 0.1,Unnamed: 0,pclass,survived,name,sex,age,sibsp,parch,ticket,fare,cabin,embarked
0,0,1,1,"Allen, Miss. Elisabeth Walton",female,29.0,0,0,24160,211.3375,B5,S
1,1,1,1,"Allison, Master. Hudson Trevor",male,0.9167,1,2,113781,151.55,C22 C26,S
2,2,1,0,"Allison, Miss. Helen Loraine",female,2.0,1,2,113781,151.55,C22 C26,S
3,3,1,0,"Allison, Mr. Hudson Joshua Creighton",male,30.0,1,2,113781,151.55,C22 C26,S
4,4,1,0,"Allison, Mrs. Hudson J C (Bessie Waldo Daniels)",female,25.0,1,2,113781,151.55,C22 C26,S


Vérification des derniers éléments de DataFrame avec la méthode .tail ()

In [52]:
# tail() affiche les 5 dernières lignes. 
#Pour voir moins ou plusieurs lignes, passer un entier, par exemple: tail(3)
data.tail(3)

Unnamed: 0.1,Unnamed: 0,pclass,survived,name,sex,age,sibsp,parch,ticket,fare,cabin,embarked
1306,1306,3,0,"Zakarian, Mr. Mapriededer",male,26.5,0,0,2656,7.225,,C
1307,1307,3,0,"Zakarian, Mr. Ortin",male,27.0,0,0,2670,7.225,,C
1308,1308,3,0,"Zimmerman, Mr. Leo",male,29.0,0,0,315082,7.875,,S


## Avoir des informations sur la base de données avec les méthodes: .info() et .describe() 

### Méthode .info ()
Cette méthode retourne des informations sur une DataFrame, y compris les dtypes d'index et de colonne, les valeurs non nulles et l'utilisation de la mémoire.

In [53]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1309 entries, 0 to 1308
Data columns (total 12 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   Unnamed: 0  1309 non-null   int64  
 1   pclass      1309 non-null   int64  
 2   survived    1309 non-null   int64  
 3   name        1309 non-null   object 
 4   sex         1309 non-null   object 
 5   age         1046 non-null   float64
 6   sibsp       1309 non-null   int64  
 7   parch       1309 non-null   int64  
 8   ticket      1309 non-null   object 
 9   fare        1308 non-null   float64
 10  cabin       295 non-null    object 
 11  embarked    1307 non-null   object 
dtypes: float64(2), int64(5), object(5)
memory usage: 122.8+ KB


Nous pouvons également voir les types de données des colonnes avec .dtypes

In [54]:
data.dtypes

Unnamed: 0      int64
pclass          int64
survived        int64
name           object
sex            object
age           float64
sibsp           int64
parch           int64
ticket         object
fare          float64
cabin          object
embarked       object
dtype: object

### Méthode .describe ()
Cette méthode est utilisée pour obtenir un résumé des valeurs numériques de notre base de données. Elle calcule la moyenne, l'écart type, la valeur minimale, la valeur maximale, le 1er percentile, le 2ème percentile, le 3ème percentile des colonnes avec des valeurs numériques. Elle compte également le nombre de variables dans la base de données. Ainsi, nous pourrons voir s'il y a des valeurs manquantes dans les colonnes.

In [55]:
#describe() produit un résumé des statistiques descriptives
data.describe()

Unnamed: 0.1,Unnamed: 0,pclass,survived,age,sibsp,parch,fare
count,1309.0,1309.0,1309.0,1046.0,1309.0,1309.0,1308.0
mean,654.0,2.294882,0.381971,29.881135,0.498854,0.385027,33.295479
std,378.020061,0.837836,0.486055,14.4135,1.041658,0.86556,51.758668
min,0.0,1.0,0.0,0.1667,0.0,0.0,0.0
25%,327.0,2.0,0.0,21.0,0.0,0.0,7.8958
50%,654.0,3.0,0.0,28.0,0.0,0.0,14.4542
75%,981.0,3.0,1.0,39.0,1.0,0.0,31.275
max,1308.0,3.0,1.0,80.0,8.0,9.0,512.3292


In [56]:
# on peut utuliser la transposé
data.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
Unnamed: 0,1309.0,654.0,378.020061,0.0,327.0,654.0,981.0,1308.0
pclass,1309.0,2.294882,0.837836,1.0,2.0,3.0,3.0,3.0
survived,1309.0,0.381971,0.486055,0.0,0.0,0.0,1.0,1.0
age,1046.0,29.881135,14.4135,0.1667,21.0,28.0,39.0,80.0
sibsp,1309.0,0.498854,1.041658,0.0,0.0,0.0,1.0,8.0
parch,1309.0,0.385027,0.86556,0.0,0.0,0.0,0.0,9.0
fare,1308.0,33.295479,51.758668,0.0,7.8958,14.4542,31.275,512.3292


## Utiliser .value_counts () pour compter le nombre d'apparition de chaque variable dans une colonne
Pour compter le nombre d'apparition d'une variable nous devons d'abord sélectionner la colonne. Vous pouvez sélectionner une colonne de deux manières différentes:

In [57]:
data.age
data['age']

0       29.0000
1        0.9167
2        2.0000
3       30.0000
4       25.0000
         ...   
1304    14.5000
1305        NaN
1306    26.5000
1307    27.0000
1308    29.0000
Name: age, Length: 1309, dtype: float64

Puisque .value_counts () est une méthode, tout ce que nous avons à faire est d'ajouter cette méthode au code ci-dessus

In [58]:
data.age.value_counts()
data['age'].value_counts()

24.0000    47
22.0000    43
21.0000    41
30.0000    40
18.0000    39
           ..
26.5000     1
67.0000     1
70.5000     1
76.0000     1
0.6667      1
Name: age, Length: 98, dtype: int64

## Groupby()

L'utilisation de groupby() permet d'accéder aux sous-DataFrame associés à chaque item de la variable de regroupement.
Il est dès lors possible d'appliquer explicitement d'autres traitements sur ces sous-ensembles de données.  Le groupby() fonctionne de la même façon que le groupby en SQL. 

In [59]:
data.groupby(['sex']).mean()

Unnamed: 0_level_0,Unnamed: 0,pclass,survived,age,sibsp,parch,fare
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
female,590.67382,2.154506,0.727468,28.687071,0.652361,0.633047,46.198097
male,689.005931,2.372479,0.190985,30.585233,0.413998,0.247924,26.154601


In [60]:
data.groupby(['sex', 'pclass']).mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 0,survived,age,sibsp,parch,fare
sex,pclass,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
female,1,153.069444,0.965278,37.037594,0.555556,0.472222,109.412385
female,2,465.311321,0.886792,27.499191,0.5,0.650943,23.234827
female,3,943.930556,0.490741,22.185307,0.791667,0.731481,15.32425
male,1,167.379888,0.340782,41.02925,0.340782,0.27933,69.888385
male,2,458.327485,0.146199,30.815401,0.327485,0.192982,19.904946
male,3,958.411765,0.15213,25.962273,0.470588,0.255578,12.415462


## Utilisation de .nunique () pour compter le nombre de valeurs uniques qui se produisent dans une base de données ou dans une colonne
Si nous voulons voir le nombre des éléments uniques dans un ensemble de données ou dans une colonne, nous devons utiliser la méthode .nunique ()

In [61]:
data.nunique()

Unnamed: 0    1309
pclass           3
survived         2
name          1307
sex              2
age             98
sibsp            7
parch            8
ticket         929
fare           281
cabin          186
embarked         3
dtype: int64

In [62]:
# Nous pouvons également compter les éléments uniques avec .nunique () pour une colonne
data['sex'].nunique()

2

In [63]:
# Si vous souhaitez voir le nombre des éléments uniques pour plus d'une colonne, vous devez ajouter une autre parenthèse.
data[['sex', 'embarked']].nunique()

sex         2
embarked    3
dtype: int64

## Modifier le type d'une variables
Nous avons vérifié les types de données des colonnes dans la base de données Titanic. Nous avons vu que le type de colonne embarked est object. Après avoir compté les valeurs uniques dans embarked colonne avec .unique (), nous pouvons voir qu'il ya 3 valeurs uniques dans cette colonne. On peut donc considérer que le type de données doit être catégorique. Pour changer le type de données de cette colonne, le code ci-dessous doit être exécuté:

In [64]:
data["embarked"] = data["embarked"].astype ("category") 
data["embarked"]. dtype

CategoricalDtype(categories=['C', 'Q', 'S'], ordered=False)

## Filtration
### Filtrer sous une condition
Le signe de comparaison en Python est == (double signe égal). Vous devriez donc vérifier si vous avez utilisé 2 signes égaux. Si vous n'utilisez qu'un seul signe égal, vous risquez de ruiner vos données. Supposons que je veille voir si la colonne embarked est égale à C. La vraie version de la comparaison est:

In [65]:
data['embarked']=='C'

0       False
1       False
2       False
3       False
4       False
        ...  
1304     True
1305     True
1306     True
1307     True
1308    False
Name: embarked, Length: 1309, dtype: bool

Et si nous ne voulons pas voir uniquement des vrais et des faux? Et si nous voulons voir toutes les informations de ceux dont embarked est C? Pour faire ça:

In [66]:
data[data['embarked']=='C'].head()

Unnamed: 0.1,Unnamed: 0,pclass,survived,name,sex,age,sibsp,parch,ticket,fare,cabin,embarked
9,9,1,0,"Artagaveytia, Mr. Ramon",male,71.0,0,0,PC 17609,49.5042,,C
10,10,1,0,"Astor, Col. John Jacob",male,47.0,1,0,PC 17757,227.525,C62 C64,C
11,11,1,1,"Astor, Mrs. John Jacob (Madeleine Talmadge Force)",female,18.0,1,0,PC 17757,227.525,C62 C64,C
12,12,1,1,"Aubart, Mme. Leontine Pauline",female,24.0,0,0,PC 17477,69.3,B35,C
16,16,1,0,"Baxter, Mr. Quigg Edmond",male,24.0,0,1,PC 17558,247.5208,B58 B60,C


In [67]:
Une autre façon de procéder pourrait être avec un masque:

SyntaxError: invalid syntax (<ipython-input-67-7189aac69e25>, line 1)

In [68]:
masque_embarked=data['embarked']=='C'
data[masque_embarked].head()

Unnamed: 0.1,Unnamed: 0,pclass,survived,name,sex,age,sibsp,parch,ticket,fare,cabin,embarked
9,9,1,0,"Artagaveytia, Mr. Ramon",male,71.0,0,0,PC 17609,49.5042,,C
10,10,1,0,"Astor, Col. John Jacob",male,47.0,1,0,PC 17757,227.525,C62 C64,C
11,11,1,1,"Astor, Mrs. John Jacob (Madeleine Talmadge Force)",female,18.0,1,0,PC 17757,227.525,C62 C64,C
12,12,1,1,"Aubart, Mme. Leontine Pauline",female,24.0,0,0,PC 17477,69.3,B35,C
16,16,1,0,"Baxter, Mr. Quigg Edmond",male,24.0,0,1,PC 17558,247.5208,B58 B60,C


## Filtrage sous deux ou plusieurs conditions
### Opérateur AND
Nous allons utiliser les opérateurs AND et OR pour filtrer avec plus d'une condition. Supposons que nous souhaitons voir les passagers qui sont des femmes et dont le tarif est inférieur à 100 . Nous allons créer 2 nouveaux masques pour compléter cela

In [69]:
fare_mask =data["fare"] <100
sex_mask = data["sex"] == "female" 
data[fare_mask & sex_mask]

Unnamed: 0.1,Unnamed: 0,pclass,survived,name,sex,age,sibsp,parch,ticket,fare,cabin,embarked
6,6,1,1,"Andrews, Miss. Kornelia Theodosia",female,63.0,1,0,13502,77.9583,D7,S
8,8,1,1,"Appleton, Mrs. Edward Dale (Charlotte Lamson)",female,53.0,2,0,11769,51.4792,C101,S
12,12,1,1,"Aubart, Mme. Leontine Pauline",female,24.0,0,0,PC 17477,69.3000,B35,C
13,13,1,1,"Barber, Miss. Ellen ""Nellie""",female,26.0,0,0,19877,78.8500,,S
18,18,1,1,"Bazzani, Miss. Albina",female,32.0,0,0,11813,76.2917,D15,C
...,...,...,...,...,...,...,...,...,...,...,...,...
1286,1286,3,1,"Whabee, Mrs. George Joseph (Shawneene Abi-Saab)",female,38.0,0,0,2688,7.2292,,C
1290,1290,3,1,"Wilkes, Mrs. James (Ellen Needs)",female,47.0,1,0,363272,7.0000,,S
1300,1300,3,1,"Yasbeck, Mrs. Antoni (Selini Alexander)",female,15.0,1,0,2659,14.4542,,C
1304,1304,3,0,"Zabour, Miss. Hileni",female,14.5,1,0,2665,14.4542,,C


### Opérateur OR
Faisons un autre exemple avec l'opérateur OR. Nous allons utiliser | signe pour le faire. Voyons les passagers dont le tarif est supérieur à 500 ou plus de 70 ans.

In [70]:
fare_mask2 = data['fare']> 500 
age_mask = data['age']> 70 
data[fare_mask2 | age_mask]

Unnamed: 0.1,Unnamed: 0,pclass,survived,name,sex,age,sibsp,parch,ticket,fare,cabin,embarked
9,9,1,0,"Artagaveytia, Mr. Ramon",male,71.0,0,0,PC 17609,49.5042,,C
14,14,1,1,"Barkworth, Mr. Algernon Henry Wilson",male,80.0,0,0,27042,30.0,A23,S
49,49,1,1,"Cardeza, Mr. Thomas Drake Martinez",male,36.0,0,1,PC 17755,512.3292,B51 B53 B55,C
50,50,1,1,"Cardeza, Mrs. James Warburton Martinez (Charlo...",female,58.0,0,1,PC 17755,512.3292,B51 B53 B55,C
61,61,1,1,"Cavendish, Mrs. Tyrell William (Julia Florence...",female,76.0,1,0,19877,78.85,C46,S
135,135,1,0,"Goldschmidt, Mr. George B",male,71.0,0,0,PC 17754,34.6542,A5,C
183,183,1,1,"Lesurer, Mr. Gustave J",male,35.0,0,0,PC 17755,512.3292,B101,C
302,302,1,1,"Ward, Miss. Anna",female,35.0,0,0,PC 17755,512.3292,,C
727,727,3,0,"Connors, Mr. Patrick",male,70.5,0,0,370369,7.75,,Q
1235,1235,3,0,"Svensson, Mr. Johan",male,74.0,0,0,347060,7.775,,S


## Recherche des valeurs nulles avec .isnull ()
L'un des problèmes les plus courants en science des données concerne les valeurs manquantes. Pour les détecter, il existe une belle méthode qui s'appelle .isnull (). Avec la méthode isnull(), un masque de booléens est retournée, indiquant True pour les observations dont la valeur est NaN ou None :

In [71]:
data.isnull()

Unnamed: 0.1,Unnamed: 0,pclass,survived,name,sex,age,sibsp,parch,ticket,fare,cabin,embarked
0,False,False,False,False,False,False,False,False,False,False,False,False
1,False,False,False,False,False,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False,False,False,False,False,False
3,False,False,False,False,False,False,False,False,False,False,False,False
4,False,False,False,False,False,False,False,False,False,False,False,False
...,...,...,...,...,...,...,...,...,...,...,...,...
1304,False,False,False,False,False,False,False,False,False,False,True,False
1305,False,False,False,False,False,True,False,False,False,False,True,False
1306,False,False,False,False,False,False,False,False,False,False,True,False
1307,False,False,False,False,False,False,False,False,False,False,True,False


In [72]:
# montre nous les valeurs NaN de la varibale cabin
null_mask=data['cabin'].isnull()
data[null_mask].head()

Unnamed: 0.1,Unnamed: 0,pclass,survived,name,sex,age,sibsp,parch,ticket,fare,cabin,embarked
9,9,1,0,"Artagaveytia, Mr. Ramon",male,71.0,0,0,PC 17609,49.5042,,C
13,13,1,1,"Barber, Miss. Ellen ""Nellie""",female,26.0,0,0,19877,78.85,,S
15,15,1,0,"Baumann, Mr. John D",male,,0,0,PC 17318,25.925,,S
23,23,1,1,"Bidois, Miss. Rosalie",female,42.0,0,0,PC 17757,227.525,,C
25,25,1,0,"Birnbaum, Mr. Jakob",male,25.0,0,0,13905,26.0,,C


Si nous voulons compter les valeurs nulles de toutes les colonnes d'un dataframe, il suffit d'écrire le code ci-dessous

In [73]:
data.isnull().sum()

Unnamed: 0       0
pclass           0
survived         0
name             0
sex              0
age            263
sibsp            0
parch            0
ticket           0
fare             1
cabin         1014
embarked         2
dtype: int64

##  Nettoyer votre Dataset avec drop(), dropna() et fillna()

Il est assez fréquent de récupérer des données incomplètes. La manière dont les données manquantes sont gérées par pandas est le recours aux deux valeurs spéciales : None et NaN.
La valeur None peut être utilisée dans les tableaux NumPy uniquement quand le type de ces derniers est object.
* Pour supprimer une valeur sur un des axes d’une série ou d’un dataframe, NumPy propose la méthode drop().
* La méthode dropna() permet  de retirer les observations disposant de valeurs nulles. 
* Pour remplacer les valeurs manquantes par d’autres valeurs, on utilise la méthode fillna().

In [74]:
data.columns

Index(['Unnamed: 0', 'pclass', 'survived', 'name', 'sex', 'age', 'sibsp',
       'parch', 'ticket', 'fare', 'cabin', 'embarked'],
      dtype='object')

In [75]:
data=data.drop(['Unnamed: 0', 'name', 'sibsp',
       'parch', 'ticket', 'fare', 'cabin', 'embarked'], axis=1)

In [76]:
data.head()

Unnamed: 0,pclass,survived,sex,age
0,1,1,female,29.0
1,1,1,male,0.9167
2,1,0,female,2.0
3,1,0,male,30.0
4,1,0,female,25.0


In [77]:
data.shape

(1309, 4)

In [78]:
data.isnull().sum()

pclass        0
survived      0
sex           0
age         263
dtype: int64

In [79]:
data = data.dropna(axis=0)
data.shape

(1046, 4)

In [80]:
data.head(100)

Unnamed: 0,pclass,survived,sex,age
0,1,1,female,29.0000
1,1,1,male,0.9167
2,1,0,female,2.0000
3,1,0,male,30.0000
4,1,0,female,25.0000
...,...,...,...,...
104,1,1,female,54.0000
105,1,0,female,36.0000
109,1,1,male,36.0000
110,1,0,male,30.0000
