<p style="font-family: Arial; font-size:1.75em;color:blue; font-style:bold"><br>
Présentation de Pandas</p><br>
pandas est une bibliothèque Python pour l'analyse de données. Il propose un certain nombre d'opérations d'exploration, de nettoyage et de transformation des données qui sont essentielles pour travailler avec des données en Python.

pandas s'appuie sur  numpy et scipy  fournissant des structures de données et des fonctions de manipulation de données faciles à utiliser avec indexation intégrée.

Les principales structures de données fournies par pandas sont Series et  DataFrames. Après une brève introduction à ces deux structures de données et à l'ingestion de données, les principales caractéristiques de pandas sont les suivantes:
* Génération de statistiques descriptives sur les données
* Nettoyage des données à l'aide des fonctions pandas intégrées
* Opérations de données fréquentes pour le sous-ensemble, le filtrage, l'insertion, la suppression et l'agrégation de données
* Fusion(merging) de plusieurs ensembles de données à l'aide de dataframes

**Resources:**
* *pandas* Documentation: http://pandas.pydata.org/pandas-docs/stable/
* *Python for Data Analysis* by Wes McKinney
* *Python Data Science Handbook* by Jake VanderPlas


Attention: `pandas` est une bibliothèque qui évolue régulièrement, on vous recommande donc d'utiliser au moins `pandas` dans sa version 1.0.5.

In [46]:
import numpy as np
#Pour afficher la version de  numpy
print(f'La version de numpy est {np.__version__}')
import pandas as pd
# Pour afficher la version de pandas
print(f'La version de pandas est {pd.__version__}')

La version de numpy est 1.21.2
La version de pandas est 1.3.3


#### Les structures de données en `pandas`

In [47]:

age = pd.Series([2,3,7,5],index=['a','b','c','d'])


print(age)

taille = pd.Series([11,33,66,44],index=['a','b','c','d'])
print(type(taille));

#Vous pouvez bien sûr vous demander à quoi cela sert, alors regardons un petit exemple. Nous allons revenir sur les notions utilisées dans cet exemple, notre but ici est de vous montrer l'utilité de `pandas` sur un exemple.

a    2
b    3
c    7
d    5
dtype: int64
<class 'pandas.core.series.Series'>


In [48]:
stat = pd.DataFrame({'age' : age , 'taille ' : taille });
print(stat);
#Vous voyez qu'en quelques requêtes simples et intuitives, on peut grâce à la notion d'index, obtenir des informations précieuses sur nos données. Vous voyez qu'en l'occurrence, travailler directement sur le tableau `numpy` aurait été beaucoup moins aisé.

   age  taille 
a    2       11
b    3       33
c    7       66
d    5       44


## Création d'une `DataFrame`
Il y a de nombreuses manières de construire une `DataFrame`.

### Création d'une DataFrame avec des séries

In [49]:
# Regardons la construction d'une DataFrame

# Créons une Series pour définir des âges

# et une Series pour définir des tailles


On peut maintenant combiner ces deux Series en DataFrame, chaque Serie définissant une colonne, une manière de le faire est
de définir un dictionnaire qui contient pour clé le nom de la colonne et pour valeur la Serie correspondante


### Création d'une DataFrame avec un dictionnaire

On remarque que `pandas` fait automatiquement l'alignement des index, lorsqu'une valeur n'est pas présente, elle est automatiquement remplacée par `NaN`. `Pandas` va également broadcaster une valeur unique définissant une colonne sur toutes les lignes. Regardons cela :

On peut maintenant accéder aux index des lignes et des colonnes

In [50]:
print(stat.index)

# l'index des lignes


Index(['a', 'b', 'c', 'd'], dtype='object')


In [51]:
# l'index des colonnes

print(stat.columns)

Index(['age', 'taille '], dtype='object')


Il y a de nombreuses manières d'accéder aux éléments de la `DataFrame`, certaines sont bonnes et d'autres à proscrire, commençons par prendre de bonnes habitudes. Comme il s'agit d'une structure à deux dimensions, il faut donner un indice de ligne et de colonne :

In [52]:
# Quel est la moyenne de tous les âges avec loc

moy=stat.loc['a' : 'd','age' ].mean()
print(moy)


4.25


In [53]:
# Quel est la moyenne de tous les âges avec loc


In [54]:
# Quel est la moyenne de tous les âges avec iloc


### Création d'une DataFrame avec des array

In [55]:
a=np.random.randint(1,10,9).reshape(3,3)
print(a)
s=pd.DataFrame(data = a ,columns=['a','b','c'])
print(s)

#Une autre manière de construire une `DataFrame` est de partir d'un `array` de `numpy`, et de spécifier les index pour les lignes et les colonnes avec les arguments `index` et `columns` :


[[7 7 2]
 [2 2 2]
 [7 1 5]]
   a  b  c
0  7  7  2
1  2  2  2
2  7  1  5


<p style="font-family: Arial; font-size:1.9em;color:blue; font-style:bold"><br>
Cas d'étude: Base de données Titanic</p><br>

##  Charger vos données dans une DataFrame Pandas
Les options les plus courantes :
- read_
- read_excel

Importer l'ensemble de données avec read_

In [56]:
# Charger la base de données titatnic et l'affecter à la variable data
data=pd.read_('titanic.');

In [57]:


# Pour afficher le nombre de lignes et de colonnes
data.shape

(1309, 11)

Vérification des premiers éléments de DataFrame avec la méthode .head ()

In [58]:
# head() affiche les 5 premières lignes. 
#Pour voir moins ou plusieurs lignes, passer un entier, par exemple: head(10)
data.head

<bound method NDFrame.head of       pclass  survived                                             name  \
0          1         1                    Allen, Miss. Elisabeth Walton   
1          1         1                   Allison, Master. Hudson Trevor   
2          1         0                     Allison, Miss. Helen Loraine   
3          1         0             Allison, Mr. Hudson Joshua Creighton   
4          1         0  Allison, Mrs. Hudson J C (Bessie Waldo Daniels)   
...      ...       ...                                              ...   
1304       3         0                             Zabour, Miss. Hileni   
1305       3         0                            Zabour, Miss. Thamine   
1306       3         0                        Zakarian, Mr. Mapriededer   
1307       3         0                              Zakarian, Mr. Ortin   
1308       3         0                               Zimmerman, Mr. Leo   

         sex      age  sibsp  parch  ticket      fare    cabin embark

Vérification des derniers éléments de DataFrame avec la méthode .tail ()

In [59]:
data.tail
# tail() affiche les 5 dernières lignes. 
#Pour voir moins ou plusieurs lignes, passer un entier, par exemple: tail(3)

<bound method NDFrame.tail of       pclass  survived                                             name  \
0          1         1                    Allen, Miss. Elisabeth Walton   
1          1         1                   Allison, Master. Hudson Trevor   
2          1         0                     Allison, Miss. Helen Loraine   
3          1         0             Allison, Mr. Hudson Joshua Creighton   
4          1         0  Allison, Mrs. Hudson J C (Bessie Waldo Daniels)   
...      ...       ...                                              ...   
1304       3         0                             Zabour, Miss. Hileni   
1305       3         0                            Zabour, Miss. Thamine   
1306       3         0                        Zakarian, Mr. Mapriededer   
1307       3         0                              Zakarian, Mr. Ortin   
1308       3         0                               Zimmerman, Mr. Leo   

         sex      age  sibsp  parch  ticket      fare    cabin embark

In [60]:
#data
data.head(5)

Unnamed: 0,pclass,survived,name,sex,age,sibsp,parch,ticket,fare,cabin,embarked
0,1,1,"Allen, Miss. Elisabeth Walton",female,29.0,0,0,24160,211.3375,B5,S
1,1,1,"Allison, Master. Hudson Trevor",male,0.9167,1,2,113781,151.55,C22 C26,S
2,1,0,"Allison, Miss. Helen Loraine",female,2.0,1,2,113781,151.55,C22 C26,S
3,1,0,"Allison, Mr. Hudson Joshua Creighton",male,30.0,1,2,113781,151.55,C22 C26,S
4,1,0,"Allison, Mrs. Hudson J C (Bessie Waldo Daniels)",female,25.0,1,2,113781,151.55,C22 C26,S


In [62]:
# on peut gérer l'affichage de données grace à la methode set_option (afficher toutes les lignes )
pd.set_option('max_rows',4)
data

Unnamed: 0,pclass,survived,name,sex,age,sibsp,parch,ticket,fare,cabin,embarked
0,1,1,"Allen, Miss. Elisabeth Walton",female,29.0000,0,0,24160,211.3375,B5,S
1,1,1,"Allison, Master. Hudson Trevor",male,0.9167,1,2,113781,151.5500,C22 C26,S
...,...,...,...,...,...,...,...,...,...,...,...
1307,3,0,"Zakarian, Mr. Ortin",male,27.0000,0,0,2670,7.2250,,C
1308,3,0,"Zimmerman, Mr. Leo",male,29.0000,0,0,315082,7.8750,,S


In [None]:
#data

In [67]:
pd.set_option('precision',6)
data
# fixer le nombre de lignes à afficher avec la méthode set_option


Unnamed: 0,pclass,survived,name,sex,age,sibsp,parch,ticket,fare,cabin,embarked
0,1,1,"Allen, Miss. Elisabeth Walton",female,29.0000,0,0,24160,211.3375,B5,S
1,1,1,"Allison, Master. Hudson Trevor",male,0.9167,1,2,113781,151.5500,C22 C26,S
...,...,...,...,...,...,...,...,...,...,...,...
1307,3,0,"Zakarian, Mr. Ortin",male,27.0000,0,0,2670,7.2250,,C
1308,3,0,"Zimmerman, Mr. Leo",male,29.0000,0,0,315082,7.8750,,S


## Avoir des informations sur la base de données avec les méthodes: .info() et .describe() 

In [69]:
### Méthode .info ()
#Cette méthode retourne des informations sur une DataFrame, y compris les dtypes d'index et de colonne, les valeurs non nulles et l'utilisation de la mémoire.
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1309 entries, 0 to 1308
Data columns (total 11 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   pclass    1309 non-null   int64  
 1   survived  1309 non-null   int64  
 2   name      1309 non-null   object 
 3   sex       1309 non-null   object 
 4   age       1046 non-null   float64
 5   sibsp     1309 non-null   int64  
 6   parch     1309 non-null   int64  
 7   ticket    1309 non-null   object 
 8   fare      1308 non-null   float64
 9   cabin     295 non-null    object 
 10  embarked  1307 non-null   object 
dtypes: float64(2), int64(4), object(5)
memory usage: 112.6+ KB


In [None]:
# méthode info


Nous pouvons également voir les types de données des colonnes avec .dtypes

In [70]:
data.dtypes
# méthode dtypes


pclass       int64
survived     int64
             ...  
cabin       object
embarked    object
Length: 11, dtype: object

### Méthode .describe ()
Cette méthode est utilisée pour obtenir un résumé des valeurs numériques de notre base de données. Elle calcule la moyenne, l'écart type, la valeur minimale, la valeur maximale, le 1er percentile, le 2ème percentile, le 3ème percentile des colonnes avec des valeurs numériques. Elle compte également le nombre de variables dans la base de données. Ainsi, nous pourrons voir s'il y a des valeurs manquantes dans les colonnes.

In [79]:
#describe() produit un résumé des statistiques descriptives pour les valeurs numpériques pardefaut
data.describe()

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
pclass,1309.0,2.294882,0.837836,1.0,2.0000,3.0000,3.000,3.0000
survived,1309.0,0.381971,0.486055,0.0,0.0000,0.0000,1.000,1.0000
...,...,...,...,...,...,...,...,...
parch,1309.0,0.385027,0.865560,0.0,0.0000,0.0000,0.000,9.0000
fare,1308.0,33.295479,51.758668,0.0,7.8958,14.4542,31.275,512.3292


In [80]:
# on peut utuliser la transposé
data.describe().T


Unnamed: 0,count,mean,std,min,25%,50%,75%,max
pclass,1309.0,2.294882,0.837836,1.0,2.0000,3.0000,3.000,3.0000
survived,1309.0,0.381971,0.486055,0.0,0.0000,0.0000,1.000,1.0000
...,...,...,...,...,...,...,...,...
parch,1309.0,0.385027,0.865560,0.0,0.0000,0.0000,0.000,9.0000
fare,1308.0,33.295479,51.758668,0.0,7.8958,14.4542,31.275,512.3292


In [81]:
# si on veut avoir des stats pour toutes les variables numériques et catégoriques

data.describe(include='all')

Unnamed: 0,pclass,survived,name,sex,age,sibsp,parch,ticket,fare,cabin,embarked
count,1309.0,1309.0,1309,1309,1046.0,1309.0,1309.0,1309,1308.0000,295,1307
unique,,,1307,2,,,,929,,186,3
...,...,...,...,...,...,...,...,...,...,...,...
75%,3.0,1.0,,,39.0,1.0,0.0,,31.2750,,
max,3.0,1.0,,,80.0,8.0,9.0,,512.3292,,


In [72]:
## Utiliser .value_counts () pour compter le nombre d'apparition de chaque variable dans une colonne
#Pour compter le nombre d'apparition d'une variable nous devons d'abord sélectionner la colonne. Vous pouvez sélectionner une colonne de deux manières différentes:
data.value_counts()

pclass  survived  name                                                 sex     age   sibsp  parch  ticket    fare      cabin    embarked
1       0         Allison, Miss. Helen Loraine                         female  2.0   1      2      113781    151.5500  C22 C26  S           1
        1         McGough, Mr. James Robert                            male    36.0  0      0      PC 17473  26.2875   E25      S           1
                                                                                                                                           ..
                  Blank, Mr. Henry                                     male    40.0  0      0      112277    31.0000   A31      C           1
3       1         Sandstrom, Mrs. Hjalmar (Agnes Charlotta Bengtsson)  female  24.0  0      2      PP 9549   16.7000   G6       S           1
Length: 270, dtype: int64

In [82]:
# deux méthode pour afficher le contenu d'une variable data.feature_name ou bien data["feature_name"]
data["survived"].value_counts()

0    809
1    500
Name: survived, dtype: int64

Puisque .value_counts () est une méthode, tout ce que nous avons à faire est d'ajouter cette méthode au code ci-dessus

In [84]:
# méthode value_counts()
data["age"].value_counts()

24.0000    47
22.0000    43
           ..
0.6667      1
26.5000     1
Name: age, Length: 98, dtype: int64

## Groupby()

L'utilisation de groupby() permet d'accéder aux sous-DataFrame associés à chaque item de la variable de regroupement.
Il est dès lors possible d'appliquer explicitement d'autres traitements sur ces sous-ensembles de données.  Le groupby() fonctionne de la même façon que le groupby en SQL. 

In [88]:
# afficher la mean en fonction du sex
#df.groupby([feature_name]).mean()

data.groupby(['sex']).mean()

Unnamed: 0_level_0,pclass,survived,age,sibsp,parch,fare
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
female,2.154506,0.727468,28.687071,0.652361,0.633047,46.198097
male,2.372479,0.190985,30.585233,0.413998,0.247924,26.154601


In [96]:
# afficher la ùean en fonction du sex et du pclass
# df.groupby(['feature_name1', 'feature_name2']).mean()

data.groupby(['pclass' ,'sex']).max()

  data.groupby(['pclass' ,'sex']).max()


Unnamed: 0_level_0,Unnamed: 1_level_0,survived,name,age,sibsp,parch,ticket,fare
pclass,sex,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
1,female,1,"Young, Miss. Marie Grice",76.0,3,4,WE/P 5735,512.3292
1,male,1,"Wright, Mr. George",80.0,3,4,WE/P 5735,512.3292
...,...,...,...,...,...,...,...,...
3,female,1,"de Messemaeker, Mrs. Guillaume Joseph (Emma)",63.0,8,9,W./C. 6609,69.5500
3,male,1,"van Melkebeke, Mr. Philemon",74.0,8,9,W./C. 6608,69.5500


In [97]:
## Utilisation de .nunique () pour compter le nxombre de valeurs uniques qui se produisent dans une base de données ou dans une colonne
##Si nous voulons voir le nombre des éléments uniques dans un ensemble de données ou dans une colonne, nous devons utiliser la méthode .nunique ()



pclass        3
survived      2
           ... 
cabin       186
embarked      3
Length: 11, dtype: int64

In [None]:
# appliquer la méthode nunique pour toute la base de données
data.nunique()

In [98]:
# Nous pouvons également compter les éléments uniques avec .nunique () pour une colonne (variable)
# df['feature_name'].nunuque()
data['age'].nunique()

98

In [99]:
# Si vous souhaitez voir le nombre des éléments uniques pour plus d'une colonne, vous devez ajouter une autre parenthèse.
# df[['feature_name1','feature_name2', ..., 'feature_name_n']].nunique()

data[['age','sex','pclass']].nunique()

age       98
sex        2
pclass     3
dtype: int64

## Modifier le type d'une variables avec la méthode .astype()
Nous avons vérifié les types de données des colonnes dans la base de données Titanic. Nous avons vu que le type de colonne embarked est object. Après avoir compté les valeurs uniques dans embarked colonne avec .unique (), nous pouvons voir qu'il ya 3 valeurs uniques dans cette colonne. On peut donc considérer que le type de données doit être catégorique. Pour changer le type de données de cette colonne, le code ci-dessous doit être exécuté:

In [103]:
# df['feature_name'] =df['feature_name'].astype('type'): type=(int, float, category)
# applique astype pour la variable embarked

data['embarked'] = data['embarked'].astype('category')
data.dtypes

pclass         int64
survived       int64
              ...   
cabin         object
embarked    category
Length: 11, dtype: object

## Filtration
### Filtrer sous une condition
Le signe de comparaison en Python est == (double signe égal). Vous devriez donc vérifier si vous avez utilisé 2 signes égaux. Si vous n'utilisez qu'un seul signe égal, vous risquez de ruiner vos données. Supposons que je veille voir si la colonne embarked est égale à C. La vraie version de la comparaison est:

In [105]:
data['embarked'] == 'c'

0       True
1       True
        ... 
1307    True
1308    True
Name: embarked, Length: 1309, dtype: bool

# Et si nous ne voulons pas voir uniquement des vrais et des faux? Et si nous voulons voir toutes les informations de ceux dont embarked est C? Pour faire ça:

In [119]:
data[data['embarked'] == 'C' ].tail(10)


0       False
1       False
        ...  
1307     True
1308    False
Name: embarked, Length: 1309, dtype: bool

Une autre façon de procéder pourrait être avec un masque:

In [115]:
masq_embarked=data['embarked']=='C'
data[masq_embarked].head()


Unnamed: 0,pclass,survived,name,sex,age,sibsp,parch,ticket,fare,cabin,embarked
9,1,0,"Artagaveytia, Mr. Ramon",male,71.0,0,0,PC 17609,49.5042,,C
10,1,0,"Astor, Col. John Jacob",male,47.0,1,0,PC 17757,227.5250,C62 C64,C
...,...,...,...,...,...,...,...,...,...,...,...
12,1,1,"Aubart, Mme. Leontine Pauline",female,24.0,0,0,PC 17477,69.3000,B35,C
16,1,0,"Baxter, Mr. Quigg Edmond",male,24.0,0,1,PC 17558,247.5208,B58 B60,C


## Filtrage sous deux ou plusieurs conditions
### Opérateur AND
Nous allons utiliser les opérateurs AND et OR pour filtrer avec plus d'une condition. Supposons que nous souhaitons voir les passagers qui sont des femmes et dont le tarif est inférieur à 100 . Nous allons créer 2 nouveaux masques pour compléter cela

In [122]:
sex_masq=data['sex'] == 'female'
far_masq=data['fare'] < 100
data[sex_masq & far_masq].head(15)


Unnamed: 0,pclass,survived,name,sex,age,sibsp,parch,ticket,fare,cabin,embarked
6,1,1,"Andrews, Miss. Kornelia Theodosia",female,63.0,1,0,13502,77.9583,D7,S
8,1,1,"Appleton, Mrs. Edward Dale (Charlotte Lamson)",female,53.0,2,0,11769,51.4792,C101,S
...,...,...,...,...,...,...,...,...,...,...,...
59,1,1,"Cassebeer, Mrs. Henry Arthur Jr (Eleanor Genev...",female,,0,0,17770,27.7208,,C
61,1,1,"Cavendish, Mrs. Tyrell William (Julia Florence...",female,76.0,1,0,19877,78.8500,C46,S


### Opérateur OR
Faisons un autre exemple avec l'opérateur OR. Nous allons utiliser | signe pour le faire. Voyons les passagers dont le tarif est supérieur à 500 ou plus de 70 ans.

In [123]:
fare1_masq=data['fare'] > 500
age_masq = data['age'] > 70

data[fare1_masq | age_masq].head(15)


Unnamed: 0,pclass,survived,name,sex,age,sibsp,parch,ticket,fare,cabin,embarked
9,1,0,"Artagaveytia, Mr. Ramon",male,71.0,0,0,PC 17609,49.5042,,C
14,1,1,"Barkworth, Mr. Algernon Henry Wilson",male,80.0,0,0,27042,30.0000,A23,S
...,...,...,...,...,...,...,...,...,...,...,...
727,3,0,"Connors, Mr. Patrick",male,70.5,0,0,370369,7.7500,,Q
1235,3,0,"Svensson, Mr. Johan",male,74.0,0,0,347060,7.7750,,S


## Recherche des valeurs nulles avec .isnull ()
L'un des problèmes les plus courants en science des données concerne les valeurs manquantes. Pour les détecter, il existe une belle méthode qui s'appelle .isnull (). Avec la méthode isnull(), un masque de booléens est retournée, indiquant True pour les observations dont la valeur est NaN ou None :

In [125]:
data.isnull()


Unnamed: 0,pclass,survived,name,sex,age,sibsp,parch,ticket,fare,cabin,embarked
0,False,False,False,False,False,False,False,False,False,False,False
1,False,False,False,False,False,False,False,False,False,False,False
...,...,...,...,...,...,...,...,...,...,...,...
1307,False,False,False,False,False,False,False,False,False,True,False
1308,False,False,False,False,False,False,False,False,False,True,False


In [133]:
data['fare'].isnull()

0     False
1     False
      ...  
13    False
14    False
Name: fare, Length: 15, dtype: bool

In [126]:
# montre nous les valeurs NaN de la varibale cabin
data.isna()

Unnamed: 0,pclass,survived,name,sex,age,sibsp,parch,ticket,fare,cabin,embarked
0,False,False,False,False,False,False,False,False,False,False,False
1,False,False,False,False,False,False,False,False,False,False,False
...,...,...,...,...,...,...,...,...,...,...,...
1307,False,False,False,False,False,False,False,False,False,True,False
1308,False,False,False,False,False,False,False,False,False,True,False


Si nous voulons compter les valeurs nulles de toutes les colonnes d'un dataframe, il suffit d'écrire le code ci-dessous

In [131]:
data['fare'].isnull().value_counts()



False    1308
True        1
Name: fare, dtype: int64

##  Nettoyer votre Dataset avec drop(), dropna() et fillna()

Il est assez fréquent de récupérer des données incomplètes. La manière dont les données manquantes sont gérées par pandas est le recours aux deux valeurs spéciales : None et NaN.
La valeur None peut être utilisée dans les tableaux NumPy uniquement quand le type de ces derniers est object.
* Pour supprimer une valeur sur un des axes d’une série ou d’une dataframe, Pandas propose la méthode drop().
* La méthode dropna() permet  de retirer les observations disposant de valeurs nulles. 
* Pour remplacer les valeurs manquantes par d’autres valeurs, on utilise la méthode fillna().

In [134]:
data.columns

Index(['pclass', 'survived', 'name', 'sex', 'age', 'sibsp', 'parch', 'ticket',
       'fare', 'cabin', 'embarked'],
      dtype='object')

In [135]:
data.drop([ 'name', 'sibsp','parch', 'ticket', 'fare', 'cabin', 'embarked'], axis=1, inplace=True)

In [136]:
data.head()

Unnamed: 0,pclass,survived,sex,age
0,1,1,female,29.0000
1,1,1,male,0.9167
...,...,...,...,...
3,1,0,male,30.0000
4,1,0,female,25.0000


In [137]:
data.shape

(1309, 4)

In [140]:
data.isnull().sum()

pclass      0
survived    0
sex         0
age         0
dtype: int64

In [139]:
data = data.dropna()
data.shape

(1046, 4)

In [141]:
data.isnull().sum()

pclass      0
survived    0
sex         0
age         0
dtype: int64