# Tratamento de valores faltantes

In [1]:
import pandas as pd
import numpy as np
import os

Dados disponíveis em __[Titanic: Machine Learning from Disaster](https://www.kaggle.com/c/titanic/data)__

In [2]:
data=pd.read_csv('titanic/test.csv')

In [3]:
data.head()

Unnamed: 0,PassengerId,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,892,3,"Kelly, Mr. James",male,34.5,0,0,330911,7.8292,,Q
1,893,3,"Wilkes, Mrs. James (Ellen Needs)",female,47.0,1,0,363272,7.0,,S
2,894,2,"Myles, Mr. Thomas Francis",male,62.0,0,0,240276,9.6875,,Q
3,895,3,"Wirz, Mr. Albert",male,27.0,0,0,315154,8.6625,,S
4,896,3,"Hirvonen, Mrs. Alexander (Helga E Lindqvist)",female,22.0,1,1,3101298,12.2875,,S


In [4]:
data.describe()

Unnamed: 0,PassengerId,Pclass,Age,SibSp,Parch,Fare
count,418.0,418.0,332.0,418.0,418.0,417.0
mean,1100.5,2.26555,30.27259,0.447368,0.392344,35.627188
std,120.810458,0.841838,14.181209,0.89676,0.981429,55.907576
min,892.0,1.0,0.17,0.0,0.0,0.0
25%,996.25,1.0,21.0,0.0,0.0,7.8958
50%,1100.5,3.0,27.0,0.0,0.0,14.4542
75%,1204.75,3.0,39.0,1.0,0.0,31.5
max,1309.0,3.0,76.0,8.0,9.0,512.3292


In [5]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 418 entries, 0 to 417
Data columns (total 11 columns):
PassengerId    418 non-null int64
Pclass         418 non-null int64
Name           418 non-null object
Sex            418 non-null object
Age            332 non-null float64
SibSp          418 non-null int64
Parch          418 non-null int64
Ticket         418 non-null object
Fare           417 non-null float64
Cabin          91 non-null object
Embarked       418 non-null object
dtypes: float64(2), int64(4), object(5)
memory usage: 36.0+ KB


## Retirar valores faltantes

Uma das opções para trabalhar com dados faltantes é excluir todas as linhas que tenham pelo menos 1 dado faltando. No caso da base de dados Titanic, podemos notar que isso comprometeria muito os dados, haja vista que somente 91 passageiros apresentam a sua cabine, número muito baixo frente aos 418 passageiros da base.

Por outro lado, somente 1 passageiro não apresenta o valor de sua tarifa (Fare). Visto que este número é baixo e considerando que a exclusão desse passageiro não é significativa para a base, podemos aplicar a função dropna() somente nesta coluna.

- [Documentação do método dropna](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.dropna.html)

In [6]:
data2 = data.dropna(subset=['Fare'])
data2.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 417 entries, 0 to 417
Data columns (total 11 columns):
PassengerId    417 non-null int64
Pclass         417 non-null int64
Name           417 non-null object
Sex            417 non-null object
Age            331 non-null float64
SibSp          417 non-null int64
Parch          417 non-null int64
Ticket         417 non-null object
Fare           417 non-null float64
Cabin          91 non-null object
Embarked       417 non-null object
dtypes: float64(2), int64(4), object(5)
memory usage: 39.1+ KB


Agora podemos perceber que temos 417 passageiros na base. Concluimos que a exclusão do passageiro que não apresentava o valor da tarifa foi bem sucedida.

## Completar valores faltantes

A outra opção de lidar com valores faltantes é completá-los. Como cada coluna apresenta uma estrutura diferente, devemos optar por completá-las individualmente.

Para exemplificar essa operação, iremos aplicar a função `.fillna()` na coluna de idades, completando-a com o valor zero. Podemos observar que nesta coluna os elementos são numéricos, do tipo `float64`.

- [Documentação do método fillna](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.fillna.html)

In [7]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 418 entries, 0 to 417
Data columns (total 11 columns):
PassengerId    418 non-null int64
Pclass         418 non-null int64
Name           418 non-null object
Sex            418 non-null object
Age            332 non-null float64
SibSp          418 non-null int64
Parch          418 non-null int64
Ticket         418 non-null object
Fare           417 non-null float64
Cabin          91 non-null object
Embarked       418 non-null object
dtypes: float64(2), int64(4), object(5)
memory usage: 36.0+ KB


In [8]:
data2 = data.fillna({'Age': 0})  # Substitui dados faltantes na coluna Age pelo valor 0

In [9]:
data2.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 418 entries, 0 to 417
Data columns (total 11 columns):
PassengerId    418 non-null int64
Pclass         418 non-null int64
Name           418 non-null object
Sex            418 non-null object
Age            418 non-null float64
SibSp          418 non-null int64
Parch          418 non-null int64
Ticket         418 non-null object
Fare           417 non-null float64
Cabin          91 non-null object
Embarked       418 non-null object
dtypes: float64(2), int64(4), object(5)
memory usage: 36.0+ KB


Podemos verificar que antes de utilizar fillna, somente 332 dos dados eram não nulos. Após sua utilização, verificamos que há 418, ou seja, não há mais valores faltantes na coluna Age.