# Titanic - outliers

In [1]:
import matplotlib.pyplot as plt
import matplotlib as mpl
import pandas as pd
import numpy as np
import pylab as plt

Vamos agora carregar nossos dados ja sem os nulos

In [2]:
df_train = pd.read_csv('data/train_no_nulls.csv')

Vamos agora exercitar a remoção de outliers. Vale ressaltar que os dados originais foram modificados para incluir ocorrências incomuns em alguns atributos.


O primeiro passo para identificar outliers é ver uma breve descrição dos dados numéricos.

In [3]:
print(df_train.describe())

       PassengerId    Survived      Pclass         Age       SibSp  \
count   891.000000  891.000000  891.000000  714.000000  891.000000   
mean    446.000000    0.383838    2.308642   29.839174    0.523008   
std     257.353842    0.486592    0.836071   15.031655    1.102743   
min       1.000000    0.000000    1.000000    0.420000    0.000000   
25%     223.500000    0.000000    2.000000   20.125000    0.000000   
50%     446.000000    0.000000    3.000000   28.000000    0.000000   
75%     668.500000    1.000000    3.000000   38.000000    1.000000   
max     891.000000    1.000000    3.000000  133.000000    8.000000   

            Parch         Fare  
count  891.000000   891.000000  
mean     0.381594    37.234698  
std      0.806057   173.359298  
min      0.000000   -10.100000  
25%      0.000000     7.910400  
50%      0.000000    14.454200  
75%      0.000000    31.000000  
max      6.000000  5012.329200  


As colunas que nos interessam sao `Age', `SibSP', 'Parch' e `Fare', pois as demais são categóricas ou apenas o ID do passageiro.


Observando as 4 colunas, podemos ver algumas coisas incomuns:
* A menor tarifa é negativa (o que é provavelmente um erro) e a maior é um número 10x maior que o Terceiro Quartil (75% percentil)


Há alguém com idade 133 anos. Hoje já parece improvável . Deve tratar-se também de um outlier (ou erro).


A discussão sobre outliers é subjetiva. Sem o conhecimento do domínio do problema (como fizemos com a idade), é muito difícil dizer o que é um outlier.


Mas para fins didáticos, vamos tratar aqui as anomalias como erros nos dados e vamos removê-los trocando pelo valor médio.


Primeiro, vamos mostrar os 5 maiores e 5 menores idades.

In [4]:
print(df_train.sort_values('Age', ascending=False).head(5)['Age'])
print(df_train.sort_values('Age', ascending=True).head(5)['Age'])

103    133.0
630     80.0
851     74.0
493     71.0
96      71.0
Name: Age, dtype: float64
803    0.42
755    0.67
644    0.75
469    0.75
78     0.83
Name: Age, dtype: float64


No caso da coluna idade, podemos notar que apenas o valor 133 parece fora da normalidade.


Vamos trocá-lo pelo valor médio das idades, que já calculamos na limpezaNulos.py.

In [5]:
media_idade = df_train['Age'].mean()

# Aqui substituimos os valores de idade iguais a 133 pela média
df_train.loc[df_train['Age'] == 133, 'Age'] = media_idade

#Agora vamos fazer o mesmo para o campo tarifa
print(df_train.sort_values('Fare', ascending=False).head(5)['Fare'])
print(df_train.sort_values('Fare', ascending=True).head(5)['Fare'])

258    5012.3292
737     512.3292
679     512.3292
88      263.0000
438     263.0000
Name: Fare, dtype: float64
156   -10.1
815     0.0
413     0.0
806     0.0
302     0.0
Name: Fare, dtype: float64


Aqui confirmamos o valor negativo e um valor 10x do bilhete mais caro para o segundo mais caro.

Vamos tratá-los como erros e atualizá-los com o valor da mediana da tarifa.

Usaremos a mediana em vez da média, pois ela é menos sensível aos outliers.

In [6]:
mediana_tarifa = df_train['Fare'].median()
df_train.loc[df_train['Fare']>5000, 'Fare'] = mediana_tarifa
df_train.loc[df_train['Fare']<0, 'Fare' ] = mediana_tarifa

#vamos conferir a remoção de outliers

print(df_train.sort_values('Fare', ascending=False).head(5)['Fare'])
print(df_train.sort_values('Fare', ascending=True).head(5)['Fare'])

#Vamos agora guardar os nossos dados
df_train.to_csv('data/train_no_nulls_no_outliers.csv', index=False)

737    512.3292
679    512.3292
27     263.0000
438    263.0000
341    263.0000
Name: Fare, dtype: float64
822    0.0
806    0.0
815    0.0
413    0.0
466    0.0
Name: Fare, dtype: float64
