# Análise Exploratória dos Dados (EDA)

In [2]:
#Importando bibliotecas
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline

import warnings
warnings.filterwarnings('ignore')

In [3]:
#Importar dataframe de treino e de teste
data_treino = pd.read_csv('titanic/train.csv')
data_teste = pd.read_csv('titanic/test.csv')

In [4]:
#Traduzir colunas
data_treino.columns = ['IdPassageiro', 'Sobreviveu',
                       'Classe', 'Nome', 'Sexo', 'Idade',
                       'IrmaosConjuge','PaisFilhos', 'Bilhete',
                       'Tarifa', 'Cabine', 'Embarque']

In [5]:
data_teste.columns = ['IdPassageiro', 'Classe', 'Nome',
                      'Sexo', 'Idade','IrmaosConjuge',
                      'PaisFilhos', 'Bilhete', 'Tarifa',
                      'Cabine', 'Embarque']

In [6]:
#Definir o IdPassageiro como índice
data_treino.set_index('IdPassageiro', inplace=True)
data_teste.set_index('IdPassageiro', inplace=True)

In [7]:
data_treino.shape, data_teste.shape

((891, 11), (418, 10))

In [8]:
#Concatenar dataframes
data = pd.concat([data_treino, data_teste],sort=True)

In [9]:
data['Sexo'] = data['Sexo'].map({'male': 'homem',
                                 'female': 'mulher'})

In [10]:
data.head()

Unnamed: 0_level_0,Bilhete,Cabine,Classe,Embarque,Idade,IrmaosConjuge,Nome,PaisFilhos,Sexo,Sobreviveu,Tarifa
IdPassageiro,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
1,A/5 21171,,3,S,22.0,1,"Braund, Mr. Owen Harris",0,homem,0.0,7.25
2,PC 17599,C85,1,C,38.0,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",0,mulher,1.0,71.2833
3,STON/O2. 3101282,,3,S,26.0,0,"Heikkinen, Miss. Laina",0,mulher,1.0,7.925
4,113803,C123,1,S,35.0,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",0,mulher,1.0,53.1
5,373450,,3,S,35.0,0,"Allen, Mr. William Henry",0,homem,0.0,8.05


## Resumo da Análise Exploratória
### Parâmetros Categóricos
* Nominais
 * Sexo
 * Embarque
 * Sobreviveu
 
* Ordinais
 * Classe
 

### Parâmetros Númericos
* Contínuos
 * Idade
 * Tarifa
 
* Discretos
 * IrmaosConjuge
 * PaisFilhos
 
### Parâmetros Alfanuméricos
* Bilhete

# Engenharia de Recursos

In [11]:
data.isnull().sum()

Bilhete             0
Cabine           1014
Classe              0
Embarque            2
Idade             263
IrmaosConjuge       0
Nome                0
PaisFilhos          0
Sexo                0
Sobreviveu        418
Tarifa              1
dtype: int64

In [19]:
#Preencher dados faltando na coluna Embarque com a moda
moda_embarque = data['Embarque'].mode()[0]
data['Embarque'].fillna(moda_embarque, inplace=True)

#Preencher Tarifa faltando com a média
media_tarifa = data['Tarifa'].mean()
data['Tarifa'].fillna(media_tarifa, inplace=True)

In [21]:
#Remover coluna Cabine
data.drop('Cabine', axis=1, inplace=True)

In [23]:
#Informações gerais(Dados Numéricos)
data.describe()

Unnamed: 0,Classe,Idade,IrmaosConjuge,PaisFilhos,Sobreviveu,Tarifa
count,1309.0,1046.0,1309.0,1309.0,891.0,1309.0
mean,2.294882,29.881138,0.498854,0.385027,0.383838,33.295479
std,0.837836,14.413493,1.041658,0.86556,0.486592,51.738879
min,1.0,0.17,0.0,0.0,0.0,0.0
25%,2.0,21.0,0.0,0.0,0.0,7.8958
50%,3.0,28.0,0.0,0.0,0.0,14.4542
75%,3.0,39.0,1.0,0.0,1.0,31.275
max,3.0,80.0,8.0,9.0,1.0,512.3292


In [24]:
#Informações gerais(Dados Categóricos)
data.describe(include=['O'])

Unnamed: 0,Bilhete,Embarque,Nome,Sexo
count,1309,1309,1309,1309
unique,929,3,1307,2
top,CA. 2343,S,"Kelly, Mr. James",homem
freq,11,916,2,843


In [27]:
data_treino['Sobreviveu'].value_counts()[1]

342

In [29]:
print('Tamanho da amostra: ',
      len(data))
print('Proporção total da amostra em relação à população: ',
      len(data_treino)/2224)
print('Proporção de Sobreviventes(População): ',
      1-1502/2224)
print('Proporção de Sobreviventes(Amostra): ',
     data_treino['Sobreviveu'].value_counts()[1]/len(data_treino))

Tamanho da amostra:  1309
Proporção total da amostra em relação à população:  0.4006294964028777
Proporção de Sobreviventes(População):  0.32464028776978415
Proporção de Sobreviventes(Amostra):  0.3838383838383838


In [31]:
#Obter taxa de sobrevivência por classe
data[['Classe', 'Sobreviveu']].groupby(['Classe']).mean().sort_values(
    by='Sobreviveu', ascending=False)

Unnamed: 0_level_0,Sobreviveu
Classe,Unnamed: 1_level_1
1,0.62963
2,0.472826
3,0.242363


In [32]:
#Obter taxa de sobrevivência por Sexo
data[['Sexo', 'Sobreviveu']].groupby(['Sexo']).mean().sort_values(
    by='Sobreviveu', ascending=False)

Unnamed: 0_level_0,Sobreviveu
Sexo,Unnamed: 1_level_1
mulher,0.742038
homem,0.188908


In [33]:
#Obter taxa de sobrevivência por IrmaosConjuge
data[['IrmaosConjuge', 'Sobreviveu']].groupby(['IrmaosConjuge']).mean()\
    .sort_values(by='Sobreviveu', ascending=False)

Unnamed: 0_level_0,Sobreviveu
IrmaosConjuge,Unnamed: 1_level_1
1,0.535885
2,0.464286
0,0.345395
3,0.25
4,0.166667
5,0.0
8,0.0


In [34]:
#Obter taxa de sobrevivência por PaisFilhos
data[['PaisFilhos', 'Sobreviveu']].groupby(['PaisFilhos']).mean()\
    .sort_values(by='Sobreviveu', ascending=False)

Unnamed: 0_level_0,Sobreviveu
PaisFilhos,Unnamed: 1_level_1
3,0.6
1,0.550847
2,0.5
0,0.343658
5,0.2
4,0.0
6,0.0
9,


## Resumo da Engenharia de Recursos
### Informações Faltando:
* Cabine(1014):
    * Coluna foi removida por conter muitos dados faltando
* Embarque(2):
    * Embarque é uma quantidade irrisória se comparado com a  amostra. Por este motivo foi preenchida com a moda
* Idade(263):
    * Idade será estimada através da regressão linear
* Sobreviveu(418):
    * A sobrevivência do passageiro será estimada através da regressão logistica
* Tarifa(1):
    * A Tarifa será preenchida com a média da tarifa cobrada dos passageiros

### Informações da população x amostra
- Tamanho da amostra:  1309
- Tamanho da população: 2224
- Proporção total da amostra em relação à população:  0.4006294964028777
- Proporção de Sobreviventes(População):  0.32464028776978415
- Proporção de Sobreviventes(Amostra):  0.3838383838383838

### Relações de Sobrevivência
- Passageiros da primeira classe estão mais propensos a sobreviver, seguido da segunda classe e com menores chances de sobrevivência a terceira classe
- Passageiros do sexo femino estão mais propensas a sobreviver.