# Titanic: Machine Learning from Disaster

# Definição do Escopo

* Realizar o processo de Data Munging no dataset do tytanic;
* Gerar arquivos CSVs para o próximos projeto para aplicar os algoritmos machine learning;
* Os arquivos devem passar pelo processo de:
    * Análise Exploratória de Dados;
    * Análise Estatística de Dados;
    * Pré-Processamento;


# Objetivo

Gerar dataset(csv) limpo e formatado para aplicar no projeto algoritmos de ML para prever: 
* Que tipos de pessoas provavelmente sobreviveriam?

# Funções

In [None]:
def print_full(x):
    pd.set_option('display.max_rows', len(x))
    print(x)
    pd.reset_option('display.max_rows')

# Coleta de dados

https://www.kaggle.com/c/titanic/data

<b>PassengerId</b> = Passageiro ID<br>
<b>Survived</b> = Sobreviventes<br>
<b>Pclass</b> = Classe do Ingresso<br>
<b>Name</b> = Nome<br>
<b>Sex</b> = Sexo<br>
<b>Age</b> = Idade<br>
<b>SibSp</b> = Parentes Irmão/Irmã/Marido/Esposa<br>
<b>Parch</b> = Parentes Mãe/Pai/Filhos/Enteado<br>
<b>Ticket</b> = Passagem Número<br>
<b>Fare</b> = Passagem Preço<br>
<b>Cabin</b> = Cabine<br>
<b>Embarked</b> = Porto de Embarque(C = Cherbourg; Q = Queenstown; S = Southampton)<br>

## Fontes

In [None]:
### Importando as libs
import pandas as pd
import numpy as np

In [None]:
### Coletando as fontes de dados
train_csv = pd.read_csv('train.csv', sep = ',', encoding = 'UTF-8')
test_csv = pd.read_csv('test.csv', sep = ',', encoding = 'UTF-8')

## Validação - Importação dos dados

In [None]:
test_csv.head(2)

In [None]:
train_csv.head(2)

## Renomeando - Colunas

In [None]:
### Colunas de Teste
test=test_csv.copy()
colunasTeste=['PassageiroId','Classe','Nome','Sexo','Idade','ParentesIrmao','ParentesFilhos',
              'PassagemNumero','PassagemPreco','Cabine','PortoEmbarque']
test.columns=colunasTeste

In [None]:
### Colunas de Treino
train=train_csv.copy()
colunasTreino = colunasTeste[:]
colunasTreino.insert(1,'Sobreviventes')
train.columns=colunasTreino

## Validação - Renomeação das colunas

In [None]:
test.head(2)

In [None]:
train.head(2)

## Join Metadados

In [None]:
### União do Treino e Teste 
frames = [train[colunasTeste], test]
join = pd.concat(frames)

## Coleta de dados - Conclusão

<b>Dados de treino:</b> Possuí informações dos sobreviventes, então podemos utilizar algoritmos machine learning supervisionado.
<br>
<b>Dados de teste:</b> As previsões dos dados de teste deve ser enviado para o Kaggle, conforme o modelo: gender_submission.csv
<br>
<b>Join Metadados:</b> A união dos datasets de treino e teste vai ajudar no processo de análise exploratória dos dados.
<br>
<b>Join Metadados:</b> Foi excluído a coluna sobreviventes.

# Análise Exploratória de Dados

## Visualizar - 1ª Linhas

In [None]:
### Treino
train.head(20)

In [None]:
### Teste
test.head(20)

## Quais as dimensões do dataset?


In [None]:
### Treino
train.shape

In [None]:
### Teste
test.shape

In [None]:
### JOIN
join.shape

<b>Dados de treino:</b> A quantidade de dados de treino aparentemente não é suficiente para ter um modelo com alta precisão.
<br>

## Quais são os tipos das colunas?

In [None]:
### Treino
train.dtypes

In [None]:
### Teste
test.dtypes

In [None]:
### Join
join.dtypes

## Quais as colunas que tem valores nulos?

In [None]:
### Treino
train.info()

In [None]:
### Teste
test.info()

In [None]:
### Join
join.info()

## Quais total de valores nulos por coluna?

In [None]:
### Treino
train.isnull().sum()

In [None]:
### Teste
test.isnull().sum()

In [None]:
### Join
join.isnull().sum()

## Sumário Estatístico

Resumo estatístico do DataFrame, com quartis, mediana, etc

<ul>
<li>count = quantidade de registros não nulo</li>
<li>mean = média aritmética</li>
<li>std = desvio padrão</li>
<li>min = minímo valor</li>
<li>25% = Primeiro Quartil</li>
<li>50% = Segundo Quartil = Mediana</li>
<li>75% = Terceiro Quartil</li>
<li>max = maior valor</li>
</ul>

### Dados - Brutos

In [None]:
### Treino 
train.describe()

In [None]:
### Teste
test.describe()

In [None]:
### Join
join.describe()

### Sumário Estatístico(Dados Brutos) - Conclusão 

* **PassageiroId:** 
    * Treino: Desconsiderar os valores relacionados a coluna.
    * Teste:  Desconsiderar os valores relacionados a coluna.
    * União:  Desconsiderar os valores relacionados a coluna.
* **Sobreviventes:** 
    * Treino: Aproximadamente 38% sobreviveu - mean 0.383838
* **Classe:** 
    * A mediana é a melhor representação da Classe.(50% do Quartil);  
    * Corresponde a 3ª classe como maioria nos dados de treino e test.
    * A mediana é a melhor representação da Classe;     
* **Idade:** 
* **ParentesIrmao:**
* **ParentesFilhos:** 
* **PassagemPreco:**

### É possível trabalhar com dataset removendo os valores nulos?

In [None]:
join.dropna().info()

#### Conclusão
* Se remover todas as colunas com valores nulos fica inviável trabalhar com dataset;
* A coluna Cabine existe vários valores nulos;


### Dados - Sem nulos

In [None]:
colunasSemCabine = colunasTeste[:]
colunasSemCabine.remove('Cabine')

In [None]:
#Valor total - bruto: 891
#Valor total - Sem Nulos: 712
train_dropna=train.dropna(subset=colunasSemCabine)
train_dropna.describe()

In [None]:
#Valor total - bruto: 418
#Valor total - Sem Nulos: 331
test_dropna=test.dropna(subset=colunasSemCabine)
test_dropna.describe()

In [None]:
#Valor total - bruto: 1309
#Valor total - Sem Nulos: 1043
join_dropna=join.dropna(subset=colunasSemCabine)
join_dropna.describe()

## Balanceamento

### Qual a quantidade de sobreviventes nos dados de treino?

In [None]:
train.groupby('Sobreviventes').size()

### Qual a quantidade de sobreviventes nos dados de treino sem os campos nulos?

In [None]:
train_dropna.groupby('Sobreviventes').size()

### Existe algum porto de embarque que sobreviveu mais pessoas ou todos sobreviveram por não embarcar?

In [None]:
### Resposta: Não
train.groupby(['Sobreviventes','PortoEmbarque']).size()

### Quem tinha filhos sobreviveu mais do que morreu?

In [None]:
### Resposta: Não. Mas que não tinha filhos morreu mais e ninguem sobreviveu que tinha 4 e 6 parentes.
### 4 e 6 = 0 = Morreu
### 0,1,2,3,5 = 1 = Talvez
train.groupby(['Sobreviventes','ParentesFilhos','Sexo','Classe']).size()

### Existem nos dados teste pessoas que tem mais que 6 filhos?

In [None]:
### Sim 9. 
test.groupby(['ParentesFilhos']).size()

### Quem tinhas mais parentes sobreviveu?

In [None]:
### Resposta: Não. Mas que não tinha parantes morreu mais e ninguem sobreviveu que tinha 5,6,7,8 parentes.
### 5,6,7,8   = 0 = Morreu
### 0,1,2.3,4   = 1 = Talvez
train.groupby(['Sobreviventes','ParentesIrmao']).size()

### Existem nos dados teste pessoas que tem mais que 8 parentes?

In [None]:
### Não.
test.groupby(['ParentesIrmao']).size()

### Sobreviveu mais mulheres ou homens?

In [None]:
### Resposta: Sobreviveu mais mulheres e morreu menos mulheres.
train.groupby(['Sobreviventes','Sexo']).size()

### Existem pessoas com mesmo número de passagem?

In [None]:
### Resposta: Sim
mesmo_numero_passagem=train.groupby(['Sobreviventes','PassagemNumero']).size()
mesmo_numero_passagem

### As pessoas com mesmo número de passagem sobreviveram?

In [None]:
### Resposta: Não
df_mesmo_numero_passagem = pd.DataFrame({'Sobreviventes':mesmo_numero_passagem.index.get_level_values(0),'Passagem':mesmo_numero_passagem.index.get_level_values(1), 'PassagemQuantidade':mesmo_numero_passagem.values})
df_mesmo_numero_passagem.groupby(['Sobreviventes','PassagemQuantidade']).size()

### Existem pessoas na mesma cabine?

In [None]:
### Resposta: Sim
mesma_cabine=train.groupby(['Sobreviventes','Cabine']).size()
mesma_cabine

### As pessoas na mesma cabine sobreviveram?

In [None]:
### Resposta: Não
df_mesma_cabine = pd.DataFrame({'Sobreviventes':mesma_cabine.index.get_level_values(0),'Cabine':mesma_cabine.index.get_level_values(1), 'CabineQuantidade':mesma_cabine.values})
df_mesma_cabine.groupby(['Sobreviventes','CabineQuantidade']).size()

### Qual a idade das pessoas que sobreviveram e morreram?

In [None]:
print_full(train.groupby(['Sobreviventes','Idade']).size())

### Qual a menor/maior idade que um homem e mulher morreu/sobreviveu?

In [None]:
### Respostas:
### Menor Mulher Morreu: 2 anos
### Menor Mulher Sobreviveu: 7 meses

### Menor Homem Morreu: 1 ano
### Menor Homem Sobreviveu: 4 meses


### Maior Mulher Morreu: 57 anos
### Maior Mulher Sobreviveu: 63 anos

### Maior Homem Morreu: 74 anos
### Maior Homem Sobreviveu: 80 anos
print_full(train.groupby(['Sobreviventes','Idade','Sexo']).size())

### Qual a menor/maior preço de passagem de quem morreu/sobreviveu pagou?

In [None]:
### Respostas:
### Sobrevieveu maior: 512
### Sobrevieveu menor: 0
### Morreu maior menor: 263 
### Morreu maior maior: 0 
print_full(train.groupby(['Sobreviventes','PassagemPreco']).size())

### Existe uma classe que sobreviveu ou morreu todos?

In [None]:
### Resposta: Não
train.groupby(['Sobreviventes','Classe']).size()

### Existe alguma classe que só homem ou mulher sobreviveram/morreram?

In [None]:
### Resposta: Não
train.groupby(['Sobreviventes','Classe','Sexo']).size()

### Existem nomes duplicados?

In [None]:
### Resposta: Não
print_full(train.groupby(['Nome']).size())

## Correlação

In [None]:
### pearson
train.corr(method='pearson')

In [None]:
### kendall
train.corr(method = 'kendall')

In [None]:
### spearman
train.corr(method = 'spearman')

In [None]:
### Decision Trees
from sklearn.ensemble import ExtraTreesClassifier

In [None]:
colunasNumericas=['Classe','ParentesIrmao','ParentesFilhos','Idade','PassagemPreco']
x = pd.DataFrame(train_dropna,columns=colunasNumericas).values
y = train_dropna['Sobreviventes']

In [None]:
modeloExtraTreesClassifier = ExtraTreesClassifier()
modeloExtraTreesClassifier.fit(x,y)

In [None]:
### Quanto maior o score, maior a importância do atributo
print(colunasNumericas)
print(modeloExtraTreesClassifier.feature_importances_)

In [None]:
### Random Forest
from sklearn.ensemble import RandomForestClassifier

In [None]:
modeloRandomForestClassifier = RandomForestClassifier()
modeloRandomForestClassifier.fit(x,y)

In [None]:
print(colunasNumericas)
print(modeloRandomForestClassifier.feature_importances_)

## Simetria

Skewness quantifica o quão simétrica é a distribuição.
* Uma distribuição simétrica tem skewness de zero.
* Uma distribuição assimétrica com uma cauda longa para a direita (valores mais altos) tem um skew positivo.
* Uma distribuição assimétrica com uma cauda longa para a esquerda (valores mais baixos) tem um skew negativo.

Visualizar no Density Plot Univariado os itens comentados acima

![title](assimetria.jpg)

In [None]:
train.skew()

In [None]:
train_dropna.skew()

In [None]:
test.skew()

In [None]:
test_dropna.skew()

In [None]:
join.skew()

In [None]:
join_dropna.skew()