# [Data Train] Competição ML #1 - Titanic
## CRISP-DM: Data Preparation
**Autor:** Wanderson Marques - wdsmarques@gmail.com

Esse Jupyter Notebook contém o **pré-processamento** do conjunto de dados Titanic. Considerando a metodologia CRISP-DM, essa atividade refere-se à terceira fase, a preparação dos dados. 

<img src="imgs/dataPreparation.jpg" />

### Carregar bibliotecas

In [1]:
import pandas as pd
import joblib
from sklearn.model_selection import train_test_split

### Carregar dataset

In [2]:
dataset = pd.read_csv('datasets/train.csv')
dataset.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,476,0,1,"Clifford, Mr. George Quincy",male,,0,0,110465,52.0,A14,S
1,57,1,2,"Rugg, Miss. Emily",female,21.0,0,0,C.A. 31026,10.5,,S
2,259,1,1,"Ward, Miss. Anna",female,35.0,0,0,PC 17755,512.3292,,C
3,741,1,1,"Hawksford, Mr. Walter James",male,,0,0,16988,30.0,D45,S
4,699,0,1,"Thayer, Mr. John Borland",male,49.0,1,1,17421,110.8833,C68,C


In [3]:
dataset.shape

(623, 12)

### Descartar os atributos textuais e identificador dos passageiros
Posteriormente um trabalho de mineração textos poderia ser realizado a fim de extrair alguma informação potencialmente relevante.

In [4]:
dataset.drop(['Name', 'Ticket', 'Cabin', 'PassengerId', 'Sex', 'Embarked'], axis=1, inplace=True)
dataset.head()

Unnamed: 0,Survived,Pclass,Age,SibSp,Parch,Fare
0,0,1,,0,0,52.0
1,1,2,21.0,0,0,10.5
2,1,1,35.0,0,0,512.3292
3,1,1,,0,0,30.0
4,0,1,49.0,1,1,110.8833


### Separar conjuntos de treino (70%) e validação (30%)

O conjunto de teste será utilizado posteriormente, para verificar a capacidade preditiva do modelo. Ele é isolado para que não receba nenhum tipo de viés.

In [5]:
train, teste_split = train_test_split(dataset.copy(), test_size=0.3)

### Gravar conjuntos de validação

In [6]:
teste_split.to_csv('datasets/teste_split.csv', index=False)

### Tratar valores nulos

São tratamentos comuns para valores nulos:
- Exclusão do atributo (caso ele seja nulo para grande parte das instâncias)
- Exclusão da instância (caso ela seja nula para grande parte dos atributos)
- Imputação por estatísticas simples, como média, mediana ou moda (podem ser calculadas para sub-amostras)
- Imputação por regressão e modelos preditivos

In [7]:
train.isnull().sum()

Survived     0
Pclass       0
Age         90
SibSp        0
Parch        0
Fare         0
dtype: int64

In [9]:
# Para as instâncias onde Age é nulo, imputar a média (29.37)
train.loc[train['Age'].isnull(), 'Age'] = train.mean()['Age']

In [10]:
train.isnull().sum()

Survived    0
Pclass      0
Age         0
SibSp       0
Parch       0
Fare        0
dtype: int64

### Tratar outliers

Não será realizado nenhum tratamento

### Gravar conjuntos de treino pré-processado

Após a finalização do pré-processamento, os dados transformados são salvos.

In [11]:
train.to_csv('datasets/train-preprocessado.csv', index=False)