---
## Versão 0.2  


* Split do treino (80/20).
* Features removidas: `Cabin`, `PassengerId`, `Name` e `Ticket`.
* Features `Age` e `Fare`: missing values preenchidos pela média.
* Feature `Embarked`: missing values preenchidos pelo mais comum.
* Features categóricas tratadas com `get_dummies` do `pandas`.
* Modelo: `DecisionTreeClassifier(max_depth=3, random_state=0)`

**Alterações**:
* Split do dataset feito após o tratamento das features.

**Resultado no Kaggle**: 0.79425

**Comentários**:  
Com o deslocamento do split, o preenchimento de valores faltantes será feito sobre uma quantidade maior de amostras e, portanto, espera-se uma maior precisão nesse processo.  
Contudo, esta alteração não gerou impacto no percentual de acerto. A manteremos assim mesmo tendo em vista ser conceitualmente mais eficiente.

---

### **Módulos**

In [1]:
import pandas as pd
from datetime import datetime
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import classification_report, confusion_matrix

### **Datasets**

Primeiro importamos os datasets originais.

In [2]:
treino_orig = pd.read_csv('./datasets/train.csv')
holdout_orig = pd.read_csv('./datasets/test.csv')

A fim de podermos efetuar alterações sem gerar erros, faremos uma cópia de cada um.

In [3]:
treino = treino_orig.copy()
holdout = holdout_orig.copy()

### **Análise e filtragem das features**

In [4]:
treino.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


Inicialmente analisaremos se alguma feature tem pouca amostragem e merece ser descartada.

In [5]:
na = pd.DataFrame()
na['treino'] = (treino.isna().sum() / len(treino.index) * 100)
na['holdout'] = (holdout.isna().sum() / len(holdout.index) * 100)
na.sort_values(['treino','holdout'] ,ascending=False)

Unnamed: 0,treino,holdout
Cabin,77.104377,78.229665
Age,19.86532,20.574163
Embarked,0.224467,0.0
Fare,0.0,0.239234
PassengerId,0.0,0.0
Pclass,0.0,0.0
Name,0.0,0.0
Sex,0.0,0.0
SibSp,0.0,0.0
Parch,0.0,0.0


Notamos que `Cabin` tem mais de 77% de valores faltantes em todo o dataset.   
Como a quantidade é muito grande, tentar completar esses valores pode gerar muita imprecisão. Sendo assim, descartaremos essa feature.

In [6]:
# "Cabin" tem mais de 77% de valores faltantes em todo o dataset. Vamos descartá-la.
treino.drop('Cabin', axis=1, inplace=True)
holdout.drop('Cabin', axis=1, inplace=True)

A feature `PassengerId` é única por registro e não contém nenhuma informação relevante. Vamos descartá-la.

In [7]:
treino.drop('PassengerId', axis=1, inplace=True)
holdout.drop('PassengerId', axis=1, inplace=True)

Para simplificar esse estudo, descartaremos também as features `Name` e `Ticket`, que não apresentam nenhum informação majoritariamente relevante.

In [8]:
treino.drop(['Name','Ticket'], axis=1, inplace=True)
holdout.drop(['Name','Ticket'], axis=1, inplace=True)

Então temos o seguinte conjunto de features a ser inserido no modelo.

In [9]:
treino.head()

Unnamed: 0,Survived,Pclass,Sex,Age,SibSp,Parch,Fare,Embarked
0,0,3,male,22.0,1,0,7.25,S
1,1,1,female,38.0,1,0,71.2833,C
2,1,3,female,26.0,0,0,7.925,S
3,1,1,female,35.0,1,0,53.1,S
4,0,3,male,35.0,0,0,8.05,S


Contudo, primeiro é preciso garantir que os dados estejam consistentes e num formato que seja aceito pelo modelo.

### **Tratamento de "Missing Values"**

In [10]:
na = pd.DataFrame()
na['treino'] = (treino.isna().sum() / len(treino.index) * 100)
na['holdout'] = (holdout.isna().sum() / len(holdout.index) * 100)
na['tipo'] = treino.dtypes
na.sort_values(['treino','holdout'] ,ascending=False)

Unnamed: 0,treino,holdout,tipo
Age,19.86532,20.574163,float64
Embarked,0.224467,0.0,object
Fare,0.0,0.239234,float64
Pclass,0.0,0.0,int64
Sex,0.0,0.0,object
SibSp,0.0,0.0,int64
Parch,0.0,0.0,int64
Survived,0.0,,int64


Notamos que `Age`, `Embarked` e `Fare` tem valores faltantes.

`Age` e `Fare` são features numéricas. Completaremos com a média dos demais.

In [11]:
treino['Age'].fillna(treino['Age'].mean(), inplace=True)
holdout['Age'].fillna(holdout['Age'].mean(), inplace=True)
holdout['Fare'].fillna(holdout['Fare'].mean(), inplace=True)

`Embarked` é uma feature categórica. Preencheremos os faltantes com o valor mais comum.

In [12]:
treino['Embarked'].fillna(treino['Embarked'].value_counts().index[0], inplace=True)

Agora não temos mais valores faltantes em nenhuma feature.

In [13]:
na['treino'] = (treino.isna().sum() / len(treino.index) * 100)
na['holdout'] = (holdout.isna().sum() / len(holdout.index) * 100)
na['tipo'] = treino.dtypes
na.sort_values(['treino','holdout'] ,ascending=False)

Unnamed: 0,treino,holdout,tipo
Pclass,0.0,0.0,int64
Sex,0.0,0.0,object
Age,0.0,0.0,float64
SibSp,0.0,0.0,int64
Parch,0.0,0.0,int64
Fare,0.0,0.0,float64
Embarked,0.0,0.0,object
Survived,0.0,,int64


### **Tratamento de features categóricas**

Como os modelos só tratam números, precisamos converter as features categóricas.  
Para tal, usaremos a função `get_dummies` do `pandas`.  
Cada feature categórica terá seus valores únicos separados em uma nova coluna exclusiva e as originais deixarão de existir.

In [14]:
treino.head()

Unnamed: 0,Survived,Pclass,Sex,Age,SibSp,Parch,Fare,Embarked
0,0,3,male,22.0,1,0,7.25,S
1,1,1,female,38.0,1,0,71.2833,C
2,1,3,female,26.0,0,0,7.925,S
3,1,1,female,35.0,1,0,53.1,S
4,0,3,male,35.0,0,0,8.05,S


In [15]:
treino = pd.get_dummies(treino)
holdout = pd.get_dummies(holdout)
treino.head()

Unnamed: 0,Survived,Pclass,Age,SibSp,Parch,Fare,Sex_female,Sex_male,Embarked_C,Embarked_Q,Embarked_S
0,0,3,22.0,1,0,7.25,0,1,0,0,1
1,1,1,38.0,1,0,71.2833,1,0,1,0,0
2,1,3,26.0,0,0,7.925,1,0,0,0,1
3,1,1,35.0,1,0,53.1,1,0,0,0,1
4,0,3,35.0,0,0,8.05,0,1,0,0,1


### **Split do dataset**

Como não temos o target do dataset de teste(holdout), faremos um split do dataset de treino a fim de podermos avaliar o resultado da predição.  
Adotaremos a seguinte proporção: 80% treino e 20% teste.

In [16]:
# Separa "features"(X) e "target"(y)
feat = treino.drop('Survived', axis=1)
targ = treino['Survived']

# Faz o split
X_treino, X_teste, y_treino, y_teste = train_test_split(feat, targ, test_size=0.2, random_state=0)

Verificação de cada parte dos datasets a fim de garantir que os tamanho são compatíveis.

In [17]:
print('Treino:', X_treino.shape, y_treino.shape)
print('Teste:', X_teste.shape, y_teste.shape)
print('Holdout:', holdout.shape)

Treino: (712, 10) (712,)
Teste: (179, 10) (179,)
Holdout: (418, 10)


### **Definindo o modelo, treinando e avaliando o resultado**

<img src='./images/Machine-Learning-Classico.png' width='600' align='left'>

Com base na figura acima, aonde temos uma simplificação das principais classes de modelos, podemos identificar qual melhor caminho seguir na escolha do mais adequado para a solução do nosso problema.

Como em nosso caso os dados estão categorizados/rotulados(sabemos o que acontece com cada passageiro), concluímos que trata-se de uma **análise supervisionada**.  
Nessa situação, o modelo será responsável por achar uma "fórmula" que leve os dados apresentadas às respostas que já conhecemos.

Tendo em vista que vamos tentar prever uma categoria(passageiro sobreviveu ou não), e não um valor/grandeza, usaremos modelos de **classificação**.

Dentre as opções disponíveis, vamos começar com o [Decision Tree](https://towardsdatascience.com/decision-trees-in-machine-learning-641b9c4e8052), que é um modelo de fácil compreensão, que demanda pouco tratamento dos dados de entrada e que não precisa de configuração complexa de parâmetros.

In [18]:
modelo = DecisionTreeClassifier(max_depth=3, random_state=0)
modelo.fit(X_treino, y_treino)
modelo.score(X_treino, y_treino)

0.8342696629213483

Aqui podemos ver quais features o modelo deu mais importância.

In [19]:
feat_imp = modelo.feature_importances_
feat = pd.DataFrame(list(zip(X_treino,feat_imp)))
feat.columns = ['Feature','Importance']
feat.set_index('Feature', inplace=True)
feat.sort_values('Importance', ascending=False)

Unnamed: 0_level_0,Importance
Feature,Unnamed: 1_level_1
Sex_male,0.621926
Pclass,0.176426
SibSp,0.07552
Age,0.070737
Fare,0.055391
Parch,0.0
Sex_female,0.0
Embarked_C,0.0
Embarked_Q,0.0
Embarked_S,0.0


### **Predição com o dataset de teste e avaliação**

Vamos agora pegar a segunda parte do split do dataset original e ver se o modelo já treinado consegue prever quais passageiros dessa amostra sobreviveram e quais não.

In [20]:
pred_teste = modelo.predict(X_teste)
print(pred_teste.shape)
pred_teste

(179,)


array([0, 0, 0, 1, 1, 0, 1, 1, 0, 1, 0, 1, 0, 1, 1, 1, 0, 0, 0, 1, 0, 1,
       0, 0, 1, 1, 0, 1, 1, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       1, 0, 0, 1, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 1, 0,
       1, 0, 0, 1, 1, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 1, 1, 0, 0, 1, 1, 1,
       1, 0, 0, 0, 1, 1, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 0, 0, 1,
       0, 1, 0, 1, 0, 1, 1, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0,
       0, 1, 0, 0, 0, 1, 0, 0, 0, 1, 0, 1, 1, 1, 0, 1, 1, 0, 0, 1, 1, 0,
       1, 0, 1, 0, 1, 1, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0,
       1, 0, 0], dtype=int64)

Na amostra testada temos a seguinte distribuição de passageiros:

In [21]:
print('Falecidos:',y_teste.value_counts()[0])
print('Sobreviventes:',y_teste.value_counts()[1])

Falecidos: 110
Sobreviventes: 69


Analisando a [matriz de confusão](https://en.wikipedia.org/wiki/Confusion_matrix), podemos identificar a quantidade de erros e acertos em cada categoria.

In [32]:
conf_mat = confusion_matrix(y_teste, pred_teste)
print(' TP FN')
print(conf_mat[0], 'Falecidos')
print(conf_mat[1], 'Sobreviventes')
print(' FP TN\n')  
print('O modelo previu:')
print(f'* {conf_mat[0][0]} falecidos corretamente')
print(f'* {conf_mat[1][1]} sobreviventes corretamente')
print(f'* {conf_mat[0][1]} falecidos como sobreviventes')
print(f'* {conf_mat[1][0]} sobreviventes como falecidos')

 TP FN
[96 14] Falecidos
[18 51] Sobreviventes
 FP TN

O modelo previu:
* 96 falecidos corretamente
* 51 sobreviventes corretamente
* 14 falecidos como sobreviventes
* 18 sobreviventes como falecidos


Aplicando algumas [métricas de medição](https://gabrielschade.github.io/2019/03/12/ml-classificacao-metricas.html) podemos avaliar a precisão do resultado.

In [33]:
print(classification_report(y_teste, pred_teste, digits=4, target_names=['Falecidos', 'Sobreviventes']))

               precision    recall  f1-score   support

    Falecidos     0.8421    0.8727    0.8571       110
Sobreviventes     0.7846    0.7391    0.7612        69

     accuracy                         0.8212       179
    macro avg     0.8134    0.8059    0.8092       179
 weighted avg     0.8199    0.8212    0.8202       179



O modelo acertou cerca de 81% dos resultados. Sendo que foi mais eficiente na identificação de falecidos do que de sobreviventes.

### **Predição com o dataset de holdout**

Agora vamos repetir o processo de predição com a amostra de teste.

In [34]:
pred_holdout = modelo.predict(holdout)
print(pred_holdout.shape)
pred_holdout

(418,)


array([0, 1, 0, 0, 1, 1, 1, 0, 1, 0, 0, 0, 1, 0, 1, 1, 0, 0, 1, 1, 0, 1,
       1, 0, 1, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 1,
       1, 0, 0, 0, 1, 1, 0, 0, 1, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 1, 1,
       1, 0, 0, 1, 1, 0, 1, 0, 1, 0, 0, 1, 0, 1, 1, 0, 0, 0, 0, 0, 1, 1,
       1, 1, 1, 0, 1, 0, 0, 0, 1, 0, 1, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0,
       0, 1, 1, 1, 1, 0, 0, 1, 0, 1, 1, 0, 1, 0, 0, 1, 0, 1, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1,
       0, 0, 1, 1, 0, 1, 1, 1, 1, 0, 0, 1, 0, 0, 1, 1, 0, 0, 0, 0, 0, 1,
       1, 0, 1, 1, 0, 0, 1, 0, 1, 0, 1, 0, 0, 0, 0, 0, 1, 0, 1, 0, 1, 1,
       0, 1, 1, 1, 0, 1, 0, 0, 1, 0, 1, 0, 0, 0, 0, 1, 1, 0, 1, 0, 1, 0,
       1, 0, 1, 0, 1, 1, 0, 1, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1,
       0, 0, 0, 0, 1, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 1,
       0, 0, 0, 0, 1, 0, 0, 0, 1, 1, 0, 1, 0, 0, 0, 0, 1, 1, 1, 1, 1, 0,
       0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0,

Como não temos os dados de sobreviventes/falecidos dessa amostra, não há com o que comparar.

### **Resultado para submissão**

Vamos então gerar um arquivo para submeter a nossa predição à avaliação do Kaggle e lá saberemos o quanto o modelo acertou dessa amostra.

In [35]:
resultado = pd.DataFrame({'PassengerId': holdout_orig['PassengerId'], 'Survived': pred_holdout})
resultado.set_index('PassengerId', inplace=True)
resultado.head()

Unnamed: 0_level_0,Survived
PassengerId,Unnamed: 1_level_1
892,0
893,1
894,0
895,0
896,1


In [36]:
t = datetime.now().strftime('%Y%m%d_%H%M')
resultado.to_csv(f'./submissions/titanic_v0.2_{t}.csv')

O resultado obtido foi:

<img src='./images/titanic_v0.2_20200603_1110.png' align='left'>