# **Desafio prático - Classificação de dados com a competição do Titanic**

![](https://media.giphy.com/media/Uj3SeuVfg2oCs/giphy.gif)

O problema de classificação que iremos resolver é o descrito na competição do Kaggle [Titanic: Machine Learning from Disaster](https://www.kaggle.com/c/titanic). Esse desafio é muito famoso e utilizado por quem está começando na área de Data Science e/ou a participar de competições pelo Kaggle (apesar de ser um assunto #badvibes).

![](https://media.giphy.com/media/4ryp9Ihw0BEyc/giphy.gif)

O objetivo da competição é simples: **criar um modelo utilizando Machine Learning para predizer se um passageiro do Titanic sobreviveu ou não ao naufrágio**.

## **Bibliotecas auxiliares**

Aqui nós vamos importar as algumas das bibliotecas necessárias para fazer a análise e visualização dos dados (lembram dessas aulas?)

In [0]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

### **Conhecendo nossos conjuntos de dados**

In [0]:
train = pd.read_csv('train.csv')
submission = pd.read_csv('test.csv')

Vamos ver a carinha dos nossos conjuntos de dados?

In [0]:
#TODO

In [0]:
#TODO

Na tabela abaixo podemos conferir o significado de cada um dos atributos presentes no conjunto de dados:

|Atributo| Descrição|
|--------|----------|
|**PassengerId**| id do passageiro|
|**Pclass**| classe do ticket|
|**Name**|nome do passageiro|
|**Sex**|gênero do passageiro|
|**Age**|idade do passageiro (em anos)|
|**SibSp**|Quantidade de irmãos/cônjuge que também embarcaram no Titanic|
|**Parch**|Quantidade de pais/filhos que também embarcaram no Titanic|
|**Ticket**|Número do ticket do passageiro|
|**Fare**|Tarifa paga pelo passageiro|
|**Cabin**|Número da cabine|
|**Embarked**|Porto de embarque|
|**Survived**|Indica se o passageiro sobreviveu ou não ao naufrágio (é o nosso target)|


Vamos verificar o tamanho dos conjuntos de treinamento e teste?

In [0]:
#TODO

In [0]:
#TODO

Vamos ver os tipos dos dados do conjunto de treinamento (também podemos verificar a quantidade de valores faltantes para cada atributo)?

In [0]:
#TODO

### **Remoção de features irrelevantes**

Algumas features presentes em nosso conjunto de dados não são úteis para nos ajudar a predizer se um passageiro sobreviveu ou não ao naufrágio do Titanic. Essas features geralmente estão relacionadas a identificadores únicos de um indivíduo e, portanto, não ajudam na generalização do modelo.

Que features seriam essas?

In [0]:
def count_unique(df):
  print("Quantidade de valores únicos para cada feature no conjunto de treinamento")
  for i in df.columns:
    print(f"{i}: {df[i].nunique()}")

In [0]:
count_unique(train)

Podemos remover esses casos que não fazem sentido do nosso conjunto de dados:

In [0]:
#TODO

In [0]:
#TODO 

In [0]:
#TODO

### **Análise exploratória (Exploratory Data Analysis - EDA)**

Antes de treinarmos nosso modelo, precisamos fazer uma análise dos nossos dados para entender o nosso conjunto de treinamento e verificar quais atributos fazem sentido e verificar se alguma transformação será necessária.

### Survived (Sobrevivência do passageiro)

Primeiramente, é interessante olharmos a proporção do nosso target no nosso conjunto de dados:

In [0]:
#TODO

Os passageiros com o target igual a 0 são aqueles que não sobreviveram ao naufrágio, enquanto que os que sobreviveram estão com o valor 1 no target.

In [0]:
#TODO

In [0]:
print(f"Considerando nosso conjunto de treinamento, {train.Survived.value_counts()[0]/train.shape[0]*100:.2f}% dos passageiros não sobreviveram ao naufrágio :(")

###  Pclass (classe do ticket do passageiro) 	 	 	 	 	 	

 De acordo com a descrição das features no Kaggle, os valores para esse atributo têm os seguintes significados:
 - 1 - Classe alta
 - 2 - Classe média
 - 3 - Classe baixa


In [0]:
#TODO

Podemos agora comparar a classe dos passageiros com relação ao nosso target para verificar se ela é relevante:

In [0]:
#TODO

In [0]:
#TODO

###  Sex (gênero do passageiro) 	 	 	 	

In [0]:
#TODO

In [0]:
#TODO

In [0]:
# proporção de sobrevivência por gênero
#TODO

In [0]:
#TODO

###  Age (idade do passageiro) 	 	

In [0]:
#TODO

In [0]:
#TODO

In [0]:
#TODO

### **Tarefinha pra casa**

![](https://media.giphy.com/media/geONXs3YIr0Aw/giphy.gif)

Por conta do tempo, não vamos conseguir fazer a análise de todas as features :(

Então sugerimos que vocês façam a análise das features que ficaram faltando:
- Fare
- Embarked
- SibSp
- Parch

Algumas ideias de análises que podem ser feitas:
- Comparar a tarifa paga pelo passageiro dependendo de sua classe
- Analisar se o tamanho da família influenciou na sobrevivência (o tamanho da família pode ser dado pela soma das features `SibSp` e `Parch`)
- Analisar se há diferença da tarifa paga dependendo do porto de embarque
- Verificar a correlação entre as features utilizando um heatmap

## Feature Engineering

Alguns algoritmos exigem que algumas transformações sejam feitas para que possamos treinar o modelo...

![alt text](http://giphygifs.s3.amazonaws.com/media/720g7C1jz13wI/giphy.gif)

Algumas dessas transformações são:
- Converter features categóricas em numéricas
- Fazer normalização ou estandardização dos dados
- Fazer o tratamento de valores faltantes
- Etc...

Como exemplo, vamos fazer a conversão de features categóricas e o tratamento de valores faltantes:

#### **Tratamento de valores faltantes (missing values)**

Como pudemos observar nas descrições acima, há casos de passageiros sem informação sobre suas idades. Podemos substituir esses valores faltantes pela mediana das idades:

In [0]:
#TODO

In [0]:
#TODO

Que outras abordagens poderíamos adotar para realizar essa substituição de valores faltantes?

#### **Conversão de features categóricas**

A feature que indica o gênero dos passageiros é categórica. Iremos transformá-la em uma feature numérica. Há diversas abordagens para realizar essa transformação:
- Uma delas é utilizando o [LabelEncoder](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.LabelEncoder.html)

- E outra delas é fazendo o [One-hot encoding](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.LabelEncoder.html)

Por exemplo, se tivéssemos a seguinte feature:

|renda|
|-----|
|alta |
|baixa|
|media|
|alta |

Com o LabelEncoder, teríamos o seguinte resultado:

|renda|
|-----|
|0 |
|1|
|2|
|0 |

Já com o One-hot enconding teríamos o seguinte resultado:

|renda_alta|renda_baixa|renda_media|
|-----|----|----|
|1 |0|0|
|0|1|0|
|0|0|1|
|1 |0|0|

No nosso caso, vamos utilizar o LabelEncoder:


In [0]:
from sklearn.preprocessing import LabelEncoder

#TODO

In [0]:
#TODO

### **Tarefinha pra casa**

![](https://media.giphy.com/media/geONXs3YIr0Aw/giphy.gif)

**Que outras transformaçõs poderíamos fazer em nosso conjunto de dados?**
- Criar categorias para a idade (criança, adulto, idoso, por exemplo)
- Criar uma feature para indicar o tamanho da família (soma das features `SibSp` e `Parch`)
- [Aqui](https://triangleinequality.wordpress.com/2013/09/08/basic-feature-engineering-with-the-titanic-data/) também algumas ideias de feature engineering para esse desafio

Tentem fazer algumas dessas transformações ou fazer outras que vocês acreditam que façam sentido :D 

## Treinamento
Agora que nosso conjunto de treinamento está bonitinho, vamos treinar o nosso primeiro modelo \o/

Antes de treinar o modelo, precisamos separar as features do nosso target (**tomar muito cuidado para não treinar o modelo com ele!!!**). 

Além disso, nessa primeira versão, vamos utilizar somente as 3 features que analisamos na aula:

In [0]:
#TODO

# nossas features

# nosso target

Uma outra coisa que precisamos fazer antes de treinar o modelo é separar o nosso conjunto de dados entre o **conjunto de treinamento** e o **conjunto de teste**. No nosso caso, vamos usar 75% do conjunto para treinamento e o restante para teste:

In [0]:
from sklearn.model_selection import train_test_split

# Separando os dados em treinamento e teste
#TODO

In [0]:
#TODO

In [0]:
#TODO


Esse nosso primeiro modelo será uma Árvore de decisão. O scikit-learn já contém uma implementação dela [aqui](https://scikit-learn.org/stable/modules/tree.html).



In [0]:
from sklearn.tree import DecisionTreeClassifier

#TODO 

# Instanciando o classificador

# Treinamento do modelo

**UHULLLLL! Temos nosso primeiro modelo de classificação \o/**

![](https://media.giphy.com/media/OU1marLMNNtnO/giphy.gif)

Vamos ver a carinha dela (esse código para visualização da árvore nós encontramos [aqui](https://www.kaggle.com/jlawman/complete-beginner-your-first-titanic-submission))? :)

In [0]:
# arquivo de texto que armazena a estrutura da nossa árvore de decisão
from sklearn.tree import export_graphviz
export_graphviz(model,out_file='titanic_tree.dot',feature_names=['Age', 'Sex', 'Pclass'],rounded=True,filled=True,class_names=['Sobreviveu','Não sobreviveu'])


In [0]:
!dot -Tpng titanic_tree.dot -o titanic_tree.png

Após converter o arquivo de texto, podemos visualizar a árvore abaixo. As cores ajudam a identificar a classificação dada pelo modelo:

- Nós ou folhas em azul significam que a nossa árvore de decisão acredita que o passageiro **NÃO SOBREVIVEU**
- Já nos nós e folhas em laranja, a árvore acha que o passageiro **SOBREVIVEU**

In [0]:
from IPython.core.display import Image, display
display(Image('titanic_tree.png', width=1900, unconfined=True))

**O que vocês acharam dessa árvore?**

## Avaliando nosso modelo

Agora precisamos avaliar se o modelo está bom ou não!

Para isso, precisamos utilizá-lo para realizar as predições para nosso conjunto de teste:

In [0]:
#TODO

Como a métrica de avaliação do Kaggle é a acurácia, vamos utilizá-la primeiro:

In [0]:
from sklearn.metrics import accuracy_score

In [0]:
#TODO

Outra avaliação que poderíamos fazer é utilizando uma matriz de confusão:

In [0]:
from sklearn.metrics import confusion_matrix
import itertools

In [0]:
# plota a matriz de confusão. Código retirado da documentação do próprio Sklearn
def plot_confusion_matrix(cm, classes,
                          normalize=False,
                          title='Matriz de confusão',
                          cmap=plt.cm.Blues):

    if normalize:
        cm = cm.astype('float') / cm.sum(axis=1)[:, np.newaxis]
    
    #plt.ylim(0.5, 0.5)
    plt.imshow(cm, interpolation='nearest', cmap=cmap)
    plt.title(title)
    plt.colorbar()
    tick_marks = np.arange(len(classes))
    plt.xticks(tick_marks, classes, rotation=45)
    plt.yticks(tick_marks, classes)
    plt.ylim(1.5, -0.5) 

    fmt = '.2f' if normalize else 'd'
    thresh = cm.max() / 2.
    for i, j in itertools.product(range(cm.shape[0]), range(cm.shape[1])):
        plt.text(j, i, format(cm[i, j], fmt),
                 horizontalalignment="center",
                 color="white" if cm[i, j] > thresh else "black")

    plt.ylabel('Classe real')
    plt.xlabel('Classe prevista')
    plt.tight_layout()

In [0]:
#TODO

## Predição


Agora que nosso modelo foi avaliado, vamos fazer as predições para o conjunto sem o target e fazer a [submissão para o Kaggle](https://www.kaggle.com/c/titanic/submit)? :D

![alt text](https://media.giphy.com/media/l4JySAWfMaY7w88sU/giphy.gif)

Antes de fazer as predições, precisamos fazer as mesmas transformações que fizemos no conjunto de treinamento durante a etapa de feature engineering:

In [0]:
# substituímos os valores faltantes pela mediana da idade do conjunto de treinamento
#TODO

In [0]:
# utilizamos o encoder que foi criado com base no conjunto de treinamento
#TODO

In [0]:
# realiza a predição para o conjunto de teste
#TODO

Para a submissão no Kaggle, além da predição, precisamos fornecer também o ID do passageiro:

In [0]:
# transformar o array em um DataFrame para concatenarmos como ID
#TODO

In [0]:
#TODO

In [0]:
#TODO

Se observarmos o resultado da acurácia no conjunto de treinamento, tivemos uma certa diminuição na acurácia do conjunto de teste. Por que isso ocorre?

 ![](https://hackernoon.com/hn-images/1*SBUK2QEfCP-zvJmKm14wGQ.png)

  
No nosso caso, o modelo sofreu **overfitting**. Isso também explica a alta complexidade da árvore. No caso da nossa árvore, é necessário podá-la para que ela possa **generalizar** o problema.

## Próximos passos

Ainda podemos melhorar **MUITO** o nosso modelo :) 

O que podemos fazer?

- Como pudemos ver, nossa árvore está sofreu overfitting. Podemos mudar diversos parâmetros da nossa árvore para evitar que isso aconteça. Alguns parâmetros que podemos alterar:
  - **max_depth** (profundidade máxima da árvore) - podemos determinar um valor para que ela não se aprofunde demais
  - **min_samples_split** (número mínimo de exemplos para dividir um nó interno) - podemos aumentar o número (o mínimo *default* é 2) para diminuir o número de divisões
  - **min_samples_leaf** (número mínimo de exemplos para que um nó seja uma folha) - podemos aumentar o número (o mínimo *default* é 1) para diminuir o número de folhas
- Podemos realizar outras transformações na etapa de feature engineering ou criar novas features
- Também podemos treinar o modelo adicionando as outras features que não vimos nessa aula. Talvez elas possam ajudar na predição ;)
- Além disso, é interessante ver as outras métricas de avaliação para entendermos melhor o nosso modelo e como podemos melhorá-lo!

### **Tarefinha pra casa**

![](https://media.giphy.com/media/geONXs3YIr0Aw/giphy.gif)


Tentem fazer algumas (ou todas) as sugestões feitas nesse notebook e fazer a submissão das predições no Kaggle novamente!  

Na próxima aula vocês nos contam se a acurácia do modelo melhorou :D 

![](https://media.giphy.com/media/3o7budMRwZvNGJ3pyE/giphy.gif)