# Titanic - Machine Learning from Disaster

<img src="https://storage.googleapis.com/kaggle-competitions/kaggle/3136/logos/header.png" width=900>

- Vamos utilizar os [dados disponíveis no Kaggle](https://www.kaggle.com/competitions/titanic)
    - É um dataset de **competição**
    - O resultado é avaliado através da **acurácia**:
        - _"Sua pontuação é a porcentagem de passageiros que você prevê corretamente. Isso é conhecido como acurácia."_

### Importando novamente as bases e fazendo o tratamento dos dados
- Vamos apenas replicar o que fizemos no **[primeiro arquivo dessa análise](https://github.com/lucaslealx/Titanic/blob/main/Parte1.ipynb)** (para visualizar a parte 1 completa, visite esse link)

In [None]:
# Importando o pandas
import pandas as pd

In [None]:
# Visualizando a base de treino
treino = pd.read_csv('train.csv')
treino.head(3)

In [None]:
# Visualizando a base de teste
teste = pd.read_csv('test.csv')
teste.head(3)

- **Fazendo o mesmo tratamento inicial que fizemos na aula anterior**

In [None]:
# Eliminando as colunas com elevada cardinalidade
treino = treino.drop(['Name','Ticket','Cabin'],axis=1)
teste = teste.drop(['Name','Ticket','Cabin'],axis=1)

In [None]:
# Usando a média para substituir valores nulos na coluna de idade
treino.loc[treino.Age.isnull(),'Age'] = treino.Age.mean()
teste.loc[teste.Age.isnull(),'Age'] = teste.Age.mean()

In [None]:
# Tratando a coluna Embarked da base de treino usando a moda 
treino.loc[treino.Embarked.isnull(),'Embarked'] = treino.Embarked.mode()[0]

In [None]:
# E também a coluna Fare da base de teste usando a média
teste.loc[teste.Fare.isnull(),'Fare'] = teste.Fare.mean()

### Podemos agora entender as colunas de texto
- Vamos agora **adicionar um novo tratamento das colunas de texto**

In [None]:
# Verificando as colunas de texto na base de treino

In [None]:
# Verificando os valores na coluna Sex

In [None]:
# e na coluna Embarked

- Para tratar a coluna Sex, podemos criar uma nova coluna chamada **"Male_Check"** que **vai receber 1 se o gênero for masculino e 0 se o gênero for feminino**

In [None]:
# Usando uma lambda function para fazer esse tratamento

In [None]:
# Verificando os valores

- O próximo passo é fazer o mesmo para a base de teste

In [None]:
# Usando uma lambda function para fazer esse tratamento

In [None]:
# Verificando os valores

- Agora, para tratar a coluna **Embarked** usando o **[OneHotEncoder](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.OneHotEncoder.html)** que irá **criar uma nova coluna para cada um dos rótulos da coluna original**

In [None]:
# Importando o OneHotEncoder

In [None]:
# Criando o encoder

In [None]:
# Fazendo o fit com os dados

In [None]:
# Fazendo a transformação

In [None]:
# Transformando esse resultado em um DataFrame

In [None]:
# Podemos agora adicionar essa coluna na nossa base de teste

In [None]:
# Verificando os valores

- Agora vamos **fazer o mesmo para a base de teste usando o encoder ohe que criamos acima**

In [None]:
# Transformando esse resultado em um DataFrame

In [None]:
# Adicionando o resultado na base de teste

In [None]:
# Verificando também os valores

### Usando essa nova base no modelo

In [None]:
# Visualizando a base

In [None]:
# Podemos então apagar essas duas colunas que já tratamos

- Podemos selecionar os mesmos modelos que vimos anteriormente (consulte arquivo da **[parte 1](https://github.com/lucaslealx/Titanic/blob/main/Parte1.ipynb)**)
    - **Árvore de classificação**
        - https://scikit-learn.org/stable/modules/tree.html#classification
    - **Classificação dos vizinhos mais próximos**
        - https://scikit-learn.org/stable/modules/generated/sklearn.neighbors.KNeighborsClassifier.html#sklearn.neighbors.KNeighborsClassifier
    - **Regressão Logística**
        - https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html#sklearn.linear_model.LogisticRegression
- Antes de usar os algoritmos, precisamos separar a base de treino em **treino e validação**
    - Vamos fazer isso utilizando o **train_test_split**
        - https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html

In [None]:
# Importando o train_test_split
from sklearn.model_selection import train_test_split

In [None]:
# Separando a base de treino em X e y
X = treino.drop(['PassengerId','Survived'],axis=1)
y = treino.Survived

In [None]:
# Separando em treino e validação
X_train, X_val, y_train, y_val = train_test_split(X, y, test_size=0.33, random_state=42)

- Para a **árvore de classificação**

In [None]:
# Fazendo a importação
from sklearn import tree

In [None]:
# Criando o classificador
clf_ac = tree.DecisionTreeClassifier(random_state=42)

In [None]:
# Fazendo o fit com os dados
clf_ac = clf_ac.fit(X_train,y_train)

In [None]:
# Fazendo a previsão
y_pred_ac = clf_ac.predict(X_val)

- Para o **KNeighborsClassifier**

In [None]:
# Importando
from sklearn.neighbors import KNeighborsClassifier

In [None]:
# Criando o classificador
clf_knn = KNeighborsClassifier(n_neighbors=3)

In [None]:
# Fazendo o fit com os dados
clf_knn = clf_knn.fit(X_train,y_train)

In [None]:
# Fazendo a previsão
y_pred_knn = clf_knn.predict(X_val)

- E para a **Regressão Logística**

In [None]:
# Importando
from sklearn.linear_model import LogisticRegression

In [None]:
# Criando o classificador
clf_rl = LogisticRegression(random_state=42,max_iter=1000)

In [None]:
# Fazendo o fit com os dados
clf_rl = clf_rl.fit(X_train,y_train)

In [None]:
# Fazendo a previsão
y_pred_rl = clf_rl.predict(X_val)

- Vamos novamente **avaliar os modelos**
    - Acurácia (método de avaliação usado na competição):
        - https://scikit-learn.org/stable/modules/generated/sklearn.metrics.accuracy_score.html
    - Matriz de confusão (ajuda a visualizar a distribuição dos erros):
        - https://scikit-learn.org/stable/modules/generated/sklearn.metrics.confusion_matrix.html

- Avaliando a **acurácia**

In [None]:
# Importando
from sklearn.metrics import accuracy_score

In [None]:
# Para a árvore
accuracy_score(y_val, y_pred_ac)

In [None]:
# Para o knn
accuracy_score(y_val, y_pred_knn)

In [None]:
# Para a regressão logística
accuracy_score(y_val, y_pred_rl)

- Avaliando a **matriz de confusão**

In [None]:
# Importando
from sklearn.metrics import confusion_matrix

In [None]:
# Para a árvore
confusion_matrix(y_val, y_pred_ac)

In [None]:
# Para o knn
confusion_matrix(y_val, y_pred_knn)

In [None]:
# Para a regressão logística
confusion_matrix(y_val, y_pred_rl)

### Fazendo a previsão para os dados de teste
- Vamos usar o modelo com melhor precisão para fazer o predict na base de teste

In [None]:
# Visualizando o X_train

In [None]:
# Visualizando a base de teste

In [None]:
# Para a base de teste ser igual a base de treino, precisamos eliminar a coluna de id

In [None]:
# Utilizando a regressão logística na base de teste

In [None]:
# Criando uma nova coluna com a previsão na base de teste

In [None]:
# Selecionando apenas a coluna de Id e Survived para fazer o envio

In [None]:
# Exportando para um csv