# Titanic - Machine Learning from Disaster

<img src="https://storage.googleapis.com/kaggle-competitions/kaggle/3136/logos/header.png" width=900>

- Vamos utilizar os [dados disponíveis no Kaggle](https://www.kaggle.com/competitions/titanic)
    - É um dataset de **competição**
    - O resultado é avaliado através da **acurácia**:
        - _"Sua pontuação é a porcentagem de passageiros que você prevê corretamente. Isso é conhecido como acurácia."_

### Importando novamente as bases e fazendo o tratamento dos dados
- Vamos apenas replicar o que fizemos no **[primeiro](https://github.com/lucaslealx/Titanic/blob/main/Parte1.ipynb)**, **[segundo](https://github.com/lucaslealx/Titanic/blob/main/Parte2.ipynb)** e **[terceiro](https://github.com/lucaslealx/Titanic/blob/main/Parte3.ipynb)** arquivo dessa análise (para visualizar os arquivos completos, visite esse link)

In [None]:
# Importando o pandas
import pandas as pd

In [None]:
# Visualizando a base de treino
treino = pd.read_csv('train.csv')
treino.head(3)

In [None]:
# Visualizando a base de teste
teste = pd.read_csv('test.csv')
teste.head(3)

- Fazendo o mesmo tratamento inicial que fizemos nas colunas vazias

In [None]:
# Eliminando as colunas com elevada cardinalidade
treino = treino.drop(['Name','Ticket','Cabin'],axis=1)
teste = teste.drop(['Name','Ticket','Cabin'],axis=1)

In [None]:
# Usando a média para substituir valores nulos na coluna de idade
treino.loc[treino.Age.isnull(),'Age'] = treino.Age.mean()
teste.loc[teste.Age.isnull(),'Age'] = teste.Age.mean()

In [None]:
# Tratando a coluna Embarked da base de treino usando a moda 
treino.loc[treino.Embarked.isnull(),'Embarked'] = treino.Embarked.mode()[0]

In [None]:
# E também a coluna Fare da base de teste usando a média
teste.loc[teste.Fare.isnull(),'Fare'] = teste.Fare.mean()

- E fazendo a engenharia de variáveis dos nossos dados

In [None]:
# Usando uma lambda function para tratar a coluna "Sex"
treino['MaleCheck'] = treino.Sex.apply(lambda x: 1 if x == 'male' else 0)
teste['MaleCheck'] = teste.Sex.apply(lambda x: 1 if x == 'male' else 0)

In [None]:
# Fazendo o RobustScaler das colunas Age e Fare
from sklearn.preprocessing import RobustScaler
transformer = RobustScaler().fit(treino[['Age','Fare']])
treino[['Age','Fare']] = transformer.transform(treino[['Age','Fare']])

# e para a base de teste
transformer = RobustScaler().fit(teste[['Age','Fare']])
teste[['Age','Fare']] = transformer.transform(teste[['Age','Fare']])

In [None]:
# Adicionando a coluna sozinho
def sozinho(a,b):
    if (a == 0 and b == 0):
        return 1
    else:
        return 0
    
treino['Sozinho'] = treino.apply(lambda x: sozinho(x.SibSp,x.Parch),axis=1)
teste['Sozinho'] = teste.apply(lambda x: sozinho(x.SibSp,x.Parch),axis=1)

In [None]:
# E criando a coluna de familiares
treino['Familiares'] = treino.SibSp + treino.Parch
teste['Familiares'] = treino.SibSp + treino.Parch

In [None]:
# Fazendo o OrdinalEncoder para a coluna Embarked
from sklearn.preprocessing import OrdinalEncoder
categorias = ['S','C','Q']

enc = OrdinalEncoder(categories=[categorias],dtype='int32')
enc = enc.fit(treino[['Embarked']])
treino['Embarked'] = enc.transform(treino[['Embarked']])

teste['Embarked'] = enc.transform(teste[['Embarked']])

In [None]:
# Apagando as colunas de texto
treino = treino.drop('Sex',axis=1)
teste = teste.drop('Sex',axis=1)

- Visualizando a base resultante

In [None]:
# Visualizando a base de treino
treino.head(3)

### Podemos utilizar outros modelos para fazer a previsão

- Podemos selecionar algoritmos diferentes dos que vimos nas partes anteriores (consulte arquivo da **[parte 1](https://github.com/lucaslealx/Titanic/blob/main/Parte1.ipynb)**) considerando os (outros algoritmos disponíveis no scikit-learn](https://scikit-learn.org/stable/supervised_learning.html#supervised-learning)
    - **Regressão Logística**
        - https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html#sklearn.linear_model.LogisticRegression
    - **Random Forest**
        - https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier.html#sklearn.ensemble.RandomForestClassifier
    - **MLPClassifier (Redes Neurais)**
        - https://scikit-learn.org/stable/modules/generated/sklearn.neural_network.MLPClassifier.html#sklearn.neural_network.MLPClassifier


- Agora, **além do train_test_split**:
    - https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html
- Vamos usar também o **grid_search** para estimar os melhores parâmetros
    - https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.GridSearchCV.html

In [None]:
# Importando o train_test_split

In [None]:
# Separando a base de treino em X e y

In [None]:
# Separando em treino e validação

- Para a **Regressão Logística**

In [None]:
# Importando

In [None]:
# Criando o classificador

In [None]:
# Definindo os parâmetros

- Para o **Random Forest**

In [None]:
# Importando

In [None]:
# Criando o classificador

In [None]:
# Definindo os parâmetros

- E para o **MLPClassifier (Redes Neurais)**

In [None]:
# Importando

In [None]:
# Criando o classificador

In [None]:
# Definindo os parâmetros

- **Fazendo o grid_search**

In [None]:
# Ignorando os avisos

In [None]:
# Importando o datetime para visualizar a hora atual

In [None]:
# Importando o KFold e o GridSearchCV

In [None]:
# Para a Regressão Logística

In [None]:
# Para o RandomForest

In [None]:
# Para o MLPClassifier

- **Verificando os melhores scores**

In [None]:
# Verificando o melhor score da regressão logística

In [None]:
# Para o RandomForest

In [None]:
# e para o MLPClassifier

- **E os melhores parâmetros**

In [None]:
# Verificando os melhores parâmetros da regressão logística

In [None]:
# Para o RandomForest

In [None]:
# e para o MLPClassifier

- **Fazendo a previsão nos dados de validação com cada um dos melhores modelos**

In [None]:
# Para a regressão logística

In [None]:
# Para o RandomForest

In [None]:
# e para o MLPClassifier

- Vamos novamente **avaliar os modelos**
    - Acurácia (método de avaliação usado na competição):
        - https://scikit-learn.org/stable/modules/generated/sklearn.metrics.accuracy_score.html
    - Matriz de confusão (ajuda a visualizar a distribuição dos erros):
        - https://scikit-learn.org/stable/modules/generated/sklearn.metrics.confusion_matrix.html

- Avaliando a **acurácia**

In [None]:
# Importando
from sklearn.metrics import accuracy_score

In [None]:
# Para a Regressão Logística
accuracy_score(y_val, y_pred_rl)

In [None]:
# Para o Random Forest
accuracy_score(y_val, y_pred_rf)

In [None]:
# Para o MLPClassifier (Redes Neurais)
accuracy_score(y_val, y_pred_mlp)

- Avaliando a **matriz de confusão**

In [None]:
# Importando
from sklearn.metrics import confusion_matrix

In [None]:
# Para a Regressão Logística
confusion_matrix(y_val, y_pred_rl)

In [None]:
# Para o Random Forest
confusion_matrix(y_val, y_pred_rf)

In [None]:
# Para o MLPClassifier (Redes Neurais)
confusion_matrix(y_val, y_pred_mlp)

### Fazendo a previsão para os dados de teste
- Vamos usar o modelo com melhor precisão para fazer o predict na base de teste

In [None]:
# Visualizando o X_train
X_train.head(3)

In [None]:
# Visualizando a base de teste
teste.head(3)

In [None]:
# Para a base de teste ser igual a base de treino, precisamos eliminar a coluna de id
X_teste = teste.drop('PassengerId',axis=1)

In [None]:
# Utilizando o melhor modelo na base de teste

In [None]:
# Criando uma nova coluna com a previsão na base de teste
teste['Survived'] = y_pred

In [None]:
# Selecionando apenas a coluna de Id e Survived para fazer o envio
base_envio = teste[['PassengerId','Survived']]

In [None]:
# Exportando para um csv
base_envio.to_csv('resultados10.csv',index=False)