# Esse notebook é uma continuação do Competição Kaggle - Titanic - Data Understanding

## Dentro desse segundo caderno, vamos começar a desenvolver o modelo de machine learning e criar o dataframe para submissão do desafio

In [37]:
#Criação e manipulação dos dataframes
import pandas as pd 

#Operações matemáticas
import numpy as np 

#Classificadores
from sklearn.neural_network import MLPClassifier
from xgboost import XGBClassifier
from sklearn.ensemble import BaggingClassifier, RandomForestClassifier, ExtraTreesClassifier
from catboost import CatBoostClassifier
from sklearn.linear_model import Perceptron, SGDClassifier, LogisticRegression
from sklearn.svm import SVC, LinearSVC
from sklearn.tree import DecisionTreeClassifier
from sklearn.naive_bayes import GaussianNB

#Separar os dataframes em treino e teste
from sklearn.model_selection import train_test_split, GridSearchCV, RandomizedSearchCV

#Métricas de qualidade do modelo 
from sklearn.metrics import accuracy_score

#Verificar o run time dos modelos
from time import time

## Importando os dados e realizando o tratamento deles

In [57]:
df_train = pd.read_csv('Data/train.csv')
df_test = pd.read_csv('Data/test.csv')

def limpar_dataframe(df):
    #Criando a nova coluna somando os irmãos/conjugues e pais/filhos
    df['Tamanho_Familia'] = df['SibSp'] + df['Parch']
    
    #Criando uma nova coluna para verificar quem estava sozinho
    df['Sozinho'] = df['Tamanho_Familia'].apply(lambda x: 1 if x == 0 else 0)
    
    #Completando os valores de embarque com a moda da coluna
    df['Embarked'].fillna(df['Embarked'].mode()[0], inplace=True)
    
    #Completando os valores de idade e preço com a mediana da coluna
    df['Age'].fillna(df['Age'].median(), inplace=True)
    df['Fare'].fillna(df['Fare'].median(), inplace=True)
    
    #Pegando apenas a letra da cabine
    df['Letra_Cabine'] = df['Cabin'].str[:1]
    
    #Criando uma coluna com apenas o titulo da pessoa
    df['Titulo'] = df['Name'].str.split(', ', expand=True)[1].str.split('.', expand=True)[0]
    #Pegando os titulos mais comuns e retirando o resto
    titulos = df['Titulo'].value_counts(ascending=False)[:4]
    #Deixando os titulos com poucos valores como Misc
    df['Titulo'] = df['Titulo'].apply(lambda x: x if x in titulos else 'Misc')
    
    #Removendo as colunas que não serão necessárias
    df.drop(columns=['Cabin', 'Name', 'Ticket'], inplace=True)
    
limpar_dataframe(df_train)
limpar_dataframe(df_test)

df_train = pd.get_dummies(df_train, columns=['Titulo', 'Embarked', 'Sex', 'Letra_Cabine'])
df_test = pd.get_dummies(df_test, columns=['Titulo', 'Embarked', 'Sex', 'Letra_Cabine'])

#Removendo a coluna da Cabine T pois não existe no conjunto de dados de teste e irá atrapalhar o modelo 
df_train.drop(columns=['Letra_Cabine_T', 'PassengerId'], inplace=True)

## Separando em treino/teste

In [39]:
X = df_train.drop(columns=['Survived'])
y = df_train['Survived']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.20, random_state=42)
X_test, X_validation, y_test, y_validation = train_test_split(X_test, y_test, test_size=0.50, random_state=42)

print(X_train.shape)
print(y_train.shape)
print(X_test.shape)
print(y_test.shape)
print(X_validation.shape)
print(y_validation.shape)

(712, 25)
(712,)
(89, 25)
(89,)
(90, 25)
(90,)


## Testando os diferentes classificadores

In [17]:
models = [
    RandomForestClassifier(),
    BaggingClassifier(),
    ExtraTreesClassifier(),
    Perceptron(),
    MLPClassifier(),
    SVC(),
    GaussianNB(),
    DecisionTreeClassifier(),
    XGBClassifier(),
    CatBoostClassifier(verbose=0),
    SGDClassifier(),
    LinearSVC(),
    LogisticRegression(),
]

accuracy = []
name = []
parameters = []
tempo = []

for model in models:
    
    tempo_inicial = time()
    
    clf = model.fit(X_train, y_train)
    y_pred = clf.predict(X_test)
    
    accuracy.append(accuracy_score(y_test, y_pred))
    name.append(model.__class__.__name__)
    parameters.append(model.get_params())
    
    tempo_final = time() - tempo_inicial
    tempo.append(tempo_final)
    
resultado = pd.DataFrame({'Nome': name,
                         'Accuracy': accuracy,
                         'Run Time': tempo,
                         'Parameters': parameters})

resultado.sort_values(by='Accuracy', ascending=False)



Unnamed: 0,Nome,Accuracy,Run Time,Parameters
0,RandomForestClassifier,0.865169,0.146141,"{'bootstrap': True, 'ccp_alpha': 0.0, 'class_w..."
9,CatBoostClassifier,0.865169,1.521597,{'verbose': 0}
12,LogisticRegression,0.865169,0.008712,"{'C': 1.0, 'class_weight': None, 'dual': False..."
4,MLPClassifier,0.853933,0.393292,"{'activation': 'relu', 'alpha': 0.0001, 'batch..."
8,XGBClassifier,0.853933,0.074017,"{'objective': 'binary:logistic', 'use_label_en..."
1,BaggingClassifier,0.842697,0.025009,"{'base_estimator': None, 'bootstrap': True, 'b..."
2,ExtraTreesClassifier,0.842697,0.102432,"{'bootstrap': False, 'ccp_alpha': 0.0, 'class_..."
7,DecisionTreeClassifier,0.842697,0.004001,"{'ccp_alpha': 0.0, 'class_weight': None, 'crit..."
10,SGDClassifier,0.842697,0.002,"{'alpha': 0.0001, 'average': False, 'class_wei..."
6,GaussianNB,0.831461,0.001,"{'priors': None, 'var_smoothing': 1e-09}"


## Tuning dos hiperparâmetros do CatBoost Classifier

#### Dicionário de cada valor ajustado pelo GridSearchCV 

iterations: número máximo de árvores que podem ser construídas <br>
learning_rate: velocidade que os pesos do modelo são atualizados após trabalhar em cada batch de amostras de treino [0.0 - 1.0] <br>
depth: profundidade da árvore, na maior parte dos casos, um bom valor está entre [1-10] <br>



In [36]:
%%time
parameters = {'iterations': [300,500,1000],
             'learning_rate': [0.01,0.02],
             'depth': [6,7,9,10],
             'l2_leaf_reg': [1,3,5,7,9,10]}

classifier = GridSearchCV(CatBoostClassifier(verbose=0), parameters, n_jobs=-1, verbose=2)
classifier.fit(X_train, y_train, eval_set=(X_validation, y_validation), use_best_model=True)
y_pred = classifier.predict(X_test)

print(accuracy_score(y_test, y_pred))
print(classifier.best_params_)

Fitting 5 folds for each of 144 candidates, totalling 720 fits
0.8764044943820225
{'depth': 7, 'iterations': 300, 'l2_leaf_reg': 10, 'learning_rate': 0.01}
CPU times: total: 6.27 s
Wall time: 20min 33s


## Escrevendo o dataframe de submissão do desafio com o CatBoost Classifier

In [59]:
X = df_train.drop(columns=['Survived'])
y = df_train['Survived']

X_test = df_test.drop(columns=['PassengerId'])

X_train, X_validation, y_train, y_validation = train_test_split(X, y, test_size=0.10, random_state=42)

classifier = CatBoostClassifier(depth=7, iterations=2000, l2_leaf_reg=10, eta=0.01, verbose=0)
classifier.fit(X_train, y_train, eval_set=(X_validation, y_validation), use_best_model=True)

y_pred = classifier.predict(X_test)

submissao = pd.DataFrame({
    'PassengerId': df_test['PassengerId'],
    'Survived': y_pred
})

submissao.to_csv('submission.csv', index=False)

In [60]:
submissao.sample(10)

Unnamed: 0,PassengerId,Survived
221,1113,0
366,1258,0
41,933,1
109,1001,0
18,910,1
327,1219,0
399,1291,0
246,1138,1
230,1122,0
319,1211,0
