### Pacotes Necessários

In [1]:
#### ------------------
## Manipulação de dados
#### ------------------
import pandas as pd

import warnings
warnings.simplefilter(action='ignore', category=FutureWarning)

#### ------------------
## Machine learning
#### ------------------
from sklearn import model_selection, metrics
from sklearn.svm import LinearSVC
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.linear_model import  LogisticRegression
import xgboost as xgb
from sklearn.ensemble import RandomForestClassifier
from sklearn.neural_network import MLPClassifier
from sklearn.model_selection import GridSearchCV

### Funções

In [2]:
##---------------------------------------------------------------------------------
# Função que processa o Algoritmo e retorna métricas para modelos de classificação
##---------------------------------------------------------------------------------
## cv = 10
## Determina a estratégia de divisão de validação cruzada.
## Especifica o número de folds a serem realizados.

## n_jobs = -1
## Número de jobs a serem executados em paralelo. 
## O treinamento do estimador e a previsão são paralelizados nas divisões de validação cruzada. 
## -1 significa usar todos os processadores.

def testing_models(algoritmo, X_train, y_train, vc):
    modelo = algoritmo.fit(X_train, y_train)
    
    train_pred = model_selection.cross_val_predict(algoritmo, X_train, y_train, cv = vc, n_jobs = -1)    
    acuracia = round(metrics.accuracy_score(y_train, train_pred), 4)
    f1 = round(metrics.f1_score(y_train, train_pred), 4)
    roc = round(metrics.roc_auc_score(y_train, train_pred), 4)
    
    return acuracia, f1, roc

### Carregando os dados de treino

In [3]:
## Lendo os dados de treino
train = pd.read_csv('C:/Users/clari/OneDrive/Documentos/python_codigos/titanic_project/data/titanic_train.csv', index_col=0)
train.head()

Unnamed: 0,Survived,Age_treated,SibSp,Parch,Fare_treated,Sex,Pclass_2,Pclass_3,Embarked_Q,Embarked_S
0,0,22,1,0,7.25,0,False,True,False,True
1,1,38,1,0,71.2833,1,False,False,False,False
2,1,26,0,0,7.925,1,False,True,False,True
3,1,35,1,0,53.1,1,False,False,False,True
4,0,35,0,0,8.05,0,False,True,False,True


In [4]:
### Separando X e y de treino
x_train = train.drop('Survived', axis = 1)
y_train = train['Survived']
x_train.head()

Unnamed: 0,Age_treated,SibSp,Parch,Fare_treated,Sex,Pclass_2,Pclass_3,Embarked_Q,Embarked_S
0,22,1,0,7.25,0,False,True,False,True
1,38,1,0,71.2833,1,False,False,False,False
2,26,0,0,7.925,1,False,True,False,True
3,35,1,0,53.1,1,False,False,False,True
4,35,0,0,8.05,0,False,True,False,True


### Testes com diversos modelos

In [5]:
##--------------------------
## Regressão Logística
##--------------------------
algoritmo = LogisticRegression(max_iter=1000)
vc = 10
acuracia, f1, roc = testing_models(algoritmo, x_train, y_train, vc)
print('Acurácia: ', acuracia)
print('F1-Score: ', f1)
print('Área sob a curva ROC: ', roc)

Acurácia:  0.8025
F1-Score:  0.7284
Área sob a curva ROC:  0.7813


In [6]:
##--------------------------
## KNN
##--------------------------
algoritmo = KNeighborsClassifier()
vc = 10
acuracia, f1, roc = testing_models(algoritmo, x_train, y_train, vc)
print('Acurácia: ', acuracia)
print('F1-Score: ', f1)
print('Área sob a curva ROC: ', roc)

Acurácia:  0.6958
F1-Score:  0.5772
Área sob a curva ROC:  0.6666


In [7]:
##--------------------------
## SVM
##--------------------------
## dual=False
## Selecione o algoritmo para resolver o problema de otimização dual ou primal. 
## Prefira dual=False quando n_samples > n_features. 
## dual="auto" escolherá o valor do parâmetro automaticamente, 
## com base nos valores de n_samples, n_features, loss, multi_class e penalização. 
## Se n_samples < n_features e o optmizer suportarem perda escolhida, multi_class e penalidade, 
## então dual será definido como True, caso contrário, será definido como False.

algoritmo = LinearSVC(dual=False)
vc = 10
acuracia, f1, roc = testing_models(algoritmo, x_train, y_train, vc)
print('Acurácia: ', acuracia)
print('F1-Score: ', f1)
print('Área sob a curva ROC: ', roc)

Acurácia:  0.8002
F1-Score:  0.727
Área sob a curva ROC:  0.78


In [8]:
##--------------------------
## Random Forest
##--------------------------
algoritmo = RandomForestClassifier()
vc = 10
acuracia, f1, roc = testing_models(algoritmo, x_train, y_train, vc)
print('Acurácia: ', acuracia)
print('F1-Score: ', f1)
print('Área sob a curva ROC: ', roc)

Acurácia:  0.8148
F1-Score:  0.7541
Área sob a curva ROC:  0.8007


In [9]:
##--------------------------
## Gradient Boost Trees
##--------------------------
algoritmo = GradientBoostingClassifier()
vc = 10
acuracia, f1, roc = testing_models(algoritmo, x_train, y_train, vc)
print('Acurácia: ', acuracia)
print('F1-Score: ', f1)
print('Área sob a curva ROC: ', roc)

Acurácia:  0.826
F1-Score:  0.7551
Área sob a curva ROC:  0.8021


In [10]:
##--------------------------
## XGBoost
##--------------------------
## objective -> Specify the learning task and the corresponding learning objective or a custom objective function to be used
## random_state -> Random number seed.
algoritmo = xgb.XGBClassifier(objective="binary:logistic", random_state=123)
vc = 10
acuracia, f1, roc = testing_models(algoritmo, x_train, y_train, vc)
print('Acurácia: ', acuracia)
print('F1-Score: ', f1)
print('Área sob a curva ROC: ', roc)

Acurácia:  0.8182
F1-Score:  0.7575
Área sob a curva ROC:  0.8034


In [11]:
##--------------------------
## MLP - Redes Neurais
##--------------------------
algoritmo = MLPClassifier(random_state=1,
                          hidden_layer_sizes = (1024,128),
                          solver = "adam", 
                          activation = "logistic",
                          max_iter=300).fit(x_train, y_train)
vc = 10
acuracia, f1, roc = testing_models(algoritmo, x_train, y_train, vc)
print('Acurácia: ', acuracia)
print('F1-Score: ', f1)
print('Área sob a curva ROC: ', roc)

Acurácia:  0.7621
F1-Score:  0.6748
Área sob a curva ROC:  0.7397


Os modelos que obtiveram uma performance melhor parecem ser o Gradient Boost Trees e o XGBoost. Os dois essencialemnte são o mesmo modelo, contudo o XGBoost possui algumas vantagens na velocidade de processamento, na performance do modelo e pela possiblidade de paralelizar. Ele segue construindo sequencialmente mais árvores de decisão, cada uma corrigindo o erro da árvore anterior até que uma condição de parada seja alcançada.

Além disso, ao comparar as métricas entre os dois modelos, percebe-se que o XGBoost possui uma área sob a curva ROC um pouco maior e o Gradient Boost Trees, uma acurácia maior. A acurácia pode ser fortemente influenciada por dados desbalanceados, sendo a área sob a curva ROC uma métrica mais confiável.
Sendo assim, optou-se por seguir com o modelo XGBoost por obter uma área superior sob a curva ROC.  Segue-se no processo de escolha dos melhores parâmetros para o modelo XGBoost.

In [22]:
##---------------------------------------------
## Some notes about tunning xgboost parameters
##---------------------------------------------

##------------------------------------------------------------------------------------
## max_depth:
## Shallow trees are expected to have poor performance because they capture few details 
## of the problem and are generally referred to as weak learners. Deeper trees generally 
## capture too many details of the problem and overfit the training dataset, limiting 
## the ability to make good predictions on new data.
##------------------------------------------------------------------------------------
## n_estimators:
## With boosted tree models, models are trained sequentially - where each subsequence 
## tree tries to correct for the errors made by the previous sequence of trees.
## The n_estimators_ parameter specifies how many sequential trees we want to make 
## that attempt to correct for prior trees.

##------------------------------------------------------------------------------------
## learning_rate:
## The learning_rate parameter (also referenced in XGboost documentation as eta) controls 
## the magnitude of change that is permitted from one tree to the next.


params = dict( 
    learning_rate = [0.001, 0.010, 0.100, 0.500], 
    max_depth = [3,5,7,9, 10],
    n_estimators = [n for n in range(50, 400, 50)],
)

In [23]:
###--------------------------
## Cross-Validation
###--------------------------
algoritmo = xgb.XGBClassifier(objective="binary:logistic",
                              seed=123)

xgb_cv = GridSearchCV(estimator = algoritmo, param_grid = params, cv = 10) 
xgb_cv.fit(x_train, y_train)

print(f"Melhor pontuação: {xgb_cv.best_score_}")
print(f"Melhores parâmetros: {xgb_cv.best_estimator_}")

Melhor pontuação: 0.8395380774032459
Melhores parâmetros: XGBClassifier(base_score=None, booster=None, callbacks=None,
              colsample_bylevel=None, colsample_bynode=None,
              colsample_bytree=None, device=None, early_stopping_rounds=None,
              enable_categorical=False, eval_metric=None, feature_types=None,
              gamma=None, grow_policy=None, importance_type=None,
              interaction_constraints=None, learning_rate=0.01, max_bin=None,
              max_cat_threshold=None, max_cat_to_onehot=None,
              max_delta_step=None, max_depth=9, max_leaves=None,
              min_child_weight=None, missing=nan, monotone_constraints=None,
              multi_strategy=None, n_estimators=100, n_jobs=None,
              num_parallel_tree=None, random_state=None, ...)


In [24]:
### Lendo os dados de teste para previsão
x_test = pd.read_csv('C:/Users/clari/OneDrive/Documentos/python_codigos/titanic_project/data/titanic_test.csv', index_col=0)

##Predição com dados de teste
y_pred = xgb_cv.predict(x_test)
print(y_pred)

[0 0 0 0 1 0 0 0 1 0 0 0 1 0 1 1 0 0 0 0 0 1 1 0 1 0 1 0 1 0 0 0 0 0 0 0 0
 0 0 1 0 1 0 1 1 0 0 0 1 0 0 0 1 1 0 0 0 0 0 1 0 0 0 1 0 1 1 0 0 1 1 0 0 0
 1 0 0 1 0 1 1 0 0 0 0 0 1 0 1 1 1 0 1 0 0 0 1 0 1 0 1 0 0 0 1 0 0 0 0 0 0
 1 1 1 1 0 0 1 0 1 1 0 1 0 0 1 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 1 0 0 0
 1 0 1 0 0 0 0 0 1 0 1 1 1 1 1 0 0 0 0 0 1 0 0 0 0 0 0 1 1 0 1 1 0 0 1 0 1
 0 1 0 0 0 0 0 0 0 1 0 1 1 0 0 1 1 0 1 0 0 0 0 1 0 0 0 0 1 0 0 1 0 1 0 1 0
 1 0 1 0 0 1 0 0 0 1 0 0 0 0 0 0 1 1 1 1 0 0 0 0 1 0 1 0 1 0 0 0 0 0 0 0 1
 0 0 0 1 1 0 0 0 0 0 0 0 0 1 1 0 1 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0
 1 0 0 0 0 0 0 0 1 1 0 1 0 0 0 0 0 0 1 1 0 0 0 0 0 0 0 1 1 0 1 0 0 0 1 0 0
 1 0 0 0 0 0 0 0 0 0 1 0 1 0 0 0 1 1 0 0 0 0 0 1 0 0 1 0 1 1 0 1 0 0 0 1 0
 0 1 0 0 1 1 0 0 0 0 0 0 1 1 0 1 0 0 0 0 0 1 0 0 0 1 0 1 0 0 1 0 1 0 0 0 0
 0 1 1 1 1 0 0 1 0 0 0]


O objetivo desse projeto não é participar do desafio kaggle, contudo optei por deixar aqui a etapa final de salvar o df no formato que o kaggle exige para envio do desafio.

In [25]:
## Lendo os dados originais de teste para trazer o PassengerId e concatenar com a previsão
test = pd.read_csv('C:/Users/clari/OneDrive/Documentos/python_codigos/titanic_project/data/test.csv')
# Salvar PassengerId para auxiliar na criação do arquivo que será enviado ao Kaggle
passengerId = test['PassengerId']
print(passengerId)

0       892
1       893
2       894
3       895
4       896
       ... 
413    1305
414    1306
415    1307
416    1308
417    1309
Name: PassengerId, Length: 418, dtype: int64


In [26]:
kaggle = pd.DataFrame({'PassengerId': passengerId, 'Survived': y_pred})
kaggle.head()

Unnamed: 0,PassengerId,Survived
0,892,0
1,893,0
2,894,0
3,895,0
4,896,1


In [27]:
### Salvando o conjunto de dados
kaggle.to_csv('C:/Users/clari/OneDrive/Documentos/python_codigos/titanic_project/data/kaggle.csv')