# **Exercicio Duelo de Modelos 4**

Nesta tarefa, vocês irão criar o seu próprio duelo de modelos, com o objetivo de superar os resultados apresentados em aula. O desafio é alcançar um desempenho superior ao que obtivemos, e para isso, será necessário aplicar todas as melhorias que vocês aprenderam ao longo dos módulos, utilizando a base de dados do Titanic.

**1. Escolha do Modelo:**
Selecione um dos modelos que foram explorados nos duelos de modelos ao longo do curso. Pode ser SVM, Random Forest, XGBoost, ou qualquer outro que tenhamos abordado.

**2. Aperfeiçoamento:**
**Aplique as técnicas que aprendemos para melhorar o desempenho do seu modelo:**

**Hiperparâmetros:** Utilize GridSearchCV ou RandomSearchCV para encontrar os melhores parâmetros.

**Cross Validation:** Avalie a robustez do modelo utilizando validação cruzada para garantir que ele generaliza bem.

**Balanceamento de Classes:** Se o seu modelo lida com problemas de classes desbalanceadas, explore técnicas como SMOTE, undersampling ou oversampling.

**Padronização e Normalização:** Lembre-se de padronizar os dados, especialmente se for usar modelos que são sensíveis à escala das variáveis.

**3. Submissão no Kaggle:**
Treine o seu modelo com os dados de treino e gere as previsões para os dados de teste. Lembre-se de que o conjunto de teste não possui a variável alvo (y_test), pois a avaliação será feita com base nas submissões no Kaggle.
Submeta suas previsões na competição do Titanic no Kaggle.

**4. Entrega:**
Envie o código que você desenvolveu, detalhando cada etapa do seu processo de modelagem, explicando as escolhas feitas e como essas ajudaram a melhorar o modelo.

Junto com o código, envie um print do seu score obtido na plataforma do Kaggle. Esse score será a sua métrica final de avaliação, mostrando como o seu modelo se compara com os demais.

**5. Competição Saudável:**
A ideia é trazer um senso de competição saudável, então não vale replicar exatamente o que fizemos na aula! Inove, explore novas combinações de parâmetros e técnicas, e mostre do que é capaz. O importante é exercitar o pensamento crítico e a capacidade de experimentar.

**Dicas Finais:**

Seja criativo e tenha um olhar crítico sobre o que pode ser melhorado.
Teste diferentes abordagens e não se prenda a um único caminho.
Lembre-se de que, mais do que alcançar o melhor score, o objetivo é aprender e aplicar o conhecimento de forma prática e eficaz.
Boa sorte! Estamos ansiosos para ver como cada um de vocês vai se sair nesse desafio e quais insights irão surgir dessa competição!

Ao final dessa atividade vocês terão participado da primeira competição publica de ciência de dados de vocês = )




In [147]:
# Bibliotecas para manipulação de dados
import pandas as pd
import numpy as np

# Bibliotecas para visualização de dados
import matplotlib.pyplot as plt
import seaborn as sns

# Bibliotecas para pré-processamento e divisão de dados
from sklearn.preprocessing import StandardScaler
from imblearn.over_sampling import SMOTE

# Bibliotecas para os modelos de machine learning
import xgboost as xgb
from sklearn.model_selection import GridSearchCV, StratifiedKFold

# Bibliotecas para métricas de avaliação
from sklearn.metrics import make_scorer, accuracy_score, classification_report

### Tratamento dos dados

In [148]:
# Carregar os dados
train_df = pd.read_csv('train.csv')
test_df = pd.read_csv('test.csv')

In [149]:
# Mostrar as primeiras linhas do DataFrame de treino
train_df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [150]:
# Mostrar as primeiras linhas do DataFrame de teste
test_df.head()

Unnamed: 0,PassengerId,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,892,3,"Kelly, Mr. James",male,34.5,0,0,330911,7.8292,,Q
1,893,3,"Wilkes, Mrs. James (Ellen Needs)",female,47.0,1,0,363272,7.0,,S
2,894,2,"Myles, Mr. Thomas Francis",male,62.0,0,0,240276,9.6875,,Q
3,895,3,"Wirz, Mr. Albert",male,27.0,0,0,315154,8.6625,,S
4,896,3,"Hirvonen, Mrs. Alexander (Helga E Lindqvist)",female,22.0,1,1,3101298,12.2875,,S


In [None]:
# Preenchendo valores nulos em Age e Fare com a mediana
age_median = train_df['Age'].median()
fare_median = train_df['Fare'].median()

train_df.fillna({'Age': age_median, 'Fare': fare_median}, inplace=True)
test_df.fillna({'Age': age_median, 'Fare': fare_median}, inplace=True)

In [152]:
# Para a variável 'Sex', usamos Label Encoding pois é uma variável categórica binária
train_df['Sex'] = train_df['Sex'].map({'male': 0, 'female': 1})
test_df['Sex'] = test_df['Sex'].map({'male': 0, 'female': 1})

In [None]:
# Vou usar a Variável Pclass, passageiros da 1ª classe tiveram maior chance de sobrevivência
train_df = pd.get_dummies(train_df, columns=['Pclass'], prefix='Pclass')
test_df = pd.get_dummies(test_df, columns=['Pclass'], prefix='Pclass')

In [None]:
# Criando variáveis adicionais (tamanho da família e se está sozinho) pois podem influenciar na sobrevivência do passageiro
train_df['FamilySize'] = train_df['SibSp'] + train_df['Parch'] + 1
test_df['FamilySize'] = test_df['SibSp'] + test_df['Parch'] + 1
train_df['IsAlone'] = (train_df['FamilySize'] == 1).astype(int)
test_df['IsAlone'] = (test_df['FamilySize'] == 1).astype(int)

In [None]:
# Avaliando os ds após as transformações
test_df.head()

Unnamed: 0,PassengerId,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Pclass_1,Pclass_2,Pclass_3,FamilySize,IsAlone
0,892,"Kelly, Mr. James",0,34.5,0,0,330911,7.8292,,Q,False,False,True,1,1
1,893,"Wilkes, Mrs. James (Ellen Needs)",1,47.0,1,0,363272,7.0,,S,False,False,True,2,0
2,894,"Myles, Mr. Thomas Francis",0,62.0,0,0,240276,9.6875,,Q,False,True,False,1,1
3,895,"Wirz, Mr. Albert",0,27.0,0,0,315154,8.6625,,S,False,False,True,1,1
4,896,"Hirvonen, Mrs. Alexander (Helga E Lindqvist)",1,22.0,1,1,3101298,12.2875,,S,False,False,True,3,0


In [156]:
# Variáveis selecionadas para o modelo
variaveis = ['Sex', 'Fare', 'Age', 'FamilySize', 'IsAlone', 
             'Pclass_1', 'Pclass_2', 'Pclass_3']

In [157]:
# Separando as variáveis dependentes (Y) e independentes (X) no conjunto de treino
X = train_df[variaveis]
y = train_df['Survived']

X_test = test_df[variaveis]

#### Escolhi o XGBoost pois creio que há um grande espaço para melhoria do modelo nesse cenário.

### Testando o modelo puro sem alterações

In [None]:
xgboost_teste1 = xgb.XGBClassifier()

In [159]:
xgboost_teste1.fit(X, y)

In [160]:
y_pred_xgboost_teste1 = xgboost_teste1.predict(X)

In [161]:
relatorio = classification_report(y, y_pred_xgboost_teste1)
print("Relatório de Classificação:")
print(relatorio)

Relatório de Classificação:
              precision    recall  f1-score   support

           0       0.96      0.98      0.97       549
           1       0.97      0.93      0.95       342

    accuracy                           0.96       891
   macro avg       0.96      0.95      0.96       891
weighted avg       0.96      0.96      0.96       891



### Testando o modelo com padronização e balanceamento

In [162]:
# Balanceando os dados com SMOTE
smote = SMOTE(random_state=42)
X_train_balanced, Y_train_balanced = smote.fit_resample(X, y)

In [163]:
# Padronizando os dados
scaler = StandardScaler()
# Ajustando e transformando os dados de treino balanceados
X_train_balanced_scaled = scaler.fit_transform(X_train_balanced)
X_test_scaled = scaler.transform(X_test)

In [164]:
xgboost_teste2 = xgb.XGBClassifier()

In [165]:
xgboost_teste2.fit(X_train_balanced_scaled, Y_train_balanced)

In [166]:
y_pred_xgboost_teste2 = xgboost_teste2.predict(X_train_balanced_scaled)

In [167]:
relatorio = classification_report(Y_train_balanced, y_pred_xgboost_teste2)
print("Relatório de Classificação:")
print(relatorio)

Relatório de Classificação:
              precision    recall  f1-score   support

           0       0.96      0.97      0.97       549
           1       0.97      0.96      0.97       549

    accuracy                           0.97      1098
   macro avg       0.97      0.97      0.97      1098
weighted avg       0.97      0.97      0.97      1098



### Testando o modelo com padronização, balanceamento e buscando os melhores hiperparâmetros.

In [168]:
xgboost_teste3 = xgb.XGBClassifier(
    use_label_encoder=False,
    eval_metric='logloss',
)

In [169]:
# Parâmetros para testar no GridSearch
param_grid = {
    'n_estimators': [100, 300, 500, 700],
    'max_depth': [3, 4, 5, 6],
    'learning_rate': [0.01, 0.05, 0.1],
    'subsample': [0.7, 0.8, 0.9, 1.0],
    'colsample_bytree': [0.7, 0.8, 0.9, 1.0],
    'min_child_weight': [1, 3, 5],
    'gamma': [0, 0.1, 0.2],
    'reg_alpha': [0, 0.01, 0.1],
    'reg_lambda': [1, 1.5, 2]
}

In [170]:
# Estratégia de CV
cv = StratifiedKFold(n_splits=5, shuffle=True)

In [171]:
# GridSearch
grid_search = GridSearchCV(
    estimator=xgboost_teste3,
    param_grid=param_grid,
    scoring=make_scorer(accuracy_score),
    cv=cv,
    verbose=2,
    n_jobs=-1
)

In [172]:
# Treinando o GridSearch nos dados balanceados
grid_search.fit(X_train_balanced_scaled, Y_train_balanced)

Fitting 5 folds for each of 62208 candidates, totalling 311040 fits


Parameters: { "use_label_encoder" } are not used.

  bst.update(dtrain, iteration=i, fobj=obj)


In [173]:
# Melhor score e parâmetros
print("Melhor acurácia:", grid_search.best_score_)
print("Melhores parâmetros:", grid_search.best_params_)

Melhor acurácia: 0.8406351183063512
Melhores parâmetros: {'colsample_bytree': 1.0, 'gamma': 0.2, 'learning_rate': 0.1, 'max_depth': 5, 'min_child_weight': 5, 'n_estimators': 500, 'reg_alpha': 0, 'reg_lambda': 1, 'subsample': 0.7}


In [174]:
# Treinar modelo final com os melhores parâmetros
best_xgb = grid_search.best_estimator_
best_xgb.fit(X_train_balanced_scaled, Y_train_balanced)

Parameters: { "use_label_encoder" } are not used.

  bst.update(dtrain, iteration=i, fobj=obj)


In [175]:
y_pred_teste3_xgboost = best_xgb.predict(X_train_balanced_scaled)

In [176]:
# Fazer predição no teste
relatorio = classification_report(Y_train_balanced, y_pred_teste3_xgboost)
print("Relatório de Classificação:")
print(relatorio)

Relatório de Classificação:
              precision    recall  f1-score   support

           0       0.92      0.94      0.93       549
           1       0.94      0.91      0.93       549

    accuracy                           0.93      1098
   macro avg       0.93      0.93      0.93      1098
weighted avg       0.93      0.93      0.93      1098



### Submit com o modelo best_xgb

In [180]:
Y_xgboost = best_xgb.predict(X_test_scaled)

In [181]:
Y_xgboost

array([0, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 1, 0, 1, 1, 0, 0, 1, 0, 0, 0,
       1, 1, 1, 0, 1, 0, 1, 0, 0, 0, 1, 0, 1, 0, 0, 0, 0, 1, 0, 1, 0, 1,
       1, 0, 0, 0, 1, 1, 1, 0, 1, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 0, 1,
       1, 0, 0, 1, 1, 0, 1, 0, 1, 1, 0, 1, 0, 1, 1, 0, 0, 0, 0, 0, 1, 1,
       1, 1, 0, 0, 1, 0, 0, 0, 1, 1, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0,
       0, 1, 1, 1, 1, 0, 0, 1, 1, 1, 1, 0, 1, 0, 0, 1, 0, 1, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 0, 0, 1, 0, 1, 0, 0, 0,
       0, 0, 1, 0, 1, 0, 1, 1, 1, 0, 0, 1, 0, 0, 1, 0, 0, 1, 0, 0, 0, 1,
       1, 1, 1, 1, 0, 1, 1, 0, 1, 0, 1, 1, 0, 0, 0, 0, 1, 0, 1, 0, 1, 0,
       0, 0, 1, 1, 0, 1, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0, 0, 1, 0, 1, 0,
       1, 0, 1, 0, 1, 1, 0, 1, 0, 0, 0, 1, 0, 0, 1, 0, 1, 0, 1, 1, 1, 1,
       0, 0, 0, 0, 1, 0, 1, 0, 1, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 1,
       0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 1, 0, 0, 0, 0, 0, 1, 1, 1, 1, 0,
       0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0,

In [182]:
sub_best_xgboost = pd.Series(Y_xgboost, index=test_df['PassengerId'], name = 'Survived')

In [183]:
sub_best_xgboost

PassengerId
892     0
893     0
894     0
895     0
896     1
       ..
1305    0
1306    1
1307    0
1308    0
1309    0
Name: Survived, Length: 418, dtype: int32

In [184]:
sub_best_xgboost.to_csv("xgboost2.csv" , header=True)

### Submit com o modelo xgboost_teste2

In [185]:
Y_xgboost2 = xgboost_teste2.predict(X_test_scaled)

In [186]:
Y_xgboost2

array([0, 0, 0, 1, 1, 0, 0, 0, 1, 0, 0, 0, 1, 0, 1, 1, 0, 0, 1, 0, 0, 1,
       1, 0, 1, 0, 1, 0, 1, 0, 0, 0, 1, 0, 1, 0, 0, 0, 0, 1, 0, 1, 0, 1,
       1, 0, 0, 0, 1, 1, 1, 0, 1, 1, 0, 0, 0, 0, 0, 1, 0, 1, 0, 1, 0, 1,
       1, 0, 0, 1, 1, 0, 1, 0, 1, 1, 0, 1, 0, 1, 1, 0, 1, 0, 0, 0, 1, 1,
       1, 1, 1, 0, 1, 0, 0, 0, 1, 1, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0,
       0, 1, 1, 1, 1, 0, 0, 1, 1, 1, 1, 0, 1, 0, 0, 1, 0, 1, 1, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 0, 0, 1, 0, 1, 0, 0, 0,
       0, 0, 1, 0, 1, 0, 1, 1, 1, 0, 0, 1, 0, 0, 1, 0, 0, 1, 0, 0, 0, 1,
       1, 0, 1, 1, 0, 0, 1, 0, 1, 0, 1, 1, 0, 0, 0, 0, 1, 0, 1, 0, 1, 0,
       0, 0, 1, 1, 0, 1, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0, 0, 1, 0, 1, 0,
       1, 0, 1, 1, 1, 0, 0, 1, 0, 0, 0, 1, 0, 0, 1, 0, 0, 1, 1, 1, 0, 1,
       0, 0, 0, 0, 1, 0, 1, 0, 1, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 1,
       0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 1, 0, 0, 0, 0, 0, 1, 1, 0, 1, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0,

In [192]:
sub_best_xgboost2 = pd.Series(Y_xgboost2, index=test_df['PassengerId'], name = 'Survived')

In [193]:
sub_best_xgboost2

PassengerId
892     0
893     0
894     0
895     1
896     1
       ..
1305    0
1306    1
1307    0
1308    0
1309    0
Name: Survived, Length: 418, dtype: int32

In [194]:
sub_best_xgboost2.to_csv("xgboost3.csv" , header=True)