# XGBoost (eXtreme Gradient Boosting)
O __XGBoost__ é um algoritmo baseado em árvores de decisão. É um algoritmo que possui um bom desempenho, eficácia, e velocidade quando aplicado em tarefas de regressão ou classificação.

O XGBoost vem como uma otimização do _Gradient Boosting_. A ideia em torno do Gradient Boost é construir um modelo forte a partir da combinação de diversos modelos fracos, e isso é feito através da correção do erro da árvore anterior pela árvore seguinte. Cada árvore nova vai sendo ajustada com o objetivo de minimizar o erro residual do modelo.

## __Funcionamento__
- 1) __Inicialização:__ Ele começa com uma previsão simples, como por exemplo a média dos valores alvo, caso seja um problema de regressão.
- 2) __Iterações:__ A cada iteração, uma nova árvore é construída para prever os erros das previsões anteriores. As previsões da nova árvore então são combinadas com as previsões das árvores anteriores para tentar melhorar a precisão global.
- 3) __Atualização do Modelo:__ As previsões são atualizadas somando-se as previsões da nova árvore, ponderadas por um learning rate que controla o quanto cada árvore nova terá de contribuição.
- 4) __Otimização:__ O algoritmo busca minimizar a função de perda.
- 5) __Eficiência:__ Ele utiliza técnicas de paralelização e otimização de hardware para acelerar a etapa de treinamento.

## __Processamentos e Pré-processamentos__
- 1) __Limpeza dos dados:__ Realizar o tratamento de valores ausentes e outliers. Remover ou corrigir dados inconsistentes.
- 2) __Codificação de variáveis categóricas:__ É necessário transformar variáveis categóricas em numéricas (aplicar OHE, label enconding, etc).
- 3) __Normalização e Escalonamento:__ Não é obrigatório, mas aplicar normalização e escalonamento nos dados pode ajudar a melhorar a performance do XGBoost.
- 4) __Hiperparâmetros:__ Ajustar a profundidade máxima, quantidade de estimadores, e learning rate pode ajudar a melhorar o desempenho.
- 5) __Balanceamento de Classes:__ Aplicar técnicas de oversampling, undersampling, etc, podem ajudar a melhorar o desempenho também.

## __Alguns outros pontos__
- 1) __Regularização Avançada:__ Pode ajudar a controlar o overfitting a partir da aplicação de algumas penalidades aos parâmetros do modelos.
- 2) __Valores Ausentes:__ O XGBoost trata valores ausentes automaticamente.
- 3) __Variáveis:__ Ele fornece algumas métricas para que seja possível verificar a contribuição de cada variável ao modelo.
- 4) __Função de Perda:__ Possibilita o uso de algumas funções de perda personalizadas a depender do problema.

In [1]:
# Importação do google drive
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [2]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

from sklearn.metrics import accuracy_score, confusion_matrix, classification_report
from sklearn.model_selection import train_test_split, KFold, cross_val_score, RandomizedSearchCV
from xgboost import XGBClassifier

In [3]:
alvo = pd.read_pickle('/content/drive/MyDrive/Udemy/ML com Python/1 - Aprendizado Supervisionado: Classificacao/heart.pkl')

# Variáveis previsoras onde as variáveis categóricas foram transformadas em numéricas manualmente, sem escalonamento
previsores = pd.read_pickle('/content/drive/MyDrive/Udemy/ML com Python/1 - Aprendizado Supervisionado: Classificacao/heart2.pkl')

# previsores_esc = pd.read_pickle('/content/drive/MyDrive/Udemy/ML com Python/1 - Aprendizado Supervisionado: Classificacao/heart3.pkl')

# Variáveis previsoras onde as variáveis categóricas foram transformadas em numéricas pelo LabelEncoder.
previsores2 = pd.read_pickle('/content/drive/MyDrive/Udemy/ML com Python/1 - Aprendizado Supervisionado: Classificacao/heart4.pkl')

# Variáveis previsoras onde as variáveis categóricas foram transformadas em numéricas pelo LabelEncoder e OneHotEncoder, sem escalonamento.
previsores3 = pd.read_pickle('/content/drive/MyDrive/Udemy/ML com Python/1 - Aprendizado Supervisionado: Classificacao/heart5.pkl')

# Variáveis previsoras onde as variáveis categóricas foram transformadas pelo LabelEncoder e OHE, com escalonamento.
previsores3_esc = pd.read_pickle('/content/drive/MyDrive/Udemy/ML com Python/1 - Aprendizado Supervisionado: Classificacao/heart6.pkl')

In [4]:
modelo1 = XGBClassifier(random_state=42)
kfold = KFold(n_splits=5, shuffle=True, random_state=42)
resultado1 = cross_val_score(modelo1, previsores, alvo, cv=kfold)
print(f"Resultado: {resultado1.mean()}")

Resultado: 0.85272036113091


In [14]:
# Diferentes parametros
params = {
    'eta': [0.5, 0.4, 0.3, 0.2, 0.1, 0.01, 0.001, 0.0001],
    'max_depth': np.array([2, 3, 5, 7, 9]),
    'objective': ['binary:logistic'],
    'eval_metric': ['logloss'],
    'booster': ['gbtree']
}

In [17]:
modelo2 = XGBClassifier(n_estimators=300, random_state=42)
random_search = RandomizedSearchCV(modelo2, params, cv=kfold, n_jobs=-1)
random_search.fit(previsores, alvo)

In [18]:
# Verificando os melhores parâmetros e resultados obtidos
print(f"Melhores parâmetros: {random_search.best_params_}")
print(f"Melhor score: {random_search.best_score_}")

Melhores parâmetros: {'objective': 'binary:logistic', 'max_depth': 9, 'eval_metric': 'logloss', 'eta': 0.01, 'booster': 'gbtree'}
Melhor score: 0.8570622475647423


# Outra forma de aplicação

In [8]:
X_tr, X_ts, y_tr, y_ts = train_test_split(previsores, alvo, test_size=.2, shuffle=True, random_state=42)

In [19]:
modelo3 = XGBClassifier(n_estimators=300, objective='binary:logistic', max_depth=9,
                        eval_metric='logloss', eta=0.01, booster='gbtree', random_state=42)
modelo3.fit(X_tr, y_tr)

In [20]:
resultado = cross_val_score(modelo3, previsores, alvo, cv=kfold)
print(f"Resultado: {resultado.mean()}")

Resultado: 0.8570622475647423


In [21]:
# Realizando predições
y_pred = modelo3.predict(X_ts)

In [22]:
# Matriz de confusão
print(confusion_matrix(y_ts, y_pred))

[[63  9]
 [14 98]]


In [23]:
# Classification Report
print(classification_report(y_ts, y_pred))

              precision    recall  f1-score   support

           0       0.82      0.88      0.85        72
           1       0.92      0.88      0.89       112

    accuracy                           0.88       184
   macro avg       0.87      0.88      0.87       184
weighted avg       0.88      0.88      0.88       184

