<a href="https://colab.research.google.com/github/Felipe-Oliveira11/Gradient-Boosting-ML/blob/master/XGBoost_hyperparameters_2.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

### XGBoost Hyperparameters
<hr>

O algoritmo XGBoost se tornou a arma definitiva para muitos cientistas de dados. É um algoritmo altamente sofisticado, poderoso o suficiente para lidar com todos os tipos de irregularidades de dados.


<p align=center>
<img src="https://www.dataapplab.com/wp-content/uploads/2017/08/xgboost.png" width="50%"></p>


<br>
<hr>

In [1]:
import numpy as np 
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import MinMaxScaler, LabelEncoder, OneHotEncoder
from sklearn.metrics import classification_report, average_precision_score, accuracy_score, recall_score
import matplotlib.pyplot as plt

import xgboost as xgb
from xgboost import XGBClassifier

In [2]:
path = '/content/drive/My Drive/Inteligência Artificial - Colab/Marketing /campaigns.csv'
data = pd.read_csv(path)
data.head()

Unnamed: 0.1,Unnamed: 0,age,job,marital,education,default,balance,housing,loan,contact,day,month,duration,campaign,pdays,previous,poutcome,y
0,0,58,management,married,tertiary,no,2143,yes,no,unknown,5,may,261,1,-1,0,unknown,no
1,1,44,technician,single,secondary,no,29,yes,no,unknown,5,may,151,1,-1,0,unknown,no
2,2,33,entrepreneur,married,secondary,no,2,yes,yes,unknown,5,may,76,1,-1,0,unknown,no
3,3,47,blue-collar,married,unknown,no,1506,yes,no,unknown,5,may,92,1,-1,0,unknown,no
4,4,33,unknown,single,unknown,no,1,no,no,unknown,5,may,198,1,-1,0,unknown,no


In [3]:
data.drop('Unnamed: 0', axis=1, inplace=True)

In [4]:
label = LabelEncoder()
data['y'] = label.fit_transform(data[['y']])


cat_cols = data.select_dtypes(include=['object']).columns 
num_cols = data.select_dtypes(include=['float64', 'int64']).columns


dummies = pd.get_dummies(data[cat_cols], prefix=cat_cols, drop_first=True)
data = pd.concat([data, dummies], axis=1)
data.drop(cat_cols, axis=1, inplace=True)
data.shape


X = data.drop('y', axis=1)
y = data['y']


X_train, X_test, y_train, y_test = train_test_split(X,y, test_size=0.30, random_state=42)

  y = column_or_1d(y, warn=True)


<br>
<br>
<hr>
<br>


### Vantagens do XGBoost
<br>

<b> 1.Regularização:</b>
A implementação padrão do GBM não possui regularização como o XGBoost, portanto, também ajuda a reduzir o overfitting.
De fato, o XGBoost também é conhecido como uma técnica de 'reforço regularizado'.

<br>

<b> 2.Processamento paralelo: </b>
O XGBoost implementa o processamento paralelo e é incrivelmente mais rápido em comparação com o GBM.

<br>

<b> 3.Alta flexibilidade: </b>
O XGBoost permite que os usuários definam objetivos de otimização personalizados e critérios de avaliação .
Isso adiciona uma nova dimensão ao modelo e não há limite para o que podemos fazer.


<br>


<b> 4.Manipulação de valores ausentes: </b>
O XGBoost possui uma rotina integrada para lidar com os valores ausentes.
É necessário que o usuário forneça um valor diferente de outras observações e passe isso como um parâmetro. O XGBoost tenta coisas diferentes ao encontrar um valor ausente em cada nó e aprende qual caminho seguir para valores ausentes no futuro.


<br>


<b> 5.Poda de árvores: </b>
Um GBM para de dividir um nó quando encontra uma perda negativa na divisão. Portanto, é mais um algoritmo ganancioso.
Por outro lado, o XGBoost faz divisões até a profundidade máxima especificada e em seguida, começa a podar a árvore para trás e remove as divisões além das quais não há ganho positivo.



<br>


<b> 6.Validação cruzada incorporada: </b>
O XGBoost permite ao usuário executar uma validação cruzada a cada iteração do processo de otimização e, portanto, é fácil obter o número ideal exato de iterações de otimização em uma única execução.
Isso é diferente do GBM, onde temos que executar uma pesquisa em grade(GridSearch) e apenas valores limitados podem ser testados.



<br>
<br>
<hr>
<br>


### Hiperparâmetros 

Principais hiperparâmetros do algoritmo XGBoost

Construir um modelo usando o XGBoost é fácil. Mas, melhorar o modelo usando o XGBoost é difícil. Este algoritmo usa vários parâmetros. Para melhorar o modelo, o ajuste de parâmetros é obrigatório. É muito difícil obter respostas para perguntas práticas como - Que conjunto de parâmetros você deve ajustar ? Qual é o valor ideal desses parâmetros para obter uma saída ideal ?




<br>
<br>

#### <b> n_estimators </b>
 O número de estimadores (árvores ou modelos lineares depende do booster) que devem ser criados, no conceito do Gradiente boosting é chamado de "Alunos fracos" por conta de serem pequenos estimadores com desempenho bem abaixo, que são melhorados a cada iteração. 

<br>

In [5]:
mdl = XGBClassifier(n_estimators=500)

<br>
<br>
<hr>
<br>



#### <b> learning_rate </b>

Parâmetro de taxa de aprendizagem do algoritmo. isso determina o impacto de cada árvore no resultado final. O GBM funciona iniciando com uma estimativa inicial que é atualizada usando a saída de cada árvore. O parâmetro de aprendizado controla a magnitude dessa mudança nas estimativas.


* Valores mais baixos são geralmente preferidos, pois tornam o modelo robusto às características específicas da árvore e, assim, permite que ele se generalize bem.
* Valores mais baixos exigiriam um número maior de árvores para modelar todas as relações e serão computacionalmente caros.


<br>

In [6]:
mdl = XGBClassifier(learning_rate=0.01)

<br>
<hr>
<br>
<br>

#### <b> max_depth </b> 

Produnfidade máxima da árvore.Utilizado para controlar o ajuste excessivo à medida que a profundidade mais alta permitirá ao modelo aprender relações muito específicas para uma amostra específica.


<br>

In [7]:
mdl = XGBClassifier(max_depth=10)

<br>
<br>
<hr>
<br>

#### <b> min_child_weight </b>

Define a soma mínima de pesos de todas as observações necessárias em "aluno fraco".

Usado para controlar o excesso de ajuste (Overfitting). Valores mais altos impedem um modelo de aprender relações que podem ser altamente específicas para a amostra específica selecionada para uma árvore.

In [8]:
mdl = XGBClassifier(min_child_weight=2)

<br>
<br>
<hr>
<br>

#### <b> gamma </b> 

Um nó é dividido apenas quando a divisão resultante fornece uma redução positiva na função de perda. Gamma especifica a redução de perda mínima necessária para fazer uma divisão.
Torna o algoritmo conservador. Os valores podem variar dependendo da função de perda e devem ser ajustados.

<br>



In [9]:
mdl = XGBClassifier(gamma=0.70)

<br>
<br>
<hr>
<br>

#### <b> max_delta_step </b>

Este parâmetor permite que a estimativa de peso de cada árvore seja definido. Se o valor estiver definido como 0, significa que não há restrição. Se estiver definido como um valor positivo, pode ajudar a tornar a etapa da atualização mais conservadora.


* Normalmente, esse parâmetro não é necessário, mas pode ajudar na regressão logística quando a classe está extremamente desequilibrada.
Isso geralmente não é usado, mas você pode explorar mais, se desejar.


<br>

In [10]:
mdl = XGBClassifier(max_delta_step=5)

<br>
<br>
<hr>
<br>

#### <b> subsample </b>


Indica a fração de observações a serem amostras aleatórias para cada árvore.
Valores mais baixos tornam o algoritmo mais conservador e evitam o ajuste excessivo, mas valores muito pequenos podem levar a um ajuste insuficiente.

Geralmente usado no intervalo de [0.5 --- 1 ] 


<br>

In [11]:
mdl = XGBClassifier(subsample=0.8)

<br>
<br>
<hr>
<br>

#### <b> colsample_bytree </b> 


Indica a fração de colunas a serem amostras aleatoriamente para cada árvore.

Geralmente usado no intervalo de [0.5 --- 1 ] 

<br>

In [12]:
mdl = XGBClassifier(colsample_bytree=0.9)

<br>
<br>
<hr>
<br>

#### <b> colsample_bylevel </b> 


Indica a taxa de subamostra de colunas para cada divisão, em cada nível.

<br>

In [13]:
mdl = XGBClassifier(colsample_bylevel=0.6)

<br>
<br>
<hr>
<br>

#### <b> reg_lambda </b> 


Termo de regularização L2 em pesos (análogo à regressão de Ridge)
Isso é usado para lidar com a parte de regularização do XGBoost. Embora muitos cientistas de dados não o usem com frequência, ele deve ser explorado para reduzir o Overfitting.

<br>

In [14]:
mdl = XGBClassifier(reg_lambda=0.80)

<br>
<br>
<hr>
<br>

#### <b> reg_alpha </b> 


Termo de regularização L1 em ​​peso (análogo à regressão de Lasso)
Pode ser usado em casos de dimensionalidade muito alta, para que o algoritmo seja executado mais rapidamente quando implementado.

<br>


In [15]:
mdl = XGBClassifier(reg_alpha=1)

<br>
<br>
<hr>
<br>

#### <b> scale_pos_weight </b>


Um valor maior que 0 deve ser usado em caso de desequilíbrio de classe alta, pois ajuda na convergência mais rápida.


<br>

In [16]:
mdl = XGBClassifier(scale_pos_weight=5)

<br>
<br>
<hr>
<br>

#### <b> objective </b>


Isso define a função de perda a ser minimizada. Os valores mais usados ​​são:

* <b> binary:logistic</b>: Usado para classificação binária com regressão logística (retorna a probabilidade não a classe) 


* <b> multi:softmax</b>: Aplicada para classificação Multi classe com função Softmax (retorna a classe prevista não a probabilidade) Necessário definir o parâmetro <b> num_class </b> para definir as classes exclusivas. 



* <b> reg:linear</b>: Para tarefas de regressão.  

<br>

In [17]:
mdl = XGBClassifier(objective='binary:logistic')

<br>
<br>
<hr>
<br>

#### <b> eval_metric </b>


A métrica a ser usada para dados de validação. Os valores típicos são:

* rmse - erro quadrático médio da raiz
* mae - erro absoluto médio
* logloss - probabilidade de log negativa
* error - Taxa de erro de classificação binária (limite 0,5)
* merror - Taxa de erro de classificação multiclasse
* mlogloss - Logloss multiclass
* auc:  Área sob a curva


<br>

In [18]:
mdl = XGBClassifier(eval_metric='error', cv=5)

<br>
<br>
<hr>
<br>