# Outros Métodos de Boosting

<br>
<br>
<img src="https://miro.medium.com/max/3630/1*VGSoqefx3Rz5Pws6qpLwOQ@2x.png" align="center" width="100%">
<br>
<br>

Fala galera! Tudo bem? Na últimas aulas vimos algoritmos de ensemble e falamos sobre os diversos tipos, desde o *Voting Classifier*, passamos pelo *Stacking*, algoritmos *Bagging* e, mais  recentemente, falamos de *Boosting*, quando conversamos um pouco sobre *Adaboost* e *Gradient Boosting*.

A ideia hoje é trazer para vocês algumas outras implementações de *Boosting* que dividem o pódio de estado da arte desses algoritmos.

Dentro desse pódio temos, não necessariamente nessa ordem:


1. XGboost
  
2. LightGBM

3. CatBoost

Hoje iremos falar um pouco mais sobre cada um, trazendo o que cada implementa de melhoria e exploraremos em código o pode desses algoritmos.

<img src="https://miro.medium.com/max/700/1*i0CA9ho0WArOj-0UdpuKGQ.png" width="70%">

_________________

## XGBoost

O XGBoost é um algoritmo de aprendizado de máquina baseado em árvore de decisão que usa uma estrutura de *Boosting*. Em problemas de previsão envolvendo dados não estruturados (imagens, texto, etc.), as redes neurais artificiais tendem a superar todos os outros algoritmos ou estruturas. No entanto, quando se trata de dados estruturados / tabulares de pequeno a médio porte, os algoritmos baseados em árvore de decisão são considerados os melhores da classe no momento. 

<img src="https://miro.medium.com/max/1400/1*QJZ6W-Pck_W7RlIDwUIN9Q.jpeg" width="90%">

O algoritmo GBoost foi desenvolvido como um projeto de pesquisa na Universidade de Washington. O projeto foi apresentado na Conferência SIGKDD em 2016 por Tianqi Chen e Carlos Guestrin e pôs fogo no parquinho do aprendizado de máquina. 

Desde que veio ao mundo, o XGBoost tem sido um vencedor de inúmeras competições Kaggle, mas também é destaque em aplicações de ponta na indústria. 

Hoje existe uma grande comunidade que mantém esse algoritmo. São cerca de 350 colaboradores e aproximadamente 3.600 commits no GitHub. 

Imagine que você seja um recrutador que é responsável por entrevistar vários candidatos. Cada etapa da evolução de algoritmos baseados em árvore pode ser vista como uma versão do processo seletivo.


*Decision Tree* : O recrutador possui uma determinada experiência com recrutamento e leva em consideração critérios como: nível de formação, anos de experiência, performance nas entrevistas, entre outras, para tomar a decisão de contratar ou não contratar. Mas a palavra final é dele.

*Bagging*: Agora imagine que em vez de um único recrutador, o processo seletivo contará com vários recrutadores, com backgrounds diferentes e cada um tem um voto que contribuirá na decisão final.

*Random Forest*: Parecido com o processo anterior, o Random Forest traz uma outra característica interessante a esse processo seletivo. Não só existirão diferentes recrutadores e eles terão um voto que será combinado, mas também cada recrutador avaliará o candidato em diferentes critérios.

*Boosting*: Esta é uma abordagem alternativa em que cada entrevistador altera os critérios de avaliação com base no feedback do entrevistador anterior. Isso "aumenta" a eficiência do processo de entrevista, implementando um processo de avaliação mais dinâmico.


*Gradient Boosting*:Um caso especial de *Boosting* onde os erros são minimizados pelo algoritmo de descida gradiente, por exemplo as consultorias se aproveitam do uso de cases para eliminar candidatos menos qualificados.


*XGBoost*: Pense no XGBoost como o Cristiano Ronaldo dopado. O Gradient Boosting combina otimizações de software e hardware para produir resultados superiores usando menos recurso de computação e menor tempo.

<img src="https://miro.medium.com/max/1000/1*VGSoqefx3Rz5Pws6qpLwOQ@2x.png" width=700>

## O que é *Extreme* no XGBoost?

XGBoost e Gradient Boosting Machines (GBMs) são ambos métodos de árvore que aplicam o princípio de impulsionar alunos fracos (CARTs geralmente) usando a arquitetura de gradiente descendente. No entanto, o XGBoost melhora a estrutura de base do GBM por meio da otimização de sistemas e melhorias algorítmicas.


<img src="https://miro.medium.com/max/1400/1*FLshv-wVDfu-i54OqvZdHg.png" width="60%">

Vamos falar um pouco sobre essas otimizações.

**Paralelização**: O XGBoost aborda o processo de construção de árvore sequencial usando implementação paralelizada. Isso é possível devido à natureza intercambiável dos loops usados ​​para construir os *weark learners*; o loop externo que enumera os nós folha de uma árvore e o segundo loop interno que calcula os recursos. Este aninhamento de loops limita a paralelização porque sem completar o loop interno (mais exigente computacionalmente dos dois), o loop externo não pode ser iniciado. Portanto, para melhorar o tempo de execução, a ordem dos loops é trocada usando a inicialização por meio de uma varredura global de todas as instâncias e classificação usando encadeamentos paralelos. Essa opção melhora o desempenho algorítmico ao compensar qualquer sobrecarga de paralelização na computação.


**Pruning**: O critério de parada para divisão de árvore dentro da estrutura do GBM é ganancioso por natureza e depende do critério de perda negativa no ponto de divisão. O XGBoost usa o parâmetro ‘max_depth’ conforme especificado em vez do primeiro e começa a podar as árvores para trás. Esta abordagem ‘em primeiro lugar’ melhora o desempenho computacional significativamente. Basicamente, o algoritmo tem mais opções de pruning do que em outros métodos.



**Hardware**: Este algoritmo foi projetado para fazer uso eficiente dos recursos de hardware. Isso é alcançado pela detecção do cache, alocando buffers internos em cada thread para armazenar estatísticas de gradiente. Aprimoramentos adicionais, como computação "fora do núcleo" otimizam o espaço em disco disponível, ao mesmo tempo em que lida com grandes frames de dados que não cabem na memória.


**Melhorias do Algoritmo**:

- Regularization: o XGBoost usa regularização LASSO (L1) e Ridge (L2) para evitar overfitting.
- Sparsity Awareness: XGBoost naturalmente admite missing values nas features e trata isso automaticamente. Basicamente ele aprende a como preencher os valores faltosos de forma a maximizar o resultado.
- Weighted Quantile Sketch: O XGBoost aplica uma aproximação de quantis para descobrir os melhores threhsolds para as features.
- Cross-validation: O algoritmo implementa internamente a validação cruzada.

BenchMark:

<img src="https://miro.medium.com/max/1400/1*U72CpSTnJ-XTjCisJqCqLg.jpeg" width="50%">

Conforme demonstrado no gráfico acima, o modelo XGBoost tem a melhor combinação de desempenho de previsão e tempo de processamento em comparação com outros algoritmos. Outros estudos de benchmarking rigorosos produziram resultados semelhantes. Não é à toa que o XGBoost é amplamente usado em competições recentes de Data Science.


Mesmo com todas essas características e benefícios e melhorias, fica o questionamento: Sempre devemos utilizar o XGBoost?

Quando se trata de Aprendizado de Máquina (ou mesmo de vida), não há almoço grátis. Como cientistas de dados, devemos testar todos os algoritmos possíveis para os dados disponíveis para identificar o algoritmo campeão. Além disso, escolher o algoritmo certo não é suficiente. Devemos também escolher a configuração correta do algoritmo para um conjunto de dados ajustando os hiperparâmetros. Além disso, existem várias outras considerações para escolher o algoritmo vencedor, como complexidade computacional, explicabilidade e facilidade de implementação. Este é exatamente o ponto onde o Machine Learning começa a se afastar da ciência para a arte. É alquimia algumas vezes.

## Implementação

In [1]:
# import o subpacote load_boston pra importar os dados que iremos utilizar
from sklearn.datasets import load_boston
# carregue os dados
boston = load_boston()

In [2]:
#essa estrutura é como um dicionário e possui chaves
boston.keys()

dict_keys(['data', 'target', 'feature_names', 'DESCR', 'filename'])

In [3]:
# vamos ver o shape
boston['data'].shape

(506, 13)

In [4]:
# vamos ver quais colunas temos à disposição
boston['feature_names']

array(['CRIM', 'ZN', 'INDUS', 'CHAS', 'NOX', 'RM', 'AGE', 'DIS', 'RAD',
       'TAX', 'PTRATIO', 'B', 'LSTAT'], dtype='<U7')

In [5]:
# também temos uma descrição dos dados
print(boston['DESCR'])

.. _boston_dataset:

Boston house prices dataset
---------------------------

**Data Set Characteristics:**  

    :Number of Instances: 506 

    :Number of Attributes: 13 numeric/categorical predictive. Median Value (attribute 14) is usually the target.

    :Attribute Information (in order):
        - CRIM     per capita crime rate by town
        - ZN       proportion of residential land zoned for lots over 25,000 sq.ft.
        - INDUS    proportion of non-retail business acres per town
        - CHAS     Charles River dummy variable (= 1 if tract bounds river; 0 otherwise)
        - NOX      nitric oxides concentration (parts per 10 million)
        - RM       average number of rooms per dwelling
        - AGE      proportion of owner-occupied units built prior to 1940
        - DIS      weighted distances to five Boston employment centres
        - RAD      index of accessibility to radial highways
        - TAX      full-value property-tax rate per $10,000
        - PTRATIO  pu

In [6]:
# import o pandas
import pandas as pd
# convertendo para dataframe
df_boston = pd.DataFrame(boston['data'], columns=boston['feature_names'])

In [7]:
df_boston.head()

Unnamed: 0,CRIM,ZN,INDUS,CHAS,NOX,RM,AGE,DIS,RAD,TAX,PTRATIO,B,LSTAT
0,0.00632,18.0,2.31,0.0,0.538,6.575,65.2,4.09,1.0,296.0,15.3,396.9,4.98
1,0.02731,0.0,7.07,0.0,0.469,6.421,78.9,4.9671,2.0,242.0,17.8,396.9,9.14
2,0.02729,0.0,7.07,0.0,0.469,7.185,61.1,4.9671,2.0,242.0,17.8,392.83,4.03
3,0.03237,0.0,2.18,0.0,0.458,6.998,45.8,6.0622,3.0,222.0,18.7,394.63,2.94
4,0.06905,0.0,2.18,0.0,0.458,7.147,54.2,6.0622,3.0,222.0,18.7,396.9,5.33


In [8]:
# traga a coluna target
df_boston['target'] = boston['target']

In [9]:
df_boston.head()

Unnamed: 0,CRIM,ZN,INDUS,CHAS,NOX,RM,AGE,DIS,RAD,TAX,PTRATIO,B,LSTAT,target
0,0.00632,18.0,2.31,0.0,0.538,6.575,65.2,4.09,1.0,296.0,15.3,396.9,4.98,24.0
1,0.02731,0.0,7.07,0.0,0.469,6.421,78.9,4.9671,2.0,242.0,17.8,396.9,9.14,21.6
2,0.02729,0.0,7.07,0.0,0.469,7.185,61.1,4.9671,2.0,242.0,17.8,392.83,4.03,34.7
3,0.03237,0.0,2.18,0.0,0.458,6.998,45.8,6.0622,3.0,222.0,18.7,394.63,2.94,33.4
4,0.06905,0.0,2.18,0.0,0.458,7.147,54.2,6.0622,3.0,222.0,18.7,396.9,5.33,36.2


Se você planeja usar o XGBoost em um conjunto de dados que possui recursos categóricos, pode considerar a aplicação de alguma codificação (como codificação one-hot) a tais recursos antes de treinar o modelo. Além disso, se houver alguns valores ausentes, como NA, no conjunto de dados, você pode ou não fazer um tratamento separado para eles, porque o XGBoost é capaz de lidar com os valores ausentes internamente. 

Sem se aprofundar em mais análises exploratórias e engenharia de recursos, agora você se concentrará na aplicação do algoritmo para treinar o modelo nesses dados.


Você construirá o modelo usando Árvores como alunos básicos (que são os alunos básicos padrão) usando a API compatível com scikit-learn do XGBoost.

In [10]:
# import xgboost
import xgboost as xgb
# traga a métrica mean squared error
from sklearn.metrics import mean_squared_error
# import o numpy
import numpy as np

In [11]:
# separe X e y
X, y = df_boston.drop('target', axis=1), df_boston['target']

Hiperparâmetros:

Vamos dividir os hiperparâmetros do XGBoost em algumas categorias:
    
   - Gerais
   - Boosting
   - Aprendizado
   
* Gerais:
    - `booster`: 
        Esse parâmetro nos ajuda a escolher qual weak learner usar. Basicamente existem 3 opções: gbtree, gblinear e dart. 
    - `verbosity`: Controla o monitoramento da execução; 0 (silent), 1(warning), 3(debug)
    - `nthread`: Indica o número de núcleos de processamento paralelo
* Boosting:
    Como o tree booster sempre performa melhor que o linear, vamos no ater aos hiperparâmetros desse booster.
    - ```eta```[default=0.3]: Também conhecido como learning_rate. Valores típicos vão de 0.01 a 0.2, mas o range ´ [0,1]. É analogo ao learning_rate do GBM.
    - ```gamma```[default=0]. Também conhecido como min_split_loss. Quanto maior, menos nós serão construídos. Range [0, inf]
    - ```max_depth```[default=6]: É o mesmo que no GBM. Define a máxima profundidade das árvores.Valores típicos estão entre 3-10
    - ```min_child_weight```[default=1]: É parecido com o min_child_leaf do GBM, mas é diferente. Aqui estamos somando os pesos das instâncias presentes em cada folha e não somente o número delas. Quanto maior for esse valor, mais conservador é o algoritmo em criar nós. Range [0, inf]
   - ```subsample```[default=1]: Percentual de observações que serãos selecionadas para o treinamento de cada weak learner. Valores pequenos levam a underfitting. Range (0,1]. Valores típicos estão entre [0.5, 1].
   - ```colsample_bytree, colsample_bylevel, colsample_bynode``` [default=1]: Esses hiperparâmetros possuem range de (0,1] e especificam a fração de colunas do dataset que será utilizada nos splits.
       - colsample_bytree: É o subsample de colunas usadas ao construir uma árvore. Esse subsampling ocorrerá a cada árvore construída.
       - colsample_bylevel: É o subsample usado em cada nível da árvore. A cada novo nível gerado, o subsampling é feito a partir das colunas iniciais.
       - colsample_bynode: É a fração de colunas usadas em cada split de nó. 
       
       Note que os parâmetros são cumulativos. Dessa forma, se escolhermos {'colsample_bytree':0.5, 'colsample_bylevel':0.5, 'colsample_bynode':0.5} em 80 features, o resultado é que das 100 features, apenas 10 serão usadas de fato em cada nó.
       
    - ```lambda``` [default=1]: Também chamado de reg_lambda. É a regularização L2.
    - ```alpha``` [default=0]: Também chamado de reg_alpha. É o termo de regularização L1.
    - ```tree_method```[default=auto]: É o algoritmo de construção utilizado. Pode ser approx, hist, gpu_hist, exact.
    - ```scale_pos_weigth```[default=1]: É usado em caso de desbalanceamento de classe. Vai ajudar a convergir mais rápido também. Um valor típico para considerar é: n_negative/n_positive


Para um aprofundamento: https://xgboost.readthedocs.io/en/latest/parameter.html#parameters-for-tree-booster

* Aprendizado:
    Esses referem-se, basicamente, as métricas de performance e a loss do treinamento.
    - objective: Métrica que será usada para aprender
    - eval_metric: Métrica' usada na validação
    - seed: Número aleatório para garantir reprodutibilidade
    
    

In [12]:
# import train_test_split 
from sklearn.model_selection import train_test_split

In [13]:
# divida em X_train, X_test, y_train, y_test e defina test_size=0.2
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=123)
X_train.reset_index(drop=True, inplace=True)
X_test.reset_index(drop=True, inplace=True)

In [14]:
X_train.loc[[0,1,2],['CHAS']] = np.nan
X_train.loc[[10,3,20, 30],['PTRATIO']] = np.nan


A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  self._setitem_with_indexer(indexer, value)
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  X_train.loc[[0,1,2],['CHAS']] = np.nan
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  X_train.loc[[10,3,20, 30],['PTRATIO']] = np.nan


In [15]:
X_test.loc[[10,76,100],['CHAS']] = np.nan
X_test.loc[[16,7,26, 40],['PTRATIO']] = np.nan

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  X_test.loc[[10,76,100],['CHAS']] = np.nan
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  X_test.loc[[16,7,26, 40],['PTRATIO']] = np.nan


In [16]:
# crie um objeto XGBoostRegressor
xgb_regressor = xgb.XGBRegressor(seed=1)

In [17]:

# Crie uma grid de parâmetros
parameters = {"learning_rate": [0.1, 0.01, 0.001],
               "gamma" : [0.01, 0.1, 0.3, 0.5, 1, 1.5, 2],
               "max_depth": [2, 4, 7, 10],
               "colsample_bytree": [0.3, 0.6, 0.8, 1.0],
               "subsample": [0.2, 0.4, 0.5, 0.6, 0.7],
               "reg_alpha": [0, 0.5, 1],
               "reg_lambda": [1, 1.5, 2, 3, 4.5],
               "min_child_weight": [1, 3, 5, 7],
               "n_estimators": [100, 250, 500, 1000]}

# import o RandomizedSearchCV
from sklearn.model_selection import RandomizedSearchCV
# Crie um objeto RandomizedSearchCV 

random_search = RandomizedSearchCV(xgb_regressor, param_distributions = parameters, scoring = "neg_mean_absolute_error",
                             cv = 10, verbose = 3,n_iter=50, random_state = 40 )

# Fit the model
random_search.fit(X_train, y_train)

Fitting 10 folds for each of 50 candidates, totalling 500 fits
[CV] subsample=0.6, reg_lambda=1, reg_alpha=0, n_estimators=100, min_child_weight=5, max_depth=2, learning_rate=0.1, gamma=1.5, colsample_bytree=1.0 
[CV]  subsample=0.6, reg_lambda=1, reg_alpha=0, n_estimators=100, min_child_weight=5, max_depth=2, learning_rate=0.1, gamma=1.5, colsample_bytree=1.0, score=-2.299, total=   0.1s
[CV] subsample=0.6, reg_lambda=1, reg_alpha=0, n_estimators=100, min_child_weight=5, max_depth=2, learning_rate=0.1, gamma=1.5, colsample_bytree=1.0 
[CV]  subsample=0.6, reg_lambda=1, reg_alpha=0, n_estimators=100, min_child_weight=5, max_depth=2, learning_rate=0.1, gamma=1.5, colsample_bytree=1.0, score=-2.890, total=   0.0s
[CV] subsample=0.6, reg_lambda=1, reg_alpha=0, n_estimators=100, min_child_weight=5, max_depth=2, learning_rate=0.1, gamma=1.5, colsample_bytree=1.0 
[CV]  subsample=0.6, reg_lambda=1, reg_alpha=0, n_estimators=100, min_child_weight=5, max_depth=2, learning_rate=0.1, gamma=1.5, 

[Parallel(n_jobs=1)]: Using backend SequentialBackend with 1 concurrent workers.
[Parallel(n_jobs=1)]: Done   1 out of   1 | elapsed:    0.1s remaining:    0.0s
[Parallel(n_jobs=1)]: Done   2 out of   2 | elapsed:    0.1s remaining:    0.0s


[CV]  subsample=0.6, reg_lambda=1, reg_alpha=0, n_estimators=100, min_child_weight=5, max_depth=2, learning_rate=0.1, gamma=1.5, colsample_bytree=1.0, score=-1.734, total=   0.1s
[CV] subsample=0.6, reg_lambda=1, reg_alpha=0, n_estimators=100, min_child_weight=5, max_depth=2, learning_rate=0.1, gamma=1.5, colsample_bytree=1.0 
[CV]  subsample=0.6, reg_lambda=1, reg_alpha=0, n_estimators=100, min_child_weight=5, max_depth=2, learning_rate=0.1, gamma=1.5, colsample_bytree=1.0, score=-2.504, total=   0.0s
[CV] subsample=0.6, reg_lambda=1, reg_alpha=0, n_estimators=100, min_child_weight=5, max_depth=2, learning_rate=0.1, gamma=1.5, colsample_bytree=1.0 
[CV]  subsample=0.6, reg_lambda=1, reg_alpha=0, n_estimators=100, min_child_weight=5, max_depth=2, learning_rate=0.1, gamma=1.5, colsample_bytree=1.0, score=-2.727, total=   0.0s
[CV] subsample=0.6, reg_lambda=1, reg_alpha=0, n_estimators=100, min_child_weight=5, max_depth=2, learning_rate=0.1, gamma=1.5, colsample_bytree=1.0 
[CV]  subsamp

[CV]  subsample=0.7, reg_lambda=1, reg_alpha=0, n_estimators=100, min_child_weight=7, max_depth=4, learning_rate=0.1, gamma=0.1, colsample_bytree=1.0, score=-2.540, total=   0.1s
[CV] subsample=0.7, reg_lambda=1, reg_alpha=0, n_estimators=100, min_child_weight=7, max_depth=4, learning_rate=0.1, gamma=0.1, colsample_bytree=1.0 
[CV]  subsample=0.7, reg_lambda=1, reg_alpha=0, n_estimators=100, min_child_weight=7, max_depth=4, learning_rate=0.1, gamma=0.1, colsample_bytree=1.0, score=-1.696, total=   0.0s
[CV] subsample=0.7, reg_lambda=1, reg_alpha=0, n_estimators=100, min_child_weight=7, max_depth=4, learning_rate=0.1, gamma=0.1, colsample_bytree=1.0 
[CV]  subsample=0.7, reg_lambda=1, reg_alpha=0, n_estimators=100, min_child_weight=7, max_depth=4, learning_rate=0.1, gamma=0.1, colsample_bytree=1.0, score=-2.044, total=   0.0s
[CV] subsample=0.7, reg_lambda=1, reg_alpha=0, n_estimators=100, min_child_weight=7, max_depth=4, learning_rate=0.1, gamma=0.1, colsample_bytree=1.0 
[CV]  subsamp

[CV]  subsample=0.7, reg_lambda=3, reg_alpha=1, n_estimators=100, min_child_weight=3, max_depth=10, learning_rate=0.001, gamma=0.01, colsample_bytree=0.6, score=-20.545, total=   0.0s
[CV] subsample=0.7, reg_lambda=1, reg_alpha=0.5, n_estimators=250, min_child_weight=7, max_depth=7, learning_rate=0.001, gamma=0.3, colsample_bytree=0.6 
[CV]  subsample=0.7, reg_lambda=1, reg_alpha=0.5, n_estimators=250, min_child_weight=7, max_depth=7, learning_rate=0.001, gamma=0.3, colsample_bytree=0.6, score=-14.558, total=   0.1s
[CV] subsample=0.7, reg_lambda=1, reg_alpha=0.5, n_estimators=250, min_child_weight=7, max_depth=7, learning_rate=0.001, gamma=0.3, colsample_bytree=0.6 
[CV]  subsample=0.7, reg_lambda=1, reg_alpha=0.5, n_estimators=250, min_child_weight=7, max_depth=7, learning_rate=0.001, gamma=0.3, colsample_bytree=0.6, score=-19.888, total=   0.2s
[CV] subsample=0.7, reg_lambda=1, reg_alpha=0.5, n_estimators=250, min_child_weight=7, max_depth=7, learning_rate=0.001, gamma=0.3, colsampl

[CV]  subsample=0.7, reg_lambda=3, reg_alpha=0, n_estimators=250, min_child_weight=7, max_depth=10, learning_rate=0.01, gamma=0.3, colsample_bytree=1.0, score=-3.427, total=   0.2s
[CV] subsample=0.7, reg_lambda=3, reg_alpha=0, n_estimators=250, min_child_weight=7, max_depth=10, learning_rate=0.01, gamma=0.3, colsample_bytree=1.0 
[CV]  subsample=0.7, reg_lambda=3, reg_alpha=0, n_estimators=250, min_child_weight=7, max_depth=10, learning_rate=0.01, gamma=0.3, colsample_bytree=1.0, score=-3.308, total=   0.1s
[CV] subsample=0.7, reg_lambda=3, reg_alpha=0, n_estimators=250, min_child_weight=7, max_depth=10, learning_rate=0.01, gamma=0.3, colsample_bytree=1.0 
[CV]  subsample=0.7, reg_lambda=3, reg_alpha=0, n_estimators=250, min_child_weight=7, max_depth=10, learning_rate=0.01, gamma=0.3, colsample_bytree=1.0, score=-2.124, total=   0.1s
[CV] subsample=0.7, reg_lambda=3, reg_alpha=0, n_estimators=250, min_child_weight=7, max_depth=10, learning_rate=0.01, gamma=0.3, colsample_bytree=1.0 
[

[CV]  subsample=0.4, reg_lambda=2, reg_alpha=0, n_estimators=100, min_child_weight=7, max_depth=10, learning_rate=0.01, gamma=0.3, colsample_bytree=0.6, score=-9.097, total=   0.0s
[CV] subsample=0.7, reg_lambda=1, reg_alpha=1, n_estimators=100, min_child_weight=7, max_depth=10, learning_rate=0.001, gamma=0.3, colsample_bytree=0.8 
[CV]  subsample=0.7, reg_lambda=1, reg_alpha=1, n_estimators=100, min_child_weight=7, max_depth=10, learning_rate=0.001, gamma=0.3, colsample_bytree=0.8, score=-16.991, total=   0.0s
[CV] subsample=0.7, reg_lambda=1, reg_alpha=1, n_estimators=100, min_child_weight=7, max_depth=10, learning_rate=0.001, gamma=0.3, colsample_bytree=0.8 
[CV]  subsample=0.7, reg_lambda=1, reg_alpha=1, n_estimators=100, min_child_weight=7, max_depth=10, learning_rate=0.001, gamma=0.3, colsample_bytree=0.8, score=-22.799, total=   0.0s
[CV] subsample=0.7, reg_lambda=1, reg_alpha=1, n_estimators=100, min_child_weight=7, max_depth=10, learning_rate=0.001, gamma=0.3, colsample_bytree

[CV]  subsample=0.2, reg_lambda=1.5, reg_alpha=0, n_estimators=500, min_child_weight=5, max_depth=7, learning_rate=0.1, gamma=0.01, colsample_bytree=0.8, score=-2.309, total=   0.2s
[CV] subsample=0.2, reg_lambda=1.5, reg_alpha=0, n_estimators=500, min_child_weight=5, max_depth=7, learning_rate=0.1, gamma=0.01, colsample_bytree=0.8 
[CV]  subsample=0.2, reg_lambda=1.5, reg_alpha=0, n_estimators=500, min_child_weight=5, max_depth=7, learning_rate=0.1, gamma=0.01, colsample_bytree=0.8, score=-2.422, total=   0.2s
[CV] subsample=0.2, reg_lambda=1.5, reg_alpha=0, n_estimators=500, min_child_weight=5, max_depth=7, learning_rate=0.1, gamma=0.01, colsample_bytree=0.8 
[CV]  subsample=0.2, reg_lambda=1.5, reg_alpha=0, n_estimators=500, min_child_weight=5, max_depth=7, learning_rate=0.1, gamma=0.01, colsample_bytree=0.8, score=-1.856, total=   0.2s
[CV] subsample=0.2, reg_lambda=1.5, reg_alpha=0, n_estimators=500, min_child_weight=5, max_depth=7, learning_rate=0.1, gamma=0.01, colsample_bytree=

[CV]  subsample=0.4, reg_lambda=1, reg_alpha=0, n_estimators=500, min_child_weight=7, max_depth=2, learning_rate=0.01, gamma=0.1, colsample_bytree=1.0, score=-2.360, total=   0.1s
[CV] subsample=0.7, reg_lambda=3, reg_alpha=0, n_estimators=500, min_child_weight=1, max_depth=7, learning_rate=0.1, gamma=1, colsample_bytree=1.0 
[CV]  subsample=0.7, reg_lambda=3, reg_alpha=0, n_estimators=500, min_child_weight=1, max_depth=7, learning_rate=0.1, gamma=1, colsample_bytree=1.0, score=-2.359, total=   0.5s
[CV] subsample=0.7, reg_lambda=3, reg_alpha=0, n_estimators=500, min_child_weight=1, max_depth=7, learning_rate=0.1, gamma=1, colsample_bytree=1.0 
[CV]  subsample=0.7, reg_lambda=3, reg_alpha=0, n_estimators=500, min_child_weight=1, max_depth=7, learning_rate=0.1, gamma=1, colsample_bytree=1.0, score=-2.544, total=   0.5s
[CV] subsample=0.7, reg_lambda=3, reg_alpha=0, n_estimators=500, min_child_weight=1, max_depth=7, learning_rate=0.1, gamma=1, colsample_bytree=1.0 
[CV]  subsample=0.7, r

[CV]  subsample=0.6, reg_lambda=1.5, reg_alpha=0, n_estimators=1000, min_child_weight=3, max_depth=7, learning_rate=0.1, gamma=2, colsample_bytree=0.6, score=-2.115, total=   0.8s
[CV] subsample=0.6, reg_lambda=1.5, reg_alpha=0, n_estimators=1000, min_child_weight=3, max_depth=7, learning_rate=0.1, gamma=2, colsample_bytree=0.6 
[CV]  subsample=0.6, reg_lambda=1.5, reg_alpha=0, n_estimators=1000, min_child_weight=3, max_depth=7, learning_rate=0.1, gamma=2, colsample_bytree=0.6, score=-1.787, total=   0.9s
[CV] subsample=0.6, reg_lambda=1.5, reg_alpha=0, n_estimators=1000, min_child_weight=3, max_depth=7, learning_rate=0.1, gamma=2, colsample_bytree=0.6 
[CV]  subsample=0.6, reg_lambda=1.5, reg_alpha=0, n_estimators=1000, min_child_weight=3, max_depth=7, learning_rate=0.1, gamma=2, colsample_bytree=0.6, score=-2.366, total=   0.9s
[CV] subsample=0.6, reg_lambda=1.5, reg_alpha=0, n_estimators=1000, min_child_weight=3, max_depth=7, learning_rate=0.1, gamma=2, colsample_bytree=0.6 
[CV]  s

[CV]  subsample=0.7, reg_lambda=3, reg_alpha=0.5, n_estimators=250, min_child_weight=5, max_depth=2, learning_rate=0.1, gamma=0.1, colsample_bytree=0.6, score=-1.775, total=   0.1s
[CV] subsample=0.7, reg_lambda=3, reg_alpha=0.5, n_estimators=250, min_child_weight=5, max_depth=2, learning_rate=0.1, gamma=0.1, colsample_bytree=0.6 
[CV]  subsample=0.7, reg_lambda=3, reg_alpha=0.5, n_estimators=250, min_child_weight=5, max_depth=2, learning_rate=0.1, gamma=0.1, colsample_bytree=0.6, score=-2.143, total=   0.1s
[CV] subsample=0.7, reg_lambda=3, reg_alpha=0.5, n_estimators=250, min_child_weight=5, max_depth=2, learning_rate=0.1, gamma=0.1, colsample_bytree=0.6 
[CV]  subsample=0.7, reg_lambda=3, reg_alpha=0.5, n_estimators=250, min_child_weight=5, max_depth=2, learning_rate=0.1, gamma=0.1, colsample_bytree=0.6, score=-2.312, total=   0.1s
[CV] subsample=0.7, reg_lambda=3, reg_alpha=0.5, n_estimators=250, min_child_weight=5, max_depth=2, learning_rate=0.1, gamma=0.1, colsample_bytree=0.6 
[

[CV]  subsample=0.5, reg_lambda=4.5, reg_alpha=0.5, n_estimators=1000, min_child_weight=3, max_depth=7, learning_rate=0.01, gamma=2, colsample_bytree=0.8, score=-2.349, total=   0.7s
[CV] subsample=0.5, reg_lambda=4.5, reg_alpha=0.5, n_estimators=1000, min_child_weight=3, max_depth=7, learning_rate=0.01, gamma=2, colsample_bytree=0.8 
[CV]  subsample=0.5, reg_lambda=4.5, reg_alpha=0.5, n_estimators=1000, min_child_weight=3, max_depth=7, learning_rate=0.01, gamma=2, colsample_bytree=0.8, score=-2.587, total=   0.8s
[CV] subsample=0.5, reg_lambda=4.5, reg_alpha=0.5, n_estimators=1000, min_child_weight=3, max_depth=7, learning_rate=0.01, gamma=2, colsample_bytree=0.8 
[CV]  subsample=0.5, reg_lambda=4.5, reg_alpha=0.5, n_estimators=1000, min_child_weight=3, max_depth=7, learning_rate=0.01, gamma=2, colsample_bytree=0.8, score=-1.976, total=   0.8s
[CV] subsample=0.5, reg_lambda=1.5, reg_alpha=0, n_estimators=1000, min_child_weight=3, max_depth=7, learning_rate=0.1, gamma=1.5, colsample_by

[CV]  subsample=0.5, reg_lambda=4.5, reg_alpha=0.5, n_estimators=250, min_child_weight=1, max_depth=10, learning_rate=0.01, gamma=0.1, colsample_bytree=1.0, score=-2.262, total=   0.4s
[CV] subsample=0.5, reg_lambda=4.5, reg_alpha=0.5, n_estimators=250, min_child_weight=1, max_depth=10, learning_rate=0.01, gamma=0.1, colsample_bytree=1.0 
[CV]  subsample=0.5, reg_lambda=4.5, reg_alpha=0.5, n_estimators=250, min_child_weight=1, max_depth=10, learning_rate=0.01, gamma=0.1, colsample_bytree=1.0, score=-3.222, total=   0.3s
[CV] subsample=0.5, reg_lambda=4.5, reg_alpha=0.5, n_estimators=250, min_child_weight=1, max_depth=10, learning_rate=0.01, gamma=0.1, colsample_bytree=1.0 
[CV]  subsample=0.5, reg_lambda=4.5, reg_alpha=0.5, n_estimators=250, min_child_weight=1, max_depth=10, learning_rate=0.01, gamma=0.1, colsample_bytree=1.0, score=-3.555, total=   0.2s
[CV] subsample=0.5, reg_lambda=4.5, reg_alpha=0.5, n_estimators=250, min_child_weight=1, max_depth=10, learning_rate=0.01, gamma=0.1,

[CV]  subsample=0.6, reg_lambda=2, reg_alpha=1, n_estimators=100, min_child_weight=7, max_depth=2, learning_rate=0.01, gamma=0.1, colsample_bytree=0.6, score=-8.912, total=   0.1s
[CV] subsample=0.6, reg_lambda=2, reg_alpha=1, n_estimators=100, min_child_weight=7, max_depth=2, learning_rate=0.01, gamma=0.1, colsample_bytree=0.6 
[CV]  subsample=0.6, reg_lambda=2, reg_alpha=1, n_estimators=100, min_child_weight=7, max_depth=2, learning_rate=0.01, gamma=0.1, colsample_bytree=0.6, score=-8.437, total=   0.1s
[CV] subsample=0.6, reg_lambda=2, reg_alpha=1, n_estimators=100, min_child_weight=7, max_depth=2, learning_rate=0.01, gamma=0.1, colsample_bytree=0.6 
[CV]  subsample=0.6, reg_lambda=2, reg_alpha=1, n_estimators=100, min_child_weight=7, max_depth=2, learning_rate=0.01, gamma=0.1, colsample_bytree=0.6, score=-8.875, total=   0.1s
[CV] subsample=0.4, reg_lambda=4.5, reg_alpha=0.5, n_estimators=1000, min_child_weight=5, max_depth=7, learning_rate=0.1, gamma=0.1, colsample_bytree=0.6 
[CV

[CV]  subsample=0.2, reg_lambda=4.5, reg_alpha=0, n_estimators=250, min_child_weight=7, max_depth=4, learning_rate=0.01, gamma=0.3, colsample_bytree=0.3, score=-3.584, total=   0.1s
[CV] subsample=0.2, reg_lambda=4.5, reg_alpha=0, n_estimators=250, min_child_weight=7, max_depth=4, learning_rate=0.01, gamma=0.3, colsample_bytree=0.3 
[CV]  subsample=0.2, reg_lambda=4.5, reg_alpha=0, n_estimators=250, min_child_weight=7, max_depth=4, learning_rate=0.01, gamma=0.3, colsample_bytree=0.3, score=-4.270, total=   0.1s
[CV] subsample=0.2, reg_lambda=4.5, reg_alpha=0, n_estimators=250, min_child_weight=7, max_depth=4, learning_rate=0.01, gamma=0.3, colsample_bytree=0.3 
[CV]  subsample=0.2, reg_lambda=4.5, reg_alpha=0, n_estimators=250, min_child_weight=7, max_depth=4, learning_rate=0.01, gamma=0.3, colsample_bytree=0.3, score=-4.461, total=   0.1s
[CV] subsample=0.2, reg_lambda=4.5, reg_alpha=0, n_estimators=250, min_child_weight=7, max_depth=4, learning_rate=0.01, gamma=0.3, colsample_bytree=

[CV]  subsample=0.4, reg_lambda=1, reg_alpha=0.5, n_estimators=500, min_child_weight=3, max_depth=2, learning_rate=0.1, gamma=0.1, colsample_bytree=0.8, score=-1.796, total=   0.2s
[CV] subsample=0.5, reg_lambda=1, reg_alpha=0, n_estimators=250, min_child_weight=1, max_depth=2, learning_rate=0.01, gamma=1, colsample_bytree=0.8 
[CV]  subsample=0.5, reg_lambda=1, reg_alpha=0, n_estimators=250, min_child_weight=1, max_depth=2, learning_rate=0.01, gamma=1, colsample_bytree=0.8, score=-2.783, total=   0.1s
[CV] subsample=0.5, reg_lambda=1, reg_alpha=0, n_estimators=250, min_child_weight=1, max_depth=2, learning_rate=0.01, gamma=1, colsample_bytree=0.8 
[CV]  subsample=0.5, reg_lambda=1, reg_alpha=0, n_estimators=250, min_child_weight=1, max_depth=2, learning_rate=0.01, gamma=1, colsample_bytree=0.8, score=-4.104, total=   0.1s
[CV] subsample=0.5, reg_lambda=1, reg_alpha=0, n_estimators=250, min_child_weight=1, max_depth=2, learning_rate=0.01, gamma=1, colsample_bytree=0.8 
[CV]  subsample=

[CV]  subsample=0.2, reg_lambda=3, reg_alpha=0.5, n_estimators=500, min_child_weight=7, max_depth=4, learning_rate=0.01, gamma=0.01, colsample_bytree=0.3, score=-3.183, total=   0.2s
[CV] subsample=0.2, reg_lambda=3, reg_alpha=0.5, n_estimators=500, min_child_weight=7, max_depth=4, learning_rate=0.01, gamma=0.01, colsample_bytree=0.3 
[CV]  subsample=0.2, reg_lambda=3, reg_alpha=0.5, n_estimators=500, min_child_weight=7, max_depth=4, learning_rate=0.01, gamma=0.01, colsample_bytree=0.3, score=-2.947, total=   0.2s
[CV] subsample=0.2, reg_lambda=3, reg_alpha=0.5, n_estimators=500, min_child_weight=7, max_depth=4, learning_rate=0.01, gamma=0.01, colsample_bytree=0.3 
[CV]  subsample=0.2, reg_lambda=3, reg_alpha=0.5, n_estimators=500, min_child_weight=7, max_depth=4, learning_rate=0.01, gamma=0.01, colsample_bytree=0.3, score=-1.857, total=   0.3s
[CV] subsample=0.2, reg_lambda=3, reg_alpha=0.5, n_estimators=500, min_child_weight=7, max_depth=4, learning_rate=0.01, gamma=0.01, colsample_b

[CV]  subsample=0.6, reg_lambda=1, reg_alpha=1, n_estimators=1000, min_child_weight=7, max_depth=7, learning_rate=0.1, gamma=0.5, colsample_bytree=1.0, score=-1.579, total=   0.8s
[CV] subsample=0.4, reg_lambda=3, reg_alpha=0, n_estimators=250, min_child_weight=5, max_depth=10, learning_rate=0.1, gamma=2, colsample_bytree=0.8 
[CV]  subsample=0.4, reg_lambda=3, reg_alpha=0, n_estimators=250, min_child_weight=5, max_depth=10, learning_rate=0.1, gamma=2, colsample_bytree=0.8, score=-2.106, total=   0.2s
[CV] subsample=0.4, reg_lambda=3, reg_alpha=0, n_estimators=250, min_child_weight=5, max_depth=10, learning_rate=0.1, gamma=2, colsample_bytree=0.8 
[CV]  subsample=0.4, reg_lambda=3, reg_alpha=0, n_estimators=250, min_child_weight=5, max_depth=10, learning_rate=0.1, gamma=2, colsample_bytree=0.8, score=-2.874, total=   0.2s
[CV] subsample=0.4, reg_lambda=3, reg_alpha=0, n_estimators=250, min_child_weight=5, max_depth=10, learning_rate=0.1, gamma=2, colsample_bytree=0.8 
[CV]  subsample=0

[CV]  subsample=0.2, reg_lambda=2, reg_alpha=1, n_estimators=100, min_child_weight=1, max_depth=2, learning_rate=0.001, gamma=0.5, colsample_bytree=0.6, score=-19.647, total=   0.0s
[CV] subsample=0.2, reg_lambda=2, reg_alpha=1, n_estimators=100, min_child_weight=1, max_depth=2, learning_rate=0.001, gamma=0.5, colsample_bytree=0.6 
[CV]  subsample=0.2, reg_lambda=2, reg_alpha=1, n_estimators=100, min_child_weight=1, max_depth=2, learning_rate=0.001, gamma=0.5, colsample_bytree=0.6, score=-21.007, total=   0.0s
[CV] subsample=0.2, reg_lambda=2, reg_alpha=1, n_estimators=100, min_child_weight=1, max_depth=2, learning_rate=0.001, gamma=0.5, colsample_bytree=0.6 
[CV]  subsample=0.2, reg_lambda=2, reg_alpha=1, n_estimators=100, min_child_weight=1, max_depth=2, learning_rate=0.001, gamma=0.5, colsample_bytree=0.6, score=-19.533, total=   0.0s
[CV] subsample=0.2, reg_lambda=2, reg_alpha=1, n_estimators=100, min_child_weight=1, max_depth=2, learning_rate=0.001, gamma=0.5, colsample_bytree=0.6

[CV]  subsample=0.7, reg_lambda=1.5, reg_alpha=0.5, n_estimators=1000, min_child_weight=7, max_depth=10, learning_rate=0.001, gamma=0.01, colsample_bytree=1.0, score=-10.061, total=   0.5s
[CV] subsample=0.7, reg_lambda=1.5, reg_alpha=0.5, n_estimators=1000, min_child_weight=7, max_depth=10, learning_rate=0.001, gamma=0.01, colsample_bytree=1.0 
[CV]  subsample=0.7, reg_lambda=1.5, reg_alpha=0.5, n_estimators=1000, min_child_weight=7, max_depth=10, learning_rate=0.001, gamma=0.01, colsample_bytree=1.0, score=-7.870, total=   0.5s
[CV] subsample=0.7, reg_lambda=1.5, reg_alpha=0.5, n_estimators=1000, min_child_weight=7, max_depth=10, learning_rate=0.001, gamma=0.01, colsample_bytree=1.0 
[CV]  subsample=0.7, reg_lambda=1.5, reg_alpha=0.5, n_estimators=1000, min_child_weight=7, max_depth=10, learning_rate=0.001, gamma=0.01, colsample_bytree=1.0, score=-7.998, total=   0.5s
[CV] subsample=0.7, reg_lambda=1.5, reg_alpha=0.5, n_estimators=1000, min_child_weight=7, max_depth=10, learning_rate

[CV]  subsample=0.7, reg_lambda=2, reg_alpha=0.5, n_estimators=100, min_child_weight=3, max_depth=10, learning_rate=0.001, gamma=2, colsample_bytree=1.0, score=-19.432, total=   0.1s
[CV] subsample=0.7, reg_lambda=2, reg_alpha=0.5, n_estimators=100, min_child_weight=3, max_depth=10, learning_rate=0.001, gamma=2, colsample_bytree=1.0 
[CV]  subsample=0.7, reg_lambda=2, reg_alpha=0.5, n_estimators=100, min_child_weight=3, max_depth=10, learning_rate=0.001, gamma=2, colsample_bytree=1.0, score=-20.542, total=   0.1s
[CV] subsample=0.6, reg_lambda=1, reg_alpha=0.5, n_estimators=500, min_child_weight=5, max_depth=7, learning_rate=0.001, gamma=0.5, colsample_bytree=1.0 
[CV]  subsample=0.6, reg_lambda=1, reg_alpha=0.5, n_estimators=500, min_child_weight=5, max_depth=7, learning_rate=0.001, gamma=0.5, colsample_bytree=1.0, score=-11.373, total=   0.3s
[CV] subsample=0.6, reg_lambda=1, reg_alpha=0.5, n_estimators=500, min_child_weight=5, max_depth=7, learning_rate=0.001, gamma=0.5, colsample_b

[CV]  subsample=0.5, reg_lambda=1, reg_alpha=0, n_estimators=1000, min_child_weight=3, max_depth=10, learning_rate=0.1, gamma=0.5, colsample_bytree=1.0, score=-1.903, total=   1.2s
[CV] subsample=0.5, reg_lambda=1, reg_alpha=0, n_estimators=1000, min_child_weight=3, max_depth=10, learning_rate=0.1, gamma=0.5, colsample_bytree=1.0 
[CV]  subsample=0.5, reg_lambda=1, reg_alpha=0, n_estimators=1000, min_child_weight=3, max_depth=10, learning_rate=0.1, gamma=0.5, colsample_bytree=1.0, score=-2.467, total=   1.1s
[CV] subsample=0.5, reg_lambda=1, reg_alpha=0, n_estimators=1000, min_child_weight=3, max_depth=10, learning_rate=0.1, gamma=0.5, colsample_bytree=1.0 
[CV]  subsample=0.5, reg_lambda=1, reg_alpha=0, n_estimators=1000, min_child_weight=3, max_depth=10, learning_rate=0.1, gamma=0.5, colsample_bytree=1.0, score=-2.299, total=   1.1s
[CV] subsample=0.5, reg_lambda=1, reg_alpha=0, n_estimators=1000, min_child_weight=3, max_depth=10, learning_rate=0.1, gamma=0.5, colsample_bytree=1.0 
[

[Parallel(n_jobs=1)]: Done 500 out of 500 | elapsed:  2.9min finished


RandomizedSearchCV(cv=10,
                   estimator=XGBRegressor(base_score=None, booster=None,
                                          colsample_bylevel=None,
                                          colsample_bynode=None,
                                          colsample_bytree=None, gamma=None,
                                          gpu_id=None, importance_type='gain',
                                          interaction_constraints=None,
                                          learning_rate=None,
                                          max_delta_step=None, max_depth=None,
                                          min_child_weight=None, missing=nan,
                                          monotone_constraints=None,
                                          n_estimators=100,...
                   param_distributions={'colsample_bytree': [0.3, 0.6, 0.8,
                                                             1.0],
                                        'gamma':

Outras referências: 
- https://machinelearningmastery.com/xgboost-python-mini-course/
- https://medium.com/hypatai/what-makes-xgboost-fast-and-powerful-dc315313ee23

Detalhe: O XGBoost trabalha bem com one-hot encoding

# LightGBM 

> O que é Light GBM?
Light GBM é um outro modelo de *Boosting* que usa algoritmo de aprendizagem baseado em árvore.





> Como ele difere de outro algoritmo baseado em árvore?
O Light GBM cresce árvore verticalmente enquanto o XGBoost algoritmo cresce árvores horizontalmente, o que significa que Light GBM cresce árvore em forma de folha enquanto outro algoritmo cresce em nível de árvore. Ele escolherá a folha com delta máximo de ganho para crescer. Ao crescer a mesma folha, o algoritmo Leaf-wise pode reduzir mais perdas do que um algoritmo de nível.
Os diagramas abaixo explicam a implementação de LightGBM e outros algoritmos de *Boosting*.

<img src="https://miro.medium.com/max/700/1*whSa8rY4sgFQj1rEcWr8Ag.png" width="70%">

<img src="https://miro.medium.com/max/700/1*AZsSoXb8lc5N6mnhqX5JCg.png" width="70%">

O LightGBM é cerca de 10 vezes mais rápido que o XGBoost, baseado em alguns experimentos.

A implementação do Light GBM é fácil, a única coisa complicada é o ajuste dos parâmetros. O Light GBM cobre mais de 100 parâmetros, mas não se preocupe, você não precisa aprender todos.
É muito importante para um cientista saber pelo menos alguns parâmetros básicos do Light GBM.

Hiperparâmetros:
- max_depth: Profundidade máxima das árvores.

- min_data_in_leaf: É o número mínimo de amostras que podem permanecer em uma folha da árvore.

- feature_fraction: Percentualde features utilizadas em cada árvore.

- bagging_fraction: Percentual de linhas usadas em cada árvore.

- early_stopping_round: É o parâmetro de parada, que pode acelerar o treinamento.

- lambda: Regularização. 

- min_gain_to_split: Esse parâmetro especifica o ganho mínimo para que ocorra o split.

- Task: Especifica a tarefa, se é treino ou predição

- application: Especifica se é um problema de regressão ou classificação.

- boosting: Define o tipo de algoritmo usado como boosting.

- num_boost_round: É o mesmo que o número de estimadores.

- learning_rate: Determina o impacto de cada árvore na predição final.

- num_leaves: Número de folhas em uma árvore.

- device: se será utilizada cpu ou gpu

- Metric parameter: Métrica para ser usada na loss

- categorical_feature: Traz os índices das features categóricas no dataset.

- ignore_column: Traz os índices das features que devem ser ignoradas.



In [18]:
# importe o modulo lightgbm como lgb
import lightgbm as lgb


In [68]:
# carregue o dataset flights.csv e leia apenas 10000 linhas
df_flights = pd.read_csv('data/flights.csv', nrows=10000)

In [69]:
df_flights = df_flights.sample(frac=1).reset_index(drop=True)

In [70]:
df_flights.to_csv('flights.csv', index=False)

In [71]:
# selecione apenas as colunas ["MONTH","DAY","DAY_OF_WEEK","AIRLINE","FLIGHT_NUMBER","DESTINATION_AIRPORT",
                # "ORIGIN_AIRPORT","AIR_TIME", "DEPARTURE_TIME","DISTANCE","ARRIVAL_DELAY"]
    
df_flights = df_flights[["MONTH","DAY","DAY_OF_WEEK","AIRLINE","FLIGHT_NUMBER","DESTINATION_AIRPORT",
                 "ORIGIN_AIRPORT","AIR_TIME", "DEPARTURE_TIME","DISTANCE","ARRIVAL_DELAY"]]
# construa o target: Se arrival_delay > 10, entao 1, senao 0

df_flights["ARRIVAL_DELAY"] = (df_flights["ARRIVAL_DELAY"]>10)*1
# converta para category as features categoricas
cols = ["AIRLINE","FLIGHT_NUMBER","DESTINATION_AIRPORT","ORIGIN_AIRPORT"]
for item in cols:
    df_flights[item] = df_flights[item].astype("category")


In [72]:
df_flights["ARRIVAL_DELAY"]

0       1
1       0
2       0
3       0
4       0
       ..
9995    0
9996    0
9997    1
9998    0
9999    0
Name: ARRIVAL_DELAY, Length: 10000, dtype: int64

In [73]:
# separe em treino e teste, com test_size = 0.25, lembre-se do random_state
X_train, X_test, y_train, y_test = train_test_split(df_flights.drop(["ARRIVAL_DELAY"], axis=1), df_flights["ARRIVAL_DELAY"],
                                                random_state=10, test_size=0.25)



In [74]:
df_flights.shape

(10000, 11)

- MONTH, DAY, DAY_OF_WEEK: data type int
- AIRLINE and FLIGHT_NUMBER: data type int
- ORIGIN_AIRPORT and DESTINATION_AIRPORT: data type string
- DEPARTURE_TIME: data type float
- ARRIVAL_DELAY: this will be the target and is transformed into boolean variable indicating delay of more than 10 minutes
- DISTANCE and AIR_TIME: data type float


In [75]:

lg = lgb.LGBMClassifier(random_state=123)
param_dist = {"max_depth": [25,50, 75],
              "learning_rate" : [0.01,0.05,0.1],
              "num_leaves": [300,900,1200],
              "n_estimators": [200]
             }
grid_search = GridSearchCV(lg,
                           n_jobs=-1,
                           param_grid=param_dist, 
                           cv = 3, 
                           scoring="roc_auc")
grid_search.fit(X_train,y_train)
grid_search.best_estimator_

LGBMClassifier(learning_rate=0.01, max_depth=50, n_estimators=200,
               num_leaves=300, random_state=123)

In [76]:
grid_search.best_estimator_.predict(X_test)

array([0, 0, 0, ..., 0, 0, 0])

In [39]:
X_test['ORIGIN_AIRPORT'] = X_test['ORIGIN_AIRPORT'].astype('object')
X_test.loc[937,['ORIGIN_AIRPORT']] = 'MCZ'
X_test['ORIGIN_AIRPORT'] = X_test['ORIGIN_AIRPORT'].astype('category')



In [48]:
grid_search.best_estimator_.predict(X_test.loc[[937]])

array([0])

In [50]:
X_test.isna().sum()

MONTH                    0
DAY                      0
DAY_OF_WEEK              0
AIRLINE                  0
FLIGHT_NUMBER            0
DESTINATION_AIRPORT      0
ORIGIN_AIRPORT           0
AIR_TIME               120
DEPARTURE_TIME         116
DISTANCE                 0
dtype: int64