## 5 Diferenças entre AdaBoost e Gradient Boosting Machine (GBM)

1.  **Método de Otimização:**
    * **AdaBoost:** Atualiza os pesos das amostras com base nos erros de classificação, focando em amostras mal classificadas.
    * **GBM:** Usa gradiente descendente para minimizar uma função de perda, ajustando os modelos subsequentes para corrigir os erros residuais (gradientes) do modelo anterior.

2.  **Função de Perda:**
    * **AdaBoost:** Usa uma função de perda exponencial, que dá mais peso a amostras mal classificadas.
    * **GBM:** Permite o uso de várias funções de perda, como erro quadrático médio (para regressão) ou log loss (para classificação), oferecendo maior flexibilidade.

3.  **Modelos Base:**
    * **AdaBoost:** Tipicamente usa árvores de decisão rasas (stumps) como modelos base.
    * **GBM:** Também usa árvores de decisão, mas pode usar árvores mais profundas e complexas, permitindo capturar padrões mais intrincados nos dados.

4.  **Atualização dos Modelos:**
    * **AdaBoost:** Atualiza os pesos das amostras e os pesos dos modelos fracos.
    * **GBM:** Ajusta os modelos subsequentes para prever os erros residuais (gradientes) do modelo anterior, sem alterar os pesos das amostras.

5.  **Robustez a Outliers:**
    * **AdaBoost:** Pode ser sensível a outliers, pois eles podem receber pesos elevados e influenciar significativamente os modelos subsequentes.
    * **GBM:** Geralmente é mais robusto a outliers, pois a função de perda pode ser ajustada para minimizar o impacto de valores extremos.


In [12]:
from sklearn.datasets import make_hastie_10_2
from sklearn.datasets import make_regression
from sklearn.model_selection import train_test_split

from sklearn.ensemble import GradientBoostingClassifier
from sklearn.ensemble import GradientBoostingRegressor
from sklearn.model_selection import GridSearchCV

In [None]:
#gera um data set
X, y = make_hastie_10_2(random_state=0)
X_train, X_test = X[:2000], X[2000:]
y_train, y_test = y[:2000], y[2000:]

In [5]:
#treina um GradientBoostingClassifier
clf = GradientBoostingClassifier(n_estimators=100, learning_rate=1.0,
    max_depth=1, random_state=0).fit(X_train, y_train)
clf.score(X_test, y_test)

0.913

In [10]:
#treina um GradientBoostingRegressor
X, y = make_regression(random_state=0)
X_train, X_test, y_train, y_test = train_test_split(
    X, y, random_state=0)
reg = GradientBoostingRegressor(random_state=0)
reg.fit(X_train, y_train)
reg.predict(X_test[1:2])
reg.score(X_test, y_test)

0.43848663277068134


## 5 Hiperparâmetros Importantes do GradientBoostingClassifier e GradientBoostingRegressor


1.  **`n_estimators=100`**:
    * **Função:** Número de estágios de boosting (número de árvores a serem construídas).
    * **Explicação:** Controla a complexidade do modelo. Aumentar `n_estimators` pode melhorar a precisão, mas também aumentar o tempo de treinamento e o risco de overfitting. É crucial ajustar este parâmetro em conjunto com `learning_rate`.

2.  **`learning_rate=0.1`**:
    * **Função:** Contribuição de cada árvore para o resultado final.
    * **Explicação:** Controla a taxa de aprendizado. Valores menores de `learning_rate` requerem mais árvores (`n_estimators`) para alcançar um bom desempenho, mas podem melhorar a generalização. É comum ajustar `learning_rate` e `n_estimators` em conjunto.

3.  **`max_depth=3`**:
    * **Função:** Profundidade máxima de cada árvore de decisão.
    * **Explicação:** Controla a complexidade das árvores. Valores maiores de `max_depth` permitem que as árvores capturem padrões mais complexos, mas também aumentam o risco de overfitting. É comum usar valores baixos para `max_depth` (por exemplo, 3-5).

4.  **`min_samples_split=2`**:
    * **Função:** Número mínimo de amostras necessárias para dividir um nó interno.
    * **Explicação:** Controla a complexidade das árvores. Aumentar `min_samples_split` restringe a criação de nós com poucas amostras, o que pode ajudar a evitar o overfitting.

5.  **`subsample=1.0`**:
    * **Função:** Fração de amostras a serem usadas para treinar cada árvore.
    * **Explicação:** Controla a estocasticidade do boosting. Valores menores de `subsample` introduzem aleatoriedade, o que pode ajudar a reduzir a variância e evitar o overfitting. Usar um valor menor que 1.0 cria um modelo chamado Stochastic Gradient Boosting.

```python
GradientBoostingClassifier(
    loss='log_loss', 
    learning_rate=0.1, 
    n_estimators=100, 
    ubsample=1.0, 
    criterion='friedman_mse', 
    min_samples_split=2, 
    min_samples_leaf=1, 
    min_weight_fraction_leaf=0.0, 
    max_depth=3, 
    min_impurity_decrease=0.0, 
    init=None, 
    andom_state=None, 
    max_features=None, 
    verbose=0, 
    max_leaf_nodes=None, 
    warm_start=False, 
    validation_fraction=0.1, 
    n_iter_no_change=None, 
    tol=0.0001, 
    ccp_alpha=0.0
    )

GradientBoostingRegressor(
    loss='squared_error', 
    learning_rate=0.1, 
    n_estimators=100, 
    subsample=1.0, 
    riterion='friedman_mse', 
    min_samples_split=2, 
    min_samples_leaf=1, 
    min_weight_fraction_leaf=0.0, 
    max_depth=3, 
    min_impurity_decrease=0.0, 
    init=None, 
    random_state=None, 
    max_features=None, 
    alpha=0.9, 
    verbose=0, 
    max_leaf_nodes=None, 
    warm_start=False, 
    validation_fraction=0.1, 
    n_iter_no_change=None, 
    tol=0.0001, 
    ccp_alpha=0.0
    )
```


# 4 - GridSearch para GradientBoostingClassifier

In [13]:
#gera um data set
X, y = make_hastie_10_2(random_state=0)
X_train, X_test = X[:2000], X[2000:]
y_train, y_test = y[:2000], y[2000:]

In [14]:
# fazendo o grid search
rf = GradientBoostingClassifier()
params = {
    'n_estimators': list(range(50, 1001, 50)),
    'learning_rate': [0.01, 0.1, 1],
    'random_state': [42]
}

grid_rf = GridSearchCV(estimator = rf,
                        param_grid = params,
                        scoring = 'accuracy',
                        n_jobs=-1
                        )

grid_rf.fit(X_train, y_train)

#print os melhores parametros
print(grid_rf.best_estimator_)
print(grid_rf.score(X_test, y_test))

GradientBoostingClassifier(learning_rate=1, n_estimators=550, random_state=42)
0.9224



## Stochastic Gradient Boosting e Gradient Boosting

* **Gradient Boosting:**
    * Usa todo o conjunto de dados para treinar cada árvore sequencialmente.
    * Pode ser mais propenso a overfitting em conjuntos de dados grandes.

* **Stochastic Gradient Boosting:**
    * Usa uma amostra aleatória do conjunto de dados para treinar cada árvore.
    * Introduz aleatoriedade, o que ajuda a reduzir o overfitting e pode acelerar o treinamento.
    * É uma versão mais robusta e eficiente do Gradient Boosting.

Em resumo, o Stochastic Gradient Boosting é uma variação do Gradient Boosting que adiciona aleatoriedade ao processo de treinamento, tornando-o mais robusto e eficiente.
