1 - Cite 5 diferenças entre o AdaBoost e o GBM


1. **Algoritmo de base:**
   - AdaBoost é um algoritmo de boosting que combina vários classificadores fracos (conhecidas como stumps) sequencialmente, dando mais peso às amostras mal classificadas em cada iteração.
   - GBM é uma técnica de boosting que também combina vários árvores de decisções, mas em vez de atribuir pesos às amostras, ajusta os pesos dos erros residuais para minimizar esses erros em cada iteração.

2. **Pesos das amostras:**
   - Em AdaBoost, as amostras mal classificadas recebem pesos maiores durante o treinamento, o que ajuda o modelo a se concentrar mais nas amostras difíceis de classificar.
   - Em GBM, o foco está nos erros residuais. Cada novo classificador é treinado para corrigir os erros cometidos pelos classificadores anteriores, ajustando os pesos dos erros residuais em cada iteração.

3. **Abordagem de ajuste dos erros:**
   - AdaBoost usa uma abordagem de ajuste adaptativo, onde o modelo se concentra nas amostras mal classificadas, ajustando gradualmente seus pesos para corrigir esses erros.
   - GBM usa uma abordagem de ajuste aditivo, onde cada novo classificador é adicionado ao modelo para corrigir os erros residuais dos classificadores anteriores, criando um modelo mais complexo e preciso ao longo do tempo.

4. **Processo de treinamento:**
   - AdaBoost treina os classificadores fracos sequencialmente, dando mais peso às amostras mal classificadas em cada iteração.
   - GBM treina os classificadores fracos de forma sequencial, ajustando os pesos dos erros residuais em cada iteração e adicionando classificadores que se concentram nos erros residuais restantes.

5. **Sensibilidade a outliers:**
   - AdaBoost é sensível a outliers, pois atribui pesos às amostras mal classificadas para corrigir erros, o que pode levar a um ajuste excessivo se os outliers não forem tratados adequadamente.
   - GBM também pode ser sensível a outliers, especialmente se não forem tratados adequadamente, pois os erros residuais podem ser amplificados em cada iteração.


2 -Acesse o link Scikit-learn – GBM, leia a explicação (traduza se for preciso) e crie um jupyter notebook contendo o exemplo de classificação e de regressão do GBM

In [4]:
from sklearn.datasets import make_hastie_10_2
from sklearn.ensemble import GradientBoostingClassifier

X, y = make_hastie_10_2(random_state=0)
X_train, X_test = X[:2000], X[2000:]
y_train, y_test = y[:2000], y[2000:]

clf = GradientBoostingClassifier(n_estimators=100, learning_rate=1.0,
    max_depth=1, random_state=0).fit(X_train, y_train)
clf.score(X_test, y_test)

0.913

3 - Cite 5 Hyperparametros importantes no GBM.

**sklearn.ensemble.GradientBoostingClassifier(*, loss='log_loss', learning_rate=0.1, n_estimators=100, subsample=1.0, criterion='friedman_mse', min_samples_split=2, min_samples_leaf=1, min_weight_fraction_leaf=0.0, max_depth=3, min_impurity_decrease=0.0, init=None, random_state=None, max_features=None, verbose=0, max_leaf_nodes=None, warm_start=False, validation_fraction=0.1, n_iter_no_change=None, tol=0.0001, ccp_alpha=0.0)**


1. **n_estimators:**
   - Reescrita: Este hiperparâmetro especifica o número de estimadores (classificadores fracos, como árvores de decisão) que serão combinados para formar o modelo final do GBM.

2. **learning_rate:**
   - Reescrita: A learning_rate controla a contribuição de cada estimador para a correção dos erros do modelo durante o treinamento. Valores menores de learning_rate levam a uma correção mais gradual dos erros, enquanto valores maiores podem levar a uma correção mais rápida, mas também aumentam o risco de overfitting.

3. **max_depth:**
   - Reescrita: O max_depth define a profundidade máxima das árvores de decisão que são utilizadas como estimadores base no GBM. Árvores mais profundas podem capturar relações mais complexas nos dados, mas também aumentam o risco de overfitting.

4. **min_samples_split:**
   - Reescrita: O min_samples_split define o número mínimo de amostras necessárias em um nó interno da árvore de decisão para que ocorra uma divisão. Isso ajuda a controlar a complexidade das árvores e a evitar o overfitting.

5. **subsample:**
   - Reescrita: O subsample determina a fração de amostras a serem usadas em cada estimador do GBM. Usar uma fração menor de amostras pode ajudar a reduzir o overfitting e a melhorar a generalização do modelo, especialmente em conjuntos de dados grandes.

4 -  (Opcional) Utilize o GridSearch para encontrar os melhores hyperparametros para o conjunto de dados do exemplo

In [5]:
%%time
from sklearn.datasets import make_hastie_10_2
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.model_selection import GridSearchCV

# Gerar o conjunto de dados
X, y = make_hastie_10_2(random_state=0)
X_train, X_test = X[:2000], X[2000:]
y_train, y_test = y[:2000], y[2000:]

# Criar o classificador GradientBoosting
clf = GradientBoostingClassifier(random_state=0)

# Definir os parâmetros para grid search
parameters = {
    'n_estimators': [50, 100, 150],
    'learning_rate': [0.01, 0.1, 0.5],
    'max_depth': [1, 3, 5]
}

# Criar um objeto GridSearchCV
grid_search = GridSearchCV(estimator=clf, param_grid=parameters, cv=5)

# Treinar o modelo com grid search
grid_search.fit(X_train, y_train)

# Obter os melhores parâmetros
best_params = grid_search.best_params_
print("Melhores parâmetros encontrados:")
print(best_params)

# Fazer previsões no conjunto de teste com os melhores parâmetros
best_model = grid_search.best_estimator_
accuracy = best_model.score(X_test, y_test)
print(f"Acurácia do modelo com melhores parâmetros: {accuracy}")


Melhores parâmetros encontrados:
{'learning_rate': 0.5, 'max_depth': 1, 'n_estimators': 150}
Acurácia do modelo com melhores parâmetros: 0.9128
CPU times: total: 2min 50s
Wall time: 3min 31s


5 - Acessando o artigo do Jerome Friedman (Stochastic) e pensando no nome dado ao Stochastic GBM, qual é a maior diferença entre os dois algoritmos?

**GBM clássico**

No GBM clássico, as atualizações nos pesos dos erros residuais são feitas de forma determinística, pois obtêm todos os exemplos de treinamento em cada iteração para calcular as direções de atualização dos estimadores fracos.

Portanto, o GBM clássico leva todos os exemplos de treinamento ao mesmo tempo durante cada etapa de treinamento.

**Stochastic GBM**

No Stochastic GBM, as atualizações nos pesos dos erros residuais são feitas estocasticamente, ou seja, apenas um subconjunto aleatório dos exemplos de treinamento é escolhido em cada iteração para calcular a atualização deles.

Este subconjunto é escolhido aleatoriamente do restante dos dados de treinamento com ou sem reposição, dependendo da implementação específica.