### Cinco diferenças entre AdaBoost e Gradient Boosting:

#### Florestas:

* AdaBoost:floresta de strumps (um nó e duas folhas) e cada strump influenciará na criação do strump posterior (bootstrap: amostragem com reposição). Cada strump terá um peso diferente na hora da resposta, a dependender do seu potencial preditivo. 
* Gradient Boosting: Floresta de árvores. Todas as respostas das árvores possuem um multiplicador em comum chamado learning_rate(eta).

#### Treinamento de Modelos:

* AdaBoost: Treina modelos sequencialmente, ajustando o foco para exemplos que foram mal classificados pelos modelos anteriores. O treinamento é adaptativo e os modelos são ajustados com base nos erros dos modelos anteriores.
* Gradient Boosting: O processo de Gradient Boosting ajusta iterativamente um modelo base para melhorar as previsões. Inicialmente, um modelo simples (média) faz a previsão. Em cada iteração seguinte, um novo modelo é treinado para prever os resíduos do modelo atual, e essas previsões são adicionadas ao modelo existente, ponderadas pela taxa de aprendizado. Esse processo é repetido para um número definido de iterações ou até que o modelo alcance um desempenho satisfatório.

#### Peso das Respostas das Árvores:

* AdaBoost: O modelo final é uma média ponderada das árvores, que leva em consideração o potencial preditivo de cada strump.
* Gradient Boosting: O modelo final é uma média das árvores, sendo que cada uma delas possui um multiplicador em comum que se chama learning_rate (eta), esse multiplicador geralmente recebe valores até 0.1 pois uma taxa de aprendizado mais baixa exige mais iterações e pode resultar em um modelo mais robusto e menos suscetível ao overfitting, mas há casos que essa taxa pode ser maior para melhorar a velocidade do modelo, podendo variar de 0 a 1. 


#### Desempenho e Ajuste:
* Adaboost: Geralmente requer menos ajuste e é mais fácil de implementar, mas pode ter desempenho inferior em conjuntos de dados com alto ruído. A redução de viés é a principal meta.
* Gradient Boosting: Oferece mais controle sobre o modelo através de vários hiperparâmetros (como taxa de aprendizado, profundidade das árvores e número de árvores), permitindo ajustes finos para evitar overfitting. Pode ser mais complexo de ajustar e implementar, mas oferece maior flexibilidade e potencial de desempenho.


#### Estratégia de Regularização:
* Adaboost: A regularização é implícita e ocorre através do ajuste dos pesos das instâncias de treinamento. Ao dar mais peso às instâncias mal classificadas, o AdaBoost pode ser mais suscetível ao overfitting em conjuntos de dados ruidosos. No entanto, a simplicidade dos modelos fracos (stumps) ajuda a limitar a complexidade e, portanto, a regularização é parcialmente gerenciada pela escolha dos modelos e pela forma como os erros são ponderados.
* Gradient Boosting: Oferece várias técnicas explícitas de regularização para controlar o ajuste do modelo e prevenir overfitting, como a profundidade das árvores que não pode ser controlada no AdaBoost já que se trata de stumps.

### Exemplo de Classificação e Regressão do GBM:
Os exemplos a seguir foram retirados [(aqui)](https://scikit-learn.org/stable/modules/ensemble.html).

#### Classificação:

In [1]:
from sklearn.datasets import make_hastie_10_2
from sklearn.ensemble import GradientBoostingClassifier

X, y = make_hastie_10_2(random_state=0) 

#X_train e y_train: Contêm os primeiros 2000 exemplos do conjunto. X_test e y_test: Contêm o restante. 
X_train, X_test = X[:2000], X[2000:]
y_train, y_test = y[:2000], y[2000:]

clf = GradientBoostingClassifier(n_estimators=100, learning_rate=1.0,
    max_depth=1, random_state=0).fit(X_train, y_train)
clf.score(X_test, y_test)

0.913

#### Explicação do Código:

* make_hastie_10_2: É uma função que gera um conjunto de dados sintético com duas classes. Este conjunto de dados é criado para simular um problema de classificação binária com características baseadas em um modelo de mistura gaussiana. O random state garante a reprodutibilidade desses dados para testes futuros.

* train e test: treino recebe os primeiros dois mil exemplos e teste o restante.

* GradientBoostingClassifier: É um classificador que utiliza o algoritmo de boosting, neste caso está utilizando alguns dos parâmetros que serão explicados abaixo. 

#### Regressão:

In [2]:
import numpy as np
from sklearn.metrics import mean_squared_error
from sklearn.datasets import make_friedman1
from sklearn.ensemble import GradientBoostingRegressor

X, y = make_friedman1(n_samples=1200, random_state=0, noise=1.0) #gera conjunto com valores contínuos com 1200 amostras e ruído para tornar o problema mais realista.

#train: primeiros 200, test: restante
X_train, X_test = X[:200], X[200:]
y_train, y_test = y[:200], y[200:]
est = GradientBoostingRegressor(
    n_estimators=100, learning_rate=0.1, max_depth=1, random_state=0,
    loss='squared_error' #função de perda a ser minimizada durante o treinamento.
).fit(X_train, y_train)
mean_squared_error(y_test, est.predict(X_test))

5.009154859960321

#### Explicação do Código:

* X, y = make_friedman1(n_samples=1200, random_state=0, noise=1.0):  gera conjunto com valores contínuos com 1200 amostras, random state para garantir reprodutibilidade e ruído para tornar o problema mais realista.
* train: primeiros 200 exemplos, test: restante.
* GradientBoostingRegressor: modelo de regressão com alguns dos parâmetros explicados na próxima célula.

### Hiperparametros importantes no GBM:
* max_features: Número máximo de características a serem consideradas para a melhor divisão em cada nó. Reduzir esse número pode aumentar a diversidade entre as árvores e melhorar a generalização.

* min_samples_leaf: Número mínimo de amostras necessárias para estar em um nó folha. Pode ajudar a controlar a complexidade das árvores.

* loss: Função de perda a ser minimizada. Pode ser 'squared_error', 'absolute_error', 'poisson', entre outros, dependendo do tipo de problema (regressão ou classificação).

* n_estimators: Número de árvores (ou estimadores) a serem usadas no passo a passo.  Um número maior de estimadores geralmente melhora a performance do modelo, pois mais árvores podem capturar padrões mais complexos. No entanto, pode também aumentar o risco de overfitting e o tempo de treinamento. Ajustar esse parâmetro envolve pensar um custo-benefício entre desempenho e tempo de computação.

* learning_rate: Taxa de aprendizado, que controla o impacto de cada árvore na previsão final. Uma taxa de aprendizado menor faz com que o modelo aprenda mais lentamente, o que geralmente requer mais árvores (n_estimators) para alcançar um desempenho ótimo. Taxas de aprendizado mais altas podem acelerar o treinamento, mas podem causar overfitting ou levar a um modelo menos robusto.

* max_depth: Profundidade máxima das árvores de decisão individuais. Árvores mais profundas podem capturar padrões mais complexos nos dados, mas também têm um risco maior de overfitting. Árvores rasas (menor profundidade) são mais simples e tendem a generalizar melhor, mas podem não capturar toda a complexidade dos dados.

* min_samples_split: Número mínimo de amostras necessárias para dividir um nó interno na árvore. Aumentar esse parâmetro faz com que as árvores se tornem mais conservadoras, reduzindo o risco de overfitting, mas pode levar a árvores muito simples e menos eficazes. Um valor menor pode resultar em árvores mais complexas, mas com risco maior de overfitting.

* subsample: Fração das amostras usadas para treinar cada árvore. Também conhecido como "bagging". Usar uma fração menor das amostras para treinar cada árvore pode ajudar a reduzir o overfitting e aumentar a robustez do modelo. No entanto, se o valor for muito baixo, o modelo pode não ter informações suficientes para aprender padrões complexos.

### Encontrando os melhores hiperparametros utilizando GridSearch:

#### Exemplo de Classificação: 

In [3]:
import numpy as np
from sklearn.datasets import make_hastie_10_2
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.model_selection import GridSearchCV
from sklearn.metrics import accuracy_score

# Gerar o conjunto de dados
X, y = make_hastie_10_2(random_state=0)

# Dividir os dados em conjuntos de treinamento e teste
X_train, X_test = X[:2000], X[2000:]
y_train, y_test = y[:2000], y[2000:]

# Definir a grade de parâmetros para GridSearch
param_grid = {
    'n_estimators': [50, 100, 150, 200],
    'learning_rate': [0.01, 0.1, 0.2],
    'max_depth': [1, 3, 5],
    'min_samples_split': [2, 5, 10],
    'subsample': [0.8, 0.9, 1.0]
}

# Configurar o GridSearchCV
grid_search = GridSearchCV(
    GradientBoostingClassifier(random_state=0),
    param_grid,
    cv=5,  # Validação cruzada com 5 folds
    scoring='accuracy',  # Usar acurácia como métrica de avaliação
    n_jobs=-1  # Usar todos os núcleos disponíveis
)

# Ajustar o GridSearchCV aos dados de treinamento
grid_search.fit(X_train, y_train)

# Obter os melhores parâmetros e o melhor modelo
best_params = grid_search.best_params_
best_model = grid_search.best_estimator_

# Avaliar o desempenho do melhor modelo no conjunto de teste
test_predictions = best_model.predict(X_test)
test_accuracy = accuracy_score(y_test, test_predictions)

print("Melhores parâmetros encontrados:", best_params)
print("Acurácia no conjunto de teste:", test_accuracy)


Melhores parâmetros encontrados: {'learning_rate': 0.2, 'max_depth': 3, 'min_samples_split': 5, 'n_estimators': 150, 'subsample': 0.8}
Acurácia no conjunto de teste: 0.91


O resultado obtido foi muito semelhante ao resultado trazido pelo exemplo da documentação.

### Exemplo de Regressão:

In [4]:
import numpy as np
from sklearn.metrics import mean_squared_error
from sklearn.datasets import make_friedman1
from sklearn.ensemble import GradientBoostingRegressor
from sklearn.model_selection import GridSearchCV

# Gerar o conjunto de dados
X, y = make_friedman1(n_samples=1200, random_state=0, noise=1.0)

# Dividir os dados em conjuntos de treinamento e teste
X_train, X_test = X[:200], X[200:]
y_train, y_test = y[:200], y[200:]

# Definir a grade de parâmetros para GridSearch
param_grid = {
    'n_estimators': [50, 100, 150, 200],
    'learning_rate': [0.01, 0.1, 0.2],
    'max_depth': [3, 5, 7],
    'min_samples_split': [2, 5, 10],
    'subsample': [0.8, 0.9, 1.0]
}

# Configurar o GridSearchCV
grid_search = GridSearchCV(
    GradientBoostingRegressor(random_state=0),
    param_grid,
    cv=5,  # Validação cruzada com 5 folds
    scoring='neg_mean_squared_error',  # Usar MSE negativo para maximizar
    n_jobs=-1  # Usar todos os núcleos disponíveis
)

# Ajustar o GridSearchCV aos dados de treinamento
grid_search.fit(X_train, y_train)

# Obter os melhores parâmetros e o melhor modelo
best_params = grid_search.best_params_
best_model = grid_search.best_estimator_

# Avaliar o desempenho do melhor modelo no conjunto de teste
test_predictions = best_model.predict(X_test)
test_mse = mean_squared_error(y_test, test_predictions)

print("Melhores parâmetros encontrados:", best_params)
print("Erro Quadrático Médio (MSE) no conjunto de teste:", test_mse)


Melhores parâmetros encontrados: {'learning_rate': 0.1, 'max_depth': 3, 'min_samples_split': 5, 'n_estimators': 200, 'subsample': 0.9}
Erro Quadrático Médio (MSE) no conjunto de teste: 3.5218851745037365


O resultado obtido foi melhor que o resultado trazido pela documentação, primeiro por testar mais parâmetros e pelas combinações que fez com esses parâmetros. O que 'peca' aqui é o tempo de processamento. 

### Principal diferença entre AdaBoost e Stochastic Gradient Boosting:

 A principal diferença entre AdaBoost e Stochastic Gradient Boosting (GBM) está na abordagem de amostragem durante o treinamento dos modelos. O AdaBoost ajusta o modelo base utilizando todas as amostras disponíveis e altera os pesos das amostras com base nos erros das iterações anteriores, realizando uma forma de amostragem com reposição, onde todas as amostras são utilizadas em cada iteração, mas com pesos ajustados. Em contraste, o Stochastic GBM adota uma abordagem de amostragem sem reposição, selecionando aleatoriamente uma fração dos dados para treinar o modelo em cada iteração. Essa amostragem estocástica ajuda a criar um modelo mais robusto e reduz o risco de overfitting, além de acelerar o treinamento ao diminuir a quantidade de dados utilizados em cada iteração, ao contrário da abordagem mais intensiva do AdaBoost.