### **5 Diferenças entre o AdaBoost e o GBM**

- **Paralelismo:**
  - O **AdaBoost** não pode ser paralelizado facilmente, pois a construção dos modelos depende do resultado do modelo anterior. Já o **GBM** constrói árvores independentes após cada iteração, o que faz com que a paralelização seja mais adequada.


- **Construção dos modelos:**
  - Ambos adicionam os modelos de forma sequencial, porém o **AdaBoost** tenta corrigir os erros do modelo anterior, enquanto o **GBM** ajuda o modelo aos resíduos do modelo anterior, tentando minimizar os erros de forma geral.


- **Convergência:**
  - O **AdaBoost** costuma ser mais sensível à outliers e ruídos, enquanto o **GBM** é mais robusto, porém pode sofrer com overfitting caso os hiperparâmetros não sejam ajustados corretamente.


- **Complexidade:**
  - O **AdaBoost** usa modelos bases mais simples, conhecidos como weark learners. Já o **GBM** usa modelos base mais complexo, como árvores de decisão profunda

- **Hiperparâmetros:**
  - O **AdaBoost** possui menos hiperparâmetros. Já o **GBM** possui mais parâmetros ajustáveis, como a taxa de aprendizado.


In [25]:
from sklearn.ensemble import GradientBoostingRegressor
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.metrics import mean_squared_error
import pandas as pd
from sklearn.model_selection import train_test_split

In [26]:
df = pd.read_excel("/content/Vendas concluídas.xlsx")

In [27]:
df.dropna(inplace=True)

In [28]:
df1 = pd.get_dummies(df)

In [29]:
X = df1.drop("valor_acumulado", axis=1)
y = df1['valor_acumulado']

In [30]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

### Modelo de Regressão usando GBM

In [31]:
gbm_regression_model = GradientBoostingRegressor(n_estimators=100, learning_rate=0.1, max_depth=3, random_state=42)

In [32]:
gbm_regression_model.fit(X_train, y_train)

### Modelo de Classificação usando GBM

In [33]:
X = df.drop("consultor", axis=1)
y = df["consultor"]

In [38]:
X = pd.get_dummies(X)

In [39]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [40]:
gbm_classification_model = GradientBoostingClassifier(n_estimators=100, learning_rate=0.1, max_depth=3, random_state=42)

In [41]:
gbm_classification_model.fit(X_train, y_train)

### Cinco Hiperparâmetros importantes do Gradient Boosting


- **loss:** A função de perda a ser otimizada;

- **learning_rate:** Taxa de aprendizado que reduz a contribuição de cada árvore;

- **n_estimators:** O número de estágios de boosting a serem realizados. Os valores devem estar no intervalo [1, inf];

- **subsample:** A fração de amostras a serem usadas para ajustar os aprendizes base individuais;

- **criterion:** A função para medir a qualidade de uma divisão.



#### Busca de parâmetros utilizando GridSearch

In [42]:
from sklearn.model_selection import GridSearchCV

In [43]:
param_grid = {
    'n_estimators': [50, 100, 150],
    'learning_rate': [0.05, 0.1, 0.2],
    'max_depth': [3, 4, 5]
}

In [47]:
gbm_model = GradientBoostingClassifier()

In [48]:
grid_search = GridSearchCV(estimator=gbm_model, param_grid=param_grid, cv=5, scoring='neg_mean_squared_error', verbose=1, n_jobs=-1)

In [None]:
grid_search.fit(X_train, y_train)

Fitting 5 folds for each of 27 candidates, totalling 135 fits




In [None]:
best_params = grid_search.best_params_

In [None]:
best_params


A maior diferença entre o Stochastic Boosting e o Gradient Boosting é a forma como eles selecionam amostras para treinamento em cada iteração do algoritmo.

**Gradient Boosting:**

- No Gradient Boosting, todas as amostras são usadas para treinamento em cada iteração. Isso significa que cada novo modelo é ajustado aos resíduos do modelo anterior usando todos os exemplos disponíveis.

**Stochastic Boosting:**

- No Stochastic Boosting, apenas uma parte das amostras é usada para treinamento em cada iteração. Isso é feito selecionando um subconjunto aleatório (ou amostras com substituição) dos dados de treinamento. Essa abordagem é conhecida como Gradient Boosting Estocástico (Stochastic Gradient Boosting)