# 5.3 - Boosting

O termo 'Boosting' refere-se a uma família de algoritmos que converte alunos fracos em alunos fortes. Boosting é um método de conjunto para melhorar as previsões do modelo de qualquer algoritmo de aprendizagem. A ideia do boost é treinar sequencialmente os alunos fracos, cada um tentando corrigir seu antecessor.

![fig_1](https://i.ibb.co/qCtThMm/random-forest-drawio-1.png)

## Tipos de Boosting

### AdaBoost

Adaboost combina vários alunos fracos em um único aluno forte. Os alunos fracos no AdaBoost são árvores de decisão com uma única divisão, chamadas de tocos de decisão. Quando o AdaBoost cria seu primeiro toco de decisão, todas as observações são ponderadas igualmente. Para corrigir o erro anterior, as observações que foram classificadas incorretamente agora têm mais peso do que as observações que foram classificadas corretamente. Os algoritmos AdaBoost podem ser usados para problemas de classificação e regressão.

![fig_2](https://i.ibb.co/0J5D6fH/boosting-1-drawio.png)

Como podemos ver acima, o primeiro coto de decisão (D1) é feito separando a região (+) azul da região (-) vermelha. Notamos que D1 tem três classificados incorretamente (+) na região vermelha. A classificação incorreta (+) agora terá mais peso do que as outras observações e será fornecida ao segundo aluno. O modelo continuará e ajustará o erro enfrentado pelo modelo anterior até que o preditor mais preciso seja construído.

#### Em Python

* Importando bibliotecas

In [1]:
from sklearn.ensemble import AdaBoostClassifier
from sklearn import datasets
from sklearn.model_selection import train_test_split
from sklearn import metrics

* Importando os dados

In [2]:
iris = datasets.load_iris()
X = iris.data
y = iris.target

In [3]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3)

* Construindo o modelo

In [4]:
abc = AdaBoostClassifier(n_estimators=50,
                         learning_rate=1)
model = abc.fit(X_train, y_train)
y_pred = model.predict(X_test)

Os parâmetros mais importantes são:
* <code>base_estimator</code>: É um aluno fraco usado para treinar o modelo. Ele usa o DecisionTreeClassifier como aluno fraco padrão para fins de treinamento. Você também pode especificar diferentes algoritmos de aprendizado de máquina;
* <code>n_estimators</code>: Número de alunos fracos para treinar iterativamente;
* <code>learning_rate</code>: 
Contribui para o peso dos alunos fracos. Ele usa 1 como valor padrão

Avaliando o modelo

In [6]:
print("Accuracy:{:.2f}".format(metrics.accuracy_score(y_test, y_pred)))

Accuracy:0.96


#### Vantagens:

AdaBoost é fácil de implementar. Ele corrige iterativamente os erros do classificador fraco e melhora a precisão combinando alunos fracos. Você pode usar muitos classificadores básicos com AdaBoost. AdaBoost não é propenso a overfitting. Isso pode ser descoberto por meio dos resultados do experimento, mas não há nenhuma razão concreta disponível.

#### Desvantagens:

AdaBoost é sensível a dados de ruído. É altamente afetado por outliers porque tenta ajustar cada ponto perfeitamente. AdaBoost é mais lento em comparação com XGBoost.

## Gradient Boosting

Assim como o AdaBoost, o Gradient Boosting funciona adicionando preditores sequencialmente a um conjunto, cada um corrigindo seu predecessor. No entanto, em vez de alterar os pesos para cada observação classificada incorreta em cada iteração como AdaBoost, o método Gradient Boosting tenta ajustar o novo preditor aos erros residuais feitos pelo preditor anterior.

![fig_3](https://miro.medium.com/max/700/1*FQulhlORGZcoUByMORaLAA.png)


GBM usa Gradient Descent para encontrar as deficiências nas previsões do aluno anterior. O algoritmo GBM pode ser fornecido seguindo as etapas:
* Ajustar um modelo aos dados, F1 (x) = y
* Ajuste um modelo aos resíduos, h1 (x) = y − F1 (x)
* Crie um novo modelo, F2 (x) = F1 (x) + h1 (x)
* Ao combinar aluno fraco após aluno fraco, nosso modelo final é capaz de dar conta de grande parte do erro do modelo original e reduz esse erro com o tempo.

#### Em Python

Importando bibliotecas

In [12]:
from sklearn.ensemble import GradientBoostingClassifier

Usando o mesmo conjunto de dados anterior e aplicando o método de Gradient Boosting

In [None]:
gbf = GradientBoostingClassifier() 
model_gbc = gbf.fit(X_train, y_train)
y_pred_gbc = model_gbc.predict(X_test)

Alguns dos parâmetros esperados por este algoritmo incluem:

* <code>perda</code>: definindo a função de perda a ser otimizada;
* <code>learning_rate</code>: que determina a contribuição de cada árvore;
* <code>n_estimatorst</code>: dita o número de árvores de decisão;
* <code>max_depth</code>: é a profundidade máxima de cada estimador;

In [11]:
print("Accuracy:{:.2f}".format(metrics.accuracy_score(y_test, y_pred_gbc)))

Accuracy:0.96
