# <code style="color:red">Adaboost:</code>

Random Forest Algorithm é um algoritmo de aprendizado de máquina comumente usado que combina a saída de várias árvores de decisão para obter um único resultado. Ele lida com problemas de classificação e regressão, pois combina a simplicidade das árvores de decisão com flexibilidade, levando a melhorias significativas na precisão.

Algoritmo AdaBoost (Adaptive Boosting) , é um método de Boosting usado como um Ensemble Machine Learning System. Os pesos de cada árvore são redistribuídos a cada turno, com pesos maiores atribuídos a condições incorretamente classificadas, por isso é chamado de Adaptive Boosting. O AdaBoost usa várias árvores de tomada de decisão de nível único chamadas de Floresta das Árvores. 

### <code style="color:blue">Tamanho da árvore:</code>

RF: Usa uma árvore de decisão de tamanho normal sem tamanho de profundidade predeterminado.

AB: combina muitos “weak learners (aprendizes fracos)” para fazer classificações. Os alunos fracos são quase sempre tocos.

### <code style="color:blue">Distribuição de dizer para cada árvore:</code>

RF: Cada árvore tem um voto igual na classificação final.

AB: Alguns tocos têm mais influência na classificação do que outros.

### <code style="color:blue">Precisão de classificação:</code>
Precisão de classificação:

RF: O Random Forest geralmente é superado pelo AdaBoost em termos de precisão de classificação.

AB: O AdaBoost costuma ser muito melhor em fazer classificações precisas.

### <code style="color:blue">Ordem de Construção de Árvore:</code>

RF:Cada árvore de decisão é feita independentemente das outras

AB:Cada toco é feito levando em consideração os erros do toco anterior.



### <code style="color:blue">Tolerância de sobreajuste:</code>


RF: A Random Forest é menos sensível ao overfitting em comparação com o AdaBoost.

AB: O Adaboost também é menos tolerante ao overfitting do que o Random Forest.



### <code style="color:blue">Técnica de Amostragem de Dados:</code>


RF: Os dados de treinamento são amostrados com base na técnica de ensacamento.

AB: Adaboost é baseado na técnica de boosting. 



### <code style="color:blue">Cálculo Estimado:</code>


RF: Visa diminuir a variância e não o viés.

AB: Visa diminuir o viés, não a variância.



### <code style="color:blue">Operação de combinação:</code>


RF: Random Forest emprega montagem paralela. O Forest processa árvores em paralelo, permitindo que os trabalhos sejam paralelizados em uma máquina multiprocessadora.

AB: Adaboost faz uso de agrupamento sequencial. É preciso um método passo a passo.



# <code style="color:red">Exemplo 01 de Adaboost:</code>

In [1]:
>>> from sklearn.model_selection import cross_val_score
>>> from sklearn.datasets import load_iris
>>> from sklearn.ensemble import AdaBoostClassifier

>>> X, y = load_iris(return_X_y=True)
>>> clf = AdaBoostClassifier(n_estimators=100)
>>> scores = cross_val_score(clf, X, y, cv=5)
>>> scores.mean()

0.9466666666666665

# <code style="color:red">Exemplo 02 de Adaboost:</code>

In [2]:

# Load libraries
from sklearn import datasets
# Import train_test_split function
from sklearn.model_selection import train_test_split
#Import scikit-learn metrics module for accuracy calculation
from sklearn import metrics
from sklearn.ensemble import AdaBoostClassifier

# Import Support Vector Classifier
from sklearn.svm import SVC
#Import scikit-learn metrics module for accuracy calculation
from sklearn import metrics
svc=SVC(probability=True, kernel='linear')

# Create adaboost classifer object
abc =AdaBoostClassifier(n_estimators=100, base_estimator=svc,learning_rate=1)

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3)

# Train Adaboost Classifer
model = abc.fit(X_train, y_train)

#Predict the response for test dataset
y_pred = model.predict(X_test)


# Model Accuracy, how often is the classifier correct?
print("Accuracy:",metrics.accuracy_score(y_test, y_pred))

Accuracy: 0.9111111111111111




# <code style="color:red">Hyperparameters:</code>

estimatorobject, n_estimators, learning_rate, algorithm, random_state, base_estimator 

# <code style="color:red">Grid Search:</code>

In [3]:
%%time
import numpy as np
import pandas as pd

# example of grid searching key hyperparameters for adaboost on a classification dataset
from sklearn.datasets import make_classification
from sklearn.model_selection import RepeatedStratifiedKFold
from sklearn.model_selection import GridSearchCV
from sklearn.ensemble import AdaBoostClassifier
from sklearn.model_selection import cross_val_score
from sklearn.datasets import load_iris
from sklearn.ensemble import AdaBoostClassifier

X, y = load_iris(return_X_y=True)

# define the model with default hyperparameters
model = AdaBoostClassifier()

# define the grid of values to search
grid = dict()
grid['n_estimators'] = [10, 50, 100, 500]
grid['learning_rate'] = [0.0001, 0.001, 0.01, 0.1, 1.0]

# define the evaluation procedure
cv = RepeatedStratifiedKFold(n_splits=10, n_repeats=3, random_state=1)

# define the grid search procedure
grid_search = GridSearchCV(estimator=model, param_grid=grid, n_jobs=-1, cv=cv, scoring='accuracy')

# execute the grid search
grid_result = grid_search.fit(X, y)

# summarize the best score and configuration
print("Best: %f using %s" % (grid_result.best_score_, grid_result.best_params_))

# summarize all scores that were evaluated
means = grid_result.cv_results_['mean_test_score']
stds = grid_result.cv_results_['std_test_score']
params = grid_result.cv_results_['params']
for mean, stdev, param in zip(means, stds, params):
    print("%f (%f) with: %r" % (mean, stdev, param))

Best: 0.948889 using {'learning_rate': 0.0001, 'n_estimators': 500}
0.666667 (0.000000) with: {'learning_rate': 0.0001, 'n_estimators': 10}
0.666667 (0.000000) with: {'learning_rate': 0.0001, 'n_estimators': 50}
0.666667 (0.000000) with: {'learning_rate': 0.0001, 'n_estimators': 100}
0.948889 (0.053564) with: {'learning_rate': 0.0001, 'n_estimators': 500}
0.666667 (0.000000) with: {'learning_rate': 0.001, 'n_estimators': 10}
0.948889 (0.053564) with: {'learning_rate': 0.001, 'n_estimators': 50}
0.948889 (0.053564) with: {'learning_rate': 0.001, 'n_estimators': 100}
0.922222 (0.048939) with: {'learning_rate': 0.001, 'n_estimators': 500}
0.948889 (0.053564) with: {'learning_rate': 0.01, 'n_estimators': 10}
0.922222 (0.048939) with: {'learning_rate': 0.01, 'n_estimators': 50}
0.922222 (0.048939) with: {'learning_rate': 0.01, 'n_estimators': 100}
0.926667 (0.049740) with: {'learning_rate': 0.01, 'n_estimators': 500}
0.922222 (0.048939) with: {'learning_rate': 0.1, 'n_estimators': 10}
0.922

In [5]:
cv

RepeatedStratifiedKFold(n_repeats=3, n_splits=10, random_state=1)