# Cinco diferenças entre o RandomForest e AdaBoost

#### Construção do ensemble:

- O Random Forest usa múltiplas árvores de decisão construídas independentemente, já o AdaBoost constrói modelos fracos sequencialmente, focando nos erros anteriores.

#### Peso de cada modelo:

 - O Random Forest não utiliza pesos nos modelos durante o treinamento, todos eles tem a mesma significância, já o AdaBoost atribui pesos aos modelos, focando mais nos que foram mal classificados.

#### Profundidade das árvores:

- O Random Forest geralmente utiliza árvores de decisão maiores, enquanto o AdaBoost constrói árvores apenas para corrigir os problemas das anteriores.


#### Probabilidade de overfitting:

- O Random Forest possui uma probabilidade maior de overfittar em comparação com o AdaBoost


#### Desempenho computacional:
 - O Random Forest é mais lento e eficiente em termos de computação, já o AdaBoost é mais lento já que a quantidade de iterações é maior



# Cinco Hiperparâmetros importantes para o AdaBoost


#### estimator (estimador):

- O estimador base a partir do qual o ensemble impulsionado é construído.


#### n_estimators (número de estimadores):

- O número máximo de estimadores nos quais o boosting é encerrado.


####learning_rate (taxa de aprendizado):

- Peso aplicado a cada classificador em cada iteração de boosting.


#### algorithm (algoritmo):

- Se 'SAMME.R', então use o algoritmo de boosting real SAMME.R. O estimador deve suportar o cálculo de probabilidades de classe. Se 'SAMME', então use o algoritmo de boosting discreto SAMME. O algoritmo SAMME.R geralmente converge mais rapidamente do que SAMME, alcançando um erro de teste menor com menos iterações de boosting.


#### random_state (estado aleatório):

- Controla a semente aleatória fornecida a cada estimador em cada iteração de boosting.


# Exemplo de um Modelo de Classificação usando AdaBoost

In [13]:
from sklearn.ensemble import AdaBoostClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
from sklearn.model_selection import GridSearchCV

In [2]:
iris = load_iris()

In [3]:
X = iris.data
y = iris.target

In [4]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [5]:
base_classifier = DecisionTreeClassifier(max_depth=1)

In [9]:
adaboost_classifier = AdaBoostClassifier(estimator=base_classifier, n_estimators=50, random_state=42)

In [10]:
adaboost_classifier.fit(X_train, y_train)

In [11]:
y_pred = adaboost_classifier.predict(X_test)

In [12]:
y_pred

array([1, 0, 2, 1, 1, 0, 1, 2, 1, 1, 2, 0, 0, 0, 0, 1, 2, 1, 1, 2, 0, 2,
       0, 2, 2, 2, 2, 2, 0, 0])

# Procurando os melhores parâmetros através do GridSearch

In [26]:
param_grid = {
    'estimator__max_depth': [1, 2, 3],
    'n_estimators': [50, 100, 150]
}

In [27]:
grid_search = GridSearchCV(adaboost_classifier, param_grid, cv=5, scoring='accuracy')

In [28]:
grid_search.fit(X_train, y_train)

In [29]:
best_params = grid_search.best_params_

In [30]:
"Melhores hiperparâmetros encontrados:", best_params

('Melhores hiperparâmetros encontrados:',
 {'estimator__max_depth': 3, 'n_estimators': 50})