# EBAC - Profissão Cientista de Dados
## Módulo 23: Combinação de Modelos I
## Exercício 1


**1) Cite 5 diferenças entre o Random Forest e o
AdaBoost**

- Método de construção do modelo: O Random Forest é um algoritmo de bagging que combina várias árvores de decisão para tomar decisões finais, enquanto o Adaboost é um algoritmo de boosting que combina várias versões de um classificador fraco chamado stumps(toco em português) que é uma árvore de apenas 1 nó e duas folhas.


- Independência entre as árvores: No Adaboost, para cada item da base de treinamento é atribuído a um peso que é atualizado a cada iteração do algoritmo. Itens mal classificados recebem pesos mais altos para que o próximo classificador fraco se concentre neles. No Random Forest, cada árvore é treinada independentemente, sem considerar pesos para os exemplos de treinamento.


- Peso das respostas das árvores:  No Random Forest, a decisão final é tomada por meio de votação majoritária das árvores individuais. Cada árvore contribui com um voto igualmente ponderado. No Adaboost, a decisão final é baseada na soma ponderada dos resultados dos stumps, onde cada um deles tem um peso atribuído com base em seu desempenho.


- Desbalanceamento de classes: O Random Forest é mais robusto a conjuntos de dados desbalanceados, onde as classes têm quantidades significativamente diferentes de instâncias/registros. Como as amostras são selecionadas aleatoriamente com substituição, as árvores podem ser treinadas com instâncias de diferentes classes evitando que as árvores sejam excessivamente influenciadas pela classe majoritária e permite que elas aprendam caracterípois quando uma classe tem uma quantidade significativamente menor de exemplos do que a outra, os exemplos da classe minoritária geralmente são considerados mais difíceis de classificar corretamente e os stumps irão errar mais a classificação destas instâncias, portanto elas vão receber pesos mais altos o que significa que os classificadores fracos são incentivados a se concentrar mais nesses exemplos durante o treinamento. Isso pode levar a uma classificação inadequada da classe majoritária, já que ela recebe menos atenção durante o treinamento.


- Treinamento em paralelo: O Random Forest permite treinar as árvores individualmente em paralelo, o que pode acelerar o processo de treinamento em sistemas com recursos de processamento paralelo. Já o Adaboost treina os stumps sequencialmente, onde cada classificador depende dos resultados do anterior, tornando o treinamento mais suscetível a restrições de tempo.

**2) Acesse o link do Scikit-learn – adaboost, leia a explicação (traduza se for preciso) e crie um jupyter notebook contendo o exemplo do AdaBoost.**
https://scikit-learn.org/stable/modules/ensemble.html

In [3]:
from sklearn.model_selection import cross_val_score
from sklearn.datasets import load_iris
from sklearn.ensemble import AdaBoostClassifier

#Carregando o conjunto de dados Iris
X, y = load_iris(return_X_y=True)
#Cria um classificador AdaBoost com 100 estimadores (classificadores fracos -stumps)
clf = AdaBoostClassifier(n_estimators=100)
# Realiza a validação cruzada (k-fold) com 5 folds usando o AdaBoost
scores = cross_val_score(clf, X, y, cv=5)
#Calcula a média das pontuações obtidas durante a validação cruzada
scores.mean()

0.9466666666666665

**3) Cite 5 Hyperparametros importantes no AdaBoost.**

 **- base_estimator:** Este hiperparâmetro define o classificador fraco utilizado como base para construir o classificador forte no AdaBoost. Por default o base_estimator é uma árvire de decição com profundidade máxima igual a 1, ou seja, é um objeto criado pela função DecisionTreeClassifier(max_depth=1).
 

**- n_estimators:** Esse hiperparâmetro define o número de estimadores (classificadores fracos -stumpers) que serão combinados para formar o classificador forte. Um maior número de estimadores pode aumentar a capacidade de aprendizado do modelo, mas também pode levar a um aumento no tempo de treinamento.


**- learning_rate:** Esse hiperparâmetro define o peso aplicado a cada classificador em cada iteração de reforço. Uma maior learning_rate  aumenta a contribuição de cada classificador.


**- algorithm:** Esse hiperparâmetro especifica o algoritmo utilizado para atualizar os pesos das instâncias durante o treinamento do AdaBoost. As opções são "SAMME" e "SAMME.R". O "SAMME.R" é uma versão otimizada do "SAMME" que permite estimar probabilidades de classe e que normalmente converge mais rápido do que o SAMME.


**- random_state:** Esse hiperparâmetro controla a semente usada pelo gerador de números aleatórios. Isso afeta a reprodutibilidade dos resultados. Definir um valor fixo para random_state permite que os resultados sejam reproduzidos em diferentes execuções.

**4) (Opcional) Utilize o GridSearch para encontrar os melhores hyperparametros para o conjunto de dados do exemplo (load_iris)**

In [14]:
%%time
from sklearn.model_selection import cross_val_score
from sklearn.datasets import load_iris
from sklearn.ensemble import AdaBoostClassifier
from sklearn.model_selection import GridSearchCV

#Carregando o conjunto de dados Iris
X, y = load_iris(return_X_y=True)
#Cria um classificador AdaBoost com 100 estimadores (classificadores fracos -stumps)
clf = AdaBoostClassifier(n_estimators=100)

# Definindo os hiperparâmetros a serem testados no GridSearch
param_grid = {
    'n_estimators': [50, 100, 150, 200,300],
    'learning_rate': [0.1, 0.5, 1.0]
    
    }

# Criando o objeto GridSearchCV
grid_search = GridSearchCV(estimator=clf, param_grid=param_grid, cv=5)

# Realizando o GridSearch para encontrar os melhores hiperparâmetros
grid_search.fit(X, y)

# Obtendo os hiperparâmetros que tiveram o melhor resultado
melhores_hparam = grid_search.best_params_

# Imprimindo os melhores hiperparâmetros encontrados
print("Melhores hiperparâmetros encontrados:")
print(melhores_hparam )



Melhores hiperparâmetros encontrados:
{'learning_rate': 0.5, 'n_estimators': 50}
CPU times: total: 8.48 s
Wall time: 14 s


In [15]:
#Criando o classificador AdaBoost com os melhores hiperparâmetros encontrados utilizando o grid_Search.best_params 
clf = AdaBoostClassifier(**melhores_hparam) # o operador ** é utilizado para passar um dicionário como argumento para uma função ou construtor, descompactando-o em pares chave-valor.
# Realiza a validação cruzada (k-fold) com 5 folds usando o AdaBoost
scores = cross_val_score(clf, X, y, cv=5)
#Calcula a média das pontuações obtidas durante a validação cruzada
scores.mean()

0.9533333333333334

In [16]:
#Outra forma utilizando best_estimator
#Recebe oo classificador AdaBoost com os melhores hiperparâmetros encontrados
clf = grid_search.best_estimator_
# Realiza a validação cruzada (k-fold) com 5 folds usando o AdaBoost
scores = cross_val_score(clf, X, y, cv=5)
#Calcula a média das pontuações obtidas durante a validação cruzada
scores.mean()

0.9533333333333334