Tarefa 1 
1. Cite 5 diferenças entre o Random Forest e o AdaBoost
2. Acesse o link Scikit-learn– adaboost , leia a explicação (traduza se for preciso) e crie um jupyter notebook contendo o exemplo do AdaBoost.
3. Cite 5 Hyperparametros importantes no AdaBoost.
4. (Opcional) Utilize o GridSearch para encontrar os melhores hyperparametros para o conjunto de dados do exemplo (load_iris)

### 1. Cite 5 diferenças entre o Random Forest e o AdaBoost

#### Random Forest: 
> - Baseia-se em Bagging (Bootstrap Aggregating). Cada árvore é construída de forma independente em subconjuntos diferentes do dataset.
> - Reduz a variância combinando previsões de várias árvores independentes e diversificadas.
> - Todas as árvores são construídas em paralelo e de forma independente.
> - Todas as árvores contribuem igualmente para a decisão final (votação por maioria ou média).
> - Funciona bem em datasets ruidosos e com outliers, pois as árvores são independentes e menos sensíveis a erros individuais.

#### AdaBoost:
> - Usa Boosting, onde cada modelo é treinado sequencialmente, e os erros das árvores anteriores influenciam o treinamento das próximas.
> - Reduz o viés dando maior peso às amostras mal classificadas, fazendo com que os modelos subsequentes se concentrem nesses erros.
> - As árvores são construídas sequentemente, onde cada árvore se ajusta aos erros das anteriores, atualizando os pesos das amostras.
> -  As árvores têm pesos diferentes na agregação final, com maior peso para aquelas que tiveram bom desempenho.
> -  É mais sensível a ruído e outliers, já que o algoritmo dá maior peso a amostras mal classificadas, o que pode levar a um desempenho inferior em dados ruidosos.

### 2. Acesse o link Scikit-learn– adaboost , leia a explicação (traduza se for preciso) e crie um jupyter notebook contendo o exemplo do AdaBoost.

> - Bootstrap: Treina um classificador base (por exemplo, uma Árvore de Decisão) com o dataset original, mas dá mais peso aos exemplos mal classificados.
> - Modelagem: Após cada iteração, o algoritmo ajusta os pesos das instâncias e treina um novo modelo focado nas amostras que foram mal classificadas anteriormente.
> - Agregação: Combina todos os modelos treinados em um ensemble, ponderando a decisão de cada um com base na performance.


In [6]:
from sklearn.ensemble import AdaBoostClassifier
from sklearn.datasets import make_classification
X, y = make_classification(n_samples=1000, n_features=4,
                           n_informative=2, n_redundant=0,
                           random_state=0, shuffle=False)
clf = AdaBoostClassifier(n_estimators=100, random_state=0)
clf.fit(X, y)
AdaBoostClassifier(n_estimators=100, random_state=0)
clf.predict([[0, 0, 0, 0]])
clf.score(X, y)



0.983

### 3. Cite 5 Hyperparametros importantes no AdaBoost.

1. n_estimators
> - Define o número de classificadores fracos (estimadores) a serem treinados sequencialmente.

2. learning_rate
> - Controla o peso atribuído a cada classificador fraco.

3. base_estimator
> - O tipo de modelo usado como classificador fraco, por exemplo, uma árvore de decisão rasa (DecisionTreeClassifier com max_depth=1).

4. algorithm
> - Pode ser 'SAMME' (para classificação multi-classe) ou 'SAMME.R' (mais eficiente, usa probabilidades).

5. random_state
> - Controla a semente aleatória para garantir reprodutibilidade.


### 4. Utilize o GridSearch para encontrar os melhores hyperparametros para o conjunto de dados do exemplo (load_iris)

In [19]:
%%time
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.ensemble import AdaBoostClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import classification_report

# Carregando o conjunto de dados Iris
X, y = load_iris(return_X_y=True)

# Dividindo o dataset em treino e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Configurando o classificador base (DecisionTreeClassifier)
estimator = DecisionTreeClassifier(random_state=42)

# Definindo os hiperparâmetros para o GridSearch
param_grid = {
    'n_estimators': [10, 50, 100, 200],  # Número de estimadores
    'learning_rate': [0.01, 0.1, 1.0],   # Taxa de aprendizado
    'estimator__max_depth': [1, 2, 3],  # Profundidade máxima da árvore base
    'algorithm': ['SAMME', 'SAMME.R']  # Tipo de algoritmo
}

# Instanciando o AdaBoost com a árvore como base
ada = AdaBoostClassifier(estimator=estimator, random_state=42)

# Configurando o GridSearchCV
grid_search = GridSearchCV(estimator=ada, param_grid=param_grid, cv=5, n_jobs=-1, verbose=1)

# Treinando o modelo com o GridSearch
grid_search.fit(X_train, y_train)

# Exibindo os melhores parâmetros encontrados
print("Melhores parâmetros:", grid_search.best_params_)

# Fazendo previsões no conjunto de teste
y_pred = grid_search.predict(X_test)

# Exibindo o relatório de classificação
print("\nRelatório de Classificação:")
print(classification_report(y_test, y_pred))


Fitting 5 folds for each of 72 candidates, totalling 360 fits
Melhores parâmetros: {'algorithm': 'SAMME', 'estimator__max_depth': 3, 'learning_rate': 0.1, 'n_estimators': 10}

Relatório de Classificação:
              precision    recall  f1-score   support

           0       1.00      1.00      1.00        19
           1       1.00      1.00      1.00        13
           2       1.00      1.00      1.00        13

    accuracy                           1.00        45
   macro avg       1.00      1.00      1.00        45
weighted avg       1.00      1.00      1.00        45

Wall time: 4.81 s
