# Atividade 01

## 1) Cite 5 diferenças entre o Random Forest e o AdaBoost

- Método de Construção: O Random Forest usa árvores de decisão independentes, enquanto o AdaBoost usa modelos fracos sequenciais.

- Peso das Instâncias: No AdaBoost, as instâncias mal classificadas têm mais peso, enquanto no Random Forest todas têm o mesmo peso.

- Forma de Combinação: O Random Forest usa votação majoritária, enquanto o AdaBoost usa pesos de precisão.

- Sensibilidade a Outliers: O AdaBoost é mais sensível, enquanto o Random Forest é mais robusto.

- Complexidade do Modelo Final: O Random Forest produz modelos mais complexos, enquanto o AdaBoost produz modelos mais simples.

## 2) Acesse o link Scikit-learn–adaboost, leia a explicação e crie um jupyter notebook contendo o exemplo do AdaBoost.

In [1]:
from sklearn import datasets
from sklearn.model_selection import cross_val_score
from sklearn.linear_model import LogisticRegression
from sklearn.naive_bayes import GaussianNB
from sklearn.ensemble import RandomForestClassifier
from sklearn.ensemble import VotingClassifier

iris = datasets.load_iris()
X, y = iris.data[:, 1:3], iris.target

clf1 = LogisticRegression(random_state=1)
clf2 = RandomForestClassifier(n_estimators=50, random_state=1)
clf3 = GaussianNB()

eclf = VotingClassifier(
    estimators=[('lr', clf1), ('rf', clf2), ('gnb', clf3)],
    voting='hard')

for clf, label in zip([clf1, clf2, clf3, eclf], ['Logistic Regression', 'Random Forest', 'naive Bayes', 'Ensemble']):
    scores = cross_val_score(clf, X, y, scoring='accuracy', cv=5)
    print("Accuracy: %0.2f (+/- %0.2f) [%s]" % (scores.mean(), scores.std(), label))

Accuracy: 0.95 (+/- 0.04) [Logistic Regression]
Accuracy: 0.94 (+/- 0.04) [Random Forest]
Accuracy: 0.91 (+/- 0.04) [naive Bayes]
Accuracy: 0.95 (+/- 0.04) [Ensemble]


## 3) Cite 5 Hyperparametros importantes no AdaBoost.

- n_estimators: Quantidade de modelos fracos.

- learning_rate: Peso de cada modelo.

- base_estimator: Tipo de modelo fraco.

- algorithm: Método de cálculo dos pesos.

- random_state: Semente aleatória.

## 4) Utilize o GridSearch para encontrar os melhores hyperparametros para o conjunto de dados do exemplo (load_iris)

In [2]:
from sklearn.model_selection import GridSearchCV
from prettytable import PrettyTable

# Definindo os hyperparâmetros a serem testados
params = {
    'lr__C': [0.1, 1.0, 10.0],
    'rf__n_estimators': [10, 50, 100],
    'voting': ['hard']
}

# Criando o objeto GridSearchCV
grid = GridSearchCV(estimator=eclf, param_grid=params, cv=5)

# Realizando a busca dos melhores hyperparâmetros
grid.fit(X, y)

# Obtendo os resultados
best_params = grid.best_params_

# Criando a tabela
table = PrettyTable(["Hyperparâmetro", "Melhor Valor"])
for param_name, param_value in best_params.items():
    table.add_row([param_name, param_value])

# Imprimindo os resultados
print("Melhores hyperparâmetros encontrados:")
print(table)

Melhores hyperparâmetros encontrados:
+------------------+--------------+
|  Hyperparâmetro  | Melhor Valor |
+------------------+--------------+
|      lr__C       |     1.0      |
| rf__n_estimators |      10      |
|      voting      |     hard     |
+------------------+--------------+


# Atividade 02

## 1) Cite 5 diferenças entre o AdaBoost e o GBM.

Ênfase em Exemplos Difíceis:
- AdaBoost: Atribui pesos às amostras mal classificadas para dar mais atenção a elas.
- GBM: Ajusta os pesos usando o gradiente do erro para minimizar a perda global.

Taxa de Aprendizado:
- AdaBoost: Usa uma taxa de aprendizado fixa.
- GBM: Permite variar a taxa de aprendizado.

Robustez a Outliers:
- AdaBoost: Mais sensível a outliers e ruídos.
- GBM: Mais robusto a esses problemas.

Complexidade dos Preditores:
- AddaBoost: Requer preditores fracos.
- GBM: Pode usar preditores fortes, como árvores profundas.

Funções de Perda:
- AdaBoost: Tem duas opções de função de perda.
- GBM: Pode usar qualquer função de perda diferenciável.

## 2) Acesse o link Scikit-learn – GBM, leia a explicação (traduza se for preciso) e crie um jupyter notebook contendo o exemplo de classificação e de regressão do GBM.

In [3]:
# Exemplo de Classificação GBM:
from sklearn.datasets import make_hastie_10_2
from sklearn.ensemble import GradientBoostingClassifier

X, y = make_hastie_10_2(random_state=0)
X_train, X_test = X[:2000], X[2000:]
y_train, y_test = y[:2000], y[2000:]

clf = GradientBoostingClassifier(n_estimators=100, learning_rate=1.0,
    max_depth=1, random_state=0).fit(X_train, y_train)
clf.score(X_test, y_test)

0.913

In [4]:
# Exemplo de Regressão GBM:
from sklearn.metrics import mean_squared_error
from sklearn.datasets import make_friedman1
from sklearn.ensemble import GradientBoostingRegressor

X, y = make_friedman1(n_samples=1200, random_state=0, noise=1.0)
X_train, X_test = X[:200], X[200:]
y_train, y_test = y[:200], y[200:]
est = GradientBoostingRegressor(
    n_estimators=100, learning_rate=0.1, max_depth=1, random_state=0,
    loss='squared_error'
).fit(X_train, y_train)
mean_squared_error(y_test, est.predict(X_test))

5.009154859960321

## 3) Cite 5 Hyperparametros importantes no GBM.

- n_estimators: Define o número de árvores no modelo, afetando a complexidade e o tempo de treinamento.

- learning_rate: Controla a contribuição de cada árvore para o modelo, influenciando a taxa de aprendizado e a robustez.

- max_depth: Limita a profundidade das árvores, ajudando a evitar overfitting.

- min_samples_split: Define o número mínimo de amostras para dividir um nó, regulando a complexidade das divisões das árvores.

- min_samples_leaf: Especifica o número mínimo de amostras em uma folha, controlando a complexidade das folhas da árvore e ajudando a evitar overfitting.

## 4) Utilize o GridSearch para encontrar os melhores hyperparametros para o conjunto de dados do exemplo

In [1]:
from prettytable import PrettyTable
from sklearn.model_selection import GridSearchCV
from sklearn.datasets import load_iris
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier
from sklearn.naive_bayes import GaussianNB
from sklearn.ensemble import VotingClassifier

# Carregando o conjunto de dados iris
iris = load_iris()

# Definindo os classificadores
clf1 = LogisticRegression(random_state=1, max_iter=1000)
clf2 = RandomForestClassifier(random_state=1)
clf3 = GaussianNB()

# Definindo o classificador de votação
eclf = VotingClassifier(
    estimators=[('lr', clf1), ('rf', clf2), ('gnb', clf3)],
    voting='soft'
)

# Definindo os parâmetros a serem testados
params = {'lr__C': [1.0, 100.0], 'rf__n_estimators': [20, 200]}

# Executando o GridSearchCV
grid = GridSearchCV(estimator=eclf, param_grid=params, cv=5)
grid = grid.fit(iris.data, iris.target)

# Obtendo os resultados do GridSearch
best_params = grid.best_params_
best_score = grid.best_score_

# Criando uma tabela com os resultados
table = PrettyTable()
table.field_names = ["Melhores Parâmetros", "Pontuação do Melhor Modelo"]
table.add_row([best_params, best_score])

# Imprimindo a tabela
print("Resultados do GridSearch:")
print(table)

Resultados do GridSearch:
+-----------------------------------------+----------------------------+
|           Melhores Parâmetros           | Pontuação do Melhor Modelo |
+-----------------------------------------+----------------------------+
| {'lr__C': 1.0, 'rf__n_estimators': 200} |            0.96            |
+-----------------------------------------+----------------------------+


## 5) Correção da maior diferença entre GBM e Stochastic GBM:

A maior diferença entre o GBM e o SGBM é que o SGBM usa mais sorteio do que o GBM na hora de criar as árvores de decisão e escolher os dados de treinamento. Isso faz com que o SGBM seja mais variado e menos viciado do que o GBM, o que pode ser bom ou ruim dependendo da situação. Os dois algoritmos são formas de melhorar o Gradient Boosting, que é um método que combina várias árvores de decisão para criar um modelo mais forte.

Chamamos de amostragem aleatória quando você usa apenas uma parte dos dados de treinamento para cada modelo, em vez de usar todos. Isso ajuda a evitar que o modelo se adapte demais aos dados de treinamento e perca a capacidade de generalizar para novos dados.