### Atividade 1 - Monte um passo a passo para o algoritmo Random Forest

O Random Forest apresenta os seguintes passos:

- Bootstrap + features selection: criação de amostras aleatórias de treinamento com reposição a partir do conjunto de dados de treinamento original. Essas novas amostras têm o mesmo número de linhas do conjunto de dados original e mas cada linha pode se repetir, umas vez que a amostragem com reposição permite que cada observação seja selecionada mais de uma vez.  <br> Além das linhas, também será feita uma amostragem aleatória de colunas. Considerando o número de colunas dos dados originais como `p` e dos subconjuntos como `m`, a escolha seria a seguinte: (1) para modelos de classificação: m = $\sqrt{p}$ ; (2) para modelos de regressão: m = $\frac{p}{3}$. 
- Modelagem: montagem de um modelo para cada amostra bootstrap criada, de forma independente. Esses modelos devem ser árvore de decisão.
- Agregação (Aggregating): os resultados dos modelos individuais são agregados para formar uma única previsão, mais robusta e confiável. No caso de problemas de classificação, a agregação geralmente é feita por votação , onde a classe mais comum entre os modelos é selecionada. Para problemas de regressão, a agregação é feita calculando-se a média dos resultados dos modelos.

### Atividade 2 - Explique com suas palavras o Random Forest

O Random Forest é uma variação do Bagging, sendo também um exemplo de técnica de ensemble, em que modelos são combinados em um algoritmo com o objetivo de obter um modelo final, mais confiável e com melhores resultados. No caso do Random Forest, são criadas amostras com o mesmo número de linhas do dataset original, mas com número de colunas diferentes. Cada amostra será utilizada para treinar um modelo de forma independente e esse modelo deve ser uma árvore de decisão. No final, os modelos são agregados, dando origem a um modelo final mais robusto, que entenda melhor os dados e evite o overfitting.

### Atividade 3 - Qual a diferença entre Bagginge Random Forest?

A principal diferença entre as duas técnicas é a menor variância devido à uma menor correlação entre os subconjuntos no Random Forest. Uma vez que o número de colunas dos subconjuntos não é o mesmo do dataset original, há uma menor correlação entre eles, gerando um resultado mais robusto.
No caso do Bagging, os subconjuntos são mais correlacionados, pois apresentam o mesmo número de linhas e colunas dos dados originais. <br>
Além disso, no caso do Bagging os subconjuntos podem ser modelados de várias formas, no Random Forest devem ser árvores de decisão. 

### Atividade 4 - Implementar em python o código do Random Forest

In [13]:
import numpy as np
from sklearn.datasets import load_digits
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
from sklearn.tree import DecisionTreeClassifier

In [14]:
# Função para realizar amostragem bootstrap

def bootstrap_sampling(X, y):
    n_samples = X.shape[0]
    indices = np.random.randint(0, n_samples, size=n_samples)
    return X[indices], y[indices]

In [20]:
# Função para treinar uma árvore de decisão

def train_decision_tree(X, y, max_depth=None):
    tree = DecisionTreeClassifier(max_depth=max_depth)
    tree.fit(X, y)
    return tree

In [21]:
# Função para fazer previsões usando o conjunto de árvores de decisão

def predict_forest(forest, X):
    predictions = np.zeros((X.shape[0], len(forest)), dtype=int) #matriz para armazenar as previsões feitas por cada árvore de decisão
    for i, tree in enumerate(forest):
        predictions[:, i] = tree.predict(X)
    return predictions

In [22]:
# Função para calcular a moda das previsões

def calculate_mode(predictions):
    return np.apply_along_axis(lambda x: np.bincount(x).argmax(), axis=1, arr=predictions)

In [23]:
# Carregando o conjunto de dados digits
digits = load_digits()
X, y = digits.data, digits.target

# Dividindo o conjunto de dados em treino e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Definindo os parâmetros do Random Forest
num_trees = 10
max_depth = 5  # Profundidade máxima das árvores

# Inicializando a lista para armazenar as árvores do Random Forest
forest = []

In [24]:
# Treinando cada árvore do Random Forest

for _ in range(num_trees):
    X_bootstrap, y_bootstrap = bootstrap_sampling(X_train, y_train)
    tree = train_decision_tree(X_bootstrap, y_bootstrap, max_depth=max_depth)
    forest.append(tree)

In [25]:
# Fazendo previsões usando o Random Forest

predictions = predict_forest(forest, X_test)

In [26]:
# Calculando as previsões finais

final_predictions = calculate_mode(predictions)

In [30]:
# Calculando a acurácia

accuracy = accuracy_score(y_test, final_predictions)
print("Acurácia do Random Forest:", round(accuracy,2))

Acurácia do Random Forest: 0.82
