## 1. Monte um passo a passo para o algoritmo RF

#### Bootstrap (amostragem com reposição):

Criar várias amostras do conjunto de dados original com reposição.

#### Seleção aleatória de features:

Para cada divisão (split) de uma árvore, escolher aleatoriamente um subconjunto de features em vez de usar todas.

#### Modelagem (criação das árvores):

Treinar uma árvore de decisão sem poda (cresce até o fim) para cada amostra bootstrap e usando os subconjuntos de features.

#### Agregação (ensemble):

#### Classificação: usar votação majoritária entre as árvores.

#### Regressão: usar a média das previsões.

## 2. Explique com suas palavras o Random forest

O Random Forest é uma coleção de árvores de decisão que trabalham juntas para fazer uma previsão melhor do que qualquer uma delas sozinha. Ele funciona como o Bagging, criando várias amostras dos dados, mas com um extra: cada árvore vê apenas uma parte aleatória das variáveis em cada decisão que ela toma. Isso evita que todas as árvores fiquem parecidas e melhora a diversidade do modelo. No final, todas as árvores "votam" e a maioria decide a resposta.

## 3. Qual a diferença entre Bagging e Random Forest?

O Random Forest é um Bagging com mais aleatoriedade para reduzir o risco de todas as árvores tomarem decisões parecidas.

In [1]:
import numpy as np
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score
from sklearn.utils import resample
from scipy.stats import mode

X, y = load_iris(return_X_y=True)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

n_estimators = 10
max_features = int(np.sqrt(X.shape[1])) 
random_state = 42
np.random.seed(random_state)

models = []

for i in range(n_estimators):

    X_sample, y_sample = resample(X_train, y_train, replace=True, random_state=random_state + i)

    feature_indices = np.random.choice(X.shape[1], max_features, replace=False)

    X_sample_sub = X_sample[:, feature_indices]
    X_test_sub = X_test[:, feature_indices]

    model = DecisionTreeClassifier(random_state=random_state + i)
    model.fit(X_sample_sub, y_sample)

    models.append((model, feature_indices))

predictions = []
for model, feature_indices in models:
    pred = model.predict(X_test[:, feature_indices])
    predictions.append(pred)

predictions = np.array(predictions).T
y_pred, _ = mode(predictions, axis=1)

accuracy = accuracy_score(y_test, y_pred)
print("Acurácia da Random Forest (manual):", accuracy)

Acurácia da Random Forest (manual): 1.0
