### RANDOM FOREST

É um algoritmo de aprendizado de máquina que combina a saída de várias árvores de decisão para alcançar um único resultado.

#### PASSO A PASSO 

1. Bootstrap + Feature Selection
Amostragem aleatória de 'n' exemplos com reposição do conjunto original.
2. Seleção de Características
Selecionar aleatoriamente um subconjunto de características de tamanho 'max_features'
3. Modelagem com Decision Trees:
Para cada amostra bootstrap e subconjunto de características, construir uma árvore de decisão
4. Agregação
Para fazer uma previsão final, agregar as previsões de todas as árvores (por votação majoritária ou média, dependendo do caso)

### DIFERENÇA ENTRE BAGGING E RANDOM FOREST

Seleção de Amostras: O Bagging utiliza amostragem com reposição para criar subconjuntos do conjunto de dados de treinamento. Isso significa que algumas amostras podem ser selecionadas mais de uma vez para cada subconjunto, enquanto outras podem não ser selecionadas. Já o Random Forest utiliza amostragem sem reposição, onde cada amostra é selecionada apenas uma vez para cada subconjunto.

Seleção de Variáveis: No Bagging, todas as variáveis disponíveis são utilizadas na construção de cada árvore de decisão. No Random Forest, um subconjunto aleatório de variáveis é selecionado para cada divisão em cada árvore de decisão. Esse processo, conhecido como seleção aleatória de variáveis, contribui para reduzir a correlação entre as árvores e aumentar a diversidade do conjunto final.

Interpretação: O Bagging geralmente é mais fácil de interpretar do que o Random Forest, pois as árvores de decisão individuais são construídas com base em todo o conjunto de dados. Já no Random Forest, a seleção aleatória de variáveis torna a interpretação individual das árvores mais complexa, mas contribui para a robustez geral do modelo.

#### Implementar em python o Random Forest

In [1]:
# Bootstrap
import numpy as np
import pandas as pd

def bootstrap_sample(X, y):
    n_samples = X.shape[0]
    indices = np.random.choice(n_samples, size=n_samples, replace=True)
    return X[indices], y[indices]


# Feature Selection
def feature_selection(X, n_features):
    features = np.random.choice(X.shape[1], n_features, replace=False)
    return features

# Modelagem com Decision Trees
from sklearn.tree import DecisionTreeClassifier

class SimpleRandomForest:
    def __init__(self, n_estimators=100, max_features='sqrt'):
        self.n_estimators = n_estimators
        self.max_features = max_features
        self.trees = []
        self.features = []

    def fit(self, X, y):
        for _ in range(self.n_estimators):
            X_sample, y_sample = bootstrap_sample(X, y)
            if self.max_features == 'sqrt':
                n_features = int(np.sqrt(X.shape[1]))
            elif self.max_features == 'log2':
                n_features = int(np.log2(X.shape[1]))
            else:
                n_features = X.shape[1]
            
            features = feature_selection(X, n_features)
            tree = DecisionTreeClassifier()
            tree.fit(X_sample[:, features], y_sample)
            self.trees.append(tree)
            self.features.append(features)

    def predict(self, X):
        tree_preds = np.array([tree.predict(X[:, features]) for tree, features in zip(self.trees, self.features)])
        return np.swapaxes(tree_preds, 0, 1).mode(axis=1)[0]


# Agregação
from scipy.stats import mode

def predict(self, X):
    tree_predict = np.array([tree.predict(X[:, features]) for tree, features in zip(self.trees, self.features)])
    return mode(tree_predict, axis=0)[0].flatten()

In [None]:
# Importação das bibliotecas
from sklearn.ensemble import RandomForestClassifier
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split

# Carregar dados
data = load_iris()
X, y = data.data, data.target
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Treinar Random Forest
rf = RandomForestClassifier(n_estimators=100, max_features='sqrt')
rf.fit(X_train, y_train)

# Prever e avaliar
y_pred = rf.predict(X_test)

# Avaliação
from sklearn.metrics import accuracy_score
print("Acurácia:", accuracy_score(y_test, y_pred))