# Módulo 23 - Tarefa 2

### Random Forest

O Random Forest é uma técnica de aprendizado em conjunto, assim como o Bagging, que é utilizada para tarefas de classificação, regressão e outras. Seu funcionamento é baseado na criação de diversas árvores de decisão.

Quando se utiliza uma única árvore de decisão com grande profundidade, há uma tendência de que a mesma aprenda padrões específicos dos dados de treinamento, o que pode resultar em um overfitting. O Random Forest é uma maneira de lidar com este problema, permitindo que sejam criadas várias árvores com grande profundidade, treinadas em diferentes partes do conjunto de treinamento. A partir daí, uma média é calculada entre elas, com o objetivo de reduzir a variância do modelo.

Dessa forma, o Random Forest é uma técnica útil para lidar com problemas de overfitting e para melhorar a performance de modelos de aprendizado de máquina em geral. Além disso, ele apresenta a vantagem de ser relativamente fácil de implementar e de ser capaz de lidar com uma grande variedade de tipos de dados.

### Passo a Passo

#### Feature Bagging

O algoritmo de treinamento para a Random Forest aplica a técnica geral do Bootstrap Aggregating (Bagging) com uma pequena modificação dividindo também as colunas com as variáveis explicativas do modelo.
Dado uma base treinamento $D$ com $p$ colunas de variáveis explicativas $Xi$ e uma coluna com a variável resposta $Y$, iremos gerar $m$ novas bases de dados $Di$ com $\sqrt[2]{p}$ (arredondado para baixo) colunas de variáveis explicativas para um problema de classificação ou $p/3$ (arredondado para baixo) colunas de variáveis explicativas para um problema de regressão, recomenda-se também um tamanho mínimo de nó de valor 5.
As colunas de variáveis explicativas devem ser selecionadas aleatóriamente e as linhas para as novas bases de dados de treino devem ser selecionadas da base de treino original de maneira aleatóriamente e com reposição.

#### Modelagem

Depois de criadas as bases de treino $Di$ aplicamos o método de aprendizado de árvore (Árvore de Decisão) a cada uma das $m$ bases de treino $Di$.

#### Resultado

Depois de ajustarmos $m$ modelos utilizando as $m$ amostras obtidas no Feature Bagging, combinamos os resultados por sua média (para modelos de regressão) ou por votação (para modelos de classificação).

### Diferença entre Bagging e Random Forest

O Bagging é uma técnica de ensemble que cria múltiplos modelos independentes, enquanto a Random Forest é uma variação do Bagging que usa árvores de decisão como modelo base e usa amostragem aleatória dos recursos e do conjunto de dados de treinamento para reduzir a correlação entre as árvores. Ambas as técnicas são eficazes em melhorar a precisão do modelo e reduzir o overfitting.

### Implementando Random Forest

In [1]:
# Imports
import pandas as pd
import numpy as np

In [2]:
class DecisionTree:
    
    # Ajusta o modelo correspondente
    def fit(self, df: pd.DataFrame):
        return self
    # Retorna previsão do modelo correspondente
    def predict(self, X: pd.DataFrame) -> pd.Series:
        pass
     

In [3]:
def bootstrap(data_frame: pd.DataFrame, n_trees: int, n_cols: int) -> list[pd.DataFrame]:
    return [
        data_frame
        .sample(frac=1.0, replace=True)
        .sample(n_cols, axis=1) 
        for i in range(n_trees)
    ]

In [4]:
def modeling(samples: list[pd.DataFrame], trees: list[DecisionTree]) -> list[DecisionTree]:
    return [tree.fit(sample) for (sample, tree) in zip(samples, trees)]
     

In [5]:
def aggregate(trees: list[DecisionTree], X: pd.DataFrame) -> pd.Series:
    predictions = [tree.predict(X) for tree in trees]
    pred_len = len(predictions[0])
    final_pred = pd.Series( np.zeros(pred_len) )
    for pred in predictions:
        final_pred += pred
    final_pred /= len(predictions)