### **Módulo 23** | Combinação de modelos I | Exercício 2

---

### Tarefa 02

**1. Monte um passo a passo para o algoritmo RF**

O Random Forest é uma técnica avançada de ensemble em Machine Learning que aprimora e expande os princípios do Bagging por meio de uma abordagem estruturada em três etapas fundamentais:

1. **Bootstrap + Seleção de Atributos**: Mantendo a essência do Bagging, o Random Forest começa com a geração de amostras aleatórias com reposição do conjunto de dados de treinamento original. A novidade reside na seleção de um subconjunto aleatório de atributos para cada amostra. Essa seleção visa aumentar a diversidade entre as árvores de decisão geradas, reduzindo a correlação entre elas. Na prática, para problemas de classificação, recomenda-se escolher a raiz quadrada do número total de atributos; para problemas de regressão, utiliza-se comumente um terço do total de atributos.

2. **Modelagem com Árvores de Decisão**: Cada amostra bootstrap, acompanhada de seu respectivo conjunto de atributos selecionados aleatoriamente, é usada para treinar uma árvore de decisão de forma independente. Esta etapa capitaliza na capacidade das árvores de decisão de lidar com interações complexas entre atributos, permitindo que cada árvore aprenda de uma perspectiva única dentro do espaço de atributos.

3. **Agregação**: A etapa final consolida os resultados de todas as árvores de decisão individuais em uma única previsão coletiva. Para tarefas de classificação, isso é realizado por meio de uma votação majoritária, onde a classe mais frequentemente prevista pelas árvores é escolhida como a resposta definitiva. Em contextos de regressão, a agregação é feita calculando a média das previsões de todas as árvores, produzindo uma estimativa final equilibrada.

O método Random Forest se destaca por sua robustez e capacidade de minimizar o overfitting, graças à diversidade introduzida pela seleção aleatória de atributos e pela construção de múltiplas árvores de decisão. Essas características tornam o Random Forest uma ferramenta valiosa e amplamente aplicada para resolver uma vasta gama de problemas preditivos em Machine Learning.

**2. Explique com suas palavras o Random Forest**

O Random Forest é uma técnica sofisticada de Machine Learning que aprimora os fundamentos do Bootstrap Aggregating, ou Bagging, introduzindo eficiências significativas tanto em desempenho quanto em precisão. No cerne do Random Forest está a combinação estratégica de múltiplos modelos, cada um treinado em distintas variações do conjunto de dados original. Estas variações são geradas por meio de amostras bootstrap, que são subconjuntos aleatórios do conjunto de dados original, permitindo repetições mas preservando o número original de observações.

A inovação do Random Forest se manifesta na sua abordagem seletiva de variáveis para cada modelo de árvore de decisão envolvido. Ao limitar cada árvore a um subconjunto aleatório de variáveis, o Random Forest busca não apenas diversificar as perspectivas de aprendizado de cada modelo, mas também diminuir a correlação entre as árvores, reduzindo substancialmente a variância dos resultados finais e mitigando o risco de overfitting.

Para sintetizar uma previsão final a partir do conjunto de modelos, o Random Forest emprega um método de agregação similar ao Bagging: utiliza-se a média das previsões para problemas de regressão e a votação majoritária para problemas de classificação. Essa estratégia de consenso não apenas capitaliza na sabedoria coletiva dos modelos individuais, mas também assegura que o resultado final seja mais equilibrado e resistente a anomalias específicas de qualquer modelo singular.

Em suma, o Random Forest representa uma evolução natural e poderosa do Bagging, destacando-se por sua capacidade de entregar previsões altamente precisas e confiáveis, ao mesmo tempo em que mantém um controle rigoroso sobre o overfitting, tornando-o uma ferramenta indispensável no arsenal de técnicas de Machine Learning.

**3. Qual a diferença entre Bagging e Random Forest?**

A principal distinção entre Bagging e Random Forest reside na especificidade da aplicação e na eficácia na minimização da variância dos resultados preditivos. O Bagging representa uma estratégia ampla de combinação de modelos em Machine Learning, fundamentada no princípio da amostragem aleatória com reposição para criar múltiplos subconjuntos do conjunto de dados original. Esta técnica promove a diversidade entre os modelos treinados, visando reduzir a variância sem incrementar significativamente o viés.

Por outro lado, o Random Forest é uma evolução especializada do Bagging, focada exclusivamente no uso de árvores de decisão. Nesta abordagem, além da amostragem aleatória de observações (amostras bootstrap), uma seleção aleatória de variáveis é realizada para cada árvore treinada. Essa dupla aleatoriedade - tanto nas amostras quanto nas variáveis - confere às árvores de decisão uma independência maior entre si, diminuindo a correlação e, consequentemente, reduzindo ainda mais a variância dos resultados combinados.

A redução na correlação entre as árvores é um aspecto chave que distingue e eleva o Random Forest sobre o Bagging genérico. Ao limitar o número de variáveis disponíveis para cada árvore, o Random Forest assegura que diferentes árvores se concentrem em diferentes aspectos dos dados, aumentando a robustez e a acurácia do modelo agregado. Isso resulta em previsões finais que são tipicamente mais precisas e confiáveis do que aquelas obtidas apenas pelo Bagging.

Portanto, o Random Forest pode ser considerado uma extensão refinada do Bagging, oferecendo melhorias significativas em desempenho por meio da redução de variância e da promoção de modelos menos correlacionados. Essa característica torna o Random Forest particularmente eficaz em enfrentar o desafio do overfitting, ao mesmo tempo em que mantém a capacidade de capturar complexidades nos dados, o que justifica sua preferência em muitas aplicações práticas de Machine Learning.

**4.** (Opcional) Implementar em python o Random Forest
> - Bootstrap
> - Feature selection
> - Modelagem com Decision trees
> - Agregação

In [1]:
# Import das bibliotecas:

import numpy  as np
import pandas as pd

from sklearn.datasets        import load_iris
from sklearn.datasets        import load_diabetes

from sklearn.model_selection import train_test_split

from sklearn.tree            import DecisionTreeClassifier
from sklearn.metrics         import accuracy_score

from sklearn.tree            import DecisionTreeRegressor
from sklearn.metrics         import mean_squared_error, r2_score

In [2]:
# Exemplo da técnica Random Forest para problemas de classificação:

X = load_iris().data
y = load_iris().target

df = pd.DataFrame(X, columns=load_iris().feature_names)
df['target'] = y

def rf_classifier(df:pd.DataFrame, 
                  num_bootstrap_samples:int=3,  # Parâmetro da função que define a quantidade de amostragens para treinamento
                  test_size:float=0.25
                 ) -> pd.DataFrame:
    
    df_train, df_test = train_test_split(df, test_size=test_size)
    
    X_test = df_test.drop(['target'], axis=1)
    y_test = df_test['target'].rename('y_test')
    
    # Dicionário para os resultados das predições de cada modelo
    y_pred_bagging = {}

    for i in range(num_bootstrap_samples):
        # Bootstrap
        df_train = df_train.sample(n=len(df_train), 
                                   replace=True)  # Amostragem COM reposição

        X_train = df_train.drop(['target'], axis=1)
        # Feature selection
        X_train = X_train.sample(n=round(np.sqrt(X_train.shape[1])),  # Cálculo da raiz quadrada da quantidade de variáveis
                                 axis=1)
        
        y_train = df_train['target']
        
        # Modelagem (base learners)
        model = DecisionTreeClassifier()
        model.fit(X_train, y_train)
        
        # Adicionando os resultados do modelo ao dicionário para agregação das predições
        y_pred_bagging.update({i:model.predict(X_test[X_train.columns])})
    
    # Aggregating
    y_pred = (pd.DataFrame(y_pred_bagging)
                .mode(axis=1)  # Agregando o valor com maior número de aparições nas predições dos modelos
                .rename(columns={0:'y_pred'}))
 
    # Resultados
    print(model)
    print('Accuracy score:', accuracy_score(y_true=y_test, 
                                            y_pred=y_pred['y_pred']
                                           ))

    return pd.concat(objs=[y_test.reset_index(drop=True), 
                           y_pred['y_pred'].astype(int)], 
                     axis=1)

rf_classifier(num_bootstrap_samples=10, df=df, test_size=0.33)

DecisionTreeClassifier()
Accuracy score: 0.96


Unnamed: 0,y_test,y_pred
0,0,0
1,2,2
2,1,1
3,2,2
4,1,1
5,2,2
6,2,1
7,2,2
8,1,1
9,0,0


In [3]:
# Exemplo da técnica Random Forest para problemas de regressão:

X = load_diabetes().data
y = load_diabetes().target

df = pd.DataFrame(X, columns=load_diabetes().feature_names)
df['target'] = y

def rf_regressor(df:pd.DataFrame, 
                 num_bootstrap_samples:int=3,  # Parâmetro da função que define a quantidade de amostragens para treinamento
                 test_size:float=0.25
                ) -> pd.DataFrame:
    
    df_train, df_test = train_test_split(df, test_size=test_size)
    
    X_test = df_test.drop(['target'], axis=1)
    y_test = df_test['target'].rename('y_test')
    
    # Dicionário para os resultados das predições de cada modelo
    y_pred_bagging = {}

    for i in range(num_bootstrap_samples):
        # Bootstrap
        df_train = df_train.sample(n=len(df_train), 
                                   replace=True)  # Amostragem COM reposição

        X_train = df_train.drop(['target'], axis=1)
        # Feature selection
        X_train = X_train.sample(n=round(X_train.shape[1]/3),  # Cálculo da quantidade de variáveis dividida por 3
                                 axis=1)
        
        y_train = df_train['target']

        # Modelagem (base learners)
        model = DecisionTreeRegressor()
        model.fit(X_train, y_train)
        
        # Adicionando os resultados do modelo ao dicionário para agregação das predições
        y_pred_bagging.update({i:model.predict(X_test[X_train.columns])})

    # Aggregating
    y_pred = (pd.DataFrame(y_pred_bagging)
                .mean(axis=1)  # Agregando as predições dos modelos baseando n a média dos resultados
                .rename('y_pred'))
 
    # Resultados
    print(model)
    print('Mean squared error:', mean_squared_error(y_true=y_test, 
                                                   y_pred=y_pred))
    print('Coefficient of determination:', r2_score(y_true=y_test, 
                                                    y_pred=y_pred))
    
    return pd.concat(objs=[y_test.reset_index(drop=True), 
                           y_pred], 
                     axis=1)
    
rf_regressor(num_bootstrap_samples=10, df=df, test_size=0.33)

DecisionTreeRegressor()
Mean squared error: 4199.046575342466
Coefficient of determination: 0.271689234225421


Unnamed: 0,y_test,y_pred
0,155.0,121.3
1,72.0,155.2
2,197.0,187.5
3,154.0,141.5
4,277.0,217.0
...,...,...
141,148.0,153.0
142,198.0,123.6
143,199.0,133.3
144,270.0,190.4


---