![https://raw.githubusercontent.com/marciolws/Curso_EBAC_Cientista_de_Dados/refs/heads/main/EBAC-media-utils/logo/ebac_logo-data_science.png](https://raw.githubusercontent.com/marciolws/Curso_EBAC_Cientista_de_Dados/refs/heads/main/EBAC-media-utils/logo/ebac_logo-data_science.png)

<!-- # **Profissão: Cientista de Dados** -->
### **Módulo 23** | Combinação de modelos | Exercício II

**Aluno:** [Marcio da Silva](https://www.linkedin.com/in/marciolws/)<br>
**Data:** 02 de outubro de 2024.


## Tarefa II

1. Monte um passo a passo para o algoritmo Random Forest:  

> Com uma grande semelhança em relaçao ao Bagging, o **Random Forest** consiste em:
> 1. **Bootstrap + Fature Selection**: Com sua grande semelhança ao Baggin, o RF utiliza amostas aleatórias com a reposiçao do conjunto de dados de treinamento original. Em cada uma dessas amostras, apenas um subconjunto aleatório de variáveis são selecionados (fature selection). Como encontramos problemas de classificaçao, é recomendado escolher a raiz quadrada do número total de variáveis, mas em problemas de regressão, um terço das variáveis é comumente usado.
> 2. **Modelagem com árvores de decisão**: Aqui, um modelo de Marchine Leargning, uma árvore de decisão, é treinada de forma independente em cada amostra do bootstrap com as variaveis aleatórias que foram definidas anteriormente.
> 3. **Agregação**: Nessa etapa final, os resultados de cada modelo intependente(ou seja, cada árvore de decisao) são agregados para obter uma previsão. Cas haja problemas de classificação, a agregaçao é feita por meio de um voto majoritário, ou seja, a classe prevista com mais frequência pelos modelos individuais é selecionada como classe final. Em regressão, essa agregação é feita calculadando a média das previsões dos modelos anteriores.

2. Explique com suas palavras o Random Forest:

> O algoritmo **Random Forest** é uma técnica de aprendizado de máquina que combina várias árvores de decisão para criar um modelo mais robusto e preciso. Ele é amplamente utilizado devido à sua eficácia na redução da variância, sua resistência ao overfitting e sua capacidade de lidar com uma variedade de problemas de aprendizado de máquina.

3. Qual a diferença entre Bagging e Random Forest?  

> Embora **Bagging e Random Forest** sejam técnicas semelhantes, existem algumas diferenças importantes entre elas. A principal diferença está na forma como as árvores são construídas. No Bagging, cada árvore é construída usando o conjunto de dados completo, mas com amostras aleatórias com reposição. Já no Random Forest, cada árvore é construída usando um subconjunto aleatório de recursos para cada divisão. Essa diferença ajuda a aumentar a diversidade do ensemble no Random Forest e a reduzir a correlação entre as árvores individuais.  
> Outra diferença está na forma como as previsões são combinadas. No Bagging, as previsões de cada modelo são combinadas por votação majoritária ou média. No Random Forest, as previsões de cada árvore são combinadas por votação majoritária. Essa diferença ocorre porque o Random Forest utiliza árvores de decisão como base, que são naturalmente classificadores binários.

3. (Opcional) Implementar em python oo Random Forest.

In [2]:
#Importando as bibiliotecas a serem usadas.
import numpy as np
import pandas as pd

from sklearn.datasets import load_iris
from sklearn.datasets import load_diabetes

from sklearn.model_selection import train_test_split

from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score

from sklearn.tree import DecisionTreeRegressor
from sklearn.metrics import mean_squared_error, r2_score

In [3]:
#Exemplo do Random Forest para problemas de classificaçao.

x = load_iris().data
y = load_iris().target

df = pd.DataFrame(x, columns=load_iris().feature_names)
df['target'] = y

def rf_classifier(df:pd.DataFrame,
                 num_bootstrap_samples:int=3, #Parametro da funçao que define quantidade de amostragens para o treinamento.
                 test_size:float=0.26
                 ) -> pd.DataFrame:
    df_train, df_test = train_test_split(df, test_size=test_size)

    x_test = df_test.drop(['target'], axis=1)
    y_test = df_test['target'].rename('y_test')

    #Dicionário para os resultados das predições de cada modelo.
    y_pred_bagging = {}

    for i in range(num_bootstrap_samples):
        #bootstrap
        df_train = df_train.sample(n=len(df_train),
                                   replace=True) #Amostragem com reposição.
        
        x_train = df_train.drop(['target'], axis=1)
        y_train = df_train.sample(n=round(np.sqrt(x_train.shape[1])), # Calculo da raix quadrada da quantidade de variaveis.
                                  axis=1)
        y_train = df_train['target']
        #Modelagem - base learners.
        model = DecisionTreeClassifier()
        model.fit(x_train, y_train)

        #Adicionando os resultados do modelo ao dicionário para agregação das predições.
        y_pred_bagging.update({i:model.predict(x_test[x_train.columns])})

    #Agregating.
    y_pred = (pd.DataFrame(y_pred_bagging)
              .mode(axis=1) #Aqui agraga o valor com o maior numero de aparições nas predições dos modelos.
              .rename(columns={0:'y_pred'}))
    
    #Resultados obtidos.
    print(model)
    print('Accuracy score:', accuracy_score(y_true=y_test,
                                            y_pred=y_pred['y_pred']
                                            ))
    
    return pd.concat(objs = [y_test.reset_index(drop=True),
                             y_pred['y_pred'].astype(int)],
                             axis=1)

rf_classifier(num_bootstrap_samples=10, df=df, test_size=0.33)



DecisionTreeClassifier()
Accuracy score: 0.96


Unnamed: 0,y_test,y_pred
0,2,2
1,2,1
2,1,1
3,2,2
4,0,0
5,0,0
6,1,1
7,2,2
8,1,1
9,2,2


In [17]:
#Exemplo do Random Forest para problemas de regressão.

x = load_diabetes().data
y = load_diabetes().target

df = pd.DataFrame(x, columns=load_diabetes().feature_names)
df['target'] = y

def rf_regressor(df:pd.DataFrame,
                 num_bootstrap_samples:int=3,  #Parametro da funçao que define quantidade de amostragens para o treinamento.
                 test_size:float=0.25
                 ) -> pd.DataFrame:
    
    df_train, df_test = train_test_split(df, test_size=test_size)

    x_test = df_test.drop(['target'], axis=1)
    y_test = df_test['target'].rename('y_test')

    #Dicionário para resultados das predições de cada modelo.
    y_pred_bagging = {}

    for i in range(num_bootstrap_samples):
        #Bootstrap
        df_train = df_train.sample(n=len(df_train),
                                   replace=True) #Amostragem com reposição.
        
        x_train = df_train.drop(['target'], axis=1)
        #Fature selection
        x_train = x_train.sample(n=round(x_train.shape[1]/3),
                                 axis=1) #Calculo da quantidade de variaveis dividido por 3.
        
        y_train = df_train['target']

        #Modelagem, base learners.
        model = DecisionTreeRegressor()
        model.fit(x_train, y_train)

        #Adicionando os resultados do modelo a um dicionario para agragaçao das predições.
    y_pred_bagging.update({i:model.predict(x_test[x_train.columns])})
        
    #Agregating
    y_pred = (pd.DataFrame(y_pred_bagging)
                  .mean(axis=1)
                  .rename('y_pred'))
        
    #Printando os resultados.
    print(model)
    print('Mean squared error:', mean_squared_error(y_true=y_test,
                                                        y_pred=y_pred))
    print('Coefficient of determination:', r2_score(y_true=y_test,
                                                        y_pred=y_pred))
        
    return pd.concat(objs=[y_test.reset_index(drop=True),
                               y_pred],
                               axis=1)

rf_regressor(num_bootstrap_samples=100, df=df, test_size=0.33)

DecisionTreeRegressor()
Mean squared error: 14637.616438356165
Coefficient of determination: -1.377759627935602


Unnamed: 0,y_test,y_pred
0,288.0,310.0
1,292.0,310.0
2,252.0,104.0
3,96.0,310.0
4,109.0,198.0
...,...,...
141,272.0,317.0
142,202.0,310.0
143,268.0,174.0
144,116.0,104.0
