<a href="https://colab.research.google.com/github/ericbonelli/Cientista-de-Dados_EBAC/blob/main/Random_Forest.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# üå≥ Random Forest

## ‚úÖ 1. O que √© Random Forest?

O **Random Forest** √© um algoritmo de aprendizado de m√°quina que constr√≥i v√°rias √°rvores de decis√£o diferentes e combina os resultados delas para fazer uma previs√£o final.

A diferen√ßa principal em rela√ß√£o ao Bagging √© que o Random Forest **al√©m de fazer amostragem com reposi√ß√£o (bootstrap)**, tamb√©m **escolhe aleatoriamente apenas algumas features (colunas)** para cada √°rvore. Isso diminui a correla√ß√£o entre elas e aumenta a robustez do modelo.

Como resultado, temos um modelo mais **preciso, est√°vel e resistente ao overfitting** do que uma √∫nica √°rvore de decis√£o.

---



## ‚úÖ 2. Passo a passo para o algoritmo Random Forest


1. **Bootstrap**
   - Criar v√°rias amostras com reposi√ß√£o a partir do conjunto de dados original.

2. **Sele√ß√£o aleat√≥ria de features**
   - Para cada √°rvore, escolher aleatoriamente um subconjunto de colunas (features) para treinar, o que gera √°rvores diferentes e menos correlacionadas.

3. **Modelagem com Decision Trees**
   - Treinar uma √°rvore de decis√£o em cada amostra com as features selecionadas.

4. **Agrega√ß√£o**
   - Combinar as previs√µes das √°rvores:
     - Para classifica√ß√£o: usar vota√ß√£o (classe mais votada).
     - Para regress√£o: usar a m√©dia das previs√µes.

   ---

## ‚úÖ 3. Qual a diferen√ßa entre Bagging e Random Forest?

| Caracter√≠stica              | **Bagging**                              | **Random Forest**                                 |
|----------------------------|------------------------------------------|---------------------------------------------------|
| Tipo de modelo base        | Qualquer (mas geralmente Decision Trees) | Apenas √Årvores de Decis√£o                        |
| Bootstrap (amostragem)     | ‚úÖ Sim                                   | ‚úÖ Sim                                            |
| Sele√ß√£o aleat√≥ria de features | ‚ùå N√£o (usa todas)                      | ‚úÖ Sim (subset aleat√≥rio por √°rvore)             |
| Correla√ß√£o entre √°rvores   | Alta                                     | Baixa (por causa da sele√ß√£o de features)         |
| Vota√ß√£o/M√©dia              | ‚úÖ Sim                                   | ‚úÖ Sim                                            |
| Exemplo em sklearn         | `BaggingClassifier`                      | `RandomForestClassifier`                         |

---

## ‚úÖ 4. Implementa√ß√£o em Python

Vamos usar o conjunto de dados Iris como exemplo e aplicar o Randon Farest, sendo demonstrando passo a passo de forma manual e depois usando scikit-learn

---

# üå≥ 4.1. Random Forest com Dataset Iris - Manual

Vamos entender o funcionamento do Randon forest recriando suas 4 etapas principais com o dataset Iris.

---

## üìå Etapa 1: Bootstrap (amostragem com reposi√ß√£o)

In [4]:
import numpy as np
import pandas as pd
from sklearn.datasets import load_iris
from sklearn.utils import resample
from sklearn.model_selection import train_test_split

# Carregar dataset Iris
iris = load_iris()
X = pd.DataFrame(iris.data, columns=iris.feature_names)
y = pd.Series(iris.target)
feature_names = X.columns.tolist()

# Dividir dados para teste
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=42)

## üîç Etapa 2: Feature Selection (sele√ß√£o aleat√≥ria de colunas)

In [5]:
# Fun√ß√£o para selecionar aleatoriamente k features
def selecionar_features(X, k, random_state=None):
    np.random.seed(random_state)
    cols = np.random.choice(X.columns, size=k, replace=False)
    return X[cols], cols

## üå± Etapa 3: Treinar v√°rias √Årvores com subsets diferentes

In [6]:
from sklearn.tree import DecisionTreeClassifier

n_arvores = 10
k_features = 2
modelos = []
colunas_usadas = []

for i in range(n_arvores):
    # Etapa 1: Bootstrap
    X_sample, y_sample = resample(X_train, y_train, replace=True, random_state=i)

    # Etapa 2: Feature Selection
    X_sub, cols = selecionar_features(X_sample, k=k_features, random_state=i)

    # Etapa 3: Modelagem
    modelo = DecisionTreeClassifier(random_state=i)
    modelo.fit(X_sub, y_sample)

    modelos.append(modelo)
    colunas_usadas.append(cols)

## üß† Etapa 4: Agrega√ß√£o das Previs√µes (Vota√ß√£o)


In [7]:
from scipy.stats import mode
from sklearn.metrics import accuracy_score

# Fazer previs√µes com as √°rvores
previsoes = []

for modelo, cols in zip(modelos, colunas_usadas):
    X_test_sub = X_test[cols]
    pred = modelo.predict(X_test_sub)
    previsoes.append(pred)

# Vota√ß√£o majorit√°ria
previsoes = np.array(previsoes)
final = mode(previsoes, axis=0, keepdims=True).mode[0]

print("‚úÖ Acur√°cia do Random Forest manual:", accuracy_score(y_test, final))

‚úÖ Acur√°cia do Random Forest manual: 1.0


# ‚ö° 4.2. Random Forest com Scikit-learn (autom√°tico)

---



In [8]:
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score

# Carregar dados
X, y = load_iris(return_X_y=True)
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=42)

# Criar Random Forest com 10 √°rvores
rf = RandomForestClassifier(n_estimators=10, random_state=42)
rf.fit(X_train, y_train)

# Previs√£o e avalia√ß√£o
y_pred = rf.predict(X_test)
print("‚úÖ Acur√°cia com RandomForestClassifier:", accuracy_score(y_test, y_pred))

‚úÖ Acur√°cia com RandomForestClassifier: 1.0
