# Modulo 23 Atividade 03
#### João Paulo Costa

## Random Forest

#### 1. Principais hiperparâmetros do Random Forest

| Hiperparâmetro          | Tipo                       | Descrição                                                                                                 | Efeito prático                                                                            |
| ----------------------- | -------------------------- | --------------------------------------------------------------------------------------------------------- | ----------------------------------------------------------------------------------------- |
| **`n_estimators`**      | int                        | Número de árvores na floresta.                                                                            | Mais árvores → maior estabilidade e acurácia, mas mais tempo de treino.                   |
| **`max_depth`**         | int ou None                | Profundidade máxima de cada árvore.                                                                       | Controla o tamanho da árvore → evita overfitting se limitado.                             |
| **`min_samples_split`** | int ou float               | Número mínimo de amostras para dividir um nó.                                                             | Aumentar este valor gera árvores mais simples (menos overfitting).                        |
| **`min_samples_leaf`**  | int ou float               | Número mínimo de amostras em um nó folha.                                                                 | Evita que folhas representem ruído do treino (melhora generalização).                     |
| **`max_features`**      | int, float, “sqrt”, “log2” | Número de variáveis consideradas em cada divisão.                                                         | Aumenta a diversidade entre árvores. Padrão: “sqrt” (classificação) ou “1/3” (regressão). |
| **`bootstrap`**         | bool                       | Se deve usar *bootstrap sampling* (amostras com reposição).                                               | `True` → usa Bagging; `False` → usa todos os dados em cada árvore.                        |
| **`criterion`**         | str                        | Métrica para avaliar divisões (ex: “gini”, “entropy” para classificação; “squared_error” para regressão). | Define como as árvores escolhem as divisões mais informativas.                            |
| **`max_samples`**       | int ou float               | Quantidade de amostras usadas por árvore (se `bootstrap=True`).                                           | Permite reduzir o tamanho do conjunto de treino por árvore.                               |
| **`max_leaf_nodes`**    | int ou None                | Número máximo de folhas por árvore.                                                                       | Controla complexidade da árvore e ajuda a evitar overfitting.                             |
| **`random_state`**      | int                        | Semente aleatória para reprodutibilidade.                                                                 | Garante que os resultados sejam idênticos a cada execução.                                |
| **`n_jobs`**            | int                        | Número de processadores usados no treino.                                                                 | `-1` usa todos os núcleos disponíveis (treino mais rápido).                               |
| **`oob_score`**         | bool                       | Se deve calcular *out-of-bag score* (validação interna).                                                  | Mede desempenho sem precisar de um conjunto de teste separado.                            |


#### Exemplo de uso prático

In [2]:
import numpy as np
import pandas as pd
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score

# 1. Carregar base de dados
iris = load_iris()
X = iris.data
y = iris.target


# 2. Separar em treino e teste
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.3, random_state=42
)

# 3. Criar e treinar o modelo RF
rf = RandomForestClassifier(
    n_estimators=200,       # número de árvores
    max_depth=10,           # profundidade máxima
    min_samples_split=4,    # mínimo de amostras para dividir
    min_samples_leaf=2,     # mínimo de amostras por folha
    max_features='sqrt',    # subconjunto aleatório de variáveis
    bootstrap=True,         # usa bagging
    oob_score=True,         # validação OOB
    random_state=42,        # reprodutibilidade
    n_jobs=-1               # usa todos os núcleos disponíveis
)

rf.fit(X_train, y_train)


# 4. Avaliar desempenho
# Previsões no teste
y_pred = rf.predict(X_test)

# Acurácia no teste
acc = accuracy_score(y_test, y_pred)
print(f"Acurácia no conjunto de teste: {acc:.3f}")

# Out-of-Bag (OOB) Score
print(f"OOB Score (validação interna): {rf.oob_score_:.3f}")

Acurácia no conjunto de teste: 1.000
OOB Score (validação interna): 0.924
