# Hiperparâmetros do Random Forest (RF) e Seus Propósitos  

O **Random Forest (RF)** é um algoritmo de aprendizado de máquina baseado em um conjunto de árvores de decisão, amplamente utilizado para **classificação** e **regressão**. Ele combina diversas árvores de decisão, reduzindo a variância dos modelos individuais e melhorando a generalização dos resultados. Para otimizar sua performance, o RF possui diversos **hiperparâmetros** que influenciam sua capacidade preditiva e eficiência computacional.

Abaixo, detalhamos os principais hiperparâmetros e suas funções, acompanhados de **expressões matemáticas e estatísticas** que fundamentam suas propriedades.

---

## **1. Número de Árvores no Ensemble**  

- **`n_estimators`**: Determina o número de árvores $T$ que compõem a floresta.  
  - Maior número de árvores reduz a variância e melhora a estabilidade do modelo.
  - A previsão final é obtida pela **média das predições** no caso de regressão ou pela **maioria dos votos** no caso de classificação.

Para **regressão**, a predição final é:

$$ \hat{y} = \frac{1}{T} \sum_{t=1}^{T} f_t(x) $$

Para **classificação**, a predição é baseada na **moda das predições** individuais:

$$ \hat{y} = \arg\max_{c} \sum_{t=1}^{T} \mathbb{1} (f_t(x) = c) $$

onde $f_t(x)$ representa a previsão da $t$-ésima árvore e $\mathbb{1}$ é a função indicadora.

---

## **2. Critério de Qualidade da Divisão**  

- **`criterion`**: Define a métrica utilizada para avaliar a qualidade da divisão dos nós.  

  - Para **classificação**, os critérios mais comuns são:  
    - **Índice de Gini** $G$: Mede a impureza dos nós. Quanto menor o Gini, melhor a separação das classes.

      $$ G = 1 - \sum_{i=1}^{C} p_i^2 $$

      onde $p_i$ é a proporção de amostras da classe $i$ no nó e $C$ é o número total de classes.

    - **Entropia** $H$: Mede o grau de desordem do nó.

      $$ H = - \sum_{i=1}^{C} p_i \log_2(p_i) $$

  - Para **regressão**, os critérios incluem:
    - **Erro Quadrático Médio (MSE)**:

      $$ MSE = \frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2 $$

    - **Erro Absoluto Médio (MAE)**:

      $$ MAE = \frac{1}{n} \sum_{i=1}^{n} |y_i - \hat{y}_i| $$

---

## **3. Controle da Complexidade das Árvores**  

- **`max_depth`**: Controla a **profundidade máxima** de cada árvore.  
  - Árvores mais profundas aprendem padrões complexos, mas podem superajustar os dados (**overfitting**).

- **`min_samples_split`**: Número mínimo de amostras exigido para dividir um nó.  
  - Um valor maior reduz a granularidade das divisões e melhora a **generalização**.

- **`min_samples_leaf`**: Define o número mínimo de amostras que um nó folha deve conter.  
  - Evita que folhas tenham poucas amostras, reduzindo **overfitting**.

- **`max_features`**: Define o número de variáveis consideradas para cada divisão em uma árvore.  
  - Para **classificação**, o padrão é:

    $$ max\_features = \sqrt{p} $$

  - Para **regressão**, o padrão é:

    $$ max\_features = \frac{p}{3} $$

  onde $p$ é o número total de variáveis preditoras.

---

## **4. Estratégia de Amostragem**  

- **`bootstrap`**: Define se a técnica de amostragem com reposição será usada para criar subconjuntos bootstrap.  
  - Quando ativado, cada árvore é treinada em um subconjunto de dados amostrado aleatoriamente.

- **`oob_score`**: Permite a **validação out-of-bag (OOB)**, utilizando amostras não selecionadas pelo Bootstrap para estimar o desempenho do modelo.

- **`max_samples`**: Controla a fração das amostras usadas em cada árvore, influenciando o viés e a variância do modelo.

A **probabilidade de uma amostra ser excluída do Bootstrap** é aproximadamente:

$$ P_{exclusão} = \left( 1 - \frac{1}{n} \right)^n \approx \frac{1}{e} \approx 0.368 $$

o que significa que **cerca de 36,8% das amostras não são usadas** em cada árvore, sendo aproveitadas para a validação OOB.

---

## **5. Otimização do Treinamento**  

- **`n_jobs`**: Controla quantos núcleos de CPU serão usados no treinamento.  
  - `-1` utiliza todos os núcleos disponíveis para **paralelizar o treinamento**.

- **`random_state`**: Define um **seed** para a aleatoriedade do modelo, garantindo reprodutibilidade.

- **`warm_start`**: Permite reutilizar um modelo já treinado e adicionar novas árvores.

---

## **6. Ajuste de Classes e Poda das Árvores**  

- **`class_weight`**: Ajusta os pesos das classes para corrigir desbalanceamentos.  
  - `"balanced"` ajusta automaticamente os pesos para compensar classes minoritárias.

- **`ccp_alpha`**: Define um **parâmetro de poda baseado em complexidade**.  
  - Árvores são podadas removendo divisões que resultam em ganho de impureza menor que $ccp\_alpha$.

  A função de custo utilizada para poda é:

  $$ R(T) = R(T_t) + \alpha |T| $$

  onde $R(T)$ é o erro da árvore completa, $R(T_t)$ é o erro da subárvore podada e $|T|$ é o número de nós folha.

---

## **Conclusão**  

O **Random Forest** oferece uma abordagem robusta para modelagem preditiva, combinando árvores de decisão de maneira eficiente para **reduzir a variância** e **aumentar a precisão**. A correta configuração de seus **hiperparâmetros** permite encontrar um equilíbrio ideal entre **viés** e **variância**, garantindo um modelo altamente generalizável.

### **Diretrizes para Ajuste Eficiente**  
- **Para reduzir overfitting**, regularizar `max_depth`, `min_samples_split` e `min_samples_leaf`.  
- **Para aumentar a diversidade das árvores**, ajustar `max_features` e `bootstrap=True`.  
- **Para acelerar o treinamento**, utilizar `n_jobs=-1` e limitar `n_estimators` para evitar tempos excessivos.  
- **Para dados desbalanceados**, considerar `class_weight="balanced"`.  