# Tarefa 3: Hiperparâmetros do Random Forest

## 1. Hiperparâmetros do Random Forest

Aqui estão os principais hiperparâmetros do **Random Forest** e suas funções:

### n_estimators
- **O que é?** Número de árvores na floresta.
- **Para que serve?** Define quantas árvores serão criadas no modelo. Um número maior de árvores pode aumentar a precisão, mas também aumenta o tempo de processamento.
- **Valor padrão:** 100.

### max_depth
- **O que é?** Profundidade máxima de cada árvore.
- **Para que serve?** Controla o quão "profundas" as árvores podem ser. Árvores mais profundas capturam mais detalhes dos dados (podem sobreajustar), enquanto árvores menos profundas são mais generalistas (podem subajustar).
- **Valor padrão:** Sem limite.

### min_samples_split
- **O que é?** Número mínimo de amostras necessárias para dividir um nó.
- **Para que serve?** Controla quando uma árvore deve parar de se dividir. Se o número de amostras em um nó for menor que esse valor, a divisão não acontece. Valores maiores resultam em árvores menos profundas.
- **Valor padrão:** 2.

### min_samples_leaf
- **O que é?** Número mínimo de amostras em uma folha (nó terminal).
- **Para que serve?** Define o número mínimo de amostras necessárias para que um nó terminal (folha) seja criado. Isso ajuda a evitar a criação de nós finais com pouquíssimos dados.
- **Valor padrão:** 1.

### max_features
- **O que é?** Número máximo de colunas (features) que podem ser usadas para dividir cada nó.
- **Para que serve?** Controla quantas variáveis o modelo deve considerar ao fazer uma divisão. Valores comuns são:
  - `"sqrt"`: A raiz quadrada do número total de features.
  - `"log2"`: O logaritmo base 2 do número de features.
  - **Número inteiro:** Um número fixo de variáveis a serem usadas.
- **Valor padrão:** `"sqrt"` para classificação e `None` (todas as features) para regressão.

### bootstrap
- **O que é?** Se o modelo deve ou não utilizar amostras bootstrap.
- **Para que serve?** Define se cada árvore será treinada com uma amostra bootstrap (amostragem com reposição) dos dados. Se `False`, todas as árvores usam os mesmos dados.
- **Valor padrão:** `True`.

### oob_score
- **O que é?** Validação fora da amostra (out-of-bag).
- **Para que serve?** Permite avaliar o modelo usando as amostras que não foram selecionadas para o treinamento de cada árvore (amostras fora da bolsa - **out-of-bag**). Isso fornece uma estimativa de erro sem precisar de um conjunto de teste separado.
- **Valor padrão:** `False`.

### max_leaf_nodes
- **O que é?** Número máximo de nós terminais (folhas).
- **Para que serve?** Limita o número de folhas em cada árvore. Controlar o número de nós terminais ajuda a evitar o overfitting, criando árvores menos complexas.
- **Valor padrão:** Sem limite.

### n_jobs
- **O que é?** Número de processadores a serem usados.
- **Para que serve?** Permite definir quantos núcleos de CPU serão usados para o treinamento em paralelo. Um valor de `-1` usa todos os núcleos disponíveis, acelerando o treinamento.
- **Valor padrão:** `None` (usa apenas um núcleo).

### random_state
- **O que é?** Semente para geração de números aleatórios.
- **Para que serve?** Garante que os resultados do Random Forest sejam reproduzíveis. Se você usar o mesmo valor de `random_state`, obterá os mesmos resultados em execuções subsequentes.
- **Valor padrão:** `None`.

### criterion
- **O que é?** Função de critério para medir a qualidade das divisões.
- **Para que serve?** Define como medir a qualidade das divisões:
  - **"gini"**: Para classificação, usa o índice de Gini.
  - **"entropy"**: Também para classificação, usa a entropia.
  - **"mse"**: Para regressão, usa o erro quadrático médio (MSE).
- **Valor padrão:** `"gini"` para classificação e `"mse"` para regressão.

## Resumo dos Hiperparâmetros

- **n_estimators:** Quantidade de árvores.
- **max_depth:** Profundidade máxima das árvores.
- **min_samples_split:** Número mínimo de amostras para dividir um nó.
- **min_samples_leaf:** Número mínimo de amostras em um nó terminal.
- **max_features:** Quantidade máxima de variáveis consideradas em cada divisão.
- **bootstrap:** Se deve ou não usar amostras bootstrap.
- **oob_score:** Se deve usar a validação fora da amostra (out-of-bag).
- **max_leaf_nodes:** Número máximo de nós terminais.
- **n_jobs:** Número de processadores a usar em paralelo.
- **random_state:** Semente para reproduzir resultados.
- **criterion:** Critério para medir a qualidade das divisões.

Cada um desses hiperparâmetros pode ser ajustado para melhorar a performance do modelo dependendo do problema e do conjunto de dados com o qual você está trabalhando.
