---------------

# Tarefa 03: Hiperparâmetros do Algoritmo Random Forest

Os hiperparâmetros são as configurações externas que definimos antes do treinamento para controlar o comportamento do modelo. Diferente dos parâmetros (que o modelo aprende sozinho), os hiperparâmetros são ajustados pelo Cientista de Dados para otimizar a performance e evitar o **Overfitting** (quando o modelo decora os dados de treino mas erra nos dados reais).

---

## 1. Principais Hiperparâmetros

Abaixo estão os "botões de ajuste" mais importantes da Random Forest:

| Hiperparâmetro | O que ele controla? |
| :--- | :--- |
| `n_estimators` | A quantidade de árvores de decisão na floresta. |
| `max_depth` | O nível máximo de profundidade (camadas) de cada árvore. |
| `max_features` | O número de variáveis sorteado para cada divisão de nó. |
| `min_samples_leaf` | A quantidade mínima de amostras que um nó final (folha) deve ter. |
| `bootstrap` | Define se o sorteio de dados será feito com reposição. |

---

## 2. Para que serve cada um deles?

### **n_estimators** (Número de Árvores)
Serve para aumentar a estabilidade do modelo. Quanto mais árvores, mais "votos" temos para chegar a um consenso, o que reduz o erro aleatório. 
* **Impacto:** Mais árvores geralmente melhoram o modelo, mas aumentam o custo computacional (tempo de processamento).

### **max_depth** (Profundidade Máxima)
Serve para controlar a complexidade do aprendizado. 
* **Impacto:** Se não houver limite, a árvore pode crescer até "decorar" cada linha do dataset (overfitting). Ao limitar a profundidade, forçamos o modelo a aprender apenas os padrões mais importantes e gerais.



### **max_features** (Seleção de Variáveis)
Serve para garantir a diversidade entre as árvores. Ele define quantas colunas o modelo pode olhar por vez ao criar uma regra.
* **Impacto:** Ao restringir o número de variáveis em cada nó (ex: usando a raiz quadrada do total), impedimos que uma única variável dominante esconda o potencial preditivo de outras variáveis menos óbvias.

### **min_samples_leaf** (Mínimo de Amostras na Folha)
Serve para suavizar as previsões do modelo e ignorar ruídos/outliers.
* **Impacto:** Define que uma regra só é válida se ela representar um grupo mínimo de dados. Isso evita que a árvore crie regras específicas demais para casos isolados.

### **bootstrap**
Serve para ativar a técnica fundamental do Bagging.
* **Impacto:** Quando `True`, cada árvore treina com um subconjunto diferente, garantindo que elas não sejam idênticas.

---

## 3. Ajuste Otimizado: GridSearchCV

Para não ajustar esses parâmetros manualmente no "chute", utilizamos o **GridSearchCV**. Ele automatiza o processo testando todas as combinações possíveis de uma grade de valores definida, utilizando **Validação Cruzada (CV)** para garantir que a melhor combinação seja estatisticamente sólida.

----------