# Técnicas de Escolha de Modelo em Machine Learning: Separação em Treino/Teste e Validação Cruzada

## 1. Separação em Treino e Teste

A separação em treino e teste é uma técnica básica para avaliar o desempenho de um modelo de machine learning. A ideia é dividir o conjunto de dados em duas partes:

- **Conjunto de treino**: Usado para treinar o modelo, ou seja, para ajustar os parâmetros do modelo com base nos dados disponíveis.
- **Conjunto de teste**: Usado para avaliar o desempenho do modelo em dados não vistos durante o treinamento, medindo sua capacidade de generalização.

### **Como funciona**:
- O conjunto de dados é dividido em uma proporção fixa, como 70% para treino e 30% para teste, ou 80/20.
- O modelo é treinado usando os dados de treino.
- Após o treinamento, o modelo é testado nos dados de teste para calcular métricas como acurácia, precisão, recall ou F1-score.

### **Vantagens**:
- Simples e rápido de implementar.
- Funciona bem para conjuntos de dados grandes.

### **Desvantagens**:
- A avaliação pode ser sensível à divisão inicial dos dados.
- Não fornece informações robustas sobre a variabilidade do desempenho do modelo.

---

## 2. Validação Cruzada (Cross-Validation)

A validação cruzada é uma técnica mais robusta para avaliar modelos. Ela busca reduzir a dependência de uma única divisão dos dados, fornecendo uma avaliação mais confiável.

### **Como funciona**:
1. O conjunto de dados é dividido em **k** partes (ou folds).
2. O modelo é treinado em $k-1$ partes (folds de treino) e testado na parte restante (fold de validação).
3. O processo é repetido $k$ vezes, cada vez usando um fold diferente como conjunto de validação.
4. Os resultados (métricas de desempenho) de cada iteração são então combinados, geralmente pela média.

### **Tipos de validação cruzada**:
- **k-fold cross-validation**:
  - Divide os dados em $k$ partes de tamanhos aproximadamente iguais.
  - Recomendado quando os dados são suficientemente grandes.
- **Leave-One-Out Cross-Validation (LOOCV)**:
  - Cada exemplo no conjunto de dados é usado como conjunto de teste uma vez.
  - Muito preciso, mas computacionalmente caro para conjuntos de dados grandes.
- **Stratified k-fold cross-validation**:
  - Garante que a proporção de classes nos folds é a mesma que no conjunto de dados original.
  - Importante em problemas de classificação com classes desbalanceadas.

### **Vantagens**:
- Fornece uma avaliação confiável do modelo.
- Usa os dados de forma eficiente, pois todos os exemplos são usados para treino e validação.
- Ajuda a detectar overfitting e underfitting.

### **Desvantagens**:
- Computacionalmente mais caro do que a simples separação em treino e teste.
- Pode ser desafiador implementar para conjuntos de dados muito grandes ou modelos complexos.

---

## Comparação: Treino/Teste vs Validação Cruzada

| Característica              | Treino/Teste                 | Validação Cruzada             |
|-----------------------------|-----------------------------|-------------------------------|
| **Facilidade de Implementação** | Muito simples              | Um pouco mais complexo         |
| **Avaliação do Modelo**       | Menos confiável             | Mais confiável e robusta       |
| **Uso de Dados**             | Menos eficiente (testa apenas uma vez) | Mais eficiente (testa várias vezes) |
| **Custo Computacional**      | Baixo                      | Médio a alto                  |

---

## Quando usar cada técnica:

- **Separação em treino e teste**:
  - Ideal para experimentos rápidos.
  - Quando o conjunto de dados é muito grande e o impacto da divisão é pequeno.
  
- **Validação cruzada**:
  - Essencial para conjuntos de dados menores.
  - Útil em problemas onde a confiabilidade na avaliação é crítica.
  - Para modelos que demandam uma avaliação detalhada antes de entrar em produção.

Se a validação cruzada for computacionalmente cara, estratégias como usar uma validação cruzada com um menor número de folds ($k$) podem ajudar a balancear custo e qualidade da avaliação.

In [2]:
from sklearn.model_selection import GridSearchCV, cross_val_score
from sklearn.tree import DecisionTreeClassifier
from sklearn.datasets import load_iris
from sklearn.ensemble import RandomForestClassifier

# Carregar os dados
data = load_iris()
X, y = data.data, data.target

# Criar o modelo
model = RandomForestClassifier()

# Configurar grid search
param_grid = {'max_depth': [3, 5, 10]}
grid = GridSearchCV(DecisionTreeClassifier(), param_grid, cv=3)

# Configurar nested cross-validation
scores = cross_val_score(grid, X, y, cv=5)

print(f"Nested Cross-Validation Scores: {scores}")
print(f"Média dos scores: {scores.mean()}")


Nested Cross-Validation Scores: [0.96666667 0.96666667 0.93333333 1.         1.        ]
Média dos scores: 0.9733333333333334
