# **Seleção, Validação e Otimizacao de Modelos**
**Autor:** [Anderson França](https://www.linkedin.com/in/anderson-m-franca/) | **Contato:** [github.com/andfranca](https://github.com/andfranca/estatistica-e-aprendizado-de-maquinas-ptbr)

<a href="https://creativecommons.org/licenses/by/4.0/deed.en"><img align="left" width="80" src="https://mirrors.creativecommons.org/presskit/buttons/88x31/png/by-nc.png"/></a>


## **Avaliação de Modelos**

Avaliar um modelo é essencial para garantir que suas previsões sejam confiáveis e úteis.

Um erro comum é medir o desempenho apenas nos dados de treino, o que pode gerar uma falsa sensação de qualidade.

O objetivo da avaliação é testar a capacidade do modelo de generalizar para novos dados. Como analisar previsão por previsão seria inviável, usamos métricas que resumem o desempenho em um único valor.

**Principais métricas:**
- **Classificação:** Acurácia, Precision, Recall, F1-Score, AUC-ROC
- **Regressão:** R², RMSE, MAE


### **Fluxo de Treinamento de Modelos**

O fluxo de treinamento é o processo estruturado onde um modelo de machine learning aprende padrões a partir dos dados disponíveis, ajustando seus parâmetros para minimizar erros e gerar boas previsões.

Esse fluxo inclui desde o preparo dos dados até a avaliação inicial do modelo, garantindo que ele esteja pronto para ser validado e aplicado em novos dados.


<div>
<img src="https://drive.google.com/uc?export=view&id=1MGKpA-vzEY6D7VUKx3FyeDp9FHsgGjXk" width="600" align="center"/>
    
</div>



### **Trade-off entre Viés e Variância**


Ao treinar um modelo de Machine Learning, nosso objetivo é que ele **aprenda padrões reais** dos dados e consiga fazer previsões precisas em novos cenários.

Porém, existe um equilíbrio delicado:
- Se o modelo for simples demais, ele não aprende direito: alto viés (bias).
- Se for complexo demais, ele pode aprender até o ruído: alta variância.

Esse equilíbrio é chamado de **Trade-off Viés (bias) x Variância**, e vamos falar um pouco sobre esses conceitos.


<div>
<img src="https://drive.google.com/uc?export=view&id=1nKdsrd4GKvi74Yc7BImNd8Xvhkfv0ynz" width="600" align="center"/>
    
</div>




###**Bias**

O Bias (Viés) representa a tendência de um modelo **simplificar demais o problema**.

Quando um modelo tem alto viés, ele assume suposições muito rígidas e acaba **não capturando bem os padrões dos dados**.

<div>
<img src="https://drive.google.com/uc?export=view&id=1HPe3QpJ854gQnMhzFIhBVHjMWqqDAXpY" width="300" align="center"/>
    
</div>



**Consequência:**

O modelo tem desempenho ruim tanto nos dados de treino quanto em dados novos: Underfitting.

### **Variância**

**Variância** mede o quanto o modelo é **sensível às variações nos dados de treino.**

Quando um modelo tem alta variância, ele se ajusta demais aos dados disponíveis, capturando inclusive o ruído e as peculiaridades dos dados de treino.

<div>
<img src="https://drive.google.com/uc?export=view&id=1s6G5NpRPfeniGUMXWZUhETtz6zqH3k5l" width="300" align="center"/>
    
</div>

**Consequência:**
O modelo tem ótimo desempenho no treino, mas desempenho ruim em novos dados: **Overfitting.**

### **Trade-Off: Baixo Bias e Baixa Variância**

O desafio em Machine Learning é encontrar um modelo que tenha bias e variância equilibrados.
- **Baixo Bias:** Modelo captura bem os padrões dos dados (evita underfitting).
- **Baixa Variância:** Modelo não se ajusta demais ao treino, generaliza bem (evita overfitting).


<div>
<img src="https://drive.google.com/uc?export=view&id=1jQCEUk60ASVJ350wTD9V_Pw3JMUalVz7" width="300" align="center"/>
    
</div>

### **Erro Irredutível**

O **Erro Irredutível** é aquela parte do erro que **não pode ser eliminada**, independentemente do algoritmo utilizado.

Ele não acontece porque o modelo é incapaz, mas sim por fatores como:

- Variáveis desconhecidas ou não observadas nos dados.
- Ruídos, erros de medição ou registros imprecisos.

Embora não possamos eliminar totalmente, podemos **minimizar** esse erro com:
- Melhor coleta de dados
- Limpeza e padronização adequada dos dados



<div>
<img src="https://drive.google.com/uc?export=view&id=1nKdsrd4GKvi74Yc7BImNd8Xvhkfv0ynz" width="300" align="center"/>
    
</div>


$\text{Erro} = \text{Bias}^2 + \text{Variância} + \text{Erro Irredutível}$

### Como Identificar no Modelo?

Entender conceitos como bias, variância e erro total é essencial — mas tão importante quanto isso é saber identificar na prática qual problema o modelo apresenta.

A partir da análise dos erros no conjunto de treino e teste, conseguimos diagnosticar se o modelo está sofrendo de:

| **Sinais durante avaliação**                     | **Indicação**                             |
|---------------------------------------------|----------------------------------------|
| Erro alto no treino e no teste              | Modelo com Alto Bias (Underfitting)    |
| Erro baixo no treino, mas alto no teste     | Modelo com Alta Variância (Overfitting)|
| Erro baixo e consistente nos dois           | Modelo equilibrado (bom generalizador) |



---



## **Métricas de Avaliação de Modelos**

Escolher as métricas corretas é essencial para avaliar, de forma confiável, a performance do modelo. Aqui estão alguns critérios práticos:


>  * **Tipo de Problema:**
Use métricas adequadas ao tipo de tarefa: classificação ou regressão.


> * **Balanceamento dos Dados:**
Em dados desbalanceados, priorize métricas como **Precision, Recall, F1-Score.**


> * **Objetivo do Problema:**
Escolha métricas alinhadas ao impacto prático (ex.: **Recall** para evitar falsos negativos em saúde pública).


> * **Simplicidade e Interpretabilidade:**
Prefira métricas que ajudem na manutenção e explicação do modelo.


> * **Comparabilidade:**
Use métricas reconhecidas pelo setor, para garantir avaliações consistentes.


>*  **Monitoramento ao Longo do Tempo:**
Adote métricas que permitam acompanhar estabilidade e performance do modelo no tempo.


---

### **Métricas para Regressão**

Para garantir que um modelo funciona, é preciso testar o resultado desse modelo. A **avaliação do modelo** de regressão linear é essencial para entender o quão bem ele se ajusta aos dados e sua capacidade de fazer previsões em novos dados.

Ao prever um valor numérico como valor monetário, distância ou altura, o objetivo não é saber se o modelo previu o valor exatamente, e sim o quão próximas as precisões estavam dos valores esperados.

Existem diversas métricas de erro que são usadas com frequência para avaliar e relatar o desempenho de um modelo de regressão.

* R²
* Erro Absoluto Médio
* Erro Quadrático Médio
* Raiz do Erro Quadrático Médio



<div>
<img src="https://drive.google.com/uc?export=view&id=1JwgJwChg1aKfWPXK5SM-rrQfcNFM7E4o" width="600" align="center"/>
    
</div>

#### Carregando a base de dados para avaliar métricas de regressão

In [1]:
import pandas as pd
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn import metrics

energia = pd.read_csv('https://raw.githubusercontent.com/andfranca/consumo-energia/main/Base%20de%20Dados/Previs%C3%A3o%20Energia%20Solar/previsao_energia_solar.csv', decimal = ',')

#Definir as variáveis que serão utilizadas no modelo
y = pd.DataFrame(energia['Geracao'])
X = pd.DataFrame(energia[['Localizacao'
                          , 'Data'
                          , 'Mes'
                          , 'Hora'
                          , 'Estacao'
                          , 'Umidade'
                          , 'Temperatura'
                          , 'Vento'
                          , 'Visibilidade'
                          , 'Pressao'
                          , 'Cloud.Ceiling'
                          ]])


# Carregar função train_test_split
from sklearn.model_selection import train_test_split

# Dividir os dados em 80% treino e 20% teste
X_train, X_test, y_train, y_test = train_test_split(X, y,
                                                    test_size=0.2, #0.2 corresponde a 20%
                                                    random_state=42)


# Treinar o modelo de regressão linear com a base de treino
modelo = LinearRegression()
modelo.fit(X_train, y_train)

# Fazer previsões com os dados de teste
y_pred = modelo.predict(X_test)


### R2 score

O _R2 Score_ Representa a proporção da variância (de y) que foi explicada pelas variáveis independentes no modelo. Ele fornece uma indicação da qualidade do ajuste e, portanto, uma medida de quão bem as amostras não vistas provavelmente serão previstas pelo modelo, por meio da proporção da variância explicada.

Como essa variação depende do conjunto de dados, os $R^2$ podem não ser significativamente comparáveis em diferentes conjuntos de dados. O melhor _score_ possível é 1,0 e pode ser negativa (porque o modelo pode ser arbitrariamente pior).

Se $\hat{y}_i$ for o valor previsto da $i$-ésima amostra e $y_i$ for o valor verdadeiro correspondente para o total de $n$ amostras, o $R^2$ estimado é definido como:

$$R^2(y, \hat{y}) = 1 - \frac{\sum_{i=1}^{n} (y_i - \hat{y}_i)^2}{\sum_{i=1}^{n} (y_i - \bar{y})^2}$$

Fonte: [Scikit-learn](https://scikit-learn.org/stable/modules/model_evaluation.html#regression-metrics)

In [2]:
r2 = metrics.r2_score(y_test, y_pred)
r2

0.4646805223318039

### R2 score Ajustado
A desvantagem do R2 score é que, ao adicionar novos recursos nos dados, o score começa a aumentar ou permanece constante, mas nunca diminui porque assume que, ao adicionar mais dados, a variação dos dados aumenta.

Mas o problema é quando adicionamos um recurso irrelevante no conjunto de dados e, nesse momento, o R2 às vezes começa a aumentar, o que é incorreto. Uma forma de lidar com esse tipo de problema, é utilizar o R2 ajustado.

<center>${\displaystyle {\bar {R}}^{2}=1-(1-R^{2}){n-1 \over n-p}}$

Onde:
- $n$, é o número de observações na base
- $p$, é o número de variáveis independentes
- $R^2$, é o coeficiente de determinação

In [3]:
n=X_test.shape[0] #qtde observações
k=X_test.shape[1] #qtde de variáveis
adj_r2_score = 1 - ((1-r2)*(n-1)/(n-k-1))
adj_r2_score

0.46327749296455345

### Mean Absolute Error - MAE

O erro absoluto médio (MAE) é uma das métricas mais comuns usadas para calcular o erro de previsão do modelo. O erro de previsão de uma única linha de dados é:

$ErroPrevisao = ValorAtual - ValorPrevisto$

Precisamos calcular os erros de previsão para cada linha de dados, obter seu valor absoluto e, em seguida, encontrar a média de todos os erros de previsão absolutos.

O MAE é dado pela seguinte fórmula:


<center> $\text{MAE}(y, \hat{y}) = \frac{1}{n_{\text{samples}}} \sum_{i=0}^{n_{\text{samples}}-1} \left| y_i - \hat{y}_i \right|$</center>



O gráfico abaixo representa os resíduos – diferenças entre os valores previstos (linha de regressão) e os valores de saída. O MAE usa o valor absoluto dos resíduos, portanto, não pode indicar se o modelo está com desempenho inferior ou superior.

<div>
<img src="https://i.ibb.co/6m8j6Bz/MAEgraphical.png" width="300" align="left"/>

</div>

Fonte: [Métricas de regressão](https://www.datacourses.com/evaluation-of-regression-models-in-scikit-learn-846/)

Por esse motivo, um MAE pequeno sugere que o modelo é ótimo em previsão. Da mesma forma, um grande MAE sugere que seu modelo pode ter problemas para generalizar bem.

Uma das grandes vantagens de se utilizar o MAE é que ele está na mesma unidade da variável de saída e é bem robusto quanto aos outliers.

In [4]:
#Calculando o MAE
mae = metrics.mean_absolute_error(y_test, y_pred)
mae

4.128572910028985

### Mean squared error - MSE

O erro quadrático médio (MSE) calcula a diferença quadrática média entre os valores alvo e previsto. Esta métrica é utilizada para muitos problemas de regressão, onde os erros maiores têm contribuições quadradas correspondentemente maiores para o erro médio.

O MSE é dado pela seguinte fórmula:

<center>$\text{MSE}(y, \hat{y}) = \frac{1}{n_\text{samples}} \sum_{i=0}^{n_\text{samples} - 1} (y_i - \hat{y}_i)^2$</center>

<div>
<img src="https://i.ibb.co/QpbsgNw/MSEgraphical.png" width="300" align="left"/>

</div>


O MSE quase sempre será maior que o MAE porque no MAE os resíduos contribuem linearmente para o erro total, enquanto no MSE o erro cresce quadraticamente a cada resíduo. É por isso que o MSE é usado para determinar até que ponto o modelo se ajusta aos dados porque penaliza fortemente os outliers.

In [5]:
mse = metrics.mean_squared_error(y_test, y_pred)
mse

27.194501157938348

### Root Mean Squared Error - RMSE
Root Mean Square Error (RMSE) é a raiz quadrada do MSE. É uma métrica utilizada com mais frequência do que o MSE. Muitas vezes o MSE pode ser um valor muito grande, o que pode dificultar na comparação, e, ao se utilizar o RMSE, é possível "voltar" os valores na mesma escala da base original, o que facilita a interpretação.

In [6]:
rmse = metrics.root_mean_squared_error(y_test, y_pred)
rmse

5.2148347200978815

#### **Resumindo**
* **R²:** Avalia a quantidade de variação explicada pelas variáveis preditivas. Um R² alto indica bom ajuste, mas não diz nada sobre o tamanho absoluto dos erros.
* **MAE:** Fornece uma média direta de quão distantes estão as previsões dos valores reais, sem amplificar grandes erros.
* **MSE:** Amplifica grandes erros, sendo útil quando erros grandes são mais prejudiciais.
* **RMSE:** Traz o MSE de volta à escala original dos dados, mantendo a penalização de grandes erros.


#### **Considerações:**

* Ao escolher a métrica para a avaliação do modelo, precisamos garantir que a métrica **penalize os erros** de uma forma que reflita as consequências desses erros para as **necessidades de negócios**.
* Se houver outliers nos dados, eles podem ter uma influência indesejada no score geral de R2 ou MSE.
* **MAE:** mais robusto a outliers, ideal quando não queremos que grandes erros dominem a avaliação.
* **MSE/RMSE:** sensíveis a outliers, úteis quando grandes erros precisam ser penalizados mais fortemente.
* O **MAE** é a melhor métrica quando queremos fazer uma distinção entre diferentes modelos porque não reflete grandes resíduos.


---

#### **Carregar e processar base de dados para classificação**

In [7]:
# Importando bibliotecas
import pandas as pd
from sklearn.preprocessing import LabelEncoder
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression

#Definir base de treinamento e teste
df = pd.read_csv('https://raw.githubusercontent.com/andfranca/proadi-sus-ciencia-de-dados-ia/refs/heads/main/bases/base_atrito.csv',low_memory=False)

variaveis_categoricas = df.select_dtypes(include=['object']).columns

label_encoders = {}

# Aplicar LabelEncoder a cada coluna categórica
for i in variaveis_categoricas:
    le = LabelEncoder()
    df[i] = le.fit_transform(df[i])
    label_encoders[i] = le


# Definir variáveis independente e dependentes
x = df.drop(['Deixou a empresa'], axis=1)
y = df['Deixou a empresa']


#Definir bases de treino e teste, com 80% para treinamento do modelo
X_train, X_test, y_train, y_test = train_test_split(x, y,
                                                    test_size = 0.20,
                                                    random_state = 42)


#Ajustar o modelor de regressão logística
modelo_log = LogisticRegression(random_state = 0)
modelo_log.fit(X_train, y_train)
y_pred_log = modelo_log.predict(X_test)


STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


---
### **Métricas de Classificação**

**Métricas de classificação** são indicadores usados para avaliar o desempenho de modelos em tarefas de **classificação**, onde o objetivo é prever rótulos discretos (categorias ou classes).

Essas métricas ajudam a entender quão bem o modelo está prevendo as classes corretas e são essenciais para comparar modelos e otimizar seus resultados.

Vamos analisar as métricas mais utilizadas:

* Matriz de Confusão
* Acurácia
* Precision
* Recall
* F1-Score


<div>
<img src="https://drive.google.com/uc?export=view&id=1SKPEzKPFJoBwhkL0PB5fofQ2XYq8KDp3" width="600" align="center"/>
    
</div>

#### **Matriz de Confusão**

A matriz de confusão é uma tabela que permite a visualização do desempenho de um algoritmo de classificação. Cada linha da matriz representa as instâncias em uma classe real, enquanto cada coluna representa as instâncias em uma classe prevista, ou vice-versa.


<table style="background:#FFFFFF;" align="center">
    
<tbody><tr>
<td rowspan="2" style="border:none;background:#FFFFFF;">
</td>
<td style="border:none; background:#FFFFFF;" >
</td>
<td colspan="2" style="background:#bbeeee;"><b>Previsto</b>
</td></tr>
<tr>
<td style="background:#ffffff;">
</td>
<td style="background:#ccffff;"><b>Negativo (PN)</b>
</td>
<td style="background:#ccffff;"><b>Positivo (PP)</b>
</td></tr>
<tr>
<td rowspan="2" ><div ><b>Atual</b></div>
</td>
<td style="background:#ccffff;"><b>Negativo (N)</b>
</td>
<td style="background:#ccffcc;"><b>Verdadeiro negativo</a> (TN) <br></b>
</td>
<td style="background:#ffdddd;"><b>Falso Positivo</a> (FP) <br></b>
</td></tr>
<tr>
<td style="background:#ccffff;"><b>Positivo (P)</b>
</td>
<td style="background:#ffcccc;"><b>Falso Negativo</a> (FN) <br></b>
</td>
<td style="background:#bbeebb;"><b>Verdadeiro positivo</a> (TP) <br></b>
</td></tr>
<tr>

</td></tr></tbody></table>

[Origem da Tabela](https://en.wikipedia.org/wiki/Sensitivity_and_specificity)


- Verdadeiros Positivos (TP)
- Falsos Positivos (FP) - Erro Tipo I
- Verdadeiros Negativos (TN)
- Falsos Negativos (FN) - Erro tipo II


Resumindo as métricas
- TP = Era verdadeiro e o modelo previu verdadeiro
- FP = Era falso e o modelo previu verdadeiro
- TN = Era falso e o modelo previu falso
- FN = Era verdadeiro e o modelo previu falso

In [8]:
#Matriz de Confusão usando sklearn
from sklearn import metrics

cm = metrics.confusion_matrix(y_test, y_pred_log)
print ("Confusion Matrix : \n", cm)

Confusion Matrix : 
 [[4943 2861]
 [3248 3848]]


O resultado da matriz tem:

* 4.943 Verdadeiro negativo
* 3.248 Falso Negativo
* 2.861 Falso Positivo
* 3.848 Verdadeiro Positivo

#### **Acurácia (ACC)**
Indica a performance geral do modelo. Dentre todas as classificações, quantas o modelo classificou corretamente

$$
\text{Acurácia} = \frac{\text{Previsões corretas}}{\text{Total de previsões}}
$$

A acurácia é um bom indicador geral de como o modelo performou. Porém, pode haver situações em que ela é enganosa.

In [9]:
#Calculando a acurácia com o Sklearn
acc = metrics.accuracy_score(y_test, y_pred_log)
print("Acurácia:",acc)
print(f"A taxa total de acerto do modelo é {acc :.2%}")

Acurácia: 0.59
A taxa total de acerto do modelo é 59.00%


---

#### **Precision (PPV)**

Valor preditivo positivo  (PPV)

Dentre **todas** as classificações de classe Positivo que o modelo fez, quantas estão corretas


$$
\text{Precision} = \frac{TP}{TP + FP}
$$


A precisão pode ser usada em uma situação em que os **Falsos Positivos** são considerados mais prejudiciais que os Falsos Negativos.

In [10]:
#Calculando o precision com o Sklearn
precision = metrics.precision_score(y_test, y_pred_log)
print ("Precision :", precision)

print(f"O precision indica que de todas as previsões positivas, o modelo acertou {precision :.2%}")

Precision : 0.5735579072887167
O precision indica que de todas as previsões positivas, o modelo acertou 57.36%


---

#### **Recall (TPR)**

Sensibilidade ou Taxa de Verdadeiros Positivos

O recall é o número de pessoas que o modelo identificou corretamente como tendo diabetes dividido pelo número total de pessoas que realmente têm a doença.


$$
\text{Recall} = \frac{TP}{TP + FN}
$$



O recall pode ser usada em uma situação em que os **Falsos Negativos** são considerados mais prejudiciais que os Falsos Positivos.

In [11]:
#Calculando o recall com o Sklearn
recall = metrics.recall_score(y_test, y_pred_log)
print ("Precision :", recall)

print(f"O recall indica que de todos os valores observados positivos, o modelo acertou {recall :.2%}")

Precision : 0.5422773393461104
O recall indica que de todos os valores observados positivos, o modelo acertou 54.23%


#### **Exemplo: Precision vs Recall**

Imagine que ajustamos um modelo para detectar doenças

<div>
<img src="https://drive.google.com/uc?export=view&id=1oUJCdnIpf4IqJvKA9IR3Re86TQK1p5S8" width="700" align="center"/>
    
</div>



---

#### **F-1 Score**

Média harmônica de Precision e Recall:


$$
\text{F1 Score} = \frac{2 \cdot \text{Precision} \cdot \text{Recall}}{\text{Precision} + \text{Recall}}
$$


O F1-Score é uma maneira de observar somente 1 métrica. É uma média harmônica entre o precision e o recall, que está muito mais próxima dos menores valores do que uma média aritmética simples. Ou seja, quando tem-se um F1-Score baixo, é um indicativo de que ou a precisão ou o recall está baixo.


In [12]:
#Calculando o F-1 Score com o Sklearn
f1 = metrics.f1_score(y_test, y_pred_log)
print ("F-1 Score :", f1)

F-1 Score : 0.5574791742122419


Mais informações sobre as métricas do sklearn, acesse: [Metrics Sklearn](https://scikit-learn.org/stable/modules/classes.html#module-sklearn.metrics)

#### **Classification Report**

O **classification report** fornece uma visão geral das métricas principais como **precisão, recall, F1-score e suporte** para cada classe presente no conjunto de dados.

In [13]:
print(metrics.classification_report(y_test, y_pred_log))

              precision    recall  f1-score   support

           0       0.60      0.63      0.62      7804
           1       0.57      0.54      0.56      7096

    accuracy                           0.59     14900
   macro avg       0.59      0.59      0.59     14900
weighted avg       0.59      0.59      0.59     14900



**Precision de 57%:** De cada 100 previsões positivas, 43 estão erradas — o modelo está gerando muitos falsos positivos.

**Recall de 54%:** O modelo está deixando de identificar quase metade dos casos positivos reais — isso representa falsos negativos.

##### **Conclusão**

- O modelo tem desempenho melhor para a classe 0 (negativa), o que pode indicar viés na predição, especialmente se a base estiver desbalanceada.

- A baixa sensibilidade (recall) da classe 1 é preocupante, pois significa que o modelo não está conseguindo identificar com eficácia os casos mais relevantes.

- Pode ser necessário:

  - Trabalhar com técnicas de balanceamento (undersampling, oversampling, SMOTE).

  - Ajustar o limiar de decisão (threshold).

  - Experimentar modelos mais sensíveis ao recall.

  - Usar métricas como F1-score ou AUC para priorizar ajustes.

---
#### **Curva ROC**

**ROC = Receiver Operating Characteristic**

É uma curva que mostra a relação entre a taxa de verdadeiros positivos (Recall) e a taxa de falsos positivos, para diferentes limiares (thresholds) do modelo.

Ao invés de avaliar apenas um limiar para o modelo, a curva ROC vai avaliar o comportamento global para todos os limiares possíveis. Ela responde a seguinte pergunta:

> **“Quão bem meu modelo consegue distinguir entre classes positivas e negativas, independentemente de onde eu corto o threshold (limiar)?”**


<div>
<img src="https://drive.google.com/uc?export=view&id=17WXh34uzNtVM1v1Hz5WNk37xNNdivasP" width="500" align="center"/>
    
</div>

#### **Curva ROC - Modelo Ruim**

A diagonal representa um modelo que faz previsões completamente aleatórias.
- Ela vai do ponto (0,0) até (1,1)
- Para cada aumento no Falso Positivo Rate (FPR), há um aumento proporcional no Verdadeiro Positivo Rate (TPR).

Ou seja:
- O modelo não tem nenhuma habilidade real para distinguir entre classes positivas e negativas.
- Ele “chuta” se é positivo ou negativo.


> **“A diagonal da Curva ROC representa um modelo que não aprende nada: decisões aleatórias”**

<div>
<img src="https://drive.google.com/uc?export=view&id=1ddD11OEPbckaADcrMQEZgV2XlCcJq9xI" width="500" align="center"/>
    
</div>

#### **Curva ROC - Modelo Bom**

A curva acima da diagonal representa um modelo com capacidade discriminativa — ou seja, um modelo que consegue diferenciar positivamente as classes!

- Cada ponto da curva mostra o desempenho para um determinado limiar.
- A curva mostra como o modelo aumenta o Recall (TPR) ao custo de também aumentar um pouco o FPR (mas não tanto quanto o modelo aleatório).

> **A curva ROC mede como o modelo equilibra Recall (positivos corretos) e Falsos Positivos, variando o threshold.**


<div>
<img src="https://drive.google.com/uc?export=view&id=1cl0WGFEN3wo-cE0wKr_Xf92I2RE6R9lU" width="500" align="center"/>
    
</div>

---
#### **AUC - Área Sob a Curva ROC**

A AUC é uma forma de resumir a Curva ROC em um único valor numérico.

Assim como a Curva ROC mostra a relação entre a taxa de verdadeiros positivos (Recall) e a taxa de falsos positivos para todos os thresholds possíveis, o AUC responde à pergunta:

> **Qual é a capacidade geral do meu modelo de separar positivos e negativos, independentemente do limiar escolhido?**



| Valor do AUC | Interpretação                                                                 |
|--------------|--------------------------------------------------------------------------------|
| 1.0          | Separação perfeita: o modelo distingue todas as classes corretamente.          |
| 0.5          | Sem poder discriminativo: equivalente a um modelo aleatório.                   |
| < 0.5        | Pior que aleatório: o modelo inverte as classes.                               |




<div>
<img src="https://drive.google.com/uc?export=view&id=1gtFi8zXHLal1sqOvPcHLBBdzmdYIcwcX" width="500" align="center"/>
    
</div>



---
#### **AUC vs Acurácia**

Quando avaliamos modelos de classificação, é comum nos depararmos com várias métricas.


Acurácia e AUC são duas das mais usadas, mas cada uma responde a uma pergunta diferente:
- **Acurácia:** Mede o desempenho do modelo em um threshold fixo, calculando a proporção total de acertos.
- **AUC:** Avalia a capacidade do modelo de separar classes considerando todos os possíveis limiares, mostrando o comportamento global.

| Métrica    | O que mede?                                                                                     | Quando é mais útil?                                                                                 |
|------------|--------------------------------------------------------------------------------------------------|------------------------------------------------------------------------------------------------------|
| Acurácia   | Proporção total de acertos (positivos e negativos) para um único threshold fixo.               | - Dados balanceados. <br> - Quando FP e FN têm peso semelhante.                                     |
| AUC (ROC AUC) | Avalia a capacidade do modelo em todos os thresholds, medindo o trade-off entre Recall e Falso Positivo Rate. | - Quando queremos avaliar performance global. <br> - Dados desbalanceados. <br> - Quando não sabemos qual threshold será usado na prática. |


#### **Quando usar cada métrica de classificação?**

- **Acurácia:** Útil quando as classes estão balanceadas e você precisa de um indicador geral de desempenho.
- **Precisão (Precision):** Importante quando o objetivo é minimizar os falsos positivos (ex.: detecção de fraudes).
- **Recall (Sensibilidade):** Essencial quando os falsos negativos são mais críticos (ex.: diagnósticos de doenças).
- **F1-Score:** Ideal para cenários com dados desbalanceados, quando é necessário equilibrar precisão e recall.
- **AUC (ROC):** Ideal para avaliação global do modelo, comparação entre modelos, independente do limiar



---



## **Validação de Modelos - Generalização**

O objetivo principal de um modelo de machine learning não é apenas performar bem nos dados de treino, mas sim generalizar para dados nunca vistos.

**Riscos Conhecidos:**
- **Underfitting:** modelo com baixa capacidade, alto viés. Não aprende nem os padrões do treino.
- **Overfitting:** modelo com alta capacidade, mas com alta variância. Aprende bem demais os dados de treino, mas não generaliza.


<div>
<img src="https://drive.google.com/uc?export=view&id=15iW-oMZHq0uMZjggpTnL2-G5Sm1TaF18" width="300" align="center"/>
    
</div>


#### **Particionamento dos Dados**

A divisão dos dados é uma etapa essencial no desenvolvimento de modelos de Machine Learning. Ela assegura que o modelo seja treinado, validado e testado de forma adequada, prevenindo problemas como overfitting e garantindo uma avaliação realista da capacidade de generalização do modelo.

Além dos métodos já trabalhados até o momento no curso, podemos utilizar outras técnicas como:
* **Holdout (Divisão Simples)**
* **Three-Way Split**
* **Validação Cruzada**


<div>
<img src="https://drive.google.com/uc?export=view&id=1kxNpvMWovyCTcb6C9xkSrpsoD9ECFQZD" width="600" align="center"/>
    
</div>

#### **Hold-out (Divisão Simples)**

O Holdout é a forma mais simples — e também uma das mais utilizadas — para dividir dados em projetos de Machine Learning. Até este ponto do curso, essa foi a principal técnica que aplicamos para separar os dados durante o desenvolvimento dos modelos.
Essa técnica separa a base de dados original em duas partes principais:
- **Treinamento:** Onde o modelo aprende os padrões existentes nos dados.
- **Teste:** Onde avaliamos o desempenho do modelo em dados que ele nunca viu.

Geralmente, essa divisão é feita em proporções como 70% para treinamento e 30% para teste, ou 80/20.

O objetivo é garantir que a avaliação do modelo seja feita de forma justa, simulando sua capacidade de generalizar para novos dados.


<div>
<img src="https://drive.google.com/uc?export=view&id=13UK4E1WKMo26zbAVdZHs666iyQvVVgVc" width="300" align="center"/>
    
</div>

In [14]:
from sklearn.model_selection import train_test_split

# Definir variáveis independente e dependentes
x = df.drop(['Deixou a empresa'], axis=1)
y = df['Deixou a empresa']


#Definir bases de treino e teste, com 80% para treinamento do modelo
X_train, X_test, y_train, y_test = train_test_split(x, y,
                                                    test_size = 0.20,
                                                    random_state = 42)

### **Three-Way Split**
O Three-Way Split é uma extensão da divisão simples (Holdout), onde a base de dados é separada em três partes diferentes. Ele é muito usado quando precisamos ajustar hiperparâmetros do modelo sem utilizar o conjunto de teste para isso.

**Treinamento:**
Usado para ensinar o modelo (ex: 60-70% dos dados).


**Validação:**
Usado para ajustar hiperparâmetros e tomar decisões sobre o modelo (ex: 15-20%).


**Teste:**
Usado para avaliação final, simulando dados nunca vistos (ex: 15-20%).


<div>
<img src="https://drive.google.com/uc?export=view&id=1NxH2opnN4W2ooxqhpfdV4i5IT0ekv0wz" width="300" align="center"/>
    
</div>

In [15]:
# Definir variáveis independentes e dependente
X = df.drop(['Deixou a empresa'], axis=1)
y = df['Deixou a empresa']

# Passo 1: Separar 20% para teste
X_temp, X_test, y_temp, y_test = train_test_split(X, y,
                                                  test_size=0.20,
                                                  random_state=42,
                                                  stratify=y)  # para manter proporção das classes

# Passo 2: Separar os 80% restantes em 60% treino e 20% validação (75% e 25% da parte restante)
X_train, X_val, y_train, y_val = train_test_split(X_temp, y_temp,
                                                  test_size=0.25,  # 0.25 * 0.80 = 0.20 do total
                                                  random_state=42,
                                                  stratify=y_temp)

#### **Particionamento dos Dados**

Até agora, utilizamos técnicas como o Holdout e o Three-Way Split para dividir os dados. Porém, essas abordagens dependem de uma única divisão aleatória dos dados. O problema?

> **Resultados podem variar bastante dependendo da sorte dessa divisão.**

> ### Como reduzir esse risco e obter uma avaliação mais robusta?

### **Validação Cruzada**

A **Validação Cruzada (Cross-Validation)** é uma técnica utilizada para avaliar o desempenho de modelos de Machine Learning de forma mais confiável e robusta.

Ao invés de depender de uma única divisão dos dados em treino e teste, como ocorre no Holdout, a validação cruzada divide os dados em várias partes (ou "folds") e realiza múltiplas rodadas de treinamento e teste.

O modelo é treinado e testado várias vezes, garantindo que todas as observações sejam usadas tanto para treinar quanto para testar, mas nunca ao mesmo tempo.


### **Técnicas**
É importante destacar que existem diferentes variações dessa técnica, cada uma funciona melhor para situações específicas. A escolha da técnica correta pode fazer toda diferença na avaliação do modelo, dependendo do tipo de dados, do problema e do objetivo da análise. Abaixo temos uma tabela que resume as principais técnicas de validação cruzada, com uma descrição rápida e sobre quando utilizar cada uma.

| Técnica               | O que faz?                                                                 | Quando usar                                                                                 |
|-----------------------|-----------------------------------------------------------------------------|---------------------------------------------------------------------------------------------|
| K-Fold Cross-Validation | Divide os dados em K partes; cada parte é usada uma vez como teste.        | Avaliação robusta, comum em datasets pequenos/médios.                                      |
| Stratified K-Fold     | Variante do K-Fold que preserva a proporção das classes (em classificação). | Classes desbalanceadas.                                                                    |
| Leave-One-Out (LOO)   | Cada observação é usada uma vez como teste; ideal para datasets muito pequenos. | Datasets extremamente pequenos, mas custo computacional alto.                              |
| Group K-Fold          | Respeita grupos nos dados (ex: pacientes, hospitais).                       | Quando há dependência ou agrupamento nos dados.                                             |
| Repeated K-Fold       | Repete várias vezes o processo de K-Fold com diferentes divisões aleatórias. | Para reduzir ainda mais a variância da avaliação.                                          |
| Nested Cross-Validation | Validação cruzada aninhada para evitar viés na escolha de hiperparâmetros. | Quando ajustamos hiperparâmetros e avaliamos desempenho.                                   |
| TimeSeriesSplit       | Usada para séries temporais, respeitando a ordem temporal dos dados.        | Modelos com dependência temporal (ex: previsão, séries).                                   |


##### **"Depois de rodar a Validação Cruzada, já posso usar o modelo para fazer predições?"**

#Não


O que acontece na prática é:

- A cada rodada do K-Fold:
  - Um modelo diferente é treinado (com dados diferentes).
  - O modelo é descartado após o fold.
- **Não existe um modelo consolidado ao final da Validação Cruzada.**

**Resultado da Validação Cruzada:**
- Métricas médias (ex.: acurácia média, F1 médio).
- Diagnóstico do comportamento geral do modelo.


### **K-fold Cross-Validation**

O **K-Fold Cross-Validation** é uma das técnicas mais utilizadas para validar modelos de Machine Learning de forma confiável. Ao invés de dividir os dados apenas uma vez, como no Holdout, o K-Fold separa o conjunto de dados em K partes iguais e realiza várias rodadas de treino e teste.

Dessa forma, todas as observações do dataset são usadas tanto para treinamento quanto para teste em momentos diferentes. Isso torna a avaliação do modelo mais completa e reduz a influência do acaso na divisão dos dados, resultando em uma estimativa mais estável do desempenho.


<div>
<img src="https://drive.google.com/uc?export=view&id=1V0cmbhzQZrQmMdmsZsrwznpEZ6kjoGi0" width="600" align="center"/>
    
</div>


O K-Fold Cross-Validation divide o conjunto de dados em K partes aproximadamente iguais. O modelo é então treinado e testado K vezes, o processo funciona assim:

1. Em cada iteração, um **fold diferente é usado como teste**, enquanto os outros **K-1 folds são usados para treinamento**.
2. Após cada rodada, calcula-se uma métrica de avaliação (como acurácia ou RMSE).
3. Ao final, os **K resultados são combinados** através da média, resultando em uma estimativa mais confiável e estável do desempenho do modelo.

Essa técnica garante que todas as observações sejam utilizadas tanto para treino quanto para teste, promovendo uma avaliação mais justa e robusta.


<div>
<img src="https://drive.google.com/uc?export=view&id=1gt1wLKFtz23WTEgxHV91MQ6CdgWwb1jh" width="600" align="center"/>
    
</div>


Apesar de ser uma das técnicas mais utilizadas para avaliação de modelos, o K-Fold Cross-Validation apresenta vantagens e limitações que precisam ser consideradas na prática.

| Pontos Fortes                                   | Desvantagens                                              |
|--------------------------------------------------|------------------------------------------------------------|
| Utiliza todos os dados para treino e teste       | Custo computacional elevado (treina o modelo K vezes)      |
| Avaliação mais robusta e confiável               | Pode gerar distribuição desigual em dados desbalanceados   |
| Reduz dependência de uma única divisão           | Não indicado para dados temporais                          |
| Flexível: ajustável para diferentes tamanhos de K|                                                            |


> **IMPORTANTE: O K-Fold não serve para gerar o modelo final, mas para validar se o modelo que você está construindo é consistente e generaliza bem. Depois da validação, sempre treine o modelo definitivo com todos os dados disponíveis.**


In [16]:
from sklearn.model_selection import KFold, cross_val_score
from sklearn.tree import DecisionTreeClassifier

# Criar o objeto KFold com 5 folds, embaralhando os dados
kf = KFold(n_splits=5, shuffle=True, random_state=0)

# Criar o modelo (Árvore de Decisão)
modelo_kf = DecisionTreeClassifier()

# Avaliar o modelo usando validação cruzada com K-Fold
scores = cross_val_score(modelo_kf, X_train, y_train, cv=kf)

# Exibir os resultados
print(f"Acurácias por fold: {scores}")
print(f"Média: {scores.mean():.2f}")
print(f"Desvio padrão: {scores.std():.2f}")

Acurácias por fold: [0.66812081 0.65458613 0.67404922 0.65544244 0.66014096]
Média: 0.66
Desvio padrão: 0.01


In [17]:
from sklearn.model_selection import KFold, cross_validate
from sklearn.tree import DecisionTreeClassifier

# Criar o objeto KFold
kf = KFold(n_splits=5, shuffle=True, random_state=0)

# Criar o modelo (Árvore de Decisão)
modelo = DecisionTreeClassifier()

# Avaliação com múltiplas métricas
resultados = cross_validate(
    modelo, X_train, y_train, cv=kf,
    scoring=['accuracy', 'f1', 'precision', 'recall'],
    return_train_score=False
)

# Exibir resultados
print("Acurácia:", resultados['test_accuracy'])
print("F1-Score:", resultados['test_f1'])

Acurácia: [0.66487696 0.65715884 0.67024609 0.65309319 0.65588992]
F1-Score: [0.65187079 0.63911456 0.65325806 0.63539095 0.64265799]


### **Stratified K-fold Cross-Validation**


Quando lidamos com problemas de classificação, é comum encontrarmos base de dados com classes desbalanceadas (ex: 90% de uma classe, 10% de outra).

Se aplicarmos o K-Fold tradicional, a divisão dos dados pode gerar folds onde essa proporção das classes não é preservada, o que pode distorcer a avaliação do modelo.


**O Stratified K-Fold resolve esse problema**

> Ele divide o conjunto de dados em K folds, mantendo aproximadamente a mesma proporção de classes em cada fold que existe no dataset original.

Assim, cada rodada de treino e teste mantém a proporção original das classes no target, garantindo que a avaliação do modelo seja feita de forma equilibrada e consistente, especialmente em casos de dados desbalanceados.

In [18]:
from sklearn.model_selection import StratifiedKFold, cross_val_score
from sklearn.tree import DecisionTreeClassifier
from sklearn.datasets import load_breast_cancer

# Criar Stratified K-Fold
skf = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)

# Modelo
modelo = DecisionTreeClassifier()

# Avaliação
scores = cross_val_score(modelo, X_train, y_train, cv=skf)
print(f'Acurácias por fold: {scores}')
print(f'Média: {scores.mean():.2f}')

Acurácias por fold: [0.65324385 0.65604027 0.66409396 0.67143976 0.65734422]
Média: 0.66


### **Leave-on-Out (LOOCV)**

O **Leave-One-Out Cross-Validation (LOOCV)** é uma variação extrema da validação cruzada. Ele segue o mesmo princípio do K-Fold, mas com um detalhe importante:

**Cada fold contém exatamente uma observação.**

Ou seja, o modelo é treinado com **n-1 observações** e testado com apenas 1 observação, repetindo esse processo para cada exemplo do dataset.

Essa técnica é especialmente útil quando temos conjuntos de dados muito pequenos, já que permite aproveitar praticamente todos os dados para treinamento em cada iteração.


Embora o Leave-One-Out Cross-Validation (LOOCV) siga a mesma ideia do K-Fold, ele possui características específicas que trazem impactos importantes na prática. Como qualquer técnica, o LOOCV oferece benefícios em alguns cenários, mas também apresenta limitações que precisam ser consideradas na escolha do método de validação.

Os **principais pontos fortes e desvantagens** do LOOCV são:


In [20]:
from sklearn.model_selection import LeaveOneOut
from sklearn.linear_model import LogisticRegression

# Cria um objeto loocv
loocv = LeaveOneOut()

#Criar um modelo de Regressão Logística utilizando k-Fold
modelo_loocv = LogisticRegression()

#Definir a performance do modelo
#scores = cross_val_score(modelo_loocv, X_train, y_train, cv=loocv)

---
## Otimização de Hiperparâmetros

Após definirmos nosso modelo e avaliarmos sua performance utilizando validação cruzada, surge uma pergunta essencial:

> **Será que conseguimos melhorar ainda mais o desempenho do modelo?**

Em muitos algoritmos, existem parâmetros que não são aprendidos diretamente durante o treinamento, mas que controlam o comportamento do modelo. Esses parâmetros são chamados de:


###**Hiperparâmetros**

Diferente dos parâmetros aprendidos pelo modelo (como os coeficientes em uma regressão), os hiperparâmetros controlam o comportamento e a complexidade do modelo.

Cada algoritmo possui hiperparâmetros específicos que influenciam diretamente sua performance. Escolher esses valores corretamente é um passo essencial para garantir um modelo eficiente e equilibrado. Podemos observar os principais hiperparâmetros de alguns modelos:


| Modelo                   | Hiperparâmetros comuns                                          |
|--------------------------|------------------------------------------------------------------|
| Árvore de Decisão        | Profundidade máxima, número mínimo de amostras por folha        |
| K-Nearest Neighbors (KNN)| Número de vizinhos (k), tipo de distância                       |
| SVM                      | Parâmetros C e gamma                                            |
| Random Forest            | Número de árvores, profundidade máxima                          |


* Hiperparâmetros bem ajustados podem **melhorar significativamente o desempenho.**
* Escolher valores arbitrários ou padrão nem sempre é ideal.
* Ajuste manual é trabalhoso e sujeito a erro.

###**Otimização de Hiperparâmetros**

> **Agora que temos nosso modelo treinado e validado, como sabemos se estamos usando os melhores hiperparâmetros?**

---

Agora que chegamos até aqui, não basta apenas definir bons hiperparâmetros — precisamos de uma forma mais sistemática para encontrar a melhor combinação. Para isso, utilizamos técnicas de Otimização de Hiperparâmetros, avaliando diferentes configurações com apoio da validação cruzada. As principais são:

- **Grid Search**
- **Random Search**

Ambas têm o mesmo objetivo: **testar várias configurações e identificar aquela que oferece o melhor desempenho**, sempre validando de forma robusta com validação cruzada.

O que muda entre elas é a forma como essas combinações são escolhidas e o custo computacional envolvido.


<div>
<img src="https://drive.google.com/uc?export=view&id=1OJn6rf5ux2XB_ttlTg2BxJIJSTXRuQCr" width="600" align="center"/>
    
</div>

### **Validação Cruzada e Otimização**

Agora, imagine que além de testar diferentes combinações de hiperparâmetros, também podemos aplicar a validação cruzada dentro desse processo.

Ou seja, para cada combinação de hiperparâmetros, o modelo não é avaliado apenas em uma divisão fixa dos dados, mas sim em várias divisões, garantindo que o desempenho daquela configuração seja consistente e não dependa da sorte de uma única partição.

Essa é exatamente a proposta do `GridSearchCV` e do `RandomizedSearchCV`:

> **Integrar de forma automática a validação cruzada ao ajuste dos hiperparâmetros.**

Assim, conseguimos otimizar os hiperparâmetros e, ao mesmo tempo, validar a estabilidade do modelo de maneira robusta, tudo em um único processo.



### **GRIDSEARCHCV: Otimização e Validação Cruzada**

O **GridSearchCV** automatiza o processo de encontrar a melhor combinação de hiperparâmetros para um modelo, de forma sistemática e robusta.

Como funciona:
1. Define uma grade de valores para cada hiperparâmetro.
2. Para **cada combinação possível**, o modelo é treinado e avaliado.
3. A avaliação é feita utilizando **validação cruzada** em cada configuração, garantindo consistência.
4. Retorna a combinação que apresenta o melhor desempenho médio nos folds.

```
# Hiperparâmetros a serem testados
parametros = {
    'max_depth': [3, 5, 7, None],
    'min_samples_split': [2, 5, 10]
}
```

In [21]:
from sklearn.model_selection import GridSearchCV
from sklearn.model_selection import KFold
from sklearn.tree import DecisionTreeClassifier

# Hiperparâmetros a serem testados
param_grid = {
    'max_depth': [3, 5, 7, None],
    'min_samples_split': [2, 5, 10]
}


# Criar o modelo
modelo = DecisionTreeClassifier(random_state=42)

# Definir K-Fold para validação cruzada
cv = StratifiedKFold(n_splits=5,
                     shuffle=True,
                     random_state=42)

# Configurar o GridSearchCV com validação cruzada
grid = GridSearchCV(estimator=modelo,
                    param_grid=param_grid,
                    cv=cv,
                    scoring='accuracy')

# Treinar com validação cruzada para cada combinação de hiperparâmetros
grid.fit(X_train, y_train)

# Resultados
print("Melhores hiperparâmetros encontrados:", grid.best_params_)
print(f"Melhor média de acurácia (validação cruzada): {grid.best_score_:.2f}")


Melhores hiperparâmetros encontrados: {'max_depth': 7, 'min_samples_split': 10}
Melhor média de acurácia (validação cruzada): 0.73


- **Para cada combinação** de max_depth e min_samples_split, o modelo é avaliado em 5 folds diferentes (K-Fold).
- O **GridSearchCV** cuida automaticamente de aplicar a validação cruzada em cada configuração.
- Ao final, ele retorna a configuração com a **melhor média de desempenho nos folds**.

### **RANDOMIZEDSEARCHCV: Otimização e Validação Cruzada**

O **RandomizedSearchCV** automatiza o ajuste dos hiperparâmetros, mas em vez de testar todas as combinações possíveis, ele seleciona combinações aleatórias dentro de um intervalo ou lista definida.

Como funciona:
1. Define intervalos ou listas de valores para os hiperparâmetros.
2. Seleciona aleatoriamente um número fixo de combinações (definido pelo argumento n_iter).
3. Para cada combinação sorteada, o modelo é treinado e avaliado.
4. Usa validação cruzada internamente para avaliar cada configuração.
5. Retorna a configuração com melhor desempenho médio.


```
# Hiperparâmetros a serem testados
parametros = {
    'max_depth': [3, 5, 7, None],
    'min_samples_split': randint(2, 11)
}

```

In [22]:
from sklearn.model_selection import RandomizedSearchCV, StratifiedKFold
from sklearn.tree import DecisionTreeClassifier
from scipy.stats import randint

# Definir o modelo
modelo = DecisionTreeClassifier(random_state=42)

# Definir os hiperparâmetros e os intervalos de busca
param = {
    'max_depth': [3, 5, 7, None],
    'min_samples_split': randint(2, 11)
}

# Definir K-Fold estratificado para validação cruzada
cv = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)

# Configurar o RandomizedSearchCV
random_search = RandomizedSearchCV(
    estimator=modelo,param_distributions=param,
    n_iter=10,
    cv=cv,scoring='accuracy',random_state=42
)


# Treinar com validação cruzada
random_search.fit(X_train, y_train)

# Resultados
print("Melhores hiperparâmetros encontrados:", random_search.best_params_)
print(f"Melhor média de acurácia (validação cruzada): {random_search.best_score_:.2f}")

Melhores hiperparâmetros encontrados: {'max_depth': 7, 'min_samples_split': 9}
Melhor média de acurácia (validação cruzada): 0.73


### **Resumindo**

- Hiperparâmetros controlam o comportamento do modelo e influenciam diretamente seu desempenho.
- Ajustá-los manualmente não é eficiente e pode levar a resultados inconsistentes.
- Técnicas sistemáticas:
  - **GridSearchCV**: Testa todas as combinações possíveis.
  - **RandomizedSearchCV**: Testa combinações aleatórias.
- Ambos integram Validação Cruzada, garantindo uma avaliação robusta.

**Limitações:**
- **Grid Search:** Alto custo computacional com muitos hiperparâmetros.
- **Random Search:** Não garante explorar todo o espaço, depende do número de iterações.
Ambos não aprendem com resultados anteriores (busca "cega").


## **Referências**

- Anderson, R. A., Sweeney, J. D. e Williams, T. A. [Estatística Aplicada à Administração e Economia](https://g.co/kgs/bjc2xdy). Editora Cengage. 4ª edição, 2019.
- McKinney, W. [Python for Data Analysis: Data Wrangling with Pandas, NumPy & Jupyter](https://wesmckinney.com/book/). 3rd Edition. Released: August, 2022. Last Update: April 12, 2023.
- VanderPlas, J. [Python Data Science Handbook](https://jakevdp.github.io/PythonDataScienceHandbook/) - O'Reilly Media, Inc. Released November, 2016. Last Update:  May 5, 2023.
- Géron, A. (2019). Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow (2nd Edition). O'Reilly Media.
- [Stats Models](https://www.statsmodels.org/stable/index.html) - Machine Learning in Python
- [Scikit-learn](https://scikit-learn.org/stable/) - -Statistical models, hypothesis tests, and data exploration
- **Scikit-learn – Model Selection**. https://scikit-learn.org/stable/model_selection.html
- **Scikit-learn – Cross-validation:** evaluating estimator performance.  https://scikit-learn.org/stable/modules/cross_validation.html
- **Scikit-learn – GridSearchCV**. https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.GridSearchCV.html
- **Scikit-learn – RandomizedSearchCV**. https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.RandomizedSearchCV.html
- **Scikit-learn – GroupKFold.**  https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.GroupKFold.html
- **Scikit-learn – GroupShuffleSplit.**  https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.GroupShuffleSplit.html

