# Como melhorar um modelo de Machine Learning?

Melhorar um modelo de machine learning vai muito além de trocar o algoritmo. Envolve otimizar todo o ecossistema: dados, atributos, validação e até cuidados indiretos que impactam a performance final.

Abaixo, exploramos as principais áreas de atuação para melhorar um modelo de forma sólida e consciente.

---

## 1. Melhorias no Dataset

### a) Mais dados
- Aumentar o volume de dados pode ajudar o modelo a generalizar melhor.
- Com mais dados, modelos mais complexos (como redes neurais ou florestas profundas) tornam-se viáveis.
- É possível coletar mais dados reais ou gerar dados sintéticos (ex: SMOTE para classes desbalanceadas).

### b) Melhor qualidade dos dados
- Dados sujos ou inconsistentes comprometem o aprendizado.
- Técnicas recomendadas:
  - Tratamento de outliers
  - Imputação de valores nulos
  - Remoção de duplicatas
  - Correção de inconsistências

### c) Balanceamento de classes (em classificação)
- Desequilíbrio entre classes pode levar o modelo a ignorar a classe minoritária.
- Técnicas:
  - Oversampling (ex: SMOTE)
  - Undersampling
  - Ajuste de pesos (`class_weight='balanced'`)

---

## 2. Melhorias nas Features (Engenharia de Atributos)

### a) Feature Selection
- Reduzir a quantidade de variáveis pode:
  - Diminuir o overfitting
  - Melhorar interpretabilidade
  - Aumentar a performance
- Ferramentas: `SelectKBest`, `RFE`, `Lasso`, análise de correlação

### b) Feature Engineering
- Criar novas variáveis a partir de dados existentes pode melhorar o desempenho do modelo.
- Exemplos:
  - Interações entre variáveis (`x1 * x2`)
  - Agrupamentos (ex: média por categoria)
  - Transformações matemáticas (log, raiz quadrada)

### c) Normalização e Padronização
- Modelos baseados em distância (KNN, SVM) exigem dados na mesma escala.
- Técnicas:
  - `StandardScaler`
  - `MinMaxScaler`
  - `RobustScaler`

---

## 3. Melhorias no Modelo

### a) Escolha do algoritmo
- Testar diferentes algoritmos pode ser útil, mas não resolve problemas estruturais nos dados.
- Exemplo: além de `LinearRegression`, testar `RandomForest`, `XGBoost`, `SVR`, entre outros.

### b) Ajuste de hiperparâmetros (Hyperparameter Tuning)
- Permite refinar o comportamento interno do modelo.
- Ferramentas:
  - `GridSearchCV`
  - `RandomizedSearchCV`
  - Otimizações avançadas como `Optuna` ou `Bayesian Optimization`

### c) Regularização
- Ajuda a evitar overfitting penalizando a complexidade do modelo.
- Exemplos:
  - `Ridge` e `Lasso` para regressão
  - `max_depth`, `min_samples_leaf` para árvores

---

## 4. Melhorias na Validação e Avaliação

### a) Validação cruzada (Cross-validation)
- Divide os dados em múltiplos subconjuntos (folds) para estimar melhor o desempenho real.

### b) Escolha das métricas
- Usar métricas adequadas ao problema:
  - Classificação: `accuracy`, `precision`, `recall`, `f1`, `roc_auc`
  - Regressão: `mae`, `mse`, `rmse`, `r2`

### c) Análise de erros
- Verificar em quais casos o modelo mais erra pode revelar padrões ocultos.
- Perguntas úteis:
  - Os dados estão rotulados corretamente?
  - O erro está concentrado em alguma faixa de valor?
  - Há viés em alguma feature?

---

## 5. Outros fatores indiretamente importantes

### a) Qualidade do split entre treino e teste
- O treino e o teste devem representar bem a realidade do problema.
- Amostras não podem estar enviesadas ou “fáceis demais”.

### b) Leakage de dados
- O modelo pode ter acesso indevido a informações futuras.
- Exemplo: usar a média de vendas do mês futuro para prever o mês atual.

### c) Interpretação e explicabilidade
- Usar ferramentas como `SHAP`, `LIME` ou `permutation importance` ajuda a entender o modelo e identificar falhas.

---

## Resumo

| Categoria             | Estratégias                                                    |
|----------------------|-----------------------------------------------------------------|
| Dados                | Coleta, limpeza, balanceamento                                  |
| Atributos (features) | Seleção, criação, normalização                                  |
| Modelo               | Escolha adequada, ajuste fino, regularização                    |
| Validação            | Cross-validation, métricas adequadas, análise de erros          |
| Cuidados extras      | Evitar leakage, splits corretos, interpretabilidade             |

<br>

In [1]:
import pandas as pd
# Lê o CSV e transforma-o em um DataFrame
heart_disease_df = pd.read_csv("./dataset/heart-disease.csv")

# Divide o DataFrame em features (x) e target (y)
X = heart_disease_df.drop("target", axis = 1)
y = heart_disease_df["target"]

# Importa as funções de avaliação mais comuns para modelos de classificação binária
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score 

# Define uma função que recebe os valores reais e valores preditos respectivamente e retorna métricas de avaliação
def evaluate_model(y_true, y_pred):
    accuracy = accuracy_score(y_true, y_pred)
    precision = precision_score(y_true, y_pred)
    recall = recall_score(y_true, y_pred)
    f1 = f1_score(y_true, y_pred)

    metrics_dict = {
        "accuracy": round(accuracy, 2),
        "precision": round(precision, 2),
        "recall": round(recall, 2),
        "f1": round(f1, 2)
    }

    print(f'Accuracy: {accuracy * 100:.2f}%')
    print(f'Precision: {precision:.2f}')
    print(f'Recall: {recall:.2f}')
    print(f'F1 score: {f1:.2f}')

    return metrics_dict

import numpy as np

np.random.seed(42) # garante uniformidade aos geradores NumPy

from sklearn.model_selection import train_test_split
# Divide os dados (X e y) em 70% (para treino) e 30% (para posteriormente ser divido em validação e teste)
# Passo 1: separa 70% para treino e 30% restante
X_train, X_temp, y_train, y_temp = train_test_split(X, y, test_size=0.3)

# Passo 2: separa metade do 30% para validação e metade para teste
X_valid, X_test, y_valid, y_test = train_test_split(X_temp, y_temp, test_size=0.5)

print(len(X_train), len(X_valid), len(X_test))

from sklearn.ensemble import RandomForestClassifier # importa modelo de classificação "Random Forest"

clf = RandomForestClassifier() # intancia o modelo com hiper-parâmetros padrões

clf.fit(X_train, y_train) # treina o modelo com as dados de treino

y_preds = clf.predict(X_valid) # faz previsões com o modelo "clf" sobre os dados de validação (X_valid)

# Avalia o desempenho do modelo passando à função "evaluate_models()" os valores reais de validação e as predições
baseiline_metrics = evaluate_model(y_valid, y_preds)
baseiline_metrics

212 45 46
Accuracy: 80.00%
Precision: 0.78
Recall: 0.88
F1 score: 0.82


{'accuracy': 0.8, 'precision': 0.78, 'recall': 0.88, 'f1': 0.82}

## Mas afinal, o que s]ao `hiperparâmetros`?

| Termo               | O que são?                                                                    | Quem define?                |
| ------------------- | ----------------------------------------------------------------------------- | --------------------------- |
| **Parâmetros**      | São aprendidos **pelo modelo durante o treinamento**.                         | O modelo aprende sozinho    |
| **Hiperparâmetros** | São definidos **antes do treinamento** e controlam o comportamento do modelo. | Você (ou validação cruzada) |

<br>

* `Parâmetros` definem o que o modelo aprendeu

* `Hiperparâmetros` definem como ele aprende

<br>

In [2]:
clf.get_params() # retorna os hiperparâmetros do modelo

{'bootstrap': True,
 'ccp_alpha': 0.0,
 'class_weight': None,
 'criterion': 'gini',
 'max_depth': None,
 'max_features': 'sqrt',
 'max_leaf_nodes': None,
 'max_samples': None,
 'min_impurity_decrease': 0.0,
 'min_samples_leaf': 1,
 'min_samples_split': 2,
 'min_weight_fraction_leaf': 0.0,
 'monotonic_cst': None,
 'n_estimators': 100,
 'n_jobs': None,
 'oob_score': False,
 'random_state': None,
 'verbose': 0,
 'warm_start': False}

* ## Hyperparameter Tuning

### 1. Manualmente

In [3]:
np.random.seed(42) # garante uniformidade aos geradores NumPy

clf_2 = RandomForestClassifier(
    n_estimators = 1000,
    max_depth=10
) 
# Instancia um novo modelo "RandomForestClassifier" com hiperparâmetros específicos
# n_estimators = 500 → 500 árvores de decisão (mais robusto, tende a reduzir o erro de generalização)
# max_depth = 10 → cada árvore terá profundidade máxima de 10 níveis, limitando a complexidade e evitando overfitting

clf_2.fit(X_train, y_train) # treina o modelo com as dados de treino

y_preds_2 = clf_2.predict(X_valid) # faz previsões com o modelo "clf" sobre os dados de validação (X_valid)

# Avalia o desempenho do modelo passando à função "evaluate_models()" os valores reais de validação e as predições
clf_2_metrics = evaluate_model(y_valid, y_preds_2)
clf_2_metrics

Accuracy: 80.00%
Precision: 0.78
Recall: 0.88
F1 score: 0.82


{'accuracy': 0.8, 'precision': 0.78, 'recall': 0.88, 'f1': 0.82}

## 2. `RandomizedSearchCV`



O script a seguir usa o `RandomizedSearchCV` para fazer ajuste de hiperparâmetros de um modelo **RandomForestClassifier**, testando combinações de hiperparâmetros de forma aleatória em vez de exaustiva, o que é mais eficiente:

In [4]:
# Importa a classe "RandomizedSearchCV", usada para buscar hiperparâmetros de forma aleatória e eficiente
from sklearn.model_selection import RandomizedSearchCV 

# Define o espaço de busca de hiperparâmetros
# Contém os valores que o algoritmo pode testar para cada parâmetro do "Random Forest"
grid = {
    "n_estimators": [10, 100, 200, 500, 1000, 1200],
    "max_depth": [None, 5, 10, 20, 30],
    "min_samples_split": [2, 4, 6],
    "min_samples_leaf": [1, 2, 4],
}

from sklearn.model_selection import train_test_split
# Divide os dados (X e y) em treino e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2)

clf = RandomForestClassifier(n_jobs = -1) 
# n_jobs = -1 → usa todos os núcleos da CPU disponíveis para paralelizar o treinamento (mais rápido)

rs_clf = RandomizedSearchCV(
    estimator = clf,
    param_distributions = grid,
    n_iter = 10,
    cv = 5,
    verbose = 2
)
# Instancia o RandomizedSearchCV com os seguintes argumentos:
# estimator = clf → modelo base que será ajustado
# param_distributions = grid → dicionário de hiperparâmetros a serem sorteados
# n_iter = 10 → número de combinações aleatórias que serão testadas → qtd. output = n_inter * cv
# cv = 5 → validação cruzada com 5 folds (K = 5)
# verbose = 2 → mostra progresso da busca no console

rs_clf.fit(X_train, y_train);
# Inicia o processo de tuning:
# sorteia 10 combinações, treina o modelo 5 vezes para cada uma (cross-validation), e armazena a melhor

Fitting 5 folds for each of 10 candidates, totalling 50 fits
[CV] END max_depth=10, min_samples_leaf=1, min_samples_split=4, n_estimators=1000; total time=   2.3s
[CV] END max_depth=10, min_samples_leaf=1, min_samples_split=4, n_estimators=1000; total time=   2.4s
[CV] END max_depth=10, min_samples_leaf=1, min_samples_split=4, n_estimators=1000; total time=   2.0s
[CV] END max_depth=10, min_samples_leaf=1, min_samples_split=4, n_estimators=1000; total time=   2.2s
[CV] END max_depth=10, min_samples_leaf=1, min_samples_split=4, n_estimators=1000; total time=   2.3s
[CV] END max_depth=20, min_samples_leaf=1, min_samples_split=6, n_estimators=10; total time=   0.0s
[CV] END max_depth=20, min_samples_leaf=1, min_samples_split=6, n_estimators=10; total time=   0.0s
[CV] END max_depth=20, min_samples_leaf=1, min_samples_split=6, n_estimators=10; total time=   0.0s
[CV] END max_depth=20, min_samples_leaf=1, min_samples_split=6, n_estimators=10; total time=   0.0s
[CV] END max_depth=20, min_sa

In [5]:
rs_clf.best_params_ # retorna os melhores hiperparâmetros encontrados

{'n_estimators': 200,
 'min_samples_split': 4,
 'min_samples_leaf': 4,
 'max_depth': 30}

## Por que usar o RandomizedSearchCV?

Fazer busca exaustiva com `GridSearchCV` pode ser muito custoso (ex: 6×5×4×3 = 360 combinações).

O `RandomizedSearchCV` sorteia um número fixo de combinações (`n_iter`) e testa essas aleatoriamente.

Isso permite economizar tempo e ainda assim explorar o espaço de busca com boas chances de encontrar uma configuração eficiente.

---

## Parâmetros principais

| Parâmetro             | O que faz                                                       |
|-----------------------|------------------------------------------------------------------|
| `estimator`           | O modelo a ser ajustado (ex: `RandomForestClassifier`)          |
| `param_distributions` | Dicionário com os hiperparâmetros a serem sorteados             |
| `n_iter`              | Número de combinações aleatórias a serem testadas               |
| `cv`                  | Quantidade de divisões para validação cruzada                   |
| `verbose`             | Nível de detalhamento do log (ex: `2` mostra progresso na tela) |

---

## Vantagens

- Muito mais rápido que `GridSearchCV` em grandes espaços de busca
- Ideal para rodar em ambientes com tempo ou recursos computacionais limitados
- Pode ser combinado com `n_jobs=-1` para paralelismo automático

---

## Resultado

Após o `fit()`, você pode acessar:

```python
rs_clf.best_params_     # melhores hiperparâmetros encontrados
rs_clf.best_score_      # melhor score médio obtido na validação cruzada
rs_clf.best_estimator_  # modelo já treinado com a melhor combinação


In [6]:
# Usa o modelo "rs_clf", ajustado com "RandomizedSearchCV", para fazer previsões sobre os dados de teste (X_test)
rs_preds = rs_clf.predict(X_test)

# Avalia o desempenho do modelo passando à função "evaluate_models()" os valores reais de validação e as predições
rs_clf_metrics = evaluate_model(y_test, rs_preds)
rs_clf_metrics

Accuracy: 80.33%
Precision: 0.74
Recall: 0.90
F1 score: 0.81


{'accuracy': 0.8, 'precision': 0.74, 'recall': 0.9, 'f1': 0.81}