## üß™ 1. M√©tricas para **Classifica√ß√£o**

- Vamos explorar **exemplos pr√°ticos do uso das m√©tricas de avalia√ß√£o** mais comuns em machine learning, organizadas por tipo de problema. 
- Ser√° mostrado como utiliz√°-las no Python com a biblioteca `scikit-learn`, sempre associando cada m√©trica a uma t√©cnica de valida√ß√£o.
- Vamos usar o dataset **Iris** e um modelo de classifica√ß√£o (`RandomForestClassifier`).

### ‚úÖ Exemplo: Acur√°cia, F1 Score, Precision, Recall, ROC-AUC

| M√©trica     | O que mede?                             | Ideal para...                          |
|-------------|------------------------------------------|----------------------------------------|
| Acur√°cia    | % de previs√µes corretas                  | Dados balanceados                      |
| Precision   | Acertos entre os que previu como positivo| Evitar falsos positivos                |
| Recall      | Acertos entre os que eram realmente positivo | Evitar falsos negativos              |
| F1 Score    | Equil√≠brio entre precision e recall      | Dados desbalanceados                   |
| ROC-AUC     | Capacidade de separar classes            | Comparar modelos probabil√≠sticos       |

In [1]:
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, roc_auc_score
import numpy as np

# Carregar dados
iris = load_iris()
X, y = iris.data, iris.target

# Binarizando para simplificar (apenas duas classes)
X = X[y != 2]
y = y[y != 2]

# Dividir em treino e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Treinar modelo
model = RandomForestClassifier(random_state=42)
model.fit(X_train, y_train)

# Prever r√≥tulos e probabilidades
y_pred = model.predict(X_test)
y_proba = model.predict_proba(X_test)[:, 1]  # Probabilidade da classe positiva

# Calcular m√©tricas
print("Acur√°cia:", accuracy_score(y_test, y_pred))
print("Precision:", precision_score(y_test, y_pred))
print("Recall:", recall_score(y_test, y_pred))
print("F1 Score:", f1_score(y_test, y_pred))
print("ROC AUC:", roc_auc_score(y_test, y_proba))

Acur√°cia: 1.0
Precision: 1.0
Recall: 1.0
F1 Score: 1.0
ROC AUC: 1.0


> üí° **Observa√ß√µes:**
> - `roc_auc_score` requer **probabilidades**, n√£o apenas previs√µes.
> - Use `predict_proba()` para isso.
> - As m√©tricas podem ser ajustadas com o par√¢metro `average` se for multi-classe.


## üìà 2. M√©tricas para **Regress√£o**

Vamos usar os dados simulados do seno e um modelo de regress√£o (`RandomForestRegressor`).

### ‚úÖ Exemplo: MAE, MSE, RMSE, R¬≤

| M√©trica | O que mede?                          | Interpreta√ß√£o                        |
|--------|--------------------------------------|---------------------------------------|
| MAE    | Erro m√©dio absoluto                  | F√°cil de entender                    |
| MSE    | Erro m√©dio quadr√°tico                | Penaliza erros maiores               |
| RMSE   | Raiz do MSE                          | Mesma unidade do alvo                |
| R¬≤     | Propor√ß√£o da vari√¢ncia explicada     | Quanto mais pr√≥ximo de 1, melhor     |

In [2]:
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score

# Dados simulados
X = np.sort(np.random.rand(100, 1), axis=0)
y = np.sin(X).ravel() + np.random.normal(0, 0.1, 100)

# Divis√£o treino-teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Modelo de regress√£o
model = RandomForestRegressor(random_state=42)
model.fit(X_train, y_train)

# Previs√£o
y_pred = model.predict(X_test)

# Avalia√ß√£o
print("MAE:", mean_absolute_error(y_test, y_pred))
print("MSE:", mean_squared_error(y_test, y_pred))
print("RMSE:", np.sqrt(mean_squared_error(y_test, y_pred)))
print("R¬≤ Score:", r2_score(y_test, y_pred))

MAE: 0.08480777818911074
MSE: 0.012414474472505942
RMSE: 0.11142026060149897
R¬≤ Score: 0.7879978858876039


> üí° **Dicas:**
> - O **MAE** √© f√°cil de interpretar (erro m√©dio absoluto).
> - O **RMSE** penaliza mais erros maiores.
> - O **R¬≤** varia de 0 a 1, onde 1 significa perfeito ajuste.

## üîç 3. M√©tricas para **Clusteriza√ß√£o**

Vamos usar o dataset **make_blobs** e o algoritmo **KMeans**.

### ‚úÖ Exemplo: Silhouette Score, Rand Index

#### üéØ **Silhouette Score**

- **O que √©?**  
  Uma m√©trica que mede **qu√£o bem cada ponto est√° posicionado dentro do seu cluster**.

- **Faixa:**  
  Varia de **-1 a 1**:
  - **1**: O ponto est√° bem posicionado no seu cluster e longe dos outros.
  - **0**: O ponto est√° na fronteira entre dois clusters.
  - **-1**: O ponto pode estar no cluster errado.

- **Quando usar?**  
  Quando **n√£o temos os r√≥tulos reais** das classes e queremos avaliar a qualidade da clusteriza√ß√£o.

#### üéØ **Rand Index (√çndice Rand)**

- **O que √©?**  
  Mede a **similaridade entre dois agrupamentos** (por exemplo, os clusters encontrados e os r√≥tulos verdadeiros).

- **Vers√£o ajustada:**  
  Usa-se mais comummente o **Adjusted Rand Index (ARI)**, que corrige o valor esperado em caso de agrupamento aleat√≥rio.

- **Faixa:**  
  - **1**: Agrupamento perfeito (total concord√¢ncia com os r√≥tulos verdadeiros).
  - **0**: Equivalente a um agrupamento aleat√≥rio.
  - Pode ser negativo: pior que aleat√≥rio.

- **Quando usar?**  
  Quando **temos os r√≥tulos verdadeiros** e queremos comparar com os clusters gerados.

In [3]:
from sklearn.datasets import make_blobs
from sklearn.cluster import KMeans
from sklearn.metrics import silhouette_score, adjusted_rand_score

# Gerando dados sint√©ticos
X, y_true = make_blobs(n_samples=300, centers=4, random_state=42)

# Clusteriza√ß√£o
kmeans = KMeans(n_clusters=4, random_state=42)
kmeans.fit(X)
y_pred = kmeans.labels_

# Avalia√ß√£o
print("Silhouette Score:", silhouette_score(X, y_pred))  # Mede a qualidade dos clusters
print("Adjusted Rand Index:", adjusted_rand_score(y_true, y_pred))  # Compara com verdadeiros labels

Silhouette Score: 0.7915830011443039
Adjusted Rand Index: 0.9910811504997546


> üí° **Explicando:**
> - **Silhouette Score**: mede qu√£o bem cada ponto est√° dentro do seu cluster (de -1 a 1).
> - **Rand Index (ajustado)**: compara agrupamentos com os r√≥tulos reais (se dispon√≠veis).

## üìä Resumo ‚Äì Quando usar qual m√©trica?

| Tipo de Problema | M√©trica             | Quando usar? |
|------------------|---------------------|--------------|
| Classifica√ß√£o    | Acur√°cia            | Casos gerais, dados balanceados |
|                  | F1 Score            | Dados desbalanceados |
|                  | ROC AUC             | Comparar modelos probabil√≠sticos |
| Regress√£o        | MAE                 | Erro m√©dio simples de entender |
|                  | RMSE                | Penaliza erros grandes |
|                  | R¬≤                  | Explica√ß√£o da vari√¢ncia |
| Clusteriza√ß√£o    | Silhouette Score    | Sem r√≥tulos verdadeiros |
|                  | Rand Index          | Com r√≥tulos verdadeiros |