# ✅ Validação de Modelos em Machine Learning

Este notebook cobre:
- Técnicas de divisão de dados
- Métricas para regressão e classificação
- Validação cruzada com K-Fold e StratifiedKFold
- Importância de métricas técnicas e de negócio


In [None]:
from sklearn.datasets import load_iris, make_regression
from sklearn.model_selection import train_test_split, KFold, StratifiedKFold, cross_val_score
from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import LinearRegression
from sklearn.metrics import classification_report, confusion_matrix, roc_auc_score, accuracy_score
from sklearn.metrics import mean_squared_error, r2_score
import numpy as np

# Dataset de classificação
iris = load_iris()
X_class, y_class = iris.data, iris.target

# Dataset de regressão
X_reg, y_reg = make_regression(n_samples=200, n_features=5, noise=10, random_state=42)


In [None]:
# Holdout
X_train, X_test, y_train, y_test = train_test_split(X_class, y_class, test_size=0.3, random_state=42)

model = RandomForestClassifier()
model.fit(X_train, y_train)
y_pred = model.predict(X_test)

print("Holdout - Accuracy:", accuracy_score(y_test, y_pred))
print(confusion_matrix(y_test, y_pred))
print(classification_report(y_test, y_pred))


In [None]:
# Stratified K-Fold
skf = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)
model = RandomForestClassifier()

scores = cross_val_score(model, X_class, y_class, cv=skf, scoring='accuracy')
print("Stratified K-Fold Accuracy médio:", scores.mean())


In [None]:
X_train_r, X_test_r, y_train_r, y_test_r = train_test_split(X_reg, y_reg, test_size=0.3, random_state=42)

reg = LinearRegression()
reg.fit(X_train_r, y_train_r)
y_pred_r = reg.predict(X_test_r)

print("MSE:", mean_squared_error(y_test_r, y_pred_r))
print("R²:", r2_score(y_test_r, y_pred_r))


## 🧭 Métricas Técnicas vs Métricas de Negócio

| Técnicas               | Negócio                         |
|------------------------|----------------------------------|
| Accuracy, MSE, ROC     | Redução de churn, aumento de vendas |
| Tempo de inferência    | SLA de resposta                  |
| Interpretação de modelo| Decisão clínica ou regulatória   |
| Robustez               | Segurança em produção            |


## 🛡️ Avaliação além da métrica

- **Interpretabilidade**: SHAP, LIME
- **Justiça (Fairness)**: análise de viés
- **Eficiência Computacional**
- **Segurança**: modelos robustos contra dados adversariais
