In [1]:
import pandas as pd
# Lê o CSV e transforma-o em um DataFrame
heart_disease_df = pd.read_csv("./dataset/heart-disease.csv")

In [2]:
# Divide o DataFrame em features (x) e target (y)
X = heart_disease_df.drop("target", axis = 1)
y = heart_disease_df["target"]

In [3]:
import numpy as np

np.random.seed(42) # garante uniformidade aos geradores NumPy

from sklearn.model_selection import train_test_split
# Divide os dados (X e y) em treino e target
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2)

In [4]:
from sklearn.ensemble import RandomForestClassifier # importa modelo "Random Forest"

clf = RandomForestClassifier() # intancia o modelo com hiper-parâmetros padrões

clf.fit(X_train, y_train) # treina o modelo com as dados de treino

0,1,2
,n_estimators,100
,criterion,'gini'
,max_depth,
,min_samples_split,2
,min_samples_leaf,1
,min_weight_fraction_leaf,0.0
,max_features,'sqrt'
,max_leaf_nodes,
,min_impurity_decrease,0.0
,bootstrap,True


---

# Como Avaliar um Modelo?

Para mais detalhes, veja a [documentação](https://scikit-learn.org/stable/modules/model_evaluation.html) completa.

## 1. `score()`
    1. Em modelos de Classificação:

In [5]:
print(f"Acurácia: {clf.score(X_test, y_test) * 100:.2f}%") # retorna a acurácia do modelo

Acurácia: 85.25%


    2. Em modelos de Regressão:

In [6]:
from sklearn.datasets import fetch_california_housing # importa dataset "desconstruído"

california_housing = fetch_california_housing() # atribuí dataset "desconstruído" à um dicionário

# Controi as fetures em um DataFrame
california_housing_df = pd.DataFrame(california_housing["data"], columns = california_housing["feature_names"])
# Uni ao DataFrame o target
california_housing_df["MedHouseVal"] = california_housing["target"]

In [7]:
# Divide o DataFrame em features (X) e target (y)
X = california_housing_df.drop("MedHouseVal", axis = 1)
y = california_housing_df["MedHouseVal"]

In [8]:
from sklearn.model_selection import train_test_split
# Divide os dados (X e y) em treino e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2)

In [9]:
from sklearn.ensemble import RandomForestRegressor # importa modelo "Random Forest Regressor"

model = RandomForestRegressor() # instancia modelo com hiper-parâmetros padrões

model.fit(X_train, y_train) # treina o modelo com dados de treino

0,1,2
,n_estimators,100
,criterion,'squared_error'
,max_depth,
,min_samples_split,2
,min_samples_leaf,1
,min_weight_fraction_leaf,0.0
,max_features,1.0
,max_leaf_nodes,
,min_impurity_decrease,0.0
,bootstrap,True


In [10]:
model.score(X_test, y_test) # Retorna o R² (coeficiente de determinação) do modelo

0.8094425973856642

### Explicação do método `score()`

O método `.score()` é uma função embutida nos modelos do `scikit-learn` que serve para avaliar a performance do modelo. Mas o que ele calcula exatamente depende do tipo de modelo:

* Modelos de **classificação**: retorna a **acurácia**, que é a proporção de previsões corretas.

* Modelos de **regressão**: retorna o `Coeficiente de Determinação (R²)`. Esse coeficiente indica quanto da variação da **variável dependente** pode ser explicada pelo modelo.

Quanto mais próximo de **1**, melhor o ajuste. Um `R²` igual a **0** significa que o modelo não explica nada além da média, enquanto valores **negativos** indicam que o modelo é pior do que simplesmente chutar a média (o modelo é inútil).

---


## 2. `cros_val_score()`

A **Validação Cruzada (*cross-validation*)** é uma técnica usada para avaliar a performance de modelos de machine learning de forma mais confiável. Em sua forma mais comum, a `K-Fold Cross-Validation`, os dados são divididos em `K` partes: o modelo é treinado em `K – 1` delas e testado na parte restante, repetindo esse processo `K` vezes. A média dos resultados fornece uma estimativa mais robusta da performance do modelo.

Essa abordagem ajuda a evitar *overfitting* e a garantir que o modelo generalize bem para novos dados.

![image](./img/cross-validation.png)

In [11]:
# Recupera os dados de "heart_disease_df"
X = heart_disease_df.drop("target", axis = 1)
y = heart_disease_df["target"]

In [12]:
from sklearn.model_selection import train_test_split
# Divide os dados (X e y) em treino e target
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2)

In [13]:
clf = RandomForestClassifier() # intancia o modelo com hiper-parâmetros padrões

clf.fit(X_train, y_train) # treina o modelo com as dados de treino

0,1,2
,n_estimators,100
,criterion,'gini'
,max_depth,
,min_samples_split,2
,min_samples_leaf,1
,min_weight_fraction_leaf,0.0
,max_features,'sqrt'
,max_leaf_nodes,
,min_impurity_decrease,0.0
,bootstrap,True


In [14]:
from sklearn.model_selection import cross_val_score # importa o método "cross_val_score" do sklearn

np.random.seed(42) # garante reprodutibilidade aos geradores de números aleatórios

clf_cross_val_score_mean = np.mean(cross_val_score(clf, X, y, cv = 5, scoring = None))
clf_score = clf.score(X_test, y_test)

cross_val_score(clf, X, y, cv = 5, scoring = None)
# clf → o modelo (classificador)
# X → data
# y → label
# cv = 5 → indica que será usada uma validação cruzada com 5 dobras (K == 5)
# scoring = None → a métrica padrão do modelo "clf" será usada, no caso de classificadores, acurácia

array([0.78688525, 0.86885246, 0.80327869, 0.78333333, 0.76666667])

In [15]:
# Compara e imprime os métodos avaliativos
print(f"score(): Acurácia de {clf_score * 100:.2f}% | cross_val:score(): Acurácia de {clf_cross_val_score_mean * 100:.2f}%")

score(): Acurácia de 91.80% | cross_val:score(): Acurácia de 82.48%
