
# Tutorial: Implementation with `cross_val_score`

Setelah memahami konsep K-Fold Cross-Validation, sekarang saatnya kita mendalami alat utama dari Scikit-learn untuk menjalankannya: `cross_val_score`.

Fungsi ini adalah "pisau Swiss Army" Anda untuk evaluasi model. Ia merangkum seluruh proses K-Fold (membagi data, melatih model K kali, mengevaluasi K kali) ke dalam satu baris kode yang bersih dan efisien.

Di notebook ini, kita akan membedah cara menggunakan `cross_val_score`, terutama fokus pada parameternya yang paling penting seperti `cv` dan `scoring`.




---
### 1. Tujuan Pembelajaran

Di akhir notebook ini, Anda akan dapat:

* Menggunakan fungsi `cross_val_score` untuk melakukan K-Fold Cross-Validation.
* Menjelaskan parameter-parameter utama: `estimator`, `X`, `y`, `cv`, dan `scoring`.
* Meminta metrik evaluasi yang berbeda (seperti MSE atau MAE) menggunakan parameter `scoring`.
* Memahami konvensi `neg_` (misalnya, `neg_mean_squared_error`) di Scikit-learn dan cara menginterpretasikannya.




---
### 2. Setup: Mempersiapkan Data dan Model

Kita akan menggunakan dataset Diabetes dan model Regresi Linear untuk konsistensi.



In [1]:

import pandas as pd
import numpy as np
from sklearn.datasets import load_diabetes
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import cross_val_score

# Muat dataset
diabetes = load_diabetes()
X = pd.DataFrame(diabetes.data, columns=diabetes.feature_names)
y = pd.Series(diabetes.target, name='DiabetesProgression')

# Inisialisasi model yang akan kita evaluasi
model = LinearRegression()


---
### 3. Sintaks Dasar `cross_val_score`

Mari kita lihat kembali sintaks dasarnya dan bedah setiap komponennya.

```python
cross_val_score(estimator, X, y, cv, scoring)
```

* `estimator`: Objek model Scikit-learn yang ingin Anda evaluasi (misalnya, `LinearRegression()`).
* `X`: Fitur-fitur dari **keseluruhan dataset Anda**.
* `y`: Target dari **keseluruhan dataset Anda**.
* `cv`: Jumlah *folds* (lipatan) yang diinginkan. Angka 5 atau 10 adalah pilihan umum.
* `scoring`: String yang menentukan metrik evaluasi apa yang harus dihitung.



In [2]:
score_r2 = cross_val_score(model,X,y,cv=10)

print(f"hasil 10-fold CV (R2): \n{score_r2}")
print(f"\nrata-rata r2: {np.mean(score_r2):.4f} (+/- {np.std(score_r2):.4f})")


hasil 10-fold CV (R2): 
[0.5561455  0.23055827 0.35357673 0.62190752 0.2658727  0.61819798
 0.41815142 0.43513747 0.43436229 0.68569253]

rata-rata r2: 0.4620 (+/- 0.1470)



---
### 4. Mendalami Parameter `scoring`: Meminta Metrik yang Berbeda

Bagaimana jika kita tidak tertarik pada R² dan lebih peduli pada **Root Mean Squared Error (RMSE)**? Di sinilah parameter `scoring` menjadi sangat penting.

Scikit-learn memiliki konvensi penting: **semua metrik `scoring` dirancang agar "semakin tinggi semakin baik"**.

Ini tidak masalah untuk metrik seperti R², di mana nilai yang lebih tinggi memang lebih baik. Tetapi untuk metrik *error* (seperti MAE, MSE, RMSE), nilai yang lebih **rendah** justru lebih baik.

Untuk mengatasi ini, Scikit-learn menyediakan *scorer* untuk *error* dalam bentuk **negatif**. Misalnya, untuk menghitung MSE, kita harus meminta `'neg_mean_squared_error'`.



In [3]:
score_mse = cross_val_score(model,X,y,cv=10,scoring="neg_mean_squared_error")

print(f"hasil 10-fold CV (neg_mse): \n{score_mse}")
print(f"\nrata-rata neg_mse: {np.mean(score_mse):.4f} (+/- {np.std(score_mse):.4f})")

hasil 10-fold CV (neg_mse): 
[-2533.84017856 -2870.77758341 -3512.72914835 -2759.20855951
 -3555.69402408 -2900.34540046 -3696.33102548 -2282.33961544
 -4122.99489276 -1769.64247356]

rata-rata neg_mse: -3000.3903 (+/- 681.7926)



#### Menginterpretasikan Hasil Negatif

Seperti yang Anda lihat, semua skor MSE bernilai negatif. Untuk mendapatkan nilai MSE yang sebenarnya, kita hanya perlu mengalikannya dengan -1.

Dan untuk mendapatkan RMSE, kita melakukan langkah tambahan: mengakarkannya.



In [4]:
positive_mse = -score_mse
print(f"hasil 10-fold CV (mse positif):\n{positive_mse}")

mean_mse = np.mean(positive_mse)
std_mse = np.std(positive_mse)

print(f"\nrata-rata mse: {mean_mse:.4f} (+/- {std_mse:.4f})")

rmse_scores = np.sqrt(positive_mse)
mean_rmse = np.mean(rmse_scores)
std_rmse = np.std(rmse_scores)
print(f"\nhasil 10-fold CV (rmse positif):\n{rmse_scores}")
print(f"\nrata-rata rmse: {mean_rmse:.4f} (+/- {std_rmse:.4f})")

hasil 10-fold CV (mse positif):
[2533.84017856 2870.77758341 3512.72914835 2759.20855951 3555.69402408
 2900.34540046 3696.33102548 2282.33961544 4122.99489276 1769.64247356]

rata-rata mse: 3000.3903 (+/- 681.7926)

hasil 10-fold CV (rmse positif):
[50.33726431 53.57963777 59.26828113 52.5281692  59.62964048 53.85485494
 60.79745904 47.77383819 64.21055126 42.06711867]

rata-rata rmse: 54.4047 (+/- 6.3656)



Sekarang kita memiliki estimasi yang andal untuk RMSE model kita. Kita bisa mengatakan, "Model kami diperkirakan memiliki kesalahan prediksi rata-rata sekitar 0.73 (dalam unit target) dengan variasi sekitar 0.13."

#### Tabel `scoring` Umum untuk Regresi

| String `scoring` | Metrik yang Dihitung |
| :--- | :--- |
| `'r2'` | R-squared |
| `'neg_mean_squared_error'` | Mean Squared Error (negatif) |
| `'neg_root_mean_squared_error'`| Root Mean Squared Error (negatif) |
| `'neg_mean_absolute_error'` | Mean Absolute Error (negatif) |




---
### 5. Kesimpulan

* `cross_val_score` adalah fungsi utama di Scikit-learn untuk melakukan evaluasi model yang andal.
* Gunakan parameter `cv` untuk menentukan jumlah *folds* (lipatan).
* Gunakan parameter `scoring` untuk menentukan metrik evaluasi yang Anda inginkan.
* Ingatlah konvensi Scikit-learn: metrik *error* (MAE, MSE, RMSE) harus diminta dalam bentuk negatifnya (misalnya, `'neg_mean_absolute_error'`) dan kemudian diubah kembali menjadi positif untuk interpretasi.
