In [27]:
from sklearn.datasets import load_diabetes  # Import dataset diabetes dari sklearn
from sklearn.linear_model import LinearRegression, Lasso, Ridge  # Import model regresi
from sklearn.model_selection import train_test_split  # Import fungsi untuk membagi data latih dan uji
from sklearn.metrics import mean_squared_error, r2_score  # Import metrik evaluasi model

Kode tersebut bertujuan untuk mengimpor dataset diabetes dari sklearn dan mengimpor model regresi linear serta beberapa metrik untuk mengukur model, yakni mean_squared_error dan r2_score.

In [28]:
# Memuat dataset diabetes
x, y = load_diabetes(return_X_y=True)  # x adalah fitur, y adalah target

Fungsi load_diabetes memuat dataset diabetes, di mana x adalah variabel input (fitur) dan y adalah variabel target yang ingin diprediksi.

In [29]:
# Inisialisasi model Linear Regression
lr = LinearRegression()

Kode ini digunakan untuk menginisialisasi model Linear Regression.

In [30]:
len(load_diabetes()['feature_names'])  # Menghitung jumlah fitur dalam dataset diabetes

10

Kode ini untuk menghitung jumlah fitur atau variabel input yang ada di dalam dataset diabetes.

In [31]:
# Melatih model dengan seluruh data (tanpa split)
lr.fit(x, y)  # Melatih model pada data x dan y
y_pred = lr.predict(x)  # Prediksi nilai y berdasarkan data x

Fungsi fit() melatih model pada seluruh data yang ada, di mana x merupakan fitur (variabel input) dan y adalah target (variabel output). Setelah model dilatih, fungsi predict() digunakan untuk membuat prediksi target (y_pred) berdasarkan data input x yang sama

In [32]:
# Menghitung dan menampilkan R² Score pada seluruh data
print(r2_score(y, y_pred))  # Menampilkan nilai R² Score, mengukur seberapa baik model menjelaskan variabel target


0.5177484222203499


Menampilakan nilai R² Score. Nilai ini  berdasarkan hasil prediksi (y_pred) dibandingkan dengan nilai sebenarnya (y).

In [33]:
# Menghitung dan menampilkan Mean Squared Error pada seluruh data
print(mean_squared_error(y, y_pred))  # Menampilkan nilai MSE, mengukur rata-rata kuadrat kesalahan

2859.69634758675


Menampilkan MSE (Mean Squared Error).  Niali ini berdasarkan hasil prediksi (y_pred) dibandingkan dengan nilai sebenarnya (y)

In [34]:
# Membagi data menjadi data latih dan data uji
from sklearn.model_selection import train_test_split
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.2, random_state=42)  # 80% data latih, 20% data uji


Kode ini membagi data menjadi 80% data latih (x_train dan y_train) dan 20% data uji (x_test dan y_test), menggunakan parameter random_state=42 agar hasil pembagian konsisten setiap kali dijalankan.

In [38]:
# Melatih ulang model pada data latih
lr = LinearRegression()  # Inisialisasi ulang model Linear Regression
lr.fit(x_train, y_train)  # Melatih model pada data latih (x_train, y_train)
y_pred = lr.predict(x_test) # Memprediksi nilai target untuk data uji (x_test)
print(r2_score(y_test, y_pred))  # Menampilkan R² Score pada data uji
print(mean_squared_error(y_test, y_pred))  # Menampilkan MSE pada data uji

0.4526027629719195
2900.193628493482


Model dilatih ulang pada data latih (80% dari dataset) untuk mencegah overfitting, yaitu kondisi di mana model terlalu menyesuaikan pada data. Kemudian, performanya diuji pada data uji (20%) menggunakan dua metrik:

*   R² Score: Mengukur seberapa baik variabel input menjelaskan variabel target; semakin mendekati 1, semakin baik.
*   Mean Squared Error (MSE): Mengukur rata-rata kesalahan kuadrat antara prediksi dan nilai aktual; semakin kecil, semakin akurat.