In [1]:
# Load Library
from sklearn.datasets import load_diabetes
from sklearn.linear_model import LinearRegression, Lasso, Ridge
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error, r2_score

Sekumpulan fungsi yang dirancang untuk mempermudah dan mempercepat proses pengembangan tertentu disebut library atau pustaka. Library berisi koleksi fungsi, kelas, atau modul yang dapat digunakan kembali oleh pengembang untuk menyelesaikan tugas-tugas tertentu tanpa harus menulis kode dari awal. Ini membantu menghemat waktu dan usaha dalam pengembangan perangkat lunak.

In [2]:
load_diabetes()['target']

array([151.,  75., 141., 206., 135.,  97., 138.,  63., 110., 310., 101.,
        69., 179., 185., 118., 171., 166., 144.,  97., 168.,  68.,  49.,
        68., 245., 184., 202., 137.,  85., 131., 283., 129.,  59., 341.,
        87.,  65., 102., 265., 276., 252.,  90., 100.,  55.,  61.,  92.,
       259.,  53., 190., 142.,  75., 142., 155., 225.,  59., 104., 182.,
       128.,  52.,  37., 170., 170.,  61., 144.,  52., 128.,  71., 163.,
       150.,  97., 160., 178.,  48., 270., 202., 111.,  85.,  42., 170.,
       200., 252., 113., 143.,  51.,  52., 210.,  65., 141.,  55., 134.,
        42., 111.,  98., 164.,  48.,  96.,  90., 162., 150., 279.,  92.,
        83., 128., 102., 302., 198.,  95.,  53., 134., 144., 232.,  81.,
       104.,  59., 246., 297., 258., 229., 275., 281., 179., 200., 200.,
       173., 180.,  84., 121., 161.,  99., 109., 115., 268., 274., 158.,
       107.,  83., 103., 272.,  85., 280., 336., 281., 118., 317., 235.,
        60., 174., 259., 178., 128.,  96., 126., 28

"load_diabetes()['target']" adalah:

Fungsi load_diabetes() dari pustaka sklearn.datasets digunakan untuk memuat dataset diabetes, dan ['target'] mengacu pada kolom yang berisi nilai yang ingin diprediksi dalam dataset tersebut. Dalam konteks dataset diabetes, kolom target berisi nilai variabel dependen, yaitu tingkat progression of diabetes dalam satu tahun, yang diukur dengan suatu skala tertentu.

Jadi, pada dasarnya, kolom target dalam dataset diabetes menyimpan data yang ingin diprediksi atau dipelajari oleh model, seperti perubahan atau perkembangan penyakit diabetes dalam periode waktu tertentu (dalam hal ini, satu tahun).

In [3]:
x, y = load_diabetes(return_X_y=True)

Interpretasi yang benar untuk pernyataan "x, y = load_diabetes(return_X_y=True)" adalah:

Fungsi load_diabetes(return_X_y=True) dari pustaka sklearn.datasets digunakan untuk memuat dataset diabetes dan mengembalikan dua variabel:

x: Berisi fitur (features) atau variabel independen dalam dataset, yang merupakan data yang digunakan untuk memprediksi target. Dalam hal ini, fitur-fitur ini mencakup informasi seperti usia, indeks massa tubuh (BMI), kadar gula darah, dan sebagainya.

y: Berisi target, yaitu variabel dependen yang ingin diprediksi, yang dalam dataset diabetes ini adalah tingkat progression of diabetes dalam satu tahun.

In [4]:
lr = LinearRegression()

"lr = LinearRegression()" adalah:

Kode ini digunakan untuk membuat sebuah model regresi linear menggunakan kelas LinearRegression dari pustaka sklearn.linear_model. Setelah itu, model regresi linear tersebut disimpan dalam variabel lr.

Model ini akan digunakan untuk memodelkan hubungan antara fitur (independen) dan target (dependen), di mana model regresi linear bertujuan untuk memprediksi nilai target berdasarkan nilai fitur dengan cara mencari garis lurus terbaik yang meminimalkan kesalahan prediksi (misalnya, dengan menggunakan metode least squares). Variabel lr kemudian dapat digunakan untuk melatih (fit) model pada data dan membuat prediksi.








In [6]:
len(load_diabetes()['feature_names'])

10

"len(load_diabetes().feature_names)"
digunakan untuk menghitung total elemen dalam dataset diabetes, serta mengembalikan nama-nama fitur yang terdapat dalam kolom dataset tersebut.

In [7]:
lr.fit(x, y)
y_pred = lr.predict(x)

"lr.fit(x, y)
y_pred = lr.predict(x)"
fungsi fit digunakan untuk melatih model menggunakan data fitur x dan target y, sementara fungsi predict digunakan untuk menghasilkan prediksi nilai target berdasarkan fitur yang ada, dan hasil prediksi tersebut akan disimpan dalam variabel "y_pred".

In [8]:
print(r2_score(y, y_pred))

0.5177484222203499


"print(r2_score(y, y_pred))"
digunakan untuk mencetak hasil perhitungan nilai R^2 antara nilai aktual y dan nilai prediksi y_pred.

In [9]:
print(mean_squared_error(y, y_pred))

2859.69634758675


"print(mean_squared_error(y, y_pred))"
Penjelasan: digunakan untuk mencetak hasil perhitungan nilai Mean Squared Error (MSE) antara nilai aktual y dan nilai prediksi y_pred.

In [10]:
# Hold Out
# train -> validation -> test

from sklearn.model_selection import train_test_split
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.2, random_state=42)


lr = LinearRegression()
lr.fit(x_train, y_train)
y_pred = lr.predict(x_test)
print(r2_score(y_test, y_pred))
print(mean_squared_error(y_test, y_pred))


0.4526027629719195
2900.193628493482


In [11]:
load_diabetes()['target']
x, y = load_diabetes(return_X_y=True)
lr = LinearRegression()
len(load_diabetes().feature_names)
lr.fit(x, y)
y_pred = lr.predict(x)
print(r2_score(y, y_pred))
print(mean_squared_error(y, y_pred))


0.5177484222203499
2859.69634758675


Output:

R²_score = 0.5177484222203499
Mean_squared_error = 2859.69634758675
Interpretasi:

Nilai R² sebesar 51% menunjukkan bahwa variabel target dapat dijelaskan oleh variabel fitur, yang berarti model regresi ini mampu menjelaskan sedikit lebih dari setengah variasi dalam data tersebut.
Nilai MSE sebesar 2859.7 menunjukkan bahwa model memiliki kesalahan prediksi rata-rata yang cukup besar. Semakin tinggi nilai MSE, semakin besar kesalahan model. Oleh karena itu, untuk meningkatkan model, bisa dilakukan langkah-langkah seperti menambah jumlah fitur, mencoba model yang berbeda, atau melakukan teknik perbaikan lainnya.






