In [None]:
from sklearn.datasets import load_diabetes
from sklearn.linear_model import LinearRegression, Lasso, Ridge
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error, r2_score

1. **`from sklearn.datasets import load_diabetes`**:
   - Memuat dataset **Diabetes** dari pustaka `sklearn`, yaitu dataset kecil yang biasa digunakan untuk eksperimen dan analisis regresi. Dataset ini berisi data medis pasien dengan diabetes dan digunakan untuk memprediksi progresi penyakit berdasarkan fitur-fitur tertentu.

2. **`from sklearn.linear_model import LinearRegression, Lasso, Ridge`**:
   - Mengimpor tiga model regresi linier yang berbeda:
     - **LinearRegression**: Model regresi linier dasar.
     - **Lasso**: Regresi linier dengan regularisasi L1, yang menghasilkan model yang lebih sederhana dengan beberapa koefisien menjadi nol (memilih fitur secara otomatis).
     - **Ridge**: Regresi linier dengan regularisasi L2, yang mengurangi kompleksitas model dengan mencegah koefisien yang terlalu besar.

3. **`from sklearn.model_selection import train_test_split`**:
   - Mengimpor fungsi untuk membagi dataset menjadi data latih (training set) dan data uji (testing set). Ini digunakan untuk mengevaluasi kinerja model dengan data yang tidak terlihat selama pelatihan.

4. **`from sklearn.metrics import mean_squared_error, r2_score`**:
   - Mengimpor dua metrik evaluasi model:
     - **Mean Squared Error (MSE)**: Mengukur rata-rata kuadrat dari kesalahan antara nilai sebenarnya dan nilai prediksi. Semakin kecil nilainya, semakin baik model dalam memprediksi.
     - **R-squared (R²)**: Menunjukkan seberapa baik variasi dalam data dapat dijelaskan oleh model. Nilai R² berkisar antara 0 hingga 1, di mana nilai lebih tinggi menunjukkan model yang lebih baik.

In [None]:
x, y = load_diabetes(return_X_y=True)

In [None]:
lr = LinearRegression()

menginisialisasi model regresi linier dari pustaka sklearn. Dengan perintah ini, objek lr dibuat sebagai instans dari kelas LinearRegression, yang dapat digunakan untuk melakukan pelatihan model regresi linier pada data, serta untuk membuat prediksi berdasarkan model yang telah dilatih. Model regresi linier ini akan mencoba menemukan hubungan linear antara fitur input dan variabel target.

In [None]:
len(load_diabetes()['feature_names'])

10

digunakan untuk menghitung jumlah fitur (variabel input) yang ada dalam dataset Diabetes dari pustaka sklearn

In [None]:
lr.fit(x, y)
y_pred = lr.predict(x)

kode di atas digunakan untuk melatih model regresi linier lr menggunakan data fitur x dan target y, di mana model menghitung koefisien yang optimal agar dapat memprediksi nilai target dengan akurasi yang tinggi. Setelah model dilatih, kode y_pred = lr.predict(x) digunakan untuk menghasilkan prediksi berdasarkan data fitur yang sama, dengan hasilnya disimpan dalam variabel y_pred

In [None]:
print(r2_score(y, y_pred))

0.5177484222203499


kode Fungsi ini menghitung R-squared, yang merupakan ukuran seberapa baik model dapat menjelaskan variasi dalam data target. R² berkisar antara 0 hingga 1, di mana nilai yang lebih tinggi menunjukkan bahwa model lebih baik dalam memprediksi nilai target berdasarkan fitur yang diberikan.

Nilai R² di atas 0.5 mengindikasikan bahwa model memiliki kinerja yang lebih baik daripada sekadar menebak rata-rata dari data target. Namun, nilai ini juga menunjukkan bahwa ada 48.2% variasi yang tidak dapat dijelaskan oleh model, yang bisa disebabkan oleh faktor lain yang tidak diambil dalam model atau mungkin adanya noise dalam data

In [None]:
print(mean_squared_error(y, y_pred))

2859.69634758675


Koe tersebut digunakan untuk menghitung dan mencetak nilai Mean Squared Error (MSE) dari model regresi linier yang telah dilatih
Nilai output yang dihasilkan menunjukkan bahwa rata-rata kuadrat selisih antara nilai aktual dan nilai yang diprediksi oleh model adalah 2859.70. Ini berarti bahwa, secara umum, kesalahan prediksi model cukup besar. Dengan MSE sebesar 2859.70, ada indikasi bahwa model regresi linier yang digunakan mungkin tidak optimal dalam menjelaskan data target

In [None]:
from sklearn.model_selection import train_test_split
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.2, random_state=42)


kode diatas digunakan untuk **membagi dataset menjadi set pelatihan dan set pengujian**. Berikut penjelasan dari masing-masing bagian:

1. **`from sklearn.model_selection import train_test_split`**:
   - Mengimpor fungsi `train_test_split` dari pustaka `sklearn`, yang digunakan untuk membagi dataset menjadi dua subset: satu untuk melatih model (set pelatihan) dan satu untuk menguji model (set pengujian).

2. **`train_test_split(x, y, test_size=0.2, random_state=42)`**:
   - `x` adalah matriks fitur, dan `y` adalah target yang ingin diprediksi.
   - **`test_size=0.2`**: Menunjukkan bahwa 20% dari data akan digunakan sebagai set pengujian, sedangkan 80% sisanya akan digunakan untuk set pelatihan. Ini adalah pembagian yang umum digunakan untuk memastikan model dilatih dengan cukup data sambil tetap memiliki data yang cukup untuk menguji kinerjanya.
   - **`random_state=42`**: Menetapkan seed untuk generator angka acak, yang memastikan bahwa pembagian data dapat direproduksi. Dengan menggunakan nilai yang sama (dalam hal ini, 42), Anda akan mendapatkan pembagian data yang sama setiap kali kode dijalankan.

3. **`x_train, x_test, y_train, y_test`**:
   - Variabel ini menyimpan hasil pembagian dataset:
     - **`x_train`**: Fitur untuk pelatihan.
     - **`x_test`**: Fitur untuk pengujian.
     - **`y_train`**: Target untuk pelatihan.
     - **`y_test`**: Target untuk pengujian.

In [None]:
lr = LinearRegression()
lr.fit(x_train, y_train)
y_pred = lr.predict(x_test)
print(r2_score(y_test, y_pred))
print(mean_squared_error(y_test, y_pred))

0.4526027629719195
2900.193628493482


kode ini digunakan untuk melatih model regresi linier pada data pelatihan, membuat prediksi, dan mengevaluasi kinerja model menggunakan data pengujian.
Output dari evaluasi model regresi linier menunjukkan bahwa nilai R-squared (R²) adalah **0.4526**, yang berarti model hanya dapat menjelaskan sekitar **45.3%** dari variasi dalam data target `y_test`. Ini menunjukkan bahwa model memiliki kemampuan prediksi yang terbatas dan hampir setengah dari variasi target tidak dapat dijelaskan oleh fitur yang digunakan. Selain itu, nilai Mean Squared Error (MSE) sebesar **2900.19** menunjukkan rata-rata kesalahan kuadrat yang signifikan antara nilai aktual dan nilai yang diprediksi, menandakan bahwa model mungkin tidak berfungsi dengan baik dalam memprediksi data pengujian. Secara keseluruhan, hasil ini menunjukkan bahwa ada ruang untuk perbaikan dalam model, baik melalui optimasi fitur atau penggunaan teknik pemodelan yang lebih kompleks untuk meningkatkan akurasi prediksi.