# Model Regresi Linear untuk Dataset Automobile

Notebook ini menunjukkan implementasi **Regresi Linear** menggunakan pustaka `scikit-learn` dan `mglearn` untuk memprediksi variabel **symboling**. Model ini akan dievaluasi menggunakan metrik berikut:

- **Mean Squared Error (MSE)**
- **Root Mean Squared Error (RMSE)**
- **Koefisien Determinasi (R-Squared, R²)**

Selain itu, setiap rumus yang digunakan akan dijelaskan secara matematis.


In [2]:
!pip install mglearn

Collecting mglearn
  Downloading mglearn-0.2.0-py2.py3-none-any.whl.metadata (628 bytes)
Downloading mglearn-0.2.0-py2.py3-none-any.whl (581 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m581.4/581.4 kB[0m [31m10.2 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: mglearn
Successfully installed mglearn-0.2.0


In [3]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score
import mglearn

# Mengatur gaya tampilan grafik
sns.set_style("whitegrid")


## 1. Memuat dan Menampilkan Dataset

Kita akan memuat dataset dan melihat struktur datanya.


In [4]:
# Memuat dataset
df = pd.read_csv("Automobile.csv")

# Menampilkan 5 baris pertama
df.head()


Unnamed: 0,price,highway-mpg,city-mpg,peak-rpm,horsepower,compression-ratio,stroke,bore,fuel-system,engine-size,...,wheel-base,engine-location,drive-wheels,body-style,num-of-doors,aspiration,fuel-type,make,normalized-losses,symboling
0,13495.0,27,21,5000.0,111.0,9.0,2.68,3.47,mpfi,130,...,88.6,front,rwd,convertible,2.0,std,gas,alfa-romero,,3
1,16500.0,27,21,5000.0,111.0,9.0,2.68,3.47,mpfi,130,...,88.6,front,rwd,convertible,2.0,std,gas,alfa-romero,,3
2,16500.0,26,19,5000.0,154.0,9.0,3.47,2.68,mpfi,152,...,94.5,front,rwd,hatchback,2.0,std,gas,alfa-romero,,1
3,13950.0,30,24,5500.0,102.0,10.0,3.4,3.19,mpfi,109,...,99.8,front,fwd,sedan,4.0,std,gas,audi,164.0,2
4,17450.0,22,18,5500.0,115.0,8.0,3.4,3.19,mpfi,136,...,99.4,front,4wd,sedan,4.0,std,gas,audi,164.0,2


## 2. Pra-pemrosesan Data

Agar model dapat bekerja dengan baik, kita melakukan beberapa langkah berikut:
- Menghapus kolom non-numerik
- Menghapus nilai yang hilang (NaN)


In [5]:
# Menghapus kolom non-numerik dan nilai NaN
df_numeric = df.select_dtypes(include=[np.number]).dropna()

# Menampilkan jumlah data setelah pembersihan
df_numeric.info()


<class 'pandas.core.frame.DataFrame'>
Index: 159 entries, 3 to 204
Data columns (total 18 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   price              159 non-null    float64
 1   highway-mpg        159 non-null    int64  
 2   city-mpg           159 non-null    int64  
 3   peak-rpm           159 non-null    float64
 4   horsepower         159 non-null    float64
 5   compression-ratio  159 non-null    float64
 6   stroke             159 non-null    float64
 7   bore               159 non-null    float64
 8   engine-size        159 non-null    int64  
 9   num-of-cylinders   159 non-null    int64  
 10  curb-weight        159 non-null    int64  
 11  height             159 non-null    float64
 12  width              159 non-null    float64
 13  length             159 non-null    float64
 14  wheel-base         159 non-null    float64
 15  num-of-doors       159 non-null    float64
 16  normalized-losses  159 non-null

## 3. Memisahkan Data Latih dan Data Uji

Kita akan membagi dataset menjadi **data latih (80%)** dan **data uji (20%)**.


In [6]:
# Mendefinisikan fitur dan target
X = df_numeric.drop(columns=["symboling"])
y = df_numeric["symboling"]

# Membagi dataset
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Menampilkan ukuran dataset
print("Jumlah data latih:", X_train.shape[0])
print("Jumlah data uji:", X_test.shape[0])


Jumlah data latih: 127
Jumlah data uji: 32


## 4. Melatih Model Regresi Linear

Model regresi linear akan dipelajari berdasarkan data latih yang telah dibagi sebelumnya.


In [7]:
# Inisialisasi dan pelatihan model
model = LinearRegression()
model.fit(X_train, y_train)

# Menampilkan koefisien model
print("Koefisien model:", model.coef_)
print("Intercept model:", model.intercept_)


Koefisien model: [ 1.52666772e-06  9.02502410e-02 -9.82116430e-02 -6.06782972e-05
  2.15995821e-03  2.18720585e-02 -4.17144056e-01 -8.77742445e-01
  1.03546252e-02 -2.79488251e-01 -3.31766423e-04  3.47305814e-02
  2.19236265e-01  1.39932611e-02 -1.68287956e-01 -4.03570063e-01
  1.11164593e-02]
Intercept model: 3.1083220734303088


## 5. Melakukan Prediksi

Setelah model dilatih, kita akan menggunakannya untuk memprediksi data uji.


In [8]:
# Melakukan prediksi
y_pred = model.predict(X_test)

# Menampilkan 5 hasil prediksi pertama
print("Prediksi pertama:", y_pred[:5])


Prediksi pertama: [ 0.04352463 -0.82496196  1.32319592  0.71296896  0.55434664]


## 6. Evaluasi Model

Kita akan mengevaluasi model menggunakan tiga metrik utama:

### 6.1 Mean Squared Error (MSE)
\[ MSE = \frac{1}{n} \sum (y_i - \hat{y_i})^2 \]

MSE mengukur rata-rata kesalahan kuadrat antara nilai aktual \( y_i \) dan prediksi \( \hat{y_i} \). Semakin kecil nilai MSE, semakin baik model.

### 6.2 Root Mean Squared Error (RMSE)
\[ RMSE = \sqrt{MSE} \]

RMSE adalah akar dari MSE dan memberikan interpretasi yang lebih intuitif terhadap kesalahan model dalam satuan yang sama dengan target.

### 6.3 Koefisien Determinasi (R-Squared, R²)
\[ R^2 = 1 - \frac{SS_{res}}{SS_{tot}} \]

Dimana:
- \( SS_{res} \) adalah jumlah kuadrat residual (kesalahan prediksi).
- \( SS_{tot} \) adalah jumlah kuadrat total.

Nilai R² berkisar antara **0 hingga 1**. Semakin mendekati 1, semakin baik model menjelaskan variabilitas data.


In [9]:
# Menghitung metrik evaluasi
mse = mean_squared_error(y_test, y_pred)
rmse = np.sqrt(mse)
r2 = r2_score(y_test, y_pred)

# Menampilkan hasil evaluasi
print(f"MSE: {mse:.3f}")
print(f"RMSE: {rmse:.3f}")
print(f"R²: {r2:.3f}")


MSE: 0.604
RMSE: 0.777
R²: 0.589
