In [1]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import MinMaxScaler, StandardScaler, RobustScaler
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error

# Memuat dataset Boston Housing
url = "https://raw.githubusercontent.com/selva86/datasets/master/BostonHousing.csv"
df = pd.read_csv(url)

# Memisahkan fitur dan target
X = df.drop(columns=["medv"])  # Target: medv (Median Value of Owner-Occupied Homes)
y = df["medv"]

# Membagi dataset menjadi train dan test set
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Menerapkan berbagai metode scaling
scalers = {
    "MinMax Scaling": MinMaxScaler(),
    "Standard Scaling": StandardScaler(),
    "Robust Scaling": RobustScaler(),
}

results = {}

for name, scaler in scalers.items():
    # Melakukan scaling pada data
    X_train_scaled = scaler.fit_transform(X_train)
    X_test_scaled = scaler.transform(X_test)
    
    # Melatih model regresi linier
    model = LinearRegression()
    model.fit(X_train_scaled, y_train)
    
    # Evaluasi model
    y_pred = model.predict(X_test_scaled)
    mse = mean_squared_error(y_test, y_pred)
    results[name] = mse

# Menampilkan hasil
for method, mse in results.items():
    print(f"{method}: Mean Squared Error = {mse:.4f}")



MinMax Scaling: Mean Squared Error = 24.2911
Standard Scaling: Mean Squared Error = 24.2911
Robust Scaling: Mean Squared Error = 24.2911


Metode Scaling

MinMax Scaling
- Mengubah data ke dalam rentang [0,1].
- Sensitif terhadap outlier karena skala bergantung pada nilai minimum dan maksimum.

Standard Scaling
- Memusatkan data dengan mean = 0 dan standar deviasi = 1.
- Berguna untuk data yang mengikuti distribusi normal.

Robust Scaling
- Menggunakan median dan Interquartile Range (IQR) untuk mengurangi dampak outlier.
- Cocok untuk data dengan distribusi yang mengandung pencilan (outlier).

Hasil Evaluasi dengan Regresi Linear
Dari eksperimen yang dilakukan, diperoleh hasil Mean Squared Error (MSE) sebagai berikut:
- MinMax Scaling: 24.29
- Standard Scaling: 24.29
- Robust Scaling: 24.29

Analisis Hasil

Hasil yang hampir identik di semua metode scaling
Regresi linear tidak terlalu dipengaruhi oleh skala absolut fitur karena berbasis perhitungan matriks dan hanya bergantung pada hubungan linear antar variabel.