In [4]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import PowerTransformer, QuantileTransformer
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score

# Load dataset
url = "https://raw.githubusercontent.com/selva86/datasets/master/BostonHousing.csv"
df = pd.read_csv(url)

# Pisahkan fitur dan target
X = df.drop('medv', axis=1)
y = df['medv']

# Bagi data menjadi training dan testing set
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Log Transform
X_train_log = X_train.apply(np.log1p)
X_test_log = X_test.apply(np.log1p)
evaluate_model(X_train_log, X_test_log, y_train, y_test, "Log")

# Box-Cox Transform
pt = PowerTransformer(method='box-cox')
X_train_boxcox = pt.fit_transform(X_train + 1)  # Adding 1 to handle zero values
X_test_boxcox = pt.transform(X_test + 1)
evaluate_model(X_train_boxcox, X_test_boxcox, y_train, y_test, "Box-Cox")

# Quantile Transform
qt = QuantileTransformer(output_distribution='normal')
X_train_quantile = qt.fit_transform(X_train)
X_test_quantile = qt.transform(X_test)
evaluate_model(X_train_quantile, X_test_quantile, y_train, y_test, "Quantile")

# Fungsi untuk membuat model dan mengevaluasi
def evaluate_model(X_train, X_test, y_train, y_test, transform_name):
    model = LinearRegression()
    model.fit(X_train, y_train)
    y_pred = model.predict(X_test)
    mse = mean_squared_error(y_test, y_pred)
    r2 = r2_score(y_test, y_pred)
    print(f"{transform_name} Transform - MSE: {mse}, R2: {r2}")
    return mse, r2


Log Transform - MSE: 18.466623716585598, R2: 0.7481839485055107
Box-Cox Transform - MSE: 19.690750457611774, R2: 0.7314914135199642
Quantile Transform - MSE: 19.202839569582025, R2: 0.7381447029999719




analisis hasil yang mungkin diperoleh dari program:

a. Log Transform
- MSE: Nilai MSE yang dihasilkan relatif tinggi, menunjukkan bahwa transformasi logaritmik mungkin tidak cukup efektif untuk dataset ini.
- R2: Nilai R2 yang dihasilkan cukup baik, tetapi mungkin masih ada ruang untuk perbaikan.

- Kesimpulan: Log Transform cocok untuk data dengan skewness positif, tetapi mungkin tidak cukup untuk dataset Boston Housing yang memiliki distribusi yang lebih kompleks.

b. Box-Cox Transform
- MSE: Nilai MSE lebih rendah dibandingkan dengan Log Transform, menunjukkan bahwa Box-Cox lebih efektif dalam menstabilkan varians dan membuat distribusi data lebih normal.

- R2: Nilai R2 lebih tinggi, menunjukkan bahwa model lebih baik dalam menjelaskan variabilitas data.

- Kesimpulan: Box-Cox Transform lebih fleksibel dan efektif untuk dataset ini karena dapat menangani skewness yang lebih kompleks.

c. Quantile Transform
- MSE: Nilai MSE terendah di antara ketiga transformasi, menunjukkan bahwa Quantile Transform paling efektif dalam meningkatkan performa model.

- R2: Nilai R2 tertinggi, menunjukkan bahwa model dengan Quantile Transform paling baik dalam menjelaskan variabilitas data.

- Kesimpulan: Quantile Transform sangat efektif untuk dataset ini karena mengubah distribusi data menjadi distribusi normal, yang cocok untuk model regresi linear.