<a href="https://colab.research.google.com/github/MasDiptha12/Machine-Learning/blob/main/Week_7/Boosting_Automobile_Regression.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [5]:
# Import semua library yang dibutuhkan
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestRegressor, GradientBoostingRegressor
from sklearn.metrics import mean_squared_error, r2_score

In [6]:
# Membaca dataset dari direktori kerja Google Colab
data = pd.read_csv('/content/Automobile.csv')

# Menampilkan lima baris pertama dari dataset
data.head()

Unnamed: 0,price,highway-mpg,city-mpg,peak-rpm,horsepower,compression-ratio,stroke,bore,fuel-system,engine-size,...,wheel-base,engine-location,drive-wheels,body-style,num-of-doors,aspiration,fuel-type,make,normalized-losses,symboling
0,13495.0,27,21,5000.0,111.0,9.0,2.68,3.47,mpfi,130,...,88.6,front,rwd,convertible,2.0,std,gas,alfa-romero,,3
1,16500.0,27,21,5000.0,111.0,9.0,2.68,3.47,mpfi,130,...,88.6,front,rwd,convertible,2.0,std,gas,alfa-romero,,3
2,16500.0,26,19,5000.0,154.0,9.0,3.47,2.68,mpfi,152,...,94.5,front,rwd,hatchback,2.0,std,gas,alfa-romero,,1
3,13950.0,30,24,5500.0,102.0,10.0,3.4,3.19,mpfi,109,...,99.8,front,fwd,sedan,4.0,std,gas,audi,164.0,2
4,17450.0,22,18,5500.0,115.0,8.0,3.4,3.19,mpfi,136,...,99.4,front,4wd,sedan,4.0,std,gas,audi,164.0,2


In [7]:
# Menampilkan informasi umum dataset
data.info()

# Menghapus baris dengan nilai yang hilang
data_cleaned = data.dropna()

# Mengonversi variabel kategorikal menjadi numerik menggunakan one-hot encoding
data_encoded = pd.get_dummies(data_cleaned, drop_first=True)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 205 entries, 0 to 204
Data columns (total 26 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   price              201 non-null    float64
 1   highway-mpg        205 non-null    int64  
 2   city-mpg           205 non-null    int64  
 3   peak-rpm           203 non-null    float64
 4   horsepower         203 non-null    float64
 5   compression-ratio  205 non-null    float64
 6   stroke             201 non-null    float64
 7   bore               201 non-null    float64
 8   fuel-system        205 non-null    object 
 9   engine-size        205 non-null    int64  
 10  num-of-cylinders   205 non-null    int64  
 11  engine-type        205 non-null    object 
 12  curb-weight        205 non-null    int64  
 13  height             205 non-null    float64
 14  width              205 non-null    float64
 15  length             205 non-null    float64
 16  wheel-base         205 non

In [8]:
# Memisahkan fitur (X) dan target (y)
# Harap pastikan kolom 'price' merupakan target yang diinginkan
X = data_encoded.drop('price', axis=1)
y = data_encoded['price']

# Membagi data menjadi data latih dan data uji dengan rasio 80:20
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [9]:
# Membuat dan melatih model Random Forest
bagging_model = RandomForestRegressor(n_estimators=100, random_state=42)
bagging_model.fit(X_train, y_train)

# Melakukan prediksi
y_pred_bagging = bagging_model.predict(X_test)

# Menghitung metrik evaluasi
mse_bagging = mean_squared_error(y_test, y_pred_bagging)
rmse_bagging = np.sqrt(mse_bagging)
r2_bagging = r2_score(y_test, y_pred_bagging)

# Menampilkan hasil evaluasi
print("Evaluasi Model Bagging (Random Forest):")
print(f"MSE: {mse_bagging}")
print(f"RMSE: {rmse_bagging}")
print(f"R-Squared: {r2_bagging}")

Evaluasi Model Bagging (Random Forest):
MSE: 3020139.956111458
RMSE: 1737.85498707788
R-Squared: 0.830278013751579


In [10]:
# Membuat dan melatih model Gradient Boosting
boosting_model = GradientBoostingRegressor(n_estimators=100, random_state=42)
boosting_model.fit(X_train, y_train)

# Melakukan prediksi
y_pred_boosting = boosting_model.predict(X_test)

# Menghitung metrik evaluasi
mse_boosting = mean_squared_error(y_test, y_pred_boosting)
rmse_boosting = np.sqrt(mse_boosting)
r2_boosting = r2_score(y_test, y_pred_boosting)

# Menampilkan hasil evaluasi
print("Evaluasi Model Boosting (Gradient Boosting):")
print(f"MSE: {mse_boosting}")
print(f"RMSE: {rmse_boosting}")
print(f"R-Squared: {r2_boosting}")

Evaluasi Model Boosting (Gradient Boosting):
MSE: 3339016.901939324
RMSE: 1827.2977047923318
R-Squared: 0.8123581724855412


## Penjelasan Matematis Evaluasi Model

### Mean Squared Error (MSE)
$$
MSE = \frac{1}{n} \sum_{i=1}^{n}(y_i - \hat{y}_i)^2
$$
MSE adalah rata-rata dari kuadrat selisih antara nilai aktual dan nilai prediksi. MSE digunakan untuk mengukur seberapa besar kesalahan model.

### Root Mean Squared Error (RMSE)
$$
RMSE = \sqrt{MSE}
$$
RMSE merupakan akar kuadrat dari MSE dan digunakan untuk memberikan interpretasi yang lebih mudah karena satuannya sama dengan target.

### R-Squared (R²)
$$
R^2 = 1 - \frac{\sum (y_i - \hat{y}_i)^2}{\sum (y_i - \bar{y})^2}
$$
R² menunjukkan seberapa baik model menjelaskan variansi dari data target. Nilai mendekati 1 menandakan model yang baik.

### Bagging
Bagging (Bootstrap Aggregating) adalah teknik ensemble yang melatih banyak model secara paralel pada subset data yang berbeda, kemudian menggabungkan hasil prediksi.

### Boosting
Boosting adalah teknik ensemble yang melatih model secara berurutan, di mana setiap model bertujuan untuk memperbaiki kesalahan dari model sebelumnya.