## **Import Libraries**
Langkah pertama adalah mengimpor library yang diperlukan untuk analisis dan model regresi.

In [13]:
# Import library yang diperlukan
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder
from sklearn.ensemble import GradientBoostingRegressor, RandomForestRegressor
from sklearn.metrics import mean_squared_error, r2_score
from sklearn.impute import SimpleImputer


## **Load the Dataset**
Baca file dataset yang sudah diunggah dan tampilkan beberapa baris pertama untuk memeriksa struktur data.

In [14]:
# Load dataset
file_path = 'https://raw.githubusercontent.com/farrelrassya/teachingMLDL/refs/heads/main/01.%20Machine%20Learning/01.%20Week%201/Dataset/Automobile.csv'
data = pd.read_csv(file_path)

# Tampilkan 5 baris pertama untuk melihat struktur data
data.head()

Unnamed: 0,price,highway-mpg,city-mpg,peak-rpm,horsepower,compression-ratio,stroke,bore,fuel-system,engine-size,...,wheel-base,engine-location,drive-wheels,body-style,num-of-doors,aspiration,fuel-type,make,normalized-losses,symboling
0,13495.0,27,21,5000.0,111.0,9.0,2.68,3.47,mpfi,130,...,88.6,front,rwd,convertible,2.0,std,gas,alfa-romero,,3
1,16500.0,27,21,5000.0,111.0,9.0,2.68,3.47,mpfi,130,...,88.6,front,rwd,convertible,2.0,std,gas,alfa-romero,,3
2,16500.0,26,19,5000.0,154.0,9.0,3.47,2.68,mpfi,152,...,94.5,front,rwd,hatchback,2.0,std,gas,alfa-romero,,1
3,13950.0,30,24,5500.0,102.0,10.0,3.4,3.19,mpfi,109,...,99.8,front,fwd,sedan,4.0,std,gas,audi,164.0,2
4,17450.0,22,18,5500.0,115.0,8.0,3.4,3.19,mpfi,136,...,99.4,front,4wd,sedan,4.0,std,gas,audi,164.0,2


## **Handle Missing Values**
Bersihkan data dengan menangani nilai yang hilang (misalnya, imputasi dengan median untuk kolom numerik).

In [None]:
# Handle missing values (impute dengan median untuk kolom numerik)
imputer = SimpleImputer(strategy='median')
data_imputed = data.copy()

# Imputasi untuk kolom numerik
numerical_columns = data.select_dtypes(include=['float64', 'int64']).columns
data_imputed[numerical_columns] = imputer.fit_transform(data_imputed[numerical_columns])

## **Encoding Categorical Variables**
Beberapa kolom di dataset berupa variabel kategorikal. Kita perlu mengubahnya menjadi bentuk numerik agar dapat digunakan dalam model. Salah satu caranya adalah dengan menggunakan LabelEncoder.

In [15]:
# Encoding variabel kategori dengan LabelEncoder
categorical_columns = data.select_dtypes(include=['object']).columns
encoder = LabelEncoder()

# Menggunakan data yang sudah diimputasi untuk encoding
for col in categorical_columns:
    data_imputed[col] = encoder.fit_transform(data_imputed[col].astype(str))  # Pastikan menggunakan data yang sudah diimputasi


## **Define Target and Features**
Tentukan variabel target (price) dan fitur (X) yang akan digunakan dalam model.

In [16]:
# Mendefinisikan target (price) dan fitur
X = data_imputed.drop('price', axis=1)
y = data_imputed['price']

## **Split the Data into Training and Testing Sets**
Pecah data menjadi data pelatihan (80%) dan data pengujian (20%).

In [17]:
# Membagi data menjadi data pelatihan dan pengujian (80/20 split)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

## **Train the Models**
Lakukan pelatihan pada dua model regresi: Random Forest untuk Bagging dan Gradient Boosting untuk Boosting.

In [18]:
# Membuat dan melatih model (Random Forest untuk Bagging dan Gradient Boosting untuk Boosting)
# Random Forest (Bagging)
rf_model = RandomForestRegressor(n_estimators=100, random_state=42)
rf_model.fit(X_train, y_train)

# Gradient Boosting (Boosting)
gb_model = GradientBoostingRegressor(n_estimators=100, random_state=42)
gb_model.fit(X_train, y_train)

## **Make Predictions**
Gunakan model yang telah dilatih untuk memprediksi nilai pada data pengujian.

In [19]:
# Membuat prediksi
rf_predictions = rf_model.predict(X_test)
gb_predictions = gb_model.predict(X_test)

## **Evaluate the Models**
Hitung metrik evaluasi untuk kedua model menggunakan MSE, RMSE, dan R².

In [20]:
# Menghitung metrik evaluasi (MSE, RMSE, R²)
def calculate_metrics(true_values, predictions):
    mse = mean_squared_error(true_values, predictions)
    rmse = np.sqrt(mse)
    r2 = r2_score(true_values, predictions)
    return mse, rmse, r2

# Evaluasi model Random Forest
rf_mse, rf_rmse, rf_r2 = calculate_metrics(y_test, rf_predictions)

# Evaluasi model Gradient Boosting
gb_mse, gb_rmse, gb_r2 = calculate_metrics(y_test, gb_predictions)

# Menampilkan hasil
print("Random Forest (Bagging) Results:")
print(f"MSE: {rf_mse}")
print(f"RMSE: {rf_rmse}")
print(f"R²: {rf_r2}")

print("\nGradient Boosting (Boosting) Results:")
print(f"MSE: {gb_mse}")
print(f"RMSE: {gb_rmse}")
print(f"R²: {gb_r2}")


Random Forest (Bagging) Results:
MSE: 6346203.868126931
RMSE: 2519.1672965737966
R²: 0.9190983181491901

Gradient Boosting (Boosting) Results:
MSE: 7170602.165901591
RMSE: 2677.7980069268838
R²: 0.9085888529333176




> * Random Forest memiliki performa yang sedikit lebih baik daripada Gradient Boosting dalam hal MSE dan RMSE, serta lebih tinggi sedikit dalam R². Ini adalah hasil yang umum karena Random Forest sering kali lebih stabil dan kurang rentan terhadap overfitting dibandingkan dengan Gradient Boosting, meskipun Gradient Boosting bisa memberikan hasil yang lebih baik dalam beberapa kasus.
* R² yang mendekati 1 menunjukkan bahwa kedua model ini cukup baik dalam memprediksi harga mobil berdasarkan fitur yang ada.



# **PERSAMAAN MATEMATIKA**

## **1.Mean Squared Error (MSE)**
MSE mengukur rata-rata kuadrat dari perbedaan antara nilai prediksi dan nilai aktual. Persamaan matematika untuk MSE adalah:

$$
MSE = \frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2
$$

Di mana:
- $(n)$ adalah jumlah data
- $(y_i)$ adalah nilai aktual
- $(\hat{y}_i)$ adalah nilai prediksi

---

## **2.Root Mean Squared Error (RMSE)**
RMSE adalah akar kuadrat dari MSE, yang memberikan informasi tentang kesalahan dalam satuan yang sama dengan target (harga). Persamaan untuk RMSE adalah:

$$
RMSE = \sqrt{MSE} = \sqrt{\frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2}
$$

---

## **3.R-Squared (R²)**
R² adalah ukuran yang menunjukkan seberapa baik model dapat menjelaskan variasi data. R² dihitung dengan menggunakan persamaan berikut:

$$
R^2 = 1 - \frac{\sum_{i=1}^{n} (y_i - \hat{y}_i)^2}{\sum_{i=1}^{n} (y_i - \bar{y})^2}
$$

Di mana:
- $(y_i)$ adalah nilai aktual
- $(\hat{y}_i)$ adalah nilai prediksi
- $(\bar{y})$ adalah rata-rata nilai aktual $(y)$
