In [1]:
# Import library
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder
from sklearn.ensemble import RandomForestRegressor
from xgboost import XGBRegressor
from sklearn.metrics import mean_squared_error, r2_score




## **Preprocessing**

In [2]:
# Load Dataset
df = pd.read_csv("https://raw.githubusercontent.com/farrelrassya/teachingMLDL/refs/heads/main/02.%20Deep%20Learning/Dataset/Infrared.csv")

# Cek dan isi nilai kosong
df['Distance'].fillna(df['Distance'].median(), inplace=True)

# Label encoding untuk kolom kategorikal
label_encoders = {}
for col in df.select_dtypes(include=['object']).columns:
    le = LabelEncoder()
    df[col] = le.fit_transform(df[col])
    label_encoders[col] = le

# Pisahkan fitur dan target
X = df.drop(columns=['aveOralM'])
y = df['aveOralM']

# Split data
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)


The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['Distance'].fillna(df['Distance'].median(), inplace=True)


## **Bagging: Random Forest**
Random Forest merupakan metode Bagging yang membangun banyak pohon keputusan secara paralel. Model dilatih menggunakan data training, kemudian menghasilkan prediksi terhadap data testing.

In [3]:
rf_model = RandomForestRegressor(random_state=42)
rf_model.fit(X_train, y_train)
rf_preds = rf_model.predict(X_test)

## **Boosting: XGBoost**
XGBoost adalah algoritma Boosting yang membangun model secara bertahap, di mana setiap model berikutnya berusaha memperbaiki kesalahan dari model sebelumnya. Ini biasanya menghasilkan akurasi yang tinggi, namun lebih kompleks dibanding Random Forest.


In [4]:
xgb_model = XGBRegressor(random_state=42)
xgb_model.fit(X_train, y_train)
xgb_preds = xgb_model.predict(X_test)

## **Fungsi Evaluasi**

In [5]:
def evaluate_model(y_true, y_pred, model_name):
    mse = mean_squared_error(y_true, y_pred)
    rmse = np.sqrt(mse)
    r2 = r2_score(y_true, y_pred)
    print(f"=== {model_name} ===")
    print(f"MSE   : {mse:.4f}")
    print(f"RMSE  : {rmse:.4f}")
    print(f"R²    : {r2:.4f}")
    print()

# Evaluasi kedua model
evaluate_model(y_test, rf_preds, "Random Forest (Bagging)")
evaluate_model(y_test, xgb_preds, "XGBoost (Boosting)")


=== Random Forest (Bagging) ===
MSE   : 0.0568
RMSE  : 0.2384
R²    : 0.7302

=== XGBoost (Boosting) ===
MSE   : 0.0614
RMSE  : 0.2478
R²    : 0.7084



# **PERSAMAAN MATEMATIKA**

## **1.Mean Squared Error (MSE)**
MSE mengukur rata-rata kuadrat dari perbedaan antara nilai prediksi dan nilai aktual. Persamaan matematika untuk MSE adalah:

$$
MSE = \frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2
$$

Di mana:
- $(n)$ adalah jumlah data
- $(y_i)$ adalah nilai aktual
- $(\hat{y}_i)$ adalah nilai prediksi

---

## **2.Root Mean Squared Error (RMSE)**
RMSE adalah akar kuadrat dari MSE, yang memberikan informasi tentang kesalahan dalam satuan yang sama dengan target (harga). Persamaan untuk RMSE adalah:

$$
RMSE = \sqrt{MSE} = \sqrt{\frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2}
$$

---

## **3.R-Squared (R²)**
R² adalah ukuran yang menunjukkan seberapa baik model dapat menjelaskan variasi data. R² dihitung dengan menggunakan persamaan berikut:

$$
R^2 = 1 - \frac{\sum_{i=1}^{n} (y_i - \hat{y}_i)^2}{\sum_{i=1}^{n} (y_i - \bar{y})^2}
$$

Di mana:
- $(y_i)$ adalah nilai aktual
- $(\hat{y}_i)$ adalah nilai prediksi
- $(\bar{y})$ adalah rata-rata nilai aktual $(y)$

