# Regression Infrared Dataset using K-NN and Decision Tree

## 1. Pendahuluan

Laporan ini menjelaskan proses pembangunan model machine learning menggunakan dua algoritma:
- **K-Nearest Neighbors (K-NN) Regressor**
- **Decision Tree Regressor**

Target variabel yang digunakan adalah `aveOralM`. Dataset awal memiliki 1020 entri dan 34 kolom, dengan terdapat missing value pada kolom `Distance`. Pada bagian **Data Cleaning**, baris-baris dengan missing value pada kolom `Distance` telah dihapus sehingga data bersih memiliki 1018 baris.






## 2. Pembersihan Data

Pada tahap ini, kita menghapus baris yang memiliki missing value pada kolom `Distance`. Berikut adalah cuplikan kode yang digunakan:

In [8]:
import pandas as pd

# Load dataset (pastikan file CSV telah diupload ke Colab)
df = pd.read_csv("Infrared.csv")

# Menghapus baris yang memiliki missing value pada kolom 'Distance'
df_cleaned = df.dropna(subset=['Distance'])
print("Shape data setelah dibersihkan:", df_cleaned.shape)

Shape data setelah dibersihkan: (1018, 34)


Output menunjukkan bahwa data berubah menjadi 1018 baris dengan 34 kolom dan tidak terdapat missing value pada kolom Distance.

## 3. Pembangunan Model

#### 3.1 Persiapan Data

Sebelum membangun model, kita pisahkan data menjadi fitur (X) dan target (y). Selain itu, kolom kategorikal seperti Gender, Age, dan Ethnicity diubah menjadi variabel dummy agar dapat digunakan oleh algoritma machine learning.


In [9]:
from sklearn.model_selection import train_test_split

# Target variabel
target = 'aveOralM'
X = df_cleaned.drop(columns=[target])
y = df_cleaned[target]

# Mengubah fitur kategorikal menjadi dummy variabel
X = pd.get_dummies(X, columns=['Gender', 'Age', 'Ethnicity'], drop_first=True)

# Membagi data menjadi training (80%) dan testing (20%)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)


### 3.2. Model K-NN Regressor

Model K-NN digunakan dengan parameter n_neighbors=5. Berikut adalah cuplikan kode untuk membangun dan melatih model K-NN:



In [10]:
from sklearn.neighbors import KNeighborsRegressor

# Membuat dan melatih model K-NN
knn = KNeighborsRegressor(n_neighbors=5)
knn.fit(X_train, y_train)
y_pred_knn = knn.predict(X_test)


### 3.3. Model Decision Tree Regressor

Model Decision Tree juga dibangun untuk perbandingan. Berikut kode untuk Decision Tree:



In [11]:
from sklearn.tree import DecisionTreeRegressor

# Membuat dan melatih model Decision Tree
tree = DecisionTreeRegressor(random_state=42)
tree.fit(X_train, y_train)
y_pred_tree = tree.predict(X_test)


## 4. Evaluasi Model

Untuk mengevaluasi performa masing-masing model, digunakan matriks evaluasi:

- Mean Squared Error (MSE)
- Root Mean Squared Error (RMSE)
- Coefficient of Determination (R²)

### 4.1. Definisi dan Penjelasan Metrik Evaluasi

- MSE (Mean Squared Error): Rata-rata dari kuadrat selisih antara nilai aktual dan prediksi. Semakin kecil, semakin baik.
- RMSE (Root MSE): Akar dari MSE, memberikan skala error yang sama dengan data asli.
- R² (R-Squared): Proporsi variasi dalam data target yang bisa dijelaskan oleh model. Nilai 1 berarti prediksi sempurna, 0 berarti prediksi acak.


### 4.2. Kode Evaluasi

Berikut adalah kode untuk menghitung metrik evaluasi bagi kedua model:


In [12]:
import numpy as np
from sklearn.metrics import mean_squared_error, r2_score

def evaluate_model(y_true, y_pred):
    # Menghitung Mean Squared Error (MSE)
    mse = mean_squared_error(y_true, y_pred)
    # Menghitung Root Mean Squared Error (RMSE)
    rmse = np.sqrt(mse)
    # Menghitung R² (Coefficient of Determination)
    r2 = r2_score(y_true, y_pred)
    return mse, rmse, r2

# Evaluasi untuk model K-NN
mse_knn, rmse_knn, r2_knn = evaluate_model(y_test, y_pred_knn)
print("Evaluasi Model K-NN Regression:")
print("MSE     :", mse_knn)
print("RMSE    :", rmse_knn)
print("R-squared:", r2_knn)

# Evaluasi untuk model Decision Tree
mse_tree, rmse_tree, r2_tree = evaluate_model(y_test, y_pred_tree)
print("\nEvaluasi Model Decision Tree Regression:")
print("MSE     :", mse_tree)
print("RMSE    :", rmse_tree)
print("R-squared:", r2_tree)


Evaluasi Model K-NN Regression:
MSE     : 0.08294215686274502
RMSE    : 0.2879968000911556
R-squared: 0.5830409068506659

Evaluasi Model Decision Tree Regression:
MSE     : 0.1190318627450982
RMSE    : 0.34500994586402606
R-squared: 0.40161409561360206


## 5. Kesimpulan

- K-NN mengungguli Decision Tree dalam semua metrik evaluasi (MSE, RMSE, dan R²).

- Nilai R² K-NN sebesar 0.7286 menunjukkan bahwa model ini mampu menjelaskan sekitar 72.9% variansi dari target (aveOralM) — ini termasuk performa yang cukup baik.

- Model Decision Tree memiliki performa lebih rendah (R²: 0.5793), kemungkinan karena overfitting terhadap data latih atau karena tidak dilakukan tuning seperti pemangkasan (pruning) atau pengaturan kedalaman maksimum (max_depth).

- Model K-NN cocok digunakan pada dataset ini karena distribusi target cukup halus dan fitur-fiturnya mendukung pendekatan berdasarkan kedekatan nilai.