In [None]:
import pandas as pd  # Mengimpor library pandas untuk manipulasi dan analisis data
import pandas as pd  # Mengimpor library pandas untuk manipulasi dan analisis data
import matplotlib.pyplot as plt  # Mengimpor matplotlib.pyplot untuk membuat grafik visualisasi
from sklearn.model_selection import train_test_split  # Mengimpor fungsi train_test_split untuk membagi data menjadi data latih dan data uji
from sklearn.preprocessing import LabelEncoder, StandardScaler  # Mengimpor LabelEncoder untuk encode label kategorikal, dan StandardScaler untuk normalisasi fitur numerik
from sklearn.metrics import classification_report, accuracy_score  # Mengimpor metrik evaluasi dari scikit-learn
from sklearn.ensemble import RandomForestClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.linear_model import LogisticRegression



# Load the dataset
file_path = "ObesityDataSet_preprocessed12.csv"
df = pd.read_csv(file_path)  # Membaca dataset dari file CSV ke dalam DataFrame

In [None]:
# Tampilkan beberapa baris pertama dan informasi umum
info = df.info()

In [None]:

# Pilih fitur yang diinginkan
selected_features = ['Gender', 'Weight', 'Height', 'Age']
X = df[selected_features]
y = df['NObeyesdad']

# Encode fitur kategorikal
for col in X.select_dtypes(include='object').columns:
    X[col] = LabelEncoder().fit_transform(X[col])

# Encode target jika masih bertipe objek
if y.dtype == 'object':
    y = LabelEncoder().fit_transform(y)


In [None]:
# Split data menjadi data latih dan uji
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)  # Mengimpor fungsi train_test_split untuk membagi data menjadi data latih dan data uji

In [None]:
# Standarisasi fitur numerik
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

In [None]:
# Model 1: Random Forest
rf = RandomForestClassifier(random_state=42)
rf.fit(X_train, y_train)  # Melatih model dengan data latih
y_pred_rf = rf.predict(X_test)  # Menggunakan model untuk memprediksi label pada data uji

In [None]:
# Model 2: K-Nearest Neighbors
knn = KNeighborsClassifier()
knn.fit(X_train, y_train)  # Melatih model dengan data latih
y_pred_knn = knn.predict(X_test)  # Menggunakan model untuk memprediksi label pada data uji


In [None]:
# Model 3: Logistic Regression
lr = LogisticRegression(max_iter=1000, random_state=42)
lr.fit(X_train, y_train)  # Melatih model dengan data latih
y_pred_lr = lr.predict(X_test)  # Menggunakan model untuk memprediksi label pada data uji


In [None]:
# Evaluasi
print("=== Random Forest ===")  # Menampilkan output ke layar
print("Accuracy:", accuracy_score(y_test, y_pred_rf))  # Mengimpor accuracy_score untuk menghitung akurasi model
print(classification_report(y_test, y_pred_rf))  # Mengimpor classification_report untuk menampilkan laporan klasifikasi

print("\n=== K-Nearest Neighbors ===")  # Menampilkan output ke layar
print("Accuracy:", accuracy_score(y_test, y_pred_knn))  # Mengimpor accuracy_score untuk menghitung akurasi model
print(classification_report(y_test, y_pred_knn))  # Mengimpor classification_report untuk menampilkan laporan klasifikasi

print("\n=== Logistic Regression ===")  # Menampilkan output ke layar
print("Accuracy:", accuracy_score(y_test, y_pred_lr))  # Mengimpor accuracy_score untuk menghitung akurasi model
print(classification_report(y_test, y_pred_lr))  # Mengimpor classification_report untuk menampilkan laporan klasifikasi

In [None]:
# Akurasi dari ketiga model
acc_rf = accuracy_score(y_test, y_pred_rf)  # Mengimpor accuracy_score untuk menghitung akurasi model
acc_knn = accuracy_score(y_test, y_pred_knn)  # Mengimpor accuracy_score untuk menghitung akurasi model
acc_lr = accuracy_score(y_test, y_pred_lr)  # Mengimpor accuracy_score untuk menghitung akurasi model

In [None]:

algorithms = ['Random Forest', 'KNN', 'Logistic Regression']
accuracies = [acc_rf, acc_knn, acc_lr]

In [None]:
algorithms = ['Random Forest', 'KNN', 'Logistic Regression']  # Membuat list nama algoritma yang digunakan
accuracies = [acc_rf, acc_knn, acc_lr]  # Membuat list akurasi dari masing-masing model (Random Forest, KNN, Logistic Regression)

In [None]:
plt.figure(figsize=(8,5))
bars = plt.bar(algorithms, accuracies, color=['skyblue', 'salmon', 'lightgreen'])
plt.ylim(0, 1)
plt.ylabel('Akurasi')
plt.title('Perbandingan Akurasi Model')
plt.bar_label(bars, fmt='%.2f')
plt.show()

Kesimpulan dari Hasil Pemodelan
Berdasarkan hasil evaluasi dari tiga model klasifikasi (Random Forest, K-Nearest Neighbors, dan Logistic Regression), berikut adalah ringkasannya:

1. Random Forest
Akurasi: 96%
2. Logistic Regression
Akurasi: 85%
3. K-Nearest Neighbors
Akurasi: 90%

Kesimpulan Akhir
Model Random Forest merupakan model terbaik untuk dataset ini, dengan akurasi dan f1-score yang tinggi serta distribusi performa yang merata di semua kelas. Model ini sangat cocok digunakan dalam kasus klasifikasi multi-kelas obesitas seperti yang terlihat pada target NObeyesdad.

In [None]:
from sklearn.model_selection import GridSearchCV

# Contoh optimasi untuk RandomForestClassifier
param_grid_rf = {
    'n_estimators': [50, 100, 200],
    'max_depth': [None, 10, 20],
    'min_samples_split': [2, 5, 10]
}
grid_rf = GridSearchCV(RandomForestClassifier(random_state=42), param_grid_rf, cv=3, n_jobs=-1, scoring='accuracy')
grid_rf.fit(X_train, y_train)  # Melatih model dengan data latih

In [None]:

print("Best parameters (Random Forest):", grid_rf.best_params_)  # Menampilkan output ke layar
print("Best accuracy (Random Forest):", grid_rf.best_score_)  # Menampilkan output ke layar

In [None]:
# Contoh optimasi untuk KNeighborsClassifier
param_grid_knn = {
    'n_neighbors': [3, 5, 7, 9],
    'weights': ['uniform', 'distance'],
    'p': [1, 2]
}
grid_knn = GridSearchCV(KNeighborsClassifier(), param_grid_knn, cv=3, n_jobs=-1, scoring='accuracy')
grid_knn.fit(X_train, y_train)  # Melatih model dengan data latih

In [None]:
print("Best parameters (KNN):", grid_knn.best_params_)  # Menampilkan output ke layar
print("Best accuracy (KNN):", grid_knn.best_score_)  # Menampilkan output ke layar

In [None]:
# Latih ulang Random Forest dengan parameter terbaik dari GridSearchCV
best_rf = RandomForestClassifier(
    n_estimators=grid_rf.best_params_['n_estimators'],
    max_depth=grid_rf.best_params_['max_depth'],
    min_samples_split=grid_rf.best_params_['min_samples_split'],
    random_state=42
)
best_rf.fit(X_train, y_train)  # Melatih model dengan data latih
y_pred_best_rf = best_rf.predict(X_test)  # Menggunakan model untuk memprediksi label pada data uji

In [None]:
print("=== Random Forest (Best Params) ===")  # Menampilkan output ke layar
print("Accuracy:", accuracy_score(y_test, y_pred_best_rf))  # Mengimpor accuracy_score untuk menghitung akurasi model
print(classification_report(y_test, y_pred_best_rf))  # Mengimpor classification_report untuk menampilkan laporan klasifikasi


In [None]:
# Latih ulang KNN dengan parameter terbaik dari GridSearchCV
best_knn = KNeighborsClassifier(
    n_neighbors=grid_knn.best_params_['n_neighbors'],
    weights=grid_knn.best_params_['weights'],
    p=grid_knn.best_params_['p']
)
best_knn.fit(X_train, y_train)  # Melatih model dengan data latih
y_pred_best_knn = best_knn.predict(X_test)  # Menggunakan model untuk memprediksi label pada data uji

In [None]:
print("\n=== KNN (Best Params) ===")  # Menampilkan output ke layar
print("Accuracy:", accuracy_score(y_test, y_pred_best_knn))  # Mengimpor accuracy_score untuk menghitung akurasi model
print(classification_report(y_test, y_pred_best_knn))  # Mengimpor classification_report untuk menampilkan laporan klasifikasi

In [None]:
# Optimasi Logistic Regression dengan GridSearchCV
param_grid_lr = {
    'C': [0.01, 0.1, 1, 10, 100],
    'penalty': ['l2'],
    'solver': ['lbfgs', 'saga'],
    'max_iter': [1000]
}
grid_lr = GridSearchCV(LogisticRegression(random_state=42), param_grid_lr, cv=3, n_jobs=-1, scoring='accuracy')
grid_lr.fit(X_train, y_train)  # Melatih model dengan data latih


In [None]:
# Latih ulang dengan parameter terbaik
best_lr = LogisticRegression(
    C=grid_lr.best_params_['C'],
    penalty=grid_lr.best_params_['penalty'],
    solver=grid_lr.best_params_['solver'],
    max_iter=grid_lr.best_params_['max_iter'],
    random_state=42
)
best_lr.fit(X_train, y_train)  # Melatih model dengan data latih
y_pred_best_lr = best_lr.predict(X_test)  # Menggunakan model untuk memprediksi label pada data uji

In [None]:
print("\n=== KNN (Best Params) ===")  # Menampilkan output ke layar
print("Accuracy:", accuracy_score(y_test, y_pred_best_lr))  # Mengimpor accuracy_score untuk menghitung akurasi model
print(classification_report(y_test, y_pred_best_lr))  # Mengimpor classification_report untuk menampilkan laporan klasifikasi

In [None]:
# Akurasi sebelum optimasi
acc_before = [acc_rf, acc_knn, acc_lr]

# Akurasi sesudah optimasi (Random Forest & KNN)
acc_after = [
    accuracy_score(y_test, y_pred_best_rf),  # Mengimpor accuracy_score untuk menghitung akurasi model
    accuracy_score(y_test, y_pred_best_knn),  # Mengimpor accuracy_score untuk menghitung akurasi model
    accuracy_score(y_test, y_pred_best_lr),  # Mengimpor accuracy_score untuk menghitung akurasi model
]

labels = ['Random Forest', 'KNN', 'Logistic Regression']
x = range(len(labels))

In [None]:
plt.figure(figsize=(9,5))
bar1 = plt.bar([i - 0.2 for i in x], acc_before, width=0.4, label='Sebelum Optimasi', color='lightgray')
bar2 = plt.bar([i + 0.2 for i in x], acc_after, width=0.4, label='Sesudah Optimasi', color='dodgerblue')
plt.xticks(x, labels)
plt.ylim(0, 1)
plt.ylabel('Akurasi')
plt.title('Perbandingan Akurasi Model Sebelum dan Sesudah Optimasi')
plt.bar_label(bar1, fmt='%.2f')
plt.bar_label(bar2, fmt='%.2f')
plt.legend()
plt.show()

🔍 Sebelum Optimasi (Baseline Model)
Model digunakan langsung dengan parameter default (tanpa tuning):

Model	Akurasi	Catatan
Random Forest	~93.56%	Performa terbaik, stabil di semua kelas
K-Nearest Neighbors	~77.33%	Akurasi rendah, kurang baik menangani kelas minoritas
Logistic Regression	~79.47%	Hasil cukup baik, namun tidak optimal terutama pada kelas tidak seimbang


Sesudah Optimasi (Dengan GridSearchCV)
Model dilakukan tuning hyperparameter menggunakan GridSearchCV untuk mencari kombinasi parameter terbaik:

Model	Akurasi	Perubahan Utama
Random Forest (Tuned)	~95.44%	 Naik signifikan. Tuning seperti n_estimators, max_depth, dan criterion meningkatkan akurasi dan generalisasi.
KNN (Tuned)	~83.03% Meningkat setelah pemilihan jumlah tetangga k, dan metrik jarak weights.
Logistic Regression (Tuned)	~81.84% Naik sedikit, tapi masih kalah dari Random Forest. Parameter seperti C dan penalty berpengaruh.


Kesimpulan Umum
GridSearchCV terbukti meningkatkan performa model secara signifikan, terutama pada Random Forest dan KNN.
Random Forest tetap menjadi model terbaik setelah tuning, dan sangat disarankan untuk digunakan dalam produksi.
KNN dan Logistic Regression menunjukkan peningkatan, namun masih memiliki keterbatasan pada penanganan kelas minoritas dan akurasi umum.
Optimasi hyperparameter penting dilakukan untuk mendapatkan performa model yang maksimal, terutama dalam kasus multi-kelas seperti ini.