# **1. Import Library**

Pada tahap ini, Anda perlu mengimpor beberapa pustaka (library) Python yang dibutuhkan untuk analisis data dan pembangunan model machine learning.

In [535]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder, MinMaxScaler, StandardScaler
from sklearn.neighbors import KNeighborsClassifier
from sklearn.svm import SVC
from sklearn.metrics import accuracy_score, f1_score
from sklearn.model_selection import GridSearchCV

# **2. Memuat Dataset dari Hasil Clustering**

Memuat dataset hasil clustering dari file CSV ke dalam variabel DataFrame.

In [536]:
# Memuat dataset hasil clustering
df = pd.read_csv("Dataset_inisiasi.csv")
df

Unnamed: 0.1,Unnamed: 0,Unit_Price,Quantity,Discount,Total_Price,Cluster,Category
0,0,1.66,53.0,0.10,79.18,2,Water
1,4,0.87,35.0,0.10,27.40,2,Water
2,6,2.14,44.0,0.10,84.74,1,Juices
3,7,0.43,13.0,0.05,5.31,2,Water
4,9,1.38,3.0,0.05,3.93,2,Water
...,...,...,...,...,...,...,...
3704,4994,0.47,13.0,0.00,6.11,2,Water
3705,4995,0.61,4.0,0.00,2.44,0,Soft Drinks
3706,4996,1.64,11.0,0.00,18.04,1,Juices
3707,4997,0.59,14.0,0.00,8.26,2,Water


In [537]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3709 entries, 0 to 3708
Data columns (total 7 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   Unnamed: 0   3709 non-null   int64  
 1   Unit_Price   3709 non-null   float64
 2   Quantity     3709 non-null   float64
 3   Discount     3709 non-null   float64
 4   Total_Price  3709 non-null   float64
 5   Cluster      3709 non-null   int64  
 6   Category     3709 non-null   object 
dtypes: float64(4), int64(2), object(1)
memory usage: 203.0+ KB


# **3. Data Splitting**

Tahap Data Splitting bertujuan untuk memisahkan dataset menjadi dua bagian: data latih (training set) dan data uji (test set).

In [538]:
# Melakukan encoding pada fitur kategorikal
le = LabelEncoder()
df['Category'] = le.fit_transform(df['Category'])
df

Unnamed: 0.1,Unnamed: 0,Unit_Price,Quantity,Discount,Total_Price,Cluster,Category
0,0,1.66,53.0,0.10,79.18,2,3
1,4,0.87,35.0,0.10,27.40,2,3
2,6,2.14,44.0,0.10,84.74,1,1
3,7,0.43,13.0,0.05,5.31,2,3
4,9,1.38,3.0,0.05,3.93,2,3
...,...,...,...,...,...,...,...
3704,4994,0.47,13.0,0.00,6.11,2,3
3705,4995,0.61,4.0,0.00,2.44,0,2
3706,4996,1.64,11.0,0.00,18.04,1,1
3707,4997,0.59,14.0,0.00,8.26,2,3


In [539]:
# Memisahkan fitur (X) dan target (y)
X = df.drop(columns = ['Cluster'])
y = df['Cluster']

In [540]:
# Melakukan normalisasi untuk fitur numerik
scaler = StandardScaler()
X_scaler = scaler.fit_transform(X)

In [541]:
# Melakukan split data 
X_train, X_test, y_train, y_test = train_test_split(X_scaler, y, test_size=0.2, random_state=42)

# **4. Membangun Model Klasifikasi**


## **a. Membangun Model Klasifikasi**

Setelah memilih algoritma klasifikasi yang sesuai, langkah selanjutnya adalah melatih model menggunakan data latih.

Berikut adalah rekomendasi tahapannya.
1. Pilih algoritma klasifikasi yang sesuai, seperti Logistic Regression, Decision Tree, Random Forest, atau K-Nearest Neighbors (KNN).
2. Latih model menggunakan data latih.

In [542]:
# Membangun model KNN
model_knn = KNeighborsClassifier(n_neighbors=5)
model_knn.fit(X_train, y_train)
y_train_pred_knn = model_knn.predict(X_train)
y_test_pred_knn = model_knn.predict(X_test)

In [543]:
# Membangun model SVM
model_svm = SVC(kernel='rbf', C=1.0, gamma='scale', random_state=42)
model_svm.fit(X_train, y_train)
y_train_pred_svm = model_svm.predict(X_train)
y_test_pred_svm = model_svm.predict(X_test)

Tulis narasi atau penjelasan algoritma yang Anda gunakan.

## **b. Evaluasi Model Klasifikasi**

Berikut adalah **rekomendasi** tahapannya.
1. Lakukan prediksi menggunakan data uji.
2. Hitung metrik evaluasi seperti Accuracy dan F1-Score (Opsional: Precision dan Recall).
3. Buat confusion matrix untuk melihat detail prediksi benar dan salah.

Tulis hasil evaluasi algoritma yang digunakan, jika Anda menggunakan 2 algoritma, maka bandingkan hasilnya.

In [544]:
# Evaluasi KNN
## Akurasi dan f1 score pada data train
train_accuracy_knn = accuracy_score(y_train, y_train_pred_knn)
train_f1_knn = f1_score(y_train,y_train_pred_knn, average = "weighted")
print(f'Akurasi pada data train KNN: {train_accuracy_knn:.4f}')
print(f'F1-Score pada data train KNN: {train_f1_knn:.4f}')

## Akurasi pada data test
test_accuracy_knn = accuracy_score(y_test, y_test_pred_knn)
test_f1_knn = f1_score(y_test,y_test_pred_knn, average = "weighted")
print(f'Akurasi pada data test KNN: {test_accuracy_knn:.4f}')
print(f'F1-Score pada data test KNN: {test_f1_knn:.4f}')

Akurasi pada data train KNN: 0.9929
F1-Score pada data train KNN: 0.9929
Akurasi pada data test KNN: 0.9906
F1-Score pada data test KNN: 0.9906


In [545]:
# Evaluasi SVM
## Akurasi dan f1 score pada data train
train_accuracy_svm = accuracy_score(y_train, y_train_pred_svm)
train_f1_svm = f1_score(y_train,y_train_pred_svm, average = "weighted")
print(f'Akurasi pada data train: {train_accuracy_svm:.4f}')
print(f'F1-Score pada data train: {train_f1_svm:.4f}')

## Akurasi pada data test
test_accuracy_svm = accuracy_score(y_test, y_test_pred_svm)
test_f1_svm = f1_score(y_test,y_test_pred_svm, average = "weighted")
print(f'Akurasi pada data test: {test_accuracy_svm:.4f}')
print(f'F1-Score pada data test: {test_f1_svm:.4f}')

Akurasi pada data train: 1.0000
F1-Score pada data train: 1.0000
Akurasi pada data test: 1.0000
F1-Score pada data test: 1.0000


## **c. Tuning Model Klasifikasi (Optional)**

Gunakan GridSearchCV, RandomizedSearchCV, atau metode lainnya untuk mencari kombinasi hyperparameter terbaik

In [546]:
# Tuning model KNN menggunakan GridSearch
# Definisi parameter yang akan diuji
param_grid = {
    'n_neighbors': list(range(1, 21)),  # Jumlah tetangga dari 1 hingga 20
    'weights': ['uniform', 'distance'],  # Skema pembobotan
    'metric': ['euclidean', 'manhattan', 'minkowski']  # Metode pengukuran jarak
}

# Inisialisasi model KNN
model_knn = KNeighborsClassifier()

# Grid Search dengan cross-validation 5-fold
grid_search_knn = GridSearchCV(
    model_knn, param_grid, 
    cv=5, scoring='accuracy', 
    n_jobs=-1, verbose=2
)

# Training dengan pencarian hyperparameter
grid_search_knn.fit(X_train, y_train)

# Menampilkan hasil terbaik
print("Best Parameters:", grid_search_knn.best_params_)
print("Best Accuracy:", grid_search_knn.best_score_)

# Menggunakan model terbaik
best_knn = grid_search_knn.best_estimator_

Fitting 5 folds for each of 120 candidates, totalling 600 fits
Best Parameters: {'metric': 'manhattan', 'n_neighbors': 5, 'weights': 'distance'}
Best Accuracy: 0.9925846435121309


In [547]:
# Tuning model SVM menggunakan GridSearch
# Definisi parameter yang akan diuji
param_grid = {
    'C': [0.01, 0.1, 1, 10, 100],  # Regularisasi
    'gamma': ['scale', 'auto', 0.001, 0.01, 0.1, 1],  # Parameter kernel RBF
    'kernel': ['rbf', 'linear', 'poly', 'sigmoid']  # Jenis kernel yang diuji
}

# Inisialisasi model SVM
model_svm = SVC(random_state=42)

# Grid Search dengan cross-validation 5-fold
grid_search_svm = GridSearchCV(
    model_svm, param_grid, 
    cv=5, scoring='accuracy', 
    n_jobs=-1, verbose=2
)

# Training dengan pencarian hyperparameter
grid_search_svm.fit(X_train, y_train)

# Menampilkan hasil terbaik
print("Best Parameters:", grid_search_svm.best_params_)
print("Best Accuracy:", grid_search_svm.best_score_)

# Menggunakan model terbaik
best_svm = grid_search_svm.best_estimator_

Fitting 5 folds for each of 120 candidates, totalling 600 fits
Best Parameters: {'C': 0.01, 'gamma': 'scale', 'kernel': 'linear'}
Best Accuracy: 1.0


## **d. Evaluasi Model Klasifikasi setelah Tuning (Optional)**

Berikut adalah rekomendasi tahapannya.
1. Gunakan model dengan hyperparameter terbaik.
2. Hitung ulang metrik evaluasi untuk melihat apakah ada peningkatan performa.

In [548]:
# Mengevaluasi model KNN setelah tuning
# Evaluasi pada data test
y_test_pred_knn = best_knn.predict(X_test)
train_accuracy_knn = accuracy_score(y_train, y_train_pred_knn)
train_f1_knn = f1_score(y_train, y_train_pred_knn, average="weighted")
test_accuracy_knn = accuracy_score(y_test, y_test_pred_knn)
test_f1_knn = f1_score(y_test, y_test_pred_knn, average="weighted")
print(f'Akurasi pada data train KNN setelah tuning: {train_accuracy_knn:.4f}')
print(f'F1-Score pada data train KNN setelah tuning: {train_f1_knn:.4f}')
print(f'Akurasi pada data test KNN setelah tuning: {test_accuracy_knn:.4f}')
print(f'F1-Score pada data test KNN setelah tuning: {test_f1_knn:.4f}')

Akurasi pada data train KNN setelah tuning: 0.9929
F1-Score pada data train KNN setelah tuning: 0.9929
Akurasi pada data test KNN setelah tuning: 0.9933
F1-Score pada data test KNN setelah tuning: 0.9933


In [549]:
# Evaluasi pada data test
y_test_pred_svm = best_svm.predict(X_test)
train_accuracy_svm = accuracy_score(y_train, y_train_pred_svm)
train_f1_svm = f1_score(y_train, y_train_pred_svm, average="weighted")
test_accuracy_svm = accuracy_score(y_test, y_test_pred_svm)
test_f1_svm = f1_score(y_test, y_test_pred_svm, average="weighted")
print(f'Akurasi pada data train SVM setelah tuning: {train_accuracy_svm:.4f}')
print(f'F1-Score pada data train SVM setelah tuning: {train_f1_svm:.4f}')
print(f'Akurasi pada data test SVM setelah tuning: {test_accuracy_svm:.4f}')
print(f'F1-Score pada data test SVM setelah tuning: {test_f1_svm:.4f}')

Akurasi pada data train SVM setelah tuning: 1.0000
F1-Score pada data train SVM setelah tuning: 1.0000
Akurasi pada data test SVM setelah tuning: 1.0000
F1-Score pada data test SVM setelah tuning: 1.0000


## **e. Analisis Hasil Evaluasi Model Klasifikasi**

1. Perbandingan hasil evaluasi sebelum dan setelah tuning 
    - **KNN**
      - Akurasi data test mengalami kenaikan, sedangkan pada data train tetap. Akurasi data test dari **0.9906** menjadi **0.9933**. Ini menunjukkan bahwa tuning memberikan peningkatan signifikan, dan model stabil serta tidak overfitting.
    - **SVM**
      - Akurasi data train dan data test tetap, yakni tidak ada perubahan nilai akurasi (1.000). Hal ini menunjukkan bahwa kemungkinan besar model mengalami overfitting.
2. Identifikasi kelemahan model
    - **KNN**
      - Model tidak mengalami overfitting maupun underfitting.
      - Akurasi yang meningkat menunjukkan model cukup baik dalam menggeneralisasi data baru.
    - **SVM**
      - Model kemungkinan besar mengalami overfitting
3. Rekomendasi tindakan lanjutan
      - Mengevaluasi model SVM menggunakan cross-validation