# **1. Import Library**

Pada tahap ini, Anda perlu mengimpor beberapa pustaka (library) Python yang dibutuhkan untuk analisis data dan pembangunan model machine learning.

In [1]:
import numpy as np
import pandas as pd

from sklearn.model_selection import train_test_split
from sklearn.metrics import confusion_matrix, accuracy_score, precision_score, recall_score, f1_score

# **2. Memuat Dataset dari Hasil Clustering**

Memuat dataset hasil clustering dari file CSV ke dalam variabel DataFrame.

In [2]:
df = pd.read_csv('/content/RFM.csv').rename(columns={'Unnamed: 0': 'index'}).set_index('index')
df

Unnamed: 0_level_0,CustomerID,Country,Recency,Frequency,Monetary,Klaster
index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
0,12346.0,United Kingdom,325,2,2.08,1
1,12347.0,Iceland,1,182,481.21,4
2,12348.0,Finland,74,31,178.71,0
3,12349.0,Italy,18,73,605.10,2
4,12350.0,Norway,309,17,65.30,5
...,...,...,...,...,...,...
4374,18278.0,United Kingdom,73,9,29.55,10
4375,18280.0,United Kingdom,277,10,47.65,1
4376,18281.0,United Kingdom,180,7,39.36,1
4377,18282.0,United Kingdom,7,13,62.68,3


In [3]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 3736 entries, 0 to 4379
Data columns (total 6 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   CustomerID  3736 non-null   float64
 1   Country     3736 non-null   object 
 2   Recency     3736 non-null   int64  
 3   Frequency   3736 non-null   int64  
 4   Monetary    3736 non-null   float64
 5   Klaster     3736 non-null   int64  
dtypes: float64(2), int64(3), object(1)
memory usage: 204.3+ KB


# **3. Data Splitting**

Tahap Data Splitting bertujuan untuk memisahkan dataset menjadi dua bagian: data latih (training set) dan data uji (test set).

In [4]:
X = df.drop(columns=['Klaster', 'CustomerID', 'Country'])
Y = df['Klaster']

X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.2, random_state=666)

In [5]:
X

Unnamed: 0_level_0,Recency,Frequency,Monetary
index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,325,2,2.08
1,1,182,481.21
2,74,31,178.71
3,18,73,605.10
4,309,17,65.30
...,...,...,...
4374,73,9,29.55
4375,277,10,47.65
4376,180,7,39.36
4377,7,13,62.68


# **4. Membangun Model Klasifikasi**


## **a. Membangun Model Klasifikasi**

Setelah memilih algoritma klasifikasi yang sesuai, langkah selanjutnya adalah melatih model menggunakan data latih.

Berikut adalah rekomendasi tahapannya.
1. Pilih algoritma klasifikasi yang sesuai, seperti Logistic Regression, Decision Tree, Random Forest, atau K-Nearest Neighbors (KNN).
2. Latih model menggunakan data latih.

In [6]:
from sklearn.neighbors import KNeighborsClassifier
from sklearn.ensemble import RandomForestClassifier

knn = KNeighborsClassifier().fit(X_train, Y_train)
rf = RandomForestClassifier().fit(X_train, Y_train)

Tulis narasi atau penjelasan algoritma yang Anda gunakan.
1. Algoritma KNN adalah algoritma berbasis jarak yang juga digunakan pada saat klasterisasi.
2. Algoritma RandomForest digunakan untuk menjadi perbandingan kualitas model dengan KNN karena pendekatannya berbasis Tree

## **b. Evaluasi Model Klasifikasi**

Berikut adalah **rekomendasi** tahapannya.
1. Lakukan prediksi menggunakan data uji.
2. Hitung metrik evaluasi seperti Accuracy dan F1-Score (Opsional: Precision dan Recall).
3. Buat confusion matrix untuk melihat detail prediksi benar dan salah.

KNN

In [7]:
y_train_knn = knn.predict(X_train)
y_test_knn = knn.predict(X_test)

# Testing Evaluation
accuracy_test = accuracy_score(Y_test, y_test_knn)
precision_test = precision_score(Y_test, y_test_knn, average='weighted')
recall_test = recall_score(Y_test, y_test_knn, average='weighted')
f1_test = f1_score(Y_test, y_test_knn, average='weighted')

# Training Evaluation
accuracy_train = accuracy_score(Y_train, y_train_knn)
precision_train = precision_score(Y_train, y_train_knn, average='weighted')
recall_train = recall_score(Y_train, y_train_knn, average='weighted')
f1_train = f1_score(Y_train, y_train_knn, average='weighted')

print(f"Accuracy Test: {accuracy_test}")
print(f"Accuracy Train: {accuracy_train}")
print(f"Precision Test: {precision_test}")
print(f"Precision Train: {precision_train}")
print(f"Recall Test: {recall_test}")
print(f"Recall Train: {recall_train}")
print(f"F1 Test: {f1_test}")
print(f"F1 Train: {f1_train}")

Accuracy Test: 0.8716577540106952
Accuracy Train: 0.9337349397590361
Precision Test: 0.8706645489680475
Precision Train: 0.9341423516884998
Recall Test: 0.8716577540106952
Recall Train: 0.9337349397590361
F1 Test: 0.8668969314467838
F1 Train: 0.9324431173330495


RandomForest

In [8]:
y_train_rf = rf.predict(X_train)
y_test_rf = rf.predict(X_test)

# Testing Evaluation
accuracy_test = accuracy_score(Y_test, y_test_rf)
precision_test = precision_score(Y_test, y_test_rf, average='weighted')
recall_test = recall_score(Y_test, y_test_rf, average='weighted')
f1_test = f1_score(Y_test, y_test_rf, average='weighted')

# Training Evaluation
accuracy_train = accuracy_score(Y_train, y_train_rf)
precision_train = precision_score(Y_train, y_train_rf, average='weighted')
recall_train = recall_score(Y_train, y_train_rf, average='weighted')
f1_train = f1_score(Y_train, y_train_rf, average='weighted')

print(f"Accuracy Test: {accuracy_test}")
print(f"Accuracy Train: {accuracy_train}")
print("-----------")
print(f"Precision Test: {precision_test}")
print(f"Precision Train: {precision_train}")
print("-----------")
print(f"Recall Test: {recall_test}")
print(f"Recall Train: {recall_train}")
print("-----------")
print(f"F1 Test: {f1_test}")
print(f"F1 Train: {f1_train}")

Accuracy Test: 0.9959893048128342
Accuracy Train: 1.0
-----------
Precision Test: 0.9961112462478333
Precision Train: 1.0
-----------
Recall Test: 0.9959893048128342
Recall Train: 1.0
-----------
F1 Test: 0.9959984793203324
F1 Train: 1.0


Tulis hasil evaluasi algoritma yang digunakan, jika Anda menggunakan 2 algoritma, maka bandingkan hasilnya.

**Hasil evaluasi menandakan bahwa random forest berhasil melakukan klasifikasi dengan baik.**

## **c. Tuning Model Klasifikasi (Optional) -- Tidak dilakukan karena sudah max**

Gunakan GridSearchCV, RandomizedSearchCV, atau metode lainnya untuk mencari kombinasi hyperparameter terbaik

In [9]:
#Type your code here

## **d. Evaluasi Model Klasifikasi setelah Tuning (Optional)**

Berikut adalah rekomendasi tahapannya.
1. Gunakan model dengan hyperparameter terbaik.
2. Hitung ulang metrik evaluasi untuk melihat apakah ada peningkatan performa.

In [10]:
#Type your code here

## **e. Analisis Hasil Evaluasi Model Klasifikasi**

Berikut adalah **rekomendasi** tahapannya.
1. Bandingkan hasil evaluasi sebelum dan setelah tuning (jika dilakukan).
2. Identifikasi kelemahan model, seperti:
  - Precision atau Recall rendah untuk kelas tertentu.
  - Apakah model mengalami overfitting atau underfitting?
3. Berikan rekomendasi tindakan lanjutan, seperti mengumpulkan data tambahan atau mencoba algoritma lain jika hasil belum memuaskan.

---------------

Jawaban
1. Hasil evaluasi menggunakan algoritma Random Forest menunjukkan angka yang paling maksimal dibandingkan KNN.
2. Performa model antara data test dan data training menggunakan Random Forest juga bisa dikatakan.
3. Dengan algoritma yang digunakan sekarang, model bisa digunakan untuk melakukan segmentasi pelanggan berdasarkan Recency, Frequency, dan Monetary.