# **1. Import Library**

Pada tahap ini, Anda perlu mengimpor beberapa pustaka (library) Python yang dibutuhkan untuk analisis data dan pembangunan model machine learning.

In [1]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
import sklearn
import sklearn.model_selection as ms
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import confusion_matrix
from sklearn.metrics import classification_report
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis
from sklearn.metrics import classification_report, accuracy_score, precision_score, recall_score, roc_auc_score

# **2. Memuat Dataset dari Hasil Clustering**

Memuat dataset hasil clustering dari file CSV ke dalam variabel DataFrame.

In [2]:
url = 'https://raw.githubusercontent.com/feverlash/Dicoding-Project-ML/refs/heads/main/Customers_Labelled.csv'

df = pd.read_csv(url)
original_df = df.copy(deep=True)
display(df.head())

Unnamed: 0,CustomerID,Gender,Age,Annual Income,Spending Score,Profession,Work Experience,Family Size,Cluster
0,1,1,19,15000,39,5,1,4,0
1,2,1,21,35000,81,2,3,3,3
2,3,0,20,86000,6,2,1,1,0
3,4,0,23,59000,77,7,0,2,3
4,5,0,31,38000,40,3,2,6,0


# **3. Data Splitting**

Tahap Data Splitting bertujuan untuk memisahkan dataset menjadi dua bagian: data latih (training set) dan data uji (test set).

In [3]:
y = df['Cluster']
X = df.copy()
X.drop(['Cluster'],axis=1, inplace=True)
X

Unnamed: 0,CustomerID,Gender,Age,Annual Income,Spending Score,Profession,Work Experience,Family Size
0,1,1,19,15000,39,5,1,4
1,2,1,21,35000,81,2,3,3
2,3,0,20,86000,6,2,1,1
3,4,0,23,59000,77,7,0,2
4,5,0,31,38000,40,3,2,6
...,...,...,...,...,...,...,...,...
2001,1996,0,71,184387,40,0,8,7
2002,1997,0,91,73158,32,1,7,7
2003,1998,1,87,90961,14,5,9,2
2004,1999,1,77,182109,4,4,7,2


In [4]:
y.value_counts()

Unnamed: 0_level_0,count
Cluster,Unnamed: 1_level_1
0,539
2,517
3,485
1,465


drop customer ID karena tidak dipakai

In [5]:
X.drop(['CustomerID'],axis=1, inplace=True)

split dataset menjadi 80 persen data latih dan 20 persen data uji

In [6]:
X_train,X_test,y_train,y_test = ms.train_test_split(X,y,test_size=0.2,random_state=42)

In [7]:
print(X_train)
print(y_train)

      Gender  Age  Annual Income  Spending Score  Profession  Work Experience  \
916        1   21          69644              19           0                5   
261        1   12          38000              18           4               10   
607        1   61         126370              20           6               11   
1330       0   95         159010              84           7                6   
240        1   91           9000              96           5                1   
...      ...  ...            ...             ...         ...              ...   
1130       0   41          69730              97           0                1   
1294       0   98          51866              81           0               12   
860        0   22         131748              23           0                1   
1459       0   63         116095               8           0                5   
1126       0   54         165019              12           3                1   

      Family Size  
916    

In [8]:
X.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2006 entries, 0 to 2005
Data columns (total 7 columns):
 #   Column           Non-Null Count  Dtype
---  ------           --------------  -----
 0   Gender           2006 non-null   int64
 1   Age              2006 non-null   int64
 2   Annual Income    2006 non-null   int64
 3   Spending Score   2006 non-null   int64
 4   Profession       2006 non-null   int64
 5   Work Experience  2006 non-null   int64
 6   Family Size      2006 non-null   int64
dtypes: int64(7)
memory usage: 109.8 KB


# **4. Membangun Model Klasifikasi**


## **a. Membangun Model Klasifikasi**

Setelah memilih algoritma klasifikasi yang sesuai, langkah selanjutnya adalah melatih model menggunakan data latih.

Berikut adalah rekomendasi tahapannya.
1. Pilih algoritma klasifikasi yang sesuai, seperti Logistic Regression, Decision Tree, Random Forest, atau K-Nearest Neighbors (KNN).
2. Latih model menggunakan data latih.

Saya akan menggunakan randomforest dan linear discriminant analysis

In [9]:
lda = LinearDiscriminantAnalysis()
model_lda = lda.fit(X_train,y_train)

In [10]:
print("b_0 =", model_lda.intercept_)
print("b =", model_lda.coef_)

b_0 = [  9.0633181  -18.29031849  -7.05411943  -1.74210876]
b = [[ 5.04158726e-03  2.11303031e-03 -6.71694635e-05 -1.13480177e-01
  -3.98529092e-02  2.42609942e-02  1.55704777e-02]
 [-9.45239606e-02 -1.19275893e-03  6.68504432e-05  1.27144263e-01
   4.59149105e-02 -1.30594718e-02  1.30688687e-02]
 [-6.19650843e-02  3.85762244e-04  7.14523156e-05 -9.34220599e-02
   4.84429948e-02  2.67900755e-03 -8.10919387e-03]
 [ 1.50647767e-01 -1.63052483e-03 -6.55838658e-05  1.05870790e-01
  -5.13422990e-02 -1.74426522e-02 -2.09759941e-02]]


In [11]:
rf= RandomForestClassifier(n_estimators=500)
rf.fit(X_train,y_train)

Tulis narasi atau penjelasan algoritma yang Anda gunakan.

## **b. Evaluasi Model Klasifikasi**

Berikut adalah **rekomendasi** tahapannya.
1. Lakukan prediksi menggunakan data uji.
2. Hitung metrik evaluasi seperti Accuracy dan F1-Score (Opsional: Precision dan Recall).
3. Buat confusion matrix untuk melihat detail prediksi benar dan salah.

Tulis hasil evaluasi algoritma yang digunakan, jika Anda menggunakan 2 algoritma, maka bandingkan hasilnya.

Evaluasi Random Forest

In [12]:
rf_pred=rf.predict(X_test)
print(rf_pred)

[3 2 0 0 1 3 2 1 3 2 0 0 2 3 2 3 0 3 3 2 2 3 0 2 2 2 2 2 1 1 1 1 3 1 1 0 2
 0 1 3 2 0 0 1 1 3 1 2 2 0 1 3 0 3 1 3 0 0 2 2 3 2 0 3 3 2 0 1 0 0 1 3 2 1
 2 1 0 1 3 2 1 1 3 0 0 3 2 1 2 2 1 0 1 2 1 1 1 0 0 3 0 0 0 2 1 0 1 0 0 2 1
 1 1 2 3 1 0 0 2 0 3 1 0 1 3 3 0 2 1 3 2 3 3 0 3 3 1 1 1 2 1 2 2 0 1 3 3 0
 2 0 0 1 1 2 1 0 3 3 3 2 3 3 3 0 0 0 3 0 0 0 2 0 2 0 3 1 2 0 3 0 3 3 1 2 3
 2 1 3 0 1 2 2 2 1 0 1 2 3 2 3 2 2 0 0 2 1 1 2 2 0 3 0 3 3 0 1 1 2 3 0 3 2
 3 1 2 2 1 1 2 3 3 2 3 0 0 0 0 2 1 2 3 2 2 1 2 3 1 2 1 0 3 1 2 3 3 0 2 2 0
 1 0 0 2 2 0 3 0 0 1 1 3 3 0 1 0 0 2 0 2 2 1 1 3 3 2 2 1 2 3 3 0 3 0 0 3 3
 1 0 0 2 3 0 2 0 1 3 1 3 1 0 3 3 3 0 1 1 2 1 2 3 1 1 2 2 2 0 2 0 0 3 2 0 0
 1 1 1 1 0 2 1 2 1 0 2 1 3 3 2 0 0 0 2 3 2 0 0 0 0 1 0 3 3 0 2 3 0 2 3 3 3
 3 0 2 1 3 0 2 0 3 0 0 1 3 3 1 1 3 1 1 2 1 3 2 0 0 2 1 1 3 1 2 1]


In [13]:
# Menghasilkan classification report
print(classification_report(y_test, rf_pred))

# Menghitung metrik untuk multiclass
print("Accuracy Score Random Forest:", accuracy_score(y_test, rf_pred))
print("Precision Score Random Forest (weighted):", precision_score(y_test, rf_pred, average='weighted'))
print("Recall Score Random Forest (weighted):", recall_score(y_test, rf_pred, average='weighted'))

              precision    recall  f1-score   support

           0       0.99      0.99      0.99       108
           1       1.00      1.00      1.00        97
           2       0.99      0.99      0.99       100
           3       1.00      1.00      1.00        97

    accuracy                           1.00       402
   macro avg       1.00      1.00      1.00       402
weighted avg       1.00      1.00      1.00       402

Accuracy Score Random Forest: 0.9950248756218906
Precision Score Random Forest (weighted): 0.9950248756218906
Recall Score Random Forest (weighted): 0.9950248756218906


diperoleh akurasi, precision, recall, dan f1-score yang bisa dibilang sempurna, yaitu 0.995 sehingga random forest merupakan algoritma yang sangat baik untuk dataset ini

Evaluasi Linear Discriminant Analysis

In [14]:
y_pred_LDA = model_lda.predict(X_test)
print(y_pred_LDA)

[3 2 0 0 1 3 2 3 3 2 0 0 2 3 2 3 0 3 3 2 2 3 0 2 2 2 2 2 1 1 1 1 3 1 1 0 2
 0 1 3 2 0 0 1 1 3 1 2 2 0 1 3 0 3 1 3 0 0 2 2 0 2 0 3 3 2 0 1 0 0 1 3 2 1
 2 1 0 1 3 2 1 1 3 0 0 3 2 1 2 2 1 0 1 2 1 1 1 0 0 3 0 0 0 2 1 0 1 0 0 2 1
 1 1 2 3 1 0 0 2 0 3 1 0 1 3 3 0 2 1 3 2 3 3 0 3 3 1 1 1 2 1 2 2 0 1 3 3 0
 2 0 0 1 1 2 1 0 3 3 3 2 3 3 3 0 0 0 3 0 0 0 2 0 2 0 3 1 2 0 3 0 3 3 1 2 3
 2 1 3 0 1 2 2 2 1 0 1 2 3 2 3 2 2 0 0 2 1 1 2 2 0 3 0 3 3 0 1 1 2 3 0 3 2
 3 1 2 2 1 1 2 3 3 2 3 0 0 0 0 2 1 2 3 2 2 1 2 3 1 2 1 0 3 1 2 0 3 0 2 2 0
 1 2 3 0 2 0 3 0 0 1 1 3 3 0 1 0 0 2 0 2 2 1 1 3 3 2 2 1 2 3 3 0 3 0 0 3 3
 1 0 0 2 3 0 2 0 1 3 1 3 1 0 3 3 3 0 1 1 2 1 2 3 1 1 2 2 2 0 2 0 0 3 2 0 0
 1 1 1 1 0 2 1 2 1 0 2 1 3 3 2 0 0 0 2 3 0 0 0 0 0 1 0 3 3 0 2 3 0 2 3 3 3
 3 0 2 1 3 0 2 0 3 0 0 1 3 3 1 1 3 1 1 2 1 3 2 0 0 2 1 1 3 1 2 1]


In [15]:
# Menghasilkan classification report
print(classification_report(y_test, y_pred_LDA))

# Menghitung metrik untuk multiclass
print("Accuracy Score LDA:", accuracy_score(y_test, y_pred_LDA))
print("Precision Score LDA (weighted):", precision_score(y_test, y_pred_LDA, average='weighted'))
print("Recall Score LDA (weighted):", recall_score(y_test, y_pred_LDA, average='weighted'))

              precision    recall  f1-score   support

           0       0.97      0.99      0.98       108
           1       1.00      0.99      0.99        97
           2       1.00      0.99      0.99       100
           3       0.98      0.98      0.98        97

    accuracy                           0.99       402
   macro avg       0.99      0.99      0.99       402
weighted avg       0.99      0.99      0.99       402

Accuracy Score LDA: 0.9875621890547264
Precision Score LDA (weighted): 0.9876978742650384
Recall Score LDA (weighted): 0.9875621890547264


diperoleh akurasi, precision, recall, dan f1-score yang juga hampir sempurna, yaitu 0.987 sehingga LDA juga memiliki performa yang baik.

Berdasarkan hasil yang diperoleh Random Forest memiliki hasil yang sedikit lebih baik daripada LDA walaupun perbedaannya tidak terlalu signifikan.

## **c. Analisis Hasil Evaluasi Model Klasifikasi**

Berikut adalah **rekomendasi** tahapannya.
1. Bandingkan hasil evaluasi sebelum dan setelah tuning (jika dilakukan).
2. Identifikasi kelemahan model, seperti:
  - Precision atau Recall rendah untuk kelas tertentu.
  - Apakah model mengalami overfitting atau underfitting?
3. Berikan rekomendasi tindakan lanjutan, seperti mengumpulkan data tambahan atau mencoba algoritma lain jika hasil belum memuaskan.

**Interpretasi**

Kedua Algoritma memiliki hasil yang sangat baik, akan tetapi ada kemungkinan kedua algoritma tersebut mengalami overfitting dikarenakan ukuran dataset yang bisa dibilang kecil, yaitu 2000 data. Mungkin untuk selanjutnya dapat digunakan dataset yang lebih besar untuk memastikan.