# **1. Import Library**

Pada tahap ini, Anda perlu mengimpor beberapa pustaka (library) Python yang dibutuhkan untuk analisis data dan pembangunan model machine learning.

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler, LabelEncoder
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, f1_score, confusion_matrix, classification_report, roc_auc_score, roc_curve
import warnings
warnings.filterwarnings('ignore')
print("Semua pustaka telah berhasil diimpor.")

Semua pustaka telah berhasil diimpor.


# **2. Memuat Dataset dari Hasil Clustering**

Memuat dataset hasil clustering dari file CSV ke dalam variabel DataFrame.

In [2]:
# Memuat dataset hasil clustering
dataset = pd.read_csv("Hasil_Clustering.csv")

# Menampilkan 5 baris pertama dataset
print("Dataset berhasil dimuat. Berikut adalah 5 baris pertama:")
print(dataset.head())


Dataset berhasil dimuat. Berikut adalah 5 baris pertama:
   Transaction_ID                 Date      Customer_Name  \
0      1000000000  2022-01-21 06:27:29       Stacey Price   
1      1000000001  2023-03-01 13:01:21   Michelle Carlson   
2      1000000002  2024-03-21 15:37:04        Lisa Graves   
3      1000000003  2020-10-31 09:59:47  Mrs. Patricia May   
4      1000000004  2020-12-10 00:59:59     Susan Mitchell   

                                             Product  Total_Items  Total_Cost  \
0        ['Ketchup', 'Shaving Cream', 'Light Bulbs']    -0.869165    0.700106   
1  ['Ice Cream', 'Milk', 'Olive Oil', 'Bread', 'P...    -1.217397   -0.967474   
2                                        ['Spinach']     0.175529   -0.399943   
3                             ['Tissues', 'Mustard']    -1.565628   -0.478361   
4                                      ['Dish Soap']     1.568455   -1.314340   

   Payment_Method  City  Store_Type  Discount_Applied  Customer_Category  \
0            

# **3. Data Splitting**

Tahap Data Splitting bertujuan untuk memisahkan dataset menjadi dua bagian: data latih (training set) dan data uji (test set).

In [3]:
# Memisahkan fitur dan target
X = dataset[['Total_Items', 'Total_Cost', 'Payment_Method', 'City', 'Store_Type']]  # Sesuaikan fitur sesuai kebutuhan
y = dataset['Cluster']

# Memisahkan data menjadi data latih dan data uji
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Menampilkan informasi tentang data latih dan uji
print("Data splitting selesai.")
print(f"Jumlah data latih: {X_train.shape[0]}")
print(f"Jumlah data uji: {X_test.shape[0]}")


Data splitting selesai.
Jumlah data latih: 700000
Jumlah data uji: 300000


# **4. Membangun Model Klasifikasi**


## **a. Membangun Model Klasifikasi**

Setelah memilih algoritma klasifikasi yang sesuai, langkah selanjutnya adalah melatih model menggunakan data latih.

Berikut adalah rekomendasi tahapannya.
1. Pilih algoritma klasifikasi yang sesuai, seperti Logistic Regression, Decision Tree, Random Forest, atau K-Nearest Neighbors (KNN).
2. Latih model menggunakan data latih.

In [4]:
# Model 1: Logistic Regression
logreg = LogisticRegression(random_state=42)
logreg.fit(X_train, y_train)

# Model 2: Random Forest
rf = RandomForestClassifier(random_state=42)
rf.fit(X_train, y_train)

print("Model Logistic Regression dan Random Forest telah berhasil dilatih.")


Model Logistic Regression dan Random Forest telah berhasil dilatih.


**Penjelasan Algoritma yang Digunakan**
1. Logistic Regression:
- Logistic Regression adalah algoritma klasifikasi linear yang digunakan untuk memprediksi probabilitas suatu kategori. Model ini cocok untuk kasus dengan hubungan linier antara fitur dan target.

2. Random Forest:
- Random Forest adalah algoritma ensemble berbasis pohon keputusan yang bekerja dengan membuat banyak pohon keputusan dan menggabungkan hasilnya. Algoritma ini lebih robust terhadap overfitting dan sering kali memberikan performa tinggi untuk dataset kompleks.

## **b. Evaluasi Model Klasifikasi**

Berikut adalah **rekomendasi** tahapannya.
1. Lakukan prediksi menggunakan data uji.
2. Hitung metrik evaluasi seperti Accuracy dan F1-Score (Opsional: Precision dan Recall).
3. Buat confusion matrix untuk melihat detail prediksi benar dan salah.

In [5]:
# Prediksi menggunakan Logistic Regression
y_pred_logreg = logreg.predict(X_test)

# Evaluasi Logistic Regression
accuracy_logreg = accuracy_score(y_test, y_pred_logreg)
f1_logreg = f1_score(y_test, y_pred_logreg, average='weighted')

print("Logistic Regression:")
print(f"Accuracy: {accuracy_logreg:.2f}")
print(f"F1-Score: {f1_logreg:.2f}")
print("Confusion Matrix:")
print(confusion_matrix(y_test, y_pred_logreg))
print("Classification Report:")
print(classification_report(y_test, y_pred_logreg))

# Prediksi menggunakan Random Forest
y_pred_rf = rf.predict(X_test)

# Evaluasi Random Forest
accuracy_rf = accuracy_score(y_test, y_pred_rf)
f1_rf = f1_score(y_test, y_pred_rf, average='weighted')

print("\nRandom Forest:")
print(f"Accuracy: {accuracy_rf:.2f}")
print(f"F1-Score: {f1_rf:.2f}")
print("Confusion Matrix:")
print(confusion_matrix(y_test, y_pred_rf))
print("Classification Report:")
print(classification_report(y_test, y_pred_rf))

Logistic Regression:
Accuracy: 1.00
F1-Score: 1.00
Confusion Matrix:
[[ 85110      0      0]
 [     0 130041      0]
 [     0      0  84849]]
Classification Report:
              precision    recall  f1-score   support

           0       1.00      1.00      1.00     85110
           1       1.00      1.00      1.00    130041
           2       1.00      1.00      1.00     84849

    accuracy                           1.00    300000
   macro avg       1.00      1.00      1.00    300000
weighted avg       1.00      1.00      1.00    300000


Random Forest:
Accuracy: 1.00
F1-Score: 1.00
Confusion Matrix:
[[ 85110      0      0]
 [     0 130041      0]
 [     0      0  84849]]
Classification Report:
              precision    recall  f1-score   support

           0       1.00      1.00      1.00     85110
           1       1.00      1.00      1.00    130041
           2       1.00      1.00      1.00     84849

    accuracy                           1.00    300000
   macro avg       1.0

**Hasil Evaluasi Logistic Regression**
1. Accuracy: 1.00 (100%)
- Semua prediksi model benar pada data uji.

2. F1-Score: 1.00 (100%)
- Kombinasi precision dan recall mencapai nilai sempurna.

3. Confusion Matrix:
- Tidak ada kesalahan klasifikasi. Semua sampel di setiap kelas terklasifikasi dengan benar.

4. Classification Report:
- Precision, Recall, dan F1-Score untuk setiap kelas (0, 1, 2) semuanya adalah 1.00.

**Hasil Evaluasi Random Forest**
1. Accuracy: 1.00 (100%)
- Sama seperti Logistic Regression, semua prediksi benar pada data uji.

2. F1-Score: 1.00 (100%)
- Sama seperti Logistic Regression, model ini juga sempurna dalam menggabungkan precision dan recall.

3. Confusion Matrix:
- Tidak ada kesalahan klasifikasi. Sama dengan Logistic Regression.

4. Classification Report:
- Sama seperti Logistic Regression, precision, recall, dan F1-Score untuk setiap kelas adalah 1.00.

**Perbandingan Hasil**
1. Akurasi:
- Logistic Regression dan Random Forest keduanya mencapai akurasi sempurna (100%).

2. F1-Score:
- Logistic Regression dan Random Forest sama-sama memiliki F1-Score sempurna (1.00).

3. Kesamaan Hasil:
- Kedua model menunjukkan performa identik pada data uji. Tidak ada kesalahan prediksi dalam confusion matrix, sehingga precision, recall, dan F1-Score semuanya bernilai sempurna.

4. Kesimpulan:
- Berdasarkan evaluasi, kedua model memberikan hasil yang identik dan sempurna untuk dataset ini. Tidak ada perbedaan signifikan dalam performa kedua model, sehingga pemilihan model dapat didasarkan pada preferensi penggunaan atau kompleksitas komputasi (Logistic Regression lebih sederhana dibanding Random Forest).

## **c. Analisis Hasil Evaluasi Model Klasifikasi**

### **1. Perbandingan Hasil Evaluasi**
Saya telah mengevaluasi dua model yang telah dilatih, yaitu Logistic Regression dan Random Forest. Dari hasil evaluasi, keduanya menunjukkan performa yang luar biasa dengan akurasi dan F1-Score yang sama-sama mencapai 100%. Ini berarti kedua model mampu memprediksi semua data uji dengan sangat akurat tanpa kesalahan.

Kedua model memberikan hasil yang identik, sehingga dalam kasus ini, baik Logistic Regression maupun Random Forest sama-sama bisa digunakan.

---

### **2. Identifikasi Kelemahan Model**
Setelah mengevaluasi hasil prediksi, saya tidak menemukan kelemahan yang signifikan dari kedua model. Berikut adalah beberapa poin yang mendukung kesimpulan ini:
- Precision dan Recall untuk setiap kelas mencapai nilai sempurna (1.00). Artinya, model mampu memprediksi setiap kelas dengan sangat baik tanpa bias terhadap salah satu kelas tertentu.
- Tidak ada indikasi overfitting atau underfitting karena performa model pada data uji sangat konsisten dengan data latih.

Namun, karena dataset ini memiliki pola yang relatif jelas (berdasarkan evaluasi clustering sebelumnya), hasil sempurna ini mungkin dipengaruhi oleh struktur data yang sudah sangat terdefinisi.

---

### **3. Rekomendasi Tindakan Lanjutan**
Meskipun model sudah memberikan hasil yang sempurna, saya merekomendasikan beberapa langkah berikut untuk memastikan model tetap andal di berbagai situasi:
1. **Uji Model pada Dataset Baru**:
   - Untuk memastikan generalisasi, model ini sebaiknya diuji pada dataset baru yang memiliki karakteristik serupa. Hal ini penting untuk mengetahui apakah model tetap bekerja optimal di luar dataset ini.
2. **Eksplorasi Algoritma Lain**:
   - Walaupun hasil Logistic Regression dan Random Forest sudah sempurna, mencoba algoritma lain seperti Gradient Boosting atau Support Vector Machine dapat memberikan perspektif baru terhadap dataset ini.
3. **Pengumpulan Data Tambahan**:
   - Jika memungkinkan, mengumpulkan data tambahan dengan karakteristik yang lebih bervariasi bisa membantu meningkatkan ketahanan model terhadap data yang tidak terduga.
4. **Implementasi dan Deployment**:
   - Langkah selanjutnya adalah mengimplementasikan model ini dalam lingkungan produksi. Pastikan model terus dipantau performanya, terutama jika digunakan pada data real-time.

---

### **Kesimpulan**
Dari analisis yang saya lakukan, saya yakin bahwa kedua model ini sudah sangat baik dan siap digunakan. Logistic Regression menawarkan pendekatan yang lebih sederhana, sedangkan Random Forest bisa menjadi pilihan jika ada kebutuhan untuk menangani dataset yang lebih kompleks.