# **1. Import Library**

Pada tahap ini, Anda perlu mengimpor beberapa pustaka (library) Python yang dibutuhkan untuk analisis data dan pembangunan model machine learning.

In [1]:
# Import library untuk analisis data dan visualisasi
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# Import library untuk klasifikasi dan evaluasi
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import accuracy_score, f1_score, confusion_matrix, classification_report

# Import algoritma klasifikasi
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import GridSearchCV

# Mengabaikan peringatan
import warnings
warnings.filterwarnings("ignore")

# **2. Memuat Dataset dari Hasil Clustering**

Memuat dataset hasil clustering dari file CSV ke dalam variabel DataFrame.

In [4]:
# Memuat dataset hasil clustering
df = pd.read_csv("Dataset_Inisiasi.csv")

In [5]:
# Melihat beberapa data teratas
print("Data teratas:")
print(df.head())

Data teratas:
   Customer_Type  Category  Unit_Price    Quantity     Region  Cluster
0       1.156709  2.741392   20.566091  313.034490  76.380133        0
1       1.156709  4.904584    7.581608  358.311141  62.611058        0
2       1.156709  2.741392   18.883890   64.012908  48.841983        0
3       1.156709  2.741392   19.514715  313.034490  25.893525        0
4       1.156709  4.904584    7.844452  245.119513  21.303833        0


In [6]:
# Mengecek informasi dataset
print("\nInformasi dataset:")
print(df.info())


Informasi dataset:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 86546 entries, 0 to 86545
Data columns (total 6 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   Customer_Type  86546 non-null  float64
 1   Category       86546 non-null  float64
 2   Unit_Price     86546 non-null  float64
 3   Quantity       86546 non-null  float64
 4   Region         86546 non-null  float64
 5   Cluster        86546 non-null  int64  
dtypes: float64(5), int64(1)
memory usage: 4.0 MB
None


# **3. Data Splitting**

Tahap Data Splitting bertujuan untuk memisahkan dataset menjadi dua bagian: data latih (training set) dan data uji (test set).

In [18]:
# Hapus duplikasi pada seluruh dataset sebelum melakukan split
unique_data = combined_data.drop_duplicates()

In [19]:
# Pisahkan kembali fitur dan label
X = unique_data.drop(columns=['label'])
y = unique_data['label']

In [20]:
# Lakukan split ulang tanpa kebocoran data
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42, stratify=y)

print(f"Data latih: {X_train.shape[0]}")
print(f"Data uji: {X_test.shape[0]}")

Data latih: 41482
Data uji: 10371


In [21]:
# Verifikasi kembali kebocoran data
train_data = X_train.copy()
train_data['label'] = y_train
test_data = X_test.copy()
test_data['label'] = y_test

In [22]:
combined_data = pd.concat([train_data, test_data])
duplicates = combined_data.duplicated().sum()

In [23]:
print(f"Jumlah duplikasi setelah perbaikan: {duplicates}")

Jumlah duplikasi setelah perbaikan: 0


# **4. Membangun Model Klasifikasi**


## **a. Membangun Model Klasifikasi**

Setelah memilih algoritma klasifikasi yang sesuai, langkah selanjutnya adalah melatih model menggunakan data latih.

Berikut adalah rekomendasi tahapannya.
1. Pilih algoritma klasifikasi yang sesuai, seperti Logistic Regression, Decision Tree, Random Forest, atau K-Nearest Neighbors (KNN).
2. Latih model menggunakan data latih.

In [24]:
# Inisialisasi model Logistic Regression
logreg = LogisticRegression()

In [25]:
# Melatih model
logreg.fit(X_train, y_train)

In [26]:
# Melakukan prediksi pada data uji
y_pred_logreg = logreg.predict(X_test)

**Logistic Regression** digunakan karena cocok untuk klasifikasi biner atau multi-kelas sederhana.

Tulis narasi atau penjelasan algoritma yang Anda gunakan.

In [27]:
# Inisialisasi model Random Forest
rf = RandomForestClassifier(random_state=42)

In [28]:
# Melatih model
rf.fit(X_train, y_train)

In [29]:
# Melakukan prediksi pada data uji
y_pred_rf = rf.predict(X_test)

**Random Forest** digunakan karena mampu menangani data dengan fitur yang kompleks dan memiliki kemampuan generalisasi yang baik.

## **b. Evaluasi Model Klasifikasi**

Berikut adalah **rekomendasi** tahapannya.
1. Lakukan prediksi menggunakan data uji.
2. Hitung metrik evaluasi seperti Accuracy dan F1-Score (Opsional: Precision dan Recall).
3. Buat confusion matrix untuk melihat detail prediksi benar dan salah.

**Evaluasi Logistic Regression**

In [30]:
# Menghitung metrik evaluasi Logistic Regression
accuracy_logreg = accuracy_score(y_test, y_pred_logreg)
f1_logreg = f1_score(y_test, y_pred_logreg, average="weighted")
cm_logreg = confusion_matrix(y_test, y_pred_logreg)

print("\nLogistic Regression:")
print(f"Akurasi: {accuracy_logreg * 100:.2f}%")
print(f"F1-Score: {f1_logreg * 100:.2f}%")
print("Confusion Matrix:")
print(cm_logreg)
print("Classification Report:")
print(classification_report(y_test, y_pred_logreg))


Logistic Regression:
Akurasi: 99.94%
F1-Score: 99.94%
Confusion Matrix:
[[7533    6]
 [   0 2832]]
Classification Report:
              precision    recall  f1-score   support

           0       1.00      1.00      1.00      7539
           1       1.00      1.00      1.00      2832

    accuracy                           1.00     10371
   macro avg       1.00      1.00      1.00     10371
weighted avg       1.00      1.00      1.00     10371



**Analisis:**

- Logistic Regression menunjukkan akurasi yang sangat tinggi (99.94%) dengan F1-Score sebesar 99.94%, yang menunjukkan bahwa model mampu menangani kedua kelas dengan baik.
- Dari Confusion Matrix, hanya terdapat 6 kesalahan klasifikasi pada kelas 0, sedangkan kelas 1 diklasifikasikan dengan sempurna.
- Model ini memiliki Precision dan Recall mendekati 100% untuk kedua kelas, menunjukkan performa yang sangat baik dan seimbang.

**Evaluasi Random Forest**

In [31]:
# Menghitung metrik evaluasi Random Forest
accuracy_rf = accuracy_score(y_test, y_pred_rf)
f1_rf = f1_score(y_test, y_pred_rf, average="weighted")
cm_rf = confusion_matrix(y_test, y_pred_rf)

print("\nRandom Forest:")
print(f"Akurasi: {accuracy_rf * 100:.2f}%")
print(f"F1-Score: {f1_rf * 100:.2f}%")
print("Confusion Matrix:")
print(cm_rf)
print("Classification Report:")
print(classification_report(y_test, y_pred_rf))


Random Forest:
Akurasi: 100.00%
F1-Score: 100.00%
Confusion Matrix:
[[7539    0]
 [   0 2832]]
Classification Report:
              precision    recall  f1-score   support

           0       1.00      1.00      1.00      7539
           1       1.00      1.00      1.00      2832

    accuracy                           1.00     10371
   macro avg       1.00      1.00      1.00     10371
weighted avg       1.00      1.00      1.00     10371



**Analisis:**

- Random Forest mencapai akurasi sempurna (100%) dengan F1-Score sebesar 100%, menunjukkan tidak ada kesalahan klasifikasi pada kedua kelas.
- Dari Confusion Matrix, tidak ada kesalahan pada kelas 0 maupun 1.
- Precision dan Recall sama-sama 100% untuk kedua kelas, menunjukkan bahwa model ini sangat optimal dalam klasifikasi data.


Tulis hasil evaluasi algoritma yang digunakan, jika Anda menggunakan 2 algoritma, maka bandingkan hasilnya.

## **c. Tuning Model Klasifikasi (Optional)**

Gunakan GridSearchCV, RandomizedSearchCV, atau metode lainnya untuk mencari kombinasi hyperparameter terbaik

## **d. Evaluasi Model Klasifikasi setelah Tuning (Optional)**

Berikut adalah rekomendasi tahapannya.
1. Gunakan model dengan hyperparameter terbaik.
2. Hitung ulang metrik evaluasi untuk melihat apakah ada peningkatan performa.

## **e. Analisis Hasil Evaluasi Model Klasifikasi**

Berikut adalah **rekomendasi** tahapannya.
1. Bandingkan hasil evaluasi sebelum dan setelah tuning (jika dilakukan).
2. Identifikasi kelemahan model, seperti:
  - Precision atau Recall rendah untuk kelas tertentu.
  - Apakah model mengalami overfitting atau underfitting?
3. Berikan rekomendasi tindakan lanjutan, seperti mengumpulkan data tambahan atau mencoba algoritma lain jika hasil belum memuaskan.

# **Analisis Hasil Evaluasi Model Klasifikasi**

**1. Perbandingan Hasil Evaluasi**

- Berdasarkan hasil evaluasi model klasifikasi Logistic Regression dan Random Forest, kedua model menunjukkan performa yang sangat baik.

- Model Logistic Regression memiliki akurasi sebesar 99.94% dan F1-Score sebesar 99.94%. Terdapat sedikit kesalahan pada kelas 0, di mana ada 6 data yang salah prediksi sebagai kelas 1. Meskipun demikian, precision dan recall untuk kelas 1 tetap sempurna, menunjukkan bahwa model sangat baik dalam mengidentifikasi kelas positif.

- Model Random Forest mencapai akurasi sempurna sebesar 100%, dengan F1-Score sebesar 100%. Tidak ada kesalahan pada kedua kelas (kelas 0 dan kelas 1), sehingga precision dan recall juga mencapai 100%.

**2. Identifikasi Kelemahan Model**

- **Logistic Regression:** Model hampir sempurna, namun ada kesalahan pada prediksi kelas 0 sebanyak 6 data yang diprediksi sebagai kelas 1.
Kemungkinan penyebab kesalahan ini adalah kompleksitas data atau ada beberapa data yang memang sulit dibedakan dengan metode regresi logistik.

- **Random Forest:** Model ini menunjukkan hasil yang sempurna.Hal ini dapat mengindikasikan potensi overfitting, terutama jika model terlalu menghafal data pelatihan sehingga tidak dapat digeneralisasi dengan baik pada data baru.

**3. Overfitting atau Underfitting
Overfitting**

**-> Overfitting:**
- Pada model Random Forest, hasil yang sempurna pada data uji bisa menunjukkan adanya overfitting. Model mungkin terlalu menghafal data latih dan tidak cukup fleksibel saat digunakan pada data baru atau data dunia nyata.

- Pada model Logistic Regression, ada sedikit kesalahan prediksi, tetapi ini justru bisa menunjukkan bahwa model lebih generalisasi dibandingkan Random Forest.

**-> Underfitting:**

Tidak terdeteksi pada kedua model karena akurasi dan F1-Score yang sangat tinggi.

**4. Rekomendasi Tindakan Lanjutan**

**- Validasi Silang (Cross-Validation):**

Melakukan validasi silang dengan metode K-Fold Cross Validation untuk memastikan konsistensi dan robustness model pada berbagai pembagian data.

**- Uji pada Data Baru (Generalization):**

Mencoba uji model pada data baru atau data real untuk memastikan model tetap mempertahankan performa tinggi dan tidak hanya berfokus pada data latih.

**- Analisis Data Leakage:**

Memeriksa kembali dataset untuk memastikan tidak ada data leakage yang menyebabkan akurasi terlalu sempurna.
Pastikan bahwa tidak ada fitur yang secara langsung berkorelasi dengan label atau ada informasi masa depan yang digunakan dalam pelatihan.

**- Feature Selection atau Reduction:**

Mencoba melakukan feature selection atau dimensionality reduction seperti PCA (Principal Component Analysis) untuk mengurangi risiko overfitting.

**- Uji Model Lain:**

Selain Random Forest dan Logistic Regression, pertimbangkan untuk mencoba model lain seperti Gradient Boosting, XGBoost, atau model berbasis jaringan saraf (Neural Networks) untuk melihat apakah ada peningkatan performa atau generalisasi yang lebih baik.