<a href="https://colab.research.google.com/github/Loverzzz/E-commerceSales/blob/main/%5BKlasifikasi%5D_Submission_Akhir_BMLP_ReynaldoABT.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **1. Import Library**

Pada tahap ini, Anda perlu mengimpor beberapa pustaka (library) Python yang dibutuhkan untuk analisis data dan pembangunan model machine learning.

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, f1_score, confusion_matrix


# **2. Memuat Dataset dari Hasil Clustering**

Memuat dataset hasil clustering dari file CSV ke dalam variabel DataFrame.

In [2]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [3]:
# Memuat dataset hasil clustering
data = pd.read_csv('/content/drive/MyDrive/E-CommerceSales/clustered_data.csv')
print(data.head())

  InvoiceNo StockCode                       Description  Quantity  \
0    555200     71459    HANGING JAM JAR T-LIGHT HOLDER  0.250774   
1    554974     21128                GOLD FISHING GNOME -0.137302   
2    550972     21086       SET/6 RED SPOTTY PAPER CUPS -0.137302   
3    576652     22812  PACK 3 BOXES CHRISTMAS PANETTONE -0.156706   
4    546157     22180                    RETROSPOT LAMP -0.176110   

        InvoiceDate  UnitPrice  CustomerID  Country_Austria  Country_Bahrain  \
0    6/1/2011 12:05  -0.333980     17315.0            False            False   
1   5/27/2011 17:14   0.572147     14031.0            False            False   
2   4/21/2011 17:05  -0.363689     14031.0            False            False   
3  11/16/2011 10:39  -0.170580     17198.0            False            False   
4    3/10/2011 8:40   1.017783     13502.0            False            False   

   Country_Belgium  ...  Country_RSA  Country_Spain  Country_Sweden  \
0            False  ...        Fa

# **3. Data Splitting**

Tahap Data Splitting bertujuan untuk memisahkan dataset menjadi dua bagian: data latih (training set) dan data uji (test set).

In [6]:
# Memeriksa tipe data
print(X.dtypes)

# Mengonversi kolom kategorikal menjadi numerik
X = pd.get_dummies(X, drop_first=True)

# Memisahkan data menjadi data latih dan data uji
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)


InvoiceNo                   object
StockCode                   object
Description                 object
Quantity                   float64
InvoiceDate                 object
UnitPrice                  float64
CustomerID                 float64
Country_Austria               bool
Country_Bahrain               bool
Country_Belgium               bool
Country_Canada                bool
Country_Channel Islands       bool
Country_Cyprus                bool
Country_Denmark               bool
Country_EIRE                  bool
Country_Finland               bool
Country_France                bool
Country_Germany               bool
Country_Iceland               bool
Country_Italy                 bool
Country_Japan                 bool
Country_Netherlands           bool
Country_Norway                bool
Country_Poland                bool
Country_Portugal              bool
Country_RSA                   bool
Country_Spain                 bool
Country_Sweden                bool
Country_Switzerland 

# **4. Membangun Model Klasifikasi**


## **a. Membangun Model Klasifikasi**

Setelah memilih algoritma klasifikasi yang sesuai, langkah selanjutnya adalah melatih model menggunakan data latih.

Berikut adalah rekomendasi tahapannya.
1. Pilih algoritma klasifikasi yang sesuai, seperti Logistic Regression, Decision Tree, Random Forest, atau K-Nearest Neighbors (KNN).
2. Latih model menggunakan data latih.

In [7]:
# Membangun model klasifikasi menggunakan Random Forest
model = RandomForestClassifier(random_state=42)
model.fit(X_train, y_train)

Tulis narasi atau penjelasan algoritma yang Anda gunakan.

## **b. Evaluasi Model Klasifikasi**

Berikut adalah **rekomendasi** tahapannya.
1. Lakukan prediksi menggunakan data uji.
2. Hitung metrik evaluasi seperti Accuracy dan F1-Score (Opsional: Precision dan Recall).
3. Buat confusion matrix untuk melihat detail prediksi benar dan salah.

In [8]:
# Melakukan prediksi
y_pred = model.predict(X_test)

# Menghitung metrik evaluasi
accuracy = accuracy_score(y_test, y_pred)
f1 = f1_score(y_test, y_pred, average='weighted')

# Membuat confusion matrix
conf_matrix = confusion_matrix(y_test, y_pred)

print(f'Accuracy: {accuracy:.2f}')
print(f'F1 Score: {f1:.2f}')
print('Confusion Matrix:')
print(conf_matrix)

Accuracy: 1.00
F1 Score: 1.00
Confusion Matrix:
[[298]]




Tulis hasil evaluasi algoritma yang digunakan, jika Anda menggunakan 2 algoritma, maka bandingkan hasilnya.

## **c. Tuning Model Klasifikasi (Optional)**

Gunakan GridSearchCV, RandomizedSearchCV, atau metode lainnya untuk mencari kombinasi hyperparameter terbaik

In [9]:
from sklearn.model_selection import GridSearchCV

# Menentukan parameter untuk GridSearch
param_grid = {
    'n_estimators': [50, 100, 200],
    'max_depth': [None, 10, 20, 30],
}

grid_search = GridSearchCV(RandomForestClassifier(random_state=42), param_grid, cv=5)
grid_search.fit(X_train, y_train)

# Menampilkan hyperparameter terbaik
print(f'Best Hyperparameters: {grid_search.best_params_}')



Best Hyperparameters: {'max_depth': None, 'n_estimators': 50}


## **d. Evaluasi Model Klasifikasi setelah Tuning (Optional)**

Berikut adalah rekomendasi tahapannya.
1. Gunakan model dengan hyperparameter terbaik.
2. Hitung ulang metrik evaluasi untuk melihat apakah ada peningkatan performa.

In [10]:
# Menggunakan model terbaik
best_model = grid_search.best_estimator_
y_pred_best = best_model.predict(X_test)

# Menghitung metrik evaluasi
accuracy_best = accuracy_score(y_test, y_pred_best)
f1_best = f1_score(y_test, y_pred_best, average='weighted')

print(f'Accuracy after tuning: {accuracy_best:.2f}')
print(f'F1 Score after tuning: {f1_best:.2f}')

Accuracy after tuning: 1.00
F1 Score after tuning: 1.00


## **e. Analisis Hasil Evaluasi Model Klasifikasi**

Berikut adalah **rekomendasi** tahapannya.
1. Bandingkan hasil evaluasi sebelum dan setelah tuning (jika dilakukan).
2. Identifikasi kelemahan model, seperti:
  - Precision atau Recall rendah untuk kelas tertentu.
  - Apakah model mengalami overfitting atau underfitting?
3. Berikan rekomendasi tindakan lanjutan, seperti mengumpulkan data tambahan atau mencoba algoritma lain jika hasil belum memuaskan.

In [12]:
# 1.Bandingkan hasil
# Hasil sebelum tuning
print(f'Accuracy before tuning: {accuracy:.2f}')
print(f'F1 Score before tuning: {f1:.2f}')

# Hasil setelah tuning
print(f'Accuracy after tuning: {accuracy_best:.2f}')
print(f'F1 Score after tuning: {f1_best:.2f}')

print(f'Accuracy Improvement: {accuracy_best - accuracy:.2f}')
print(f'F1 Score Improvement: {f1_best - f1:.2f}')

Accuracy before tuning: 1.00
F1 Score before tuning: 1.00
Accuracy after tuning: 1.00
F1 Score after tuning: 1.00
Accuracy Improvement: 0.00
F1 Score Improvement: 0.00


In [13]:
# 2. Identifikasi Kelemahan Model
from sklearn.metrics import classification_report

print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       1.00      1.00      1.00       298

    accuracy                           1.00       298
   macro avg       1.00      1.00      1.00       298
weighted avg       1.00      1.00      1.00       298



Hasil Evaluasi

*   Precision: 1.00 untuk kelas 0, menunjukkan tidak ada false positive.
*   Recall: 1.00 untuk kelas 0, menunjukkan tidak ada false negative.
*   F1-Score: 1.00 untuk kelas 0, menunjukkan keseimbangan sempurna antara precision dan recall.
*   Support: 298, jumlah contoh dalam kelas 0 di dataset uji.
*   Akurasi: 1.00, berarti model memprediksi semua contoh dengan benar.

Identifikasi Kelemahan Model
*   Model mungkin tidak diuji pada data yang cukup beragam, sehingga tidak dapat
menangani kelas lain jika ada.
*   Penting untuk memeriksa performa model pada kelas-kelas lain jika tersedia.

Rekomendasi Tindakan Lanjutan
*   Uji dengan Data yang Beragam: Evaluasi model dengan data yang mencakup semua kelas relevan.
*   Kumpulkan Data Tambahan: Dapatkan lebih banyak data untuk kelas lain agar model dapat belajar dari variasi yang lebih luas.
*   Coba Algoritma Lain: Eksplorasi algoritma lain untuk hasil yang lebih baik atau lebih seimbang.
*   Tuning Hyperparameter: Lakukan tuning hyperparameter untuk meningkatkan performa model.
*   Feature Engineering: Tambahkan atau ubah fitur yang ada untuk meningkatkan kemampuan prediksi model.








