In [5]:
import pandas as pd
from sklearn.cluster import KMeans
from sklearn.metrics import silhouette_score
from sklearn.preprocessing import StandardScaler

# Import Dataset
data = pd.read_csv('Sales_Transactions_Dataset_Weekly.csv')

# Pemrosesan Data
# Hanya menggunakan kolom 'W0' hingga 'W51' untuk clustering
weekly_sales_data = data.filter(regex='^W[0-9]+', axis=1)

# Normalisasi data untuk meningkatkan performa K-Means
scaler = StandardScaler()
weekly_sales_normalized = scaler.fit_transform(weekly_sales_data)

# Pembuatan Model K-Means
# Menentukan jumlah cluster.
num_clusters = 2
kmeans = KMeans(n_clusters=num_clusters, random_state=42)
kmeans.fit(weekly_sales_normalized)

# Evaluasi Model
# Menggunakan Silhouette Score untuk mengevaluasi kualitas clustering
score = silhouette_score(weekly_sales_normalized, kmeans.labels_, metric='euclidean')

print(f'Silhouette Score: {score:.2f}')



Silhouette Score: 0.74


***Penjelasan Lengkap Code***

Impor Library yang Diperlukan:

pandas digunakan untuk memuat dan memanipulasi dataset.
KMeans dari sklearn.cluster digunakan untuk menerapkan algoritma K-Means untuk clustering.
silhouette_score dari sklearn.metrics digunakan untuk mengevaluasi kualitas clustering yang dihasilkan oleh model K-Means.
StandardScaler dari sklearn.preprocessing digunakan untuk menormalisasi data sebelum proses clustering. Normalisasi ini penting untuk memastikan bahwa setiap fitur memiliki bobot yang sama dalam proses clustering.
Impor Dataset:

Dataset Sales_Transactions_Dataset_Weekly.csv diimpor ke dalam pandas DataFrame. Dataset ini berisi data penjualan produk setiap minggu.
Pemrosesan Data:

Dari DataFrame yang diimpor, hanya kolom yang berisi data penjualan mingguan (W0 hingga W51) yang digunakan untuk proses clustering. Langkah ini memfokuskan analisis pada pola penjualan mingguan produk.
Normalisasi Data:

Data penjualan mingguan dinormalisasi menggunakan StandardScaler. Ini mengubah data sehingga setiap fitur memiliki rata-rata 0 dan standar deviasi 1. Normalisasi penting karena memastikan bahwa semua fitur diukur pada skala yang sama, sehingga menghindari bias yang disebabkan oleh perbedaan skala antar fitur.
Pembuatan Model K-Means:

Model K-Means dibuat dengan jumlah cluster yang ditentukan (num_clusters=2). Algoritma ini kemudian diterapkan pada data penjualan mingguan yang telah dinormalisasi. K-Means mencari untuk membagi data ke dalam num_clusters cluster dengan meminimalkan variasi dalam cluster dan memaksimalkan variasi antar cluster.
Evaluasi Model:

Kualitas clustering dievaluasi menggunakan silhouette_score, yang mengukur seberapa baik setiap titik data cocok dengan cluster-nya sendiri dibandingkan dengan cluster lain. Skor Silhouette berkisar dari -1 hingga 1, di mana nilai yang lebih tinggi menunjukkan pemisahan cluster yang lebih baik. Skor ini memberikan pandangan tentang seberapa baik model K-Means mengelompokkan data penjualan mingguan.
