# 1. Input Libraries
Pertama, library yang kita butuhkan pada studi kasus ini adalah Scikit-learn dan beberapa data acak untuk mengilutrasikan penjelasan sederhana pengelompokan K-means.

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt 
from pandas import read_csv, DataFrame
from sklearn.cluster import KMeans
from sklearn.preprocessing import MinMaxScaler

# 2. Masukkan Data yang Akan di Kelompokkan
Setelah mengimpor semua dependensi yang diperlukan, selanjutnya kita akan memuat dataset.

In [2]:
data = read_csv("dataset/kmeans.csv")
data.head()

Unnamed: 0,No,Matematika,Fisika,Kimia,Biologi,Sejarah,Akuntansi,Sosiologi,Geografi
0,1,79,75,75,85,76,78,76,80
1,2,84,76,79,77,76,77,75,81
2,3,77,84,78,85,92,89,77,82
3,4,78,86,84,77,78,77,75,75
4,5,82,82,81,91,90,82,79,91


# 3. Preprocessing data
Kita dapat melihat bahwa tidak semua nilai fitur bertipe sama. Untuk mempermudah perhitungan, kita akan mengumpankan semua data numerik ke model. Mari kita lihat tipe data dari berbagai fitur yang dimiliki:

In [3]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 12 entries, 0 to 11
Data columns (total 9 columns):
 #   Column      Non-Null Count  Dtype
---  ------      --------------  -----
 0   No          12 non-null     int64
 1   Matematika  12 non-null     int64
 2   Fisika      12 non-null     int64
 3   Kimia       12 non-null     int64
 4   Biologi     12 non-null     int64
 5   Sejarah     12 non-null     int64
 6   Akuntansi   12 non-null     int64
 7   Sosiologi   12 non-null     int64
 8   Geografi    12 non-null     int64
dtypes: int64(9)
memory usage: 992.0 bytes


Selanjutnya ubahlah variabel menjadi array

In [4]:
x_array = np.array(data)
print(x_array)

[[ 1 79 75 75 85 76 78 76 80]
 [ 2 84 76 79 77 76 77 75 81]
 [ 3 77 84 78 85 92 89 77 82]
 [ 4 78 86 84 77 78 77 75 75]
 [ 5 82 82 81 91 90 82 79 91]
 [ 6 75 75 70 82 75 75 79 75]
 [ 7 77 75 75 89 80 80 75 75]
 [ 8 77 76 70 77 77 80 75 80]
 [ 9 79 76 75 84 77 81 76 77]
 [10 80 75 75 75 75 78 77 79]
 [11 76 71 75 75 77 81 79 84]
 [12 80 77 75 78 78 77 77 80]]


# 4. Buat Cluster
Lalu untuk membuat data nya kembali seperti jenis data diawal sebelum di arry kan, perlu di standarisasikan ukuran variabelnya

In [5]:
scaler = MinMaxScaler()
x_scaled = scaler.fit_transform(x_array)
x_scaled

array([[0.        , 0.44444444, 0.26666667, 0.35714286, 0.625     ,
        0.05882353, 0.21428571, 0.25      , 0.3125    ],
       [0.09090909, 1.        , 0.33333333, 0.64285714, 0.125     ,
        0.05882353, 0.14285714, 0.        , 0.375     ],
       [0.18181818, 0.22222222, 0.86666667, 0.57142857, 0.625     ,
        1.        , 1.        , 0.5       , 0.4375    ],
       [0.27272727, 0.33333333, 1.        , 1.        , 0.125     ,
        0.17647059, 0.14285714, 0.        , 0.        ],
       [0.36363636, 0.77777778, 0.73333333, 0.78571429, 1.        ,
        0.88235294, 0.5       , 1.        , 1.        ],
       [0.45454545, 0.        , 0.26666667, 0.        , 0.4375    ,
        0.        , 0.        , 1.        , 0.        ],
       [0.54545455, 0.22222222, 0.26666667, 0.35714286, 0.875     ,
        0.29411765, 0.35714286, 0.        , 0.        ],
       [0.63636364, 0.22222222, 0.33333333, 0.        , 0.125     ,
        0.11764706, 0.35714286, 0.        , 0.3125    ],


Nah, baru kita bisa menentukan nilai K nya dimana, nilai K (n_clusters) atau nilai arbiter bebas ditentukan dalam artian tergantung kepada peneliti. Pada studi kasus ritel cola ini, kita akan menggunakan nilai K sebesar 2 cluster.

In [6]:
# Menentukan dan mengkonfigurasi fungsi kmeans
kmeans = KMeans(n_clusters = 2, random_state=123)
# Menentukan kluster dari data
kmeans.fit(x_scaled)

KMeans(algorithm='auto', copy_x=True, init='k-means++', max_iter=300,
       n_clusters=2, n_init=10, n_jobs=None, precompute_distances='auto',
       random_state=123, tol=0.0001, verbose=0)

In [7]:
# Menampilkan pusat cluster
np.array(kmeans.cluster_centers_)

array([[0.27272727, 0.5       , 0.8       , 0.67857143, 0.8125    ,
        0.94117647, 0.75      , 0.75      , 0.71875   ],
       [0.54545455, 0.38888889, 0.34666667, 0.37857143, 0.30625   ,
        0.11176471, 0.24285714, 0.35      , 0.225     ]])

Kemudian tampilkan hasil kluster mu dan tambahkan kolom klusteran mu kedalam data frame.

In [8]:
# Menampilkan hasil kluster
print(kmeans.labels_)
# Menambahkan kolom "kluster" dalam data frame ritel
data["kluster"] = kmeans.labels_
data

[1 1 0 1 0 1 1 1 1 1 1 1]


Unnamed: 0,No,Matematika,Fisika,Kimia,Biologi,Sejarah,Akuntansi,Sosiologi,Geografi,kluster
0,1,79,75,75,85,76,78,76,80,1
1,2,84,76,79,77,76,77,75,81,1
2,3,77,84,78,85,92,89,77,82,0
3,4,78,86,84,77,78,77,75,75,1
4,5,82,82,81,91,90,82,79,91,0
5,6,75,75,70,82,75,75,79,75,1
6,7,77,75,75,89,80,80,75,75,1
7,8,77,76,70,77,77,80,75,80,1
8,9,79,76,75,84,77,81,76,77,1
9,10,80,75,75,75,75,78,77,79,1
