## Pengujian hasil model

Disini kita akan menguji model yang telah kita simpan sebelumnya dengan mengidentifikasi segmen mana pelanggan baru dengan cepat.

```r
# Pembuatan variabel baru yang tidak ada hubungan dengan variabel sebelumnya
databaru <- data.frame(Customer_ID="CUST-100", 
  Nama.Pelanggan="Rudi Wilamar", Umur=20, Jenis.Kelamin="Wanita", 
  Profesi="Pelajar", Tipe.Residen="Cluster", NilaiBelanjaSetahun=3.5)
databaru
```

In [None]:
# Silahkan coba disini
databaru <- data.frame(Customer_ID="CUST-100", 
  Nama.Pelanggan="Rudi Wilamar", Umur=20, Jenis.Kelamin="Wanita", 
  Profesi="Pelajar", Tipe.Residen="Cluster", NilaiBelanjaSetahun=3.5)
databaru

Customer_ID,Nama.Pelanggan,Umur,Jenis.Kelamin,Profesi,Tipe.Residen,NilaiBelanjaSetahun
<chr>,<chr>,<dbl>,<chr>,<chr>,<chr>,<dbl>
CUST-100,Rudi Wilamar,20,Wanita,Pelajar,Cluster,3.5


Disini kita akan memuat dokumen yang telah tersimpan sebelumnya

```r
# Pemanggilan model yang telah dibuat
Identitas.Cluster <- readRDS(file="cluster.rds")
Identitas.Cluster
```

In [None]:
# Silahkan coba disini
Identitas.Cluster <- readRDS(file="cluster.rds")
Identitas.Cluster

$Profesi
            Profesi Profesi.1
1        Wiraswasta         5
2           Pelajar         3
3      Professional         4
17 Ibu Rumah Tangga         1
31        Mahasiswa         2

$Jenis.Kelamin
  Jenis.Kelamin Jenis.Kelamin.1
1          Pria               1
2        Wanita               2

$Tipe.Residen
  Tipe.Residen Tipe.Residen.1
1       Sector              2
2      Cluster              1

$Segmentasi
K-means clustering with 5 clusters of sizes 5, 12, 14, 9, 10

Cluster means:
  Jenis.Kelamin.1     Umur Profesi.1 Tipe.Residen.1 NilaiBelanjaSetahun
1            1.40 61.80000  4.200000       1.400000            8.696132
2            1.75 31.58333  3.916667       1.250000            7.330958
3            2.00 20.07143  3.571429       1.357143            5.901089
4            2.00 42.33333  4.000000       1.555556            8.804791
5            1.70 52.50000  3.800000       1.300000            6.018321

Clustering vector:
 [1] 1 3 5 5 4 3 1 5 2 2 5 5 1 1 3 2 2 1 2 3 4 5 2 4

Disini kita akan melakukan pemetaan dummy yang digunakan sebelumnya

```r
# Pemanggilan model yang dibuat
databaru <- merge(databaru, Identitas.Cluster$Profesi)
databaru <- merge(databaru, Identitas.Cluster$Jenis.Kelamin)
databaru <- merge(databaru, Identitas.Cluster$Tipe.Residen)
databaru
```

Kita akan bisa mencari segmen pelanggannya dengan data numerik hasil penggabungan. Cara menggabungkannya adalah dengan menggunakan function merge, dimana kedua data akan digabungkan dengan mencari persamaan nama kolom dan isinya.

In [None]:
# Silahkan coba disini
databaru <- merge(databaru, Identitas.Cluster$Profesi)
databaru <- merge(databaru, Identitas.Cluster$Jenis.Kelamin)
databaru <- merge(databaru, Identitas.Cluster$Tipe.Residen)
databaru

Tipe.Residen,Tipe.Residen.1,Jenis.Kelamin,Jenis.Kelamin.1,Profesi,Profesi.1,Customer_ID,Nama.Pelanggan,Umur,NilaiBelanjaSetahun
<chr>,<int>,<chr>,<int>,<chr>,<int>,<chr>,<chr>,<dbl>,<dbl>
Cluster,1,Wanita,2,Pelajar,3,CUST-100,Rudi Wilamar,20,3.5


Disini kita akan memuat cluster data yang kita gunakan dengan tahapan sebagai berikut:
1. mencari jarak kuadrat minimum atau terdekat
2. dari kolom numerik data baru tersebut
3. ke centroid kolom terkait
4. dari seluruh cluster yang ada

```r
# Pemuatan cluster
Identitas.Cluster$Segmen.Pelanggan[which.min(sapply( 1:5, function( x ) sum( ( databaru[Identitas.Cluster$field_yang_digunakan] - Identitas.Cluster$Segmentasi$centers[x,])^2 ))),]
```

Adapun parameter sebagai berikut:
1. **min**: merupakan function untuk mencari nilai minimum
2. **1:5**: adalah range nomor cluster dari 1 sampai dengan 5 (atau lebih sesuai dengan ukuran cluster)
3. **sapply**: digunakan untuk melakukan iterasi berdasarkan range (dalam kasus ini 1 s/d 5)
4. **function(x)**: digunakan untuk proses dengan x diisi 1 s/d 5 per proses
5. **(data[kolom] – objekkmeans$centers[x,]) ^2**: adalah jarak kuadrat data. Ingat centers adalah komponen dari objek kmeans.
6. **sum**: digunakan untuk menjumlahkan jarak kuadrat

In [None]:
databaru

Tipe.Residen,Tipe.Residen.1,Jenis.Kelamin,Jenis.Kelamin.1,Profesi,Profesi.1,Customer_ID,Nama.Pelanggan,Umur,NilaiBelanjaSetahun
<chr>,<int>,<chr>,<int>,<chr>,<int>,<chr>,<chr>,<dbl>,<dbl>
Cluster,1,Wanita,2,Pelajar,3,CUST-100,Rudi Wilamar,20,3.5


alasannya adalah karena umurnya rata-rata adalah 20, wanita semua, profesinya bercampur antar pelajar dan professional serta pembelanjaan sekitar 6 juta.

In [None]:
# Silahkan coba disini
Identitas.Cluster$Segmen.Pelanggan[which.min(sapply( 1:5, function( x ) sum( ( databaru[Identitas.Cluster$field_yang_digunakan] - Identitas.Cluster$Segmentasi$centers[x,])^2 ))),]

Unnamed: 0_level_0,cluster,Nama.Segmen
Unnamed: 0_level_1,<dbl>,<chr>
3,3,Silver Youth Gals


Recap:

Perlu diingat bahwa K-Means bukan satu-satunya algoritma clustering, masih banyak algoritma lain seperti Hierarchical Clustering, Parallelized Hierarchical Clustering, dan lain-lain.

Dan setiap algoritma juga memiliki kekurangan dan kelebihan masing-masing. Namun pengetahuan dasar dengan berangkat dari satu algoritma yang populer dan menuntaskannya pastinya akan menjadi bekal berharga.