<img src="../images/ilmudatapy-logo.png" width="350" align="center">
<br>

<center><h1>Segmentasi Pelanggan dengan KMeans</h1></center>
<hr>

__Halo, Learners!__ Di notebook ini, kita akan mencoba melakukan segmentasi pelanggan dengan algoritma __K-Means__. Segmentasi pelanggan merupakan salah satu contoh kasus <i>clustering</i> yang termasuk ke dalam <i>unsupervised learning</i>. Kita juga akan belajar cara membuat visualisasi 3 dimensi dalam notebook ini.

<h2>Table of Contents</h2>
<div class="alert alert-block alert-info" style="margin-top: 25px">
    <ul>
        <li>
            K-Means
        </li>
        <li>
            Dataset
        </li>
        <li>
            Analisis dan visualisasi data
        </li>
        <li>
            Data Preparation / Preprocessing
            <ul>
                <li>Normalisasi</li>
            </ul>
        </li>
        <li>
            Modeling
            <ul>
                <li>Customer segmentation dengan K-Means</li>
                <li>Insight</li>
                <li>Visualisasi</li>
            </ul>
        </li>
    </ul>
</div>

<hr>
<div class="alert alert-success" style="margin-top: 20px">
    <strong>Catatan:</strong> Untuk menjalankan kode program Python di Jupyter Notebook, klik pada <i>cell</i> yang ingin di-<i>run</i> lalu tekan <kbd>Shift</kbd> + <kbd>Enter</kbd>.
</div>

<div class="alert alert-danger" style="margin-top: 20px">
    <strong>Warning!:</strong> Jika ada kode program yang <i>error</i> atau output yang dihasilkan tidak sesuai, silahkan <b>Restart & Run All</b> kernel pada bagian menu <b>Kernel</b> di menu bar Jupyter Notebook, atau <b>Restart & Clear Output</b> kernel kemudian jalankan satu per satu <i>cell</i> secara berurutan dari atas ke bawah.
</div>
<hr>

## K-Means

__K-Means__ adalah salah satu algoritma yang dapat digunakan untuk <i>unsupervised learning</i> seperti <i>clustering</i>. Algoritma ini berbasis <i>centroid</i> atau dapat dikatakan juga berbasis jarak, dimana tiap <i>cluster</i> memiliki <i>centriod</i> masing-masing sebagai pusatnya. K-Means meminimalkan jarak antara <i>data point</i> dengan pusat <i>cluster</i> masing-masing.

![alt text](../images/k-means.png)

Dari gambar ilustrasi di atas, titik yang berwarna hitam merupakan <i>centroid</i> dari masing-masing <i>cluster</i>.

<hr>

## Dataset

Dataset yang digunakan adalah dataset <a href='https://www.kaggle.com/arjunbhasin2013/ccdata'>Credit Card</a>. Dataset terdiri perilaku penggunaan kartu kredit dari 9000 pemegang kartu kredit. Dataset ini digunakan untuk membangun segmentasi pelanggan untuk menentukan strategi <i>marketing</i>.

__Dataset Information:__

* CUSTID : Identification of Credit Card holder (Categorical)
* BALANCE : Balance amount left in their account to make purchases 
* BALANCE_FREQUENCY : How frequently the Balance is updated, score between 0 and 1 (1 = frequently updated, 0 = not frequently updated)
* PURCHASES : Amount of purchases made from account
* ONEOFF_PURCHASES : Maximum purchase amount done in one-go
* INSTALLMENTS_PURCHASES : Amount of purchase done in installment
* CASH_ADVANCE : Cash in advance given by the user
* PURCHASES_FREQUENCY : How frequently the Purchases are being made, score between 0 and 1 (1 = frequently purchased, 0 = not frequently purchased)
* ONEOFF_PURCHASES_FREQUENCY : How frequently Purchases are happening in one-go (1 = frequently purchased, 0 = not frequently purchased)
* PURCHASES_INSTALLMENTS_FREQUENCY : How frequently purchases in installments are being done (1 = frequently done, 0 = not frequently done)
* CASH_ADVANCE_FREQUENCY : How frequently the cash in advance being paid
* CASH_ADVANCE_TRX : Number of Transactions made with "Cash in Advanced"
* PURCHASES_TRX : Numbe of purchase transactions made
* CREDIT_LIMIT : Limit of Credit Card for user
* PAYMENTS : Amount of Payment done by user
* MINIMUM_PAYMENTS : Minimum amount of payments made by user
* PRC_FULL_PAYMENT : Percent of full payment paid by user
* TENURE : Tenure of credit card service for user

Mari kita <i>import library</i> yang diperlukan.

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

%matplotlib inline

Selanjutnya <i>load</i> dataset dengan <code>read_csv()</code>.

In [None]:
# Load dataset

df = pd.read_csv('../datasets/credit-card-data.csv')
df.head(10)

<hr>

## Analisis dan visualisasi data

Mari kita eksplorasi dataframe <code>df</code>. Pertama kita dapat menampilkan deskripsi statistik dengan <code>describe()</code>.

In [None]:
# Menampilkan deskripsi statistik

df.describe()

Selanjutnya cek tipe data dengan <code>dtypes</code>.

In [None]:
# Cek tipe data

df.dtypes

Lalu kita tampilkan <i>countplot</i> untuk kolom <code>TENURE</code>.

In [None]:
# Countplot dari kolom 'TENURE'

sns.countplot(df['TENURE'], palette='Paired')

Untuk kolom numerik, mari kita tampilkan histogramnya untuk melihat distribusi data.

In [None]:
# Menampilkan histogram dari kolom fitur numerik

fig, ax = plt.subplots(ncols=4, nrows=4, figsize=(16, 10)) 

# Menambahkan subplot dengan indexing
ax0 = fig.add_subplot(ax[0,0]) 
ax1 = fig.add_subplot(ax[0,1])  
ax2 = fig.add_subplot(ax[0,2])  
ax3 = fig.add_subplot(ax[0,3]) 
ax4 = fig.add_subplot(ax[1,0])  
ax5 = fig.add_subplot(ax[1,1]) 
ax6 = fig.add_subplot(ax[1,2])
ax7 = fig.add_subplot(ax[1,3])

ax8 = fig.add_subplot(ax[2,0]) 
ax9 = fig.add_subplot(ax[2,1])  
ax10 = fig.add_subplot(ax[2,2])  
ax11 = fig.add_subplot(ax[2,3]) 
ax12 = fig.add_subplot(ax[3,0])  
ax13 = fig.add_subplot(ax[3,1]) 
ax14 = fig.add_subplot(ax[3,2])
ax15 = fig.add_subplot(ax[3,3])

df.hist(column='BALANCE', bins=50, ax=ax0)
df.hist(column='BALANCE_FREQUENCY', bins=10, ax=ax1)
df.hist(column='PURCHASES', bins=50, ax=ax2)
df.hist(column='ONEOFF_PURCHASES', bins=50, ax=ax3)
df.hist(column='INSTALLMENTS_PURCHASES', bins=50, ax=ax4)
df.hist(column='CASH_ADVANCE', bins=50, ax=ax5)
df.hist(column='PURCHASES_FREQUENCY', bins=10, ax=ax6)
df.hist(column='ONEOFF_PURCHASES_FREQUENCY', bins=10, ax=ax7)

df.hist(column='PURCHASES_INSTALLMENTS_FREQUENCY', bins=10, ax=ax8)
df.hist(column='CASH_ADVANCE_FREQUENCY', bins=10, ax=ax9)
df.hist(column='CASH_ADVANCE_TRX', bins=50, ax=ax10)
df.hist(column='PURCHASES_TRX', bins=50, ax=ax11)
df.hist(column='CREDIT_LIMIT', bins=50, ax=ax12)
df.hist(column='PAYMENTS', bins=50, ax=ax13)
df.hist(column='MINIMUM_PAYMENTS', bins=50, ax=ax14)
df.hist(column='PRC_FULL_PAYMENT', bins=10, ax=ax15)

plt.subplots_adjust(wspace=0.2, hspace=0.4)
plt.show()

Sekarang kita tampilkan korelasi antarkolom dengan <i>heatmap</i>.

In [None]:
# Menampilkan korelasi antarkolom dengan heatmap

plt.figure(figsize=(12,7))

corr = df.corr()
sns.heatmap(corr, annot=True, fmt='.2f')

<hr>

## Data Preparation

Dari dataframe <code>df</code>, kita akan menghapus kolom <code>CUST_ID</code> karena ID bukan merupakan fitur yang penting untuk pemodelan.

In [None]:
# Menghapus kolom 'CUST_ID'

df_cc = df.drop('CUST_ID', axis=1)
df_cc.head()

### Normalisasi

Kemudian kita lakukan normalisasi untuk dataframe <code>df_cc</code>.

In [None]:
from sklearn.preprocessing import StandardScaler

X = df_cc.values[:,:]
X = np.nan_to_num(X)

cc_norm = StandardScaler().fit_transform(X)
cc_norm

<hr>

## Modeling

### Customer segmentation dengan K-Means

Sekarang kita dapat menerapakan proses <i>modeling</i> dengan K-Means untuk segmentasi pelanggan. Disini kita akan mendefinisikan jumlah klasternya adalah 3.

In [None]:
from sklearn.cluster import KMeans

clusterNum = 3

k_means = KMeans(init = "k-means++", n_clusters = clusterNum, n_init = 12)
k_means.fit(X)

Setelah pemodelan, kita dapat menampilkan label klaster dengan atribut <code>.labels_</code>.

In [None]:
# Menampilkan label klaster

k_means_labels = k_means.labels_
k_means_labels

Kemudian, kita dapat menampilkan <i>cluster center</i> dengan atribut <code>.cluster_centers_</code>. Outputnya adalah berupa array (n_cluster, n_features).

In [None]:
# Menampilkan cluster centers

k_means_cluster_centers = k_means.cluster_centers_
k_means_cluster_centers

### Insight

Sekarang mari kita masukkan label klaster ke dalam dataframe <code>df</code>.

In [None]:
# Memasukkan label ke dalam dataframe

df['CLUSTER'] = k_means_labels
df.head(5)

Selanjutnya mari kita cek jumlah data pada masing-masing klaster.

In [None]:
# Jumlah data pada tiap klaster

df['CLUSTER'].value_counts()

Kita dapat menampilkan nilai <i>centroid</i> dengan merata-ratakan nilai fitur pada tiap klaster.

In [None]:
# Mengecek centroid

df.groupby('CLUSTER').mean()

### Visualisasi

Mari kita visualisasikan klaster dengan <i>scatter plot</i>.

In [None]:
# Visualisasi klaster

plt.figure(figsize=(12,8))

area = df['CREDIT_LIMIT']/50
plt.scatter(df['BALANCE'], df['PAYMENTS'], s=area, c=df['CLUSTER'], cmap='coolwarm', alpha=0.7)
plt.xlabel('Balance', fontsize=18)
plt.ylabel('Payments', fontsize=16)

plt.show()

Kita juga dapat membuat visualisasi 3D dengan <code>Axes3D</code> dari <code>mpl_toolkits.mplot3d</code> seperti di bawah ini.

In [None]:
from mpl_toolkits.mplot3d import Axes3D 

fig = plt.figure(1, figsize=(8, 6))
plt.clf()
ax = Axes3D(fig, rect=[0, 0, .95, 1], elev=48, azim=134)

plt.cla()
ax.set_xlabel('PURCHASES')
ax.set_ylabel('BALANCE')
ax.set_zlabel('PURCHASES_TRX')

ax.scatter(df['PURCHASES'], df['BALANCE'], df['PURCHASES_TRX'], c=df['CLUSTER'], cmap='coolwarm')


Dari hasil di atas, dapat kita simpulkan untuk masing-masing klaster (0, 1, dan 2)

* __Klaster 0 (Biru) :__ Bersaldo rendah serta sedikit melakukan pembelian dan memiliki jumlah total pengeluaran untuk pembelian yang juga rendah.
* __Klaster 1 (Abu-abu) :__  Bersaldo sedang hingga tingi, intensitas pembelian dari rendah hingga sedang, dan total pengeluaran untuk pembelian juga dari rendah hingga sedang.
* __Klaster 2 (Merah) :__  Saldo, jumlah pembelian, dan total pengeluaran dapat dikatakan dari level sedang hingga tinggi.

Definisi tiap klaster bisa berbeda tergantung pada variabel apa yang ingin kita lihat. Anda dapat mendefinisikannya sendiri.

<hr>

Copyright @ <a href="https://ilmudatapy.com/">ilmudatapy.com</a>