# Latar Belakang

Bank adalah lembaga keuangan yang usaha pokoknya adalah menghimpun dana dari masyarakat dan menyalurkan kembali dana tersebut ke masyarakat serta memberikan jasanya dalam lalulintas pembayaran dan peredaran uang. Pada umumnya Bank dikenal sebagai lembaga keuangan yang kegiatan utamanya menerima simpanan, giro, tabungan dan deposito. Kemudian bank dikenal juga sebagai tempat untuk meminjam uang (kredit) bagi masyarakat yang membutuhkannya. Dengan adanya lembaga keuangan maupun non keuangan yang menjadi pilar perekonomian di Indonesia menjadikan banyak lembaga keuangan yang tumbuh didaerah daerah. Bank Perkreditan 
Rakyat merupakan salah satu lembaga keuangan yang ada di Indonesia.

Persaingan antar-bank saat ini menjadi sangat tinggi membuat setiap perusahaan harus memiliki strategi pemasaran produk perbankannya. Segmentasi pasar adalah salah satu strategi dalam dunia bisnis dengan mengelompokkan produk yang dimiliki sesuai dengan kesamaan, kemiripan, minat serta kebutuhan pelanggan. n. Alternatif strategi terhadap kegiatan pemasaran yang dilakukan sangat diperlukan agar perusahaan semakin tumbuh dan berkembang. Strategi pemasaran yang tepat dengan menetapkan segementasi pasar yang sesuai sasaran akan mempengaruhi pertumbuhan kreditnya.

**Objektif** dari project ini adalah mengelompokkan pengguna kartu kredit berdasarkan karakteristik teretntu ke dalam beberapa klaster.

# Dataset

Dataset pada project ini menggunakan credit card dataset pada kaggle https://www.kaggle.com/arjunbhasin2013/ccdata. Data ini berisi transaksi pengguna kartu kredit sebanyak 9000 orang selama 6 bulan. Data ini memiliki 18 atribut yaitu
1. CUSTID - Identification of Credit Card holder (Categorical)
2. BALANCE - Balance amount left in their account to make purchases
3. BALANCEFREQUENCY - How frequently the Balance is updated, score between 0 and 1 (1 = frequently updated, 0 = not frequently updated)
4. PURCHASES - Amount of purchases made from account
5. ONEOFFPURCHASES - Maximum purchase amount done in one-go
6. INSTALLMENTSPURCHASES - Amount of purchase done in installment
7. CASHADVANCE - Cash in advance given by the user
8. PURCHASESFREQUENCY - How frequently the Purchases are being made, score between 0 and 1 (1 = frequently purchased, 0 = not frequently purchased)
9. ONEOFFPURCHASESFREQUENCY - How frequently Purchases are happening in one-go (1 = frequently purchased, 0 = not frequently purchased)
10. PURCHASESINSTALLMENTSFREQUENCY - How frequently purchases in installments are being done (1 = frequently done, 0 = not frequently done)
11. CASHADVANCEFREQUENCY - How frequently the cash in advance being paid
12. CASHADVANCETRX - Number of Transactions made with "Cash in Advance"
13. PURCHASESTRX - Number of purchase transactions made
14. CREDITLIMIT - Limit of Credit Card for user
15. PAYMENTS - Amount of Payment done by user
16. MINIMUM_PAYMENTS - Minimum amount of payments made by user
17. PRCFULLPAYMENT - Percent of full payment paid by user
18. TENURE - Tenure of credit card service for user

# Import Library

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

from sklearn.preprocessing import StandardScaler, normalize
from sklearn.cluster import KMeans
from sklearn_extra.cluster import KMedoids
from sklearn.metrics import silhouette_score

import pickle

ModuleNotFoundError: No module named 'sklearn_extra'

# Data Loading

In [None]:
df = pd.read_csv("Dataset/CC-GENERAL.csv")

Melihat 5 data teratas

In [None]:
df.head()

Melihat 5 data terbawah

In [None]:
df.tail()

> Terlihat bahwa dalam dataset terdapat missing value

In [None]:
print("Terdapat", df.shape[0], "baris dan", df.shape[1], "kolom dalam dataset")
print("Kolom : " , df.columns)

> Dalam dataset ini terdapat 8950 baris dan 18 kolom

Melihat informasi dalam dataset

In [None]:
df.info()

> Dalam dataset ini terdapat variabel kategorik yaitu object (CUST_ID) dan numerik yaitu float64 dan int64, dan terdapat nilai yang hilang karena jumlah non-null tidak sesuai dengan jumlah entri.
- int64 : CASH_ADVANCE_TRX, PURCHASES_TRX, TENURE
- float64 : Kolom yang tidak termasuk kedalam int64 merupakan tipe data float.

Melihat kolom unik dalam dataset

In [None]:
kolom_unik = df.nunique().sort_values(ascending=False)
kolom_unik = pd.DataFrame(kolom_unik, columns = ["Kolom Unik"])
kolom_unik

Melihat Missing value pada dataset

In [None]:
df_null = round(100*(df.isnull().sum())/len(df), 2).sort_values(ascending=False)
df_null = pd.DataFrame(df_null, columns = ["Missing Values"])
df_null

> Terlihat bahwa terdapat dua kolom dengan missing value yaitu **MINIMUM_PAYMENTS** & **CREDIT_LIMIT**

Melihat statistik deskriptif

In [None]:
df.describe()

# Data Cleaning

### Mengecek data duplikat

In [None]:
df.duplicated().any()

In [None]:
df.duplicated().sum()

> Tidak ada duplikat data

### Menangani missing value

In [None]:
df['MINIMUM_PAYMENTS'].fillna(df['MINIMUM_PAYMENTS'].mean(),inplace=True)
df['CREDIT_LIMIT'].fillna(df['CREDIT_LIMIT'].mean(),inplace=True)

In [None]:
df_null = round(100*(df.isnull().sum())/len(df), 2).sort_values(ascending=False)
df_null = pd.DataFrame(df_null, columns = ["Missing Values"])
df_null

> sudah tidak ada missing value

# Exploratory data analysis

### Melihat statistik deskriptif pada dataset

In [None]:
df.describe().T

> Terlihat bahwa dalam dataset:
>    1. Saldo/Balance rata-rata yaitu 1564 dan saldo maksimal yaitu  19043.
>    2. Saldo yang diperbarui memiliki skor rata-rata 0,87
>    3. Pembelian/Purchases dengan maksimal 49039
>    4. Credit limit dengan minimal 50 dan maksimal 30000
>    5. Payments rata-rata yairu 1733.

### Correlation Matrix

In [None]:
df.corr()

In [None]:
plt.figure(figsize=(13, 13))
heatmap = sns.heatmap(df.corr(), annot=True, cmap='PiYG')
heatmap.set_title('Correlation Heatmap', fontdict={'fontsize':18}, pad=12);

> Dalam heatmap tersebut, terlihat bahwa terdapat kolerasi yang cukup tinggi antar kolom
> - PURCHASES dan ONEOFF_PURCHASES
> - PURCHASES_FREQUENCY dan PURCHASES_INSTALLMENTS_FREQUENCY
> - CASH_ADVANCE_FREQUENCY dan CASH_ADVANCE_TRX

# Data Preprocessing

In [None]:
df.drop(['CUST_ID','PURCHASES_INSTALLMENTS_FREQUENCY','CASH_ADVANCE_TRX','ONEOFF_PURCHASES'], axis=1, inplace=True)

In [None]:
df.sample(5)

In [None]:
# Standardize data
scaler = StandardScaler() 
scaled = scaler.fit_transform(df) 

In [None]:
# Statistics of scaled data
scaled_df = pd.DataFrame(scaled, columns=df.columns)
scaled_df.head()

In [None]:
# Normalizing the Data 
normalized_df = normalize(scaled_df) 

In [None]:
normalized_df = pd.DataFrame(normalized_df,columns = df.columns)
normalized_df.head()

# Modeling

### Menentukan Jumlah Klaster Optimal menggunakan Metode Kurva Elbow

In [None]:
inertia = []

for i in range(1, 10):
    model = KMeans(n_clusters=i, random_state=42)
    model.fit(normalized_df)
    inertia.append(model.inertia_)
    
inertia_df = pd.DataFrame({'Inertia':inertia}, index=[i for i in range(1, 10)])
inertia_df

In [None]:
# fitting multiple k-means algorithms and storing the values in an empty list 
SSE = []
for cluster in range(1,10):
    kmeans = KMeans( n_clusters = cluster, init='k-means++')
    kmeans.fit(normalized_df)
    SSE.append(kmeans.inertia_)

# Converting the results into a dataframe and plotting them
frame = pd.DataFrame({'Cluster':range(1,10), 'SSE':SSE})
plt.figure()
plt.plot(frame['Cluster'], frame['SSE'], marker='o')
plt.xlabel('Number of clusters')
plt.ylabel('Intertia')

> Berdasarkan plot di atas, dapat dilihat secara grafis bahwa klaster berjumlah 4 adalah yang paling optimal

### K-Means

In [None]:
kmeans = KMeans(n_clusters=4, init='k-means++')
model1 = kmeans.fit(normalized_df)
label = kmeans.predict(normalized_df)

### K-Medoids

In [None]:
kmedoids = KMedoids(n_clusters=4, random_state=0)
model2 = kmedoids.fit(normalized_df)
label2 = kmedoids.predict(normalized_df)

# Evaluasi Model

In [None]:
ss_k1 = silhouette_score(normalized_df, label)
ss_k2 = silhouette_score(normalized_df, label2)

In [None]:
model_selection = pd.DataFrame({'Silhouette Score': [ss_k1,ss_k2]}, 
                               index = ['K-means','K-Medoids'])
model_selection

> Dari evaluasi silhouette_score terlihat bahwa **algoritma k-means memiliki nilai lebih tinggi dari k-medoids**. maka dari itu kita akan menggunakan k-means.

### Melihat nilai rata-rata pada kolom berdasarkan klaster

In [None]:
cluster_centers = pd.DataFrame(data = kmeans.cluster_centers_, columns = [normalized_df.columns])
cluster_centers

In [None]:
# Invers data yang telah distandarisasi untuk lebih memahami karaktersitik klaster
cluster_centers_inversed = scaler.inverse_transform(cluster_centers)
cluster_centers_inversed = pd.DataFrame(data = cluster_centers_inversed, columns = [normalized_df.columns])
cluster_centers_inversed

### Membuat kolom cluster pada dataframe

In [None]:
# Membuat kolom keterangan klaster pada dataframe
df_clusters = pd.concat([df, pd.DataFrame({'cluster':label})], axis=1)
df_clusters.head()

In [None]:
df_clusters.columns

### Clusters visualization

In [None]:
# Interpretasi klaster yang terbentuk
for c in df_clusters:
    grid= sns.FacetGrid(df_clusters, col='cluster')
    grid.map(plt.hist, c)

**Cluster 0 - Saldo dan kredit limit kecil, purchases dan payment sangat kecil**

Saldo dibawah 4900. Purchases sangat kecil diantara cluster lain. Credit Limit dibawah 10000. Payments sangat sedikit.

**Cluster 1 Saldo medium, purchases rata-rata, credit limit tinggi payment rata-rata**

Saldo diatas 5000 dan dibawah 12000. Purchases dibawah 15000, dan dinatara 20000-30000. Credit limit 20000. Payments dibawah 23000.

**Cluster 2 Saldo sangat kecil, purchases kecil, kredit limit rata-rata. payment kecil**

Saldo sangat kecil. Purchases kecil. Credit limit dibawah 18000. Payments dibawh 12000.

**Cluster 3 Saldo paling banyak, purchases tinggi,credit limit paling banyak.payment paling tinggi**

Saldo diatas 15000. Purchases dibawah 150000. Credit limit diatas 20000. Payments diatas 20000


# Conculsion

Dari hasil diatas, dapat ditarik kesimpulan bahwa 
1. Project ini menggunakan penerapan algoritma Unsupervised Learning, yaitu Clustering. Metode Clustering yang akan digunakan yaitu K-Means Clustering dan K-Medoids dan menghasilkan nilai evaluasi sihoutee paling baik oleh k-means clustering.
2. Data yang digunakan dalam analisis klaster ini adalah data yang berisi transaksi pengguna kartu kredit sebanyak 9000 orang selama 6 bulan, menggunakan 14 atribut.
3. Menghasilkan 4 klaster yaitu:
> - cluster 0 Saldo dan kredit limit kecil, purchases dan payment sgt kecil
> - cluster 1 saldo medium, purchases dan payment rata-rata. credit limit tinggi
> - clsuter 2 saldo sgt kecil purchases dan payment kecil, credit limit rata-rata.
> - clutser 3 saldo dan kreidt limit paling banyak, purchases dan payment paling tinggi