# Customer Segmentation on Online Retail Data Using RFM Analysis 
## Reynara Ezra Pratama

## Background

Data retail online II berisi seluruh data transaksi retail non-toko yang berbasis di Inggris dan terdaftar yang terjadi pada tanggal 1 Desember 2009 s/d 9 Desember 2011. Perusahaan ini terutama menjual perlengkapan hadiah unik dan banyak pelanggan perusahaan adalah grosir. 

Dataset yang akan digunakan dalam melakukan *customer segmentation* dapat dilihat pada [link ini](https://www.kaggle.com/mathchi/online-retail-ii-data-set-from-ml-repository)

## Business Understanding

1. Mendapatkan gambaran bisnis produk yang terjual pada tahun 2009-2010 dan 2010-2011.
2. Melakukan segmentasi pada *Customer* untuk melihat karakteristiknya.
3. Mengetahui rekomendasi yang dapat dilakukan setelah diketahui karakteristik *Customer*.

## Data Understanding

1. `Invoice` : Nomer invoice. 6 digit angka unik untuk setiap transaksi. Jika data diawali 'c', menandakan pembatalan.
2. `StockCode` : Kode produk. 5 digit angka unik untuk setiap produk.
3. `Description` : Penjelasan nama dari produk.
4. `Quantity` : Jumlah produk setiap transaksi.
5. `InvoiceDate` : Tanggal dan waktu dari Invoice.
6. `Price` : Harga unit.
7. `Customer ID` : Nomer *customer*. 5 digit angka untuk untuk setiap *customer*.
8. `Country` : Negara dimana *customer* berada.

## Import Library

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

import warnings
warnings.filterwarnings("ignore")

from sklearn.preprocessing import StandardScaler
from sklearn.cluster import KMeans

## Loading Dataset

### Load Data From Github

In [2]:
# data_2009_2010 = pd.read_csv('https://raw.githubusercontent.com/ReynaraEzra/Customer-Segmentation/main/data_input/Year%202009-2010.csv')
# data_2010_2011 = pd.read_csv('https://raw.githubusercontent.com/ReynaraEzra/Customer-Segmentation/main/data_input/Year%202010-2011.csv')

### Load Data From Local File

In [3]:
data_2009_2010 = pd.read_csv('data_input\Year 2009-2010.csv', encoding='unicode_escape')
data_2010_2011 = pd.read_csv('data_input\Year 2010-2011.csv', encoding='unicode_escape')

## Checking Dataset

### Data 2009 - 2010

In [4]:
data_2009_2010.head()

Unnamed: 0,Invoice,StockCode,Description,Quantity,InvoiceDate,Price,Customer ID,Country
0,489434,85048,15CM CHRISTMAS GLASS BALL 20 LIGHTS,12,12/1/2009 7:45,6.95,13085.0,United Kingdom
1,489434,79323P,PINK CHERRY LIGHTS,12,12/1/2009 7:45,6.75,13085.0,United Kingdom
2,489434,79323W,WHITE CHERRY LIGHTS,12,12/1/2009 7:45,6.75,13085.0,United Kingdom
3,489434,22041,"RECORD FRAME 7"" SINGLE SIZE",48,12/1/2009 7:45,2.1,13085.0,United Kingdom
4,489434,21232,STRAWBERRY CERAMIC TRINKET BOX,24,12/1/2009 7:45,1.25,13085.0,United Kingdom


In [5]:
data_2009_2010.tail()

Unnamed: 0,Invoice,StockCode,Description,Quantity,InvoiceDate,Price,Customer ID,Country
525456,538171,22271,FELTCRAFT DOLL ROSIE,2,12/9/2010 20:01,2.95,17530.0,United Kingdom
525457,538171,22750,FELTCRAFT PRINCESS LOLA DOLL,1,12/9/2010 20:01,3.75,17530.0,United Kingdom
525458,538171,22751,FELTCRAFT PRINCESS OLIVIA DOLL,1,12/9/2010 20:01,3.75,17530.0,United Kingdom
525459,538171,20970,PINK FLORAL FELTCRAFT SHOULDER BAG,2,12/9/2010 20:01,3.75,17530.0,United Kingdom
525460,538171,21931,JUMBO STORAGE BAG SUKI,2,12/9/2010 20:01,1.95,17530.0,United Kingdom


In [6]:
data_2009_2010.sample(5)

Unnamed: 0,Invoice,StockCode,Description,Quantity,InvoiceDate,Price,Customer ID,Country
22765,491155,82613C,"METAL SIGN,CUPCAKE SINGLE HOOK",2,12/10/2009 9:49,2.57,,United Kingdom
225777,511247,21080,SET/20 RED SPOTTY PAPER NAPKINS,12,6/7/2010 12:35,0.85,14421.0,United Kingdom
355088,523929,22751,FELTCRAFT PRINCESS OLIVIA DOLL,48,9/24/2010 16:50,3.39,14646.0,Netherlands
287351,517354,22278,OVERNIGHT BAG VINTAGE ROSE PAISLEY,3,7/28/2010 14:54,4.95,15555.0,United Kingdom
517880,537626,22771,CLEAR DRAWER KNOB ACRYLIC EDWARDIAN,12,12/7/2010 14:57,1.25,12347.0,Iceland


### Data 2010 - 2011

In [7]:
data_2010_2011.head()

Unnamed: 0,Invoice,StockCode,Description,Quantity,InvoiceDate,Price,Customer ID,Country
0,536365,85123A,WHITE HANGING HEART T-LIGHT HOLDER,6,12/1/2010 8:26,2.55,17850.0,United Kingdom
1,536365,71053,WHITE METAL LANTERN,6,12/1/2010 8:26,3.39,17850.0,United Kingdom
2,536365,84406B,CREAM CUPID HEARTS COAT HANGER,8,12/1/2010 8:26,2.75,17850.0,United Kingdom
3,536365,84029G,KNITTED UNION FLAG HOT WATER BOTTLE,6,12/1/2010 8:26,3.39,17850.0,United Kingdom
4,536365,84029E,RED WOOLLY HOTTIE WHITE HEART.,6,12/1/2010 8:26,3.39,17850.0,United Kingdom


In [8]:
data_2010_2011.tail()

Unnamed: 0,Invoice,StockCode,Description,Quantity,InvoiceDate,Price,Customer ID,Country
541905,581587,22899,CHILDREN'S APRON DOLLY GIRL,6,12/9/2011 12:50,2.1,12680.0,France
541906,581587,23254,CHILDRENS CUTLERY DOLLY GIRL,4,12/9/2011 12:50,4.15,12680.0,France
541907,581587,23255,CHILDRENS CUTLERY CIRCUS PARADE,4,12/9/2011 12:50,4.15,12680.0,France
541908,581587,22138,BAKING SET 9 PIECE RETROSPOT,3,12/9/2011 12:50,4.95,12680.0,France
541909,581587,POST,POSTAGE,1,12/9/2011 12:50,18.0,12680.0,France


In [9]:
data_2010_2011.sample(5)

Unnamed: 0,Invoice,StockCode,Description,Quantity,InvoiceDate,Price,Customer ID,Country
342241,566847,23205,CHARLOTTE BAG VINTAGE ALPHABET,8,9/15/2011 11:57,0.85,15005.0,United Kingdom
31029,538890,20971,PINK BLUE FELT CRAFT TRINKET BOX,5,12/14/2010 16:39,1.25,12867.0,United Kingdom
330787,565927,84509A,SET OF 4 ENGLISH ROSE PLACEMATS,4,9/8/2011 10:08,3.75,,EIRE
233787,557489,85099B,JUMBO BAG RED RETROSPOT,20,6/20/2011 14:58,2.08,12490.0,France
432988,573901,23298,SPOTTY BUNTING,3,11/1/2011 14:49,4.95,14191.0,United Kingdom


## Data 2009 - 2010

In [10]:
df1 = data_2009_2010.copy()

### Check Data Shape, Columns, Info, Describe, Null and Duplicate Data

**Data Shape**

Kita akan mengecek ukuran dari data tahun 2009-2010 menggunakan atribut `.shape`

In [11]:
df1.shape

(525461, 8)

Terlihat data transaksi pada tahun 2009-2010 sejumlah 525461 baris dengan 8 buah kolom.

**Data Columns**

In [12]:
df1.columns

Index(['Invoice', 'StockCode', 'Description', 'Quantity', 'InvoiceDate',
       'Price', 'Customer ID', 'Country'],
      dtype='object')

**Data Info**

In [13]:
df1.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 525461 entries, 0 to 525460
Data columns (total 8 columns):
 #   Column       Non-Null Count   Dtype  
---  ------       --------------   -----  
 0   Invoice      525461 non-null  object 
 1   StockCode    525461 non-null  object 
 2   Description  522533 non-null  object 
 3   Quantity     525461 non-null  int64  
 4   InvoiceDate  525461 non-null  object 
 5   Price        525461 non-null  float64
 6   Customer ID  417534 non-null  float64
 7   Country      525461 non-null  object 
dtypes: float64(2), int64(1), object(5)
memory usage: 32.1+ MB


Terdapat data yang kosong pada kolom tertentu saat dicek menggunakan metode `.info()`. Untuk data yang kita punya, diperoleh 2 kolom dengan tipe data *float*, 1 kolom dengan tipe data *integer*, dan 5 kolom dengan tipe data *object*.

**Descriptive Statistic**

In [14]:
df1.describe()

Unnamed: 0,Quantity,Price,Customer ID
count,525461.0,525461.0,417534.0
mean,10.337667,4.688834,15360.645478
std,107.42411,146.126914,1680.811316
min,-9600.0,-53594.36,12346.0
25%,1.0,1.25,13983.0
50%,3.0,2.1,15311.0
75%,10.0,4.21,16799.0
max,19152.0,25111.09,18287.0


Saat kita melihat statistika deskriptif dari data tahun 2009-2010, diperoleh beberapa *insight* seperti :
1. Nilai maksimum untuk kolom `Quantity` adalah 19152, sementara nilai kuartil atasnya (Q3) adalah 10. Hal ini mengindikasikan terdapat suatu transaksi dengan total pembelian barang yang sangat banyak untuk satu kali transaksi.
2. Nilai maksimum untuk kolom `Price` adalah 25111,09, sementara nilai kuartil atasnya (Q3) adalah 4,21. Hal ini mengindikasikan terdapat suatu transaksi dengan total harga yang sangat banyak untuk satu kali transaksi.
3. Terdapat nilai negatif pada kolom `Quantity`. Hal ini dapat dicurigai pembelian yang dibatalkan (Terdapat 'C' pada *Invoice*).
4. Terdapat nilai negatif pada kolom `Price`. Hal ini juga dicurigain pembelian yang dibatalkan (Terdapat 'C' pada *Invoice*).

**Drop Invalid Data On Invoice**

Sebelumnya kita telah mengetahui bahwa huruf `'C'` pada kolom `Invoice` menandakan transaksi yang dibatalkan. Oleh karenanya, kita akan membuang data yang mempunyai huruf `'C'` pada kolom `Invoice`.

In [15]:
df1[df1['Invoice'].str.contains('C')].shape

(10206, 8)

Terlihat terdapat 10206 data yang menyatakan transaksi yang dibatalkan. 

In [16]:
df1 = df1[~df1['Invoice'].str.contains('C')]

In [17]:
df1[~df1['Invoice'].str.contains('C')].shape

(515255, 8)

In [18]:
df1.shape

(515255, 8)

Jumlah data setelah dibuang data transaksi yang dibatalkan adalah 515255.

**Check Null Data**

In [19]:
df1.isnull().sum()

Invoice             0
StockCode           0
Description      2928
Quantity            0
InvoiceDate         0
Price               0
Customer ID    107560
Country             0
dtype: int64

Dikarenakan kita tidak bisa menganalisis *customer* jika kolom `CustomerID` bernilai kosong, kita akan membuang data yang mempunyai nilai yang kosong.

In [20]:
df1 = df1.dropna()

In [21]:
df1.shape

(407695, 8)

Terlihat jumlah data setelah membuang data kosong sebanyak 407695.

**Check Duplicate Data**

Kita akan membuang data duplikat pada data.

In [22]:
df1 = df1.drop_duplicates(keep='first')

In [23]:
df1.shape

(400947, 8)

Terlihat jumlah data setelah membuang data duplikat pada kolom `Invoice` dan `Customer ID` adalah sebanyak 400947.

## Data 2010 - 2011