# Cohort Analysis on E-Commerce Data
Secara garis besar, terdapat 3 tahapan yang perlu kita lakukan untuk melakukan cohort analysis, diantaranya:
1. Mempersiapkan kolom-kolom yang dibutuhkan
2. Membuat tabel retensi
3. Membuat visualisasi dalam bentuk heatmap

Ada 3 kolom yang perlu dibuat agar kita dapat melakukan cohort analysis, yaitu:
1. Invoice periode - waktu (hari, bulan, atau tahun) terjadinya sebuah transaksi
2. Cohort group - cohorts (kelompok pelanggan) berupa waktu (hari, bulan, atau tahun) kapan pelanggan melakukan transaksi pertamanya
3. Cohort period - periode waktu (hari, bulan, atau tahun) yang digunakan untuk mencatat perkembangan perilaku pelanggan setiap waktunya

#### Data preparation before doing the analysis

In [31]:
import pandas as pd
import seaborn as sns
import datetime as dt

In [12]:
# read dataset
df = pd.read_csv('../datasets/cleaned_data.csv')

In [13]:
df.head()

Unnamed: 0.1,Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country
0,0,536365,85123A,WHITE HANGING HEART T-LIGHT HOLDER,6,2010-12-01 08:26:00,2.55,17850.0,United Kingdom
1,1,536365,71053,WHITE METAL LANTERN,6,2010-12-01 08:26:00,3.39,17850.0,United Kingdom
2,2,536365,84406B,CREAM CUPID HEARTS COAT HANGER,8,2010-12-01 08:26:00,2.75,17850.0,United Kingdom
3,3,536365,84029G,KNITTED UNION FLAG HOT WATER BOTTLE,6,2010-12-01 08:26:00,3.39,17850.0,United Kingdom
4,4,536365,84029E,RED WOOLLY HOTTIE WHITE HEART.,6,2010-12-01 08:26:00,3.39,17850.0,United Kingdom


In [14]:
# delete 'Unnamed: 0' column
del df['Unnamed: 0']

In [15]:
# re-check the updated dataframe
df.head()

Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country
0,536365,85123A,WHITE HANGING HEART T-LIGHT HOLDER,6,2010-12-01 08:26:00,2.55,17850.0,United Kingdom
1,536365,71053,WHITE METAL LANTERN,6,2010-12-01 08:26:00,3.39,17850.0,United Kingdom
2,536365,84406B,CREAM CUPID HEARTS COAT HANGER,8,2010-12-01 08:26:00,2.75,17850.0,United Kingdom
3,536365,84029G,KNITTED UNION FLAG HOT WATER BOTTLE,6,2010-12-01 08:26:00,3.39,17850.0,United Kingdom
4,536365,84029E,RED WOOLLY HOTTIE WHITE HEART.,6,2010-12-01 08:26:00,3.39,17850.0,United Kingdom


In [18]:
# get data dimension
print('Number of columns:', df.shape[0])
print('Number of rows:', df.shape[1])

Number of columns: 392732
Number of rows: 8


In [23]:
# change the format of 'InvoiceDate' to datetime
df['InvoiceDate'] = pd.to_datetime(df['InvoiceDate'])

## 1. Prepare some columns needed for analysis
Ada 3 kolom yang perlu dibuat agar kita dapat melakukan cohort analysis, yaitu:
1. Invoice periode - waktu (hari, bulan, atau tahun) terjadinya sebuah transaksi
2. Cohort group - cohorts (kelompok pelanggan) berupa waktu (hari, bulan, atau tahun) kapan pelanggan melakukan transaksi pertamanya
3. Cohort period - periode waktu (hari, bulan, atau tahun) yang digunakan untuk mencatat perkembangan perilaku pelanggan setiap waktunya

#### Task 1. Prepare a column for the invoice period
Mengingat nantinya kita akan membuat kolom cohorts (kelompok pelanggan), maka kita memerlukan periode invoice yang nilai terkecilnya (bulan paling awal) akan digunakan sebagai nilai cohorts. Oleh sebab itu, kita akan mengambil nilai tanggal tanpa jam, menit, detik untuk mengisi kolom 'InvoicePeriod'.

Mengingat bahwa data ini mencatat transaksi yang terjadi selama 13 bulan, maka nantinya akan terbentuk cohorts (pengelompokan pelanggan) dengan satuan bulan.

In [33]:
df['InvoicePeriod'] = df['InvoiceDate'].map(lambda d: dt.datetime(d.year, d.month, 1))

In [34]:
df.head()

Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country,InvoicePeriod
0,536365,85123A,WHITE HANGING HEART T-LIGHT HOLDER,6,2010-12-01 08:26:00,2.55,17850.0,United Kingdom,2010-12-01
1,536365,71053,WHITE METAL LANTERN,6,2010-12-01 08:26:00,3.39,17850.0,United Kingdom,2010-12-01
2,536365,84406B,CREAM CUPID HEARTS COAT HANGER,8,2010-12-01 08:26:00,2.75,17850.0,United Kingdom,2010-12-01
3,536365,84029G,KNITTED UNION FLAG HOT WATER BOTTLE,6,2010-12-01 08:26:00,3.39,17850.0,United Kingdom,2010-12-01
4,536365,84029E,RED WOOLLY HOTTIE WHITE HEART.,6,2010-12-01 08:26:00,3.39,17850.0,United Kingdom,2010-12-01


#### Task 2. Create the cohorts group

In [44]:
df['Cohorts'] = df.groupby('CustomerID')['InvoicePeriod'].transform('min')

In [45]:
df.head()

Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country,InvoicePeriod,Cohorts
0,536365,85123A,WHITE HANGING HEART T-LIGHT HOLDER,6,2010-12-01 08:26:00,2.55,17850.0,United Kingdom,2010-12-01,2010-12-01
1,536365,71053,WHITE METAL LANTERN,6,2010-12-01 08:26:00,3.39,17850.0,United Kingdom,2010-12-01,2010-12-01
2,536365,84406B,CREAM CUPID HEARTS COAT HANGER,8,2010-12-01 08:26:00,2.75,17850.0,United Kingdom,2010-12-01,2010-12-01
3,536365,84029G,KNITTED UNION FLAG HOT WATER BOTTLE,6,2010-12-01 08:26:00,3.39,17850.0,United Kingdom,2010-12-01,2010-12-01
4,536365,84029E,RED WOOLLY HOTTIE WHITE HEART.,6,2010-12-01 08:26:00,3.39,17850.0,United Kingdom,2010-12-01,2010-12-01


#### Task 3. Prepare the cohort periods
Dataset ini merupakan data transaksi yang terjadi selama 13 bulan. Pada analisis kali ini kita akan memantau perubahan perilaku pelanggan setiap bulannya, dari bulan ke-0 (Month 0) hingga terakhir (Month 12). Setiap transaksi/invoice akan memiliki ditandai dengan angka yang menunjukkan apakah transaksi tersebut terjadi pada bulan ke-0 (Dec '10), ke-1 (Jan '11), dst.

Kita bisa mendapatkan angka tersebut dengan mengambil selisih antara waktu tercatatnya setiap transaksi (InvoicePeriod) dengan waktu tercatatnya transaksi pertama dari pelanggan terkait (Cohorts).

In [52]:
# fungsi untuk mendapatkan tahun dan bulan transaksi dalam format integer
def get_year_month(df, col):
    year = df[col].dt.year
    month = df[col].dt.month
    return year, month

In [54]:
# mendapatkan angka tahun dan bulan untuk tanggal invoice dan cohorts
invoice_year, invoice_month = get_year_month(df, 'InvoicePeriod')
cohort_year, cohort_month = get_year_month(df, 'Cohorts')

In [61]:
# mendapatkan selisih tahun dan bulan antara tanggal invoice dan cohorts
year_diff = invoice_year - cohort_year
month_diff = invoice_month - cohort_month

In [65]:
# membuat kolom 'CohortPeriod' berdasarkan selisih bulan antara tanggal invoice dan cohorts
df['CohortPeriod'] = year_diff * 12 + month_diff

In [66]:
df.head()

Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country,InvoicePeriod,Cohorts,CohortPeriod
0,536365,85123A,WHITE HANGING HEART T-LIGHT HOLDER,6,2010-12-01 08:26:00,2.55,17850.0,United Kingdom,2010-12-01,2010-12-01,0
1,536365,71053,WHITE METAL LANTERN,6,2010-12-01 08:26:00,3.39,17850.0,United Kingdom,2010-12-01,2010-12-01,0
2,536365,84406B,CREAM CUPID HEARTS COAT HANGER,8,2010-12-01 08:26:00,2.75,17850.0,United Kingdom,2010-12-01,2010-12-01,0
3,536365,84029G,KNITTED UNION FLAG HOT WATER BOTTLE,6,2010-12-01 08:26:00,3.39,17850.0,United Kingdom,2010-12-01,2010-12-01,0
4,536365,84029E,RED WOOLLY HOTTIE WHITE HEART.,6,2010-12-01 08:26:00,3.39,17850.0,United Kingdom,2010-12-01,2010-12-01,0


Kita telah membuat tiga kolom baru yang diperlukan: InvoicePeriod, Cohorts, dan CohortPeriod.

Langkah selanjutnya yang perlu kita lakukan adalah membuat tabel retensi.

## 2. Create the Retention Table