# Cohort Analysis

## Load Library & Dataset

In [34]:
#import librarys
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np
import datetime as dt

In [35]:
#import Dataset
retail = pd.read_excel('Online Retail.xlsx')

retail.head()

Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country
0,536365,85123A,WHITE HANGING HEART T-LIGHT HOLDER,6,2010-12-01 08:26:00,2.55,17850.0,United Kingdom
1,536365,71053,WHITE METAL LANTERN,6,2010-12-01 08:26:00,3.39,17850.0,United Kingdom
2,536365,84406B,CREAM CUPID HEARTS COAT HANGER,8,2010-12-01 08:26:00,2.75,17850.0,United Kingdom
3,536365,84029G,KNITTED UNION FLAG HOT WATER BOTTLE,6,2010-12-01 08:26:00,3.39,17850.0,United Kingdom
4,536365,84029E,RED WOOLLY HOTTIE WHITE HEART.,6,2010-12-01 08:26:00,3.39,17850.0,United Kingdom


## Pre-Processing Data

In [36]:
retail.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 541909 entries, 0 to 541908
Data columns (total 8 columns):
 #   Column       Non-Null Count   Dtype         
---  ------       --------------   -----         
 0   InvoiceNo    541909 non-null  object        
 1   StockCode    541909 non-null  object        
 2   Description  540455 non-null  object        
 3   Quantity     541909 non-null  int64         
 4   InvoiceDate  541909 non-null  datetime64[ns]
 5   UnitPrice    541909 non-null  float64       
 6   CustomerID   406829 non-null  float64       
 7   Country      541909 non-null  object        
dtypes: datetime64[ns](1), float64(2), int64(1), object(4)
memory usage: 33.1+ MB


## Duplicated Value

In [37]:
retail.duplicated().sum()

5268

In [58]:
# Menampilkan baris yang terduplikasi
duplicate_rows = retail[retail.duplicated()]  # `
duplicate_rows.head()

Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country
517,536409,21866,UNION JACK FLAG LUGGAGE TAG,1,2010-12-01 11:45:00,1.25,17908.0,United Kingdom
527,536409,22866,HAND WARMER SCOTTY DOG DESIGN,1,2010-12-01 11:45:00,2.1,17908.0,United Kingdom
537,536409,22900,SET 2 TEA TOWELS I LOVE LONDON,1,2010-12-01 11:45:00,2.95,17908.0,United Kingdom
539,536409,22111,SCOTTIE DOG HOT WATER BOTTLE,1,2010-12-01 11:45:00,4.95,17908.0,United Kingdom
555,536412,22327,ROUND SNACK BOXES SET OF 4 SKULLS,1,2010-12-01 11:49:00,2.95,17920.0,United Kingdom


In [42]:
total_data = len(retail)
total_duplicates = retail.duplicated().sum()
percentage_duplicates = (total_duplicates / total_data) * 100
percentage_duplicates

0.9721189350979592

In [59]:
retail = retail.drop_duplicates()
retail.duplicated().sum()

0

## Missing Value

In [61]:
retail.isna().sum()

InvoiceNo           0
StockCode           0
Description      1454
Quantity            0
InvoiceDate         0
UnitPrice           0
CustomerID     135037
Country             0
dtype: int64

In [62]:
missing_percentage = retail.isna().mean() * 100
missing_percentage

InvoiceNo       0.000000
StockCode       0.000000
Description     0.270945
Quantity        0.000000
InvoiceDate     0.000000
UnitPrice       0.000000
CustomerID     25.163377
Country         0.000000
dtype: float64

Terdapat nilai hilang pada kolom Description sebesar 0.27% dari total data, dan 25% pada kolom CustomerID. Opsi handling missing value :


1. Menghapus baris adalah solusi yang paling sederhana namun bisa mengurangi jumlah data yang signifikan. Penghapusan ini cocok jika jumlah data yang cukup besar sehingga kehilangan sebagian data tidak terlalu mempengaruhi analisis keseluruhan.

2. Jika CustomerID adalah numerik (meskipun biasanya merupakan identifier dan bukan variabel kuantitatif), kamu bisa mengisinya dengan nilai statistik seperti mean atau median. Namun, pada kasus CustomerID, pengisian nilai mungkin tidak relevan karena bersifat kategorikal dan unik untuk setiap konsumen.

3. Untuk data kategorikal seperti CustomerID, pengisian dengan modus bisa menjadi pilihan, asalkan ada asumsi yang logis di balik penggunaan ID pelanggan yang sama untuk transaksi yang berbeda.

4. Untuk CustomerID, kamu bisa menetapkan suatu nilai khusus untuk mewakili data yang hilang, seperti menggantinya dengan "Unknown" atau nilai spesifik lain. Ini memungkinkan kamu untuk tetap menyertakan baris data dalam analisis tanpa harus menghapusnya.

In [63]:
# Isi nilai yang hilang dengan 'Unknown' atau ID unik lainnya
retail['CustomerID'].fillna('Unknown', inplace=True)
retail['Description'].fillna('Unknown', inplace=True)

retail.isna().sum()

InvoiceNo      0
StockCode      0
Description    0
Quantity       0
InvoiceDate    0
UnitPrice      0
CustomerID     0
Country        0
dtype: int64