# **Ecommerce Customer Churn Analysis and Prediction**

### **Business Problem Understanding**

**Context** 

Perusahaan e-commerce berusaha untuk mempertahankan pelanggan di tengah persaingan yang ketat. Saat ini, perusahaan mengalami tingkat churn yang cukup tinggi, yang berdampak langsung pada pendapatan dan menghambat pertumbuhan bisnis. Perusahaan ingin mengetahui faktor-faktor yang memengaruhi keputusan pelanggan untuk berhenti menggunakan layanan mereka dan berupaya memprediksi potensi churn di antara pelanggannya agar dapat mengambil langkah preventif yang efektif.

Target

- 0 : Tidak churn (pelanggan tetap menggunakan layanan)
- 1 : Churn (pelanggan berhenti menggunakan layanan)

**Problem Statement:**

Churn pelanggan yang tinggi menimbulkan kerugian bagi perusahaan dalam hal pendapatan dan biaya akuisisi pelanggan baru. Jika perusahaan menargetkan semua pelanggan untuk program retensi tanpa seleksi, hal ini akan menghabiskan waktu, biaya, dan sumber daya. Untuk meningkatkan efisiensi strategi retensi, perusahaan perlu memahami dan memprediksi pelanggan mana yang memiliki kemungkinan besar untuk churn sehingga perusahaan bisa fokus pada pelanggan yang benar-benar berisiko tinggi untuk churn.

**Goals:**

Berdasarkan permasalahan tersebut, tujuan perusahaan meliputi:
1. Memperkirakan kemungkinan churn: Perusahaan ingin memprediksi pelanggan yang memiliki kemungkinan untuk churn agar dapat memusatkan program retensi pada mereka yang berisiko tinggi.
2. Mengidentifikasi faktor-faktor penyebab churn: Perusahaan ingin mengetahui variabel atau pola apa yang memengaruhi keputusan pelanggan untuk churn sehingga bisa menyusun strategi yang lebih efektif untuk mempertahankan pelanggan.

**Analytic Approach:**

Untuk mencapai tujuan ini, pendekatan analitik yang akan dilakukan adalah:
1. Analisis Data: Menganalisis perilaku pelanggan, seperti frekuensi pembelian, keterlibatan dalam promosi, dan faktor lainnya untuk menemukan pola atau ciri-ciri pelanggan yang rentan churn.
2. Model Prediktif: Mengembangkan model klasifikasi yang dapat memperkirakan probabilitas churn di masa depan dengan menggunakan data historis pelanggan. Model ini akan membantu perusahaan mengenali pelanggan yang paling mungkin churn.

**Metric Evaluation** 

Type 1 Error (*False Positive*):
Model memprediksi pelanggan akan churn, padahal sebenarnya tidak.
- Konsekuensi: Terjadinya pemborosan sumber daya perusahaan untuk menargetkan pelanggan yang tidak perlu diikuti dalam program retensi.

Type 2 Error (*False Negative*): 
Model tidak memprediksi churn, padahal pelanggan tersebut churn.
- Konsekuensi: Kehilangan pelanggan yang sebenarnya dapat dicegah dengan strategi retensi yang tepat.

True Positive (TP):
Model memprediksi churn, dan pelanggan benar-benar churn.
- Manfaat: Perusahaan dapat mengambil tindakan tepat waktu untuk mencegah churn, seperti memberikan promosi atau insentif, sehingga dapat mempertahankan pelanggan yang benar-benar berisiko tinggi untuk churn.

True Negative (TN):
Model memprediksi pelanggan tidak akan churn, dan pelanggan benar-benar tidak churn.
- Manfaat: Perusahaan dapat menghindari upaya retensi yang tidak perlu, menghemat waktu dan sumber daya, dan tetap fokus pada pelanggan yang benar-benar memerlukan perhatian lebih untuk mengurangi churn.

Dengan mempertimbangkan True Positive dan True Negative dalam evaluasi, perusahaan dapat memastikan bahwa model memiliki keseimbangan yang baik antara mengidentifikasi pelanggan yang rentan churn dan menghindari pemborosan sumber daya untuk pelanggan yang tidak membutuhkan tindakan retensi. Metrik utama yang digunakan adalah F1-Score atau Precision-Recall Curves karena keduanya efektif dalam menangani kasus data yang tidak seimbang.



### **Data Understanding**

Data Source : https://www.kaggle.com/datasets/ankitverma2010/ecommerce-customer-churn-analysis-and-prediction


**Data Dictionary**

Dataset yang digunakan adalah data ecommerce customer churn sebanyak 5630 baris data dan sebanyak 20 kolom atau fitur. Kolom ini mewakili informasi dari pelanggan yang terdaftar. Kolom-kolom yang terdapat dalam dataset antara lain: 

| Variable |Data Type| 	Description| 
|----------|-------|---------
| CustomerID |Integer	|Unique customer ID
|Churn |Integer	|Churn Flag
|Tenure|Float	|Tenure of customer in organization
|PreferredLoginDevice|Object	|Preferred login device of customer
|CityTier|Integer	|City tier
|WarehouseToHome|Float	|Distance in between warehouse to home of customer
|PreferredPaymentMode|	Object|Preferred payment method of customer
|Gender|Object	|Gender of customer
|HourSpendOnApp|Float	|Number of hours spend on mobile application or website
|NumberOfDeviceRegistered|Integer|Total number of deceives is registered on particular customer
|PreferedOrderCat|Object	|Preferred order category of customer in last month
|SatisfactionScore|Integer	|Satisfactory score of customer on service
|MaritalStatus|Object	|Marital status of customer
|NumberOfAddress|Integer	|Total number of added added on particular customer
|Complain|	Integer|Any complaint has been raised in last month
|OrderAmountHikeFromlastYear|Float	|Percentage increases in order from last year
|CouponUsed|Float	|Total number of coupon has been used in last month
|OrderCount	| Float|Total number of orders has been places in last month
|DaySinceLastOrder|Float	|Day Since last order by customer
|CashbackAmount|Float	|Average cashback in last month





In [28]:
import pandas as pd 
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.impute import KNNImputer, SimpleImputer

In [29]:
df = pd.read_excel('E Commerce Dataset.xlsx', sheet_name='E Comm')
df.head()

Unnamed: 0,CustomerID,Churn,Tenure,PreferredLoginDevice,CityTier,WarehouseToHome,PreferredPaymentMode,Gender,HourSpendOnApp,NumberOfDeviceRegistered,PreferedOrderCat,SatisfactionScore,MaritalStatus,NumberOfAddress,Complain,OrderAmountHikeFromlastYear,CouponUsed,OrderCount,DaySinceLastOrder,CashbackAmount
0,50001,1,4.0,Mobile Phone,3,6.0,Debit Card,Female,3.0,3,Laptop & Accessory,2,Single,9,1,11.0,1.0,1.0,5.0,159.93
1,50002,1,,Phone,1,8.0,UPI,Male,3.0,4,Mobile,3,Single,7,1,15.0,0.0,1.0,0.0,120.9
2,50003,1,,Phone,1,30.0,Debit Card,Male,2.0,4,Mobile,3,Single,6,1,14.0,0.0,1.0,3.0,120.28
3,50004,1,0.0,Phone,3,15.0,Debit Card,Male,2.0,4,Laptop & Accessory,5,Single,8,0,23.0,0.0,1.0,3.0,134.07
4,50005,1,0.0,Phone,1,12.0,CC,Male,,3,Mobile,5,Single,3,0,11.0,1.0,1.0,3.0,129.6


In [30]:
df.shape

(5630, 20)

In [31]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5630 entries, 0 to 5629
Data columns (total 20 columns):
 #   Column                       Non-Null Count  Dtype  
---  ------                       --------------  -----  
 0   CustomerID                   5630 non-null   int64  
 1   Churn                        5630 non-null   int64  
 2   Tenure                       5366 non-null   float64
 3   PreferredLoginDevice         5630 non-null   object 
 4   CityTier                     5630 non-null   int64  
 5   WarehouseToHome              5379 non-null   float64
 6   PreferredPaymentMode         5630 non-null   object 
 7   Gender                       5630 non-null   object 
 8   HourSpendOnApp               5375 non-null   float64
 9   NumberOfDeviceRegistered     5630 non-null   int64  
 10  PreferedOrderCat             5630 non-null   object 
 11  SatisfactionScore            5630 non-null   int64  
 12  MaritalStatus                5630 non-null   object 
 13  NumberOfAddress   

In [32]:
df.describe()

Unnamed: 0,CustomerID,Churn,Tenure,CityTier,WarehouseToHome,HourSpendOnApp,NumberOfDeviceRegistered,SatisfactionScore,NumberOfAddress,Complain,OrderAmountHikeFromlastYear,CouponUsed,OrderCount,DaySinceLastOrder,CashbackAmount
count,5630.0,5630.0,5366.0,5630.0,5379.0,5375.0,5630.0,5630.0,5630.0,5630.0,5365.0,5374.0,5372.0,5323.0,5630.0
mean,52815.5,0.168384,10.189899,1.654707,15.639896,2.931535,3.688988,3.066785,4.214032,0.284902,15.707922,1.751023,3.008004,4.543491,177.22303
std,1625.385339,0.37424,8.557241,0.915389,8.531475,0.721926,1.023999,1.380194,2.583586,0.451408,3.675485,1.894621,2.93968,3.654433,49.207036
min,50001.0,0.0,0.0,1.0,5.0,0.0,1.0,1.0,1.0,0.0,11.0,0.0,1.0,0.0,0.0
25%,51408.25,0.0,2.0,1.0,9.0,2.0,3.0,2.0,2.0,0.0,13.0,1.0,1.0,2.0,145.77
50%,52815.5,0.0,9.0,1.0,14.0,3.0,4.0,3.0,3.0,0.0,15.0,1.0,2.0,3.0,163.28
75%,54222.75,0.0,16.0,3.0,20.0,3.0,4.0,4.0,6.0,1.0,18.0,2.0,3.0,7.0,196.3925
max,55630.0,1.0,61.0,3.0,127.0,5.0,6.0,5.0,22.0,1.0,26.0,16.0,16.0,46.0,324.99


### **Data Cleaning**

In [6]:
listItem = []
for col in df.columns :
    listItem.append([col, df[col].dtype, df[col].nunique(), list(df[col].drop_duplicates().sample(2).values)]);

dfDesc = pd.DataFrame(columns=['dataFeatures', 'dataType', 'unique', 'uniqueSample'],
                     data=listItem)
dfDesc

Unnamed: 0,dataFeatures,dataType,unique,uniqueSample
0,CustomerID,int64,5630,"[51673, 52057]"
1,Churn,int64,2,"[0, 1]"
2,Tenure,float64,36,"[30.0, 27.0]"
3,PreferredLoginDevice,object,3,"[Mobile Phone, Computer]"
4,CityTier,int64,3,"[3, 2]"
5,WarehouseToHome,float64,34,"[34.0, 28.0]"
6,PreferredPaymentMode,object,7,"[E wallet, Cash on Delivery]"
7,Gender,object,2,"[Female, Male]"
8,HourSpendOnApp,float64,6,"[nan, 5.0]"
9,NumberOfDeviceRegistered,int64,6,"[5, 3]"


Pada beberapa kolom, ditemukan beberapa nilai yang tidak konsisten. Misalnya pada kolom PrefferedLoginDevice terdapat nilai 'Mobile Phone' dan 'Phone' yang merujuk ke perangkat yang sama. Oleh karenanya, dilakukan replace value untuk menangani hal ini. Selain kolom PrefferedLoginDevice, pada kolom PreferredPaymentMode dan PreferedOrderCat juga ditemukan hal yang sama.

In [7]:
df['PreferredLoginDevice'].replace('Phone', 'Mobile Phone', inplace=True)
df['PreferredPaymentMode'].replace({'CC': 'Credit Card', 'COD': 'Cash on Delivery'}, inplace=True)
df['PreferedOrderCat'].replace('Mobile', 'Mobile phone', inplace=True)

***Missing Values***

In [12]:
df.isna().sum()/df.shape[0]*100

CustomerID                     0.000000
Churn                          0.000000
Tenure                         4.689165
PreferredLoginDevice           0.000000
CityTier                       0.000000
WarehouseToHome                4.458259
PreferredPaymentMode           0.000000
Gender                         0.000000
HourSpendOnApp                 4.529307
NumberOfDeviceRegistered       0.000000
PreferedOrderCat               0.000000
SatisfactionScore              0.000000
MaritalStatus                  0.000000
NumberOfAddress                0.000000
Complain                       0.000000
OrderAmountHikeFromlastYear    4.706927
CouponUsed                     4.547069
OrderCount                     4.582593
DaySinceLastOrder              5.452931
CashbackAmount                 0.000000
dtype: float64

Terdapat 7 kolom yang memiliki missing value, Tenure, WerehouseToHome, HourSpendOnApp, OrderAmountHikeFromlastYear, CouponUsed, OrderCount, DaySinceLastOrder

In [13]:
df.isna().sum()

CustomerID                       0
Churn                            0
Tenure                         264
PreferredLoginDevice             0
CityTier                         0
WarehouseToHome                251
PreferredPaymentMode             0
Gender                           0
HourSpendOnApp                 255
NumberOfDeviceRegistered         0
PreferedOrderCat                 0
SatisfactionScore                0
MaritalStatus                    0
NumberOfAddress                  0
Complain                         0
OrderAmountHikeFromlastYear    265
CouponUsed                     256
OrderCount                     258
DaySinceLastOrder              307
CashbackAmount                   0
dtype: int64

Ringkasan dari pengecekan nilai null pada dataset dapat dilihat melalui tabel berikut:

In [14]:
listItem = []
for col in df.columns :
    listItem.append([col, df[col].dtype, df[col].isna().sum(), round((df[col].isna().sum()/len(df[col])) * 100,2)]);

dfDesc = pd.DataFrame(columns=['dataFeatures', 'dataType', 'nullCount', 'nullPercentage'],
                     data=listItem)
dfDesc

Unnamed: 0,dataFeatures,dataType,nullCount,nullPercentage
0,CustomerID,int64,0,0.0
1,Churn,int64,0,0.0
2,Tenure,float64,264,4.69
3,PreferredLoginDevice,object,0,0.0
4,CityTier,int64,0,0.0
5,WarehouseToHome,float64,251,4.46
6,PreferredPaymentMode,object,0,0.0
7,Gender,object,0,0.0
8,HourSpendOnApp,float64,255,4.53
9,NumberOfDeviceRegistered,int64,0,0.0


Missing value pada dateset ini dapat diklasifikasikan menjadi 3, yaitu: 

1. Missing Completely at Random (MCAR)
Data MCAR adalah data yang nilai hilangnya tidak memiliki pola tertentu. Fitur WarehouseToHome dan HourSpendOnApp mungkin termasuk dalam kategori MCAR, karena waktu yang dihabiskan di aplikasi atau jarak ke gudang mungkin tidak bergantung pada fitur lainnya.
- Pendekatan Penanganan: Karena data MCAR tidak bergantung pada fitur lain, nilai yang hilang dapat diisi dengan nilai rata-rata atau median tanpa menimbulkan bias yang berarti.

2. Missing at Random (MAR)
Nilai hilang pada MAR berkaitan dengan data lain yang teramati. Fitur seperti Tenure dan OrderAmountHikeFromlastYear bisa termasuk MAR, karena pelanggan dengan masa penggunaan yang lebih singkat mungkin memiliki lebih banyak data yang hilang, dan kebiasaan belanja (sehingga kenaikan jumlah order) dapat berkorelasi dengan masa penggunaan atau waktu penggunaan aplikasi.
- Pendekatan Penanganan: Untuk data MAR, metode seperti imputasi berdasarkan fitur yang terkait (misalnya, menggunakan pengelompokan berdasarkan masa penggunaan untuk mengisi nilai hilang) atau model prediktif dapat digunakan untuk mengisi nilai hilang berdasarkan pola dalam data yang teramati.

3. Missing Not at Random (MNAR)
MNAR terjadi ketika nilai hilang terkait dengan nilai dari fitur itu sendiri. Fitur CouponUsed, OrderCount, dan DaySinceLastOrder mungkin termasuk MNAR jika, misalnya, pelanggan yang jarang menggunakan kupon atau jarang memesan memiliki nilai hilang pada fitur-fitur ini, atau ada periode tanpa pesanan baru.
- Pendekatan Penanganan: Untuk MNAR, strategi yang efektif meliputi membuat variabel indikator untuk menandai tempat data hilang, karena hilangnya nilai ini bisa saja memiliki informasi penting. Alternatifnya, bisa dipertimbangkan imputasi berdasarkan pengetahuan spesifik domain atau memodelkan missingness langsung jika memungkinkan.

Langkah Selanjutnya
Untuk menangani missing value ini:
- MCAR: Gunakan imputasi median.
- MAR:  KNN Imputer.
- MNAR: Buat variabel indikator dan gunakan pengetahuan spesifik domain atau pertimbangkan strategi imputasi lanjutan seperti iterative imputer.

In [15]:
knn_imputer = KNNImputer(n_neighbors=5)

median_imputer = SimpleImputer(strategy='median')

df[['Tenure', 'OrderAmountHikeFromlastYear']] = knn_imputer.fit_transform(df[['Tenure', 'OrderAmountHikeFromlastYear']])

df[['WarehouseToHome', 'HourSpendOnApp']] = median_imputer.fit_transform(df[['WarehouseToHome', 'HourSpendOnApp']])

Penanganan untuk MNAR 

1. CouponUsed  
   - Nilai yang hilang pada CouponUsed dapat terjadi jika pelanggan jarang atau bahkan tidak pernah menggunakan kupon. Pendekatan yang dapat dilakukan adalah mengisi nilai hilang dengan nilai 0 (untuk menandakan bahwa kupon tidak digunakan), atau membuat variabel indikator yang mencatat nilai hilang sebagai kategori khusus, misalnya “Tidak Digunakan”.
   - Penggunaan kupon umumnya bersifat sporadis atau preferensi tertentu, sehingga asumsi ini logis.

2. OrderCount  
   - Pada OrderCount, nilai hilang dapat diasumsikan sebagai tidak adanya pesanan pada periode tertentu. Pendekatan ini dapat diatasi dengan mengisi nilai hilang dengan angka 0 atau membuat indikator khusus untuk menunjukkan adanya periode non-pesanan.
   - Banyak e-commerce mencatat periode tanpa aktivitas pesanan, sehingga nilai 0 atau variabel indikator dapat memberikan wawasan lebih lanjut.

3. DaySinceLastOrder  
   - Jika nilai pada DaySinceLastOrder hilang, ini dapat berarti bahwa pelanggan belum pernah melakukan pemesanan. Nilai yang hilang bisa diisi dengan angka maksimum yang masuk akal (misalnya, jumlah hari sejak akun dibuat hingga hari ini) / Tenure.
   - Karena ini menunjukkan jarak waktu sejak pesanan terakhir, pelanggan baru atau yang tidak aktif akan logis jika memiliki nilai ini sebagai kategori atau nilai maksimum.

Dengan pendekatan ini, kita menggunakan konteks operasional dari e-commerce untuk memastikan bahwa pengisian nilai hilang tetap memberikan informasi yang relevan dan tidak mengaburkan pola dalam data.

In [23]:
df['CouponUsed'] = df['CouponUsed'].fillna(0)
df['OrderCount'] = df['OrderCount'].fillna(0)

In [25]:
df['DaySinceLastOrder'] = df['DaySinceLastOrder'].fillna(df['Tenure'] * 30)

In [26]:
df.isna().sum()

CustomerID                     0
Churn                          0
Tenure                         0
PreferredLoginDevice           0
CityTier                       0
WarehouseToHome                0
PreferredPaymentMode           0
Gender                         0
HourSpendOnApp                 0
NumberOfDeviceRegistered       0
PreferedOrderCat               0
SatisfactionScore              0
MaritalStatus                  0
NumberOfAddress                0
Complain                       0
OrderAmountHikeFromlastYear    0
CouponUsed                     0
OrderCount                     0
DaySinceLastOrder              0
CashbackAmount                 0
dtype: int64

***Duplicated Values***

In [12]:
df[df.duplicated()].shape[0]

0