# **Customer LifeTime Value**

[Sumber Dataset Customer LifeTime Value](https://docs.google.com/document/d/1pEckO_D4vdUk_bIZX-lkmghmMX30WyPu/edit?usp=drive_link&ouid=116686943531344751554&rtpof=true&sd=true)

## **Business Understanding**

---

### **Context**

`Customer Lifetime Value`, atau `CLV`, adalah sebuah ukuran tentang seberapa berharganya seorang pelanggan bagi sebuah perusahaan. Dari nilai ini, perusahaan bisa menentukan berapa banyak keuntungan yang diperoleh dari satu pelanggan serta biaya yang dikeluarkan untuk mendapatkan atau mempertahankan pelanggan baru. Angka ini cukup penting bagi sebuah perusahaan untuk diketahui, terutama jika perusahaan ingin menargetkan pemasaran secara efektif kepada pelanggan yang bernilai tinggi, serta memahami bagaimana perubahan pelanggan perusahaan di masa depan.

### **Problem Statement**

Perusahaan tahu bahwa `Customer Lifetime Value (CLV)` penting untuk mengukur seberapa berharganya seorang pelanggan. Dengan `CLV`, perusahaan bisa menilai berapa keuntungan yang diperoleh dari tiap pelanggan serta biaya yang harus dikeluarkan untuk mendapatkan atau mempertahankan mereka para nasabah. Masalahnya, perusahaan belum punya cara otomatis untuk memprediksi nilai `CLV` dari setiap pelanggan berdasarkan data yang tersedia. Akibatnya, perusahaan kesulitan untuk menargetkan pemasaran secara efektif ke pelanggan bernilai tinggi dan juga kurang siap dalam memahami bagaimana perubahan basis pelanggan bisa terjadi di masa depan.

### **Goals**

Tujuan dari proyek ini adalah membangun model prediksi untuk `Customer Lifetime Value (CLV)` berdasarkan data pelanggan yang sudah tersedia, seperti **Vehicle Class**, **Coverage**, **Employment Status**, **Income**, **Monthly Premium Auto**, hingga **Total Claim Amount** Dan masih banyak lagi. Dengan adanya model ini, perusahaan dapat:

1. Mengidentifikasi pelanggan dengan nilai CLV tinggi yang layak diprioritaskan dalam program retensi.
2. Mengoptimalkan strategi pemasaran dengan mengarahkan sumber daya pada pelanggan yang paling menguntungkan.
3. Mengurangi biaya akuisisi dengan fokus pada segmen pelanggan yang bernilai tinggi.
4. Memahami faktor faktor utama yang memengaruhi nilai pelanggan, sehingga mendukung pengambilan keputusan bisnis yang lebih tepat dan berorientasi jangka panjang.


### **Analytic Approach**

Jadi, yang perlu kita lakukan adalah menganalisis data pelanggan untuk menemukan pola dari fitur fitur yang ada, yang membedakan satu pelanggan dengan pelanggan lainnya dalam hal nilai seumur hidup (Customer Lifetime Value).

Selanjutnya, kita akan membangun suatu model regresi yang dapat membantu perusahaan dalam memprediksi nilai CLV dari pelanggan baru maupun pelanggan yang sudah ada. Hasil prediksi ini dapat menjadi tool bagi perusahaan untuk mengidentifikasi pelanggan bernilai tinggi, merancang strategi retensi yang lebih efektif, serta mengoptimalkan alokasi biaya pemasaran.


### **Metric Evaluation**

Dalam mengevaluasi performa model regresi yang dibangun, akan digunakan beberapa metrik, yaitu **Root Mean Squared Error** (RMSE), **Mean Absolute Error** (MAE), dan **Mean Absolute Percentage Error** (MAPE). **RMSE** mengukur rata rata akar kuadrat dari selisih antara nilai aktual dan prediksi, sedangkan **MAE** menghitung rata rata selisih absolutnya. **MAPE** digunakan untuk melihat seberapa besar rata rata kesalahan model dalam bentuk persentase terhadap nilai aktual. Semakin kecil nilai dari ketiga metrik ini, semakin baik pula kemampuan model dalam melakukan prediksi.

Selain itu, apabila model linear dipilih sebagai model akhir, evaluasi juga akan mempertimbangkan **R-squared** dan **Adjusted R-squared**. Nilai ini menunjukkan seberapa besar variasi data yang dapat dijelaskan oleh model. Semakin mendekati angka 1, semakin baik model dalam merepresentasikan data. Namun demikian, perlu dicatat bahwa metrik ini kurang relevan untuk model non linear, sehingga penggunaannya hanya bersifat opsional sesuai jenis algoritma yang dipakai.

---

In [4]:
# Import Library yang dibutuhkan pada projecy ini

# --- Data Manipulation ---
import pandas as pd
import numpy as np
import datetime as dt

# --- Data Visualization ---
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px
import plotly.graph_objects as go
import missingno as msno

# --- Warnings ---
import warnings
warnings.filterwarnings('ignore')

## **Data Understanding**

---

### **Information Dataset**

- Dataset ini berasal dari **Insurance Dataset (Customer Lifetime Value)**
- Setiap baris nya merepresentasikan satu pelanggan.
- Setiap kolomnya merupakan fitur atau atribut dari pelanggan tersebut.


#### **Attribute Information**

| Fitur                   | Tipe Data   | Deskripsi                                                                 |
|--------------------------|-------------|---------------------------------------------------------------------------|
| Vehicle Class            | Object      | Jenis kendaraan yang dimiliki pelanggan.                                  |
| Coverage                 | Object      | Tingkat cakupan polis.                                                    |
| Renew Offer Type         | Object      | Jenis penawaran perpanjangan polis.                                       |
| Employment Status        | Object      | Status pekerjaan pelanggan.                                               |
| Marital Status           | Object      | Status perkawinan.                                                        |
| Education                | Object      | Tingkat pendidikan pelanggan.                                             |
| Number of Policies       | Integer     | Jumlah polis aktif yang dimiliki pelanggan.                               |
| Monthly Premium Auto     | Integer     | Premi bulanan yang dibayar pelanggan untuk asuransi mobil.                |
| Total Claim Amount       | Float       | Total nilai klaim yang pernah diajukan pelanggan.                         |
| Income                   | Integer     | Pendapatan tahunan pelanggan.                                             |
| Customer Lifetime Value  | Float       | Estimasi nilai seumur hidup pelanggan (variabel target untuk regresi).    |

### **Dataset Overview**

In [7]:
# Csv File Path
file_path = 'Dataset/data_customer_lifetime_value.csv'

# Load Dataset
df = pd.read_csv(file_path)

# Menampilkan 5 baris teratas dan terbawah dari dataset
display(df.head(), df.tail())

Unnamed: 0,Vehicle Class,Coverage,Renew Offer Type,EmploymentStatus,Marital Status,Education,Number of Policies,Monthly Premium Auto,Total Claim Amount,Income,Customer Lifetime Value
0,Four-Door Car,Extended,Offer1,Retired,Divorced,High School or Below,2.0,90.0,571.479602,11828.0,10083.48688
1,Four-Door Car,Basic,Offer1,Employed,Married,College,6.0,62.0,114.51444,44762.0,4943.386117
2,Two-Door Car,Basic,Offer1,Retired,Married,Master,2.0,62.0,257.248789,21514.0,11981.98481
3,Four-Door Car,Premium,Offer3,Disabled,Married,High School or Below,1.0,116.0,556.8,17913.0,4550.856045
4,Two-Door Car,Basic,Offer3,Medical Leave,Married,High School or Below,1.0,62.0,355.820799,19030.0,2372.155492


Unnamed: 0,Vehicle Class,Coverage,Renew Offer Type,EmploymentStatus,Marital Status,Education,Number of Policies,Monthly Premium Auto,Total Claim Amount,Income,Customer Lifetime Value
5664,Four-Door Car,Basic,Offer4,Unemployed,Single,High School or Below,1.0,74.0,532.8,0.0,2442.216651
5665,Four-Door Car,Premium,Offer1,Employed,Divorced,Bachelor,2.0,109.0,523.2,27778.0,12904.94336
5666,Four-Door Car,Basic,Offer1,Employed,Single,Bachelor,1.0,62.0,44.780402,84658.0,2447.053134
5667,Luxury SUV,Extended,Offer2,Employed,Divorced,Master,7.0,239.0,1294.700423,22705.0,19160.98994
5668,Luxury SUV,Basic,Offer2,Employed,Divorced,College,1.0,199.0,161.61574,60184.0,7664.219255


In [8]:
# Melihat informasi singkat dataset
df.info()
print(f'Jumlah baris dan kolom: {df.shape}')

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5669 entries, 0 to 5668
Data columns (total 11 columns):
 #   Column                   Non-Null Count  Dtype  
---  ------                   --------------  -----  
 0   Vehicle Class            5669 non-null   object 
 1   Coverage                 5669 non-null   object 
 2   Renew Offer Type         5669 non-null   object 
 3   EmploymentStatus         5669 non-null   object 
 4   Marital Status           5669 non-null   object 
 5   Education                5669 non-null   object 
 6   Number of Policies       5669 non-null   float64
 7   Monthly Premium Auto     5669 non-null   float64
 8   Total Claim Amount       5669 non-null   float64
 9   Income                   5669 non-null   float64
 10  Customer Lifetime Value  5669 non-null   float64
dtypes: float64(5), object(6)
memory usage: 487.3+ KB
Jumlah baris dan kolom: (5669, 11)


In [10]:
# Statistik deskriptif fitur numerik dan kategorikal
display(df.describe(), df.describe(include=['O']))

Unnamed: 0,Number of Policies,Monthly Premium Auto,Total Claim Amount,Income,Customer Lifetime Value
count,5669.0,5669.0,5669.0,5669.0,5669.0
mean,2.979361,93.026989,431.407103,37868.188569,8029.874592
std,2.393187,34.551795,287.558038,30490.490723,6916.708246
min,1.0,61.0,0.42331,0.0,1898.007675
25%,1.0,68.0,266.932542,0.0,3954.344534
50%,2.0,82.0,379.2,34322.0,5800.188903
75%,4.0,109.0,549.986128,62464.0,9031.214859
max,9.0,297.0,2759.794354,99934.0,83325.38119


Unnamed: 0,Vehicle Class,Coverage,Renew Offer Type,EmploymentStatus,Marital Status,Education
count,5669,5669,5669,5669,5669,5669
unique,6,3,4,5,3,5
top,Four-Door Car,Basic,Offer1,Employed,Married,Bachelor
freq,2858,3477,2292,3541,3305,1703


**Insight**

Berdasarkan statistik deskriptif, mayoritas pelanggan hanya memiliki 1 - 2 polis dengan premi bulanan di bawah 110, dan nilai klaim yang cukup bervariasi. Nilai Customer Lifetime Value (CLV) rata rata sekitar 8.000, namun terdapat beberapa pelanggan dengan CLV sangat tinggi mencapai 83 Ribu +, menunjukkan adanya outlier. Pendapatan pelanggan juga sangat beragam, bahkan banyak yang berpendapatan nol. Untuk fitur kategorikal, sebagian besar pelanggan merupakan pemilik mobil Four-Door Car, memiliki coverage Basic, menerima Offer1, berstatus bekerja (Employed), sudah menikah, dan berpendidikan Bachelor.