<h1 style="text-align: center;">Supermarket Customers</h1>
<h3 style="text-align: center;">Jawed Iqbal Alfaruqiy</h3>

---

# Latar Belakang
Supermarket memiliki data pelanggan yang mencakup demografi, pola pembelian, dan respons kampanye pemasaran. Memahami perilaku pelanggan penting untuk meningkatkan strategi pemasaran dan penjualan. Dengan analisis data, supermarket dapat mengoptimalkan pemasaran, meningkatkan retensi pelanggan, dan mengelola stok lebih efisien melalui segmentasi pelanggan dan promosi yang dipersonalisasi.

## Pernyataan Masalah

Supermarket ingin mengetahui **segmen pelanggan yang paling bernilai dan pola pembelian mereka**. Informasi ini akan membantu dalam meningkatkan efektivitas kampanye pemasaran, mengurangi biaya promosi yang tidak tepat sasaran, dan mengoptimalkan pengelolaan stok barang.

Sebagai seorang *data analyst*, kita akan mencoba menjawab pertanyaan berikut:

**Bagaimana karakteristik pelanggan yang memberikan kontribusi terbesar terhadap pendapatan supermarket, terutama dibandingkan pelanggan dengan pengeluaran lebih rendah?**

## Key Objective

Key Objective:

Untuk mengatasi permasalahan tersebut, beberapa tujuan utama dari analisis data ini adalah:

1. Mengidentifikasi segmen pelanggan berdasarkan data demografi dan pola pembelian guna meningkatkan personalisasi pemasaran.

1. Menganalisis efektivitas kampanye pemasaran dengan mengevaluasi tingkat respons pelanggan terhadap berbagai promosi.

1. Mengungkap pola pembelian pelanggan untuk membantu pengambilan keputusan dalam penawaran produk dan strategi harga.

1. Memprediksi loyalitas pelanggan dan mengembangkan strategi untuk meningkatkan keterlibatan serta retensi pelanggan.

# Data
Untuk menjawab pertanyaan di atas, kita akan menganalisa data peserta yang sudah dikumpulkan oleh perusahaan. Dataset dapat diakses [Disini](https://drive.google.com/drive/folders/1WodnBbuYTvsF0-6HTuQABQ0KCS31lqbK)

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px
from scipy.stats import normaltest, chi2_contingency, mannwhitneyu, ttest_ind
from datetime import datetime

import warnings
warnings.filterwarnings("ignore")

Supermarket Customers Data Dicitonary:  
- Customer
    - ID: Customer's unique identifier
    - Year_Birth: Customer's birth year
    - Education: Customer's education level
    - Marital_Status: Customer's marital status
    - Income: Customer's yearly household income
    - Kidhome: Number of children in customer's household
    - Teenhome: Number of teenagers in customer's household
    - Dt_Customer: Date of customer's enrollment with the company
    - Recency: Number of days since customer's last purchase
    - Complain: 1 if the customer complained in the last 2 years, 0 otherwise
- Products
    - MntWines: Amount spent on wine in last 2 years
    - MntFruits: Amount spent on fruits in last 2 years
    - MntMeatProducts: Amount spent on meat in last 2 years
    - MntFishProducts: Amount spent on fish in last 2 years
    - MntSweetProducts: Amount spent on sweets in last 2 years
    - MntGoldProds: Amount spent on gold in last 2 years
- Promotion
    - NumDealsPurchases: Number of purchases made with a discount
    - AcceptedCmp1: 1 if the customer accepted the offer in the 1st campaign, 0 otherwise
    - AcceptedCmp2: 1 if the customer accepted the offer in the 2nd campaign, 0 otherwise
    - AcceptedCmp3: 1 if the customer accepted the offer in the 3rd campaign, 0 otherwise
    - AcceptedCmp4: 1 if the customer accepted the offer in the 4th campaign, 0 otherwise
    - AcceptedCmp5: 1 if the customer accepted the offer in the 5th campaign, 0 otherwise
    - Response: 1 if the customer accepted the offer in the last campaign, 0 otherwise
- Place
    - NumWebPurchases: Number of purchases made through the company’s website
    - NumCatalogPurchases: Number of purchases made using a catalog
    - NumStorePurchases: Number of purchases made directly in stores
    - NumWebVisitsMonth: Number of visits to the company’s website in the last month

Berikut 5 baris teratas dan terbawah dari dataset supermarket customers:

In [2]:
df = pd.read_csv('Supermarket Customers.csv', sep='\t')
display(df.head(),df.tail())

Unnamed: 0,ID,Year_Birth,Education,Marital_Status,Income,Kidhome,Teenhome,Dt_Customer,Recency,MntWines,...,NumWebVisitsMonth,AcceptedCmp3,AcceptedCmp4,AcceptedCmp5,AcceptedCmp1,AcceptedCmp2,Complain,Z_CostContact,Z_Revenue,Response
0,5524,1957,Graduation,Single,58138.0,0,0,04-09-2012,58,635,...,7,0,0,0,0,0,0,3,11,1
1,2174,1954,Graduation,Single,46344.0,1,1,08-03-2014,38,11,...,5,0,0,0,0,0,0,3,11,0
2,4141,1965,Graduation,Together,71613.0,0,0,21-08-2013,26,426,...,4,0,0,0,0,0,0,3,11,0
3,6182,1984,Graduation,Together,26646.0,1,0,10-02-2014,26,11,...,6,0,0,0,0,0,0,3,11,0
4,5324,1981,PhD,Married,58293.0,1,0,19-01-2014,94,173,...,5,0,0,0,0,0,0,3,11,0


Unnamed: 0,ID,Year_Birth,Education,Marital_Status,Income,Kidhome,Teenhome,Dt_Customer,Recency,MntWines,...,NumWebVisitsMonth,AcceptedCmp3,AcceptedCmp4,AcceptedCmp5,AcceptedCmp1,AcceptedCmp2,Complain,Z_CostContact,Z_Revenue,Response
2235,10870,1967,Graduation,Married,61223.0,0,1,13-06-2013,46,709,...,5,0,0,0,0,0,0,3,11,0
2236,4001,1946,PhD,Together,64014.0,2,1,10-06-2014,56,406,...,7,0,0,0,1,0,0,3,11,0
2237,7270,1981,Graduation,Divorced,56981.0,0,0,25-01-2014,91,908,...,6,0,1,0,0,0,0,3,11,0
2238,8235,1956,Master,Together,69245.0,0,1,24-01-2014,8,428,...,3,0,0,0,0,0,0,3,11,0
2239,9405,1954,PhD,Married,52869.0,1,1,15-10-2012,40,84,...,7,0,0,0,0,0,0,3,11,1


## Data Understanding and Cleaning
Sebelum masuk ke dalam analisis, kita perlu mengenal dataset kita lebih jauh dalam tahapan *data understanding*. Dari proses ini, kita akan tahu anomali-anomali apa saja yang terdapat di dalam dataset kita dan perlu ditangani dalam tahapan *data cleaning*. Setiap penangan anomali yang dilakukan, akan disertai dengan justifikasi langkah yang diambil, baik secara *domain knowledge* maupun secara statistik.

Pertama, mari kita lihat informasi umum dari dataset supermarket customers.

In [3]:
print(f'Jumlah baris dan kolom di dataset df adalah {df.shape}')
df.info()

Jumlah baris dan kolom di dataset df adalah (2240, 29)
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2240 entries, 0 to 2239
Data columns (total 29 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   ID                   2240 non-null   int64  
 1   Year_Birth           2240 non-null   int64  
 2   Education            2240 non-null   object 
 3   Marital_Status       2240 non-null   object 
 4   Income               2216 non-null   float64
 5   Kidhome              2240 non-null   int64  
 6   Teenhome             2240 non-null   int64  
 7   Dt_Customer          2240 non-null   object 
 8   Recency              2240 non-null   int64  
 9   MntWines             2240 non-null   int64  
 10  MntFruits            2240 non-null   int64  
 11  MntMeatProducts      2240 non-null   int64  
 12  MntFishProducts      2240 non-null   int64  
 13  MntSweetProducts     2240 non-null   int64  
 14  MntGoldProds         2240 non-nul

In [4]:
display(df.describe().round(3), df.describe(include='object'))

Unnamed: 0,ID,Year_Birth,Income,Kidhome,Teenhome,Recency,MntWines,MntFruits,MntMeatProducts,MntFishProducts,...,NumWebVisitsMonth,AcceptedCmp3,AcceptedCmp4,AcceptedCmp5,AcceptedCmp1,AcceptedCmp2,Complain,Z_CostContact,Z_Revenue,Response
count,2240.0,2240.0,2216.0,2240.0,2240.0,2240.0,2240.0,2240.0,2240.0,2240.0,...,2240.0,2240.0,2240.0,2240.0,2240.0,2240.0,2240.0,2240.0,2240.0,2240.0
mean,5592.16,1968.806,52247.251,0.444,0.506,49.109,303.936,26.302,166.95,37.525,...,5.317,0.073,0.075,0.073,0.064,0.013,0.009,3.0,11.0,0.149
std,3246.662,11.984,25173.077,0.538,0.545,28.962,336.597,39.773,225.715,54.629,...,2.427,0.26,0.263,0.26,0.245,0.115,0.096,0.0,0.0,0.356
min,0.0,1893.0,1730.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,3.0,11.0,0.0
25%,2828.25,1959.0,35303.0,0.0,0.0,24.0,23.75,1.0,16.0,3.0,...,3.0,0.0,0.0,0.0,0.0,0.0,0.0,3.0,11.0,0.0
50%,5458.5,1970.0,51381.5,0.0,0.0,49.0,173.5,8.0,67.0,12.0,...,6.0,0.0,0.0,0.0,0.0,0.0,0.0,3.0,11.0,0.0
75%,8427.75,1977.0,68522.0,1.0,1.0,74.0,504.25,33.0,232.0,50.0,...,7.0,0.0,0.0,0.0,0.0,0.0,0.0,3.0,11.0,0.0
max,11191.0,1996.0,666666.0,2.0,2.0,99.0,1493.0,199.0,1725.0,259.0,...,20.0,1.0,1.0,1.0,1.0,1.0,1.0,3.0,11.0,1.0


Unnamed: 0,Education,Marital_Status,Dt_Customer
count,2240,2240,2240
unique,5,8,663
top,Graduation,Married,31-08-2012
freq,1127,864,12


In [5]:
# Gunakan None atau angka positif untuk max_colwidth
pd.set_option('display.max_colwidth', 1000)  # atau gunakan angka besar seperti 1000

# data unik di tiap kolom
listItem = []
for col in df.columns:
    listItem.append([col, df[col].nunique(), df[col].unique()])

tabel1Desc = pd.DataFrame(columns=['Column Name', 'Number of Unique', 'Unique Sample'],
                         data=listItem)
tabel1Desc

Unnamed: 0,Column Name,Number of Unique,Unique Sample
0,ID,2240,"[5524, 2174, 4141, 6182, 5324, 7446, 965, 6177, 4855, 5899, 1994, 387, 2125, 8180, 2569, 2114, 9736, 4939, 6565, 2278, 9360, 5376, 1993, 4047, 1409, 7892, 2404, 5255, 9422, 1966, 6864, 3033, 5710, 7373, 8755, 10738, 4339, 10755, 8595, 2968, 8601, 503, 8430, 7281, 2139, 1371, 9909, 7286, 7244, 6566, 8614, 4114, 1331, 2225, 9381, 6260, 10383, 7437, 8557, 8375, 6853, 3076, 1012, 6518, 4137, 8082, 1386, 9369, 4477, 1357, 1402, 10629, 6312, 8132, 1050, 5846, 1859, 7503, 10401, 1618, 3332, 2261, 5346, 4119, 535, 5268, 273, 4452, 8504, 771, 8996, 9235, 5798, 11178, 2230, 7516, 7247, 11100, 4646, 3037, ...]"
1,Year_Birth,59,"[1957, 1954, 1965, 1984, 1981, 1967, 1971, 1985, 1974, 1950, 1983, 1976, 1959, 1952, 1987, 1946, 1980, 1949, 1982, 1979, 1951, 1969, 1986, 1989, 1963, 1970, 1973, 1943, 1975, 1996, 1968, 1964, 1977, 1978, 1955, 1966, 1988, 1948, 1958, 1972, 1960, 1945, 1991, 1962, 1953, 1961, 1956, 1992, 1900, 1893, 1990, 1947, 1899, 1993, 1994, 1941, 1944, 1995, 1940]"
2,Education,5,"[Graduation, PhD, Master, Basic, 2n Cycle]"
3,Marital_Status,8,"[Single, Together, Married, Divorced, Widow, Alone, Absurd, YOLO]"
4,Income,1974,"[58138.0, 46344.0, 71613.0, 26646.0, 58293.0, 62513.0, 55635.0, 33454.0, 30351.0, 5648.0, nan, 7500.0, 63033.0, 59354.0, 17323.0, 82800.0, 41850.0, 37760.0, 76995.0, 33812.0, 37040.0, 2447.0, 58607.0, 65324.0, 40689.0, 18589.0, 53359.0, 38360.0, 84618.0, 10979.0, 38620.0, 40548.0, 46610.0, 68657.0, 49389.0, 67353.0, 23718.0, 42429.0, 48948.0, 80011.0, 20559.0, 21994.0, 79941.0, 41728.0, 72550.0, 65486.0, 79143.0, 35790.0, 82582.0, 66373.0, 82384.0, 70287.0, 27938.0, 55954.0, 75777.0, 66653.0, 61823.0, 67680.0, 70666.0, 25721.0, 32474.0, 88194.0, 69096.0, 74854.0, 66991.0, 65031.0, 60631.0, 28332.0, 40246.0, 75251.0, 75825.0, 26326.0, 56046.0, 29760.0, 26304.0, 23559.0, 81361.0, 29440.0, 36138.0, 50388.0, 79593.0, 54178.0, 42394.0, 23626.0, 30096.0, 47916.0, 51813.0, 78497.0, 50150.0, 47823.0, 34554.0, 85693.0, 65846.0, 87195.0, 24594.0, 49096.0, 52413.0, 38557.0, 89058.0, 77298.0, ...]"
5,Kidhome,3,"[0, 1, 2]"
6,Teenhome,3,"[0, 1, 2]"
7,Dt_Customer,663,"[04-09-2012, 08-03-2014, 21-08-2013, 10-02-2014, 19-01-2014, 09-09-2013, 13-11-2012, 08-05-2013, 06-06-2013, 13-03-2014, 15-11-2013, 10-10-2012, 24-11-2012, 24-12-2012, 31-08-2012, 28-03-2013, 03-11-2012, 08-08-2012, 06-01-2013, 23-12-2012, 11-01-2014, 18-03-2013, 02-01-2013, 27-05-2013, 20-02-2013, 31-05-2013, 22-11-2013, 22-05-2014, 11-05-2013, 29-10-2012, 29-08-2013, 31-12-2013, 02-09-2013, 11-02-2014, 01-02-2013, 29-04-2013, 12-03-2013, 05-11-2013, 02-10-2013, 28-06-2014, 09-11-2012, 24-05-2013, 01-01-2014, 08-11-2012, 12-05-2014, 11-08-2012, 07-06-2014, 12-06-2013, 19-11-2012, 02-04-2013, 28-04-2014, 17-06-2013, 03-03-2014, 04-07-2013, 07-09-2012, 18-02-2013, 11-06-2013, 06-12-2013, 21-05-2013, 11-05-2014, 19-03-2014, 27-09-2013, 08-04-2013, 11-09-2012, 14-09-2012, 17-03-2013, 05-04-2013, 30-04-2014, 19-12-2012, 27-08-2012, 12-10-2012, 04-09-2013, 29-08-2012, 23-06-2013, 03-07-2013, 25-02-2014, 11-08-2013, 16-07-2013, 28-05-2014, 21-01-2014, 27-05-2014, 23-11-2013, 23-03-2014,..."
8,Recency,100,"[58, 38, 26, 94, 16, 34, 32, 19, 68, 11, 59, 82, 53, 23, 51, 20, 91, 86, 41, 42, 63, 0, 69, 89, 4, 96, 56, 31, 8, 55, 37, 76, 99, 3, 88, 80, 72, 24, 92, 39, 29, 2, 54, 57, 30, 12, 18, 75, 90, 1, 25, 40, 9, 87, 5, 95, 48, 70, 79, 45, 84, 44, 43, 35, 15, 17, 46, 27, 74, 85, 65, 13, 83, 10, 21, 61, 73, 47, 36, 49, 28, 64, 98, 78, 77, 81, 14, 52, 93, 50, 60, 66, 97, 62, 6, 33, 67, 22, 71, 7]"
9,MntWines,776,"[635, 11, 426, 173, 520, 235, 76, 14, 28, 5, 6, 194, 233, 3, 1006, 53, 84, 1012, 4, 86, 1, 867, 384, 270, 36, 684, 8, 112, 110, 96, 482, 40, 702, 55, 437, 421, 13, 9, 81, 123, 48, 826, 245, 650, 12, 510, 328, 984, 295, 447, 712, 452, 523, 546, 398, 10, 688, 247, 856, 496, 25, 258, 565, 2, 721, 1032, 577, 64, 163, 17, 130, 292, 350, 135, 230, 7, 445, 15, 27, 505, 51, 207, 41, 386, 562, 217, 144, 454, 425, 1332, 527, 490, 378, 547, 47, 320, 34, 722, 162, 450, ...]"


Secara umum, kita bisa melihat bahwa:
* dataset supermarket_customer memiliki 2240 baris dan 29 kolom
* Pada website [Europian union](https://ec.europa.eu/eurostat/statistics-explained/index.php?title=Glossary:Marital_status#:~:text=There%20are%20several%20types%20of,in%20certain%20cases%2C%20registered%20partnership.) menunjukkan bahwa pada kolom `Marital_Status`: Status pernikahan pelanggan. Beberapa nilai seperti YOLO dan Absurd tidak relevan dan akan dikategorikan sebagai NaN. Beberapa kategori seperti Together bisa digabungkan dengan Married, dan Alone dengan Single.
* Beberapa kolom seperti `Income`, `Recency`, `Year_Birth`. Perlu dicek kembali agar tidak ada *outlier*
* Pada kolom `Income`, ada *missing value*.
* Adapun beberapa kolom yang dapat diabaikan seperti `Dt_Customer`, `Z_CostContact`, `Z_Revenue`, `ID` karena tidak memiliki pengaruh terhadap analisis ini.
* Pada kolom `Education` akan digabungkan dengan Master karena 2n Cycle memiliki nilai yang sama dengan Master.
* Pada `MntWines`, `MntFruits`, `MntMeatProducts`, `MntFishProducts`, `MntSweetProducts`, `MntGoldProds`. Jumlah uang yang dihabiskan pelanggan untuk kategori produk tertentu dalam dua tahun terakhir. Perlu dicek apakah ada nilai ekstrem atau anomali.
* `NumDealsPurchases` Bisa digunakan untuk melihat apakah pelanggan cenderung membeli hanya saat ada promo.
* `Complain` Bisa digunakan untuk melihat hubungan dengan kepuasan pelanggan.
* Diketahui bahwa terakhir pelanggan berbelanja adalah pada tanggal 2014-09-08. maka dapat diasumsikan bahwa data terakhir didapat pada tahun 2014. sehingga kita dapat menambahkan kolom baru yaitu `Year_old` untuk mengetahui umur pelanggan saat ini, dengan cara `Year_old = 2014 - Year_Birth`.

### Missing Value

In [6]:
# persentase missing value di tiap kolom
df.isna().sum()/df.shape[0]*100

ID                     0.000000
Year_Birth             0.000000
Education              0.000000
Marital_Status         0.000000
Income                 1.071429
Kidhome                0.000000
Teenhome               0.000000
Dt_Customer            0.000000
Recency                0.000000
MntWines               0.000000
MntFruits              0.000000
MntMeatProducts        0.000000
MntFishProducts        0.000000
MntSweetProducts       0.000000
MntGoldProds           0.000000
NumDealsPurchases      0.000000
NumWebPurchases        0.000000
NumCatalogPurchases    0.000000
NumStorePurchases      0.000000
NumWebVisitsMonth      0.000000
AcceptedCmp3           0.000000
AcceptedCmp4           0.000000
AcceptedCmp5           0.000000
AcceptedCmp1           0.000000
AcceptedCmp2           0.000000
Complain               0.000000
Z_CostContact          0.000000
Z_Revenue              0.000000
Response               0.000000
dtype: float64

Dikarenakan *missing value* pada kolom hanya ada pada kolom `income` dengan proporsi yang sangat kecil (<2%), kita bisa menghapus baris yang mengandung *missing value* tersebut.

In [7]:
# Menghapus Missing value
df.dropna(inplace=True)

In [8]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 2216 entries, 0 to 2239
Data columns (total 29 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   ID                   2216 non-null   int64  
 1   Year_Birth           2216 non-null   int64  
 2   Education            2216 non-null   object 
 3   Marital_Status       2216 non-null   object 
 4   Income               2216 non-null   float64
 5   Kidhome              2216 non-null   int64  
 6   Teenhome             2216 non-null   int64  
 7   Dt_Customer          2216 non-null   object 
 8   Recency              2216 non-null   int64  
 9   MntWines             2216 non-null   int64  
 10  MntFruits            2216 non-null   int64  
 11  MntMeatProducts      2216 non-null   int64  
 12  MntFishProducts      2216 non-null   int64  
 13  MntSweetProducts     2216 non-null   int64  
 14  MntGoldProds         2216 non-null   int64  
 15  NumDealsPurchases    2216 non-null   int64 

Setelah semua jumlah data disamakan maka dapat dilakukan eksplorasi data lebih lanjut.

### Menghapus Kolom
Pertama, kita akan menghapus kolom yang tidak dibutuhkan untuk analisis ini. Kolom yang akan dihapus adalah: `ID`. Kolom ini tidak memiliki informasi yang relevan untuk analisis ini.

Untuk kolom `Dt_Customer`, `Z_CostContact`, dan `Z_Revenue` juga akan kenapa dihapus adalah karena tujuan analisis ini adalah untuk mengetahui pola pembelian pelanggan. Oleh karena itu, membandingkan variabel yang tidak secara langsung berkaitan dengan kebiasaan belanja pelanggan tidak akan memberikan wawasan yang relevan.

In [9]:
df.drop(['ID', 'Dt_Customer', 'Z_CostContact', 'Z_Revenue'], axis=1, inplace=True)

In [10]:
df.columns

Index(['Year_Birth', 'Education', 'Marital_Status', 'Income', 'Kidhome',
       'Teenhome', 'Recency', 'MntWines', 'MntFruits', 'MntMeatProducts',
       'MntFishProducts', 'MntSweetProducts', 'MntGoldProds',
       'NumDealsPurchases', 'NumWebPurchases', 'NumCatalogPurchases',
       'NumStorePurchases', 'NumWebVisitsMonth', 'AcceptedCmp3',
       'AcceptedCmp4', 'AcceptedCmp5', 'AcceptedCmp1', 'AcceptedCmp2',
       'Complain', 'Response'],
      dtype='object')

### Memperbaiki kolom
Pada kolom `Marital_Status` kita harus menangani nilai yang tidak valid dengan cara mengubah data 'Alone' menjadi 'Single' dan 'Together' menjadi 'Married'. Kemudian menghapus data 'Absurd' dan 'YOLO' menjadi NaN.

In [11]:
df['Marital_Status'].value_counts()

Marital_Status
Married     857
Together    573
Single      471
Divorced    232
Widow        76
Alone         3
Absurd        2
YOLO          2
Name: count, dtype: int64

In [12]:
# Menggabungkan "Alone" dan "Together" menjadi "Single" dan "Married"
df.loc[df['Marital_Status']=='Alone', 'Marital_Status'] = 'Single'
df.loc[df['Marital_Status']=='Together', 'Marital_Status'] = 'Married'

# Mengganti "YOLO" dan "Absurd" dengan NaN
df['Marital_Status'] = df['Marital_Status'].replace(['YOLO', 'Absurd'], 'Unknown')

In [13]:
df['Marital_Status'].value_counts()

Marital_Status
Married     1430
Single       474
Divorced     232
Widow         76
Unknown        4
Name: count, dtype: int64

### Menambahkan kolom
Disini saya menambahkan kolom baru yakni:

* `Age` : Dapat dihitung dari `Year_Birth`, untuk mengetahui usia pelanggan.
* `Total_spending` : Dapat dihitung dari `MntWines`, `MntFruits`, `MntMeatProducts`, `MntFishProducts`, `MntSweetProducts`, `MntGoldProds` untuk mengetahui total pengeluaran pelanggan.
* `Avg_spending` : Dapat dihitung dari `Total_spending` dan `NumWebPurchases` untuk mengetahui rata-rata pengeluaran pelanggan.
* `Family_Size` : Dapat dihitung dari `Kidhome` dan `Teenhome` untuk mengetahui ukuran keluarga pelanggan.
* `Total_Accepted_campaigns` : Dapat dihitung dari `AcceptedCmp1`, `AcceptedCmp2`, `AcceptedCmp3`, `AcceptedCmp4`, `AcceptedCmp5`, `Response` untuk mengetahui total kampanye yang diikuti pelanggan.

Age: 

Bisa digunakan untuk melihat apakah pelanggan yang lebih tua atau lebih muda memiliki kebiasaan belanja yang berbeda.

In [14]:
df['Age'] = 2014 - df['Year_Birth']

Total_Spending:

Bisa digunakan untuk mengelompokkan pelanggan berdasarkan tingkat pengeluaran (low spender vs high spender).

In [15]:
df['Total_Spending'] = df[['MntWines', 'MntFruits', 'MntMeatProducts', 'MntFishProducts', 'MntSweetProducts', 'MntGoldProds']].sum(axis=1)


Avg_Spending:

Bisa membantu melihat apakah pelanggan dengan pengeluaran tinggi melakukan sedikit pembelian besar atau banyak pembelian kecil.

In [16]:
df['Total_Purchases'] = df[['NumWebPurchases', 'NumCatalogPurchases', 'NumStorePurchases']].sum(axis=1)
df['Avg_Spending_Per_Purchase'] = (df['Total_Spending'] / df['Total_Purchases']).round(2)

Family_Size:

Bisa digunakan untuk melihat apakah keluarga besar memiliki kebiasaan belanja berbeda dari pelanggan yang tinggal sendiri

In [17]:
df['Family_Size'] = df['Kidhome'] + df['Teenhome'] + 1

Total_Accepted_Campaigns:

Bisa membantu melihat apakah pelanggan yang sering menerima promo memiliki kebiasaan belanja yang berbeda.

In [18]:
df['Total_Accepted_Campaigns'] = df[['AcceptedCmp1', 'AcceptedCmp2', 'AcceptedCmp3', 'AcceptedCmp4', 'AcceptedCmp5', 'Response']].sum(axis=1)

## Data yang sudah bersih
Kita sudah selesai membersihkan data kita, sekarang, mari kita lihat sekilas informasi dari data yang sudah kita bersihkan

Mengecek kembali isi keseluruhan data:

In [19]:
display(df.head(), df.tail())

Unnamed: 0,Year_Birth,Education,Marital_Status,Income,Kidhome,Teenhome,Recency,MntWines,MntFruits,MntMeatProducts,...,AcceptedCmp1,AcceptedCmp2,Complain,Response,Age,Total_Spending,Total_Purchases,Avg_Spending_Per_Purchase,Family_Size,Total_Accepted_Campaigns
0,1957,Graduation,Single,58138.0,0,0,58,635,88,546,...,0,0,0,1,57,1617,22,73.5,1,1
1,1954,Graduation,Single,46344.0,1,1,38,11,1,6,...,0,0,0,0,60,27,4,6.75,3,0
2,1965,Graduation,Married,71613.0,0,0,26,426,49,127,...,0,0,0,0,49,776,20,38.8,1,0
3,1984,Graduation,Married,26646.0,1,0,26,11,4,20,...,0,0,0,0,30,53,6,8.83,2,0
4,1981,PhD,Married,58293.0,1,0,94,173,43,118,...,0,0,0,0,33,422,14,30.14,2,0


Unnamed: 0,Year_Birth,Education,Marital_Status,Income,Kidhome,Teenhome,Recency,MntWines,MntFruits,MntMeatProducts,...,AcceptedCmp1,AcceptedCmp2,Complain,Response,Age,Total_Spending,Total_Purchases,Avg_Spending_Per_Purchase,Family_Size,Total_Accepted_Campaigns
2235,1967,Graduation,Married,61223.0,0,1,46,709,43,182,...,0,0,0,0,47,1341,16,83.81,2,0
2236,1946,PhD,Married,64014.0,2,1,56,406,0,30,...,1,0,0,0,68,444,15,29.6,4,1
2237,1981,Graduation,Divorced,56981.0,0,0,91,908,48,217,...,0,0,0,0,33,1241,18,68.94,1,1
2238,1956,Master,Married,69245.0,0,1,8,428,30,214,...,0,0,0,0,58,843,21,40.14,2,0
2239,1954,PhD,Married,52869.0,1,1,40,84,3,61,...,0,0,0,1,60,172,8,21.5,3,1


In [20]:
listItem = []
for col in df.columns :
    listItem.append([col, df[col].dtype, df[col].isna().sum(),
                    df[col].nunique(), list(df[col].drop_duplicates().sample(2).values)]);

dfDesc = pd.DataFrame(columns=['dataFeatures', 'dataType', 'null', 'unique', 'uniqueSample'],
                     data=listItem)
print(df.shape)
dfDesc

(2216, 31)


Unnamed: 0,dataFeatures,dataType,null,unique,uniqueSample
0,Year_Birth,int64,0,59,"[1961, 1984]"
1,Education,object,0,5,"[Master, Basic]"
2,Marital_Status,object,0,5,"[Married, Single]"
3,Income,float64,0,1974,"[38725.0, 34853.0]"
4,Kidhome,int64,0,3,"[1, 0]"
5,Teenhome,int64,0,3,"[2, 1]"
6,Recency,int64,0,100,"[85, 87]"
7,MntWines,int64,0,776,"[106, 897]"
8,MntFruits,int64,0,158,"[81, 197]"
9,MntMeatProducts,int64,0,554,"[227, 264]"


# Data Analysis
Kita sudah melakukan tahap _data cleaning_. Sekarang, kita bisa mulai melakukan analisis untuk mencari tahu **Bagaimana karakteristik pelanggan yang memberikan kontribusi terbesar terhadap pendapatan supermarket, terutama dibandingkan pelanggan dengan pengeluaran lebih rendah?**.

Analisis akan dilakukan dengan membandingkan pelanggan berdasarkan pola pembelian dan karakteristiknya. Tujuan utama adalah memahami faktor-faktor yang memengaruhi perilaku belanja pelanggan.

Dari **2216 data pelanggan**, kita akan melihat perbedaan perilaku berdasarkan berbagai fitur seperti **umur, status pernikahan, tingkat pendidikan, pendapatan, serta kebiasaan belanja**.

Karena data ini memiliki berbagai fitur numerik dan kategorikal, maka:

* **Untuk data kategorikal**, perbandingan akan dilakukan berdasarkan **proporsi (%)**, bukan hanya jumlah absolut, agar lebih akurat dalam memahami distribusi.
* **Untuk data numerik**, analisis dilakukan dengan melihat **rata-rata, median, serta distribusi (skewness & outliers)** guna memahami kecenderungan dan variasi antar pelanggan.
Selain itu, kita juga akan melihat *p*ola pembelian dan efektivitas kampanye pemasaran**, untuk mengetahui apakah ada perbedaan signifikan antara pelanggan yang menerima promo dengan yang tidak.

## **4.1 Question 1**

### **4.2 Question 2**

## **Section 5. Conclusion and Recommendation**

**5.1 Conclusion**

**5.2 Recommendation**