## 대형 마트 고객 데이터 RFM 분석 프로젝트

### 1. 프로젝트 목표
- 고객 구매 데이터를 바탕으로 RFM(Recency, Frequency, Monetary) 지표를 생성
- RFM 점수를 기반으로 고객을 VIP, 이탈 위험 고객 등 여러 그룹으로 분류
- 각 고객 그룹의 특성을 파악하고, 그룹별 맞춤 마케팅 전략을 제안

### 2. 사용 데이터셋
- UCI Machine Learning Repository의 Online Retail Dataset
- https://archive.ics.uci.edu/dataset/352/online+retail

---

### 기본 데이터 처리 방법 정리

In [2]:
import pandas as pd
import numpy as np

# 데이터를 불러옵니다. 
#   엑셀 파일일 경우, read_excel을 사용
#    csv 파일일 경우, read_csv를 사용
df = pd.read_excel("DATA/Online Retail.xlsx")

# 1. 데이터 앞/뒤 5개씩 확인하기
print("--- 데이터 상위 5개 ---")
display(df.head()) # 앞 확인

print("\n--- 데이터 하위 5개 ---")
display(df.tail()) # 뒤 확인

# 2. 데이터 기본 정보 확인 (데이터 타입, non-null 개수 등)
print("\n--- 데이터 정보 ---")
df.info()

# 3. 숫자형 데이터 기초 통계량 확인
print("\n--- 기초 통계량 ---")
display(df.describe())

# 4. 데이터의 전체 행, 열 개수 확인
print(f"\n전체 행, 열 개수: {df.shape}")

--- 데이터 상위 5개 ---


Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country
0,536365,85123A,WHITE HANGING HEART T-LIGHT HOLDER,6,2010-12-01 08:26:00,2.55,17850.0,United Kingdom
1,536365,71053,WHITE METAL LANTERN,6,2010-12-01 08:26:00,3.39,17850.0,United Kingdom
2,536365,84406B,CREAM CUPID HEARTS COAT HANGER,8,2010-12-01 08:26:00,2.75,17850.0,United Kingdom
3,536365,84029G,KNITTED UNION FLAG HOT WATER BOTTLE,6,2010-12-01 08:26:00,3.39,17850.0,United Kingdom
4,536365,84029E,RED WOOLLY HOTTIE WHITE HEART.,6,2010-12-01 08:26:00,3.39,17850.0,United Kingdom



--- 데이터 하위 5개 ---


Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country
541904,581587,22613,PACK OF 20 SPACEBOY NAPKINS,12,2011-12-09 12:50:00,0.85,12680.0,France
541905,581587,22899,CHILDREN'S APRON DOLLY GIRL,6,2011-12-09 12:50:00,2.1,12680.0,France
541906,581587,23254,CHILDRENS CUTLERY DOLLY GIRL,4,2011-12-09 12:50:00,4.15,12680.0,France
541907,581587,23255,CHILDRENS CUTLERY CIRCUS PARADE,4,2011-12-09 12:50:00,4.15,12680.0,France
541908,581587,22138,BAKING SET 9 PIECE RETROSPOT,3,2011-12-09 12:50:00,4.95,12680.0,France



--- 데이터 정보 ---
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 541909 entries, 0 to 541908
Data columns (total 8 columns):
 #   Column       Non-Null Count   Dtype         
---  ------       --------------   -----         
 0   InvoiceNo    541909 non-null  object        
 1   StockCode    541909 non-null  object        
 2   Description  540455 non-null  object        
 3   Quantity     541909 non-null  int64         
 4   InvoiceDate  541909 non-null  datetime64[ns]
 5   UnitPrice    541909 non-null  float64       
 6   CustomerID   406829 non-null  float64       
 7   Country      541909 non-null  object        
dtypes: datetime64[ns](1), float64(2), int64(1), object(4)
memory usage: 33.1+ MB

--- 기초 통계량 ---


Unnamed: 0,Quantity,InvoiceDate,UnitPrice,CustomerID
count,541909.0,541909,541909.0,406829.0
mean,9.55225,2011-07-04 13:34:57.156386048,4.611114,15287.69057
min,-80995.0,2010-12-01 08:26:00,-11062.06,12346.0
25%,1.0,2011-03-28 11:34:00,1.25,13953.0
50%,3.0,2011-07-19 17:17:00,2.08,15152.0
75%,10.0,2011-10-19 11:27:00,4.13,16791.0
max,80995.0,2011-12-09 12:50:00,38970.0,18287.0
std,218.081158,,96.759853,1713.600303



전체 행, 열 개수: (541909, 8)


In [16]:
# 특정 국가(Country)의 데이터만 선택하기
df_uk = df[df['Country'] == 'United Kingdom']
print(f"영국 데이터 개수: {len(df_uk)}")

# 수량(Quantity)이 10개 이상인 데이터만 선택하기
df_over_10 = df[df['Quantity'] >= 500]
print(f"수량 10개 이상 데이터 개수: {len(df_over_10)}")

# 특정 열(Column)만 선택하기
df_id_price = df[['CustomerID', 'UnitPrice']]
display(df_id_price.head())

영국 데이터 개수: 495478
수량 10개 이상 데이터 개수: 459


Unnamed: 0,CustomerID,UnitPrice
0,17850.0,2.55
1,17850.0,3.39
2,17850.0,2.75
3,17850.0,3.39
4,17850.0,3.39


In [5]:
# 국가가 'Spain', 'Italy' 중 하나에 포함되는 데이터
countries = ['Spain', 'Italy']
df_multi_country = df[df['Country'].isin(countries)]

display(df_multi_country)

Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country
6421,536944,22383,LUNCH BAG SUKI DESIGN,70,2010-12-03 12:20:00,1.65,12557.0,Spain
6422,536944,22384,LUNCH BAG PINK POLKADOT,100,2010-12-03 12:20:00,1.45,12557.0,Spain
6423,536944,20727,LUNCH BAG BLACK SKULL.,60,2010-12-03 12:20:00,1.65,12557.0,Spain
6424,536944,20725,LUNCH BAG RED RETROSPOT,70,2010-12-03 12:20:00,1.65,12557.0,Spain
6425,536944,20728,LUNCH BAG CARS BLUE,100,2010-12-03 12:20:00,1.45,12557.0,Spain
...,...,...,...,...,...,...,...,...
535271,581193,23291,DOLLY GIRL CHILDRENS CUP,2,2011-12-07 17:05:00,1.25,17097.0,Spain
535272,581193,85232D,SET/3 DECOUPAGE STACKING TINS,1,2011-12-07 17:05:00,4.95,17097.0,Spain
535273,581193,22721,SET OF 3 CAKE TINS SKETCHBOOK,2,2011-12-07 17:05:00,1.95,17097.0,Spain
535274,581193,23241,TREASURE TIN GYMKHANA DESIGN,1,2011-12-07 17:05:00,2.08,17097.0,Spain


---

### 데이터 정제 및 전처리 정리

In [3]:
# 결측치(비어있는 값) 처리

# 처리 전 전체 데이터 개수와 컬럼별 결측치 수를 확인합니다.
print("--- 처리 전 ---")
print(f"전체 데이터 수: {len(df)}")
print("컬럼별 결측치 수:")
print(df.isnull().sum())

# CustomerID에 결측치가 있는 행을 제거합니다. 
# dropna : Drop NA = 말 그대로 결측치를 제거하는 함수
df.dropna(subset=['CustomerID'], inplace=True)

# CustomerID는 이제 정수형으로 변환해도 안전합니다.
# astype(자료형) : 데이터프레임이나 시리즈(특정 열)의 데이터 타입(자료형)을 원하는 형태로 변환하는 함수
df['CustomerID'] = df['CustomerID'].astype(int)

# 처리 후 데이터 개수와 결측치를 다시 확인합니다.
print("\n--- CustomerID 결측치 제거 후 ---")
print(f"전체 데이터 수: {len(df)}")
print("컬럼별 결측치 수:")
print(df.isnull().sum())

--- 처리 전 ---
전체 데이터 수: 541909
컬럼별 결측치 수:
InvoiceNo           0
StockCode           0
Description      1454
Quantity            0
InvoiceDate         0
UnitPrice           0
CustomerID     135080
Country             0
dtype: int64

--- CustomerID 결측치 제거 후 ---
전체 데이터 수: 406829
컬럼별 결측치 수:
InvoiceNo      0
StockCode      0
Description    0
Quantity       0
InvoiceDate    0
UnitPrice      0
CustomerID     0
Country        0
dtype: int64


In [4]:
# 이상치 처리

# 이상치 처리 전 데이터 수를 확인합니다.
print(f"--- 이상치 처리 전 데이터 수: {len(df)} ---")

# 1. Quantity(수량)가 0 이하인 데이터(반품 등)를 제거합니다. 
df = df[df['Quantity'] > 0]

# 2. UnitPrice(단가)가 0인 데이터를 제거합니다. 
df = df[df['UnitPrice'] > 0]

# 이상치 처리 후 데이터 수를 확인합니다.
print(f"--- 이상치 처리 후 데이터 수: {len(df)} ---")

--- 이상치 처리 전 데이터 수: 406829 ---
--- 이상치 처리 후 데이터 수: 397884 ---


In [5]:
# 데이터 타입 변환

# 타입 변환 전의 데이터 타입을 확인합니다.
print("--- 타입 변환 전 ---")
df.info()

# InvoiceDate 컬럼을 datetime 타입으로 변환합니다. 
df['InvoiceDate'] = pd.to_datetime(df['InvoiceDate'])

# 타입 변환 후의 데이터 타입을 다시 확인하여 변환이 잘 되었는지 검증합니다.
print("\n--- 타입 변환 후 ---")
df.info()

--- 타입 변환 전 ---
<class 'pandas.core.frame.DataFrame'>
Index: 397884 entries, 0 to 541908
Data columns (total 8 columns):
 #   Column       Non-Null Count   Dtype         
---  ------       --------------   -----         
 0   InvoiceNo    397884 non-null  object        
 1   StockCode    397884 non-null  object        
 2   Description  397884 non-null  object        
 3   Quantity     397884 non-null  int64         
 4   InvoiceDate  397884 non-null  datetime64[ns]
 5   UnitPrice    397884 non-null  float64       
 6   CustomerID   397884 non-null  int64         
 7   Country      397884 non-null  object        
dtypes: datetime64[ns](1), float64(1), int64(2), object(4)
memory usage: 27.3+ MB

--- 타입 변환 후 ---
<class 'pandas.core.frame.DataFrame'>
Index: 397884 entries, 0 to 541908
Data columns (total 8 columns):
 #   Column       Non-Null Count   Dtype         
---  ------       --------------   -----         
 0   InvoiceNo    397884 non-null  object        
 1   StockCode    397884 

## RFM 피처 엔지니어링

In [6]:
# RFM 엔지니어링 전 거래 총 금액인, TotalPrice 컬럼을 생성

# Quantity(수량)와 UnitPrice(단가)를 곱하여 TotalPrice를 계산
df['TotalPrice'] = df['Quantity'] * df['UnitPrice']

# 생성 확인
print("TotalPrice 컬럼이 추가되었습니다.")
display(df.head())

TotalPrice 컬럼이 추가되었습니다.


Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country,TotalPrice
0,536365,85123A,WHITE HANGING HEART T-LIGHT HOLDER,6,2010-12-01 08:26:00,2.55,17850,United Kingdom,15.3
1,536365,71053,WHITE METAL LANTERN,6,2010-12-01 08:26:00,3.39,17850,United Kingdom,20.34
2,536365,84406B,CREAM CUPID HEARTS COAT HANGER,8,2010-12-01 08:26:00,2.75,17850,United Kingdom,22.0
3,536365,84029G,KNITTED UNION FLAG HOT WATER BOTTLE,6,2010-12-01 08:26:00,3.39,17850,United Kingdom,20.34
4,536365,84029E,RED WOOLLY HOTTIE WHITE HEART.,6,2010-12-01 08:26:00,3.39,17850,United Kingdom,20.34


In [7]:
# 고객별 RFM 지표 계산

import datetime as dt

# Recency 계산을 위한 기준 날짜를 설정.
# 데이터 수집 기간이 있기 때문에, 데이터의 마지막 구매일 다음 날을 기준으로
snapshot_date = df['InvoiceDate'].max() + dt.timedelta(days=1)
print(f"기준 날짜(Snapshot Date): {snapshot_date}")

# CustomerID를 기준으로 데이터를 그룹화하고 R, F, M을 계산
rfm_df = df.groupby('CustomerID').agg({
    'InvoiceDate': lambda date: (snapshot_date - date.max()).days, # Recency 
    'InvoiceNo': 'nunique',                                        # Frequency 
    'TotalPrice': 'sum'                                            # Monetary 
})

# 계산된 컬럼의 이름을 R, F, M으로 변경합니다.
rfm_df.rename(columns={'InvoiceDate': 'Recency',
                       'InvoiceNo': 'Frequency',
                       'TotalPrice': 'Monetary'}, inplace=True)

# 생성된 RFM 테이블을 확인합니다.
print("\nRFM 테이블이 생성되었습니다.")
display(rfm_df.head())

기준 날짜(Snapshot Date): 2011-12-10 12:50:00

RFM 테이블이 생성되었습니다.


Unnamed: 0_level_0,Recency,Frequency,Monetary
CustomerID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
12346,326,1,77183.6
12347,2,7,4310.0
12348,75,4,1797.24
12349,19,1,1757.55
12350,310,1,334.4
