## 대형 마트 고객 데이터 RFM 분석 프로젝트

### 1. 프로젝트 목표
- 고객 구매 데이터를 바탕으로 RFM(Recency, Frequency, Monetary) 지표를 생성한다.
- RFM 점수를 기반으로 고객을 VIP, 이탈 위험 고객 등 여러 그룹으로 분류한다.
- 각 고객 그룹의 특성을 파악하고, 그룹별 맞춤 마케팅 전략을 제안한다.

### 2. 사용 데이터셋
- UCI Machine Learning Repository의 Online Retail Dataset
- https://archive.ics.uci.edu/dataset/352/online+retail

In [10]:
# 데이터 분석에 필요한 라이브러리들을 불러옵니다.
import pandas as pd
import numpy as np

# 데이터를 불러옵니다. 엑셀 파일이므로 read_excel을 사용합니다.
# 인코딩 에러가 발생할 경우, encoding='ISO-8859-1' 또는 encoding='cp1252'를 추가해보세요.
try:
    df = pd.read_excel("DATA/Online Retail.xlsx")
except Exception as e:
    print(f"엑셀 파일 로딩 중 에러 발생: {e}")
    # 대체 인코딩으로 시도
    # df = pd.read_csv("Online Retail.csv", encoding='ISO-8859-1')

# 1. 데이터 앞/뒤 5개씩 확인하기
print("--- 데이터 상위 5개 ---")
display(df.head())
print("\n--- 데이터 하위 5개 ---")
display(df.tail())

# 2. 데이터 기본 정보 확인 (데이터 타입, non-null 개수 등)
print("\n--- 데이터 정보 ---")
df.info()

# 3. 숫자형 데이터 기초 통계량 확인
print("\n--- 기초 통계량 ---")
display(df.describe())

# 4. 데이터의 전체 행, 열 개수 확인
print(f"\n데이터 모양(Shape): {df.shape}")

--- 데이터 상위 5개 ---


Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country
0,536365,85123A,WHITE HANGING HEART T-LIGHT HOLDER,6,2010-12-01 08:26:00,2.55,17850.0,United Kingdom
1,536365,71053,WHITE METAL LANTERN,6,2010-12-01 08:26:00,3.39,17850.0,United Kingdom
2,536365,84406B,CREAM CUPID HEARTS COAT HANGER,8,2010-12-01 08:26:00,2.75,17850.0,United Kingdom
3,536365,84029G,KNITTED UNION FLAG HOT WATER BOTTLE,6,2010-12-01 08:26:00,3.39,17850.0,United Kingdom
4,536365,84029E,RED WOOLLY HOTTIE WHITE HEART.,6,2010-12-01 08:26:00,3.39,17850.0,United Kingdom



--- 데이터 하위 5개 ---


Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country
541904,581587,22613,PACK OF 20 SPACEBOY NAPKINS,12,2011-12-09 12:50:00,0.85,12680.0,France
541905,581587,22899,CHILDREN'S APRON DOLLY GIRL,6,2011-12-09 12:50:00,2.1,12680.0,France
541906,581587,23254,CHILDRENS CUTLERY DOLLY GIRL,4,2011-12-09 12:50:00,4.15,12680.0,France
541907,581587,23255,CHILDRENS CUTLERY CIRCUS PARADE,4,2011-12-09 12:50:00,4.15,12680.0,France
541908,581587,22138,BAKING SET 9 PIECE RETROSPOT,3,2011-12-09 12:50:00,4.95,12680.0,France



--- 데이터 정보 ---
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 541909 entries, 0 to 541908
Data columns (total 8 columns):
 #   Column       Non-Null Count   Dtype         
---  ------       --------------   -----         
 0   InvoiceNo    541909 non-null  object        
 1   StockCode    541909 non-null  object        
 2   Description  540455 non-null  object        
 3   Quantity     541909 non-null  int64         
 4   InvoiceDate  541909 non-null  datetime64[ns]
 5   UnitPrice    541909 non-null  float64       
 6   CustomerID   406829 non-null  float64       
 7   Country      541909 non-null  object        
dtypes: datetime64[ns](1), float64(2), int64(1), object(4)
memory usage: 33.1+ MB

--- 기초 통계량 ---


Unnamed: 0,Quantity,InvoiceDate,UnitPrice,CustomerID
count,541909.0,541909,541909.0,406829.0
mean,9.55225,2011-07-04 13:34:57.156386048,4.611114,15287.69057
min,-80995.0,2010-12-01 08:26:00,-11062.06,12346.0
25%,1.0,2011-03-28 11:34:00,1.25,13953.0
50%,3.0,2011-07-19 17:17:00,2.08,15152.0
75%,10.0,2011-10-19 11:27:00,4.13,16791.0
max,80995.0,2011-12-09 12:50:00,38970.0,18287.0
std,218.081158,,96.759853,1713.600303



데이터 모양(Shape): (541909, 8)


In [16]:
# 특정 국가(Country)의 데이터만 선택하기
df_uk = df[df['Country'] == 'United Kingdom']
print(f"영국 데이터 개수: {len(df_uk)}")

# 수량(Quantity)이 10개 이상인 데이터만 선택하기
df_over_10 = df[df['Quantity'] >= 500]
print(f"수량 10개 이상 데이터 개수: {len(df_over_10)}")

# 특정 열(Column)만 선택하기
df_id_price = df[['CustomerID', 'UnitPrice']]
display(df_id_price.head())

영국 데이터 개수: 495478
수량 10개 이상 데이터 개수: 459


Unnamed: 0,CustomerID,UnitPrice
0,17850.0,2.55
1,17850.0,3.39
2,17850.0,2.75
3,17850.0,3.39
4,17850.0,3.39


In [20]:
# 국가가 'France' 또는 'Spain' 또는 'Italy' 중 하나에 포함되는 데이터
countries = ['Spain', 'Italy']
df_multi_country = df[df['Country'].isin(countries)]

In [21]:
display(df_multi_country)

Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country
6421,536944,22383,LUNCH BAG SUKI DESIGN,70,2010-12-03 12:20:00,1.65,12557.0,Spain
6422,536944,22384,LUNCH BAG PINK POLKADOT,100,2010-12-03 12:20:00,1.45,12557.0,Spain
6423,536944,20727,LUNCH BAG BLACK SKULL.,60,2010-12-03 12:20:00,1.65,12557.0,Spain
6424,536944,20725,LUNCH BAG RED RETROSPOT,70,2010-12-03 12:20:00,1.65,12557.0,Spain
6425,536944,20728,LUNCH BAG CARS BLUE,100,2010-12-03 12:20:00,1.45,12557.0,Spain
...,...,...,...,...,...,...,...,...
535271,581193,23291,DOLLY GIRL CHILDRENS CUP,2,2011-12-07 17:05:00,1.25,17097.0,Spain
535272,581193,85232D,SET/3 DECOUPAGE STACKING TINS,1,2011-12-07 17:05:00,4.95,17097.0,Spain
535273,581193,22721,SET OF 3 CAKE TINS SKETCHBOOK,2,2011-12-07 17:05:00,1.95,17097.0,Spain
535274,581193,23241,TREASURE TIN GYMKHANA DESIGN,1,2011-12-07 17:05:00,2.08,17097.0,Spain
