# 이 노트북은 모델링이 목적이 아닙니다!

# 주제 선정 계기

> 평소 마케팅 분야에 많은 관심을 가지고 있습니다.<br>
그래서 고객 데이터를 다뤄보고 싶어 Kaggle에서 ecommerce 데이터셋을 선정하였습니다.<br>
고객의 충성도를 평가하기 위해, 마케팅 기법 중 하나인 RFM 모형을 통해 고객 등급을 매겼습니다.
* * *

# 주제: RFM모형을 이용한 충성고객 판단하기

> RFM모형이란?
- Recency : 얼마나 최근에 구매했는가
    - InvoiceDate 컬럼 확인
    - 최근성(R)
- Frequency : 얼마나 자주 구매했는가
    - CustomerID별 합
    - 빈도(F)
- Monetary : 얼마나 많은 금액을 지출했는가
    - CustomerID별 Quantity * UnitPrice => 'PurchaseAmount'로 먼저 정의 예정
    - 총금액(M)
> R,F,M 점수를 산출하고, 이를 특정 기준에 따라 고객 점수를 산출하는 방식<br>
> 이 파일은 차후 웹의 알고리즘으로 활용할 때 참고할 예정
* * *

# EDA

> 처음보는 고객 데이터로 어떻게 RFM 스코어를 도출 할 수 있을까 고민하고, RFM 스코어를 산출하는 것이 목적
raw하게 제가 생각한 과정을 남기기 위해, 깔끔하게 코드를 정리하지 않았습니다.

## 데이터 적재

> 자료출처: https://www.kaggle.com/datasets/carrie1/ecommerce-data?resource=download

In [1]:
# 필요한 라이브러리 import
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

- Column Info

>1.InvoiceNo: Invoice number. Nominal, a 6-digit integral number uniquely assigned to each transaction. If this code starts with letter 'c', it indicates a cancellation.<br>
2.StockCode: Product (item) code. Nominal, a 5-digit integral number uniquely assigned to each distinct product.<br>
3.Description: Product (item) name. Nominal.<br>
4.Quantity: The quantities of each product (item) per transaction. Numeric.<br>
5.InvoiceDate: Invice Date and time. Numeric, the day and time when each transaction was generated.<br>
6.UnitPrice: Unit price. Numeric, Product price per unit in sterling.<br>
7.CustomerID: Customer number. Nominal, a 5-digit integral number uniquely assigned to each customer.<br>
8.Country: Country name. Nominal, the name of the country where each customer resides.

In [2]:
df = pd.read_csv("commerce_data.csv")
df.head()

Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country
0,536365,85123A,WHITE HANGING HEART T-LIGHT HOLDER,6,12/1/2010 8:26,2.55,17850.0,United Kingdom
1,536365,71053,WHITE METAL LANTERN,6,12/1/2010 8:26,3.39,17850.0,United Kingdom
2,536365,84406B,CREAM CUPID HEARTS COAT HANGER,8,12/1/2010 8:26,2.75,17850.0,United Kingdom
3,536365,84029G,KNITTED UNION FLAG HOT WATER BOTTLE,6,12/1/2010 8:26,3.39,17850.0,United Kingdom
4,536365,84029E,RED WOOLLY HOTTIE WHITE HEART.,6,12/1/2010 8:26,3.39,17850.0,United Kingdom


* * *

## RFM 모형에 필요한 컬럼 형식으로 전처리 및 변형하기

In [3]:
# 불필요한 Description, StockCode 컬럼 제거
df.drop(columns = ['InvoiceNo','StockCode','Description'],inplace=True)

In [4]:
# InvoiceDate 컬럼 datetime 타입으로 변경
df['InvoiceDate'] = pd.to_datetime(df['InvoiceDate'])

In [5]:
# PurchaseAmount 컬럼 생성(Quantity * UnitPrice)
df['PurchaseAmount'] =  df['Quantity'] * df['UnitPrice']
df.drop(columns = ['Quantity','UnitPrice'],inplace=True)
df.head()

Unnamed: 0,InvoiceDate,CustomerID,Country,PurchaseAmount
0,2010-12-01 08:26:00,17850.0,United Kingdom,15.3
1,2010-12-01 08:26:00,17850.0,United Kingdom,20.34
2,2010-12-01 08:26:00,17850.0,United Kingdom,22.0
3,2010-12-01 08:26:00,17850.0,United Kingdom,20.34
4,2010-12-01 08:26:00,17850.0,United Kingdom,20.34


In [6]:
# 구매 금액이 음수인 경우는 어떤 케이스일까?
# 환불일 것이라고 예상
len(df['PurchaseAmount'] < 0)

541909

In [7]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 541909 entries, 0 to 541908
Data columns (total 4 columns):
 #   Column          Non-Null Count   Dtype         
---  ------          --------------   -----         
 0   InvoiceDate     541909 non-null  datetime64[ns]
 1   CustomerID      406829 non-null  float64       
 2   Country         541909 non-null  object        
 3   PurchaseAmount  541909 non-null  float64       
dtypes: datetime64[ns](1), float64(2), object(1)
memory usage: 16.5+ MB


In [8]:
# CustomerID를 str로 바꾸면 결측치 확인이 안됨.
# 그래서 결측치 제거 후, 타입 변경 예정.
df.describe()

Unnamed: 0,CustomerID,PurchaseAmount
count,406829.0,541909.0
mean,15287.69057,17.987795
std,1713.600303,378.810824
min,12346.0,-168469.6
25%,13953.0,3.4
50%,15152.0,9.75
75%,16791.0,17.4
max,18287.0,168469.6


In [9]:
df.isnull().sum()

InvoiceDate            0
CustomerID        135080
Country                0
PurchaseAmount         0
dtype: int64

* * *

## 결측치 제거

- RFM 모형은 고객에 대한 PK가 반드시 필요하다.
- 이에 따라 PK가 없는 row는 모두 버린다.

In [10]:
df = df.dropna(subset=['CustomerID'], how='any', axis=0)
df.isnull().sum()

InvoiceDate       0
CustomerID        0
Country           0
PurchaseAmount    0
dtype: int64

In [11]:
# CustomerID는 str형으로 변환
df['CustomerID']=df['CustomerID'].astype('int').astype('str')
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 406829 entries, 0 to 541908
Data columns (total 4 columns):
 #   Column          Non-Null Count   Dtype         
---  ------          --------------   -----         
 0   InvoiceDate     406829 non-null  datetime64[ns]
 1   CustomerID      406829 non-null  object        
 2   Country         406829 non-null  object        
 3   PurchaseAmount  406829 non-null  float64       
dtypes: datetime64[ns](1), float64(1), object(2)
memory usage: 15.5+ MB


In [12]:
df.tail()

Unnamed: 0,InvoiceDate,CustomerID,Country,PurchaseAmount
541904,2011-12-09 12:50:00,12680,France,10.2
541905,2011-12-09 12:50:00,12680,France,12.6
541906,2011-12-09 12:50:00,12680,France,16.6
541907,2011-12-09 12:50:00,12680,France,16.6
541908,2011-12-09 12:50:00,12680,France,14.85


* * *

# 고객별 R,F,M값 산출을 위해 점수화하기

In [13]:
# InvoiceDate => 약 1년치의 데이터 확인
print('InvoiceDate unique',df['InvoiceDate'].unique(),'\n')
print('총 개수: ',len(df['InvoiceDate'].unique()))

InvoiceDate unique ['2010-12-01T08:26:00.000000000' '2010-12-01T08:28:00.000000000'
 '2010-12-01T08:34:00.000000000' ... '2011-12-09T12:31:00.000000000'
 '2011-12-09T12:49:00.000000000' '2011-12-09T12:50:00.000000000'] 

총 개수:  20460


In [14]:
# 제일 중요한 Customer 수 파악하기 => 총 4372명의 고객 정보가 존재
print('CustomerID unique',df['CustomerID'].unique(),'\n')
print('총 개수: ',len(df['CustomerID'].unique()))

CustomerID unique ['17850' '13047' '12583' ... '13298' '14569' '12713'] 

총 개수:  4372


### Monetary

In [15]:
# 고객별 총 구매금액 확인 => Monetary
df.groupby('CustomerID')[['PurchaseAmount']].sum()

Unnamed: 0_level_0,PurchaseAmount
CustomerID,Unnamed: 1_level_1
12346,0.00
12347,4310.00
12348,1797.24
12349,1757.55
12350,334.40
...,...
18280,180.60
18281,80.82
18282,176.60
18283,2094.88


### Frequency

In [16]:
# 고객별 구매 횟수 산출 => Frequency
df.groupby('CustomerID')[['PurchaseAmount']].count()

Unnamed: 0_level_0,PurchaseAmount
CustomerID,Unnamed: 1_level_1
12346,2
12347,182
12348,31
12349,73
12350,17
...,...
18280,10
18281,7
18282,13
18283,756


### Recency

In [17]:
# 고객별 최근 구매일 산출 => Recency
df.groupby('CustomerID')[['InvoiceDate']].max()

Unnamed: 0_level_0,InvoiceDate
CustomerID,Unnamed: 1_level_1
12346,2011-01-18 10:17:00
12347,2011-12-07 15:52:00
12348,2011-09-25 13:13:00
12349,2011-11-21 09:51:00
12350,2011-02-02 16:01:00
...,...
18280,2011-03-07 09:52:00
18281,2011-06-12 10:53:00
18282,2011-12-02 11:43:00
18283,2011-12-06 12:02:00


* * *

## R,F,M을 산출한 데이터 프레임(rfm_df) 생성

- 원래 컬럼명을 영어로만 짓는게 낫지만, 이해를 위해 컬럼명을 아래와 같이 생성

In [18]:
rfm_df = pd.DataFrame()
rfm_df['최근성_R'] = df.groupby('CustomerID')[['InvoiceDate']].max()
rfm_df['빈도_F'] = df.groupby('CustomerID')[['PurchaseAmount']].count()
rfm_df['총금액_M'] = df.groupby('CustomerID')[['PurchaseAmount']].sum()
rfm_df.head()

Unnamed: 0_level_0,최근성_R,빈도_F,총금액_M
CustomerID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
12346,2011-01-18 10:17:00,2,0.0
12347,2011-12-07 15:52:00,182,4310.0
12348,2011-09-25 13:13:00,31,1797.24
12349,2011-11-21 09:51:00,73,1757.55
12350,2011-02-02 16:01:00,17,334.4


> 여기서 컬럼 R의 datime을 점수화를 하기 위해 datetime을 점수화 해야한다고 생각함

In [19]:
# 기준을 잡기 위해 모든 고객들 중 최근 구매일 산출
rfm_df['최근성_R'].max()

Timestamp('2011-12-09 12:50:00')

In [20]:
# 고객별 최근 구매일 중 가장 작은 값, 즉 가장 오랫동안 사지 않은 구매일을 기준으로 값 수정
rfm_df['최근성_R'].min()

Timestamp('2010-12-01 09:53:00')

In [21]:
current_day = pd.to_datetime('20101201') # 가장 빠른 날짜인 20101201을 기준으로 R 값 변경
time_diff = rfm_df['최근성_R']-current_day # 최근방문일과 기준 날짜의 시간 차이
time_in_seconds = [x.total_seconds() for x in time_diff] # 시간 차이를 초단위로 계산
rfm_df['최근성_R'] = time_in_seconds # 변환된 데이터를 다시 삽입한다.
rfm_df.head()

Unnamed: 0_level_0,최근성_R,빈도_F,총금액_M
CustomerID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
12346,4184220.0,2,0.0
12347,32111520.0,182,4310.0
12348,25794780.0,31,1797.24
12349,30707460.0,73,1757.55
12350,5500860.0,17,334.4


In [22]:
rfm_df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 4372 entries, 12346 to 18287
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   최근성_R   4372 non-null   float64
 1   빈도_F    4372 non-null   int64  
 2   총금액_M   4372 non-null   float64
dtypes: float64(2), int64(1)
memory usage: 136.6+ KB


* * *

# 각 컬럼은 min-max 스켈링 진행 후, 최종 스코어 산출하기

> 컬럼별 Min-Man 스케일링으로 점수화를 진행 예정<br>
    - 참고) 점수화 RFM SCORE를 20%씩 등급 부여
<br>

$x_i-min(x)\over max(x)-min(x)$
* $x_i$ : 변수의 i번째 값
* $min(x)$ : 최솟값
* $max(x)$ : 최댓값

In [23]:
from sklearn.preprocessing import MinMaxScaler

In [24]:
min_max_scaler = MinMaxScaler()
fitted = min_max_scaler.fit_transform(rfm_df)
fitted

array([[1.28688602e-01, 1.25281884e-04, 1.51091712e-02],
       [9.94978569e-01, 2.26760210e-02, 3.02971721e-02],
       [7.99036659e-01, 3.75845653e-03, 2.14424619e-02],
       ...,
       [9.81114728e-01, 1.50338261e-03, 1.57314917e-02],
       [9.91870418e-01, 9.45878226e-02, 2.24913149e-02],
       [8.87062463e-01, 8.64445001e-03, 2.15835588e-02]])

In [25]:
fit_rfm = pd.DataFrame(fitted, columns=rfm_df.columns, index=list(rfm_df.index.values))
fit_rfm.head()

Unnamed: 0,최근성_R,빈도_F,총금액_M
12346,0.128689,0.000125,0.015109
12347,0.994979,0.022676,0.030297
12348,0.799037,0.003758,0.021442
12349,0.951425,0.00902,0.021303
12350,0.16953,0.002005,0.016288


> 여기서 파레토 법칙을 적용할 예정<br>
파레토 법칙이란 가장 중요한 20 퍼센트가 나머지 80 퍼센트를 결정할 예정<br>
한 논문에서 총금액이 가장 중요하다라는 결론에 따라 총금액에 가장 큰 비중을 준다.

In [26]:
total = fit_rfm['최근성_R'].sum()+fit_rfm['빈도_F'].sum()+fit_rfm['총금액_M'].sum()
total

3444.7953043720886

In [27]:
print(fit_rfm['최근성_R'].sum()/total)
print(fit_rfm['빈도_F'].sum()/total)
print(fit_rfm['총금액_M'].sum()/total)

0.9576966288829607
0.0146367394374345
0.027666631679604706


In [28]:
fit_rfm['최근성_R'] = (fit_rfm['최근성_R'] * 0.1/(fit_rfm['최근성_R'].sum()/total))
fit_rfm['빈도_F'] = (fit_rfm['빈도_F'] *  0.1/(fit_rfm['빈도_F'].sum()/total))
fit_rfm['총금액_M'] = (fit_rfm['총금액_M'] *  0.8/(fit_rfm['총금액_M'].sum()/total))
fit_rfm['RFM_SCORE'] =fit_rfm['최근성_R'] + fit_rfm['빈도_F'] + fit_rfm['총금액_M']
fit_rfm.head()

Unnamed: 0,최근성_R,빈도_F,총금액_M,RFM_SCORE
12346,0.013437,0.000856,0.436892,0.451185
12347,0.103893,0.154925,0.876064,1.134882
12348,0.083433,0.025678,0.620024,0.729135
12349,0.099345,0.061628,0.61598,0.776952
12350,0.017702,0.013695,0.470966,0.502363


In [29]:
fit_rfm.head()

Unnamed: 0,최근성_R,빈도_F,총금액_M,RFM_SCORE
12346,0.013437,0.000856,0.436892,0.451185
12347,0.103893,0.154925,0.876064,1.134882
12348,0.083433,0.025678,0.620024,0.729135
12349,0.099345,0.061628,0.61598,0.776952
12350,0.017702,0.013695,0.470966,0.502363


In [30]:
min_max_scaler = MinMaxScaler()
fitted2 = min_max_scaler.fit_transform(fit_rfm)
fitted2

array([[1.28688602e-01, 1.25281884e-04, 1.51091712e-02, 1.25919722e-02],
       [9.94978569e-01, 2.26760210e-02, 3.02971721e-02, 3.48336072e-02],
       [7.99036659e-01, 3.75845653e-03, 2.14424619e-02, 2.16340751e-02],
       ...,
       [9.81114728e-01, 1.50338261e-03, 1.57314917e-02, 1.63792214e-02],
       [9.91870418e-01, 9.45878226e-02, 2.24913149e-02, 4.34633483e-02],
       [8.87062463e-01, 8.64445001e-03, 2.15835588e-02, 2.31517653e-02]])

In [31]:
fit_rfm2 = pd.DataFrame(fitted2, columns=fit_rfm.columns, index=list(fit_rfm.index.values))
fit_rfm2['RFM_SCORE'] = (fit_rfm2['RFM_SCORE']*100).astype(int)
fit_rfm2.head()

Unnamed: 0,최근성_R,빈도_F,총금액_M,RFM_SCORE
12346,0.128689,0.000125,0.015109,1
12347,0.994979,0.022676,0.030297,3
12348,0.799037,0.003758,0.021442,2
12349,0.951425,0.00902,0.021303,2
12350,0.16953,0.002005,0.016288,1


In [32]:
fit_rfm2.describe()

Unnamed: 0,최근성_R,빈도_F,총금액_M,RFM_SCORE
count,4372.0,4372.0,4372.0,4372.0
mean,0.75459,0.011533,0.021799,1.805124
std,0.270074,0.029124,0.028964,3.097662
min,0.0,0.0,0.0,0.0
25%,0.61703,0.002005,0.016143,1.0
50%,0.866343,0.005137,0.017393,1.0
75%,0.956746,0.012653,0.020789,2.0
max,1.0,1.0,1.0,99.0


In [33]:
def get_score(level, data):
    '''
    Description :
    level안에 있는 원소를 기준으로
    1 ~ len(level)+ 1 까지 점수를 부여하는 함수
    
    Parameters :
    level = 튜플 또는 리스트 타입의 숫자형 데이터이며 반드시 오름차순으로 정렬되어 있어야함.
    예 - [1,2,3,4,5] O, [5,4,3,2,1] X, [1,3,2,10,4] X 
    data = 점수를 부여할 데이터. 순회가능한(iterable) 데이터 형식
    return :
    점수를 담고 있는 리스트 반환
    '''
    score = [] 
    for j in range(len(data)): 
        for i in range(len(level)): 
            if data[j] <= level[i]: 
                score.append(i+1) 
                break 
            elif data[j] > max(level): 
                score.append(len(level)+1) 
                break 
            else: 
                continue 
    return score

In [34]:
def get_rfm_grade(df, num_class, rfm_tick_point, rfm_col_map, suffix=None):
    '''
    Description :
    개별 고객에 대한 최근방문일/방문횟수/구매금액 데이터가 주어졌을때
    최근방문일/방문횟수/구매금액 점수를 계산하여 주어진 데이터 오른쪽에 붙여줍니다.
    
    Parameters :
    df = pandas.DataFrame 데이터
    num_class = 등급(점수) 개수
    rfm_tick_point = 최근방문일/방문횟수/구매금액에 대해서 등급을 나눌 기준이 되는 값
                    'quantile', 'min_max' 또는 리스트를 통하여 직접 값을 정할 수 있음.
                    단, 리스트 사용시 원소의 개수는 반드시 num_class - 1 이어야함.
                    quatile = 데이터의 분위수를 기준으로 점수를 매김
                    min_max = 데이터의 최소값과 최대값을 동일 간격으로 나누어 점수를 매김
    rfm_col_map = 최근방문일/방문횟수/구매금액에 대응하는 칼럼명
    예 - {'R':'Recency','F':'Frequency','M':'Monetary'}
    suffix = 최근방문일/방문횟수/구매금액에 대응하는 칼럼명 뒤에 붙는 접미사
    Return : 
    pandas.DataFrame
    '''
    ##### 필요모듈 체크
    import pandas as pd
    import numpy as np
    from sklearn import preprocessing
    
    ##### 파라미터 체크
    if not isinstance(df, pd.DataFrame): ## 데이터는 pd.DataFrame이어야 함.
        print('데이터는 pandas.DataFrame 객체여야 합니다.')
        return
    
    if isinstance(rfm_tick_point, dict) == False or isinstance(rfm_col_map, dict) == False: ## rfm_tick_point와 rfm_col_map은 모두 딕셔너리
        print(f'rfm_tick_point와 rfm_col_map은 모두 딕셔너리여야합니다.')
        return
    
    if len(rfm_col_map) != 3: ## rfm_col_map에는 반드시 3개의 키를 가져아함.
        print(f'rfm_col_map인자는 반드시 3개의 키를 가져야합니다. \n현재 rfm_col_map에는 {len(rfm_col_map)}개의 키가 있습니다.')
        return
    
    if len(rfm_tick_point) != 3: ## rfm_tick_point에는 반드시 3개의 키를 가져아함.
        print(f'rfm_tick_point인자는 반드시 3개의 키를 가져야합니다. \n현재 rfm_col_map에는 {len(rfm_col_map)}개의 키가 있습니다.')
        return
    
    if set(rfm_tick_point.keys()) != set(rfm_col_map.keys()): ## rfm_tick_point와 rfm_col_map은 같은 키를 가져야함.
        print(f'rfm_tick_point와 rfm_col_map은 같은 키를 가져야 합니다.')
        return
    
    if not set(rfm_col_map.values()).issubset(set(df.columns)):
        not_in_df = set(rfm_col_map.values())-set(df.columns)
        print(f'{not_in_df}이 데이터 칼럼에 있어야 합니다.')
        return
    
    for k, v in rfm_tick_point.items():
        if isinstance(v, str):
            if not v in ['quantile','min_max']:
                print(f'{k}의 값은 "quantile" 또는 "min_max"중에 하나여야 합니다.')
                return
        elif isinstance(v,list) or isinstance(v,tuple):
            if len(v) != num_class-1:
                print(f'{k}에 대응하는 리스트(튜플)의 원소는 {num_class-1}개여야 합니다.')
                return
    
    if suffix:
        if not isinstance(suffix, str):
            print('suffix인자는 문자열이어야합니다.')
            return
        
    ##### 최근방문일/방문횟수/구매금액 점수 부여
    for k, v in rfm_tick_point.items():
        if isinstance(v,str):
            if v == 'quantile':
                ## 데이터 변환
                scale = preprocessing.StandardScaler() ## 데이터의 범위 조작하기 쉽게 해주는 클래스 
                temp_data = np.array(df[rfm_col_map[k]]) ## 데이터를 Numpy 배열로 변환
                temp_data = temp_data.reshape((-1,1)) ## scale을 적용하기위해 1차원 배열을 2차원으로 변환
                temp_data = scale.fit_transform(temp_data) ## 데이터를 평균은 0, 표준편차는 1을 갖도록 변환 
                temp_data = temp_data.squeeze() ## 데이터를 다시 1차원으로 변환
 
                ## 분위수 벡터
                quantiles_level = np.linspace(0,1,num_class+1)[1:-1] ## 분위수를 구할 기준값을 지정 0과 1은 제외
                quantiles = [] ## 분위수를 담을 리스트
                for ql in quantiles_level:
                    quantiles.append(np.quantile(temp_data,ql)) ## 분위수를 계산하고 리스트에 삽입
            else: ## min_max인 경우
                ## 데이터 변환
                temp_data = np.array(df[rfm_col_map[k]])
 
                ## 등분점 계산
                quantiles = np.linspace(np.min(temp_data),np.max(temp_data),num_class+1)[1:-1] ## 최소값과 최대값을 점수 개수만큼 등간격으로 분할하는 점
        else: ## 직접 구분값을 넣어주는 경우
            temp_data = np.array(df[rfm_col_map[k]])
            quantiles = v ## 직접 구분값을 넣어줌
        score = get_score(quantiles, temp_data) ## 구분값을 기준으로 점수를 부여하고 리스트로 저장한다.
        new_col_name = rfm_col_map[k]+'_'+k ## 점수값을 담는 변수의 이름
        if suffix:
            new_col_name = rfm_col_map[k]+'_'+suffix
        df[new_col_name] = score ## 기존데이터 옆에 점수 데이터를 추가한다.
    return df

In [35]:
rfm_tick_point={'R':'quantile','F':'quantile','M':'quantile'}
rfm_col_map={'R':'최근성_R','F':'빈도_F','M':'총금액_M'}
 
result = get_rfm_grade(df=fit_rfm2, num_class=5, rfm_tick_point=rfm_tick_point, rfm_col_map=rfm_col_map)
result.to_csv('result.csv',index=False)

In [49]:
result['Monetary'] = rfm_df['총금액_M']
result

Unnamed: 0,최근성_R,빈도_F,총금액_M,RFM_SCORE,최근성_R_R,빈도_F_F,총금액_M_M,Monetary
12346,0.128689,0.000125,0.015109,1,1,1,1,0.00
12347,0.994979,0.022676,0.030297,3,5,5,5,4310.00
12348,0.799037,0.003758,0.021442,2,2,3,4,1797.24
12349,0.951425,0.009020,0.021303,2,4,4,4,1757.55
12350,0.169530,0.002005,0.016288,1,1,2,2,334.40
...,...,...,...,...,...,...,...,...
18280,0.257286,0.001128,0.015746,1,1,1,1,180.60
18281,0.517367,0.000752,0.015394,1,1,1,1,80.82
18282,0.981115,0.001503,0.015731,1,5,1,1,176.60
18283,0.991870,0.094588,0.022491,4,5,5,5,2094.88


In [59]:
rfm_score = result[['최근성_R_R','빈도_F_F','총금액_M_M','Monetary']]
rfm_score.columns = [['Recency_R,Frequency_F,Monetary_M,Monetary']]
rfm_score

ValueError: Length mismatch: Expected axis has 4 elements, new values have 1 elements

In [54]:
from tqdm import tqdm

def get_score(level, data, reverse = False):
    '''
    Description :
    level안에 있는 원소를 기준으로
    1 ~ len(level)+ 1 까지 점수를 부여하는 함수
    
    Parameters :
    level = 튜플 또는 리스트 타입의 숫자형 데이터이며 반드시 오름차순으로 정렬되어 있어야함.
    예 - [1,2,3,4,5] O, [5,4,3,2,1] X, [1,3,2,10,4] X 
    data = 점수를 부여할 데이터. 순회가능한(iterable) 데이터 형식
    reverse = 점수가 높을 때 그에 해당하는 값을 낮게 설정하고 싶을 때 True
    return :
    점수를 담고 있는 리스트 반환
    '''
    score = [] 
    for j in range(len(data)): 
        for i in range(len(level)): 
            if data[j] <= level[i]: 
                score.append(i+1) 
                break 
            elif data[j] > max(level): 
                score.append(len(level)+1) 
                break 
            else: 
                continue
    if reverse:
        return [len(level)+2-x for x in score]
    else:
        return score 

In [56]:
grid_number = 100 ## 눈금 개수, 너무 크게 잡으면 메모리 문제가 발생할 수 있음.
weights = []
for j in range(grid_number+1):
    weights += [(i/grid_number,j/grid_number,(grid_number-i-j)/grid_number)
                  for i in range(grid_number+1-j)]
num_class = 5 ## 클래스 개수
class_level = np.linspace(1,5,num_class+1)[1:-1] ## 클래스를 나누는 지점을 정한다.
total_amount_of_sales = rfm_score['Monetary'].sum() ## 구매금액 총합 = 총 매출

In [57]:
max_std = 0 ## 표준편차 초기값
for w in tqdm(weights,position=0,desc = '[Finding Optimal weights]'):
    ## 주어진 가중치에 따른 고객별 점수 계산
    score = w[0]*rfm_score['Recency_R'] + \
                        w[1]*rfm_score['Frequency_F'] + \
                        w[2]*rfm_score['Monetary_M'] 
    rfm_score['Class'] = get_score(class_level,score,True) ## 점수를 이용하여 고객별 등급 부여
    ## 등급별로 구매금액을 집계한다.
    grouped_rfm_score = rfm_score.groupby('Class')['Monetary'].sum().reset_index()
        
    ## 클래스별 구매금액을 총구매금액으로 나누어 클래스별 매출 기여도 계산
    grouped_rfm_score['Monetary'] = grouped_rfm_score['Monetary'].map(lambda x : x/total_amount_of_sales)
    std_sales = grouped_rfm_score['Monetary'].std() ## 매출 기여도의 표준편차 계산
    if max_std <= std_sales:
        max_std = std_sales ## 표준편차 최대값 업데이트
        optimal_weights = w  ## 가중치 업데이트

[Finding Optimal weights]:   0%|                                                              | 0/5151 [00:00<?, ?it/s]


KeyError: 'Recency_R'