## 구매주기

- 구매 주기는 고가의 제조업을 제외하고는 대부분 사업이 고객 관리에서 중요한 성과로 관리하는 지표입니다. 신규 고객을 주문하게 만드는 비용과 기존 주문 고객을 주문하게 만드는 비용 차이가 3~6배 정도 차이 나는 것을 감안한다면 이미 주문 경험이 있는 고객을 관리해 주문 주기를 단축시키는 게 얼마나 효율적인지 알 수 있습니다.

- 실제 많은 브랜드의 성과를 분석하면서 더 매출이 높은 브랜드의 결과적 특징이 고객 구매 주기가 유사 카테고리의 타 브랜드에 비해 비교적 짧고 충성 고객의 비중이 높은 것이었는데요. 고객이 자주 방문할수록 기대할 수 있는 매출이 높아지는 것은 당연한 것일 겁니다.

In [2]:
import pandas as pd
import psycopg2
from sqlalchemy import create_engine

In [6]:
conn_string = 'postgresql://postgres:!nancho1127@localhost:5432/postgres'
postgres_engine = create_engine(conn_string)

In [7]:
import plotly.express as px
import numpy as np

In [14]:
query = """
with
temp_01 as (
select order_id, customer_id, order_date
	, lag(order_date) over (partition by customer_id order by order_date) as prev_ord_date
from nw.orders
), 
temp_02 as (
select order_id, customer_id, order_date
	, order_date - prev_ord_date as days_since_prev_order
from temp_01 
where prev_ord_date is not null
)
select * from temp_02
"""
df = pd.read_sql_query(sql=query, con=postgres_engine)
df.head(10)

Unnamed: 0,order_id,customer_id,order_date,days_since_prev_order
0,10692,ALFKI,1997-10-03,39
1,10702,ALFKI,1997-10-13,10
2,10835,ALFKI,1998-01-15,94
3,10952,ALFKI,1998-03-16,60
4,11011,ALFKI,1998-04-09,24
5,10625,ANATR,1997-08-08,324
6,10759,ANATR,1997-11-28,112
7,10926,ANATR,1998-03-04,96
8,10507,ANTON,1997-04-15,139
9,10535,ANTON,1997-05-13,28


In [15]:
import plotly.express as px

fig = px.histogram(df, x="days_since_prev_order", nbins=100)
fig.show()

## (TIL) 주문고객의 구매주기 (고객당 마지막 구매 일 - 고객당 첫 구매 일) / (주문 건수 - 1)


- 주문 고객의 구매 주기는 보통 고객별로 '구매 횟수 / 분석 기간'으로 구할 수 있습니다. 90일간 3회 구매 이력이 있는 고객은 구매 주기가 평균 30일인 셈이죠. 하지만 고려해야 할 요소가 많습니다. 최근 90일간 구매 횟수를 구매 주기를 구하는 분자로 활용할 계획인데 이 기간 중 회원 가입을 해서 처음으로 구매한 고객의 구매 주기는 90일보다 이전에 가입해서 주문이 발생하는 고객과 같은 선상에서 볼 수는 없는 것이죠. 분석 기간으로 부터 10일 전에 가입한 고객이 10일 전에 1회 주문한 것과 최근 90일간 1회 주문한 고객의 구매 주기가 같다고 말하기에는 어딘가 어색하고 왜곡된 지점이 있는 것처럼 보입니다.


- 그래서 활용할 수 있는 방법으로 분석 기간 중 여러 차례 구매가 있었던 고객만 대상으로 2회 이상 주문한 날짜와 날짜 사이의 거리만 구해 평균을 내는 방법이 있습니다. 일회성 구매 고객을 제외하는 것이죠. 최근 90일간 2회 주문을 했어도 최근 20일 동안 2회 주문만 있었던 고객이라면 평균 구매 주기가 45일이 아닌 10일이 되는 셈입니다.

In [17]:
#최근 90일 이내 2회이상 주문한 고객의 구매주기를 구해주었음 
query = """
SELECT customer_id
       ,first_order_date    
       , last_order_date
       ,last_order_date::date - first_order_date::date  as diff
       ,(last_order_date::date - first_order_date::date) / (cnt_order - 1) as purchasing_cycle
FROM  (
		SELECT  customer_id
                ,MIN(order_date ) as first_order_date      
				,MAX(order_date ) AS last_order_date
                ,COUNT(order_id) AS cnt_order
          FROM  nw.orders
          where order_date >='1998-02-06' #최근 3개월(90일)
	      group BY  customer_id
	      having count(order_id) >=2 #2회이상 주문한 고객
		)AS temper;
"""
df = pd.read_sql_query(sql=query, con=postgres_engine)
df.head(10)

Unnamed: 0,customer_id,first_order_date,last_order_date,diff,purchasing_cycle
0,OLDWO,1998-03-20,1998-04-20,31,31
1,LONEP,1998-02-12,1998-04-13,60,60
2,MAGAA,1998-03-10,1998-03-16,6,6
3,QUEEN,1998-02-26,1998-05-04,67,22
4,GOURL,1998-03-18,1998-04-24,37,37
5,WOLZA,1998-02-25,1998-04-23,57,28
6,WELLI,1998-02-20,1998-03-09,17,8
7,RATTC,1998-02-16,1998-05-06,79,26
8,GALED,1998-02-13,1998-03-05,20,20
9,WILMK,1998-02-06,1998-04-07,60,20


In [19]:
import plotly.express as px

fig = px.histogram(df, x= 'purchasing_cycle', nbins=10)
fig.show()

### RFM 건수 트리맵(Treemap) 시각화

In [9]:
query = """
with 
temp_01 as ( 
select a.user_id, max(date_trunc('day', order_time))::date as max_ord_date
, to_date('20161101', 'yyyymmdd') - max(date_trunc('day', order_time))::date  as recency
, count(distinct a.order_id) as freq
, sum(prod_revenue) as money
from ga.orders a
	join ga.order_items b on a.order_id = b.order_id
group by a.user_id
), 
temp_02 as (
	select 'A' as grade, 1 as fr_rec, 14 as to_rec, 5 as fr_freq, 9999 as to_freq, 300.0 as fr_money, 999999.0 as to_money
	union all
	select 'B', 15, 50, 3, 4, 50.0, 299.999
	union all
	select 'C', 51, 99999, 1, 2, 0.0, 49.999
), 
temp_03 as (
select a.*
	, b.grade as recency_grade, c.grade as freq_grade, d.grade as money_grade
from temp_01 a
	left join temp_02 b on a.recency between b.fr_rec and b.to_rec
	left join temp_02 c on a.freq between c.fr_freq and c.to_freq
	left join temp_02 d on a.money between d.fr_money and d.to_money
),
temp_04 as (
select * 
	, case when recency_grade = 'A' and freq_grade in ('A', 'B') and money_grade = 'A' then 'A'
	       when recency_grade = 'B' and freq_grade = 'A' and money_grade = 'A' then 'A'
	       when recency_grade = 'B' and freq_grade in ('A', 'B', 'C') and money_grade = 'B' then 'B'
	       when recency_grade = 'C' and freq_grade in ('A', 'B') and money_grade = 'B' then 'B'
	       when recency_grade = 'C' and freq_grade = 'C' and money_grade = 'A' then 'B'
	       when recency_grade = 'C' and freq_grade = 'C' and money_grade in ('B', 'C') then 'C'
	       when recency_grade in ('B', 'C') and money_grade = 'C' then 'C'
	       else 'C' end as total_grade
from temp_03
)
select total_grade, 'rfm_grade_'||recency_grade||freq_grade||money_grade as rfm_gubun
	, count(*) as grade_cnt
from temp_04 
group by total_grade, 'rfm_grade_'||recency_grade||freq_grade||money_grade order by 1

"""
df = pd.read_sql_query(sql=query, con=postgres_engine)
df.head(10)

Unnamed: 0,total_grade,rfm_gubun,grade_cnt
0,A,rfm_grade_AAA,7
1,A,rfm_grade_ABA,8
2,A,rfm_grade_BAA,7
3,B,rfm_grade_CBB,11
4,B,rfm_grade_CCA,87
5,B,rfm_grade_BBB,13
6,B,rfm_grade_BCB,382
7,C,rfm_grade_ABB,1
8,C,rfm_grade_CBA,13
9,C,rfm_grade_BCC,425


In [7]:
import plotly.express as px
import numpy as np

fig = px.treemap(df, path=[px.Constant('total'), 'total_grade', 'rfm_gubun'], values='grade_cnt', color='grade_cnt')
fig.show()