## Funnel 분석


### 1. 퍼널분석이란?

&nbsp;&nbsp;&nbsp;퍼널 분석은 특정 매체 내에서 사용자들이 해당 매체의 최종 목적지까지 얼마나 도달하는 지를 알아내는 기법입니다. 이커머스를 예로 들면, '특정 상품 광고 노출 -> 해당 상품 조회 -> 장바구니 넣기 -> 구매'에 이르는 고객 유입 단계에서 얼마나 많은 사람들이 다음 단계로 넘어가는지, 그리고 최종 구매를 얼마나 하는지를 분석해내고, 궁극적으로는 이러한 분석을 통해 어떻게 더 많은 구매를 이끌어낼 것인지에 대한 전략을 수립하는 것이 기본 목적입니다. 예시로 든 사례의 경우만 보더라도 '광고 노출수'보다 '상품 조회수'가, 그리고 그 뒤의 단계들이 각각 그 전의 단계들보다 그 수가 적기 때문에 퍼널Funnel(깔대기)라는 이름이 붙었습니다. 이를 아래와 같은 그래프 혹은 이미지를 통해 더욱 쉽게 이해할 수 있습니다.


<img src="https://whatfix.com/blog/wp-content/uploads/2022/11/Funnel-Analysis-1024x704.png" alt="Funnel Analysis" width="500" height="350"/>

***<출처:https://whatfix.com/blog/funnel-analysis/>***

&nbsp;&nbsp;&nbsp;각 단계를 넘어가는 것을 전환(conversion)이라 하며, 그 비율은 전환율(conversion rate)이라고 합니다.





### 2. 최종 목적지에 도달하는 수를 늘리려면?

&nbsp;&nbsp;&nbsp;그렇다면 최종 목적지에 도달하는 고객 수를 어떻게 늘릴 수 있을까요?

&nbsp;&nbsp;&nbsp;**1. 최초 유입량 늘리기 :** 가장 단순하고 간단한 방법으로, 말 그대로 최초 단계에 대한 고객 유입량 자체를 늘리는 것입니다. 처음 예시로 든 사례의 경우, 광고 비용과 그에 따른 광고량을 늘리면 해당 광고에 노출되는 사람도 자연스럽게 늘어날 수밖에 없을 것이고, 전환율에 변화가 없더라도 최종 구매 고객 수의 절대량 자체는 늘어날 수밖에 없겠죠.

&nbsp;&nbsp;&nbsp;**2. 각 퍼널의 문제점 분석 및 개선 :** 각 퍼널 단계의 문제점을 디테일하게 분석해서 전환율을 끌어올리는 방법입니다. 가령 A라는 제품에 대해 같은 회사의 다른 제품이나 다른 회사의 같은 혹은 비슷한 제품과 비교 분석을 한 결과, A제품의 퍼널이 좋지 않게 나왔다면 광고 자체를 개선하던가, 홈페이지를 개선하던가 하는 식의 대안을 마련해 최종 구매 고객 수를 늘릴 수 있겠죠.

&nbsp;&nbsp;&nbsp;**3. 전체 단계 줄이기 :** 퍼널의 단계를 줄이는 것도 좋은 방법이 될 수 있습니다. 단계가 복잡하고 길면 길수록 네트워크 에러로든, 귀찮음이든, 혹은 다른 이유로든 도중에 이탈하는 고객이 늘 수밖에 없으니까요. 가장 대표적인 예로, 최근 여러 사이트들에서 '카카오톡으로 시작하기'를 통해 가입 절차를 단순화한 것을 들 수 있습니다. 기존에 페이지를 넘겨가며 개인정보를 하나하나 입력하는 것보다 단계가 훨씬 짧으니 가입이 원활해지고, 그 결과 '회원 수 증가'라는 목표를 훨씬 쉽게 달성할 수 있겠죠.


### 3. 참고 자료
&nbsp;&nbsp;&nbsp;https://whatfix.com/blog/funnel-analysis/

&nbsp;&nbsp;&nbsp;https://datarian.io/blog/funnel-analysis

&nbsp;&nbsp;&nbsp;https://blog.naver.com/ttopp99/222358298104


### 4. 실습해보기 : 고객 세그먼트별 퍼널을 분석해보자!

&nbsp;&nbsp;&nbsp;-주요 사용 library : pandas, numpy, plotly

&nbsp;&nbsp;&nbsp;-주요 사용 함수 : merge_asof, groupby

&nbsp;&nbsp;&nbsp;-자료 출처 : https://www.kaggle.com/datasets/mkechinov/ecommerce-events-history-in-cosmetics-shop?resource=download&select=2019-Nov.csv

&nbsp;&nbsp;&nbsp;-일러두기 : 5개월치의 고객 로그 데이터 통합한 뒤 rfm을 기준으로 클러스터링하고 'vip', '우수고객', '중요고객', '일반고객', '이탈고객', '비구매고객'으로 미리 나눴습니다. 그리고 이를 'segment'칼럼에 추가했습니다.

In [2]:
import pandas as pd
import numpy as np

### 데이터 불러오기 및 전처리

In [3]:
whole_cluster = pd.read_parquet('C:/Users/neddy/Desktop/새 프로젝트/whole_cluster.parquet')
whole_cluster['time'] = pd.to_datetime(whole_cluster['time'])

In [18]:
whole_cluster

Unnamed: 0.1,Unnamed: 0,event_time,event_type,product_id,category_id,category_code,brand,price,user_id,user_session,time,segment,cluster_5
0,0,2019-10-01 00:00:00 UTC,cart,5773203,1487580005134238553,,runail,2.62,463240011,26dd6e6e-4dac-4778-8d2c-92e149dab885,2019-10-01 00:00:00+00:00,이탈고객,1.0
1,1,2019-10-01 00:00:03 UTC,cart,5773353,1487580005134238553,,runail,2.62,463240011,26dd6e6e-4dac-4778-8d2c-92e149dab885,2019-10-01 00:00:03+00:00,이탈고객,1.0
2,2,2019-10-01 00:00:07 UTC,cart,5881589,2151191071051219817,,lovely,13.48,429681830,49e8d843-adf3-428b-a2c3-fe8bc6a307c9,2019-10-01 00:00:07+00:00,이탈고객,1.0
3,3,2019-10-01 00:00:07 UTC,cart,5723490,1487580005134238553,,runail,2.62,463240011,26dd6e6e-4dac-4778-8d2c-92e149dab885,2019-10-01 00:00:07+00:00,이탈고객,1.0
4,4,2019-10-01 00:00:15 UTC,cart,5881449,1487580013522845895,,lovely,0.56,429681830,49e8d843-adf3-428b-a2c3-fe8bc6a307c9,2019-10-01 00:00:15+00:00,이탈고객,1.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...
20692704,4156677,2020-02-29 23:59:32 UTC,view,5885416,1487580005092295511,,grattol,6.27,622082947,fb29909b-6ef5-4662-b4ee-288e73e5dc10,2020-02-29 23:59:32+00:00,비구매고객,
20692705,4156678,2020-02-29 23:59:39 UTC,cart,5550686,1487580008145748965,,,1.11,459705611,05d2add3-01f7-47ee-8364-27341673227f,2020-02-29 23:59:39+00:00,VIP,3.0
20692706,4156679,2020-02-29 23:59:45 UTC,view,5850628,1602943681873052386,,grattol,5.24,622090043,ab7d349f-db5d-4790-8ab1-31e5c894459d,2020-02-29 23:59:45+00:00,비구매고객,
20692707,4156680,2020-02-29 23:59:54 UTC,view,5716351,1487580010872045658,,irisk,0.79,619841242,18af673b-7fb9-4202-a66d-5c855bc0fd2d,2020-02-29 23:59:54+00:00,비구매고객,


In [4]:
#전환율을 제대로 살펴보기 위해 우선 데이터 프레임을 일단 각 단계(view, cart, purchase, remove)로 나누고서 merge_asof로 다시 결합해줬습니다.
#보통 '조회->장바구니->구매' 전환율을 계산할 때 각 단게별 텀을 1주일에서 한달 이내로 두는 것으로 아는데, 일단 임의로 1주일로 설정하고 이를 기준으로 나뉜 테이블을 다시 결합해주었습니다.

view = whole_cluster[whole_cluster['event_type']=='view']
cart = whole_cluster[whole_cluster['event_type']=='cart']
purchase = whole_cluster[whole_cluster['event_type'] == 'purchase']
remove = whole_cluster[whole_cluster['event_type'] == 'remove_from_cart']

In [5]:
view_cart = pd.merge_asof(view, cart[['user_id', 'product_id', 'segment', 'time']], by = ['user_id', 'product_id'], on = 'time', tolerance = pd.Timedelta(days=7), direction = 'forward', suffixes = ('', '_bsk'))
view_cart_purchase = pd.merge_asof(view_cart, purchase[['user_id', 'product_id', 'segment', 'time']], by = ['user_id', 'product_id'], on = 'time', tolerance = pd.Timedelta(days=7), direction = 'forward', suffixes = ('', '_pch'))
view_purchase = pd.merge_asof(view, purchase[['user_id', 'product_id', 'segment', 'time']], by = ['user_id', 'product_id'], on = 'time', tolerance = pd.Timedelta(days=7), direction = 'forward', suffixes = ('', '_pch'))

In [6]:
view_cart_7 = view_cart.copy()
view_cart_purchase_7 = view_cart_purchase.copy()

In [None]:
#합쳐준 테이블을 퍼널 계산이 용이하도록, 'criteria' 칼럼을 만들어 각 view에 대한 최종 단계를 표기해주었습니다. 그리고 집계를 할 때 별다른 추가 코딩 없이 행의 순서가 정렬이 잘 되도록 숫자를 붙쳤습니다. 

In [7]:
conditions = [
    (view_cart_purchase_7['segment_bsk'].isnull()) & (view_cart_purchase_7['segment_pch'].isnull()),
    (~view_cart_purchase_7['segment_bsk'].isnull()) & (view_cart_purchase_7['segment_pch'].isnull()),
    (~view_cart_purchase_7['segment_bsk'].isnull()) & (~view_cart_purchase_7['segment_pch'].isnull()),
    (view_cart_purchase_7['segment_bsk'].isnull()) & (~view_cart_purchase_7['segment_pch'].isnull())
]
choices = ['1_view', '2_basket', '3_purchase', '3_purchase']

view_cart_purchase_7['criteria'] = np.select(conditions, choices, default=None)
view_cart_purchase_7

Unnamed: 0.1,Unnamed: 0,event_time,event_type,product_id,category_id,category_code,brand,price,user_id,user_session,time,segment,cluster_5,segment_bsk,segment_pch,criteria
0,9,2019-10-01 00:00:26 UTC,view,5875317,2029082628195353599,,,1.59,474232307,445f2b74-5e4c-427e-b7fa-6e0a28b156fe,2019-10-01 00:00:26+00:00,이탈고객,1.0,이탈고객,이탈고객,3_purchase
1,10,2019-10-01 00:00:28 UTC,view,5692917,1487580004857414477,,lianail,5.54,555446068,4257671a-efc8-4e58-96c2-3ab457916d78,2019-10-01 00:00:28+00:00,비구매고객,,,,1_view
2,19,2019-10-01 00:00:48 UTC,view,5819638,1487580008162526182,,,21.75,546705258,3b5c65c0-bb1c-453b-b340-4ebf973a3136,2019-10-01 00:00:48+00:00,이탈고객,1.0,,,1_view
3,21,2019-10-01 00:00:53 UTC,view,5856191,1487580006350586771,appliances.environment.vacuum,runail,24.44,507355498,944c7e9b-40bd-4112-a05b-81e73f37e0c0,2019-10-01 00:00:53+00:00,비구매고객,,,,1_view
4,39,2019-10-01 00:01:11 UTC,view,5733176,1487580009362096156,,,0.60,543446752,4a01cad9-7368-fd9e-d907-d4d85de0b55c,2019-10-01 00:01:11+00:00,이탈고객,1.0,,이탈고객,3_purchase
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
9657814,4156676,2020-02-29 23:59:29 UTC,view,5931426,1487580007675986893,,,1.59,468660421,296dc685-4079-445a-a8d3-a93e5e133faf,2020-02-29 23:59:29+00:00,일반고객,0.0,,,1_view
9657815,4156677,2020-02-29 23:59:32 UTC,view,5885416,1487580005092295511,,grattol,6.27,622082947,fb29909b-6ef5-4662-b4ee-288e73e5dc10,2020-02-29 23:59:32+00:00,비구매고객,,,,1_view
9657816,4156679,2020-02-29 23:59:45 UTC,view,5850628,1602943681873052386,,grattol,5.24,622090043,ab7d349f-db5d-4790-8ab1-31e5c894459d,2020-02-29 23:59:45+00:00,비구매고객,,,,1_view
9657817,4156680,2020-02-29 23:59:54 UTC,view,5716351,1487580010872045658,,irisk,0.79,619841242,18af673b-7fb9-4202-a66d-5c855bc0fd2d,2020-02-29 23:59:54+00:00,비구매고객,,,,1_view


### 퍼널 데이터 생성하기

In [None]:
#그룹화를 통해 먼저 각 고객 segment, criteria에 대한 user_id 수를 집계해준 뒤, basket(cart), view값을 조절해서 funnel 수치를 도출했습니다.
#중간 과정이 잘못됐던 건지, 아니면 원래 그런건지 우수 고객의 funnel 수치가 낮게 나왔습니다만...추후에 EDA를 더 해보는 것으로 하고 일단 그대로 시각화를 진행해보았습니다.

In [8]:
funnel_by_seg = view_cart_purchase_7.groupby(['segment', 'criteria']).agg({'user_id':'count'}).rename(columns = {'user_id':'count'}).reset_index()

funnel_by_seg = funnel_by_seg.assign(adj_count = np.where(
    funnel_by_seg['criteria'] == '1_view',
    funnel_by_seg['count'] + funnel_by_seg['count'].shift(+1, fill_value = 0) + funnel_by_seg['count'].shift(-1, fill_value = 0) + funnel_by_seg['count'].shift(-2, fill_value = 0),
    np.where(
        funnel_by_seg['criteria'] == '2_basket',
        funnel_by_seg['count'] + funnel_by_seg['count'].shift(-1, fill_value=0),
        funnel_by_seg['count']
    )
))

funnel_by_seg = funnel_by_seg.assign(funnel = (funnel_by_seg['adj_count']/funnel_by_seg.groupby('segment')['adj_count'].transform(max)).round(3))
funnel_by_seg

Unnamed: 0,segment,criteria,count,adj_count,funnel
0,VIP,1_view,768653,1040726,1.0
1,VIP,2_basket,99917,272073,0.261
2,VIP,3_purchase,172156,172156,0.165
3,비구매고객,1_view,4975269,5651140,1.0
4,비구매고객,2_basket,467932,503715,0.089
5,우수고객,1_view,35783,515772,1.0
6,우수고객,2_basket,4195,12057,0.023
7,우수고객,3_purchase,7862,7862,0.015
8,이탈고객,1_view,996009,1372241,1.0
9,이탈고객,2_basket,122709,368370,0.268


### 그래프 생성하기

In [17]:
from plotly.subplots import make_subplots
import plotly.graph_objects as go

# 세그먼트 리스트 추출
segments = funnel_by_seg['segment'].unique()

# 서브플롯 생성
fig = make_subplots(
    rows=len(segments), cols=1,
    subplot_titles=[f'Segment {seg}' for seg in segments]
)

# 각 세그먼트별 퍼널 그래프 생성
for i, seg in enumerate(segments):
    seg_data = funnel_by_seg[funnel_by_seg['segment'] == seg]
    fig.add_trace(
        go.Funnel(
            y=seg_data['criteria'],
            x=seg_data['funnel'],
            name=f'Segment {seg}'
        ),
        row=i + 1, col=1
    )

# 그래프 레이아웃 설정
fig.update_layout(
    title='Segment-wise Funnel Chart',
    height=400 * len(segments),  # 세그먼트 개수에 따라 높이 조절
    showlegend=False
)

# 그래프 출력
fig.show()