

[눔(Noom Inc.)](http://noom.com/)은 모바일 플랫폼을 통해 건강관리 서비스를 제공하는 회사로서 2008년, 정세주 대표와 구글 수석 엔지니어 출신이자 공동창업자인 아텀 페타코브(Artem Petakov)에 의해 설립되었다. 눔(Noom)은 미국, 일본, 독일, 한국 등 14개국에서 4,600만명이 가입한 글로벌 서비스로 성장하였고, 2009년과 2010년 연이어 구글(Google) 이 선정한 가장 혁신적인 개발 스타트업 중 하나로 선정되었다.

눔의 가장 중요한 서비스를 하나 꼽자면 **눔 코치(Noom Coach)** 이다.

<img src="https://www.dropbox.com/s/b0gsp4jncwwnoq0/noom-coach-logo.jpg?dl=1" alt="drawing" width="200"/>

눔 코치(Noom Coach) 어플리케이션의 사용자는 이 어플리케이션에서 본인의 식단과 운동에 대한 기록을 남길 수 있다. 이 기록을 바탕으로 사용자는 본인이 건강한 식습관 생활을 갖추고 있는지 스스로 판단할 수 있다. 또한 유료 모델에 가입하면 전문적인 코치가 채팅으로 통해 1대1로 식단과 운동을 코칭해준다.


눔(Noom)과 같이 데이터에 기반한 의사결정으로 일 하는 스타트업에서 데이터 분석가(Data Analyst)의 역할은 매우 중요하다. 눔의 마케팅 팀은 데이터 분석가(Data Analyst)의 분석 결과를 바탕으로 페이스북 광고 채널의 예산을 재조정(rebalancing)할 수 있다. 운영팀은 데이터 분석가(Data Analyst)가 찾아낸 VIP고객에게 혜택을 제공해줌으로서 그들이 계속 서비스를 이용하게 할 수 있다. 코칭 팀은 데이터 분석가(Data Analyst)가 분석한 고객의 코칭 만족도를 바탕으로 코칭 방침을 개선할 수 있다.


반면 데이터 분석가(Data Analyst)가 정확한 분석 결과를 전달해주지 못한다면, 마케팅팀은 마케팅 예산을 재조정(rebalancing)하는데 실패함으로써 회사의 매출을 감소시킬 수 있다. 운영팀은 VIP 고객의 이탈을 막지 못해 회사에 큰 손해를 끼칠 수 있다. 코칭팀은 고객들에게 만족스러운 코칭을 제공해주지 못함으로써 서비스의 만족도를 낮추고 회사의 매출과 성장에 악영향을 줄 수 있다.



In [1]:

import pandas as pd

In [2]:
raw_data = pd.read_csv("./noom_user.csv", parse_dates=["Purchased At"])
print(raw_data.columns)
print(raw_data.shape)
raw_data.head()

Index(['Access Code', 'Name', 'Gender', 'Age', 'Height', 'Initial Weight',
       'Lowest Weight', 'Target Weight', 'Product Name', 'Status', 'Price',
       'Purchased At', 'Payment Type', 'Channel'],
      dtype='object')
(10000, 14)


Unnamed: 0,Access Code,Name,Gender,Age,Height,Initial Weight,Lowest Weight,Target Weight,Product Name,Status,Price,Purchased At,Payment Type,Channel
0,Y9RY2VSI,김승혜,FEMALE,25.0,172.0,66.9,65.8,55.0,눔 체중감량 프로그램,completed,112500,2017-04-14 19:03:29.976,Recurring,others
1,3GTN3S3B,허승준,MALE,26.0,176.0,70.0,,65.0,눔 체중감량 프로그램,completed,44780,2017-05-23 20:53:54.368,Recurring,others
2,6B0IG276,이지민,FEMALE,23.0,171.0,98.0,,91.14,눔 체중감량 프로그램 (천원 체험),completed,132000,2017-08-23 23:39:21.840,Recurring,facebook
3,EMGRU2MO,장설윤,FEMALE,20.0,160.0,70.7,,53.0,눔 체중감량 프로그램 (천원 체험),completed,112500,2017-08-28 20:18:22.824,Recurring,naver
4,1ELG96TX,서성빈,FEMALE,28.0,165.0,55.5,,51.615002,눔 체중감량 프로그램,completed,44780,2017-05-07 17:50:30.944,Recurring,facebook



  * **Access Code** - 고객의 접근 코드, 쉽게 말해 고객을 식별할 수 있는 정보.
  * **Name** - 고객의 이름.
  * **Gender** - 고객의 성별.
  * **Age** - 고객의 나이.
  * **Height** - 고객의 키. cm 기준.
  * **Initial Weight** - 고객이 처음 눔 코치에 회원 가입 했을 당시의 몸무게. kg 기준.
  * **Lowest Weight** - 고객이 눔 코치를 이용하는 동안 측정한 몸무게 중, 가장 낮은 몸무게. kg 기준.
  * **Target Weight** - 고객이 눔 코치를 처음 회원 가입할 때 설정한 목표 몸무게. kg 기준.
  * **Product Name** - 눔 코치 프로그램의 상세 제품명.
  * **Status** - 고객의 유료 서비스 결제 현황. 결제중(complete), 결제 취소(cancelled), 환불 완료(refunded).
  * **Price** - 서비스를 구입할 당시의 가격. 원(₩) 기준.
  * **Purchased At** - 서비스를 구입할 당시의 시간.
  * **Payment Type** - 결제 방식. 현재는 Recurring(구독형 결제)만 있다.
  * **Channel** - 서비스 구입 경로. 구글, 페이스북, 네이버 등 다양한 경로를 통해 서비스를 구입하고 있다.
  


데이터 분석을 하는데 있어서 가장 중요한 업무는 Data Cleaning이다. 현업에서 활동하는 데이터 분석가(Data Analyst)는 전체 업무 시간의 50% ~ 70%를 데이터를 정리하는데 사용한다고 한다.


In [3]:

cols = """Access Code
Name
Gender
Age
Height
Initial Weight
Lowest Weight
Target Weight
Status
Price
Purchased At
Channel"""

cols=cols.split("\n")
cols

['Access Code',
 'Name',
 'Gender',
 'Age',
 'Height',
 'Initial Weight',
 'Lowest Weight',
 'Target Weight',
 'Status',
 'Price',
 'Purchased At',
 'Channel']

In [4]:
raw_data["Height"]

0       172.0
1       176.0
2       171.0
3       160.0
4       165.0
        ...  
9995    160.0
9996    154.0
9997    166.0
9998    188.0
9999    167.0
Name: Height, Length: 10000, dtype: float64

In [5]:
data=raw_data[cols].copy()
print(data.shape)
data=data.set_index("Access Code")

print(data.head())

(10000, 12)
            Name  Gender   Age  Height  Initial Weight  Lowest Weight  \
Access Code                                                             
Y9RY2VSI     김승혜  FEMALE  25.0   172.0            66.9           65.8   
3GTN3S3B     허승준    MALE  26.0   176.0            70.0            NaN   
6B0IG276     이지민  FEMALE  23.0   171.0            98.0            NaN   
EMGRU2MO     장설윤  FEMALE  20.0   160.0            70.7            NaN   
1ELG96TX     서성빈  FEMALE  28.0   165.0            55.5            NaN   

             Target Weight     Status   Price            Purchased At  \
Access Code                                                             
Y9RY2VSI         55.000000  completed  112500 2017-04-14 19:03:29.976   
3GTN3S3B         65.000000  completed   44780 2017-05-23 20:53:54.368   
6B0IG276         91.140000  completed  132000 2017-08-23 23:39:21.840   
EMGRU2MO         53.000000  completed  112500 2017-08-28 20:18:22.824   
1ELG96TX         51.615002  completed 

In [6]:
raw_data["Gender"].unique()

array(['FEMALE', 'MALE', nan], dtype=object)

In [7]:
data['Gender(clean)'] = data["Gender"].replace("MALE","male").replace("FEMALE","female")
data["Gender(clean)"].value_counts()


female    8846
male      1023
Name: Gender(clean), dtype: int64

In [8]:
data["Gender(clean)"].value_counts(normalize=True)


female    0.896342
male      0.103658
Name: Gender(clean), dtype: float64

In [9]:
data['Gender(clean)'].unique()

array(['female', 'male', nan], dtype=object)

In [10]:
raw_data["Height"].min()

-1.0

키가 -1 cm인 사람은 NaN으로 바꾸어주었다.

In [11]:
import numpy as np

data["Height(clean)"]=data["Height"]
data.loc[data["Height"]<0,"Height(clean)"]=np.nan
data.loc[data["Height"]<0,["Height","Height(clean)"]].head()


# data["Height(clean)"].min()

Unnamed: 0_level_0,Height,Height(clean)
Access Code,Unnamed: 1_level_1,Unnamed: 2_level_1
O4OWMJG7,-1.0,
H6EV5AXL,-1.0,
O1IAZS7A,-1.0,
5NEQOWHW,-1.0,
OFAXUNXD,-1.0,


In [12]:
data["Height(clean)"].min()

106.0

In [13]:
data["Height(clean)"].max()

203.2

In [14]:
data["Height(clean)"].mean()

163.54161860276196

In [15]:
data["Height(clean)"].describe()

count    9848.000000
mean      163.541619
std         6.828374
min       106.000000
25%       159.000000
50%       163.000000
75%       167.000000
max       203.200000
Name: Height(clean), dtype: float64

In [16]:
pd.pivot_table(data,index="Gender(clean)",values="Height(clean)")


Unnamed: 0_level_0,Height(clean)
Gender(clean),Unnamed: 1_level_1
female,162.116913
male,175.831965


In [17]:
data.pivot_table(index="Gender(clean)")["Height(clean)"]

Gender(clean)
female    162.116913
male      175.831965
Name: Height(clean), dtype: float64

In [18]:
raw_data["Age"].min()

0.0

In [19]:
raw_data["Age"].max()

173.0

In [20]:
data["Age(clean)"]=data["Age"]
data["Age(clean)"]

Access Code
Y9RY2VSI    25.0
3GTN3S3B    26.0
6B0IG276    23.0
EMGRU2MO    20.0
1ELG96TX    28.0
            ... 
118AFCQ9    31.0
VDE8FXV9    20.0
VWJ4NLZY    28.0
NJ2PR967    28.0
KVX64CPM    26.0
Name: Age(clean), Length: 10000, dtype: float64

In [21]:

data.loc[data["Age"]==0,"Age(clean)"]=np.nan

data.loc[data["Age"]==0,["Age","Age(clean)"]]

Unnamed: 0_level_0,Age,Age(clean)
Access Code,Unnamed: 1_level_1,Unnamed: 2_level_1
9PTGVW4B,0.0,
ACV6D35S,0.0,
WX34HGBL,0.0,
R9XCS81F,0.0,
THMCHWBO,0.0,
ETT3AP6I,0.0,


In [22]:
data.loc[data["Age"]>=60,"Age(clean)"]=np.nan
data.loc[(data["Age"]==0) | (data["Age"]>=60),["Name","Age","Age(clean)"]].head()

Unnamed: 0_level_0,Name,Age,Age(clean)
Access Code,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
9PTGVW4B,강서연,0.0,
ACV6D35S,윤우성,0.0,
Y0OK1FWA,김서영,85.0,
WX34HGBL,강채민,0.0,
R9XCS81F,최유신,0.0,


In [24]:
print(data["Age(clean)"].min())
print(data["Age(clean)"].max())
print(data["Age(clean)"].mean())
# print
pd.pivot_table(data,index="Gender(clean)",values="Age(clean)")

13.0
59.0
27.39381024860477


Unnamed: 0_level_0,Age(clean)
Gender(clean),Unnamed: 1_level_1
female,27.172929
male,29.309127


### VIP 구하기
.

눔 코치를 이용하는 고객 중, 크게 다음의 조건에 해당하는 사람을 찾는다.

1. 유료 사용자 중, 사용자 정보를 잘못 기입한 사람
2. 유료 사용자 중, 눔 코치의 VIP 사용자라고 간주할 수 있는 사람

1번 사용자의 경우, 유료 결제를 했으나 사용자 정보(나이, 키, 몸무게 등)가 잘못 기입되어있다면 담당 코치가 정확한 코칭을 제공해 줄 수 없는 문제가 있다. 크몽은 가능한 빠르게 정보를 잘못 기입한 고객을 찾아서 다시 기입해달라고 요청할 필요가 있다.

2번 사용자의 경우, 눔의 VIP 사용자로서 추가 혜택(ex: 서비스 무료 이용)을 제공해주는 것을 조건으로, 눔 코치를 대표하는 홍보 모델로서 활동해줄 것을 요청할 수 있다.

특히나 다이어트 관련 서비스는 VIP 사용자의 Before / After를 보여주는 것 만큼 좋은 홍보 수단은 없다. 그러므로 데이터 분석 팀에서 특정 조건(ex: 10kg 이상 감량 성공)에 만족하는 코어 사용자를 찾아내는 것을 중요하다.


In [25]:
cols="""Name
Age(clean)
Height(clean)
Initial Weight
Lowest Weight
Target Weight
Status"""
cols=cols.split("\n")
data[cols]
weight_history=data[cols].copy()
weight_history.head()

Unnamed: 0_level_0,Name,Age(clean),Height(clean),Initial Weight,Lowest Weight,Target Weight,Status
Access Code,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
Y9RY2VSI,김승혜,25.0,172.0,66.9,65.8,55.0,completed
3GTN3S3B,허승준,26.0,176.0,70.0,,65.0,completed
6B0IG276,이지민,23.0,171.0,98.0,,91.14,completed
EMGRU2MO,장설윤,20.0,160.0,70.7,,53.0,completed
1ELG96TX,서성빈,28.0,165.0,55.5,,51.615002,completed


In [26]:
weight_history['Weight Loss(goal)']= weight_history['Initial Weight']-weight_history['Target Weight']
weight_history['Weight Loss(current)']=weight_history['Initial Weight']-weight_history['Lowest Weight']
weight_history['BMI']=weight_history['Initial Weight']/((weight_history['Height(clean)']/100)**2)
weight_history[["Name","Weight Loss(goal)","Weight Loss(current)","BMI"]].head()

Unnamed: 0_level_0,Name,Weight Loss(goal),Weight Loss(current),BMI
Access Code,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Y9RY2VSI,김승혜,11.9,1.1,22.613575
3GTN3S3B,허승준,5.0,,22.59814
6B0IG276,이지민,6.86,,33.514586
EMGRU2MO,장설윤,17.7,,27.617187
1ELG96TX,서성빈,3.884998,,20.385675


 잘못된 정보를 기입한 사용자(invalid user)를 찾기

  눔의 프로그램을 결제한 구매자. (```Status == "completed"```)
  
  
  1. 나이(```Age(clean)```), 키(```Height(clean)```)와 몸무게(```Initial Weight```, ```Lowest Weight```, ```Target Weight```) 중 어느 하나라도 NaN이 들어가 있는 경우. 
  1. 키를 너무 작게 기입했거나(140cm 미만)나, 정 반대로 너무 크게(200cm 초과) 기입한 사용자.
  1. BMI수치가 너무 낮거나(18.5 미만) 너무 높은 사용자. (30.0 초과)
  1. 목표 감량치(```Weight Loss(goal)```)가 마이너스인 경우.



In [27]:
def find_invalid_user(row):
    status=row["Status"]
    
    if status != "completed":
        return False
    
    age=row["Age(clean)"]
    height=row["Height(clean)"]
    initial_weight=row["Initial Weight"]
    lowest_weight=row["Lowest Weight"]
    target_weight=row["Target Weight"]
    bmi =row["BMI"]
    goal=row["Weight Loss(goal)"]
    
    if pd.isnull(age) or pd.isnull(height) or pd.isnull(initial_weight):
        return True
    if pd.isnull(lowest_weight) or pd.isnull(target_weight):
        return True

    
    if height<140 or height>200:
        return  True
    if bmi<18.5 or bmi>30:
        return True
    if goal<0:
        return True
    
    return False


# find_invalid_user(row)
weight_history["Invalid"]=weight_history.apply(find_invalid_user,axis=1)

In [28]:
weight_history[weight_history["Invalid"]==True].shape

(2619, 11)

In [29]:
weight_history.head()

Unnamed: 0_level_0,Name,Age(clean),Height(clean),Initial Weight,Lowest Weight,Target Weight,Status,Weight Loss(goal),Weight Loss(current),BMI,Invalid
Access Code,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
Y9RY2VSI,김승혜,25.0,172.0,66.9,65.8,55.0,completed,11.9,1.1,22.613575,False
3GTN3S3B,허승준,26.0,176.0,70.0,,65.0,completed,5.0,,22.59814,True
6B0IG276,이지민,23.0,171.0,98.0,,91.14,completed,6.86,,33.514586,True
EMGRU2MO,장설윤,20.0,160.0,70.7,,53.0,completed,17.7,,27.617187,True
1ELG96TX,서성빈,28.0,165.0,55.5,,51.615002,completed,3.884998,,20.385675,True


 VIP 사용자 체크하기

 1. 눔의 프로그램을 결제한 구매자. (```Status == "completed"```)
 1. 목표 감량치(```Weight Loss(goal)```), 최종 감량치(```Weight Loss(current)```), BMI 수치 모두 NaN이 아닌 값이 들어가 있는 사용자.
 1. 최종 감량치(```Weight Loss(current)```)가 10kg 이상.
 1. BMI 수치가 높은 사용자. (30.0 이상)
 1. 최종 감량치(```Weight Loss(current)```)가 목표 감량치(```Weight Loss(goal)```)보다 큰 경우. (다이어트에 성공한 사람)
 

In [30]:
def find_vip_user(row):
    status=row["Status"]
    weight_goal=row["Weight Loss(goal)"]
    weight_current=row["Weight Loss(current)"]
    bmi=row["BMI"]
    
    if status!="completed":
        return False
    
    if pd.isnull(weight_goal) or pd.isnull(weight_current) or pd.isnull(bmi):
        return False
    
    if (weight_current>=10) and (bmi>=30) and (weight_goal<weight_current):
        return True
    return False

weight_history["VIP"]=weight_history.apply(find_vip_user,axis=1)
    

In [31]:
weight_history.loc[weight_history["VIP"]==True]

Unnamed: 0_level_0,Name,Age(clean),Height(clean),Initial Weight,Lowest Weight,Target Weight,Status,Weight Loss(goal),Weight Loss(current),BMI,Invalid,VIP
Access Code,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
3T1I8I8E,임솔지,23.0,158.0,80.0137,54.5,77.745742,completed,2.267958,25.5137,32.051634,True,True
PJYKU9OW,홍윤오,31.0,174.0,99.9,76.6,84.0,completed,15.9,23.3,32.996433,True,True
0EMTSGLJ,류선정,34.0,167.0,86.0,73.2,80.050003,completed,5.949997,12.8,30.836531,True,True
FBEAIFW0,서서원,23.0,170.0,95.0,75.7,85.0,completed,10.0,19.3,32.871972,True,True
8QQV2YDW,홍서율,23.0,170.0,95.0,75.7,85.0,completed,10.0,19.3,32.871972,True,True
99KOLRU8,고서연,26.0,162.0,106.0,95.2,98.58,completed,7.42,10.8,40.390184,True,True
IBOWZ9WZ,손서애,22.0,166.0,83.0,66.1,73.0,completed,10.0,16.9,30.120482,True,True
6EH2LGR5,문세영,34.0,164.0,88.8,56.3,82.584003,completed,6.215997,32.5,33.016062,True,True
QQLYGTWD,황수윤,26.0,165.0,105.0,87.8,97.65,completed,7.35,17.2,38.567493,True,True
4Z1WB3UZ,허지예,26.0,162.0,106.0,95.2,98.58,completed,7.42,10.8,40.390184,True,True


분석 결과 총 15명(임솔지, 홍윤오, 류선정, 서서원, 홍서율, 고서연, 손서애, 문세영, 황수윤, 허지예, 서승희, 윤지안, 정선영, 홍슬비, 오채현)의 VIP 사용자를 발견했다. 홍보팀에서는 이 사용자들에게 개별적으로 컨택할 것이며, 눔 코치를 더 만족스럽게 이용할 수 있는 각종 혜택을 조건으로, 눔 코치의 홍보모델로 활동할 것을 제안할 수 있다.


## 결제 체크


눔 코치와 같은 서비스에서 가장 중요시 여기는 지표.

  1. 한 명의 고객을 데려오는데 필요한 비용, 줄여서 고객 획득 비용(Customer Acquision Cost, 이하 **[CAC]
  2. 한 명의 고객을 데려왔을 때, 고객이 회사에게 제공해주는 수익(Customer Lifetime Value, 이하 **[LTV]
  
눔 코치에 헌신하는 모든 팀은 LTV를 최대한 높이고, 동시에 CAC를 최대한 낮추는 쪽으로 서비스를 개선한다. 가능한 적은 비용을 지출하여 고객을 눔 코치에 유입시켜야 하며(CAC), 같은 CAC라면 이왕이면 회사에 많은 수익을 남겨주는 고객을 유입해야 한다. (LTV)

  * LTV가 높은 고객군의 인구통계학적 정보. 가령 눔 코치와 같은 다이어트 서비스에서는 남성보다 여성이 서비스의 만족도가 높고 많은 지출을 할 가능성이 있다. 이 경우, 페이스북 마케팅을 할 때 여성 고객들에게 집중적으로 광고를 보여주도록 타게팅 할 수 있다.
  * 요일/시간별 결제 비율. 가령 주중보다 주말에 결제할 확률이 높다면, 서비스를 유료로 결제할 의사가 있는 고객들에게 주말에 결제를 유도하는 메일을 보낼 수 있다.


In [32]:
print(weight_history["Status"].value_counts())
weight_history["Status"].value_counts(normalize=True)

completed    5400
cancelled    4010
refunded      590
Name: Status, dtype: int64


completed    0.540
cancelled    0.401
refunded     0.059
Name: Status, dtype: float64

In [33]:
weight_history["Age(Group)"]=weight_history["Age(clean)"]
weight_history["Age(Group)"]

Access Code
Y9RY2VSI    25.0
3GTN3S3B    26.0
6B0IG276    23.0
EMGRU2MO    20.0
1ELG96TX    28.0
            ... 
118AFCQ9    31.0
VDE8FXV9    20.0
VWJ4NLZY    28.0
NJ2PR967    28.0
KVX64CPM    26.0
Name: Age(Group), Length: 10000, dtype: float64

In [34]:
weight_history.head(1)

Unnamed: 0_level_0,Name,Age(clean),Height(clean),Initial Weight,Lowest Weight,Target Weight,Status,Weight Loss(goal),Weight Loss(current),BMI,Invalid,VIP,Age(Group)
Access Code,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1
Y9RY2VSI,김승혜,25.0,172.0,66.9,65.8,55.0,completed,11.9,1.1,22.613575,False,False,25.0


In [35]:
weight_history["Gender(clean)"]=data["Gender(clean)"]

In [36]:
weight_history.loc[weight_history["Age(clean)"]<= 17,"Age(Group)"]="00~17"
weight_history.loc[((weight_history["Age(clean)"]>= 18) & (weight_history["Age(clean)"]<=24)) ,"Age(Group)"]="18~24"
weight_history.loc[((weight_history["Age(clean)"]>= 25) & (weight_history["Age(clean)"]<=35)) ,"Age(Group)"]="25~35"
weight_history.loc[((weight_history["Age(clean)"]>= 36) & (weight_history["Age(clean)"]<=44)) ,"Age(Group)"]="36~44"
weight_history.loc[((weight_history["Age(clean)"]>= 45) & (weight_history["Age(clean)"]<=54)) ,"Age(Group)"]="45~54"
weight_history.loc[((weight_history["Age(clean)"]>= 55) & (weight_history["Age(clean)"]<=99)) ,"Age(Group)"]="55~99"
# weight_history.loc[weight_history["Age(clean)"]<= 17,"Age(Group)"]="55~99"

In [37]:
# weight_history.head(1)
data2=pd.pivot_table(weight_history,index=["Gender(clean)","Age(Group)"],values="Age(clean)",columns=["Status"],aggfunc="count",fill_value=0)
data2

Unnamed: 0_level_0,Status,cancelled,completed,refunded
Gender(clean),Age(Group),Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
female,00~17,25,35,3
female,18~24,1637,1827,149
female,25~35,1664,2288,271
female,36~44,206,421,46
female,45~54,74,160,25
female,55~99,0,5,0
male,00~17,3,1,0
male,18~24,80,100,11
male,25~35,235,404,57
male,36~44,21,72,9


In [38]:
data2['Total']=data2['cancelled']+data2['completed']+data2['refunded']

In [39]:
data2['conversion']=data2['completed']/data2['Total']

In [40]:
data2

Unnamed: 0_level_0,Status,cancelled,completed,refunded,Total,conversion
Gender(clean),Age(Group),Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
female,00~17,25,35,3,63,0.555556
female,18~24,1637,1827,149,3613,0.505674
female,25~35,1664,2288,271,4223,0.541795
female,36~44,206,421,46,673,0.625557
female,45~54,74,160,25,259,0.617761
female,55~99,0,5,0,5,1.0
male,00~17,3,1,0,4,0.25
male,18~24,80,100,11,191,0.52356
male,25~35,235,404,57,696,0.58046
male,36~44,21,72,9,102,0.705882


분석 결과는 다음과 같습니다.

  * 가장 많은 양의 결제가 일어난 구간은 여성 25 ~ 35세이다. 총 2288개로, 결제 완료의 40% 이상이 이 구간에서 발생했다. 심지어 전환율(conversion)도 54.1%로 평균 이상이다.
  * 또한 어느 정도 모수가 받쳐주는(결제 완료 100회 이상) 채널 중 이보다 전환율이 높은 채널은 1) 여성 36 ~ 54세, 2) 남성 25 ~ 35세, 3) 남성 36 ~ 44세 이다. 이 채널들은 전환율이 60% 이상으로 매우 높다.
  * 다만 이 채널들의 총 결제자(total)가 낮다는 것은 1) 아직 이 마케팅 채널이 최적화가 덜 되었거나, 2) 고객 획득 비용(CAC)이 높은 편이라 마케팅 비용을 늘리지 않았을 가능성이 있다. 또한 아주 희소한 경우이지만, 3) 주 마케팅 채널(ex: 페이스북)에 위 채널에 해당하는 고객의 인원수가 부족할 수도 있다.

이런 상황에서, 데이터분석가는 퍼포먼스 마케터와 함께 다음의 아이디어를 제시하여 회사의 매출을 증대할 수 있다.

  * 마케팅 예산을 여성 36 ~ 54세쪽에 집중한다. 이 채널이 전환율이 높기 때문에, CAC가 여성 25 ~ 35세와 동일하다면 여성 36 ~ 54세에 마케팅 예산을 늘리는 것은 좋은 전략이다.
  * 여성 36 ~ 54세 채널의 CAC가 상대적으로 높다면, 이 CAC을 낮추는 시도를 한다. 이 전략이 성공하면 그 후에 마케팅 예산을 집중하는 것도 방법이다.
  * 현재 이용하고 있는 광고 채널을 다각화하여, 여성 36 ~ 54세가 활동하는 곳에 집중적으로 마케팅 예산을 투입하는 것도 시도해볼만 하다.

날짜와 요일 / 시간별 결제 / 캔슬 / 환불 비율


  1. 시간별 구매 현황(0시 ~ 23시)
  2. 요일별 구매 현황(월요일 ~ 일요일)
  
  
1) 전환율이 높은 시기에 마케팅 예산 투입 비중을 줄이고/늘려서 CAC를 낮추거나, 2) 특정 시간대에 눔 코치의 유로 서비스를 아직 구매하지 않은 무료 사용자에게 유료 서비스 구매를 유도하는 메일을 보내서 매출을 늘릴 것이다.


In [41]:
data['time']=pd.to_datetime(data['Purchased At'])
data3=data
data3['Purchased At(hour)']=data['time'].dt.hour

In [42]:
data3

Unnamed: 0_level_0,Name,Gender,Age,Height,Initial Weight,Lowest Weight,Target Weight,Status,Price,Purchased At,Channel,Gender(clean),Height(clean),Age(clean),time,Purchased At(hour)
Access Code,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1
Y9RY2VSI,김승혜,FEMALE,25.0,172.0,66.9,65.8,55.000000,completed,112500,2017-04-14 19:03:29.976,others,female,172.0,25.0,2017-04-14 19:03:29.976,19
3GTN3S3B,허승준,MALE,26.0,176.0,70.0,,65.000000,completed,44780,2017-05-23 20:53:54.368,others,male,176.0,26.0,2017-05-23 20:53:54.368,20
6B0IG276,이지민,FEMALE,23.0,171.0,98.0,,91.140000,completed,132000,2017-08-23 23:39:21.840,facebook,female,171.0,23.0,2017-08-23 23:39:21.840,23
EMGRU2MO,장설윤,FEMALE,20.0,160.0,70.7,,53.000000,completed,112500,2017-08-28 20:18:22.824,naver,female,160.0,20.0,2017-08-28 20:18:22.824,20
1ELG96TX,서성빈,FEMALE,28.0,165.0,55.5,,51.615002,completed,44780,2017-05-07 17:50:30.944,facebook,female,165.0,28.0,2017-05-07 17:50:30.944,17
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
118AFCQ9,최서원,FEMALE,31.0,160.0,60.0,,52.000000,completed,112500,2017-04-18 00:43:58.104,facebook,female,160.0,31.0,2017-04-18 00:43:58.104,0
VDE8FXV9,임세율,FEMALE,20.0,154.0,85.0,71.0,48.000000,completed,112500,2017-08-16 10:03:10.136,facebook,female,154.0,20.0,2017-08-16 10:03:10.136,10
VWJ4NLZY,정선희,FEMALE,28.0,166.0,69.0,,54.000000,completed,112500,2017-08-09 11:47:55.408,facebook,female,166.0,28.0,2017-08-09 11:47:55.408,11
NJ2PR967,김유찬,MALE,28.0,188.0,110.0,,80.000000,cancelled,112500,2017-04-28 07:05:19.776,facebook,male,188.0,28.0,2017-04-28 07:05:19.776,7


In [43]:
# Write your code here!
# data3=weight_history
# data3['Purchased At']=pd.to_datetime(raw_data['Purchased At'])
# data3['Purchased At(hour)']
# data3['Purchased At']=pd.to_datetime(data3['Purchased At'])
data3.head()

Unnamed: 0_level_0,Name,Gender,Age,Height,Initial Weight,Lowest Weight,Target Weight,Status,Price,Purchased At,Channel,Gender(clean),Height(clean),Age(clean),time,Purchased At(hour)
Access Code,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1
Y9RY2VSI,김승혜,FEMALE,25.0,172.0,66.9,65.8,55.0,completed,112500,2017-04-14 19:03:29.976,others,female,172.0,25.0,2017-04-14 19:03:29.976,19
3GTN3S3B,허승준,MALE,26.0,176.0,70.0,,65.0,completed,44780,2017-05-23 20:53:54.368,others,male,176.0,26.0,2017-05-23 20:53:54.368,20
6B0IG276,이지민,FEMALE,23.0,171.0,98.0,,91.14,completed,132000,2017-08-23 23:39:21.840,facebook,female,171.0,23.0,2017-08-23 23:39:21.840,23
EMGRU2MO,장설윤,FEMALE,20.0,160.0,70.7,,53.0,completed,112500,2017-08-28 20:18:22.824,naver,female,160.0,20.0,2017-08-28 20:18:22.824,20
1ELG96TX,서성빈,FEMALE,28.0,165.0,55.5,,51.615002,completed,44780,2017-05-07 17:50:30.944,facebook,female,165.0,28.0,2017-05-07 17:50:30.944,17


In [44]:
data3.loc[data3['Purchased At']==0,'Purchased At(hour)']=0
data3.loc[data3['Purchased At']==1,'Purchased At(hour)']=1
data3.loc[data3['Purchased At']==2,'Purchased At(hour)']=2
data3.loc[data3['Purchased At']==3,'Purchased At(hour)']=3
data3.loc[data3['Purchased At']==4,'Purchased At(hour)']=4
data3.loc[data3['Purchased At']==5,'Purchased At(hour)']=5
data3.loc[data3['Purchased At']==6,'Purchased At(hour)']=6
data3.loc[data3['Purchased At']==7,'Purchased At(hour)']=7
data3.loc[data3['Purchased At']==8,'Purchased At(hour)']=8
data3.loc[data3['Purchased At']==9,'Purchased At(hour)']=9
data3.loc[data3['Purchased At']==10,'Purchased At(hour)']=10
data3.loc[data3['Purchased At']==11,'Purchased At(hour)']=11
data3.loc[data3['Purchased At']==12,'Purchased At(hour)']=12
data3.loc[data3['Purchased At']==13,'Purchased At(hour)']=13
data3.loc[data3['Purchased At']==14,'Purchased At(hour)']=14
data3.loc[data3['Purchased At']==15,'Purchased At(hour)']=15
data3.loc[data3['Purchased At']==16,'Purchased At(hour)']=16
data3.loc[data3['Purchased At']==17,'Purchased At(hour)']=17
data3.loc[data3['Purchased At']==18,'Purchased At(hour)']=18
data3.loc[data3['Purchased At']==19,'Purchased At(hour)']=19
data3.loc[data3['Purchased At']==20,'Purchased At(hour)']=20
data3.loc[data3['Purchased At']==21,'Purchased At(hour)']=21
data3.loc[data3['Purchased At']==22,'Purchased At(hour)']=22
data3.loc[data3['Purchased At']==23,'Purchased At(hour)']=23


In [45]:
data3.head()

Unnamed: 0_level_0,Name,Gender,Age,Height,Initial Weight,Lowest Weight,Target Weight,Status,Price,Purchased At,Channel,Gender(clean),Height(clean),Age(clean),time,Purchased At(hour)
Access Code,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1
Y9RY2VSI,김승혜,FEMALE,25.0,172.0,66.9,65.8,55.0,completed,112500,2017-04-14 19:03:29.976,others,female,172.0,25.0,2017-04-14 19:03:29.976,19
3GTN3S3B,허승준,MALE,26.0,176.0,70.0,,65.0,completed,44780,2017-05-23 20:53:54.368,others,male,176.0,26.0,2017-05-23 20:53:54.368,20
6B0IG276,이지민,FEMALE,23.0,171.0,98.0,,91.14,completed,132000,2017-08-23 23:39:21.840,facebook,female,171.0,23.0,2017-08-23 23:39:21.840,23
EMGRU2MO,장설윤,FEMALE,20.0,160.0,70.7,,53.0,completed,112500,2017-08-28 20:18:22.824,naver,female,160.0,20.0,2017-08-28 20:18:22.824,20
1ELG96TX,서성빈,FEMALE,28.0,165.0,55.5,,51.615002,completed,44780,2017-05-07 17:50:30.944,facebook,female,165.0,28.0,2017-05-07 17:50:30.944,17


In [46]:
a=pd.pivot_table(data3,index='Purchased At(hour)',values="Price",columns=["Status"],aggfunc="count",fill_value=0)


In [47]:
a['total']=a['cancelled']+a['completed']+a['refunded']
a['conversion']=a['completed']/a['total']

In [48]:
a

Status,cancelled,completed,refunded,total,conversion
Purchased At(hour),Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
0,236,344,26,606,0.567657
1,156,207,28,391,0.529412
2,90,97,4,191,0.507853
3,58,66,5,129,0.511628
4,59,45,7,111,0.405405
5,36,47,6,89,0.52809
6,48,70,6,124,0.564516
7,80,114,20,214,0.53271
8,171,264,29,464,0.568966
9,162,239,36,437,0.546911



  * 아쉽게도, 구매 시간별 전환율(conversion)은 큰 차이가 없다, 그 의미는 특정 시간대에 구매한 사용자들이 서비스를 이탈할 확률이 높아지거나 낮아지는 현상은 없다고 볼 수 있다.
  * 다만 전환율과는 별개로, 주로 점심시간(10시 ~ 12시)나 새벽(23시 ~ 24시)에 구매량이 대폭 늘어난다는 것을 알 수 있다. 만일 광고 예산을 집행한다면 이 시기에 집중적으로 집행하거나, 무료 사용자에게 유료 사용자로 전환을 유도하는 이메일을 보냄으로써 전환율을 높이는 것은 시도해볼만 하다.

In [49]:
data3['Purchased At']=pd.to_datetime(data3['Purchased At'])


In [50]:
data3['Purchased At(week day)']=data3['Purchased At'].dt.weekday_name

In [51]:
pd.pivot_table(data3,index='Purchased At(week day)',values="Price",columns=["Status"],aggfunc="count",fill_value=0)

Status,cancelled,completed,refunded
Purchased At(week day),Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Friday,490,674,56
Monday,691,863,93
Saturday,412,537,73
Sunday,428,625,88
Thursday,616,813,88
Tuesday,694,935,102
Wednesday,679,953,90


In [52]:
b=pd.pivot_table(data3,index='Purchased At(week day)',values="Price",columns=["Status"],aggfunc="count",fill_value=0)
b['total']=b['cancelled']+b['completed']+b['refunded']
b['conversion']=b['completed']/b['total']

In [54]:
d=["monday","Tuesday","Wednesday","Thursday","Friday","Saturday","Sunday"]

In [55]:
d

['monday', 'Tuesday', 'Wednesday', 'Thursday', 'Friday', 'Saturday', 'Sunday']

In [56]:
c=b.sort_values(by='Purchased At(week day)')


In [60]:
c.index=d

In [61]:
c

Status,cancelled,completed,refunded,total,conversion
monday,490,674,56,1220,0.552459
Tuesday,691,863,93,1647,0.523983
Wednesday,412,537,73,1022,0.52544
Thursday,428,625,88,1141,0.547765
Friday,616,813,88,1517,0.535926
Saturday,694,935,102,1731,0.54015
Sunday,679,953,90,1722,0.553426



  * 구매 시간과 마찬가지로, 구매 요일별 전환율(conversion)은 큰 차이가 없어 보인다. 어느 요일이나 마찬가지로, 구매한 사람이 서비스를 이탈하거나 남을 확률은 거의 동일하다.
  * 하지만 사용자들은 전반적으로 주말(금-일)이 다가올수록 구매를 덜 하게되고, 주중(월-수)이 다가올수록 구매를 많이 하게 되는 현상을 발견할 수 있다. 이 시기에 광고 예산을 크게 집행하거나, 구매를 유도하는 메일이나 모바일 노티피케이션을 보내는 것은 좋은 아이디어이다.

In [63]:
data["Channel"].value_counts()

facebook     6880
others       1390
naver        1009
direct        297
email         271
google        120
instagram      33
Name: Channel, dtype: int64

In [64]:
# weight_history['Channel']=raw_data['Channel']
weight_history['Channel']=data['Channel'].copy()

In [65]:
weight_history['Channel'].value_counts()

facebook     6880
others       1390
naver        1009
direct        297
email         271
google        120
instagram      33
Name: Channel, dtype: int64

In [66]:
data.head()

Unnamed: 0_level_0,Name,Gender,Age,Height,Initial Weight,Lowest Weight,Target Weight,Status,Price,Purchased At,Channel,Gender(clean),Height(clean),Age(clean),time,Purchased At(hour),Purchased At(week day)
Access Code,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1
Y9RY2VSI,김승혜,FEMALE,25.0,172.0,66.9,65.8,55.0,completed,112500,2017-04-14 19:03:29.976,others,female,172.0,25.0,2017-04-14 19:03:29.976,19,Friday
3GTN3S3B,허승준,MALE,26.0,176.0,70.0,,65.0,completed,44780,2017-05-23 20:53:54.368,others,male,176.0,26.0,2017-05-23 20:53:54.368,20,Tuesday
6B0IG276,이지민,FEMALE,23.0,171.0,98.0,,91.14,completed,132000,2017-08-23 23:39:21.840,facebook,female,171.0,23.0,2017-08-23 23:39:21.840,23,Wednesday
EMGRU2MO,장설윤,FEMALE,20.0,160.0,70.7,,53.0,completed,112500,2017-08-28 20:18:22.824,naver,female,160.0,20.0,2017-08-28 20:18:22.824,20,Monday
1ELG96TX,서성빈,FEMALE,28.0,165.0,55.5,,51.615002,completed,44780,2017-05-07 17:50:30.944,facebook,female,165.0,28.0,2017-05-07 17:50:30.944,17,Sunday


In [67]:
weight_history.head()

Unnamed: 0_level_0,Name,Age(clean),Height(clean),Initial Weight,Lowest Weight,Target Weight,Status,Weight Loss(goal),Weight Loss(current),BMI,Invalid,VIP,Age(Group),Gender(clean),Channel
Access Code,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1
Y9RY2VSI,김승혜,25.0,172.0,66.9,65.8,55.0,completed,11.9,1.1,22.613575,False,False,25~35,female,others
3GTN3S3B,허승준,26.0,176.0,70.0,,65.0,completed,5.0,,22.59814,True,False,25~35,male,others
6B0IG276,이지민,23.0,171.0,98.0,,91.14,completed,6.86,,33.514586,True,False,18~24,female,facebook
EMGRU2MO,장설윤,20.0,160.0,70.7,,53.0,completed,17.7,,27.617187,True,False,18~24,female,naver
1ELG96TX,서성빈,28.0,165.0,55.5,,51.615002,completed,3.884998,,20.385675,True,False,25~35,female,facebook


In [68]:
data4=pd.pivot_table(weight_history,index=["Channel"],values="VIP",columns=["Status"],aggfunc="count",fill_value=0)
data4['Total']=data4['cancelled']+data4['completed']+data4['refunded']
data4['conversion']=data4['completed']/data4['Total']

In [69]:
data4

Status,cancelled,completed,refunded,Total,conversion
Channel,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
direct,119,169,9,297,0.569024
email,93,155,23,271,0.571956
facebook,2812,3654,414,6880,0.531105
google,42,66,12,120,0.55
instagram,13,17,3,33,0.515152
naver,386,568,55,1009,0.562934
others,545,771,74,1390,0.554676


  * 현재 가장 많은 구매가 일어나는 채널은 페이스북(facebook) 이다.
  * 구매량이 100회 이상인 채널 중 가장 전환율이 높은 채널은 이메일(email) 이다. 이 채널은 사용자가 눔의 웹사이트에 방문한 뒤, 바로 구매하지 않고 이메일 주소만만 남겨놨을 경우에 해당된다.
  * 아직 구매량이 페이스북만큼 많지는 않지만, 전환률이 페이스북보다 높은 채널 중 하나는 네이버(naver)이다. 전환율이 56%로 페이스북보다 다소 높은 편이다.
  
  * 먼저 내부에서 트래킹 코드나 데이터 클리닝 코드를 수정하여, 기타(others) 채널을 더 세분화시킬 필요가 있다. 기타 채널은 1) 페이스북 만큼이나 구매량이 많으며, 2) 전환율이 페이스북보다 높다. 이 채널을 더 세분화시켜 분석한다면 마케팅 효율을 높일 수 있는 새로운 아이디어가 나올 수 있다.
  * 페이스북 다음으로 네이버 검색채널을 집중적으로 튜닝하거나 예산을 배정하여 마케팅 채널을 다각화할 수 있다.
  * 이메일(email)로 들어온 사용자가 전환율이 높은 이유를 더 분석할 수 있다면 좋다. 추측컨데, 눔 코치에 대한 신뢰도를 높일 다양한 정보를 이메일로 수신하였기 때문에 다른 채널에 비해 전환율이 높다는 가설을 세울 수 있다. 이 가설이 맞다면, 눔 코치를 이용하는 다른 사용자에게도 동일한 정보를 제공한다면 전체 전환율을 높일 수 있을 것이다.

### 코치 데이터와 매칭

코칭팀에서는 좋은 코칭을 하는 코치의 노하우를 정리하여 다른 코치들에게 전파할 필요가 있고, 정 반대로 좋지 않은 코칭을 하는 코치와는 개별 면담을 통해 코칭 퀄리티를 높여야 한다. 좋은 코칭과 좋지 않은 코칭은 결제 비율과 캔슬 비율, 그리고 환불 비율로 판단할 수 있다.


In [79]:
coach = pd.read_csv("./noom_coach.csv", index_col="Access Code")
print(coach.shape)
coach.head()

(10000, 100)


Unnamed: 0_level_0,정은오 코치(VEV4PGJB),오승혁 코치(VENPKBP9),조소은 코치(D0WASBXN),고영재 코치(C91AVNGB),조수민 코치(OBCAO3W0),강채아 코치(WH2NIKCO),황다훈 코치(1I6IWURH),백슬은 코치(228BFB50),유채우 코치(IW53Y9AW),송지선 코치(WL0877P7),...,오초빈 코치(A3WOLAQM),서수정 코치(F36LORFC),정서율 코치(LX1G7EMD),고우재 코치(SKNL9Z4P),문한규 코치(OU1WVDGA),황세안 코치(3QUBQAVE),홍성은 코치(2I3QJQ5O),고성은 코치(34T7XPYR),백한율 코치(HPWAN8R0),안슬은 코치(QAVWJSZ1)
Access Code,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
Y9RY2VSI,0,0,0,0,0,0,0,0,0,0,...,0,0,0,1,0,0,0,0,0,0
3GTN3S3B,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,1,0,0,0,0,0
6B0IG276,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
EMGRU2MO,0,0,0,0,0,0,1,0,0,0,...,0,0,0,0,0,0,0,0,0,0
1ELG96TX,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


In [80]:
cols=["Name","Status"]
cols
data5=weight_history[cols].copy()
data5

Unnamed: 0_level_0,Name,Status
Access Code,Unnamed: 1_level_1,Unnamed: 2_level_1
Y9RY2VSI,김승혜,completed
3GTN3S3B,허승준,completed
6B0IG276,이지민,completed
EMGRU2MO,장설윤,completed
1ELG96TX,서성빈,completed
...,...,...
118AFCQ9,최서원,completed
VDE8FXV9,임세율,completed
VWJ4NLZY,정선희,completed
NJ2PR967,김유찬,cancelled


In [81]:
data5=pd.concat([data5,coach],axis=1)

In [82]:
data5

Unnamed: 0_level_0,Name,Status,정은오 코치(VEV4PGJB),오승혁 코치(VENPKBP9),조소은 코치(D0WASBXN),고영재 코치(C91AVNGB),조수민 코치(OBCAO3W0),강채아 코치(WH2NIKCO),황다훈 코치(1I6IWURH),백슬은 코치(228BFB50),...,오초빈 코치(A3WOLAQM),서수정 코치(F36LORFC),정서율 코치(LX1G7EMD),고우재 코치(SKNL9Z4P),문한규 코치(OU1WVDGA),황세안 코치(3QUBQAVE),홍성은 코치(2I3QJQ5O),고성은 코치(34T7XPYR),백한율 코치(HPWAN8R0),안슬은 코치(QAVWJSZ1)
Access Code,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
Y9RY2VSI,김승혜,completed,0,0,0,0,0,0,0,0,...,0,0,0,1,0,0,0,0,0,0
3GTN3S3B,허승준,completed,0,0,0,0,0,0,0,0,...,0,0,0,0,1,0,0,0,0,0
6B0IG276,이지민,completed,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
EMGRU2MO,장설윤,completed,0,0,0,0,0,0,1,0,...,0,0,0,0,0,0,0,0,0,0
1ELG96TX,서성빈,completed,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
118AFCQ9,최서원,completed,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
VDE8FXV9,임세율,completed,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
VWJ4NLZY,정선희,completed,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
NJ2PR967,김유찬,cancelled,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


In [90]:

data5=data5.set_index("Status")

In [91]:
data5=data5.drop("Name",axis=1)

In [92]:
data5

Unnamed: 0_level_0,정은오 코치(VEV4PGJB),오승혁 코치(VENPKBP9),조소은 코치(D0WASBXN),고영재 코치(C91AVNGB),조수민 코치(OBCAO3W0),강채아 코치(WH2NIKCO),황다훈 코치(1I6IWURH),백슬은 코치(228BFB50),유채우 코치(IW53Y9AW),송지선 코치(WL0877P7),...,오초빈 코치(A3WOLAQM),서수정 코치(F36LORFC),정서율 코치(LX1G7EMD),고우재 코치(SKNL9Z4P),문한규 코치(OU1WVDGA),황세안 코치(3QUBQAVE),홍성은 코치(2I3QJQ5O),고성은 코치(34T7XPYR),백한율 코치(HPWAN8R0),안슬은 코치(QAVWJSZ1)
Status,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
completed,0,0,0,0,0,0,0,0,0,0,...,0,0,0,1,0,0,0,0,0,0
completed,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,1,0,0,0,0,0
completed,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
completed,0,0,0,0,0,0,1,0,0,0,...,0,0,0,0,0,0,0,0,0,0
completed,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
completed,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
completed,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
completed,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
cancelled,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


In [93]:
cols="""정은오 코치(VEV4PGJB)	오승혁 코치(VENPKBP9)	조소은 코치(D0WASBXN)	고영재 코치(C91AVNGB)	조수민 코치(OBCAO3W0)	강채아 코치(WH2NIKCO)	황다훈 코치(1I6IWURH)	백슬은 코치(228BFB50)	유채우 코치(IW53Y9AW)	송지선 코치(WL0877P7)	허성원 코치(9124O1IH)	최서율 코치(UVZALFE3)	윤채윤 코치(U95EGIDM)	허슬지 코치(DWVG5IFL)	김슬민 코치(CWI0ABRI)	정동인 코치(UQN9899Z)	오시현 코치(7XM3L93F)	김서은 코치(FOT4SH4F)	문선아 코치(W5AZL2WT)	김윤 채 코치(COZ180VA)	양서율 코치(A2A98OA6)	권슬영 코치(E3GD4106)	박성현 코치(JKKV62JR)	조설영 코치(U7L98DAO)	백세원 코치(2Z1S5CYM)	조지예 코치(ZA6B8Y4I)	황설연 코치(RJEZWP8M)	윤도원 코치(IOVT84RW)	권소민 코치(OM3X0HPF)	손성아 코치(DE2CQ3UB)	문채혁 코치(9JP9WCLH)	신채솔 코치(01CM47G7)	윤준호 코치(RGSJNWC1)	황시준 코치(M7EJJXFT)	배슬미 코치(ZT7MO305)	허서빈 코치(AKR0QZ53)	허예찬 코치(2F23UZOK)	권윤후 코치(2JNSCXG9)	백세민 코치(P770M0WG)	정효준 코치(W9MLRQ03)	송슬희 코치(UXFNB9P9)	정효성 코치(E1RQ3HCM)	오시혁 코치(6NJXI005)	오동완 코치(0O48DQCH)	임슬지 코치(TXKB5IPL)	조서영 코치(0VG1N1M4)	박성민 코치(Z3EDAX7O)	최이훈 코치(F9BXHUIW)	신차민 코치(BXQNFYSE)	안채현 코치(WEURSEW0)	조우찬 코치(WWN531JQ)	김찬혁 코치(ZPKK20QU)	배솔윤 코치(WC0AC6ME)	송지안 코치(2MNIJN3F)	손채아 코치(BL3GH0DR)	안성은 코치(Z58HLXF1)	한동한 코치(TSFSQH0A)	황소영 코치(91YZ8NY0)	백설희 코치(EAIJXNHP)	문세희 코치(7NQPBZK3)	황재우 코치(YIFMV1GQ)	임슬민 코치(GWF6MDWP)	박도영 코치(I4KVQ5G0)	허수연 코치(Z6YFPL34)	허주원 코치(71T6JNK0)	이지예 코치(Z77MI98E)	장지효 코치(XBJH0VO3)	신수연 코치(4274HJ8M)	안채윤 코치(IAYRGMJ2)	김윤규 코치(E7BBXJHO)	오수진 코치(9ZKGH8EO)	박서연 코치(5NXNMBCN)	전지완 코치(P6QG38DS)	백채훈 코치(89CN5XHA)	백은성 코치(WWFBXFX6)	문소윤 코치(2WDVTB40)	한동예 코치(OD8IV4Q5)	권시윤 코치(4MEMXAVM)	조초연 코치(3JBE9GKO)	조수아 코치(V5CSCQ45)	강지희 코치(NOEP7X8B)	문승혁 코치(6LHXIU5N)	박성은 코치(4KO70A9P)	문선희 코치(NTELEEEO)	강은우 코치(EJIHL7OE)	장승희 코치(85BWE3V1)	고수이 코치(NKHXTMRU)	전지현 코치(SQHB3H66)	손수연 코치(Z5GQG6SI)	신성빈 코치(7CIDQT0X)	오초빈 코치(A3WOLAQM)	서수정 코치(F36LORFC)	정서율 코치(LX1G7EMD)	고우재 코치(SKNL9Z4P)	문한규 코치(OU1WVDGA)	황세안 코치(3QUBQAVE)	홍성은 코치(2I3QJQ5O)	고성은 코치(34T7XPYR)	백한율 코치(HPWAN8R0)	안슬은 코치(QAVWJSZ1)"""
cols=cols.split("\t")
cols

['정은오 코치(VEV4PGJB)',
 '오승혁 코치(VENPKBP9)',
 '조소은 코치(D0WASBXN)',
 '고영재 코치(C91AVNGB)',
 '조수민 코치(OBCAO3W0)',
 '강채아 코치(WH2NIKCO)',
 '황다훈 코치(1I6IWURH)',
 '백슬은 코치(228BFB50)',
 '유채우 코치(IW53Y9AW)',
 '송지선 코치(WL0877P7)',
 '허성원 코치(9124O1IH)',
 '최서율 코치(UVZALFE3)',
 '윤채윤 코치(U95EGIDM)',
 '허슬지 코치(DWVG5IFL)',
 '김슬민 코치(CWI0ABRI)',
 '정동인 코치(UQN9899Z)',
 '오시현 코치(7XM3L93F)',
 '김서은 코치(FOT4SH4F)',
 '문선아 코치(W5AZL2WT)',
 '김윤 채 코치(COZ180VA)',
 '양서율 코치(A2A98OA6)',
 '권슬영 코치(E3GD4106)',
 '박성현 코치(JKKV62JR)',
 '조설영 코치(U7L98DAO)',
 '백세원 코치(2Z1S5CYM)',
 '조지예 코치(ZA6B8Y4I)',
 '황설연 코치(RJEZWP8M)',
 '윤도원 코치(IOVT84RW)',
 '권소민 코치(OM3X0HPF)',
 '손성아 코치(DE2CQ3UB)',
 '문채혁 코치(9JP9WCLH)',
 '신채솔 코치(01CM47G7)',
 '윤준호 코치(RGSJNWC1)',
 '황시준 코치(M7EJJXFT)',
 '배슬미 코치(ZT7MO305)',
 '허서빈 코치(AKR0QZ53)',
 '허예찬 코치(2F23UZOK)',
 '권윤후 코치(2JNSCXG9)',
 '백세민 코치(P770M0WG)',
 '정효준 코치(W9MLRQ03)',
 '송슬희 코치(UXFNB9P9)',
 '정효성 코치(E1RQ3HCM)',
 '오시혁 코치(6NJXI005)',
 '오동완 코치(0O48DQCH)',
 '임슬지 코치(TXKB5IPL)',
 '조서영 코치(0VG1N1M4)',
 '박성민 코치(Z3EDAX7O)',
 '최이훈 코치(F9B

In [94]:

data5=data5.groupby("Status")[cols].sum().T

In [95]:
data5

Status,cancelled,completed,refunded
정은오 코치(VEV4PGJB),18,23,3
오승혁 코치(VENPKBP9),14,44,9
조소은 코치(D0WASBXN),12,12,1
고영재 코치(C91AVNGB),22,27,4
조수민 코치(OBCAO3W0),49,46,8
...,...,...,...
황세안 코치(3QUBQAVE),48,61,8
홍성은 코치(2I3QJQ5O),73,112,9
고성은 코치(34T7XPYR),24,36,1
백한율 코치(HPWAN8R0),0,1,0


코치별 전환율(conversion rate) / 취소율(cancellation rate)를 계산.

여기서 전환율은 전체 구매자 대비 구매 완료(completed)를 한 사람, 취소율은 전체 구매자 대비 취소(cancelled)나 환불(refunded)을 한 사람을 나타낸다. 이 두 개를 구한 뒤, 1) 전환율이 높은 코치, 2) 취소율이 높은 코치 순으로 정렬. 단 모수가 부족한 경우를 배제하기 위해, 코칭을 100회 이상 하지 않은 사용자는 배제.

전환율이 높을수록 해당 코치가 고객에게 만족스러운 코칭을 제공한다고 볼 수 있으며, 해당 코치의 노하우를 다른 코치들에게 전파할 수 있도록 노력해야 한디.

In [96]:
data5['total']=data5["cancelled"]+data5["completed"]+data5["refunded"]
data5['conversion rate']=data5['completed']/data5['total']
data5['cancellation rate']=(data5["cancelled"]+data5["refunded"])/data5['total']
data5

Status,cancelled,completed,refunded,total,conversion rate,cancellation rate
정은오 코치(VEV4PGJB),18,23,3,44,0.522727,0.477273
오승혁 코치(VENPKBP9),14,44,9,67,0.656716,0.343284
조소은 코치(D0WASBXN),12,12,1,25,0.480000,0.520000
고영재 코치(C91AVNGB),22,27,4,53,0.509434,0.490566
조수민 코치(OBCAO3W0),49,46,8,103,0.446602,0.553398
...,...,...,...,...,...,...
황세안 코치(3QUBQAVE),48,61,8,117,0.521368,0.478632
홍성은 코치(2I3QJQ5O),73,112,9,194,0.577320,0.422680
고성은 코치(34T7XPYR),24,36,1,61,0.590164,0.409836
백한율 코치(HPWAN8R0),0,1,0,1,1.000000,0.000000
