### 데이터 로딩

In [1]:
import pandas as pd
import qgrid

In [2]:
data = pd.read_csv("data/user.csv", parse_dates=["Purchased At"] )
print(data.shape)
print(data.columns)
data.head()

(10000, 14)
Index(['Access Code', 'Name', 'Gender', 'Age', 'Height', 'Initial Weight',
       'Lowest Weight', 'Target Weight', 'Product Name', 'Status', 'Price',
       'Purchased At', 'Payment Type', 'Channel'],
      dtype='object')


Unnamed: 0,Access Code,Name,Gender,Age,Height,Initial Weight,Lowest Weight,Target Weight,Product Name,Status,Price,Purchased At,Payment Type,Channel
0,Y9RY2VSI,김승혜,FEMALE,25.0,172.0,66.9,65.8,55.0,눔 체중감량 프로그램,completed,112500,2017-04-14 19:03:29.976,Recurring,others
1,3GTN3S3B,허승준,MALE,26.0,176.0,70.0,,65.0,눔 체중감량 프로그램,completed,44780,2017-05-23 20:53:54.368,Recurring,others
2,6B0IG276,이지민,FEMALE,23.0,171.0,98.0,,91.14,눔 체중감량 프로그램 (천원 체험),completed,132000,2017-08-23 23:39:21.840,Recurring,facebook
3,EMGRU2MO,장설윤,FEMALE,20.0,160.0,70.7,,53.0,눔 체중감량 프로그램 (천원 체험),completed,112500,2017-08-28 20:18:22.824,Recurring,naver
4,1ELG96TX,서성빈,FEMALE,28.0,165.0,55.5,,51.615002,눔 체중감량 프로그램,completed,44780,2017-05-07 17:50:30.944,Recurring,facebook


### 데이터 정리하기 

1. 전체 컬럼에서 필요한 컬럼만 가져오고
또한 위 컬럼에서 ```Access Code```를 인덱스(Index)로 지정

In [3]:
new_columns = ["Access Code", "Name", "Gender", "Age", "Height", "Initial Weight", 
               "Lowest Weight", "Target Weight", "Status", "Price", "Purchased At", 
               "Channel" ]
data = data[new_columns]
data = data.set_index("Access Code")
print(data.columns)
data.head()

Index(['Name', 'Gender', 'Age', 'Height', 'Initial Weight', 'Lowest Weight',
       'Target Weight', 'Status', 'Price', 'Purchased At', 'Channel'],
      dtype='object')


Unnamed: 0_level_0,Name,Gender,Age,Height,Initial Weight,Lowest Weight,Target Weight,Status,Price,Purchased At,Channel
Access Code,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
Y9RY2VSI,김승혜,FEMALE,25.0,172.0,66.9,65.8,55.0,completed,112500,2017-04-14 19:03:29.976,others
3GTN3S3B,허승준,MALE,26.0,176.0,70.0,,65.0,completed,44780,2017-05-23 20:53:54.368,others
6B0IG276,이지민,FEMALE,23.0,171.0,98.0,,91.14,completed,132000,2017-08-23 23:39:21.840,facebook
EMGRU2MO,장설윤,FEMALE,20.0,160.0,70.7,,53.0,completed,112500,2017-08-28 20:18:22.824,naver
1ELG96TX,서성빈,FEMALE,28.0,165.0,55.5,,51.615002,completed,44780,2017-05-07 17:50:30.944,facebook


2. 성별 컬럼을 정렬해주세요.

In [4]:
# 성별컬럼에서 중복된 값을 제거
# 성별컬럼의 종류확인 (nan은 없는 값)
data["Gender"].unique()

array(['FEMALE', 'MALE', nan], dtype=object)

In [5]:
# 성별을 소문자로 변경하고 Gender(clean) 컬럼으로 추가
data["Gender(clean)"] = data["Gender"].str.lower()
data[["Gender", "Gender(clean)"]].head()

Unnamed: 0_level_0,Gender,Gender(clean)
Access Code,Unnamed: 1_level_1,Unnamed: 2_level_1
Y9RY2VSI,FEMALE,female
3GTN3S3B,MALE,male
6B0IG276,FEMALE,female
EMGRU2MO,FEMALE,female
1ELG96TX,FEMALE,female


In [6]:
# 성별당 가입자 수 확인
data["Gender(clean)"].value_counts()

female    8846
male      1023
Name: Gender(clean), dtype: int64

3. 키 컬럼을 정리

키(Height) 컬럼도 성별 컬럼처렁 정리

In [7]:
# 키 확인
data["Height"].describe()

count    9869.000000
mean      163.191495
std        10.199053
min        -1.000000
25%       159.000000
50%       163.000000
75%       167.000000
max       203.200000
Name: Height, dtype: float64

In [8]:
# -1 이란 키는 없음으로 NaN 처리로 변경 후 Height(clean) 컬럼으로 추가
import numpy as np
data["Height(clean)"] = data["Height"].replace(-1, np.nan)
# -1 키가 NaN으로 변경되었나 확인
data.loc[data["Height"] == -1, ["Height", "Height(clean)"]].head()

Unnamed: 0_level_0,Height,Height(clean)
Access Code,Unnamed: 1_level_1,Unnamed: 2_level_1
O4OWMJG7,-1.0,
H6EV5AXL,-1.0,
O1IAZS7A,-1.0,
5NEQOWHW,-1.0,
OFAXUNXD,-1.0,


In [9]:
# 최소/최대/평균 키와 성별별 평균키 구하기
print(data["Height(clean)"].describe())
pd.pivot_table(data, index="Gender(clean)", values="Height(clean)")

count    9848.000000
mean      163.541619
std         6.828374
min       106.000000
25%       159.000000
50%       163.000000
75%       167.000000
max       203.200000
Name: Height(clean), dtype: float64


Unnamed: 0_level_0,Height(clean)
Gender(clean),Unnamed: 1_level_1
female,162.116913
male,175.831965


4. 나이 컬럼을 정리

가장 나이가 어린사람과 가장 나이가많은 사람을 찾고 잘못된 데이터는 NaN으로 변경

In [10]:
data["Age"].describe()

count    9869.000000
mean       27.463573
std         7.376082
min         0.000000
25%        23.000000
50%        26.000000
75%        31.000000
max       173.000000
Name: Age, dtype: float64

In [11]:
# 나이가 0 과 173은 잘못된 데이터
# 나이가 0과 60이상은 NaN으로 변경후 Age(clean)컬럼으로 추가 
data["Age(clean)"] = data["Age"]
data.loc[data["Age"] == 0, "Age(clean)"] = np.nan
data.loc[data["Age"] >=60, "Age(clean)"] = np.nan

In [12]:
# 변경된 데이터 확인
data.loc[(data["Age"] ==0) | (data["Age"] >=60), ["Age", "Age(clean)"]].head()

Unnamed: 0_level_0,Age,Age(clean)
Access Code,Unnamed: 1_level_1,Unnamed: 2_level_1
9PTGVW4B,0.0,
ACV6D35S,0.0,
Y0OK1FWA,85.0,
WX34HGBL,0.0,
R9XCS81F,0.0,


In [13]:
# 최소/최대/평균 나이와 성별별 평균 나이 구하기
print(data["Age(clean)"].describe())
pd.pivot_table(data=data, index="Gender(clean)", values="Age(clean)")

count    9855.000000
mean       27.393810
std         6.545051
min        13.000000
25%        23.000000
50%        26.000000
75%        31.000000
max        59.000000
Name: Age(clean), dtype: float64


Unnamed: 0_level_0,Age(clean)
Gender(clean),Unnamed: 1_level_1
female,27.172929
male,29.309127


### VIP 구하기

데이터 정리후 데이터 분석 시작

1. 유료 사용자 중, 사용자 정보를 잘못 기입한 사람
2. 유료 사용자 중, VIP 사용자라고 간주할 수 있는 사람


5. 전체 컬럼중 필요한 컬럼만 가져오기
  * ```Name```
  * ```Age(clean)```
  * ```Height(clean)```
  * ```Initial Weight```
  * ```Lowest Weight```
  * ```Target Weight```
  * ```Status```
이 컬럼을 제외한 나머지 컬럼을 제거

In [14]:
new_columns = ["Name", "Age(clean)", "Height(clean)", "Initial Weight", "Lowest Weight", 
              "Target Weight", "Status"]
VIP_data = data[new_columns]
VIP_data.head()

Unnamed: 0_level_0,Name,Age(clean),Height(clean),Initial Weight,Lowest Weight,Target Weight,Status
Access Code,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
Y9RY2VSI,김승혜,25.0,172.0,66.9,65.8,55.0,completed
3GTN3S3B,허승준,26.0,176.0,70.0,,65.0,completed
6B0IG276,이지민,23.0,171.0,98.0,,91.14,completed
EMGRU2MO,장설윤,20.0,160.0,70.7,,53.0,completed
1ELG96TX,서성빈,28.0,165.0,55.5,,51.615002,completed


6. 주어진 컬럼으로 추가 정보 계산하기

다음의 세 가지 정보를 담은 컬럼을 추가.

  1. ```Weight Loss(goal)``` - 목표 감량치. ```Initial Weight``` 컬럼과 ```Target Weight```의 차이. (마이너스가 나올 수 있습니다)
  2. ```Weight Loss(current)``` - 최대 감량치. ```Initial Weight``` 컬럼과 ```Lowest Weight```의 차이. (마이너스가 나올 수 있습니다)
  3. 체질량지수(```BMI```) - 키(```Height(clean)```)와 체중(```Initial Weight```)으로 체지방의 양을 추정하는 공식. 

In [15]:
VIP_data["Weight Loss(goal)"] = VIP_data["Initial Weight"] - VIP_data["Target Weight"]
VIP_data["Weight Loss(current)"] = VIP_data["Initial Weight"] - VIP_data["Lowest Weight"]
VIP_data[["Weight Loss(goal)", "Weight Loss(current)"]].head()

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  """Entry point for launching an IPython kernel.
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  


Unnamed: 0_level_0,Weight Loss(goal),Weight Loss(current)
Access Code,Unnamed: 1_level_1,Unnamed: 2_level_1
Y9RY2VSI,11.9,1.1
3GTN3S3B,5.0,
6B0IG276,6.86,
EMGRU2MO,17.7,
1ELG96TX,3.884998,


In [16]:
meter = VIP_data["Height(clean)"] / 100
bmi = VIP_data["Initial Weight"] / (meter*meter)
VIP_data["BMI"] = bmi
VIP_data[["BMI"]].head()

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  This is separate from the ipykernel package so we can avoid doing imports until


Unnamed: 0_level_0,BMI
Access Code,Unnamed: 1_level_1
Y9RY2VSI,22.613575
3GTN3S3B,22.59814
6B0IG276,33.514586
EMGRU2MO,27.617187
1ELG96TX,20.385675


7. 잘못된 정보를 기입한 사용자(invalid user)찾기 

다음의 정보를 기입한 사용자는 잘못된 정보를 기입한 사용자라고 간주하며, Invalid라는 이름의 새로운 컬럼에 True라는 값을 집어넣기. (정 반대의 경우에는 False)

**필수** (다음의 조건을 만족하지 않으면 Invalid값에는 언제나 False)
  1. 눔의 프로그램을 결제한 구매자. (```Status == "completed"```)
  
**옵션** (다음의 조건 중 하나라도 만족할 경우 Invalid값에 True)
  1. 나이(```Age(clean)```), 키(```Height(clean)```)와 몸무게(```Initial Weight```, ```Lowest Weight```, ```Target Weight```) 중 어느 하나라도 NaN이 들어가 있는 경우. 
  1. 키를 너무 작게 기입했거나(140cm 미만)나, 정 반대로 너무 크게(200cm 초과) 기입한 사용자.
  1. BMI수치가 너무 낮거나(18.5 미만) 너무 높은 사용자. (30.0 초과)
  1. 목표 감량치(```Weight Loss(goal)```)가 마이너스인 경우. (보통 현재 체중보다 목표 체중을 낮게 설정)
  
여기서 **눔의 프로그램을 결제한 구매자**에 한해서만 invalid 여부를 구한다.

In [17]:
# user["Status"] == "completed" return Ture 로하면 처음값에서 다 참으로 적용되기때문에 반대로
# False 로 적용해서 True로 바꿔간다고 생각하고 작성해야 한다.
# 또한 위의 조건중 하나라도 만족하면 이기때문에 elif 를 계속 걸어줄수있다.
def vip(user):
    if user["Status"] != "completed":
        return False
    elif pd.isnull(user["Age(clean)"]) or pd.isnull(user["Height(clean)"]):
        return True
    elif pd.isnull(user["Initial Weight"]) or pd.isnull(user["Lowest Weight"]) or pd.isnull("Target Weight"):
        return True
    elif user["Height(clean)"] < 140 or user["Height(clean)"] > 200:
        return True
    elif user["BMI"] <= 18.5 or user["BMI"] > 30:
        return True
    elif user["Weight Loss(goal)"] < 0:
        return True
    else:
        return False
    
VIP_data["Invalid"] = VIP_data.apply(vip, axis="columns")
print(VIP_data.shape)
VIP_data[["Invalid"]].head()

(10000, 11)


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy


Unnamed: 0_level_0,Invalid
Access Code,Unnamed: 1_level_1
Y9RY2VSI,False
3GTN3S3B,True
6B0IG276,True
EMGRU2MO,True
1ELG96TX,True


8. VIP 사용자 체크하기 

다음의 조건에 해당하는 사람은 눔 코치의 VIP 고객으로 간주하며, ```VIP```라는 이름의 새로운 컬럼에 True라는 값을 집어넣기. (정 반대의 경우에는 False라고 집어넣습니다) 다음의 조건을 모두 만족할 경우 VIP고객이라고 간주할 수 있다.

 1. 눔의 프로그램을 결제한 구매자. (```Status == "completed"```)
 1. 목표 감량치(```Weight Loss(goal)```), 최종 감량치(```Weight Loss(current)```), BMI 수치 모두 NaN이 아닌 값이 들어가 있는 사용자.
 1. 최종 감량치(```Weight Loss(current)```)가 10kg 이상.
 1. BMI 수치가 높은 사용자. (30.0 이상)
 1. 최종 감량치(```Weight Loss(current)```)가 목표 감량치(```Weight Loss(goal)```)보다 큰 경우. (다이어트에 성공한 사람)

In [18]:
# 다 만족하는 경우를 구하는것이기떄 다만족하지않는걸구하고 나머지는 True
# 중첩 if문도 사용해봤으나 모두만족하지않는 경우 False 가 들어가야하지만 다 안들어가는경우가 발생 ㅠㅠ
def vip(user):
    if user["Status"] != "completed":
        return False
    elif pd.isnull(user["Weight Loss(goal)"]) or pd.isnull(user["Weight Loss(current)"]) or pd.isnull(user["BMI"]):
        return False
    elif user["Weight Loss(current)"] < 10:
        return False
    elif user["BMI"] <30:
        return False
    elif user["Weight Loss(goal)"] > user["Weight Loss(current)"]:
        return False
    else :
        return True

VIP_data["VIP"] = VIP_data.apply(vip, axis="columns")
print(VIP_data.shape)
VIP_data[["VIP"]].head()

(10000, 12)


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy


Unnamed: 0_level_0,VIP
Access Code,Unnamed: 1_level_1
Y9RY2VSI,False
3GTN3S3B,False
6B0IG276,False
EMGRU2MO,False
1ELG96TX,False


In [19]:
VIP_data["VIP"].value_counts()

False    9985
True       15
Name: VIP, dtype: int64

9. 결제 / 캔슬 / 환불의 총인원수와 비율을 구하기

In [20]:
# completed 결제    cancelled 캔슬    refunded 환불
data["Status"].value_counts()

completed    5400
cancelled    4010
refunded      590
Name: Status, dtype: int64

10. 성별과 나이별 결제 / 캔슬 / 환불의 총인원수와 비율 구하기

1) 성별(남자/여자), 2) 나이에 따른 결제/캔슬/환불 비율을 구하기. 

나이의 경우 다음의 기준으로 그룹을 나눈다.

1. 17세 이하
2. 18세 이상, 24세 이하
3. 25세 이상, 35세 이하
4. 36세 이상, 44세 이하
5. 45세 이상, 54세 이하
6. 55세 이상

In [21]:
data.loc[data["Age(clean)"] <= 17, "Age(Group)"] = "00 ~ 17"
data.loc[(data["Age(clean)"] >=18) & (data["Age(clean)"] <=24), "Age(Group)"] = "18 ~ 24"
data.loc[(data["Age(clean)"] >=25) & (data["Age(clean)"] <=35), "Age(Group)"] = "25 ~ 35"
data.loc[(data["Age(clean)"] >=36) & (data["Age(clean)"] <=44), "Age(Group)"] = "36 ~ 44"
data.loc[(data["Age(clean)"] >=45) & (data["Age(clean)"] <=54), "Age(Group)"] = "45 ~ 54"
data.loc[data["Age(clean)"] >= 55, "Age(Group)"] = "55 ~ "
data[["Age(clean)", "Age(Group)"]].head()

Unnamed: 0_level_0,Age(clean),Age(Group)
Access Code,Unnamed: 1_level_1,Unnamed: 2_level_1
Y9RY2VSI,25.0,25 ~ 35
3GTN3S3B,26.0,25 ~ 35
6B0IG276,23.0,18 ~ 24
EMGRU2MO,20.0,18 ~ 24
1ELG96TX,28.0,25 ~ 35


In [22]:
# 한글 변수명을 사용해도는 되는데 회사마다 다르다 
# aggfunc = len 여기서 len은 데이터의 갯수를 구한다 일종의 count
비율 = pd.pivot_table(data=data, index=["Gender(clean)", "Age(Group)"], 
              values="Gender", columns="Status", aggfunc=len, fill_value=0)
비율["total"] = 비율["cancelled"] + 비율["completed"] + 비율["refunded"]
비율["conversion"] = 비율["completed"] / 비율["total"]
비율

Unnamed: 0_level_0,Status,cancelled,completed,refunded,total,conversion
Gender(clean),Age(Group),Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
female,00 ~ 17,25,35,3,63,0.555556
female,18 ~ 24,1637,1827,149,3613,0.505674
female,25 ~ 35,1664,2288,271,4223,0.541795
female,36 ~ 44,206,421,46,673,0.625557
female,45 ~ 54,74,160,25,259,0.617761
female,55 ~,0,5,0,5,1.0
male,00 ~ 17,3,1,0,4,0.25
male,18 ~ 24,80,100,11,191,0.52356
male,25 ~ 35,235,404,57,696,0.58046
male,36 ~ 44,21,72,9,102,0.705882


**11. 날짜와 요일 / 시간별 결제 / 캔슬 / 환불 비율을 구하기.**

시간 정보를 기준으로 결제/캔슬/환불 비율을 알아보기.
  1. 시간별 구매 현황(0시 ~ 23시)
  2. 요일별 구매 현황(월요일 ~ 일요일)

크게 다음의 내용을 구하기.

1. 0시 ~ 23시 사이의 결제/캔슬/환불 비율.
2. 월요일-일요일 사이의 결제/캔슬/환불 비율.

In [23]:
# 시간별 구매현황
data["Purchased At(hour)"] = data["Purchased At"].dt.hour
data[["Purchased At(hour)"]].head()

Unnamed: 0_level_0,Purchased At(hour)
Access Code,Unnamed: 1_level_1
Y9RY2VSI,19
3GTN3S3B,20
6B0IG276,23
EMGRU2MO,20
1ELG96TX,17


In [24]:
비율 = pd.pivot_table(data=data, index="Purchased At(hour)", values="Purchased At", 
              columns="Status", aggfunc=len, fill_value=0)
비율["total"] = 비율["cancelled"] + 비율["completed"] + 비율["refunded"]
비율["conversion"] = 비율["completed"] / 비율["total"]
비율

Status,cancelled,completed,refunded,total,conversion
Purchased At(hour),Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
0,236,344,26,606,0.567657
1,156,207,28,391,0.529412
2,90,97,4,191,0.507853
3,58,66,5,129,0.511628
4,59,45,7,111,0.405405
5,36,47,6,89,0.52809
6,48,70,6,124,0.564516
7,80,114,20,214,0.53271
8,171,264,29,464,0.568966
9,162,239,36,437,0.546911


In [25]:
# 요일별 구매 현황
data["Purchased At(weekday)"] = data["Purchased At"].dt.day_name()
data[["Purchased At(weekday)"]]

Unnamed: 0_level_0,Purchased At(weekday)
Access Code,Unnamed: 1_level_1
Y9RY2VSI,Friday
3GTN3S3B,Tuesday
6B0IG276,Wednesday
EMGRU2MO,Monday
1ELG96TX,Sunday
...,...
118AFCQ9,Tuesday
VDE8FXV9,Wednesday
VWJ4NLZY,Wednesday
NJ2PR967,Friday


In [26]:
비율 = pd.pivot_table(data=data, index="Purchased At(weekday)", values="Purchased At", 
              columns="Status", aggfunc=len, fill_value=0)
비율["total"] = 비율["cancelled"] + 비율["completed"] + 비율["refunded"]
비율["conversion"] = 비율["completed"] / 비율["total"]
비율 = 비율.loc[["Monday", "Tuesday", "Wednesday", "Thursday", "Friday", "Saturday", "Sunday"]]
# Qgrid 실험
qgrid_widget = qgrid.show_grid(비율,show_toolbar=True)
qgrid_widget

QgridWidget(grid_options={'fullWidthRows': True, 'syncColumnCellResize': True, 'forceFitColumns': True, 'defau…

12. 채널별 결제 / 캔슬 / 환불 비율구하기

In [27]:
data["Channel"].value_counts()

facebook     6880
others       1390
naver        1009
direct        297
email         271
google        120
instagram      33
Name: Channel, dtype: int64

In [28]:
비율 = pd.pivot_table(data=data, index="Channel", values="Name", 
              columns="Status", aggfunc=len, fill_value=0)
비율["total"] = 비율["cancelled"] + 비율["completed"] + 비율["refunded"]
비율["conversion"] = 비율["completed"] / 비율["total"]
# Qgrid 실험
qgrid.show_grid(비율,show_toolbar=True)

QgridWidget(grid_options={'fullWidthRows': True, 'syncColumnCellResize': True, 'forceFitColumns': True, 'defau…

### 코치 데이터 분석

In [29]:
# 코치 데이터 불러오기
coach = pd.read_csv("data/coach.csv", index_col="Access Code")
print(coach.shape)
coach.head()

(10000, 100)


Unnamed: 0_level_0,정은오 코치(VEV4PGJB),오승혁 코치(VENPKBP9),조소은 코치(D0WASBXN),고영재 코치(C91AVNGB),조수민 코치(OBCAO3W0),강채아 코치(WH2NIKCO),황다훈 코치(1I6IWURH),백슬은 코치(228BFB50),유채우 코치(IW53Y9AW),송지선 코치(WL0877P7),...,오초빈 코치(A3WOLAQM),서수정 코치(F36LORFC),정서율 코치(LX1G7EMD),고우재 코치(SKNL9Z4P),문한규 코치(OU1WVDGA),황세안 코치(3QUBQAVE),홍성은 코치(2I3QJQ5O),고성은 코치(34T7XPYR),백한율 코치(HPWAN8R0),안슬은 코치(QAVWJSZ1)
Access Code,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
Y9RY2VSI,0,0,0,0,0,0,0,0,0,0,...,0,0,0,1,0,0,0,0,0,0
3GTN3S3B,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,1,0,0,0,0,0
6B0IG276,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
EMGRU2MO,0,0,0,0,0,0,1,0,0,0,...,0,0,0,0,0,0,0,0,0,0
1ELG96TX,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


13. 기존 data와 coach데이터 합치기

In [30]:
concat_data = data[["Name", "Status"]]
coach = pd.concat([concat_data, coach], axis=1)
coach.head()

Unnamed: 0_level_0,Name,Status,정은오 코치(VEV4PGJB),오승혁 코치(VENPKBP9),조소은 코치(D0WASBXN),고영재 코치(C91AVNGB),조수민 코치(OBCAO3W0),강채아 코치(WH2NIKCO),황다훈 코치(1I6IWURH),백슬은 코치(228BFB50),...,오초빈 코치(A3WOLAQM),서수정 코치(F36LORFC),정서율 코치(LX1G7EMD),고우재 코치(SKNL9Z4P),문한규 코치(OU1WVDGA),황세안 코치(3QUBQAVE),홍성은 코치(2I3QJQ5O),고성은 코치(34T7XPYR),백한율 코치(HPWAN8R0),안슬은 코치(QAVWJSZ1)
Access Code,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
Y9RY2VSI,김승혜,completed,0,0,0,0,0,0,0,0,...,0,0,0,1,0,0,0,0,0,0
3GTN3S3B,허승준,completed,0,0,0,0,0,0,0,0,...,0,0,0,0,1,0,0,0,0,0
6B0IG276,이지민,completed,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
EMGRU2MO,장설윤,completed,0,0,0,0,0,0,1,0,...,0,0,0,0,0,0,0,0,0,0
1ELG96TX,서성빈,completed,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


14. 코치별 total / completed / cancelde / refunded 구하기

In [31]:
비율 = pd.pivot_table(data=coach, index="Status", aggfunc=sum).T
qgrid.show_grid(비율,show_toolbar=True)

QgridWidget(grid_options={'fullWidthRows': True, 'syncColumnCellResize': True, 'forceFitColumns': True, 'defau…

15. 코치별 전환율 / 취소율 구하기

전환율은 전체 구매자 대비 구매 완료(completed)를 한 사람, 취소율은 전체 구매자 대비 취소(cancelled)나 환불(refunded)을 한 사람을 나타낸다. 이 두 개를 구한 뒤, 1) 전환율이 높은 코치, 2) 취소율이 높은 코치 순으로 정렬. 

단 모수가 부족한 경우를 배제하기 위해, 코칭을 100회 이상 하지 않은 사용자는 배제.

In [32]:
비율 = pd.pivot_table(data=coach, index="Status", aggfunc=sum).T
비율["total"] = 비율["cancelled"] + 비율["completed"] + 비율["refunded"]
비율["전환율"] = 비율["completed"] / 비율["total"]
비율["취소율"] = (비율["cancelled"] + 비율["refunded"]) / 비율["total"]
비율 = 비율[비율["total"] >= 100]
qgrid.show_grid(비율,show_toolbar=True)

QgridWidget(grid_options={'fullWidthRows': True, 'syncColumnCellResize': True, 'forceFitColumns': True, 'defau…