## 눔(Noom)의 데이터분석

In [1]:
# 파이썬의 import를 활용해 데이터 분석용 패키지인 판다스(Pandas)를 읽어옵니다.
import pandas as pd

## 데이터 로딩하기

In [2]:
# noom.csv 파일을 읽어옵니다.
# 이 데이터는 사용자의 프로필(성별, 나이 등)과 구매 정보 등을 담고 있습니다.
# 또한 이 과정에서 구매 날짜(Purchased At)는 별도로 날짜 컬럼으로 해석할 수 있게 parse_dates 옵션에 추각합니다.
# 이 결과를 raw_data라는 이름의 변수에 할당합니다.
raw_data = pd.read_csv("data/noom_user.csv", parse_dates=["Purchased At"])

# 읽어온 데이터의 컬럼명을 출력합니다.
print(raw_data.columns)

# raw_data 변수에 할당된 데이터의 행렬 사이즈를 출력합니다.
# 출력은 (row, column) 으로 표시됩니다.
print(raw_data.shape)

# .head()로 raw_data 데이터의 상위 5개를 띄웁니다.
raw_data.head()

Index(['Access Code', 'Name', 'Gender', 'Age', 'Height', 'Initial Weight',
       'Lowest Weight', 'Target Weight', 'Product Name', 'Status', 'Price',
       'Purchased At', 'Payment Type', 'Channel'],
      dtype='object')
(10000, 14)


Unnamed: 0,Access Code,Name,Gender,Age,Height,Initial Weight,Lowest Weight,Target Weight,Product Name,Status,Price,Purchased At,Payment Type,Channel
0,Y9RY2VSI,김승혜,FEMALE,25.0,172.0,66.9,65.8,55.0,눔 체중감량 프로그램,completed,112500,2017-04-14 19:03:29.976,Recurring,others
1,3GTN3S3B,허승준,MALE,26.0,176.0,70.0,,65.0,눔 체중감량 프로그램,completed,44780,2017-05-23 20:53:54.368,Recurring,others
2,6B0IG276,이지민,FEMALE,23.0,171.0,98.0,,91.14,눔 체중감량 프로그램 (천원 체험),completed,132000,2017-08-23 23:39:21.840,Recurring,facebook
3,EMGRU2MO,장설윤,FEMALE,20.0,160.0,70.7,,53.0,눔 체중감량 프로그램 (천원 체험),completed,112500,2017-08-28 20:18:22.824,Recurring,naver
4,1ELG96TX,서성빈,FEMALE,28.0,165.0,55.5,,51.615002,눔 체중감량 프로그램,completed,44780,2017-05-07 17:50:30.944,Recurring,facebook


컬럼에 대한 설명은 다음과 같습니다.

  * **Access Code** - 고객의 접근 코드, 쉽게 말해 고객을 식별할 수 있는 정보라고 보면 됩니다.
  * **Name** - 고객의 이름입니다. 한글로 되어있습니다.
  * **Gender** - 고객의 성별입니다. MALE과 FEMALE, 그리고 빈 값(NaN)으로 되어있습니다.
  * **Age** - 고객의 나이입니다.
  * **Height** - 고객의 키입니다. cm 기준입니다.
  * **Initial Weight** - 고객이 처음 눔 코치에 회원 가입 했을 당시의 몸무게입니다. kg 기준입니다.
  * **Lowest Weight** - 고객이 눔 코치를 이용하는 동안 측정한 몸무게 중, 가장 낮은 몸무게입니다. kg 기준입니다.
  * **Target Weight** - 고객이 눔 코치를 처음 회원 가입할 때 설정한 목표 몸무게입니다. kg 기준입니다.
  * **Product Name** - 눔 코치 프로그램의 상세 제품명입니다.
  * **Status** - 고객의 유료 서비스 결제 현황입니다. 결제중(complete), 결제 취소(cancelled), 환불 완료(refunded)로 되어있습니다.
  * **Price** - 서비스를 구입할 당시의 가격입니다. 원(₩) 기준입니다.
  * **Purchased At** - 서비스를 구입할 당시의 시간입니다.
  * **Payment Type** - 결제 방식입니다. 현재는 Recurring(구독형 결제)만 있습니다.
  * **Channel** - 서비스 구입 경로입니다. 구글, 페이스북, 네이버 등 다양한 경로를 통해 서비스를 구입하고 있습니다.
  


## 데이터 정리하기

**1. 전체 컬럼에서 필요한 컬럼만 가져오겠습니다.**

이번 데이터 분석에서 필요한 컬럼은 다음과 같습니다.

 * ```Access Code```
 * ```Name```
 * ```Gender```
 * ```Age```
 * ```Height```
 * ```Initial Weight```
 * ```Lowest Weight```
 * ```Target Weight```
 * ```Status```
 * ```Price```
 * ```Purchased At```
 * ```Channel```

In [3]:
columns = ['Access Code', 'Name', 'Gender', 'Age', 'Height', 'Initial Weight', 'Lowest Weight', 'Target Weight', 'Status',
         'Price', 'Purchased At', 'Channel']

data = raw_data[columns].copy() # copy()를 해줘야 data를 고쳐도 raw_data에 영향이 없음. 
                                # copy()를 사용하면 용량도 2배가 되므로 대용량의 데이터를 다룰 때에는 사용하지 않는 것을 권장.

data = data.set_index('Access Code')

print(data.shape)

data.head()

(10000, 11)


Unnamed: 0_level_0,Name,Gender,Age,Height,Initial Weight,Lowest Weight,Target Weight,Status,Price,Purchased At,Channel
Access Code,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
Y9RY2VSI,김승혜,FEMALE,25.0,172.0,66.9,65.8,55.0,completed,112500,2017-04-14 19:03:29.976,others
3GTN3S3B,허승준,MALE,26.0,176.0,70.0,,65.0,completed,44780,2017-05-23 20:53:54.368,others
6B0IG276,이지민,FEMALE,23.0,171.0,98.0,,91.14,completed,132000,2017-08-23 23:39:21.840,facebook
EMGRU2MO,장설윤,FEMALE,20.0,160.0,70.7,,53.0,completed,112500,2017-08-28 20:18:22.824,naver
1ELG96TX,서성빈,FEMALE,28.0,165.0,55.5,,51.615002,completed,44780,2017-05-07 17:50:30.944,facebook


**2. 성별 컬럼을 정리하겠습니다.**

In [4]:
# 성별(Gender) 컬럼에서 중복된 값을 제거합니다.
# 최종적으로 성별 컬럼의 종류가 나옵니다. (nan은 Not a Number, 즉 값이 없다는 의미입니다)
data["Gender"].unique()

array(['FEMALE', 'MALE', nan], dtype=object)

In [5]:
# Gender 컬럼을 정리한 뒤, 전체 가입자중 남성의 비율과 여성의 비율을 계산하겠습니다.

data['Gender(clean)'] = data['Gender'].replace('MALE','male').replace('FEMALE', 'female')

# data['Gender'].str.lower() 

print(data.shape)

data[['Gender','Gender(clean)']].head()

(10000, 12)


Unnamed: 0_level_0,Gender,Gender(clean)
Access Code,Unnamed: 1_level_1,Unnamed: 2_level_1
Y9RY2VSI,FEMALE,female
3GTN3S3B,MALE,male
6B0IG276,FEMALE,female
EMGRU2MO,FEMALE,female
1ELG96TX,FEMALE,female


In [6]:
data['Gender(clean)'].value_counts()

female    8846
male      1023
Name: Gender(clean), dtype: int64

**3. 키 컬럼을 정리하겠습니다.**

In [7]:
# Height 컬럼에서 가장 작은(min) 값을 찾아와서 출력합니다.
data["Height"].min()

-1.0

In [8]:
# 키 컬럼에서 -1을 NaN 값으로 대체하겠습니다.

import numpy as np

data['Height(clean)'] = data['Height'].replace(-1, np.nan)

print(data.shape)

data.loc[data['Height'] == -1, ['Name','Height','Height(clean)']].head()

(10000, 13)


Unnamed: 0_level_0,Name,Height,Height(clean)
Access Code,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
O4OWMJG7,오세윤,-1.0,
H6EV5AXL,박슬지,-1.0,
O1IAZS7A,고솔윤,-1.0,
5NEQOWHW,손초영,-1.0,
OFAXUNXD,백채우,-1.0,


In [9]:
print(f"최소키 : {data['Height(clean)'].min()}cm, 최대키 : {data['Height(clean)'].max()}cm, 평균키 : {data['Height(clean)'].mean():.1f}cm")

최소키 : 106.0cm, 최대키 : 203.2cm, 평균키 : 163.5cm


In [10]:
# 피벗 테이블을 활용하여 성별 키를 출력하겠습니다.
pd.pivot_table(data = data, index = 'Gender(clean)', values = 'Height(clean)')

Unnamed: 0_level_0,Height(clean)
Gender(clean),Unnamed: 1_level_1
female,162.116913
male,175.831965


**4. 나이 컬럼을 정리하겠습니다.**

In [11]:
# 가장 나이가 어린 고객을 찾습니다.
# 결과는 0세라고 나오지만, 0세 사용자가 이 서비스를 사용할 가능성은 없습니다.
# 즉, 이 데이터는 잘못 기입된 데이터라고 판단할 수 있습니다.
data["Age"].min()

0.0

In [12]:
# 비슷하게 가장 나이가 많은 고객을 찾습니다.
# 결과는 173세라고 나오는데, 이 데이터도 잘못 기입되었다고 판단할 수 있습니다.
data["Age"].max()

173.0

In [13]:
# 나이가 0인 데이터와 나이가 60세 이상인 데이터는 NaN으로 변경하겠습니다.
data['Age(clean)'] = data['Age'].replace(0, np.nan)
data.loc[data['Age'] >= 60, 'Age(clean)'] = np.nan

data.loc[(data['Age'] == 0) | (data['Age'] >= 60), ['Name', 'Age', 'Age(clean)']].head()

Unnamed: 0_level_0,Name,Age,Age(clean)
Access Code,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
9PTGVW4B,강서연,0.0,
ACV6D35S,윤우성,0.0,
Y0OK1FWA,김서영,85.0,
WX34HGBL,강채민,0.0,
R9XCS81F,최유신,0.0,


In [14]:
print(f"최소나이 : {data['Age(clean)'].min()}세, 최대나이 : {data['Age(clean)'].max()}세, 평균나이 : {data['Age(clean)'].mean():.1f}세")

최소나이 : 13.0세, 최대나이 : 59.0세, 평균나이 : 27.4세


In [15]:
# 성별 평균 나이를 피벗 테이블로 출력하겠습니다.

pd.pivot_table(data = data, index = 'Gender(clean)', values = 'Age(clean)')

Unnamed: 0_level_0,Age(clean)
Gender(clean),Unnamed: 1_level_1
female,27.172929
male,29.309127


### VIP 구하기

**5. 전체 컬럼에서 필요한 컬럼만 가져오겠습니다.**


이번 데이터 분석에서 필요한 컬럼은 다음과 같습니다.

  * ```Name```
  * ```Age(clean)```
  * ```Height(clean)```
  * ```Initial Weight```
  * ```Lowest Weight```
  * ```Target Weight```
  * ```Status```

In [16]:
# 컬럼을 정리하겠습니다.
columns = ['Name', 'Age(clean)', 'Height(clean)', 'Initial Weight', 'Lowest Weight', 'Target Weight', 'Status']

# 위에 컬럼들로 구성된 새로운 데이터프레임 data_ver2를 생성했습니다.
data_ver2 = data[columns].copy()

print(data_ver2.shape)

data_ver2.head()

(10000, 7)


Unnamed: 0_level_0,Name,Age(clean),Height(clean),Initial Weight,Lowest Weight,Target Weight,Status
Access Code,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
Y9RY2VSI,김승혜,25.0,172.0,66.9,65.8,55.0,completed
3GTN3S3B,허승준,26.0,176.0,70.0,,65.0,completed
6B0IG276,이지민,23.0,171.0,98.0,,91.14,completed
EMGRU2MO,장설윤,20.0,160.0,70.7,,53.0,completed
1ELG96TX,서성빈,28.0,165.0,55.5,,51.615002,completed


**6. 주어진 컬럼으로 다음의 추가 정보를 계산하겠습니다.**

필요한 컬럼을 가져왔으면, 다음으로는 잘못된 정보를 기입한 사용자와 VIP 사용자를 구분하기 위한 컬럼을 새로 추가하겠습니다. 

다음의 세 가지 정보를 담은 컬럼을 추가하겠습니다.

  1. ```Weight Loss(goal)``` - 목표 감량치. ```Initial Weight``` 컬럼과 ```Target Weight```의 차이를 나타냅니다. (마이너스가 나올 수 있습니다)
  2. ```Weight Loss(current)``` - 최대 감량치. ```Initial Weight``` 컬럼과 ```Lowest Weight```의 차이를 나타냅니다. (마이너스가 나올 수 있습니다)
  3. 체질량지수(```BMI```) - 키(```Height(clean)```)와 체중(```Initial Weight```)으로 체지방의 양을 추정하는 공식입니다. 구체적인 공식은 다음과 같습니다.

$$
BMI = \frac{체중(kg)}{키(m) \times 키(m)}
$$


In [17]:
# 위의 공식에 따라 계산하겠습니다.

data_ver2['Weight Loss(goal)'] = data_ver2['Initial Weight'] - data_ver2['Target Weight']
data_ver2['Weight Loss(current)'] = data_ver2['Initial Weight'] - data_ver2['Lowest Weight']
data_ver2['BMI'] = data_ver2['Initial Weight'] / ((data_ver2['Height(clean)'] / 100) * (data_ver2['Height(clean)'] / 100))

data_ver2[['Name', 'Weight Loss(goal)', 'Weight Loss(current)', 'BMI']].head()

Unnamed: 0_level_0,Name,Weight Loss(goal),Weight Loss(current),BMI
Access Code,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Y9RY2VSI,김승혜,11.9,1.1,22.613575
3GTN3S3B,허승준,5.0,,22.59814
6B0IG276,이지민,6.86,,33.514586
EMGRU2MO,장설윤,17.7,,27.617187
1ELG96TX,서성빈,3.884998,,20.385675


이제 이 세 가지 정보로 정보를 잘못 기입한 사용자(invalid user)와 VIP 사용자를 찾아내겠습니다.

**7. 잘못된 정보를 기입한 사용자(invalid user)를 찾기**

이제 6번 데이터를 활용하여 잘못된 정보를 기입한 사용자를 찾아내겠습니다. 다음의 정보를 기입한 사용자는 잘못된 정보를 기입한 사용자라고 간주하며, Invalid라는 이름의 새로운 컬럼에 True라는 값을 집어넣습니다. (정 반대의 경우에는 False라고 집어넣습니다)

**필수** (다음의 조건을 만족하지 않으면 Invalid값에는 언제나 False가 들어갑니다)
  1. 눔의 프로그램을 결제한 구매자. (```Status == "completed"```)
  
**옵션** (다음의 조건 중 하나라도 만족할 경우 Invalid값에 True가 들어가야 합니다)
  1. 나이(```Age(clean)```), 키(```Height(clean)```)와 몸무게(```Initial Weight```, ```Lowest Weight```, ```Target Weight```) 중 어느 하나라도 NaN이 들어가 있는 경우. 
  1. 키를 너무 작게 기입했거나(140cm 미만)나, 정 반대로 너무 크게(200cm 초과) 기입한 사용자.
  1. BMI수치가 너무 낮거나(18.5 미만) 너무 높은 사용자. (30.0 초과)
  1. 목표 감량치(```Weight Loss(goal)```)가 마이너스인 경우. (보통 현재 체중보다 목표 체중을 낮게 설정합니다)

In [18]:
# invalid user를 찾기 위한 함수를 만들겠습니다.

def invalid_user(x):
    if x['Status'] == 'completed':
        if pd.isnull(x['Age(clean)']) or pd.isnull(x['Height(clean)'])  or pd.isnull(x['Initial Weight']) or pd.isnull(x['Lowest Weight']) or pd.isnull(x['Target Weight']):
            return True
        elif x['Height(clean)'] < 140 or x['Height(clean)'] > 200:
            return True
        elif x['BMI'] < 18.5 or x['BMI'] > 30:
            return True
        elif x['Weight Loss(goal)'] < 0:
            return True
        else:
            return False
    else:
        return False

In [19]:
# 위의 함수를 적용하여 'Invalid' 컬럼을 생성하겠습니다.

data_ver2['Invalid'] = data_ver2.apply(invalid_user, axis = 1)

In [20]:
print(data_ver2.loc[data_ver2['Invalid'] == True].shape)

data_ver2.loc[data_ver2['Invalid'] == True].head()

(2619, 11)


Unnamed: 0_level_0,Name,Age(clean),Height(clean),Initial Weight,Lowest Weight,Target Weight,Status,Weight Loss(goal),Weight Loss(current),BMI,Invalid
Access Code,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
3GTN3S3B,허승준,26.0,176.0,70.0,,65.0,completed,5.0,,22.59814,True
6B0IG276,이지민,23.0,171.0,98.0,,91.14,completed,6.86,,33.514586,True
EMGRU2MO,장설윤,20.0,160.0,70.7,,53.0,completed,17.7,,27.617187,True
1ELG96TX,서성빈,28.0,165.0,55.5,,51.615002,completed,3.884998,,20.385675,True
U9AELHAT,배소정,22.0,161.0,76.0,,48.0,completed,28.0,,29.319856,True


2619명의 사용자 정보가 올바르게 기입되어 있지 않음을 확인했습니다.

**8. VIP 사용자 체크하기**

이번에는 VIP 사용자를 찾아내겠습니다. 다음의 조건에 해당하는 사람은 눔 코치의 VIP 고객으로 간주하며, ```VIP```라는 이름의 새로운 컬럼에 True라는 값을 집어넣습니다. (정 반대의 경우에는 False라고 집어넣습니다) 다음의 조건을 모두 만족할 경우 VIP고객이라고 간주할 수 있습니다.

 1. 눔의 프로그램을 결제한 구매자. (```Status == "completed"```)
 1. 목표 감량치(```Weight Loss(goal)```), 최종 감량치(```Weight Loss(current)```), BMI 수치 모두 NaN이 아닌 값이 들어가 있는 사용자.
 1. 최종 감량치(```Weight Loss(current)```)가 10kg 이상.
 1. BMI 수치가 높은 사용자. (30.0 이상)
 1. 최종 감량치(```Weight Loss(current)```)가 목표 감량치(```Weight Loss(goal)```)보다 큰 경우. (다이어트에 성공한 사람)

In [21]:
# vip를 찾기 위한 함수를 만들겠습니다.
def is_vip(x):
    if pd.notnull(x['Weight Loss(goal)']) and pd.notnull(x['Weight Loss(current)']) and pd.notnull(x['BMI']):
        if x['Weight Loss(current)'] >= 10 and x['BMI'] >= 30:
            if x['Weight Loss(current)'] > x['Weight Loss(goal)']:
                if x['Status'] == 'completed':
                    return True
    else:
        return False

In [22]:
# is_vip 함수를 적용하여 VIP 라는 컬럼을 생성하고 출력하겠습니다.

data_ver2['VIP'] = data_ver2.apply(is_vip, axis = 1)

print(data_ver2.loc[data_ver2['VIP'] == True].shape)
data_ver2.loc[data_ver2['VIP'] == True, ['Name', 'Height(clean)', 'Initial Weight', 'Lowest Weight', 'Target Weight', 
                                        'Status', 'Weight Loss(goal)', 'Weight Loss(current)', 'BMI', 'VIP']]

(15, 12)


Unnamed: 0_level_0,Name,Height(clean),Initial Weight,Lowest Weight,Target Weight,Status,Weight Loss(goal),Weight Loss(current),BMI,VIP
Access Code,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
3T1I8I8E,임솔지,158.0,80.0137,54.5,77.745742,completed,2.267958,25.5137,32.051634,True
PJYKU9OW,홍윤오,174.0,99.9,76.6,84.0,completed,15.9,23.3,32.996433,True
0EMTSGLJ,류선정,167.0,86.0,73.2,80.050003,completed,5.949997,12.8,30.836531,True
FBEAIFW0,서서원,170.0,95.0,75.7,85.0,completed,10.0,19.3,32.871972,True
8QQV2YDW,홍서율,170.0,95.0,75.7,85.0,completed,10.0,19.3,32.871972,True
99KOLRU8,고서연,162.0,106.0,95.2,98.58,completed,7.42,10.8,40.390184,True
IBOWZ9WZ,손서애,166.0,83.0,66.1,73.0,completed,10.0,16.9,30.120482,True
6EH2LGR5,문세영,164.0,88.8,56.3,82.584003,completed,6.215997,32.5,33.016062,True
QQLYGTWD,황수윤,165.0,105.0,87.8,97.65,completed,7.35,17.2,38.567493,True
4Z1WB3UZ,허지예,162.0,106.0,95.2,98.58,completed,7.42,10.8,40.390184,True


총 15명(임솔지, 홍윤오, 류선정, 서서원, 홍서율, 고서연, 손서애, 문세영, 황수윤, 허지예, 서승희, 윤지안, 정선영, 홍슬비, 오채현)의 VIP 사용자를 발견했습니다.

## 결제 체크

눔 코치와 같은 서비스에서 가장 중요시 여기는 지표는 크게 두 가지입니다.

  1. 한 명의 고객을 데려오는데 필요한 비용, 줄여서 고객 획득 비용(Customer Acquision Cost, 이하 **[CAC](https://neilpatel.com/blog/customer-acquisition-cost/)**)
  2. 한 명의 고객을 데려왔을 때, 고객이 회사에게 제공해주는 수익(Customer Lifetime Value, 이하 **[LTV](https://en.wikipedia.org/wiki/Customer_lifetime_value)**)

**9. 결제 / 캔슬 / 환불의 총 인원 수와 비율을 구하겠습니다.**

먼저 가장 기본적인 정보는 결제 / 캔슬 / 환불 비율입니다. 전체 사용자 중에서, 1) 서비스를 유료로 이용중인 사람(completed), 2) 서비스를 더 이상 이용하지 않고 캔슬한 사람(cancelled) / 3) 서비스를 결제했으나 환불한 사람(refunded)의 비율을 구하겠습니다.

In [23]:
# .value_counts() 를 통해 Status의 종류와 그 누적 갯수를 출력합니다.
data_ver2["Status"].value_counts()

completed    5400
cancelled    4010
refunded      590
Name: Status, dtype: int64

**10. 성별과 나이별 결제 / 캔슬 / 환불의 총 인원 수와 비율을 구하겠습니다.**

이번에는 1) 성별(남자/여자), 2) 나이에 따른 결제/캔슬/환불 비율을 알고 싶습니다. 나이의 경우 다음의 기준으로 그룹을 나누겠습니다.

1. 17세 이하
2. 18세 이상, 24세 이하
3. 25세 이상, 35세 이하
4. 36세 이상, 44세 이하
5. 45세 이상, 54세 이하
6. 55세 이상

In [24]:
# 먼저 나이그룹을 나눠주기 위해 함수를 만들었습니다.

def age_group(age):
    if age <= 17:
        return '00 ~ 17'
    elif 18 <= age <=24:
        return '18 ~ 24'
    elif 25 <= age <= 35:
        return '25 ~ 35'
    elif 36 <= age <= 44:
        return '36 ~ 44'
    elif 45 <= age <= 54:
        return '45 ~ 54'
    elif age >= 55:
        return '55 ~ 99'

In [25]:
# 함수를 적용시켜 'Age(group)' 이라는 새로운 컬럼을 생성했습니다.

data_ver2['Age(Group)'] = data_ver2['Age(clean)'].apply(age_group)

In [26]:
# 피벗 테이블 인덱스에 Gender(clean)을 지정하기 위해 data_ver2에 data의 'Gender(clean)' 컬럼을 추가했습니다.

data_ver2['Gender(clean)'] = data['Gender(clean)']

In [27]:
# NaN을 0으로 처리하기 위해 fill_value 옵션을 사용했습니다.
GA_table = pd.pivot_table(data = data_ver2, index = ['Gender(clean)' , 'Age(Group)'],  columns = 'Status', values = 'Name', 
                       fill_value = 0, aggfunc = 'count')

# total 을 계산하겠습니다.
GA_table['total'] = GA_table['completed'] + GA_table['cancelled'] + GA_table['refunded']

# conversion 을 계산하겠습니다.
GA_table['conversion'] = GA_table['completed'] / GA_table['total']

GA_table

Unnamed: 0_level_0,Status,cancelled,completed,refunded,total,conversion
Gender(clean),Age(Group),Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
female,00 ~ 17,25,35,3,63,0.555556
female,18 ~ 24,1637,1827,149,3613,0.505674
female,25 ~ 35,1664,2288,271,4223,0.541795
female,36 ~ 44,206,421,46,673,0.625557
female,45 ~ 54,74,160,25,259,0.617761
female,55 ~ 99,0,5,0,5,1.0
male,00 ~ 17,3,1,0,4,0.25
male,18 ~ 24,80,100,11,191,0.52356
male,25 ~ 35,235,404,57,696,0.58046
male,36 ~ 44,21,72,9,102,0.705882


분석 결과는 다음과 같습니다.

  * 가장 많은 양의 결제가 일어난 구간은 여성 25 ~ 35세입니다. 총 2288개로, 결제 완료의 40% 이상이 이 구간에서 발생했습니다. 심지어 전환율(conversion)도 54.1%로 평균 이상입니다.
  * 또한 어느 정도 모수가 받쳐주는(결제 완료 100회 이상) 채널 중 이보다 전환율이 높은 채널은 1) 여성 36 ~ 54세, 2) 남성 25 ~ 35세, 3) 남성 36 ~ 44세 입니다. 이 채널들은 전환율이 60% 이상으로 매우 높습니다.
  * 다만 이 채널들의 총 결제자(total)가 낮다는 것은 1) 아직 이 마케팅 채널이 최적화가 덜 되었거나, 2) 고객 획득 비용(CAC)이 높은 편이라 마케팅 비용을 늘리지 않았을 가능성이 있습니다. 또한 아주 희소한 경우이지만, 3) 주 마케팅 채널(ex: 페이스북)에 위 채널에 해당하는 고객의 인원수가 부족할 수도 있습니다.

**11. 날짜와 요일 / 시간별 결제 / 캔슬 / 환불 비율을 구하겠습니다.**

이번에는 시간 정보를 기준으로 결제/캔슬/환불 비율을 알아보겠습니다. 크게 다음의 상황에 따른 구매 여부를 파악하겠습니다.

  1. 시간별 구매 현황(0시 ~ 23시)
  2. 요일별 구매 현황(월요일 ~ 일요일)

In [28]:
# 시간별 통계를 구하기 위해 'Purchased At' 컬럼을 dt.hour 옵션을 사용하여 시간으로 변환했습니다.

data_ver2['Purchased At(hour)'] = data['Purchased At'].dt.hour

print(data_ver2['Purchased At(hour)'].shape)
data_ver2['Purchased At(hour)'].head()

(10000,)


Access Code
Y9RY2VSI    19
3GTN3S3B    20
6B0IG276    23
EMGRU2MO    20
1ELG96TX    17
Name: Purchased At(hour), dtype: int64

In [29]:
hour_table = pd.pivot_table(data = data_ver2, index = 'Purchased At(hour)', columns = 'Status', values = 'Name', aggfunc = 'count')

# total 을 계산하겠습니다.
hour_table['total'] = hour_table['cancelled'] + hour_table['completed'] + hour_table['refunded']

# conversion 을 계산하겠습니다.
hour_table['conversion'] = hour_table['completed'] / hour_table['total']

hour_table

Status,cancelled,completed,refunded,total,conversion
Purchased At(hour),Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
0,236,344,26,606,0.567657
1,156,207,28,391,0.529412
2,90,97,4,191,0.507853
3,58,66,5,129,0.511628
4,59,45,7,111,0.405405
5,36,47,6,89,0.52809
6,48,70,6,124,0.564516
7,80,114,20,214,0.53271
8,171,264,29,464,0.568966
9,162,239,36,437,0.546911


분석 결과는 다음과 같습니다.

  * 구매 시간별 전환율(conversion)은 큰 차이가 없어 보입니다, 그 의미는 특정 시간대에 구매한 사용자들이 서비스를 이탈할 확률이 높아지거나 낮아지는 현상은 없다고 볼 수 있습니다.
  * 다만 전환율과는 별개로, 주로 점심시간(10시 ~ 12시)나 새벽(23시 ~ 24시)에 구매량이 대폭 늘어난다는 것을 알 수 있습니다.

In [30]:
# 요일별 통계를 구하기 위해 'Purchased At' 컬럼을 dt.day_name() 함수를 사용하겠습니다.

data_ver2['Purchased At(weekday)'] = data['Purchased At'].dt.day_name()

print(data_ver2['Purchased At(weekday)'].shape)
data_ver2['Purchased At(weekday)'].head()

(10000,)


Access Code
Y9RY2VSI       Friday
3GTN3S3B      Tuesday
6B0IG276    Wednesday
EMGRU2MO       Monday
1ELG96TX       Sunday
Name: Purchased At(weekday), dtype: object

In [31]:
day_table = pd.pivot_table(data = data_ver2, index = 'Purchased At(weekday)', columns = 'Status', values = 'Name', aggfunc = 'count')

# total 을 계산하겠습니다.
day_table['total'] = day_table['cancelled'] + day_table['completed'] + day_table['refunded']

# conversion 을 계산하겠습니다.
day_table['conversion'] = day_table['completed'] / day_table['total']

weekday_columns =['Monday', 'Tuesday', 'Wednesday', 'Thursday', 'Friday', 'Saturday', 'Sunday']

day_table.loc[weekday_columns]

Status,cancelled,completed,refunded,total,conversion
Purchased At(weekday),Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Monday,691,863,93,1647,0.523983
Tuesday,694,935,102,1731,0.54015
Wednesday,679,953,90,1722,0.553426
Thursday,616,813,88,1517,0.535926
Friday,490,674,56,1220,0.552459
Saturday,412,537,73,1022,0.52544
Sunday,428,625,88,1141,0.547765


분석 결과는 다음과 같습니다.

  * 구매 시간과 마찬가지로, 구매 요일별 전환율(conversion)은 큰 차이가 없어 보입니다. 어느 요일이나 마찬가지로, 구매한 사람이 서비스를 이탈하거나 남을 확률은 거의 동일합니다.
  * 하지만 사용자들은 전반적으로 주말(금-일)이 다가올수록 구매를 덜 하게되고, 주중(월-수)이 다가올수록 구매를 많이 하게 되는 현상을 발견할 수 있습니다.

**12. 채널별 결제 / 캔슬 / 환불 비율을 구하겠습니다.**

In [32]:
data["Channel"].value_counts()

facebook     6880
others       1390
naver        1009
direct        297
email         271
google        120
instagram      33
Name: Channel, dtype: int64

이 채널별 마케팅 효율 정보를 알 수 있다면, 마케팅 팀에서 마케팅 예산을 재조정하여 1) 마케팅 효율이 좋은 채널에 예산을 집중하고, 2) 반대로 마케팅 효율이 좋지 않은 채널에 예산을 빼는 재조정(rebalancing)을 할 수 있습니다.

그러므로 채널별 마케팅 결제/캔슬/환불 현황을 구해주세요.

In [33]:
# data_ver2에 data의 'Channel' 컬럼을 추가했습니다.

data_ver2['Channel'] = data['Channel']

In [34]:
channel_table = pd.pivot_table(data = data_ver2, index = 'Channel', columns = 'Status', values = 'Name', aggfunc = 'count')

# total 을 계산하겠습니다.
channel_table['total'] = channel_table['cancelled'] + channel_table['completed'] + channel_table['refunded']

# conversion 을 계산하겠습니다.
channel_table['conversion'] = channel_table['completed'] / channel_table['total']

channel_table

Status,cancelled,completed,refunded,total,conversion
Channel,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
direct,119,169,9,297,0.569024
email,93,155,23,271,0.571956
facebook,2812,3654,414,6880,0.531105
google,42,66,12,120,0.55
instagram,13,17,3,33,0.515152
naver,386,568,55,1009,0.562934
others,545,771,74,1390,0.554676


이 결과를 통해 알 수 있는 정보는 다음과 같습니다.

  * 현재 가장 많은 구매가 일어나는 채널은 페이스북(facebook) 입니다. 거의 대부분의 구매가 이 채널에서 일어났습니다.
  * 구매량이 100회 이상인 채널 중 가장 전환율이 높은 채널은 이메일(email) 입니다. 이 채널은 사용자가 눔의 웹사이트에 방문한 뒤, 바로 구매하지 않고 이메일 주소만만 남겨놨을 경우에 해당됩니다.
  * 아직 구매량이 페이스북만큼 많지는 않지만, 전환률이 페이스북보다 높은 채널 중 하나는 네이버(naver)입니다. 전환율이 56%로 페이스북보다 다소 높은 편입니다.
  * 네이버만큼이나 전환율이 높은 채널은 기타(others)입니다. 이 채널은 결제율이 페이스북만큼 높음에도 불구하고, 아쉽게도 기록이 잘 되어있지 않기 때문에 분석이 어렵습니다.

### 코치 데이터와 매칭

다음은 사용자 데이터와 코치 데이터를 합쳐서 분석해보겠습니다. 코치 데이터 분석에서 가장 중요한 것은, 좋은 코칭을 하는 사람과 그렇지 못한 사람을 구분하는 것입니다.

이번에는 데이터 분석을 통해 눔 코치 서비스의 코칭 만족도를 분석해보겠습니다.

In [35]:
# 먼저 코칭 데이터를 가져옵니다.
# 이 결과를 coach라는 이름의 변수에 할당합니다.
coach = pd.read_csv("data/noom_coach.csv", index_col="Access Code")

# coach 변수에 할당된 데이터의 행렬 사이즈를 출력합니다.
# 출력은 (row, column) 으로 표시됩니다.
print(coach.shape)

# coach 데이터의 상위 5개를 출력합니다.
coach.head()

(10000, 100)


Unnamed: 0_level_0,정은오 코치(VEV4PGJB),오승혁 코치(VENPKBP9),조소은 코치(D0WASBXN),고영재 코치(C91AVNGB),조수민 코치(OBCAO3W0),강채아 코치(WH2NIKCO),황다훈 코치(1I6IWURH),백슬은 코치(228BFB50),유채우 코치(IW53Y9AW),송지선 코치(WL0877P7),...,오초빈 코치(A3WOLAQM),서수정 코치(F36LORFC),정서율 코치(LX1G7EMD),고우재 코치(SKNL9Z4P),문한규 코치(OU1WVDGA),황세안 코치(3QUBQAVE),홍성은 코치(2I3QJQ5O),고성은 코치(34T7XPYR),백한율 코치(HPWAN8R0),안슬은 코치(QAVWJSZ1)
Access Code,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
Y9RY2VSI,0,0,0,0,0,0,0,0,0,0,...,0,0,0,1,0,0,0,0,0,0
3GTN3S3B,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,1,0,0,0,0,0
6B0IG276,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
EMGRU2MO,0,0,0,0,0,0,1,0,0,0,...,0,0,0,0,0,0,0,0,0,0
1ELG96TX,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


**13. 기존의 데이터와 코치 데이터를 합쳐주세요.** 

In [36]:
# 결과를 살펴보면, 기존 컬럼에는 Name, Status 컬럼 2개만 있으므로 해당 컬럼만을 가진 data_ver3 변수를 새로 생성하겠습니다. 

columns = ['Name', 'Status']

data_ver3 = data_ver2[columns].copy()

print(data_ver3.shape)
data_ver3.head()

(10000, 2)


Unnamed: 0_level_0,Name,Status
Access Code,Unnamed: 1_level_1,Unnamed: 2_level_1
Y9RY2VSI,김승혜,completed
3GTN3S3B,허승준,completed
6B0IG276,이지민,completed
EMGRU2MO,장설윤,completed
1ELG96TX,서성빈,completed


In [37]:
# 화면에 출력되는 컬럼의 최대 갯수를 조정했습니다.

pd.options.display.max_columns = 50

In [38]:
# concat 함수는 기본값이 axis = 0으로 Series 형태롤 생성되기 때문에 axis = 1을 입력하여 DataFrame 형태로 생성했습니다.

data_coach = pd.concat([data_ver3, coach], axis = 1)

print(data_coach.shape)
data_coach.head()

(10000, 102)


Unnamed: 0_level_0,Name,Status,정은오 코치(VEV4PGJB),오승혁 코치(VENPKBP9),조소은 코치(D0WASBXN),고영재 코치(C91AVNGB),조수민 코치(OBCAO3W0),강채아 코치(WH2NIKCO),황다훈 코치(1I6IWURH),백슬은 코치(228BFB50),유채우 코치(IW53Y9AW),송지선 코치(WL0877P7),허성원 코치(9124O1IH),최서율 코치(UVZALFE3),윤채윤 코치(U95EGIDM),허슬지 코치(DWVG5IFL),김슬민 코치(CWI0ABRI),정동인 코치(UQN9899Z),오시현 코치(7XM3L93F),김서은 코치(FOT4SH4F),문선아 코치(W5AZL2WT),김윤 채 코치(COZ180VA),양서율 코치(A2A98OA6),권슬영 코치(E3GD4106),박성현 코치(JKKV62JR),...,문소윤 코치(2WDVTB40),한동예 코치(OD8IV4Q5),권시윤 코치(4MEMXAVM),조초연 코치(3JBE9GKO),조수아 코치(V5CSCQ45),강지희 코치(NOEP7X8B),문승혁 코치(6LHXIU5N),박성은 코치(4KO70A9P),문선희 코치(NTELEEEO),강은우 코치(EJIHL7OE),장승희 코치(85BWE3V1),고수이 코치(NKHXTMRU),전지현 코치(SQHB3H66),손수연 코치(Z5GQG6SI),신성빈 코치(7CIDQT0X),오초빈 코치(A3WOLAQM),서수정 코치(F36LORFC),정서율 코치(LX1G7EMD),고우재 코치(SKNL9Z4P),문한규 코치(OU1WVDGA),황세안 코치(3QUBQAVE),홍성은 코치(2I3QJQ5O),고성은 코치(34T7XPYR),백한율 코치(HPWAN8R0),안슬은 코치(QAVWJSZ1)
Access Code,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1,Unnamed: 22_level_1,Unnamed: 23_level_1,Unnamed: 24_level_1,Unnamed: 25_level_1,Unnamed: 26_level_1,Unnamed: 27_level_1,Unnamed: 28_level_1,Unnamed: 29_level_1,Unnamed: 30_level_1,Unnamed: 31_level_1,Unnamed: 32_level_1,Unnamed: 33_level_1,Unnamed: 34_level_1,Unnamed: 35_level_1,Unnamed: 36_level_1,Unnamed: 37_level_1,Unnamed: 38_level_1,Unnamed: 39_level_1,Unnamed: 40_level_1,Unnamed: 41_level_1,Unnamed: 42_level_1,Unnamed: 43_level_1,Unnamed: 44_level_1,Unnamed: 45_level_1,Unnamed: 46_level_1,Unnamed: 47_level_1,Unnamed: 48_level_1,Unnamed: 49_level_1,Unnamed: 50_level_1,Unnamed: 51_level_1
Y9RY2VSI,김승혜,completed,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0
3GTN3S3B,허승준,completed,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,...,0,0,2,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0
6B0IG276,이지민,completed,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0
EMGRU2MO,장설윤,completed,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0
1ELG96TX,서성빈,completed,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0


**14. 코치별 담당 사용자(total) / 구매 완료 횟수(completed) / 캔슬 횟수(canceled) / 환불 횟수(refunded)를 구하겠습니다.**

In [39]:
coach_data = pd.pivot_table(data = data_coach,  columns = 'Status', aggfunc = 'sum')

print(coach_data.shape)

coach_index = ['정은오 코치(VEV4PGJB)', '오승혁 코치(VENPKBP9)', '조소은 코치(D0WASBXN)', '고영재 코치(C91AVNGB)', '조수민 코치(OBCAO3W0)']

coach_data.loc[coach_index]

(100, 3)


Status,cancelled,completed,refunded
정은오 코치(VEV4PGJB),18,23,3
오승혁 코치(VENPKBP9),14,44,9
조소은 코치(D0WASBXN),12,12,1
고영재 코치(C91AVNGB),22,27,4
조수민 코치(OBCAO3W0),49,46,8


**15. 코치별 전환율(conversion rate) / 취소율(cancellation rate)를 계산하겠습니다.**

- 전환율 : 전체 구매자 대비 구매 완료(completed)를 한 사람의 비율

- 취소율 : 전체 구매자 대비 취소(cancelled)나 환불(refunded)을 한 사람의 비율

In [40]:
# total, conversion rate, cancellation rate 를 계산하여 피벗 테이블에 추가하겠습니다.
coach_data['total'] = coach_data['cancelled'] + coach_data['completed'] + coach_data['refunded']

# conversion rate 를 계산하겠습니다.
coach_data['conversion rate'] = coach_data['completed'] / coach_data['total']

# cancellation rate 를 계산하겠습니다.
coach_data['cancellation rate'] = (coach_data['cancelled'] + coach_data['refunded']) / coach_data['total']

# 코칭 100회 이상인 사람만 출력하겠습니다.
coach_data = coach_data.loc[coach_data['total'] >= 100]

print(coach_data.shape)
coach_data.head()

(47, 6)


Status,cancelled,completed,refunded,total,conversion rate,cancellation rate
강은우 코치(EJIHL7OE),122,171,16,309,0.553398,0.446602
고우재 코치(SKNL9Z4P),82,96,11,189,0.507937,0.492063
권슬영 코치(E3GD4106),42,70,9,121,0.578512,0.421488
권시윤 코치(4MEMXAVM),112,149,11,272,0.547794,0.452206
김슬민 코치(CWI0ABRI),120,171,18,309,0.553398,0.446602


In [41]:
# 전환율이 높은 사람 순대로 출력하겠습니다.

coach_data.sort_values(by = 'conversion rate', ascending = False).head()

Status,cancelled,completed,refunded,total,conversion rate,cancellation rate
조우찬 코치(WWN531JQ),36,65,6,107,0.607477,0.392523
허슬지 코치(DWVG5IFL),43,71,3,117,0.606838,0.393162
허성원 코치(9124O1IH),43,76,7,126,0.603175,0.396825
조설영 코치(U7L98DAO),48,78,6,132,0.590909,0.409091
권슬영 코치(E3GD4106),42,70,9,121,0.578512,0.421488


In [42]:
# 취소율이 높은 사람 순대로 출력하겠습니다.

coach_data.sort_values(by = 'cancellation rate', ascending = False).head()

Status,cancelled,completed,refunded,total,conversion rate,cancellation rate
조수민 코치(OBCAO3W0),49,46,8,103,0.446602,0.553398
박도영 코치(I4KVQ5G0),77,70,6,153,0.457516,0.542484
오동완 코치(0O48DQCH),55,56,7,118,0.474576,0.525424
조초연 코치(3JBE9GKO),55,56,5,116,0.482759,0.517241
오초빈 코치(A3WOLAQM),124,150,27,301,0.498339,0.501661
