## TKX 피트니스에 오신 것을 환영합니다!

안녕하세요! TKX 피트니스 데이터분석팀에 오신 것을 환영합니다.

TKX는 국내 최대의 프렌차이즈 피트니스 센터로서, 매월 수 천명에 달하는 신규 회원을 받아 데이터를 분석하고 있습니다.

TKX 피트니스의 장점은 프로그래밍 언어 파이썬(Python)과 데이터 분석 프레임워크 판다스(Pandas)를 활용한 면밀한 데이터 분석입니다. 이 데이터 분석을 바탕으로 KTX의 오퍼레이션 팀 / 코칭 팀은 피트니스 센터에 방문하는 고객 분들, 그리고 방문하지 않는 고객 분들에게도 최선의 맞춤 서비스를 제공해 드리고 있습니다.

오늘 이 노트북을 받은 분이 해주셔야 하는 일은 2016년도 1월부터 2017년도 12월까지의 신규 가입 고객 데이터를 받아와, 차후에 데이터분석을 더 용이하게 할 수 있도록 데이터를 정리해주는 작업, 일명 데이터 클리닝(Data Cleaning) 작업입니다.

저희 TKX 피트니스는 언제나 잘 정리되어 있는 고객 정보를 받아서 데이터 분석팀에게 맡길려고 노력하고 있으나, (이 노트북을 받은 분들도 아시겠지만) 현실은 언제나 100% 잘 정리되어있는 데이터를 받아오기가 어렵습니다.

때문에 이번 시간에는 신규 가입 고객 데이터를 분석하여, 데이터에 몇몇 누락된 부분이나 잘못 기입된 부분 등을 판다스로 정리하고 그 결과를 분석하는 일을 해주셨으면 합니다.

데이터는 다음의 URL [https://goo.gl/8XGH4T](https://goo.gl/8XGH4T) 에서 다운받을 수 있습니다. 데이터를 다운받아 읽어온 뒤, 하기에 적어놓은 내용대로 데이터를 분석 및 정리를 해주세요.




## Load Dataset

In [1]:
import numpy as np
import pandas as pd
from pandas import DataFrame, Series

In [2]:
users = pd.read_csv('./data/USER_INFO_07.csv')

In [3]:
users.head()

Unnamed: 0,Name,Gender,Age,Height,Current Weight,Goal Weight,Smoking,Drinking,Phone Number,Request Counselling,Paid Plan,Joined At,Updated At,Is Free,IsDrinking
0,안원준,남성,31.0,176.0,78.0,68.0,False,주 1회,010-2292-6251,False,0개월,2016년 07월 05일,2016년 07월 05일,True,1.0
1,유세아,여성,39.0,172.0,56.0,51.0,True,월 1회,01045795881,False,0개월,2016년 10월 02일,2016년 11월 29일,True,1.0
2,송솔은,여성,,167.0,,,True,주 1회,010-7719-8346,False,0개월,2017년 09월 06일,2017년 09월 06일,True,1.0
3,백서원,여성,36.0,,67.0,65.0,True,안 마심,01011947169,False,0개월,2017년 06월 02일,2017년 07월 28일,True,0.0
4,박서은,여성,42.0,167.0,60.0,57.0,False,안 마심,010-2575-6398,True,0개월,2017년 05월 07일,2017년 05월 07일,True,0.0


In [4]:
users.shape

(106839, 15)

# 과제(중급)

** 16. 성별 컬럼을 정리하기 **

성별 컬럼을 정리해주세요.

데이터를 분석해보면 남성, 여성, 남, 녀, Male, FEMALE 등의 다양한 표현이 있습니다. 이 표현을 male, female으로 통일해주세요.

In [5]:
users.head()

Unnamed: 0,Name,Gender,Age,Height,Current Weight,Goal Weight,Smoking,Drinking,Phone Number,Request Counselling,Paid Plan,Joined At,Updated At,Is Free,IsDrinking
0,안원준,남성,31.0,176.0,78.0,68.0,False,주 1회,010-2292-6251,False,0개월,2016년 07월 05일,2016년 07월 05일,True,1.0
1,유세아,여성,39.0,172.0,56.0,51.0,True,월 1회,01045795881,False,0개월,2016년 10월 02일,2016년 11월 29일,True,1.0
2,송솔은,여성,,167.0,,,True,주 1회,010-7719-8346,False,0개월,2017년 09월 06일,2017년 09월 06일,True,1.0
3,백서원,여성,36.0,,67.0,65.0,True,안 마심,01011947169,False,0개월,2017년 06월 02일,2017년 07월 28일,True,0.0
4,박서은,여성,42.0,167.0,60.0,57.0,False,안 마심,010-2575-6398,True,0개월,2017년 05월 07일,2017년 05월 07일,True,0.0


In [6]:
users['Gender'].unique()

array(['남성', '여성', 'Male', 'female', 'male', '여', '남', 'Female', 'FEMALE',
       'MALE'], dtype=object)

In [7]:
def replace_data(old, new):
    def _replace(data):
        if type(data) is str:
            for word in old:
                data = data.replace(word, new)
        return data
    return _replace

- MALE, FEMALE 때문에 male을 먼저 처리하면 문제가 된다.
- 순서에 신경써야 하다니!
- 다른 좋은 방법이 없을까?

In [8]:
users['Gender'] = users['Gender'].map(replace_data(['여성', '여', 'Female', 'FEMALE', ], 'female'))

In [9]:
users['Gender'] = users['Gender'].map(replace_data(['남성', '남', 'Male', 'MALE'], 'male'))

In [10]:
users['Gender'].unique()

array(['male', 'female'], dtype=object)

In [11]:
#users.to_csv('./data/USER_INFO_08.csv', index=False)

**17. 전체 인원이 아닌, 남성/여성 각각의 최소/평균/최대 키/몸무게/나이를 구해주세요.**

결과적으로 다음의 수치가 나와야 합니다.
  * 전체 남성의 최소/평균/최대 나이
  * 전체 남성의 최소/평균/최대 몸무게(kg)
  * 전체 남성의 최소/평균/최대 키(cm)
  
  * 전체 여성의 최소/평균/최대 나이
  * 전체 여성의 최소/평균/최대 몸무게(kg)
  * 전체 여성의 최소/평균/최대 키(cm)

In [12]:
#users = pd.read_csv('./data/USER_INFO_08.csv')

In [13]:
users.head()

Unnamed: 0,Name,Gender,Age,Height,Current Weight,Goal Weight,Smoking,Drinking,Phone Number,Request Counselling,Paid Plan,Joined At,Updated At,Is Free,IsDrinking
0,안원준,male,31.0,176.0,78.0,68.0,False,주 1회,010-2292-6251,False,0개월,2016년 07월 05일,2016년 07월 05일,True,1.0
1,유세아,female,39.0,172.0,56.0,51.0,True,월 1회,01045795881,False,0개월,2016년 10월 02일,2016년 11월 29일,True,1.0
2,송솔은,female,,167.0,,,True,주 1회,010-7719-8346,False,0개월,2017년 09월 06일,2017년 09월 06일,True,1.0
3,백서원,female,36.0,,67.0,65.0,True,안 마심,01011947169,False,0개월,2017년 06월 02일,2017년 07월 28일,True,0.0
4,박서은,female,42.0,167.0,60.0,57.0,False,안 마심,010-2575-6398,True,0개월,2017년 05월 07일,2017년 05월 07일,True,0.0


In [14]:
users.loc[users['Gender']=='male'].head()

Unnamed: 0,Name,Gender,Age,Height,Current Weight,Goal Weight,Smoking,Drinking,Phone Number,Request Counselling,Paid Plan,Joined At,Updated At,Is Free,IsDrinking
0,안원준,male,31.0,176.0,78.0,68.0,False,주 1회,010-2292-6251,False,0개월,2016년 07월 05일,2016년 07월 05일,True,1.0
5,전재성,male,39.0,171.0,76.0,73.0,False,월 1회,010-7299-1288,False,3개월,2017년 12월 01일,2018년 03월 05일,False,1.0
7,허태연,male,32.0,,83.0,78.0,False,월 2회,01019249265,False,0개월,2016년 10월 25일,2016년 12월 01일,True,1.0
9,황윤일,male,29.0,171.0,76.0,70.0,False,월 1회,01036423916,False,3개월,2017년 11월 04일,2017년 12월 11일,False,1.0
10,한대권,male,37.0,,78.0,69.0,False,주 1회,,False,3개월,2016년 04월 10일,2016년 04월 10일,False,1.0


In [15]:
male_user = users.loc[users['Gender']=='male']

- 전체 남성의 최소/평균/최대 나이

In [16]:
male_user['Age'].min(), male_user['Age'].mean(), male_user['Age'].max()

(2.0, 34.94158337019018, 119.0)

- 전체 남성의 최소/평균/최대 몸무게(kg)

In [17]:
male_user['Current Weight'].min(), male_user['Current Weight'].mean(), male_user['Current Weight'].max()

(66.0, 80.0635944535773, 149.0)

- 전체 남성의 최소/평균/최대 키(cm)

In [18]:
male_user['Height'].min(), male_user['Height'].mean(), male_user['Height'].max()

(121.0, 175.36344078310444, 209.0)

- 전체 여성

In [19]:
female_user = users.loc[users['Gender']=='female'].head()

- 전체 여성의 최소/평균/최대 나이

In [20]:
female_user['Age'].min(), female_user['Age'].mean(), female_user['Age'].max()

(36.0, 39.0, 42.0)

- 전체 여성의 최소/평균/최대 몸무게(kg)

In [21]:
female_user['Current Weight'].min(), female_user['Current Weight'].mean(), female_user['Current Weight'].max()

(56.0, 61.0, 67.0)

- 전체 여성의 최소/평균/최대 키(cm)

In [22]:
female_user['Height'].min(), female_user['Height'].mean(), female_user['Height'].max()

(167.0, 170.75, 177.0)

** 18. 감량 목표를 분석하기 **

데이터에서 '현재 체중' - '목표 체중' 을 하면 감량 목표가 나올 것입니다. 감량 목표를 찾아서 새로운 컬럼을 만들어주세요.

또한 kg별로 감량을 원하는 사람의 총 인원을 구해주세요. 가령 1) 1kg 감량을 원하는 총 인원, 2) 2kg 감량을 원하는 총 인원, ... 10) 10kg 감량을 원하는 총 인원이 나와야 합니다.

In [23]:
users.head()

Unnamed: 0,Name,Gender,Age,Height,Current Weight,Goal Weight,Smoking,Drinking,Phone Number,Request Counselling,Paid Plan,Joined At,Updated At,Is Free,IsDrinking
0,안원준,male,31.0,176.0,78.0,68.0,False,주 1회,010-2292-6251,False,0개월,2016년 07월 05일,2016년 07월 05일,True,1.0
1,유세아,female,39.0,172.0,56.0,51.0,True,월 1회,01045795881,False,0개월,2016년 10월 02일,2016년 11월 29일,True,1.0
2,송솔은,female,,167.0,,,True,주 1회,010-7719-8346,False,0개월,2017년 09월 06일,2017년 09월 06일,True,1.0
3,백서원,female,36.0,,67.0,65.0,True,안 마심,01011947169,False,0개월,2017년 06월 02일,2017년 07월 28일,True,0.0
4,박서은,female,42.0,167.0,60.0,57.0,False,안 마심,010-2575-6398,True,0개월,2017년 05월 07일,2017년 05월 07일,True,0.0


In [24]:
users['Loss Goal'] = users['Current Weight'] - users['Goal Weight']

In [25]:
users.head()

Unnamed: 0,Name,Gender,Age,Height,Current Weight,Goal Weight,Smoking,Drinking,Phone Number,Request Counselling,Paid Plan,Joined At,Updated At,Is Free,IsDrinking,Loss Goal
0,안원준,male,31.0,176.0,78.0,68.0,False,주 1회,010-2292-6251,False,0개월,2016년 07월 05일,2016년 07월 05일,True,1.0,10.0
1,유세아,female,39.0,172.0,56.0,51.0,True,월 1회,01045795881,False,0개월,2016년 10월 02일,2016년 11월 29일,True,1.0,5.0
2,송솔은,female,,167.0,,,True,주 1회,010-7719-8346,False,0개월,2017년 09월 06일,2017년 09월 06일,True,1.0,
3,백서원,female,36.0,,67.0,65.0,True,안 마심,01011947169,False,0개월,2017년 06월 02일,2017년 07월 28일,True,0.0,2.0
4,박서은,female,42.0,167.0,60.0,57.0,False,안 마심,010-2575-6398,True,0개월,2017년 05월 07일,2017년 05월 07일,True,0.0,3.0


In [26]:
users['Loss Goal'].value_counts().sort_index()

1.0     9508
2.0     9500
3.0     9494
4.0     9529
5.0     9629
6.0     9754
7.0     9443
8.0     9397
9.0     9629
10.0    9351
Name: Loss Goal, dtype: int64

In [27]:
#users.to_csv('./data/USER_INFO_09.csv', index=False)

** 19. '가입 개월 수'를 숫자로 표현하기 **

'가입 개월 수' 컬럼을 숫자로 정리해주세요. 현재 3개월, 6개월, 12개월로 되어있는데, 이를 3, 6, 12로 정리하시면 됩니다.

또한 0개월은 0이 아닌 NaN으로 집어넣어 주세요.


In [28]:
#users = pd.read_csv('./data/USER_INFO_09.csv')

In [29]:
users.head()

Unnamed: 0,Name,Gender,Age,Height,Current Weight,Goal Weight,Smoking,Drinking,Phone Number,Request Counselling,Paid Plan,Joined At,Updated At,Is Free,IsDrinking,Loss Goal
0,안원준,male,31.0,176.0,78.0,68.0,False,주 1회,010-2292-6251,False,0개월,2016년 07월 05일,2016년 07월 05일,True,1.0,10.0
1,유세아,female,39.0,172.0,56.0,51.0,True,월 1회,01045795881,False,0개월,2016년 10월 02일,2016년 11월 29일,True,1.0,5.0
2,송솔은,female,,167.0,,,True,주 1회,010-7719-8346,False,0개월,2017년 09월 06일,2017년 09월 06일,True,1.0,
3,백서원,female,36.0,,67.0,65.0,True,안 마심,01011947169,False,0개월,2017년 06월 02일,2017년 07월 28일,True,0.0,2.0
4,박서은,female,42.0,167.0,60.0,57.0,False,안 마심,010-2575-6398,True,0개월,2017년 05월 07일,2017년 05월 07일,True,0.0,3.0


In [30]:
# 수치 col에 불필요한 데이터를 제거하거나 변경한다.
def clean_num_col(old, new):
    def wrapper(data):
        if type(data) is str:
            num = data.replace(old, new)
            return int(num)
        return data
    return wrapper

In [31]:
clean_paid_plan = clean_num_col('개월', '')

In [32]:
users['Paid Plan'] = users['Paid Plan'].map(clean_paid_plan)

In [33]:
users['Paid Plan'].value_counts()

0     74955
3     21250
6      7291
12     3343
Name: Paid Plan, dtype: int64

In [34]:
users.loc[users['Paid Plan'] == 0, 'Paid Plan'] = np.nan

In [35]:
users['Paid Plan'].value_counts()

3.0     21250
6.0      7291
12.0     3343
Name: Paid Plan, dtype: int64

In [36]:
users['Paid Plan'].unique()

array([nan,  3., 12.,  6.])

In [37]:
#users.to_csv('./data/USER_INFO_10.csv', index=False)

** 20. '음주 여부'를 숫자로 표현하기**

'음주 여부' 컬럼을 숫자로 정리해주세요. 현재 1) 주 2회, 2) 주 1회, 3) 월 2회, 4) 월 1회 5) 안 마심으로 되어 있습니다만, 이를 월 기준 음주 횟수로 통일해주세요. 여기서 월은 30일로, 주는 4주로 고정합니다.

가령 1) 주 2회는 8, 2) 주 1회는 4, 3) 월 2회는 2, 4) 월 1회는 1, 5) 안 마심은 0으로 표현하면 됩니다.

In [38]:
#users = pd.read_csv('./data/USER_INFO_10.csv')

In [39]:
users.head()

Unnamed: 0,Name,Gender,Age,Height,Current Weight,Goal Weight,Smoking,Drinking,Phone Number,Request Counselling,Paid Plan,Joined At,Updated At,Is Free,IsDrinking,Loss Goal
0,안원준,male,31.0,176.0,78.0,68.0,False,주 1회,010-2292-6251,False,,2016년 07월 05일,2016년 07월 05일,True,1.0,10.0
1,유세아,female,39.0,172.0,56.0,51.0,True,월 1회,01045795881,False,,2016년 10월 02일,2016년 11월 29일,True,1.0,5.0
2,송솔은,female,,167.0,,,True,주 1회,010-7719-8346,False,,2017년 09월 06일,2017년 09월 06일,True,1.0,
3,백서원,female,36.0,,67.0,65.0,True,안 마심,01011947169,False,,2017년 06월 02일,2017년 07월 28일,True,0.0,2.0
4,박서은,female,42.0,167.0,60.0,57.0,False,안 마심,010-2575-6398,True,,2017년 05월 07일,2017년 05월 07일,True,0.0,3.0


In [40]:
users['Drinking'].unique()

array(['주 1회', '월 1회', '안 마심', '월 2회', '주 2회'], dtype=object)

In [41]:
def drinking_count(data):
    if data == '주 2회':
        return 8
    elif data == '주 1회':
        return 4
    elif data == '월 2회':
        return 2
    elif data == '월 1회':
        return 1
    return np.nan        

In [42]:
users['Drinking'] = users['Drinking'].map(drinking_count)

In [43]:
users['Drinking'].unique()

array([ 4.,  1., nan,  2.,  8.])

In [44]:
#users.to_csv('./data/USER_INFO_11.csv', index=False)

## 과제(고급)

** 21.휴대폰 번호 정리하기 **

다양한 표현으로 되어있는 휴대폰 번호를 010-xxxx-xxxx 로 통일해주세요. 가령 휴대폰 번호에 하이픈이 없으면 넣어주시면 됩니다.

또한 unknown으로 되어있거나 비어있는 값은 NaN으로 처리해주세요.

In [45]:
#users = pd.read_csv('./data/USER_INFO_11.csv')

In [46]:
str_sample = '010-1234-1234'.replace('-', '')

In [47]:
str_sample

'01012341234'

In [48]:
f'{str_sample[:3]}-{str_sample[3:7]}-{str_sample[7:]}'

'010-1234-1234'

In [49]:
import re
reg_phone_num = re.compile('\d{11}')

In [50]:
result = reg_phone_num.match(str_sample)
result.group()

'01012341234'

In [51]:
users.head()

Unnamed: 0,Name,Gender,Age,Height,Current Weight,Goal Weight,Smoking,Drinking,Phone Number,Request Counselling,Paid Plan,Joined At,Updated At,Is Free,IsDrinking,Loss Goal
0,안원준,male,31.0,176.0,78.0,68.0,False,4.0,010-2292-6251,False,,2016년 07월 05일,2016년 07월 05일,True,1.0,10.0
1,유세아,female,39.0,172.0,56.0,51.0,True,1.0,01045795881,False,,2016년 10월 02일,2016년 11월 29일,True,1.0,5.0
2,송솔은,female,,167.0,,,True,4.0,010-7719-8346,False,,2017년 09월 06일,2017년 09월 06일,True,1.0,
3,백서원,female,36.0,,67.0,65.0,True,,01011947169,False,,2017년 06월 02일,2017년 07월 28일,True,0.0,2.0
4,박서은,female,42.0,167.0,60.0,57.0,False,,010-2575-6398,True,,2017년 05월 07일,2017년 05월 07일,True,0.0,3.0


In [52]:
(users['Phone Number'] == 'unknown').sum()

0

In [53]:
def clean_phone_number(data):
    if type(data) is str:
        result = reg_phone_num.match(data)
        if result is None:
            return np.nan
        else:
            result.group()
    return data

In [54]:
def format_phone_number(data):
    if type(data) is str:
        return f'{data[:3]}-{data[3:7]}-{data[7:]}'
    return data

In [55]:
users['Phone Number'] = users['Phone Number'].map(replace_data('-', ''))\
                                             .map(clean_phone_number)\
                                             .map(format_phone_number)

In [56]:
users['Phone Number'].head()

0    010-2292-6251
1    010-4579-5881
2    010-7719-8346
3    010-1194-7169
4    010-2575-6398
Name: Phone Number, dtype: object

In [57]:
#users.to_csv('./data/USER_INFO_12.csv', index=False)

** 22. 날짜를 사용 가능하게 정리하기 **

현재 '회원 가입일' 컬럼과 '회원 정보 갱신일' 컬럼은 20xx년 xx월 xx일 과 같은 형식으로 되어있습니다.

이 데이터를 현재 판다스에서는 날짜 컬럼이 아닌 문자열(텍스트) 컬럼으로 인식하고 있는데, 이 컬럼을 날짜 컬럼으로 인식할 수 있도록 수정해주세요.

In [58]:
#users = pd.read_csv('./data/USER_INFO_12.csv')

In [59]:
from datetime import datetime
import re

In [60]:
p = re.compile(r'\d+')

In [61]:
sample_date1 = '2018년 7월 13일'

In [62]:
p.findall(sample_date1)

['2018', '7', '13']

In [63]:
'-'.join(p.findall(sample_date1))

'2018-7-13'

In [64]:
pd.to_datetime('-'.join(p.findall(sample_date1)))

Timestamp('2018-07-13 00:00:00')

In [65]:
sample_date2 = '2018년 07월 03일'

In [66]:
pd.to_datetime('-'.join(p.findall(sample_date2)))

Timestamp('2018-07-03 00:00:00')

In [67]:
users.head()

Unnamed: 0,Name,Gender,Age,Height,Current Weight,Goal Weight,Smoking,Drinking,Phone Number,Request Counselling,Paid Plan,Joined At,Updated At,Is Free,IsDrinking,Loss Goal
0,안원준,male,31.0,176.0,78.0,68.0,False,4.0,010-2292-6251,False,,2016년 07월 05일,2016년 07월 05일,True,1.0,10.0
1,유세아,female,39.0,172.0,56.0,51.0,True,1.0,010-4579-5881,False,,2016년 10월 02일,2016년 11월 29일,True,1.0,5.0
2,송솔은,female,,167.0,,,True,4.0,010-7719-8346,False,,2017년 09월 06일,2017년 09월 06일,True,1.0,
3,백서원,female,36.0,,67.0,65.0,True,,010-1194-7169,False,,2017년 06월 02일,2017년 07월 28일,True,0.0,2.0
4,박서은,female,42.0,167.0,60.0,57.0,False,,010-2575-6398,True,,2017년 05월 07일,2017년 05월 07일,True,0.0,3.0


In [68]:
users['Joined At'].isnull().sum()

0

In [69]:
users['Joined At'].describe()

count            106839
unique              731
top       2016년 05월 19일
freq                182
Name: Joined At, dtype: object

In [70]:
users['Joined At'].head()

0    2016년 07월 05일
1    2016년 10월 02일
2    2017년 09월 06일
3    2017년 06월 02일
4    2017년 05월 07일
Name: Joined At, dtype: object

In [71]:
def clean_date(data):
    if type(data) is str:
        return pd.to_datetime('-'.join(p.findall(data)))
    return data

In [72]:
users['Joined At'] = users['Joined At'].map(clean_date)

In [73]:
users['Joined At'].head()

0   2016-07-05
1   2016-10-02
2   2017-09-06
3   2017-06-02
4   2017-05-07
Name: Joined At, dtype: datetime64[ns]

In [74]:
users['Updated At'] = users['Updated At'].map(clean_date)

In [75]:
users['Updated At'].head()

0   2016-07-05
1   2016-11-29
2   2017-09-06
3   2017-07-28
4   2017-05-07
Name: Updated At, dtype: datetime64[ns]

In [76]:
#users.to_csv('./data/USER_INFO_13.csv', index=False)

** 23. 날짜를 기준으로 분석하기 **

22번에서 날짜 컬럼을 만들었으면 다음을 분석해주세요.

1. 월별 전체 회원 가입량
2. 월 별 유료/무료 회원 가입량의 차이
3. 월 별 남성/여성 회원 가입량의 차이

In [77]:
users.head()

Unnamed: 0,Name,Gender,Age,Height,Current Weight,Goal Weight,Smoking,Drinking,Phone Number,Request Counselling,Paid Plan,Joined At,Updated At,Is Free,IsDrinking,Loss Goal
0,안원준,male,31.0,176.0,78.0,68.0,False,4.0,010-2292-6251,False,,2016-07-05,2016-07-05,True,1.0,10.0
1,유세아,female,39.0,172.0,56.0,51.0,True,1.0,010-4579-5881,False,,2016-10-02,2016-11-29,True,1.0,5.0
2,송솔은,female,,167.0,,,True,4.0,010-7719-8346,False,,2017-09-06,2017-09-06,True,1.0,
3,백서원,female,36.0,,67.0,65.0,True,,010-1194-7169,False,,2017-06-02,2017-07-28,True,0.0,2.0
4,박서은,female,42.0,167.0,60.0,57.0,False,,010-2575-6398,True,,2017-05-07,2017-05-07,True,0.0,3.0


In [78]:
users['Joined At'].describe()

count                  106839
unique                    731
top       2016-05-19 00:00:00
freq                      182
first     2016-01-01 00:00:00
last      2017-12-31 00:00:00
Name: Joined At, dtype: object

In [79]:
user_joined = users.resample('M', on='Joined At')

In [80]:
user_joined.size()

Joined At
2016-01-31    4407
2016-02-29    4242
2016-03-31    4434
2016-04-30    4427
2016-05-31    4604
2016-06-30    4390
2016-07-31    4606
2016-08-31    4497
2016-09-30    4507
2016-10-31    4516
2016-11-30    4411
2016-12-31    4568
2017-01-31    4557
2017-02-28    4063
2017-03-31    4551
2017-04-30    4370
2017-05-31    4473
2017-06-30    4403
2017-07-31    4473
2017-08-31    4586
2017-09-30    4293
2017-10-31    4478
2017-11-30    4359
2017-12-31    4624
Freq: M, dtype: int64

In [81]:
paid_user = users[users['Is Free']==True].resample('M', on='Joined At')

In [82]:
paid_user.size()

Joined At
2016-01-31    3048
2016-02-29    2972
2016-03-31    3081
2016-04-30    3109
2016-05-31    3238
2016-06-30    3031
2016-07-31    3258
2016-08-31    3141
2016-09-30    3134
2016-10-31    3160
2016-11-30    3115
2016-12-31    3206
2017-01-31    3182
2017-02-28    2828
2017-03-31    3188
2017-04-30    3078
2017-05-31    3173
2017-06-30    3078
2017-07-31    3141
2017-08-31    3205
2017-09-30    3066
2017-10-31    3209
2017-11-30    3041
2017-12-31    3273
Freq: M, dtype: int64

In [83]:
free_user = users[users['Is Free']==False].resample('M', on='Joined At')

In [84]:
free_user.size()

Joined At
2016-01-31    1359
2016-02-29    1270
2016-03-31    1353
2016-04-30    1318
2016-05-31    1366
2016-06-30    1359
2016-07-31    1348
2016-08-31    1356
2016-09-30    1373
2016-10-31    1356
2016-11-30    1296
2016-12-31    1362
2017-01-31    1375
2017-02-28    1235
2017-03-31    1363
2017-04-30    1292
2017-05-31    1300
2017-06-30    1325
2017-07-31    1332
2017-08-31    1381
2017-09-30    1227
2017-10-31    1269
2017-11-30    1318
2017-12-31    1351
Freq: M, dtype: int64

In [85]:
male_user = users[users['Gender']=='male'].resample('M', on='Joined At')

In [86]:
male_user.size()

Joined At
2016-01-31    2598
2016-02-29    2472
2016-03-31    2534
2016-04-30    2615
2016-05-31    2688
2016-06-30    2596
2016-07-31    2714
2016-08-31    2593
2016-09-30    2664
2016-10-31    2628
2016-11-30    2603
2016-12-31    2714
2017-01-31    2691
2017-02-28    2379
2017-03-31    2717
2017-04-30    2605
2017-05-31    2654
2017-06-30    2600
2017-07-31    2637
2017-08-31    2669
2017-09-30    2461
2017-10-31    2610
2017-11-30    2549
2017-12-31    2763
Freq: M, dtype: int64

In [87]:
female_user = users[users['Gender']=='female'].resample('M', on='Joined At')

In [88]:
female_user.size()

Joined At
2016-01-31    1809
2016-02-29    1770
2016-03-31    1900
2016-04-30    1812
2016-05-31    1916
2016-06-30    1794
2016-07-31    1892
2016-08-31    1904
2016-09-30    1843
2016-10-31    1888
2016-11-30    1808
2016-12-31    1854
2017-01-31    1866
2017-02-28    1684
2017-03-31    1834
2017-04-30    1765
2017-05-31    1819
2017-06-30    1803
2017-07-31    1836
2017-08-31    1917
2017-09-30    1832
2017-10-31    1868
2017-11-30    1810
2017-12-31    1861
Freq: M, dtype: int64

** 24. 회원 정보가 맞는지 여부를 확인하는 컬럼을 만들기 **

더 정확한 데이터 분석을 위해서는, 현재까지 고객님이 기업한 회원 정보가 정확한지를 확인하는 작업이 필요합니다. 분석팀에서 데이터를 다음과 같이 정리하면, 오퍼레이션 팀과 코칭 팀이 협업을 통해서 고객 정보를 개선하고, 더 좋은 서비스를 제공할 수 있을 것 같습니다. 다음의 내용이 담겨있는 새로운 컬럼을 하나 만들어주세요. 해당 컬럼에는 reject / counselling / duplicated / confirmed 라는 결과값이 들어가야 합니다.

다음의 경우에는 재기입을 요청한다. (reject)
* 전화번호가 비어있는 경우

다음의 경우는 트레이너와 상담을 유도한다. (counselling)
* 상담 요청(counselling)이 True인 사람.

다음의 경우에는 중복을 확인한다. (duplicated)
* 동일한 이름에 동일한 전화번호를 찾아낸다. 이는 중복되었다고 가정한다.

나머지는 문제가 없다. (confirmed)

In [89]:
users.head()

Unnamed: 0,Name,Gender,Age,Height,Current Weight,Goal Weight,Smoking,Drinking,Phone Number,Request Counselling,Paid Plan,Joined At,Updated At,Is Free,IsDrinking,Loss Goal
0,안원준,male,31.0,176.0,78.0,68.0,False,4.0,010-2292-6251,False,,2016-07-05,2016-07-05,True,1.0,10.0
1,유세아,female,39.0,172.0,56.0,51.0,True,1.0,010-4579-5881,False,,2016-10-02,2016-11-29,True,1.0,5.0
2,송솔은,female,,167.0,,,True,4.0,010-7719-8346,False,,2017-09-06,2017-09-06,True,1.0,
3,백서원,female,36.0,,67.0,65.0,True,,010-1194-7169,False,,2017-06-02,2017-07-28,True,0.0,2.0
4,박서은,female,42.0,167.0,60.0,57.0,False,,010-2575-6398,True,,2017-05-07,2017-05-07,True,0.0,3.0


In [90]:
users['To Do'] = ''

In [91]:
users.loc[users['Phone Number'].isnull(), 'To Do'] = 'reject'

In [92]:
users.head()

Unnamed: 0,Name,Gender,Age,Height,Current Weight,Goal Weight,Smoking,Drinking,Phone Number,Request Counselling,Paid Plan,Joined At,Updated At,Is Free,IsDrinking,Loss Goal,To Do
0,안원준,male,31.0,176.0,78.0,68.0,False,4.0,010-2292-6251,False,,2016-07-05,2016-07-05,True,1.0,10.0,
1,유세아,female,39.0,172.0,56.0,51.0,True,1.0,010-4579-5881,False,,2016-10-02,2016-11-29,True,1.0,5.0,
2,송솔은,female,,167.0,,,True,4.0,010-7719-8346,False,,2017-09-06,2017-09-06,True,1.0,,
3,백서원,female,36.0,,67.0,65.0,True,,010-1194-7169,False,,2017-06-02,2017-07-28,True,0.0,2.0,
4,박서은,female,42.0,167.0,60.0,57.0,False,,010-2575-6398,True,,2017-05-07,2017-05-07,True,0.0,3.0,


In [93]:
users.loc[users['Request Counselling'], 'To Do'] = 'counselling'

In [94]:
users.head()

Unnamed: 0,Name,Gender,Age,Height,Current Weight,Goal Weight,Smoking,Drinking,Phone Number,Request Counselling,Paid Plan,Joined At,Updated At,Is Free,IsDrinking,Loss Goal,To Do
0,안원준,male,31.0,176.0,78.0,68.0,False,4.0,010-2292-6251,False,,2016-07-05,2016-07-05,True,1.0,10.0,
1,유세아,female,39.0,172.0,56.0,51.0,True,1.0,010-4579-5881,False,,2016-10-02,2016-11-29,True,1.0,5.0,
2,송솔은,female,,167.0,,,True,4.0,010-7719-8346,False,,2017-09-06,2017-09-06,True,1.0,,
3,백서원,female,36.0,,67.0,65.0,True,,010-1194-7169,False,,2017-06-02,2017-07-28,True,0.0,2.0,
4,박서은,female,42.0,167.0,60.0,57.0,False,,010-2575-6398,True,,2017-05-07,2017-05-07,True,0.0,3.0,counselling


In [95]:
users.loc[users.duplicated(['Name', 'Phone Number']), 'To Do'] = 'duplicated'

In [96]:
users.head()

Unnamed: 0,Name,Gender,Age,Height,Current Weight,Goal Weight,Smoking,Drinking,Phone Number,Request Counselling,Paid Plan,Joined At,Updated At,Is Free,IsDrinking,Loss Goal,To Do
0,안원준,male,31.0,176.0,78.0,68.0,False,4.0,010-2292-6251,False,,2016-07-05,2016-07-05,True,1.0,10.0,
1,유세아,female,39.0,172.0,56.0,51.0,True,1.0,010-4579-5881,False,,2016-10-02,2016-11-29,True,1.0,5.0,
2,송솔은,female,,167.0,,,True,4.0,010-7719-8346,False,,2017-09-06,2017-09-06,True,1.0,,
3,백서원,female,36.0,,67.0,65.0,True,,010-1194-7169,False,,2017-06-02,2017-07-28,True,0.0,2.0,
4,박서은,female,42.0,167.0,60.0,57.0,False,,010-2575-6398,True,,2017-05-07,2017-05-07,True,0.0,3.0,counselling


In [97]:
users[users['To Do'] == 'duplicated'].head()

Unnamed: 0,Name,Gender,Age,Height,Current Weight,Goal Weight,Smoking,Drinking,Phone Number,Request Counselling,Paid Plan,Joined At,Updated At,Is Free,IsDrinking,Loss Goal,To Do
575,조서후,male,41.0,159.0,76.0,66.0,False,1.0,,False,3.0,2017-11-03,2017-11-03,False,1.0,10.0,duplicated
1479,조지희,female,32.0,167.0,59.0,53.0,True,2.0,,False,,2017-09-27,2017-12-25,True,1.0,6.0,duplicated
1651,문시빈,male,42.0,177.0,88.0,82.0,True,1.0,,True,,2017-09-26,2017-12-10,True,1.0,6.0,duplicated
2169,최서빈,female,29.0,169.0,61.0,57.0,False,2.0,,False,,2017-08-26,2017-12-02,True,1.0,4.0,duplicated
2207,류세현,female,26.0,,55.0,45.0,False,8.0,,False,,2016-05-16,2016-05-16,True,1.0,10.0,duplicated


In [98]:
users[users['Name'] == '김영재']

Unnamed: 0,Name,Gender,Age,Height,Current Weight,Goal Weight,Smoking,Drinking,Phone Number,Request Counselling,Paid Plan,Joined At,Updated At,Is Free,IsDrinking,Loss Goal,To Do
2473,김영재,male,34.0,,77.0,74.0,True,1.0,010-5313-4126,True,3.0,2016-09-16,2016-11-29,False,1.0,3.0,counselling
15061,김영재,male,27.0,168.0,83.0,76.0,True,2.0,010-6838-5472,False,,2017-12-30,2017-12-30,True,1.0,7.0,
20733,김영재,male,34.0,,74.0,69.0,False,2.0,010-5663-2525,False,,2017-07-26,2017-07-26,True,1.0,5.0,
25273,김영재,male,34.0,176.0,73.0,69.0,True,2.0,010-5493-4518,False,,2017-04-27,2017-04-27,True,1.0,4.0,
28241,김영재,male,39.0,170.0,79.0,78.0,False,2.0,010-9744-5151,False,,2017-09-08,2017-12-09,True,1.0,1.0,
29637,김영재,male,,177.0,78.0,71.0,False,4.0,010-6788-3448,False,,2017-03-06,2017-04-30,True,1.0,7.0,
34101,김영재,male,31.0,163.0,80.0,76.0,True,2.0,010-5129-2793,False,,2016-09-16,2016-09-16,True,1.0,4.0,
52695,김영재,male,30.0,170.0,77.0,67.0,False,1.0,010-8519-5137,False,,2016-07-24,2016-07-24,True,1.0,10.0,
65833,김영재,male,30.0,174.0,,,False,4.0,010-3396-4246,False,3.0,2016-10-09,2016-10-09,False,1.0,,
70062,김영재,male,37.0,173.0,82.0,80.0,False,2.0,010-6669-4455,True,,2017-01-21,2017-01-21,True,1.0,2.0,counselling


In [99]:
users.loc[users['To Do'] == '', 'To Do'] = 'confirmed'

In [100]:
users.head()

Unnamed: 0,Name,Gender,Age,Height,Current Weight,Goal Weight,Smoking,Drinking,Phone Number,Request Counselling,Paid Plan,Joined At,Updated At,Is Free,IsDrinking,Loss Goal,To Do
0,안원준,male,31.0,176.0,78.0,68.0,False,4.0,010-2292-6251,False,,2016-07-05,2016-07-05,True,1.0,10.0,confirmed
1,유세아,female,39.0,172.0,56.0,51.0,True,1.0,010-4579-5881,False,,2016-10-02,2016-11-29,True,1.0,5.0,confirmed
2,송솔은,female,,167.0,,,True,4.0,010-7719-8346,False,,2017-09-06,2017-09-06,True,1.0,,confirmed
3,백서원,female,36.0,,67.0,65.0,True,,010-1194-7169,False,,2017-06-02,2017-07-28,True,0.0,2.0,confirmed
4,박서은,female,42.0,167.0,60.0,57.0,False,,010-2575-6398,True,,2017-05-07,2017-05-07,True,0.0,3.0,counselling


**25. VIP 찾아내기**

다음의 고객을 특별 관리 대상으로 지정합니다. 특별 관리 대상이라고 함은, TKX 서비스의 VIP 플랜을 구매할 확률이 높은 분들을 의미합니다.

1. 트레이너와 상담을 요청한 사람. (counselling)
2. 상담을 요청하지 않은 사람 중, (현재 체중 - 목표 체중) 이 가장 높은 상위 1,000 명.

이 사람들을 특별관리 대상으로 지정하며, VIP라는 이름의 컬럼에 True 값을 넣으면 됩니다. 이후에는 오퍼레이션/코치 팀이 해당 고객님을 개별 컨택하여, 적극적으로 VIP 플랜을 구매하실 수 있도록 노력할 생각입니다. (특별관리 대상이 아닌 분들은 VIP 컬럼에 False 값을 넣으면 됩니다)

또한 전체 데이터와는 별개로, VIP 고객들만을 따로 뽑아내서 CSV파일로 저장할 수 있다면 좋겠습니다.

In [101]:
users.head()

Unnamed: 0,Name,Gender,Age,Height,Current Weight,Goal Weight,Smoking,Drinking,Phone Number,Request Counselling,Paid Plan,Joined At,Updated At,Is Free,IsDrinking,Loss Goal,To Do
0,안원준,male,31.0,176.0,78.0,68.0,False,4.0,010-2292-6251,False,,2016-07-05,2016-07-05,True,1.0,10.0,confirmed
1,유세아,female,39.0,172.0,56.0,51.0,True,1.0,010-4579-5881,False,,2016-10-02,2016-11-29,True,1.0,5.0,confirmed
2,송솔은,female,,167.0,,,True,4.0,010-7719-8346,False,,2017-09-06,2017-09-06,True,1.0,,confirmed
3,백서원,female,36.0,,67.0,65.0,True,,010-1194-7169,False,,2017-06-02,2017-07-28,True,0.0,2.0,confirmed
4,박서은,female,42.0,167.0,60.0,57.0,False,,010-2575-6398,True,,2017-05-07,2017-05-07,True,0.0,3.0,counselling


In [102]:
users['VIP'] = False

In [103]:
users.loc[users['To Do'] == 'counselling', 'VIP'] = True

In [104]:
users.head()

Unnamed: 0,Name,Gender,Age,Height,Current Weight,Goal Weight,Smoking,Drinking,Phone Number,Request Counselling,Paid Plan,Joined At,Updated At,Is Free,IsDrinking,Loss Goal,To Do,VIP
0,안원준,male,31.0,176.0,78.0,68.0,False,4.0,010-2292-6251,False,,2016-07-05,2016-07-05,True,1.0,10.0,confirmed,False
1,유세아,female,39.0,172.0,56.0,51.0,True,1.0,010-4579-5881,False,,2016-10-02,2016-11-29,True,1.0,5.0,confirmed,False
2,송솔은,female,,167.0,,,True,4.0,010-7719-8346,False,,2017-09-06,2017-09-06,True,1.0,,confirmed,False
3,백서원,female,36.0,,67.0,65.0,True,,010-1194-7169,False,,2017-06-02,2017-07-28,True,0.0,2.0,confirmed,False
4,박서은,female,42.0,167.0,60.0,57.0,False,,010-2575-6398,True,,2017-05-07,2017-05-07,True,0.0,3.0,counselling,True


In [105]:
users[users['Loss Goal']==10].loc[users['To Do']!='counselling'].shape

(8463, 18)

In [106]:
users[users['To Do'] != 'counselling'].sort_values(['Loss Goal', 'Current Weight'], ascending=False).head(1000)

Unnamed: 0,Name,Gender,Age,Height,Current Weight,Goal Weight,Smoking,Drinking,Phone Number,Request Counselling,Paid Plan,Joined At,Updated At,Is Free,IsDrinking,Loss Goal,To Do,VIP
63964,임장훈,male,34.0,181.0,149.0,139.0,False,1.0,,False,,2017-09-26,2017-10-19,True,1.0,10.0,reject,False
72421,장초은,female,35.0,168.0,149.0,139.0,False,8.0,010-7789-4522,False,,2017-07-16,2017-08-19,True,1.0,10.0,confirmed,False
75204,송수정,female,34.0,176.0,149.0,139.0,False,,010-8674-7196,False,3.0,2016-04-12,2016-04-12,False,0.0,10.0,confirmed,False
105948,최유준,male,30.0,176.0,149.0,139.0,False,2.0,010-1828-1982,False,3.0,2016-01-11,2016-01-11,False,1.0,10.0,confirmed,False
2650,황재호,male,37.0,177.0,148.0,138.0,False,1.0,010-4179-4763,False,,2016-08-03,2016-08-03,True,1.0,10.0,confirmed,False
9295,조영후,male,29.0,180.0,147.0,137.0,True,2.0,010-1278-9392,False,,2017-09-18,2017-11-21,True,1.0,10.0,confirmed,False
17178,양인태,male,36.0,171.0,147.0,137.0,False,2.0,010-6626-7714,False,,2016-07-01,2016-09-28,True,1.0,10.0,confirmed,False
43658,송서준,male,25.0,175.0,147.0,137.0,False,1.0,010-4947-6767,False,,2017-05-04,2017-05-04,True,1.0,10.0,confirmed,False
51678,조시훈,male,33.0,177.0,147.0,137.0,False,2.0,010-2383-7169,False,,2016-09-30,2016-09-30,True,1.0,10.0,confirmed,False
80402,손동은,male,35.0,176.0,147.0,137.0,True,,010-2579-3335,False,,2017-03-03,2017-03-03,True,0.0,10.0,confirmed,False


In [107]:
vip_user = users[users['To Do'] != 'counselling'].nlargest(1000, ['Loss Goal', 'Current Weight'])

In [108]:
users.loc[vip_user.index, 'VIP'] = True

In [109]:
users[users['To Do'] != 'counselling'].nlargest(1000, ['Loss Goal', 'Current Weight'])

Unnamed: 0,Name,Gender,Age,Height,Current Weight,Goal Weight,Smoking,Drinking,Phone Number,Request Counselling,Paid Plan,Joined At,Updated At,Is Free,IsDrinking,Loss Goal,To Do,VIP
63964,임장훈,male,34.0,181.0,149.0,139.0,False,1.0,,False,,2017-09-26,2017-10-19,True,1.0,10.0,reject,True
72421,장초은,female,35.0,168.0,149.0,139.0,False,8.0,010-7789-4522,False,,2017-07-16,2017-08-19,True,1.0,10.0,confirmed,True
75204,송수정,female,34.0,176.0,149.0,139.0,False,,010-8674-7196,False,3.0,2016-04-12,2016-04-12,False,0.0,10.0,confirmed,True
105948,최유준,male,30.0,176.0,149.0,139.0,False,2.0,010-1828-1982,False,3.0,2016-01-11,2016-01-11,False,1.0,10.0,confirmed,True
2650,황재호,male,37.0,177.0,148.0,138.0,False,1.0,010-4179-4763,False,,2016-08-03,2016-08-03,True,1.0,10.0,confirmed,True
9295,조영후,male,29.0,180.0,147.0,137.0,True,2.0,010-1278-9392,False,,2017-09-18,2017-11-21,True,1.0,10.0,confirmed,True
17178,양인태,male,36.0,171.0,147.0,137.0,False,2.0,010-6626-7714,False,,2016-07-01,2016-09-28,True,1.0,10.0,confirmed,True
43658,송서준,male,25.0,175.0,147.0,137.0,False,1.0,010-4947-6767,False,,2017-05-04,2017-05-04,True,1.0,10.0,confirmed,True
51678,조시훈,male,33.0,177.0,147.0,137.0,False,2.0,010-2383-7169,False,,2016-09-30,2016-09-30,True,1.0,10.0,confirmed,True
80402,손동은,male,35.0,176.0,147.0,137.0,True,,010-2579-3335,False,,2017-03-03,2017-03-03,True,0.0,10.0,confirmed,True


In [110]:
users[users['VIP']==True].shape

(11098, 18)

In [111]:
users.to_csv('./data/VIP_LIST.csv')