## TKX 피트니스에 오신 것을 환영합니다!

안녕하세요! TKX 피트니스 데이터분석팀에 오신 것을 환영합니다.

TKX는 국내 최대의 프렌차이즈 피트니스 센터로서, 매월 수 천명에 달하는 신규 회원을 받아 데이터를 분석하고 있습니다.

TKX 피트니스의 장점은 프로그래밍 언어 파이썬(Python)과 데이터 분석 프레임워크 판다스(Pandas)를 활용한 면밀한 데이터 분석입니다. 이 데이터 분석을 바탕으로 KTX의 오퍼레이션 팀 / 코칭 팀은 피트니스 센터에 방문하는 고객 분들, 그리고 방문하지 않는 고객 분들에게도 최선의 맞춤 서비스를 제공해 드리고 있습니다.

오늘 이 노트북을 받은 분이 해주셔야 하는 일은 2016년도 1월부터 2017년도 12월까지의 신규 가입 고객 데이터를 받아와, 차후에 데이터분석을 더 용이하게 할 수 있도록 데이터를 정리해주는 작업, 일명 데이터 클리닝(Data Cleaning) 작업입니다.

저희 TKX 피트니스는 언제나 잘 정리되어 있는 고객 정보를 받아서 데이터 분석팀에게 맡길려고 노력하고 있으나, (이 노트북을 받은 분들도 아시겠지만) 현실은 언제나 100% 잘 정리되어있는 데이터를 받아오기가 어렵습니다.

때문에 이번 시간에는 신규 가입 고객 데이터를 분석하여, 데이터에 몇몇 누락된 부분이나 잘못 기입된 부분 등을 판다스로 정리하고 그 결과를 분석하는 일을 해주셨으면 합니다.

데이터는 다음의 URL [https://goo.gl/8XGH4T](https://goo.gl/8XGH4T) 에서 다운받을 수 있습니다. 데이터를 다운받아 읽어온 뒤, 하기에 적어놓은 내용대로 데이터를 분석 및 정리를 해주세요.




## Load Dataset

In [1]:
import numpy as np
import pandas as pd
from pandas import DataFrame, Series

In [2]:
user_info = pd.read_csv('./data/tkx-user-data.csv')

In [3]:
user_info.head()

Unnamed: 0,이름,성별,전화번호,나이,현재 체중,목표 체중,키,회원 가입일,회원 정보 갱신일,흡연 여부,음주 여부,가입 개월 수,개인상담 요청
0,안원준,남성,010-2292-6251,31세,78,68,176,2016년 07월 05일,2016년 07월 05일,아니오,주 1회,0개월,아니요
1,유세아,여성,01045795881,39,56kg,51kg,172,2016년 10월 02일,2016년 11월 29일,예,월 1회,0개월,아니요
2,송솔은,여성,010-7719-8346,,29,21,167,2017년 09월 06일,2017년 09월 06일,예,주 1회,0개월,아니요
3,백서원,여성,01011947169,36,67,65,0,2017년 06월 02일,2017년 07월 28일,예,안 마심,0개월,아니요
4,박서은,여성,010-2575-6398,42,60,57,167,2017년 05월 07일,2017년 05월 07일,아니오,안 마심,0개월,예


In [4]:
user_info.shape

(106839, 13)

## 실습

** 1. 텍스트로 된 흡연 여부(예/아니오)를 True/False 로 바꾸기 **

In [5]:
# 흡연 여부 col이 어떻게 생겼는지 확인한다.
user_info['흡연 여부'].value_counts()

아니오    85468
예      21371
Name: 흡연 여부, dtype: int64

In [6]:
# 흡연 여부 col이 어떻게 생겼는지 확인한다.
user_info['흡연 여부'].unique()

array(['아니오', '예'], dtype=object)

In [7]:
# '흡연 여부' 의 value == '예' 이면 True, 아니면 False
user_info['흡연 여부'] = user_info['흡연 여부'] == '예'

In [8]:
# 잘 적용되었는지 확인
user_info['흡연 여부'].value_counts()

False    85468
True     21371
Name: 흡연 여부, dtype: int64

In [9]:
# DataFrame 확인
user_info.head()

Unnamed: 0,이름,성별,전화번호,나이,현재 체중,목표 체중,키,회원 가입일,회원 정보 갱신일,흡연 여부,음주 여부,가입 개월 수,개인상담 요청
0,안원준,남성,010-2292-6251,31세,78,68,176,2016년 07월 05일,2016년 07월 05일,False,주 1회,0개월,아니요
1,유세아,여성,01045795881,39,56kg,51kg,172,2016년 10월 02일,2016년 11월 29일,True,월 1회,0개월,아니요
2,송솔은,여성,010-7719-8346,,29,21,167,2017년 09월 06일,2017년 09월 06일,True,주 1회,0개월,아니요
3,백서원,여성,01011947169,36,67,65,0,2017년 06월 02일,2017년 07월 28일,True,안 마심,0개월,아니요
4,박서은,여성,010-2575-6398,42,60,57,167,2017년 05월 07일,2017년 05월 07일,False,안 마심,0개월,예


** 2. 나이에서 0세라고 되어있는 것을 NaN으로 바꾸기 **

- 0인 항목을 찾기 위해 value_counts() 메소드를 이용했는데 이걸로는 확인하기 어려웠다.

In [10]:
user_info[user_info['나이'] == 0]

Unnamed: 0,이름,성별,전화번호,나이,현재 체중,목표 체중,키,회원 가입일,회원 정보 갱신일,흡연 여부,음주 여부,가입 개월 수,개인상담 요청


- 나이가 0인 항목이 없는데?

** 3. 나이 컬럼을 정리하기 **

In [11]:
# 데이터 확인
user_info['나이'].unique()

array(['31세', '39', nan, '36', '42', '32', '27', '29', '37', '37세', '34',
       '40', '33 세', '35', '30', '28', '50', '43', '31', '27세', '20',
       '36세', '22', '33세', '33', '25', '38', '23', '38 세', '26', '34 세',
       '2', '31 세', '35 세', '49', '41', '24', '44', '39세', '105', '118',
       '36 세', '5', '28 세', '37 세', '19', '32 세', '21', '25 세', '42세',
       '44세', '46', '24 세', '85', '26 세', '39 세', '43세', '47', '82',
       '38세', '45세', '30 세', '19세', '32세', '20세', '116', '40세', '34세',
       '6', '6 세', '47세', '16', '81', '30세', '24세', '45', '18', '20 세',
       '42 세', '26세', '27 세', '35세', '110', '4', '8', '21 세', '115',
       '25세', '28세', '29세', '7', '80세', '21세', '3', '96 세', '23 세', '15',
       '119', '14', '29 세', '5세', '91', '44 세', '112', '40 세', '109',
       '17', '92', '51', '16세', '94', '22 세', '41세', '5 세', '41 세', '48',
       '102', '22세', '114', '84', '106', '50세', '96', '87', '95', '23세',
       '49세', '8 세', '111', '46세', '101', '97세', '7 세', '112세', '11

In [12]:
# 수치 col에 불필요한 데이터를 제거하거나 변경한다.
def clean_num_col(old, new):
    def wrapper(data):
        if type(data) is str:
            num = data.replace(old, new)
            return int(num)
        return data
    return wrapper

In [13]:
clean_age = clean_num_col('세', '')
user_info['나이'] = user_info['나이'].map(clean_age)

In [14]:
user_info['나이'].unique()

array([ 31.,  39.,  nan,  36.,  42.,  32.,  27.,  29.,  37.,  34.,  40.,
        33.,  35.,  30.,  28.,  50.,  43.,  20.,  22.,  25.,  38.,  23.,
        26.,   2.,  49.,  41.,  24.,  44., 105., 118.,   5.,  19.,  21.,
        46.,  85.,  47.,  82.,  45., 116.,   6.,  16.,  81.,  18., 110.,
         4.,   8., 115.,   7.,  80.,   3.,  96.,  15., 119.,  14.,  91.,
       112., 109.,  17.,  92.,  51.,  94.,  48., 102., 114.,  84., 106.,
        87.,  95., 111., 101.,  97., 113.,  86., 107.,  90., 103., 117.,
        88., 100., 108.,  13.,  99., 104.,  93.,  98.,  52.,  83.,  53.,
        89.,  11.,  54.,  12.])

In [15]:
# map, apply 어떤 메서드를 사용하여도 상관없다.
age = user_info['나이'].apply(clean_age)

In [16]:
age.unique()

array([ 31.,  39.,  nan,  36.,  42.,  32.,  27.,  29.,  37.,  34.,  40.,
        33.,  35.,  30.,  28.,  50.,  43.,  20.,  22.,  25.,  38.,  23.,
        26.,   2.,  49.,  41.,  24.,  44., 105., 118.,   5.,  19.,  21.,
        46.,  85.,  47.,  82.,  45., 116.,   6.,  16.,  81.,  18., 110.,
         4.,   8., 115.,   7.,  80.,   3.,  96.,  15., 119.,  14.,  91.,
       112., 109.,  17.,  92.,  51.,  94.,  48., 102., 114.,  84., 106.,
        87.,  95., 111., 101.,  97., 113.,  86., 107.,  90., 103., 117.,
        88., 100., 108.,  13.,  99., 104.,  93.,  98.,  52.,  83.,  53.,
        89.,  11.,  54.,  12.])

** 4. 평균(mean) / 최소(min) / 최대(max) 나이 구하기 **

In [17]:
age = user_info['나이']
(age.mean(), age.min(), age.max())

(33.29973284545577, 2.0, 119.0)

** 5. 컬럼의 순서를 조금 더 직관적으로 바꾸기 **

In [18]:
user_info.head()

Unnamed: 0,이름,성별,전화번호,나이,현재 체중,목표 체중,키,회원 가입일,회원 정보 갱신일,흡연 여부,음주 여부,가입 개월 수,개인상담 요청
0,안원준,남성,010-2292-6251,31.0,78,68,176,2016년 07월 05일,2016년 07월 05일,False,주 1회,0개월,아니요
1,유세아,여성,01045795881,39.0,56kg,51kg,172,2016년 10월 02일,2016년 11월 29일,True,월 1회,0개월,아니요
2,송솔은,여성,010-7719-8346,,29,21,167,2017년 09월 06일,2017년 09월 06일,True,주 1회,0개월,아니요
3,백서원,여성,01011947169,36.0,67,65,0,2017년 06월 02일,2017년 07월 28일,True,안 마심,0개월,아니요
4,박서은,여성,010-2575-6398,42.0,60,57,167,2017년 05월 07일,2017년 05월 07일,False,안 마심,0개월,예


In [19]:
private_info = ['이름', '성별', '나이', '키', '현재 체중', '목표 체중', '흡연 여부', '음주 여부', '전화번호']
etc_info = ['개인상담 요청', '가입 개월 수', '회원 가입일', '회원 정보 갱신일']

In [20]:
user_info_ordered = user_info[private_info + etc_info]
user_info_ordered.head()

Unnamed: 0,이름,성별,나이,키,현재 체중,목표 체중,흡연 여부,음주 여부,전화번호,개인상담 요청,가입 개월 수,회원 가입일,회원 정보 갱신일
0,안원준,남성,31.0,176,78,68,False,주 1회,010-2292-6251,아니요,0개월,2016년 07월 05일,2016년 07월 05일
1,유세아,여성,39.0,172,56kg,51kg,True,월 1회,01045795881,아니요,0개월,2016년 10월 02일,2016년 11월 29일
2,송솔은,여성,,167,29,21,True,주 1회,010-7719-8346,아니요,0개월,2017년 09월 06일,2017년 09월 06일
3,백서원,여성,36.0,0,67,65,True,안 마심,01011947169,아니요,0개월,2017년 06월 02일,2017년 07월 28일
4,박서은,여성,42.0,167,60,57,False,안 마심,010-2575-6398,예,0개월,2017년 05월 07일,2017년 05월 07일


## 과제(초급)

### 데이터를 사용하기 용이하게 정리하기

**6. 컬럼 이름 바꾸기**

보통 프로그래밍을 할 때 한글 컬럼을 사용하면 다양한 문제로 불편을 겪을 때가 많습니다.

그러므로 컬럼을 전부 한글에서 영어로 바꿔주세요. 컬럼명은 다음과 같이 바꿔주시면 됩니다.

* 이름 - Name
* 성별 - Gender
* 전화번호 - Phone Number
* 나이 - Age
* 현재 체중 - Current Weight
* 목표 체종 - Goal Weight
* 키 - Height
* 흡연 여부 - Smoking
* 음주 여부 - Drinking
* 개인상담 요청 - Request Counselling
* 회원 가입일 - Joined At
* 회원 정보 갱신일 - Updated At
* 가입 개월 수 - Paid Plan

In [21]:
col_name = {'이름': 'Name',
            '성별': 'Gender',
            '전화번호': 'Phone Number',
            '나이': 'Age',
            '현재 체중': 'Current Weight',
            '목표 체중': 'Goal Weight',
            '키': 'Height',
            '흡연 여부': 'Smoking',
            '음주 여부': 'Drinking',
            '개인상담 요청': 'Request Counselling',
            '회원 가입일': 'Joined At',
            '회원 정보 갱신일': 'Updated At',
            '가입 개월 수': 'Paid Plan'}

In [22]:
# rename() 메서드로 컬럼명 변경
user_info2 = user_info_ordered.rename(columns=col_name)
user_info2.head()

Unnamed: 0,Name,Gender,Age,Height,Current Weight,Goal Weight,Smoking,Drinking,Phone Number,Request Counselling,Paid Plan,Joined At,Updated At
0,안원준,남성,31.0,176,78,68,False,주 1회,010-2292-6251,아니요,0개월,2016년 07월 05일,2016년 07월 05일
1,유세아,여성,39.0,172,56kg,51kg,True,월 1회,01045795881,아니요,0개월,2016년 10월 02일,2016년 11월 29일
2,송솔은,여성,,167,29,21,True,주 1회,010-7719-8346,아니요,0개월,2017년 09월 06일,2017년 09월 06일
3,백서원,여성,36.0,0,67,65,True,안 마심,01011947169,아니요,0개월,2017년 06월 02일,2017년 07월 28일
4,박서은,여성,42.0,167,60,57,False,안 마심,010-2575-6398,예,0개월,2017년 05월 07일,2017년 05월 07일


- 이후 과정에서 이 DataFrame을 계속 수정한다.
- 수정 하기 전 임시 저장

In [23]:
user_info2.to_csv('./data/USER_INFO_01.csv', index=False)

** 7. '상담 요청' 컬럼을 예/아니오 에서 True/False로 바꿔주세요 **

In [24]:
users = pd.read_csv('./data/USER_INFO_01.csv')

In [25]:
users.head()

Unnamed: 0,Name,Gender,Age,Height,Current Weight,Goal Weight,Smoking,Drinking,Phone Number,Request Counselling,Paid Plan,Joined At,Updated At
0,안원준,남성,31.0,176,78,68,False,주 1회,010-2292-6251,아니요,0개월,2016년 07월 05일,2016년 07월 05일
1,유세아,여성,39.0,172,56kg,51kg,True,월 1회,01045795881,아니요,0개월,2016년 10월 02일,2016년 11월 29일
2,송솔은,여성,,167,29,21,True,주 1회,010-7719-8346,아니요,0개월,2017년 09월 06일,2017년 09월 06일
3,백서원,여성,36.0,0,67,65,True,안 마심,01011947169,아니요,0개월,2017년 06월 02일,2017년 07월 28일
4,박서은,여성,42.0,167,60,57,False,안 마심,010-2575-6398,예,0개월,2017년 05월 07일,2017년 05월 07일


In [26]:
users['Request Counselling'].value_counts()

아니요    96260
예      10579
Name: Request Counselling, dtype: int64

In [27]:
users['Request Counselling'] = user_info2['Request Counselling'] == '예'

In [28]:
users['Request Counselling'].value_counts()

False    96260
True     10579
Name: Request Counselling, dtype: int64

In [29]:
#users.to_csv('./data/USER_INFO_02.csv', index=False)

**8. '가입 개월 수' 컬럼을 분석해서, 무료(0개월)인 경우를 True로, 유료인 경우(3, 6, 9, 12개월)를 False로 보여주는 새로운 컬럼을 만들어주세요.**

In [30]:
#users = pd.read_csv('./data/USER_INFO_02.csv')

In [31]:
users.head()

Unnamed: 0,Name,Gender,Age,Height,Current Weight,Goal Weight,Smoking,Drinking,Phone Number,Request Counselling,Paid Plan,Joined At,Updated At
0,안원준,남성,31.0,176,78,68,False,주 1회,010-2292-6251,False,0개월,2016년 07월 05일,2016년 07월 05일
1,유세아,여성,39.0,172,56kg,51kg,True,월 1회,01045795881,False,0개월,2016년 10월 02일,2016년 11월 29일
2,송솔은,여성,,167,29,21,True,주 1회,010-7719-8346,False,0개월,2017년 09월 06일,2017년 09월 06일
3,백서원,여성,36.0,0,67,65,True,안 마심,01011947169,False,0개월,2017년 06월 02일,2017년 07월 28일
4,박서은,여성,42.0,167,60,57,False,안 마심,010-2575-6398,True,0개월,2017년 05월 07일,2017년 05월 07일


In [32]:
users['Paid Plan'].value_counts()

0개월     74955
3개월     21250
6개월      7291
12개월     3343
Name: Paid Plan, dtype: int64

In [33]:
users['Is Free'] = user_info2['Paid Plan'] == '0개월'

In [34]:
users.head()

Unnamed: 0,Name,Gender,Age,Height,Current Weight,Goal Weight,Smoking,Drinking,Phone Number,Request Counselling,Paid Plan,Joined At,Updated At,Is Free
0,안원준,남성,31.0,176,78,68,False,주 1회,010-2292-6251,False,0개월,2016년 07월 05일,2016년 07월 05일,True
1,유세아,여성,39.0,172,56kg,51kg,True,월 1회,01045795881,False,0개월,2016년 10월 02일,2016년 11월 29일,True
2,송솔은,여성,,167,29,21,True,주 1회,010-7719-8346,False,0개월,2017년 09월 06일,2017년 09월 06일,True
3,백서원,여성,36.0,0,67,65,True,안 마심,01011947169,False,0개월,2017년 06월 02일,2017년 07월 28일,True
4,박서은,여성,42.0,167,60,57,False,안 마심,010-2575-6398,True,0개월,2017년 05월 07일,2017년 05월 07일,True


In [35]:
users[['Paid Plan', 'Is Free']].head(10)

Unnamed: 0,Paid Plan,Is Free
0,0개월,True
1,0개월,True
2,0개월,True
3,0개월,True
4,0개월,True
5,3개월,False
6,12개월,False
7,0개월,True
8,0개월,True
9,3개월,False


In [36]:
#users.to_csv('./data/USER_INFO_03.csv', index=False)

### 컬럼의 형태를 하나로 통일하고, 빈 값이나 outlier들을 NaN으로 바꾸기

** 9. 전화번호 컬럼을 정리해주세요. 다음과 같이 정리해주시면 됩니다. **
  * unknown 이라고 표시되어 있는 전화번호는 빈 전화번호입니다. 이를 NaN으로 바꿔주세요.

In [37]:
#users = pd.read_csv('./data/USER_INFO_03.csv')

In [38]:
# 일단 user_info2가 어떻게 생겼나보자.
users.head()

Unnamed: 0,Name,Gender,Age,Height,Current Weight,Goal Weight,Smoking,Drinking,Phone Number,Request Counselling,Paid Plan,Joined At,Updated At,Is Free
0,안원준,남성,31.0,176,78,68,False,주 1회,010-2292-6251,False,0개월,2016년 07월 05일,2016년 07월 05일,True
1,유세아,여성,39.0,172,56kg,51kg,True,월 1회,01045795881,False,0개월,2016년 10월 02일,2016년 11월 29일,True
2,송솔은,여성,,167,29,21,True,주 1회,010-7719-8346,False,0개월,2017년 09월 06일,2017년 09월 06일,True
3,백서원,여성,36.0,0,67,65,True,안 마심,01011947169,False,0개월,2017년 06월 02일,2017년 07월 28일,True
4,박서은,여성,42.0,167,60,57,False,안 마심,010-2575-6398,True,0개월,2017년 05월 07일,2017년 05월 07일,True


In [39]:
# 전화번호 컬럼은 Phone Number로 변경했다.
# 어떤 데이터가 있는지 보자.
# 전화번호니까 분포를 볼 필요는 없을 것 같다. 그냥 Series를 출력한다.
users['Phone Number'].head()

0    010-2292-6251
1      01045795881
2    010-7719-8346
3      01011947169
4    010-2575-6398
Name: Phone Number, dtype: object

In [40]:
# 먼저 unknown인 것을 출력해보자.
users[users['Phone Number'] == 'unknown'].head()

Unnamed: 0,Name,Gender,Age,Height,Current Weight,Goal Weight,Smoking,Drinking,Phone Number,Request Counselling,Paid Plan,Joined At,Updated At,Is Free
10,한대권,남성,37.0,0,78,69,False,주 1회,unknown,False,3개월,2016년 04월 10일,2016년 04월 10일,False
16,황서은,여성,34.0,172,59,56,False,월 2회,unknown,False,0개월,2016년 08월 17일,2016년 08월 29일,True
28,박성원,남성,34.0,0,0,0,False,월 2회,unknown,False,6개월,2016년 09월 21일,2016년 09월 21일,False
35,한대윤,남,,176,82kg,75kg,False,월 1회,unknown,False,0개월,2017년 08월 13일,2017년 08월 13일,True
49,황은우,남성,37.0,174,82kg,81kg,False,주 1회,unknown,False,0개월,2017년 11월 10일,2018년 02월 16일,True


In [41]:
# unknown의 개수를 확인해보자.
len(users[users['Phone Number'] == 'unknown'])

10640

- **unknown을 NaN으로 변환한다.**

In [42]:
users.loc[users['Phone Number'] == 'unknown', 'Phone Number'] = np.nan

In [43]:
# unknown은 없는 것이 확인됐다.
users[users['Phone Number'] == 'unknown']

Unnamed: 0,Name,Gender,Age,Height,Current Weight,Goal Weight,Smoking,Drinking,Phone Number,Request Counselling,Paid Plan,Joined At,Updated At,Is Free


In [44]:
users['Phone Number'].isnull().sum()

10640

In [45]:
users['Phone Number'].head()

0    010-2292-6251
1      01045795881
2    010-7719-8346
3      01011947169
4    010-2575-6398
Name: Phone Number, dtype: object

In [46]:
#users.to_csv('./data/USER_INFO_04.csv', index=False)

** 10. 키(cm) 컬럼을 정리해주세요. 다음과 같이 정리해주시면 됩니다.** 

* 다양한 형태로 표현되어 있는 키 컬럼(?, ?cm, ? cm 등)을 숫자로 통일해주세요.
* 키가 0으로 되어있으면 NaN으로 바꿔주세요.
* 키가 너무 작거나(140cm 이하) 너무 크면(210cm 이상) 마찬가지로 NaN으로 바꿔주세요.

In [47]:
#users = pd.read_csv('./data/USER_INFO_04.csv')

In [48]:
users.head()

Unnamed: 0,Name,Gender,Age,Height,Current Weight,Goal Weight,Smoking,Drinking,Phone Number,Request Counselling,Paid Plan,Joined At,Updated At,Is Free
0,안원준,남성,31.0,176,78,68,False,주 1회,010-2292-6251,False,0개월,2016년 07월 05일,2016년 07월 05일,True
1,유세아,여성,39.0,172,56kg,51kg,True,월 1회,01045795881,False,0개월,2016년 10월 02일,2016년 11월 29일,True
2,송솔은,여성,,167,29,21,True,주 1회,010-7719-8346,False,0개월,2017년 09월 06일,2017년 09월 06일,True
3,백서원,여성,36.0,0,67,65,True,안 마심,01011947169,False,0개월,2017년 06월 02일,2017년 07월 28일,True
4,박서은,여성,42.0,167,60,57,False,안 마심,010-2575-6398,True,0개월,2017년 05월 07일,2017년 05월 07일,True


In [49]:
users['Height'].unique()

array(['176', '172', '167', '0', '171', '177', '164', '170', '178', '182',
       '184', '217 cm', '159', '169', '175', '173', '121cm', '156', '168',
       '166', '165', '206cm', '181', '174', '177 cm', '157', '172cm',
       '180 cm', '175cm', '179cm', '179', '161', '183', '132', '185',
       '180', '172 cm', '169 cm', '174 cm', '162', '174cm', '170 cm',
       '188', '160', '171cm', '126', '158', '176 cm', '173 cm', '167 cm',
       '162cm', '180cm', '134cm', '234', '159cm', '163', '155', '182cm',
       '178cm', '104', '163 cm', '162 cm', '166 cm', '187', '114', '106',
       '164cm', '173cm', '182 cm', '166cm', '181cm', '186 cm', '192',
       '165 cm', '139', '160 cm', '181 cm', '170cm', '171 cm', '179 cm',
       '186', '201', '243', '168cm', '208', '219', '178 cm', '176cm',
       '164 cm', '177cm', '152', '238', '225', '169cm', '211', '184 cm',
       '183cm', '155cm', '167cm', '110', '247', '246', '124', '165cm',
       '161cm', '109', '183 cm', '222', '191', '125', '175 cm'

In [50]:
clean_height = clean_num_col('cm', '')
users['Height'] = users['Height'].map(clean_height)

In [51]:
users['Height'].unique()

array([176, 172, 167,   0, 171, 177, 164, 170, 178, 182, 184, 217, 159,
       169, 175, 173, 121, 156, 168, 166, 165, 206, 181, 174, 157, 180,
       179, 161, 183, 132, 185, 162, 188, 160, 126, 158, 134, 234, 163,
       155, 104, 187, 114, 106, 186, 192, 139, 201, 243, 208, 219, 152,
       238, 225, 211, 110, 247, 246, 124, 109, 222, 191, 125, 154, 212,
       230, 218, 119, 242, 129, 224, 107, 137, 189, 210, 213, 237, 200,
       131, 241, 100, 122, 101, 215, 209, 190, 130, 231, 127, 214, 153,
       220, 193, 227, 103, 204, 102, 221, 136, 248, 205, 228, 226, 236,
       117, 115, 195, 138, 235, 108, 203, 245, 133, 207, 149, 232, 120,
       128, 233, 239, 216, 151, 112, 249, 223, 105, 202, 135, 118, 229,
       244, 111, 116, 240, 113, 194, 150, 123, 148, 196, 197], dtype=int64)

In [52]:
def drop_value(func):
    def wrapper(data):
        if func(data):
            return np.nan
        return data
    return wrapper

In [53]:
drop_height_min_value = drop_value(lambda x: x <= 120 or x >= 210)

In [54]:
drop_height_min_value(220)

nan

In [55]:
users['Height'] = users['Height'].map(drop_height_min_value)

In [56]:
users['Height'].unique()

array([176., 172., 167.,  nan, 171., 177., 164., 170., 178., 182., 184.,
       159., 169., 175., 173., 121., 156., 168., 166., 165., 206., 181.,
       174., 157., 180., 179., 161., 183., 132., 185., 162., 188., 160.,
       126., 158., 134., 163., 155., 187., 186., 192., 139., 201., 208.,
       152., 124., 191., 125., 154., 129., 137., 189., 200., 131., 122.,
       209., 190., 130., 127., 153., 193., 204., 136., 205., 195., 138.,
       203., 133., 207., 149., 128., 151., 202., 135., 194., 150., 123.,
       148., 196., 197.])

In [57]:
#users.to_csv('./data/USER_INFO_05.csv', index=False)

** 11.'현재 체중'과	'목표 체중' 컬럼을 정리해주세요. 다음과 같이 정리해주시면 됩니다.** 

* 다양한 형태로 표현되어 있는 몸무게 컬럼(?, ?kg, ? kg 등)을 숫자로 통일해주세요.
* 몸무게가 0으로 되어있으면 NaN으로 바꿔주세요.
* 몸무게가 너무 작거나(40kg 이하) 너무 크면(150kg 이상) 마찬가지로 NaN으로 바꿔주세요.

In [58]:
#users = pd.read_csv('./data/USER_INFO_05.csv')

In [59]:
users.head()

Unnamed: 0,Name,Gender,Age,Height,Current Weight,Goal Weight,Smoking,Drinking,Phone Number,Request Counselling,Paid Plan,Joined At,Updated At,Is Free
0,안원준,남성,31.0,176.0,78,68,False,주 1회,010-2292-6251,False,0개월,2016년 07월 05일,2016년 07월 05일,True
1,유세아,여성,39.0,172.0,56kg,51kg,True,월 1회,01045795881,False,0개월,2016년 10월 02일,2016년 11월 29일,True
2,송솔은,여성,,167.0,29,21,True,주 1회,010-7719-8346,False,0개월,2017년 09월 06일,2017년 09월 06일,True
3,백서원,여성,36.0,,67,65,True,안 마심,01011947169,False,0개월,2017년 06월 02일,2017년 07월 28일,True
4,박서은,여성,42.0,167.0,60,57,False,안 마심,010-2575-6398,True,0개월,2017년 05월 07일,2017년 05월 07일,True


In [60]:
clean_weight = clean_num_col('kg', '')
users['Current Weight'] = users['Current Weight'].map(clean_weight)
users['Goal Weight'] = users['Goal Weight'].map(clean_weight)

In [61]:
users['Current Weight'].unique()

array([ 78,  56,  29,  67,  60,  76,   0,  83,  84,  80,  59,  81,  82,
        62,  77,  55,  75,  58,  66,  63,  57, 142,  73,  39,  85,  61,
        86,  65,  79,  74,  52,  53,  64,  33,  38,  72,  20,  50,  68,
        54,  34,  88,  22, 139, 121, 122,  71,  87,  30,  37,  25,  70,
        51, 133, 146, 127,  35, 134, 131, 135,  23, 120, 138, 132, 130,
        27, 141,  89,  26,  24,  21, 140,  31,  69, 145,  36,  32, 148,
        49, 136, 124, 123, 129, 126,  90,  28, 144, 143, 137, 147, 128,
       125,  48, 149,  44,  91,  92], dtype=int64)

In [62]:
users['Goal Weight'].unique()

array([ 68,  51,  21,  65,  57,  73,   0,  78,  58,  70,  69,  50,  82,
        77,  72,  56,  74,  75,  79,  55,  80,  76,  48,  53,  62,  54,
        52,  71,  47, 138,  81,  67,  29,  46,  66,  49,  59,  43,  30,
        63,  31,  10,  42,  61,  25,  64,  60, 134, 113,  45, 114,  14,
        20,  32,  24,  84,  83,  33,  28, 132, 143, 122, 126, 124, 131,
        86, 128,  27, 123, 135,  17,  44,  26, 136, 137,  13, 115, 112,
        19,  23,  85, 141, 127,  15, 129,  36, 133,  18, 121, 111, 117,
        88,  34, 139, 130,  11,  22,  16,  38, 116,  41, 118, 146, 140,
        40, 125, 120, 144,  39,  37, 145,  12, 119,  87,  35, 110, 142,
       147,  89, 148,  90], dtype=int64)

In [63]:
drop_weight_min_value = drop_value(lambda x: x <= 40 or x >= 150)
users['Current Weight'] = users['Current Weight'].map(drop_weight_min_value)
users['Goal Weight'] = users['Goal Weight'].map(drop_weight_min_value)

In [64]:
users['Current Weight'].unique()

array([ 78.,  56.,  nan,  67.,  60.,  76.,  83.,  84.,  80.,  59.,  81.,
        82.,  62.,  77.,  55.,  75.,  58.,  66.,  63.,  57., 142.,  73.,
        85.,  61.,  86.,  65.,  79.,  74.,  52.,  53.,  64.,  72.,  50.,
        68.,  54.,  88., 139., 121., 122.,  71.,  87.,  70.,  51., 133.,
       146., 127., 134., 131., 135., 120., 138., 132., 130., 141.,  89.,
       140.,  69., 145., 148.,  49., 136., 124., 123., 129., 126.,  90.,
       144., 143., 137., 147., 128., 125.,  48., 149.,  44.,  91.,  92.])

In [65]:
users['Goal Weight'].unique()

array([ 68.,  51.,  nan,  65.,  57.,  73.,  78.,  58.,  70.,  69.,  50.,
        82.,  77.,  72.,  56.,  74.,  75.,  79.,  55.,  80.,  76.,  48.,
        53.,  62.,  54.,  52.,  71.,  47., 138.,  81.,  67.,  46.,  66.,
        49.,  59.,  43.,  63.,  42.,  61.,  64.,  60., 134., 113.,  45.,
       114.,  84.,  83., 132., 143., 122., 126., 124., 131.,  86., 128.,
       123., 135.,  44., 136., 137., 115., 112.,  85., 141., 127., 129.,
       133., 121., 111., 117.,  88., 139., 130., 116.,  41., 118., 146.,
       140., 125., 120., 144., 145., 119.,  87., 110., 142., 147.,  89.,
       148.,  90.])

In [66]:
#users.to_csv('./data/USER_INFO_06.csv', index=False)

### 기본적인 분석을 하기

** 12. 전체 데이터에서 평균/최소/최대 키(cm), 그리고 평균/최소/최대 '현재 체중(kg)'과 '목표 체중(kg)'을 찾아주세요. **

In [67]:
#users = pd.read_csv('./data/USER_INFO_06.csv')

In [68]:
users.head()

Unnamed: 0,Name,Gender,Age,Height,Current Weight,Goal Weight,Smoking,Drinking,Phone Number,Request Counselling,Paid Plan,Joined At,Updated At,Is Free
0,안원준,남성,31.0,176.0,78.0,68.0,False,주 1회,010-2292-6251,False,0개월,2016년 07월 05일,2016년 07월 05일,True
1,유세아,여성,39.0,172.0,56.0,51.0,True,월 1회,01045795881,False,0개월,2016년 10월 02일,2016년 11월 29일,True
2,송솔은,여성,,167.0,,,True,주 1회,010-7719-8346,False,0개월,2017년 09월 06일,2017년 09월 06일,True
3,백서원,여성,36.0,,67.0,65.0,True,안 마심,01011947169,False,0개월,2017년 06월 02일,2017년 07월 28일,True
4,박서은,여성,42.0,167.0,60.0,57.0,False,안 마심,010-2575-6398,True,0개월,2017년 05월 07일,2017년 05월 07일,True


In [69]:
height = users['Height']
'키 평균: {}, 최소: {}, 최대: {}'.format(height.mean(), height.min(), height.max())

'키 평균: 172.05803119730186, 최소: 121.0, 최대: 209.0'

In [70]:
cw = users['Current Weight']
'현재 체중 평균: {}, 최소: {}, 최대: {}'.format(cw.mean(), cw.min(), cw.max())

'현재 체중 평균: 71.86686965195024, 최소: 44.0, 최대: 149.0'

In [71]:
gw = users['Goal Weight']
'목표 체중 평균: {}, 최소: {}, 최대: {}'.format(gw.mean(), gw.min(), gw.max())

'목표 체중 평균: 66.3754436440767, 최소: 41.0, 최대: 148.0'

** 13. 전체 데이터에서 흡연자와 비흡연자 인원의 총합을 찾아주세요. **

In [72]:
users.head()

Unnamed: 0,Name,Gender,Age,Height,Current Weight,Goal Weight,Smoking,Drinking,Phone Number,Request Counselling,Paid Plan,Joined At,Updated At,Is Free
0,안원준,남성,31.0,176.0,78.0,68.0,False,주 1회,010-2292-6251,False,0개월,2016년 07월 05일,2016년 07월 05일,True
1,유세아,여성,39.0,172.0,56.0,51.0,True,월 1회,01045795881,False,0개월,2016년 10월 02일,2016년 11월 29일,True
2,송솔은,여성,,167.0,,,True,주 1회,010-7719-8346,False,0개월,2017년 09월 06일,2017년 09월 06일,True
3,백서원,여성,36.0,,67.0,65.0,True,안 마심,01011947169,False,0개월,2017년 06월 02일,2017년 07월 28일,True
4,박서은,여성,42.0,167.0,60.0,57.0,False,안 마심,010-2575-6398,True,0개월,2017년 05월 07일,2017년 05월 07일,True


In [73]:
users['Smoking'].unique()

array([False,  True])

In [74]:
users['Smoking'].value_counts()

False    85468
True     21371
Name: Smoking, dtype: int64

In [75]:
users['Smoking'].isnull().sum()

0

In [76]:
users.shape

(106839, 14)

** 14. 전체 데이터에서 유료 사용자와 무료 사용자의 인원의 총합을 찾아주세요. **

또한 유료 사용자만 한정해서, 3개월 / 6개월 / 12개월 결제자의 인원의 총합을 찾아주세요.

In [77]:
users.head()

Unnamed: 0,Name,Gender,Age,Height,Current Weight,Goal Weight,Smoking,Drinking,Phone Number,Request Counselling,Paid Plan,Joined At,Updated At,Is Free
0,안원준,남성,31.0,176.0,78.0,68.0,False,주 1회,010-2292-6251,False,0개월,2016년 07월 05일,2016년 07월 05일,True
1,유세아,여성,39.0,172.0,56.0,51.0,True,월 1회,01045795881,False,0개월,2016년 10월 02일,2016년 11월 29일,True
2,송솔은,여성,,167.0,,,True,주 1회,010-7719-8346,False,0개월,2017년 09월 06일,2017년 09월 06일,True
3,백서원,여성,36.0,,67.0,65.0,True,안 마심,01011947169,False,0개월,2017년 06월 02일,2017년 07월 28일,True
4,박서은,여성,42.0,167.0,60.0,57.0,False,안 마심,010-2575-6398,True,0개월,2017년 05월 07일,2017년 05월 07일,True


In [78]:
users['Paid Plan'].value_counts()

0개월     74955
3개월     21250
6개월      7291
12개월     3343
Name: Paid Plan, dtype: int64

In [79]:
users['Paid Plan'].count()

106839

In [80]:
paid_plan = users['Paid Plan']

In [81]:
(paid_plan == '3개월').sum() + (paid_plan == '6개월').sum() + (paid_plan == '12개월').sum()

31884

In [82]:
paid_plan[(paid_plan=='3개월') | (paid_plan=='6개월') | (paid_plan=='12개월')].count()

31884

** 15. 전체 데이터에서 흡연자와 음주 여부를 바탕으로 다음을 분석해주세요. **
  1. 흡연과 음주를 둘 다 안 하는 사람의 인원 총합.
  1. 흡연은 하지만 음주는 안 하는 사람의 인원 총합.
  1. 흡연은 하지 않지만 음주는 하는 사람의 인원 총합.
  1. 흡연과 음주를 둘 다 하는 사람의 인원 총합.

In [83]:
users.head()

Unnamed: 0,Name,Gender,Age,Height,Current Weight,Goal Weight,Smoking,Drinking,Phone Number,Request Counselling,Paid Plan,Joined At,Updated At,Is Free
0,안원준,남성,31.0,176.0,78.0,68.0,False,주 1회,010-2292-6251,False,0개월,2016년 07월 05일,2016년 07월 05일,True
1,유세아,여성,39.0,172.0,56.0,51.0,True,월 1회,01045795881,False,0개월,2016년 10월 02일,2016년 11월 29일,True
2,송솔은,여성,,167.0,,,True,주 1회,010-7719-8346,False,0개월,2017년 09월 06일,2017년 09월 06일,True
3,백서원,여성,36.0,,67.0,65.0,True,안 마심,01011947169,False,0개월,2017년 06월 02일,2017년 07월 28일,True
4,박서은,여성,42.0,167.0,60.0,57.0,False,안 마심,010-2575-6398,True,0개월,2017년 05월 07일,2017년 05월 07일,True


In [84]:
users['Drinking'].value_counts()

월 2회    32214
주 1회    32194
월 1회    21037
주 2회    10813
안 마심    10581
Name: Drinking, dtype: int64

In [85]:
users['Drinking'].isnull().sum()

0

In [86]:
users['Drinking'].unique()

array(['주 1회', '월 1회', '안 마심', '월 2회', '주 2회'], dtype=object)

In [87]:
users['Drinking'].count()

106839

In [88]:
users['IsDrinking'] = 0

In [89]:
users.loc[users['Drinking'] == '주 1회', 'IsDrinking'] = 1
users.loc[users['Drinking'] == '주 2회', 'IsDrinking'] = 1
users.loc[users['Drinking'] == '월 1회', 'IsDrinking'] = 1
users.loc[users['Drinking'] == '월 2회', 'IsDrinking'] = 1
users.loc[users['Drinking'].isnull(), 'IsDrinking'] = np.nan

In [90]:
users['IsDrinking'].value_counts()

1.0    96258
0.0    10581
Name: IsDrinking, dtype: int64

In [91]:
users['IsDrinking'].unique()

array([1., 0.])

In [92]:
(users['IsDrinking'] == 0).sum()

10581

- 흡연과 음주를 둘 다 안 하는 사람의 인원 총합.

In [93]:
drinking = users['IsDrinking']
smoking = users['Smoking']

In [94]:
users['Smoking'].unique()

array([False,  True])

In [95]:
len(users[(smoking == 0) & (drinking == 0)])

8488

- 흡연은 하지만 음주는 안 하는 사람의 인원 총합.

In [96]:
len(users[(smoking == 1) & (drinking == 0)])

2093

- 흡연은 하지 않지만 음주는 하는 사람의 인원 총합.

In [97]:
len(users[(smoking == 0) & (drinking == 1)])

76980

- 흡연과 음주를 둘 다 하는 사람의 인원 총합

In [98]:
len(users[(smoking == 1) & (drinking == 1)])

19278

In [99]:
users.to_csv('./data/USER_INFO_07.csv', index=False)