## TKX 피트니스에 오신 것을 환영합니다!

안녕하세요! TKX 피트니스 데이터분석팀에 오신 것을 환영합니다.

TKX는 국내 최대의 프렌차이즈 피트니스 센터로서, 매월 수 천명에 달하는 신규 회원을 받아 데이터를 분석하고 있습니다.

TKX 피트니스의 장점은 프로그래밍 언어 파이썬(Python)과 데이터 분석 프레임워크 판다스(Pandas)를 활용한 면밀한 데이터 분석입니다. 이 데이터 분석을 바탕으로 KTX의 오퍼레이션 팀 / 코칭 팀은 피트니스 센터에 방문하는 고객 분들, 그리고 방문하지 않는 고객 분들에게도 최선의 맞춤 서비스를 제공해 드리고 있습니다.

오늘 이 노트북을 받은 분이 해주셔야 하는 일은 2016년도 1월부터 2017년도 12월까지의 신규 가입 고객 데이터를 받아와, 차후에 데이터분석을 더 용이하게 할 수 있도록 데이터를 정리해주는 작업, 일명 데이터 클리닝(Data Cleaning) 작업입니다.

저희 TKX 피트니스는 언제나 잘 정리되어 있는 고객 정보를 받아서 데이터 분석팀에게 맡길려고 노력하고 있으나, (이 노트북을 받은 분들도 아시겠지만) 현실은 언제나 100% 잘 정리되어있는 데이터를 받아오기가 어렵습니다.

때문에 이번 시간에는 신규 가입 고객 데이터를 분석하여, 데이터에 몇몇 누락된 부분이나 잘못 기입된 부분 등을 판다스로 정리하고 그 결과를 분석하는 일을 해주셨으면 합니다.

데이터는 다음의 URL [https://goo.gl/8XGH4T](https://goo.gl/8XGH4T) 에서 다운받을 수 있습니다. 데이터를 다운받아 읽어온 뒤, 하기에 적어놓은 내용대로 데이터를 분석 및 정리를 해주세요.

## Import Libraries

In [1]:
import pandas as pd
import numpy as np

## Load Dataset

In [2]:
data = pd.read_csv('../../data/tkx-user-data.csv')

print(data.shape)
data.head()

(106839, 13)


Unnamed: 0,이름,성별,전화번호,나이,현재 체중,목표 체중,키,회원 가입일,회원 정보 갱신일,흡연 여부,음주 여부,가입 개월 수,개인상담 요청
0,안원준,남성,010-2292-6251,31세,78,68,176,2016년 07월 05일,2016년 07월 05일,아니오,주 1회,0개월,아니요
1,유세아,여성,01045795881,39,56kg,51kg,172,2016년 10월 02일,2016년 11월 29일,예,월 1회,0개월,아니요
2,송솔은,여성,010-7719-8346,0,29,21,167,2017년 09월 06일,2017년 09월 06일,예,주 1회,0개월,아니요
3,백서원,여성,01011947169,36,67,65,0,2017년 06월 02일,2017년 07월 28일,예,안 마심,0개월,아니요
4,박서은,여성,010-2575-6398,42,60,57,167,2017년 05월 07일,2017년 05월 07일,아니오,안 마심,0개월,예


## Reshape Data 1

** 1. 텍스트로 된 흡연 여부(예/아니오)를 True/False 로 바꾸기 **

In [3]:
data.loc[data['흡연 여부'] == '예', '흡연 여부'] = True
data.loc[data['흡연 여부'] == '아니오', '흡연 여부'] = False

print(data.shape)
data.head()

(106839, 13)


Unnamed: 0,이름,성별,전화번호,나이,현재 체중,목표 체중,키,회원 가입일,회원 정보 갱신일,흡연 여부,음주 여부,가입 개월 수,개인상담 요청
0,안원준,남성,010-2292-6251,31세,78,68,176,2016년 07월 05일,2016년 07월 05일,False,주 1회,0개월,아니요
1,유세아,여성,01045795881,39,56kg,51kg,172,2016년 10월 02일,2016년 11월 29일,True,월 1회,0개월,아니요
2,송솔은,여성,010-7719-8346,0,29,21,167,2017년 09월 06일,2017년 09월 06일,True,주 1회,0개월,아니요
3,백서원,여성,01011947169,36,67,65,0,2017년 06월 02일,2017년 07월 28일,True,안 마심,0개월,아니요
4,박서은,여성,010-2575-6398,42,60,57,167,2017년 05월 07일,2017년 05월 07일,False,안 마심,0개월,예


** 2. 나이 컬럼 정리하기 **
- 표현 형식 표준화(통일)
> - '0세' -> NaN
> - 다양한 형태(oo'세', 'oo') -> int
> - 나이가 너무 적거나, 많은 사람 -> NaN

** 2-1. 나이에서 0세라고 되어있는 것을 NaN으로 바꾸기 **

In [4]:
data['나이'].dtypes

dtype('O')

In [5]:
data.loc[data['나이'] == "0", '나이'] = np.nan

print(data.shape)
data.head()

(106839, 13)


Unnamed: 0,이름,성별,전화번호,나이,현재 체중,목표 체중,키,회원 가입일,회원 정보 갱신일,흡연 여부,음주 여부,가입 개월 수,개인상담 요청
0,안원준,남성,010-2292-6251,31세,78,68,176,2016년 07월 05일,2016년 07월 05일,False,주 1회,0개월,아니요
1,유세아,여성,01045795881,39,56kg,51kg,172,2016년 10월 02일,2016년 11월 29일,True,월 1회,0개월,아니요
2,송솔은,여성,010-7719-8346,,29,21,167,2017년 09월 06일,2017년 09월 06일,True,주 1회,0개월,아니요
3,백서원,여성,01011947169,36,67,65,0,2017년 06월 02일,2017년 07월 28일,True,안 마심,0개월,아니요
4,박서은,여성,010-2575-6398,42,60,57,167,2017년 05월 07일,2017년 05월 07일,False,안 마심,0개월,예


** 2-2. 다양한 형태의 나이 통일시키기 **
- 다양한 형태로 표현되어 있는 나이 컬럼을 숫자형(int)으로 통일해주기

In [6]:
# data['나이'].value_counts()

In [7]:
def convert_age_to_integer(age):
    if pd.isnull(age):
        return age
    
    elif "세" in age:
        age = int(age.replace("세", ""))
        return age
    
    return int(age)

data['나이'] = data['나이'].apply(convert_age_to_integer)

print(data.shape)
data.head()

(106839, 13)


Unnamed: 0,이름,성별,전화번호,나이,현재 체중,목표 체중,키,회원 가입일,회원 정보 갱신일,흡연 여부,음주 여부,가입 개월 수,개인상담 요청
0,안원준,남성,010-2292-6251,31.0,78,68,176,2016년 07월 05일,2016년 07월 05일,False,주 1회,0개월,아니요
1,유세아,여성,01045795881,39.0,56kg,51kg,172,2016년 10월 02일,2016년 11월 29일,True,월 1회,0개월,아니요
2,송솔은,여성,010-7719-8346,,29,21,167,2017년 09월 06일,2017년 09월 06일,True,주 1회,0개월,아니요
3,백서원,여성,01011947169,36.0,67,65,0,2017년 06월 02일,2017년 07월 28일,True,안 마심,0개월,아니요
4,박서은,여성,010-2575-6398,42.0,60,57,167,2017년 05월 07일,2017년 05월 07일,False,안 마심,0개월,예


** 2-3. 나이가 너무 적거나 많은 사람 전처리 **
- 기준 : 9세 이하, 80세 이상 -> NaN

In [8]:
data.loc[data['나이'] <= 9, '나이'] = np.nan
data.loc[data['나이'] >= 80, '나이'] = np.nan

print(data.shape)
data.head()

(106839, 13)


Unnamed: 0,이름,성별,전화번호,나이,현재 체중,목표 체중,키,회원 가입일,회원 정보 갱신일,흡연 여부,음주 여부,가입 개월 수,개인상담 요청
0,안원준,남성,010-2292-6251,31.0,78,68,176,2016년 07월 05일,2016년 07월 05일,False,주 1회,0개월,아니요
1,유세아,여성,01045795881,39.0,56kg,51kg,172,2016년 10월 02일,2016년 11월 29일,True,월 1회,0개월,아니요
2,송솔은,여성,010-7719-8346,,29,21,167,2017년 09월 06일,2017년 09월 06일,True,주 1회,0개월,아니요
3,백서원,여성,01011947169,36.0,67,65,0,2017년 06월 02일,2017년 07월 28일,True,안 마심,0개월,아니요
4,박서은,여성,010-2575-6398,42.0,60,57,167,2017년 05월 07일,2017년 05월 07일,False,안 마심,0개월,예


** 3. 평균(mean) / 최소(min) / 최대(max) 나이 구하기 **

In [9]:
mean_age = data['나이'].mean()
min_age = data['나이'].min()
max_age = data['나이'].max()

print(f" 평균 : {mean_age:.1f}")
print(f" 최소 : {min_age:.1f}")
print(f" 최대 : {max_age:.1f}")

print("[나이] \n 평균 = {0:.6f}, 최소 = {1}, 최대 = {2}".format(mean_age, min_age, max_age))

 평균 : 32.8
 최소 : 11.0
 최대 : 54.0
[나이] 
 평균 = 32.840240, 최소 = 11.0, 최대 = 54.0


** 4. 컬럼의 순서를 조금 더 직관적으로 바꾸기 **

In [10]:
# Write code here!
new_columns = [
    "이름", "성별", "전화번호", "나이", "현재 체중", "목표 체중", "키",
    "흡연 여부", "음주 여부",  "개인상담 요청", "회원 가입일", "회원 정보 갱신일", "가입 개월 수"
]

data = data[new_columns]

print(data.shape)
data.head()

(106839, 13)


Unnamed: 0,이름,성별,전화번호,나이,현재 체중,목표 체중,키,흡연 여부,음주 여부,개인상담 요청,회원 가입일,회원 정보 갱신일,가입 개월 수
0,안원준,남성,010-2292-6251,31.0,78,68,176,False,주 1회,아니요,2016년 07월 05일,2016년 07월 05일,0개월
1,유세아,여성,01045795881,39.0,56kg,51kg,172,True,월 1회,아니요,2016년 10월 02일,2016년 11월 29일,0개월
2,송솔은,여성,010-7719-8346,,29,21,167,True,주 1회,아니요,2017년 09월 06일,2017년 09월 06일,0개월
3,백서원,여성,01011947169,36.0,67,65,0,True,안 마심,아니요,2017년 06월 02일,2017년 07월 28일,0개월
4,박서은,여성,010-2575-6398,42.0,60,57,167,False,안 마심,예,2017년 05월 07일,2017년 05월 07일,0개월


## Reshape Data 2 
- 데이터를 사용하기 용이하게 정리하기

**5. 컬럼 이름 바꾸기**

보통 프로그래밍을 할 때 한글 컬럼을 사용하면 다양한 문제로 불편을 겪을 때가 많습니다.

그러므로 컬럼을 전부 한글에서 영어로 바꿔주세요. 컬럼명은 다음과 같이 바꿔주시면 됩니다.

* 이름 - Name
* 성별 - Gender
* 전화번호 - Phone Number
* 나이 - Age
* 현재 체중 - Current Weight
* 목표 체종 - Goal Weight
* 키 - Height
* 흡연 여부 - Smoking
* 음주 여부 - Drinking
* 개인상담 요청 - Request Counselling
* 회원 가입일 - Joined At
* 회원 정보 갱신일 - Updated At
* 가입 개월 수 - Paid Plan

In [11]:
data.columns

Index(['이름', '성별', '전화번호', '나이', '현재 체중', '목표 체중', '키', '흡연 여부', '음주 여부',
       '개인상담 요청', '회원 가입일', '회원 정보 갱신일', '가입 개월 수'],
      dtype='object')

In [12]:
english_name = ['Name', 'Gender', 'Phone Number', 'Age', 'Current Weight', 'Goal Weight',
                'Height', 'Smoking', 'Drinking', 'Request Counselling', 'Joined At', 'Updated At', 'Paid Plan']

data.columns = english_name

print(data.shape)
data.head()

(106839, 13)


Unnamed: 0,Name,Gender,Phone Number,Age,Current Weight,Goal Weight,Height,Smoking,Drinking,Request Counselling,Joined At,Updated At,Paid Plan
0,안원준,남성,010-2292-6251,31.0,78,68,176,False,주 1회,아니요,2016년 07월 05일,2016년 07월 05일,0개월
1,유세아,여성,01045795881,39.0,56kg,51kg,172,True,월 1회,아니요,2016년 10월 02일,2016년 11월 29일,0개월
2,송솔은,여성,010-7719-8346,,29,21,167,True,주 1회,아니요,2017년 09월 06일,2017년 09월 06일,0개월
3,백서원,여성,01011947169,36.0,67,65,0,True,안 마심,아니요,2017년 06월 02일,2017년 07월 28일,0개월
4,박서은,여성,010-2575-6398,42.0,60,57,167,False,안 마심,예,2017년 05월 07일,2017년 05월 07일,0개월


** 6. '상담 요청' 컬럼을 예/아니오 에서 True/False로 바꾸기 **

In [13]:
data.loc[data['Request Counselling'] == "예", 'Request Counselling'] = True
data.loc[data['Request Counselling'] == '아니요', 'Request Counselling'] = False

print(data.shape)
data.head()

(106839, 13)


Unnamed: 0,Name,Gender,Phone Number,Age,Current Weight,Goal Weight,Height,Smoking,Drinking,Request Counselling,Joined At,Updated At,Paid Plan
0,안원준,남성,010-2292-6251,31.0,78,68,176,False,주 1회,False,2016년 07월 05일,2016년 07월 05일,0개월
1,유세아,여성,01045795881,39.0,56kg,51kg,172,True,월 1회,False,2016년 10월 02일,2016년 11월 29일,0개월
2,송솔은,여성,010-7719-8346,,29,21,167,True,주 1회,False,2017년 09월 06일,2017년 09월 06일,0개월
3,백서원,여성,01011947169,36.0,67,65,0,True,안 마심,False,2017년 06월 02일,2017년 07월 28일,0개월
4,박서은,여성,010-2575-6398,42.0,60,57,167,False,안 마심,True,2017년 05월 07일,2017년 05월 07일,0개월


In [14]:
data['Request Counselling'].value_counts()

False    96260
True     10579
Name: Request Counselling, dtype: int64

**7. '가입 개월 수' 컬럼을 분석해서, 무료(0개월)인 경우를 False로, 유료인 경우(3, 6, 9, 12개월)를 True로 보여주는 새로운 컬럼을 만들기**

In [15]:
data.loc[data['Paid Plan'] == "0개월", 'Paid'] = False
data.loc[data['Paid Plan'] != "0개월", 'Paid'] = True

print(data.shape)
data.head()

(106839, 14)


Unnamed: 0,Name,Gender,Phone Number,Age,Current Weight,Goal Weight,Height,Smoking,Drinking,Request Counselling,Joined At,Updated At,Paid Plan,Paid
0,안원준,남성,010-2292-6251,31.0,78,68,176,False,주 1회,False,2016년 07월 05일,2016년 07월 05일,0개월,False
1,유세아,여성,01045795881,39.0,56kg,51kg,172,True,월 1회,False,2016년 10월 02일,2016년 11월 29일,0개월,False
2,송솔은,여성,010-7719-8346,,29,21,167,True,주 1회,False,2017년 09월 06일,2017년 09월 06일,0개월,False
3,백서원,여성,01011947169,36.0,67,65,0,True,안 마심,False,2017년 06월 02일,2017년 07월 28일,0개월,False
4,박서은,여성,010-2575-6398,42.0,60,57,167,False,안 마심,True,2017년 05월 07일,2017년 05월 07일,0개월,False


## Reshape Data 3
- 컬럼의 형태를 하나로 통일하고, 빈 값이나 outlier들을 NaN으로 바꾸기

** 8. 전화번호 컬럼을 다음과 같이 정리하기 **
  * unknown 이라고 표시되어 있는 전화번호는 빈 전화번호이다. 이를 NaN으로 바꾸기.

In [16]:
data.loc[data['Phone Number'] == 'unknown', 'Phone Number'] = np.nan

print(data.shape)
data.head()

(106839, 14)


Unnamed: 0,Name,Gender,Phone Number,Age,Current Weight,Goal Weight,Height,Smoking,Drinking,Request Counselling,Joined At,Updated At,Paid Plan,Paid
0,안원준,남성,010-2292-6251,31.0,78,68,176,False,주 1회,False,2016년 07월 05일,2016년 07월 05일,0개월,False
1,유세아,여성,01045795881,39.0,56kg,51kg,172,True,월 1회,False,2016년 10월 02일,2016년 11월 29일,0개월,False
2,송솔은,여성,010-7719-8346,,29,21,167,True,주 1회,False,2017년 09월 06일,2017년 09월 06일,0개월,False
3,백서원,여성,01011947169,36.0,67,65,0,True,안 마심,False,2017년 06월 02일,2017년 07월 28일,0개월,False
4,박서은,여성,010-2575-6398,42.0,60,57,167,False,안 마심,True,2017년 05월 07일,2017년 05월 07일,0개월,False


** 9. 키(cm) 컬럼을 다음과 같이 정리하기** 

* 다양한 형태로 표현되어 있는 키 컬럼(?, ?cm, ? cm 등)을 숫자로 통일하기.
* 키가 0으로 되어있으면 NaN으로 바꾸기.
* 키가 너무 작거나(140cm 이하) 너무 크면(210cm 이상) 마찬가지로 NaN으로 바꾸기.

** 9-1. 키 컬럼 정리 1 **
- 0을 NaN으로

In [17]:
data.loc[data['Height'] == '0', 'Height'] = np.nan

In [18]:
print(data.shape)
data.head()

(106839, 14)


Unnamed: 0,Name,Gender,Phone Number,Age,Current Weight,Goal Weight,Height,Smoking,Drinking,Request Counselling,Joined At,Updated At,Paid Plan,Paid
0,안원준,남성,010-2292-6251,31.0,78,68,176.0,False,주 1회,False,2016년 07월 05일,2016년 07월 05일,0개월,False
1,유세아,여성,01045795881,39.0,56kg,51kg,172.0,True,월 1회,False,2016년 10월 02일,2016년 11월 29일,0개월,False
2,송솔은,여성,010-7719-8346,,29,21,167.0,True,주 1회,False,2017년 09월 06일,2017년 09월 06일,0개월,False
3,백서원,여성,01011947169,36.0,67,65,,True,안 마심,False,2017년 06월 02일,2017년 07월 28일,0개월,False
4,박서은,여성,010-2575-6398,42.0,60,57,167.0,False,안 마심,True,2017년 05월 07일,2017년 05월 07일,0개월,False


** 9-2. 키 컬럼 정리 2**
- cm 처리하는 함수 생성

In [19]:
def convert_height_to_integer(height):
    if pd.isnull(height):  
        return height
    
    elif 'cm' in height:
        height = height.replace("cm", "")
        
        return int(height)
    
    return int(height)

data['Height'] = data['Height'].apply(convert_height_to_integer)

print(data.shape)
data.head()

(106839, 14)


Unnamed: 0,Name,Gender,Phone Number,Age,Current Weight,Goal Weight,Height,Smoking,Drinking,Request Counselling,Joined At,Updated At,Paid Plan,Paid
0,안원준,남성,010-2292-6251,31.0,78,68,176.0,False,주 1회,False,2016년 07월 05일,2016년 07월 05일,0개월,False
1,유세아,여성,01045795881,39.0,56kg,51kg,172.0,True,월 1회,False,2016년 10월 02일,2016년 11월 29일,0개월,False
2,송솔은,여성,010-7719-8346,,29,21,167.0,True,주 1회,False,2017년 09월 06일,2017년 09월 06일,0개월,False
3,백서원,여성,01011947169,36.0,67,65,,True,안 마심,False,2017년 06월 02일,2017년 07월 28일,0개월,False
4,박서은,여성,010-2575-6398,42.0,60,57,167.0,False,안 마심,True,2017년 05월 07일,2017년 05월 07일,0개월,False


** 9-3. 키 컬럼 정리 3**
- 이상치(140 이하, 210 이상) NaN처리

In [20]:
data.loc[data['Height'] <= 140, 'Height'] = np.nan
data.loc[data['Height'] >= 210, 'Height'] = np.nan

In [21]:
print(data.shape)
data.head()

(106839, 14)


Unnamed: 0,Name,Gender,Phone Number,Age,Current Weight,Goal Weight,Height,Smoking,Drinking,Request Counselling,Joined At,Updated At,Paid Plan,Paid
0,안원준,남성,010-2292-6251,31.0,78,68,176.0,False,주 1회,False,2016년 07월 05일,2016년 07월 05일,0개월,False
1,유세아,여성,01045795881,39.0,56kg,51kg,172.0,True,월 1회,False,2016년 10월 02일,2016년 11월 29일,0개월,False
2,송솔은,여성,010-7719-8346,,29,21,167.0,True,주 1회,False,2017년 09월 06일,2017년 09월 06일,0개월,False
3,백서원,여성,01011947169,36.0,67,65,,True,안 마심,False,2017년 06월 02일,2017년 07월 28일,0개월,False
4,박서은,여성,010-2575-6398,42.0,60,57,167.0,False,안 마심,True,2017년 05월 07일,2017년 05월 07일,0개월,False


** 10.'현재 체중'과 '목표 체중' 컬럼을 다음과 같이 정리하기 ** 

* 다양한 형태로 표현되어 있는 몸무게 컬럼(?, ?kg, ? kg 등)을 숫자로 통일하기.
* 몸무게가 0으로 되어있으면 NaN으로 바꾸기.
* 몸무게가 너무 작거나(40kg 이하) 너무 크면(150kg 이상) 마찬가지로 NaN으로 바꾸기.

** 10-1. 체중 컬럼 정렬 1 **
- 0 값 정리

In [22]:
data.loc[data['Current Weight'] == '0', 'Current Weight'] = np.nan
data.loc[data['Goal Weight'] == '0', 'Goal Weight'] = np.nan

In [23]:
print(data.shape)
data.head()

(106839, 14)


Unnamed: 0,Name,Gender,Phone Number,Age,Current Weight,Goal Weight,Height,Smoking,Drinking,Request Counselling,Joined At,Updated At,Paid Plan,Paid
0,안원준,남성,010-2292-6251,31.0,78,68,176.0,False,주 1회,False,2016년 07월 05일,2016년 07월 05일,0개월,False
1,유세아,여성,01045795881,39.0,56kg,51kg,172.0,True,월 1회,False,2016년 10월 02일,2016년 11월 29일,0개월,False
2,송솔은,여성,010-7719-8346,,29,21,167.0,True,주 1회,False,2017년 09월 06일,2017년 09월 06일,0개월,False
3,백서원,여성,01011947169,36.0,67,65,,True,안 마심,False,2017년 06월 02일,2017년 07월 28일,0개월,False
4,박서은,여성,010-2575-6398,42.0,60,57,167.0,False,안 마심,True,2017년 05월 07일,2017년 05월 07일,0개월,False


** 10-2. 체중 컬럼 정렬 2 **
- 다양한 형태로 표현되어 있는 값을 처리하는 함수 생성

In [24]:
def convert_weight_to_integer(weight):
    if pd.isnull(weight):
        return weight

    if "kg" in weight:
        weight = weight.replace("kg", "")
        
        return int(weight)

    return int(weight)

data["Current Weight"] = data["Current Weight"].apply(convert_weight_to_integer)
data["Goal Weight"] = data["Goal Weight"].apply(convert_weight_to_integer)

print(data.shape)
data.head()

(106839, 14)


Unnamed: 0,Name,Gender,Phone Number,Age,Current Weight,Goal Weight,Height,Smoking,Drinking,Request Counselling,Joined At,Updated At,Paid Plan,Paid
0,안원준,남성,010-2292-6251,31.0,78.0,68.0,176.0,False,주 1회,False,2016년 07월 05일,2016년 07월 05일,0개월,False
1,유세아,여성,01045795881,39.0,56.0,51.0,172.0,True,월 1회,False,2016년 10월 02일,2016년 11월 29일,0개월,False
2,송솔은,여성,010-7719-8346,,29.0,21.0,167.0,True,주 1회,False,2017년 09월 06일,2017년 09월 06일,0개월,False
3,백서원,여성,01011947169,36.0,67.0,65.0,,True,안 마심,False,2017년 06월 02일,2017년 07월 28일,0개월,False
4,박서은,여성,010-2575-6398,42.0,60.0,57.0,167.0,False,안 마심,True,2017년 05월 07일,2017년 05월 07일,0개월,False


** 10-3. 체중 컬럼 정렬 3 **
- 이상치(40kg 이하, 150kg 이상) NaN 처리

In [25]:
data.loc[data['Current Weight'] <= 40, 'Current Weight'] = np.nan
data.loc[data['Current Weight'] >= 150, 'Current Weight'] = np.nan

data.loc[data['Goal Weight'] <= 40, 'Goal Weight'] = np.nan
data.loc[data['Goal Weight'] >= 150, 'Goal Weight'] = np.nan

print(data.shape)
data.head()

(106839, 14)


Unnamed: 0,Name,Gender,Phone Number,Age,Current Weight,Goal Weight,Height,Smoking,Drinking,Request Counselling,Joined At,Updated At,Paid Plan,Paid
0,안원준,남성,010-2292-6251,31.0,78.0,68.0,176.0,False,주 1회,False,2016년 07월 05일,2016년 07월 05일,0개월,False
1,유세아,여성,01045795881,39.0,56.0,51.0,172.0,True,월 1회,False,2016년 10월 02일,2016년 11월 29일,0개월,False
2,송솔은,여성,010-7719-8346,,,,167.0,True,주 1회,False,2017년 09월 06일,2017년 09월 06일,0개월,False
3,백서원,여성,01011947169,36.0,67.0,65.0,,True,안 마심,False,2017년 06월 02일,2017년 07월 28일,0개월,False
4,박서은,여성,010-2575-6398,42.0,60.0,57.0,167.0,False,안 마심,True,2017년 05월 07일,2017년 05월 07일,0개월,False


## Basic Analysis
** 11. "전체 데이터에서 평균/최소/최대 키(cm), 그리고 평균/최소/최대 '현재 체중(kg)'과 '목표 체중(kg)'을 찾아주세요." **

In [26]:
print(data['Height'].describe())
print()
print(data['Current Weight'].describe())
print()
print(data['Goal Weight'].describe())

count    94423.000000
mean       172.260911
std          6.555064
min        148.000000
25%        168.000000
50%        172.000000
75%        177.000000
max        209.000000
Name: Height, dtype: float64

count    95245.00000
mean        71.86687
std         12.03151
min         44.00000
25%         60.00000
50%         76.00000
75%         80.00000
max        149.00000
Name: Current Weight, dtype: float64

count    95234.000000
mean        66.375444
std         12.355998
min         41.000000
25%         55.000000
50%         70.000000
75%         75.000000
max        148.000000
Name: Goal Weight, dtype: float64


In [27]:
mean_height = data['Height'].mean()
min_height = data['Height'].min()
max_height = data['Height'].max()

mean_curr_weight = data['Current Weight'].mean()
min_curr_weight = data['Current Weight'].min()
max_curr_weight = data['Current Weight'].max()

mean_goal_weight = data['Goal Weight'].mean()
min_goal_weight = data['Goal Weight'].min()
max_goal_weight = data['Goal Weight'].max()

In [28]:
print("[Height] Mean = {0:.2f} cm, Min = {1} cm, Max = {2} cm".format(mean_height, min_height, max_height))
print("[Current_weight] = {0:.2f} cm, Min = {1} cm , Max = {2} cm".format(mean_curr_weight, min_curr_weight, max_curr_weight))
print("[Goal_Weight] = {0:.2f} cm, Min = {1} cm, Max = {2} cm".format(mean_goal_weight, min_goal_weight, max_goal_weight))

[Height] Mean = 172.26 cm, Min = 148.0 cm, Max = 209.0 cm
[Current_weight] = 71.87 cm, Min = 44.0 cm , Max = 149.0 cm
[Goal_Weight] = 66.38 cm, Min = 41.0 cm, Max = 148.0 cm


** 12. "전체 데이터에서 흡연자와 비흡연자 인원의 총합을 찾아주세요." **

In [29]:
data['Smoking'].value_counts()

False    85468
True     21371
Name: Smoking, dtype: int64

** 13. "전체 데이터에서 유료 사용자와 무료 사용자의 인원의 총합을 찾아주세요." **
- "또한 유료 사용자만 한정해서, 3개월 / 6개월 / 12개월 결제자의 인원의 총합을 찾아주세요."

In [30]:
data.columns

Index(['Name', 'Gender', 'Phone Number', 'Age', 'Current Weight',
       'Goal Weight', 'Height', 'Smoking', 'Drinking', 'Request Counselling',
       'Joined At', 'Updated At', 'Paid Plan', 'Paid'],
      dtype='object')

In [31]:
data[['Paid Plan', 'Paid']]

Unnamed: 0,Paid Plan,Paid
0,0개월,False
1,0개월,False
2,0개월,False
3,0개월,False
4,0개월,False
5,3개월,True
6,12개월,True
7,0개월,False
8,0개월,False
9,3개월,True


** 13-1. 유/무료 사용자 **
- 유료 사용자 : 31,884 명
- 무료 사용자 : 74,955 명

In [32]:
data['Paid'].value_counts()

False    74955
True     31884
Name: Paid, dtype: int64

** 13-2. 각 개월 수 사용자 **
- 3개월 : 21,250 명
- 6개월 : 7,291 명
- 12개월 : 3,343 명

In [33]:
paid_user = data[data['Paid'] == True]
paid_user['Paid Plan'].value_counts()

3개월     21250
6개월      7291
12개월     3343
Name: Paid Plan, dtype: int64

** 14. "전체 데이터에서 흡연자와 음주 여부를 바탕으로 다음을 분석해주세요." **
  1. 흡연과 음주를 둘 다 안 하는 사람의 인원 총합.
  1. 흡연은 하지만 음주는 안 하는 사람의 인원 총합.
  1. 흡연은 하지 않지만 음주는 하는 사람의 인원 총합.
  1. 흡연과 음주를 둘 다 하는 사람의 인원 총합.

** 14-1. 음주여부 전처리 **

In [34]:
data.loc[data['Drinking'] == '안 마심', 'Drinking(Bool)'] = False
data.loc[data['Drinking'] != '안 마심', 'Drinking(Bool)'] = True

print(data.shape)
data.head()

(106839, 15)


Unnamed: 0,Name,Gender,Phone Number,Age,Current Weight,Goal Weight,Height,Smoking,Drinking,Request Counselling,Joined At,Updated At,Paid Plan,Paid,Drinking(Bool)
0,안원준,남성,010-2292-6251,31.0,78.0,68.0,176.0,False,주 1회,False,2016년 07월 05일,2016년 07월 05일,0개월,False,True
1,유세아,여성,01045795881,39.0,56.0,51.0,172.0,True,월 1회,False,2016년 10월 02일,2016년 11월 29일,0개월,False,True
2,송솔은,여성,010-7719-8346,,,,167.0,True,주 1회,False,2017년 09월 06일,2017년 09월 06일,0개월,False,True
3,백서원,여성,01011947169,36.0,67.0,65.0,,True,안 마심,False,2017년 06월 02일,2017년 07월 28일,0개월,False,False
4,박서은,여성,010-2575-6398,42.0,60.0,57.0,167.0,False,안 마심,True,2017년 05월 07일,2017년 05월 07일,0개월,False,False


** 14-2. 흡연-음주 값 합치고, 결과값 뽑기 **

In [35]:
data['Smoking-Drinking'] = data['Smoking'].astype('str') + "-" + data['Drinking(Bool)'].astype('str')

print(data.shape)
data['Smoking-Drinking'].value_counts()

(106839, 16)


False-True     76980
True-True      19278
False-False     8488
True-False      2093
Name: Smoking-Drinking, dtype: int64

# Intermediate Level

** 15. "성별 컬럼을 정리해주세요." **
- "데이터를 분석해보면 남성, 여성, 남, 녀, Male, FEMALE 등의 다양한 표현이 있습니다. 이 표현을 male, female으로 통일해주세요."

In [36]:
# data.columns

In [37]:
data['Gender'].value_counts()

남성        31316
여성        21965
남         18802
여         13211
male       7047
Male       4932
female     4890
Female     3579
MALE        657
FEMALE      440
Name: Gender, dtype: int64

In [38]:
data.loc[data['Gender'].isin(["남성", "남", "male", "Male", "MALE"]), 'Gender'] = "male"
data.loc[data['Gender'].isin(["여성", "여", "female", "Female", "FEMALE"]), 'Gender'] = "female"

print(data['Gender'].unique())

print(data.shape)
data.head()

['male' 'female']
(106839, 16)


Unnamed: 0,Name,Gender,Phone Number,Age,Current Weight,Goal Weight,Height,Smoking,Drinking,Request Counselling,Joined At,Updated At,Paid Plan,Paid,Drinking(Bool),Smoking-Drinking
0,안원준,male,010-2292-6251,31.0,78.0,68.0,176.0,False,주 1회,False,2016년 07월 05일,2016년 07월 05일,0개월,False,True,False-True
1,유세아,female,01045795881,39.0,56.0,51.0,172.0,True,월 1회,False,2016년 10월 02일,2016년 11월 29일,0개월,False,True,True-True
2,송솔은,female,010-7719-8346,,,,167.0,True,주 1회,False,2017년 09월 06일,2017년 09월 06일,0개월,False,True,True-True
3,백서원,female,01011947169,36.0,67.0,65.0,,True,안 마심,False,2017년 06월 02일,2017년 07월 28일,0개월,False,False,True-False
4,박서은,female,010-2575-6398,42.0,60.0,57.0,167.0,False,안 마심,True,2017년 05월 07일,2017년 05월 07일,0개월,False,False,False-False


**16. "전체 인원이 아닌, 남성/여성 각각의 최소/평균/최대 키/몸무게/나이를 구해주세요."**

결과적으로 다음의 수치가 나와야 합니다.
  * 전체 남성의 최소/평균/최대 나이
  * 전체 남성의 최소/평균/최대 몸무게(kg)
  * 전체 남성의 최소/평균/최대 키(cm)
  
  * 전체 여성의 최소/평균/최대 나이
  * 전체 여성의 최소/평균/최대 몸무게(kg)
  * 전체 여성의 최소/평균/최대 키(cm)

In [39]:
female = data.loc[data['Gender'] == 'female']
male = data.loc[data['Gender'] == 'male']

In [40]:
male.describe()

Unnamed: 0,Age,Current Weight,Goal Weight,Height
count,55293.0,55964.0,55964.0,55526.0
mean,34.503518,80.063594,74.559252,175.569985
std,5.020598,6.322428,6.941049,5.195838
min,13.0,66.0,59.0,156.0
25%,31.0,77.0,71.0,172.0
50%,35.0,80.0,74.0,176.0
75%,38.0,82.0,77.0,179.0
max,54.0,149.0,148.0,209.0


In [41]:
female.describe()

Unnamed: 0,Age,Current Weight,Goal Weight,Height
count,38867.0,39281.0,39270.0,38897.0
mean,30.474027,60.188921,54.712631,167.537162
std,5.010031,7.870682,8.373501,5.2749
min,11.0,44.0,41.0,148.0
25%,27.0,57.0,51.0,164.0
50%,30.0,60.0,54.0,167.0
75%,34.0,62.0,57.0,171.0
max,51.0,149.0,148.0,209.0


** 17. 감량 목표 분석하기 **

- "데이터에서 '현재 체중' - '목표 체중' 을 하면 감량 목표가 나올 것입니다. 감량 목표를 찾아서 새로운 컬럼을 만들어주세요."<br>
- "또한 kg별로 감량을 원하는 사람의 총 인원을 구해주세요. 가령 1) 1kg 감량을 원하는 총 인원, 2) 2kg 감량을 원하는 총 인원, ... 10) 10kg 감량을 원하는 총 인원이 나와야 합니다."

In [42]:
data['Goal Loss'] = data['Current Weight'] - data['Goal Weight']

print(data.shape)
data[['Current Weight', 'Goal Weight', 'Goal Loss']].head()

(106839, 17)


Unnamed: 0,Current Weight,Goal Weight,Goal Loss
0,78.0,68.0,10.0
1,56.0,51.0,5.0
2,,,
3,67.0,65.0,2.0
4,60.0,57.0,3.0


In [43]:
data['Goal Loss'].describe()

count    95234.000000
mean         5.494078
std          2.865237
min          1.000000
25%          3.000000
50%          5.000000
75%          8.000000
max         10.000000
Name: Goal Loss, dtype: float64

In [44]:
data['Goal Loss'].value_counts().sort_values(ascending=False)

6.0     9754
9.0     9629
5.0     9629
4.0     9529
1.0     9508
2.0     9500
3.0     9494
7.0     9443
8.0     9397
10.0    9351
Name: Goal Loss, dtype: int64

** 18. '가입 개월 수'를 숫자로 표현하기 **

- "'가입 개월 수' 컬럼을 숫자로 정리해주세요. 현재 3개월, 6개월, 12개월로 되어있는데, 이를 3, 6, 12로 정리하시면 됩니다."
- "또한 0개월은 0이 아닌 NaN으로 집어넣어 주세요."


In [45]:
data['Paid Plan'].unique()

array(['0개월', '3개월', '12개월', '6개월'], dtype=object)

** Method 1 **

In [46]:
# data.loc[data['Paid Plan'] == '0개월', 'Paid Plan'] = np.nan
# data.loc[data['Paid Plan'] == '3개월', 'Paid Plan'] = 3
# data.loc[data['Paid Plan'] == '6개월', 'Paid Plan'] = 6
# data.loc[data['Paid Plan'] == '12개월', 'Paid Plan'] = 12

# print(data.shape)
# print(data['Paid Plan'].unique())
# data.head()

** Method 2 **
- lambda를 사용하여 전처리

In [47]:
# data['Paid Plan'] = data['Paid Plan'].apply(lambda month: int(month.replace("개월", "")))

# data.loc[data['Paid Plan'] == 0, 'Paid Plan'] = np.nan

# print(data.shape)
# print(data['Paid Plan'].unique())
# data.head()

** Method 3 **
- ```str.replce("old", "new").astype('int')```

In [48]:
data['Paid Plan'] = data['Paid Plan'].str.replace("개월", "").astype('int')

data.loc[data['Paid Plan'] == 0, 'Paid Plan'] = np.nan

data.head()

Unnamed: 0,Name,Gender,Phone Number,Age,Current Weight,Goal Weight,Height,Smoking,Drinking,Request Counselling,Joined At,Updated At,Paid Plan,Paid,Drinking(Bool),Smoking-Drinking,Goal Loss
0,안원준,male,010-2292-6251,31.0,78.0,68.0,176.0,False,주 1회,False,2016년 07월 05일,2016년 07월 05일,,False,True,False-True,10.0
1,유세아,female,01045795881,39.0,56.0,51.0,172.0,True,월 1회,False,2016년 10월 02일,2016년 11월 29일,,False,True,True-True,5.0
2,송솔은,female,010-7719-8346,,,,167.0,True,주 1회,False,2017년 09월 06일,2017년 09월 06일,,False,True,True-True,
3,백서원,female,01011947169,36.0,67.0,65.0,,True,안 마심,False,2017년 06월 02일,2017년 07월 28일,,False,False,True-False,2.0
4,박서은,female,010-2575-6398,42.0,60.0,57.0,167.0,False,안 마심,True,2017년 05월 07일,2017년 05월 07일,,False,False,False-False,3.0


** 19. '음주 여부'를 숫자로 표현하기**

- "'음주 여부' 컬럼을 숫자로 정리해주세요. 현재 1) 주 2회, 2) 주 1회, 3) 월 2회, 4) 월 1회 5) 안 마심으로 되어 있습니다만, 이를 월 기준 음주 횟수로 통일해주세요. 여기서 월은 30일로, 주는 4주로 고정합니다."
- "가령 1) 주 2회는 8, 2) 주 1회는 4, 3) 월 2회는 2, 4) 월 1회는 1, 5) 안 마심은 0으로 표현하면 됩니다."

In [49]:
data['Drinking'].unique()

array(['주 1회', '월 1회', '안 마심', '월 2회', '주 2회'], dtype=object)

In [50]:
data.loc[data['Drinking'] == '주 2회', 'Drinking'] = 8
data.loc[data['Drinking'] == '주 1회', 'Drinking'] = 4
data.loc[data['Drinking'] == '월 2회', 'Drinking'] = 2
data.loc[data['Drinking'] == '월 1회', 'Drinking'] = 1
data.loc[data['Drinking'] == '안 마심', 'Drinking'] = 0

print(data["Drinking"].unique())
data.head()

[4 1 0 2 8]


Unnamed: 0,Name,Gender,Phone Number,Age,Current Weight,Goal Weight,Height,Smoking,Drinking,Request Counselling,Joined At,Updated At,Paid Plan,Paid,Drinking(Bool),Smoking-Drinking,Goal Loss
0,안원준,male,010-2292-6251,31.0,78.0,68.0,176.0,False,4,False,2016년 07월 05일,2016년 07월 05일,,False,True,False-True,10.0
1,유세아,female,01045795881,39.0,56.0,51.0,172.0,True,1,False,2016년 10월 02일,2016년 11월 29일,,False,True,True-True,5.0
2,송솔은,female,010-7719-8346,,,,167.0,True,4,False,2017년 09월 06일,2017년 09월 06일,,False,True,True-True,
3,백서원,female,01011947169,36.0,67.0,65.0,,True,0,False,2017년 06월 02일,2017년 07월 28일,,False,False,True-False,2.0
4,박서은,female,010-2575-6398,42.0,60.0,57.0,167.0,False,0,True,2017년 05월 07일,2017년 05월 07일,,False,False,False-False,3.0


# Advanced-Level

** 20.휴대폰 번호 정리하기 **

- "다양한 표현으로 되어있는 휴대폰 번호를 010-xxxx-xxxx 로 통일해주세요. 가령 휴대폰 번호에 하이픈(-)이 없으면 넣어주시면 됩니다."

- "또한 unknown으로 되어있거나 비어있는 값은 NaN으로 처리해주세요."

In [59]:
data['Phone Number'].value_counts().head(10)

010-7666-3598    3
010-4358-9611    2
010-4152-1797    2
010-7328-7456    2
010-1377-3626    2
01063488854      2
01062951672      2
01074838864      2
01031213998      2
010-4875-7299    2
Name: Phone Number, dtype: int64

In [62]:
data['Phone Number'] = data["Phone Number"].str.replace("-", "")

def clean_phone_number(number):
    if pd.isnull(number):
        return number
    
    new_number = number[0:3] + "-" + number[3:7] + "-" + number[7:]
    
    return new_number

phone_number = "01077113553"
# phone_number = np.nan
clean_phone_number(phone_number)

'010-7711-3553'

In [63]:
data['Phone Number'] = data['Phone Number'].str.replace("-", "")
data['Phone Number'] = data['Phone Number'].apply(clean_phone_number)

print(data.shape)
data.head()

(106839, 17)


Unnamed: 0,Name,Gender,Phone Number,Age,Current Weight,Goal Weight,Height,Smoking,Drinking,Request Counselling,Joined At,Updated At,Paid Plan,Paid,Drinking(Bool),Smoking-Drinking,Goal Loss
0,안원준,male,010-2292-6251,31.0,78.0,68.0,176.0,False,4,False,2016년 07월 05일,2016년 07월 05일,,False,True,False-True,10.0
1,유세아,female,010-4579-5881,39.0,56.0,51.0,172.0,True,1,False,2016년 10월 02일,2016년 11월 29일,,False,True,True-True,5.0
2,송솔은,female,010-7719-8346,,,,167.0,True,4,False,2017년 09월 06일,2017년 09월 06일,,False,True,True-True,
3,백서원,female,010-1194-7169,36.0,67.0,65.0,,True,0,False,2017년 06월 02일,2017년 07월 28일,,False,False,True-False,2.0
4,박서은,female,010-2575-6398,42.0,60.0,57.0,167.0,False,0,True,2017년 05월 07일,2017년 05월 07일,,False,False,False-False,3.0


In [66]:
data['Phone Number'].value_counts().head(10)

010-3877-9448    3
010-4588-6897    3
010-7666-3598    3
010-6697-1744    3
010-4695-5877    2
010-3699-2544    2
010-4346-6214    2
010-3136-6983    2
010-3193-7182    2
010-8545-9737    2
Name: Phone Number, dtype: int64

** 21. 날짜를 사용 가능하게 정리하기 **

- "현재 '회원 가입일' 컬럼과 '회원 정보 갱신일' 컬럼은 20xx년 xx월 xx일 과 같은 형식으로 되어있습니다."

- "이 데이터를 현재 판다스에서는 날짜 컬럼이 아닌 문자열(텍스트) 컬럼으로 인식하고 있는데, 이 컬럼을 날짜 컬럼으로 인식할 수 있도록 수정해주세요."

** 22. 날짜를 기준으로 분석하기 **

"21번에서 날짜 컬럼을 만들었으면 다음을 분석해주세요."

- 1) 월별 전체 회원 가입량
- 2) 월 별 유료/무료 회원 가입량의 차이
- 3) 월 별 남성/여성 회원 가입량의 차이

** 23. 회원 정보가 맞는지 여부를 확인하는 컬럼을 만들기 **

"더 정확한 데이터 분석을 위해서는, 현재까지 고객님이 기업한 회원 정보가 정확한지를 확인하는 작업이 필요합니다. 분석팀에서 데이터를 다음과 같이 정리하면, 오퍼레이션 팀과 코칭 팀이 협업을 통해서 고객 정보를 개선하고, 더 좋은 서비스를 제공할 수 있을 것 같습니다. 다음의 내용이 담겨있는 새로운 컬럼을 하나 만들어주세요. 해당 컬럼에는 reject / counselling / duplicated / confirmed 라는 결과값이 들어가야 합니다."

다음의 경우에는 재기입을 요청한다. (reject)
* 전화번호가 비어있는 경우

다음의 경우는 트레이너와 상담을 유도한다. (counselling)
* 상담 요청(counselling)이 True인 사람.

다음의 경우에는 중복을 확인한다. (duplicated)
* 동일한 이름에 동일한 전화번호를 찾아낸다. 이는 중복되었다고 가정한다.

나머지는 문제가 없다. (confirmed)

**24. VIP 찾아내기**

"다음의 고객을 특별 관리 대상으로 지정합니다. 특별 관리 대상이라고 함은, TKX 서비스의 VIP 플랜을 구매할 확률이 높은 분들을 의미합니다."

1. 트레이너와 상담을 요청한 사람. (counselling)
2. 상담을 요청하지 않은 사람 중, (현재 체중 - 목표 체중) 이 가장 높은 상위 1,000 명.

"이 사람들을 특별관리 대상으로 지정하며, VIP라는 이름의 컬럼에 True 값을 넣으면 됩니다. 이후에는 오퍼레이션/코치 팀이 해당 고객님을 개별 컨택하여, 적극적으로 VIP 플랜을 구매하실 수 있도록 노력할 생각입니다. (특별관리 대상이 아닌 분들은 VIP 컬럼에 False 값을 넣으면 됩니다)"

"또한 전체 데이터와는 별개로, VIP 고객들만을 따로 뽑아내서 CSV파일로 저장할 수 있다면 좋겠습니다."