### 2018.7.7 

** 데이터 로딩 / 기본 확인 작업 ** 

In [4]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt 

userdata = pd.read_csv('02-user-data.csv')

In [6]:
userdata.head(2)

Unnamed: 0,이름,성별,전화번호,나이,현재 체중,목표 체중,키,회원 가입일,회원 정보 갱신일,흡연 여부,음주 여부,가입 개월 수,개인상담 요청
0,안원준,남성,010-2292-6251,31세,78,68,176,2016년 07월 05일,2016년 07월 05일,아니오,주 1회,0개월,아니요
1,유세아,여성,01045795881,39,56kg,51kg,172,2016년 10월 02일,2016년 11월 29일,예,월 1회,0개월,아니요


In [10]:
# 전체 데이터가 106839 
# 중간에 null 값이 많아 보인다 
userdata.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 106839 entries, 0 to 106838
Data columns (total 13 columns):
이름           106839 non-null object
성별           106839 non-null object
전화번호         106839 non-null object
나이           96199 non-null object
현재 체중        106839 non-null object
목표 체중        106839 non-null object
키            106839 non-null object
회원 가입일       106839 non-null object
회원 정보 갱신일    106839 non-null object
흡연 여부        106839 non-null object
음주 여부        106839 non-null object
가입 개월 수      106839 non-null object
개인상담 요청      106839 non-null object
dtypes: object(13)
memory usage: 5.3+ MB


In [12]:
# 사람들은 나이에 민감한 것 같다 
userdata.isnull().sum()

이름               0
성별               0
전화번호             0
나이           10640
현재 체중            0
목표 체중            0
키                0
회원 가입일           0
회원 정보 갱신일        0
흡연 여부            0
음주 여부            0
가입 개월 수          0
개인상담 요청          0
dtype: int64

** 1. 텍스트로 된 흡연 여부(예/아니오)를 True/False 로 바꾸기 **

In [13]:
userdata.head(1)

Unnamed: 0,이름,성별,전화번호,나이,현재 체중,목표 체중,키,회원 가입일,회원 정보 갱신일,흡연 여부,음주 여부,가입 개월 수,개인상담 요청
0,안원준,남성,010-2292-6251,31세,78,68,176,2016년 07월 05일,2016년 07월 05일,아니오,주 1회,0개월,아니요


In [25]:
smoking_mapping = {'예': True, '아니오': False}
userdata['흡연 여부'] = userdata['흡연 여부'].map(smoking_mapping)

In [26]:
userdata.head(1)

Unnamed: 0,이름,성별,전화번호,나이,현재 체중,목표 체중,키,회원 가입일,회원 정보 갱신일,흡연 여부,음주 여부,가입 개월 수,개인상담 요청
0,안원준,남성,010-2292-6251,31세,78,68,176,2016년 07월 05일,2016년 07월 05일,False,주 1회,0개월,아니요


** 2. 나이에서 0세라고 되어있는 것을 NaN으로 바꾸기 **

In [49]:
#나이에서 0 것을 확인 
# 확인 결과 (0세)는 없음 
# -> 따라서 의미 없음 
s = userdata['나이'].value_counts()
s.to_csv('02-age-value_counts.csv')

** 3. 나이 컬럼을 정리하기 **

In [53]:
#test : 이거면 충분한듯 
dt = ['32세', '32', '32 세']
for a in dt: 
    print(int(a.replace('세','')))
    

32
32
32


In [60]:
#age는 null값이 10640 개 만큼 있다 
#Working with missing data 
#https://pandas.pydata.org/pandas-docs/stable/missing_data.html 
def convert_age(age):
    if pd.isnull(age):
        return age  #null은 그대로 두기     
    return int(age.replace('세',''))

userdata['나이'] = userdata['나이'].apply(convert_age)

In [61]:
#결과 확인 
userdata['나이'].value_counts().to_csv('02-age-after.csv')

In [62]:
userdata.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 106839 entries, 0 to 106838
Data columns (total 13 columns):
이름           106839 non-null object
성별           106839 non-null object
전화번호         106839 non-null object
나이           96199 non-null float64
현재 체중        106839 non-null object
목표 체중        106839 non-null object
키            106839 non-null object
회원 가입일       106839 non-null object
회원 정보 갱신일    106839 non-null object
흡연 여부        106839 non-null bool
음주 여부        106839 non-null object
가입 개월 수      106839 non-null object
개인상담 요청      106839 non-null object
dtypes: bool(1), float64(1), object(11)
memory usage: 5.4+ MB


In [64]:
#float64 -> int64로 바꾸고 싶다 
#나이에는 소수점이 없으니 
def convert_age2(age):
    if pd.isnull(age):
        return age  #null은 그대로 두기     
    return int(age)

userdata['나이'] = userdata['나이'].apply(convert_age2)

In [65]:
userdata.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 106839 entries, 0 to 106838
Data columns (total 13 columns):
이름           106839 non-null object
성별           106839 non-null object
전화번호         106839 non-null object
나이           96199 non-null float64
현재 체중        106839 non-null object
목표 체중        106839 non-null object
키            106839 non-null object
회원 가입일       106839 non-null object
회원 정보 갱신일    106839 non-null object
흡연 여부        106839 non-null bool
음주 여부        106839 non-null object
가입 개월 수      106839 non-null object
개인상담 요청      106839 non-null object
dtypes: bool(1), float64(1), object(11)
memory usage: 5.4+ MB


** 4. 평균(mean) / 최소(min) / 최대(max) 나이 구하기 **

** 5. 컬럼의 순서를 조금 더 직관적으로 바꾸기 **

**6. 컬럼 이름 바꾸기**

* 이름 - Name
* 성별 - Gender
* 전화번호 - Phone Number
* 나이 - Age
* 현재 체중 - Current Weight
* 목표 체종 - Goal Weight
* 키 - Height
* 흡연 여부 - Smoking
* 음주 여부 - Drinking
* 개인상담 요청 - Request Counselling
* 회원 가입일 - Joined At
* 회원 정보 갱신일 - Updated At
* 가입 개월 수 - Paid Plan

** 7. '상담 요청' 컬럼을 예/아니오 에서 True/False로 바꿔주세요 **

**8. '가입 개월 수' 컬럼을 분석해서, 무료(0개월)인 경우를 True로, 유료인 경우(3, 6, 9, 12개월)를 False로 보여주는 새로운 컬럼을 만들어주세요.**

** 9. 전화번호 컬럼을 정리해주세요. 다음과 같이 정리해주시면 됩니다. **
  * unknown 이라고 표시되어 있는 전화번호는 빈 전화번호입니다. 이를 NaN으로 바꿔주세요.

** 10. 키(cm) 컬럼을 정리해주세요. 다음과 같이 정리해주시면 됩니다.** 

* 다양한 형태로 표현되어 있는 키 컬럼(?, ?cm, ? cm 등)을 숫자로 통일해주세요.
* 키가 0으로 되어있으면 NaN으로 바꿔주세요.
* 키가 너무 작거나(140cm 이하) 너무 크면(210cm 이상) 마찬가지로 NaN으로 바꿔주세요.

** 11.'현재 체중'과	'목표 체중' 컬럼을 정리해주세요. 다음과 같이 정리해주시면 됩니다.** 

* 다양한 형태로 표현되어 있는 몸무게 컬럼(?, ?kg, ? kg 등)을 숫자로 통일해주세요.
* 몸무게가 0으로 되어있으면 NaN으로 바꿔주세요.
* 몸무게가 너무 작거나(40kg 이하) 너무 크면(150kg 이상) 마찬가지로 NaN으로 바꿔주세요.

** 12. 전체 데이터에서 평균/최소/최대 키(cm), 그리고 평균/최소/최대 '현재 체중(kg)'과 '목표 체중(kg)'을 찾아주세요. **

** 13. 전체 데이터에서 흡연자와 비흡연자 인원의 총합을 찾아주세요. **

** 14. 전체 데이터에서 유료 사용자와 무료 사용자의 인원의 총합을 찾아주세요. **

또한 유료 사용자만 한정해서, 3개월 / 6개월 / 12개월 결제자의 인원의 총합을 찾아주세요.

** 15. 전체 데이터에서 흡연자와 음주 여부를 바탕으로 다음을 분석해주세요. **
  1. 흡연과 음주를 둘 다 안 하는 사람의 인원 총합.
  1. 흡연은 하지만 음주는 안 하는 사람의 인원 총합.
  1. 흡연은 하지 않지만 음주는 하는 사람의 인원 총합.
  1. 흡연과 음주를 둘 다 하는 사람의 인원 총합.