# TKX 피트니스를 더 개선시켜주세요.

안녕하세요! TKX 피트니스 데이터분석팀입니다.

저번 시간에 보여주신 훌륭한 데이터 분석력, 매우 감명받았습니다. 데이터를 깔끔히 정리하고 분석해주신 덕분에 저희의 업무량이 줄어든 것은 물론, 더 정량적인 분석이 가능해진 것 같습니다.

그런 의미에서 새로운 업무를 맡길까 합니다. 저번 시간에 다뤘던 회원정보 데이터와 더불어, 이번 시간에는 1) 회원들의 개인 PT 정보와 2) 회원들의 체중 기록을 추가로 제공하겠습니다. 이 데이터를 데이터분석 패키지 판다스(Pandas)를 활용해 다음의 내용을 분석해주세요.

[데이터는 다음의 URL [https://goo.gl/8XGH4T](https://goo.gl/8XGH4T) 에서 다운받을 수 있습니다. 데이터를 다운받아 읽어온 뒤, 하기에 적어놓은 내용대로 데이터를 분석 및 정리를 해주세요.]




In [1]:
import pandas as pd

## Load Dataset

In [2]:
data = pd.read_csv("tkx-user-data.csv",
                   parse_dates=["회원 가입일", "회원 정보 갱신일"], 
                   date_parser=lambda datetime: pd.to_datetime(datetime, format="%Y년 %m월 %d일"))           

print(data.shape)
data.head()

(106839, 13)


Unnamed: 0,이름,성별,전화번호,나이,현재 체중,목표 체중,키,회원 가입일,회원 정보 갱신일,흡연 여부,음주 여부,가입 개월 수,개인상담 요청
0,안원준,남성,010-2292-6251,31세,78,68,176,2016-07-05,2016-07-05,아니오,주 1회,0개월,아니요
1,유세아,여성,01045795881,39,56kg,51kg,172,2016-10-02,2016-11-29,예,월 1회,0개월,아니요
2,송솔은,여성,010-7719-8346,,29,21,167,2017-09-06,2017-09-06,예,주 1회,0개월,아니요
3,백서원,여성,01011947169,36,67,65,0,2017-06-02,2017-07-28,예,안 마심,0개월,아니요
4,박서은,여성,010-2575-6398,42,60,57,167,2017-05-07,2017-05-07,아니오,안 마심,0개월,예


### Preprocessing

In [3]:
def convert_weight_to_integer(weight):
    if pd.isnull(weight):
        return weight

    if "kg" in weight:
        weight = weight.replace("kg", "")
        
        return int(weight)

    return int(weight)

In [4]:
data.loc[data["현재 체중"] == "0", "현재 체중"] = np.nan
data["현재 체중"] = data["현재 체중"].apply(convert_weight_to_integer)

data.loc[data["목표 체중"] == "0", "목표 체중"] = np.nan
data["목표 체중"] = data["목표 체중"].apply(convert_weight_to_integer)

print(data.shape)
data.head()

(106839, 13)


Unnamed: 0,이름,성별,전화번호,나이,현재 체중,목표 체중,키,회원 가입일,회원 정보 갱신일,흡연 여부,음주 여부,가입 개월 수,개인상담 요청
0,안원준,남성,010-2292-6251,31세,78.0,68.0,176,2016-07-05,2016-07-05,아니오,주 1회,0개월,아니요
1,유세아,여성,01045795881,39,56.0,51.0,172,2016-10-02,2016-11-29,예,월 1회,0개월,아니요
2,송솔은,여성,010-7719-8346,,29.0,21.0,167,2017-09-06,2017-09-06,예,주 1회,0개월,아니요
3,백서원,여성,01011947169,36,67.0,65.0,0,2017-06-02,2017-07-28,예,안 마심,0개월,아니요
4,박서은,여성,010-2575-6398,42,60.0,57.0,167,2017-05-07,2017-05-07,아니오,안 마심,0개월,예


## 실습

** 1. 2018년도 회원 데이터와, PT 데이터를 읽어오세요. **

In [5]:
data2018 = pd.read_csv("tkx-user-data-2018.csv")

print(data2018.shape)
data2018.head()

(21368, 13)


Unnamed: 0,이름,성별,전화번호,나이,현재 체중,목표 체중,키,회원 가입일,회원 정보 갱신일,흡연 여부,음주 여부,가입 개월 수,개인상담 요청
0,문장우,남성,010-6677-7652,32.0,80,70,173,2018년 02월 09일,2018년 02월 09일,아니오,월 1회,6개월,아니요
1,황채아,여,010-7758-8785,,55 kg,46 kg,170,2018년 02월 21일,2018년 02월 21일,아니오,월 2회,3개월,아니요
2,박서현,여성,01019295153,28.0,0,0,171,2018년 01월 03일,2018년 01월 03일,아니오,주 1회,0개월,예
3,최소윤,여,010-7785-1911,36.0,0,0,172,2018년 01월 31일,2018년 01월 31일,아니오,월 2회,0개월,예
4,백성준,남,010-5513-5523,37.0,23kg,16kg,174,2018년 02월 02일,2018년 02월 02일,아니오,주 1회,3개월,아니요


In [6]:
pt_history = pd.read_csv("pt-history.csv")
pt_history = pt_history[["담당 선생님", "수강일", "이름", "전화번호", "회차"]]

print(pt_history.shape)
pt_history.head()

(428903, 5)


Unnamed: 0,담당 선생님,수강일,이름,전화번호,회차
0,황설희 선생님,2016년 01월 04일,이윤태,01058851494,1 회차
1,강현우 선생님,2016년 01월 04일,문동환,010-3495-5299,1 회차
2,홍동운 선생님,2016년 01월 04일,송은준,01029598386,1 회차
3,손성은 선생님,2016년 01월 04일,손민진,010-2757-6111,1 회차
4,문채안 선생님,2016년 01월 05일,신채연,01076274183,1 회차


** 2. 이전 회원 데이터(2016 ~ 2017년)와 2018년도 회원 데이터를 하나로 합쳐주세요. **

In [7]:
pd.concat([data, data2018]).head()

Unnamed: 0,이름,성별,전화번호,나이,현재 체중,목표 체중,키,회원 가입일,회원 정보 갱신일,흡연 여부,음주 여부,가입 개월 수,개인상담 요청
0,안원준,남성,010-2292-6251,31세,78,68,176,2016-07-05 00:00:00,2016-07-05 00:00:00,아니오,주 1회,0개월,아니요
1,유세아,여성,01045795881,39,56,51,172,2016-10-02 00:00:00,2016-11-29 00:00:00,예,월 1회,0개월,아니요
2,송솔은,여성,010-7719-8346,,29,21,167,2017-09-06 00:00:00,2017-09-06 00:00:00,예,주 1회,0개월,아니요
3,백서원,여성,01011947169,36,67,65,0,2017-06-02 00:00:00,2017-07-28 00:00:00,예,안 마심,0개월,아니요
4,박서은,여성,010-2575-6398,42,60,57,167,2017-05-07 00:00:00,2017-05-07 00:00:00,아니오,안 마심,0개월,예


** 3. PT 데이터와 회원 데이터를 하나로 합쳐주세요. **

In [8]:
pt_history_all = pd.merge(data, pt_history, on=["이름", "전화번호"], how="right")

print(pt_history_all.shape)
pt_history_all.head()

(437645, 16)


Unnamed: 0,이름,성별,전화번호,나이,현재 체중,목표 체중,키,회원 가입일,회원 정보 갱신일,흡연 여부,음주 여부,가입 개월 수,개인상담 요청,담당 선생님,수강일,회차
0,전재성,남성,010-7299-1288,39,76.0,73.0,171,2017-12-01,2018-03-05,아니오,월 1회,3개월,아니요,황수정 선생님,2017년 12월 11일,1 회차
1,전재성,남성,010-7299-1288,39,76.0,73.0,171,2017-12-01,2018-03-05,아니오,월 1회,3개월,아니요,황수정 선생님,2017년 12월 18일,2 회차
2,전재성,남성,010-7299-1288,39,76.0,73.0,171,2017-12-01,2018-03-05,아니오,월 1회,3개월,아니요,황수정 선생님,2017년 12월 24일,4 회차
3,전재성,남성,010-7299-1288,39,76.0,73.0,171,2017-12-01,2018-03-05,아니오,월 1회,3개월,아니요,황수정 선생님,2017년 12월 26일,3 회차
4,전재성,남성,010-7299-1288,39,76.0,73.0,171,2017-12-01,2018-03-05,아니오,월 1회,3개월,아니요,황수정 선생님,2017년 12월 31일,5 회차


** 4. 3번 데이터에서 전체가 아닌 필요한 컬럼만 골라서 보고습니다. 다음의 컬럼만 골라서 출력해주세요. **

  * 이름
  * 성별
  * 전화번호
  * 현재 체중
  * 목표 체중
  * 담당 선생님
  * 수강일
  * 회차

In [9]:
pt_history_all = pt_history_all[["이름", "성별", "전화번호", "현재 체중", "목표 체중", "담당 선생님", "수강일", "회차"]]

print(pt_history_all.shape)
pt_history_all.head()

(437645, 8)


Unnamed: 0,이름,성별,전화번호,현재 체중,목표 체중,담당 선생님,수강일,회차
0,전재성,남성,010-7299-1288,76.0,73.0,황수정 선생님,2017년 12월 11일,1 회차
1,전재성,남성,010-7299-1288,76.0,73.0,황수정 선생님,2017년 12월 18일,2 회차
2,전재성,남성,010-7299-1288,76.0,73.0,황수정 선생님,2017년 12월 24일,4 회차
3,전재성,남성,010-7299-1288,76.0,73.0,황수정 선생님,2017년 12월 26일,3 회차
4,전재성,남성,010-7299-1288,76.0,73.0,황수정 선생님,2017년 12월 31일,5 회차


** 5. PT 담당 선생님만 추려서, 가장 PT를 많이 한 선생님 순으로 정렬해서 보여주세요. **

In [10]:
pt_history["담당 선생님"].value_counts()

서슬희 선생님     896
손성은 선생님     845
장슬윤 선생님     787
권소현 선생님     712
최설희 선생님     711
손준영 선생님     673
안지율 선생님     672
고준아 선생님     668
한지영 선생님     658
윤서안 선생님     654
최지율 선생님     637
문슬아 선생님     629
황수연 선생님     627
박연재 선생님     627
조성빈 선생님     625
장세희 선생님     619
백소원 선생님     619
류설안 선생님     619
홍설윤 선생님     617
장윤상 선생님     615
유우진 선생님     614
고대윤 선생님     609
장은후 선생님     606
안서율 선생님     602
서승윤 선생님     592
강세율 선생님     591
윤성희 선생님     590
안서안 선생님     585
조현호 선생님     579
오서애 선생님     575
           ... 
양서후 선생님      78
서서현 선생님      78
김지빈 선생님      76
허슬미 선생님      76
조수현 선생님      75
문서영 선생님      75
양진혁 선생님      74
유성희 선생님      73
박소정 선생님      73
백대권 선생님      71
서세영 선생님      71
신준원 선생님      70
최수민 선생님      70
안지빈 선생님      70
오채슬 선생님      69
문세현 선생님      69
최슬영 선생님      68
오세희 선생님      66
최서후 선생님      65
배선우 선생님      64
송수윤 선생님      64
서세아 선생님      63
윤수희 선생님      63
허수빈 선생님      56
오 시민 선생님     55
정초민 선생님      54
안서환 선생님      50
백재혁 선생님      41
임승완 선생님      14
정수이 선생님      10
Name: 담당 선생님, Length: 17

## 과제(초급)

** 6. 회원분들의 체중 기록을 9개의 CSV에서 각각 읽어와주세요.**

** 8. 여러 데이터로 나뉘어져 있는 체중 기록을 하나로 합쳐주세요. **

In [11]:
weight_history = pd.concat([pd.read_csv(f"weight-history-{i}.csv") for i in range(1, 10)])
weight_history = weight_history[["이름", "전화번호", "측정일", "측정 체중"]]

print(weight_history.shape)
weight_history.head()

(525379, 4)


Unnamed: 0,이름,전화번호,측정일,측정 체중
0,양선희,01018822981,2016년 01월 03일,60.1
1,박채민,010-4493-1441,2016년 01월 03일,61.0
2,장영준,010-5728-5661,2016년 01월 03일,80.6
3,양재민,010-7365-6481,2016년 01월 03일,72.0
4,유성율,010-1146-4241,2016년 01월 04일,76.7


** 9. 체중 기록과 회원 데이터를 하나로 합쳐주세요. **

In [12]:
weight = weight_history.merge(data, on=["이름", "전화번호"], how="left")

print(weight.shape)
weight.head()

(535844, 15)


Unnamed: 0,이름,전화번호,측정일,측정 체중,성별,나이,현재 체중,목표 체중,키,회원 가입일,회원 정보 갱신일,흡연 여부,음주 여부,가입 개월 수,개인상담 요청
0,양선희,01018822981,2016년 01월 03일,60.1,여,23 세,61.0,58.0,163cm,2016-01-01,2016-01-01,아니오,월 2회,0개월,예
1,박채민,010-4493-1441,2016년 01월 03일,61.0,여,26,61.0,57.0,0,2016-01-02,2016-01-02,아니오,주 1회,3개월,아니요
2,장영준,010-5728-5661,2016년 01월 03일,80.6,male,35,81.0,79.0,174,2016-01-02,2016-01-02,아니오,주 1회,6개월,아니요
3,양재민,010-7365-6481,2016년 01월 03일,72.0,Male,36,77.0,69.0,178,2016-01-01,2016-01-01,예,주 2회,0개월,아니요
4,유성율,010-1146-4241,2016년 01월 04일,76.7,남,41,77.0,74.0,183,2016-01-01,2016-01-01,예,월 1회,0개월,아니요


** 10. 9번 데이터에서 현재 체중과 측정 체중이 가장 차이가 크게 나는 순으로 정렬해주세요. **

In [13]:
weight["체중 변화"] = weight["현재 체중"] - weight["측정 체중"]
weight.sort_values(by="체중 변화", ascending=False).head()

Unnamed: 0,이름,전화번호,측정일,측정 체중,성별,나이,현재 체중,목표 체중,키,회원 가입일,회원 정보 갱신일,흡연 여부,음주 여부,가입 개월 수,개인상담 요청,체중 변화
62615,황서진,010-7321-6822,2016년 03월 10일,16.0,여성,35,26.0,17.0,172cm,2016-02-11,2016-02-11,아니오,안 마심,0개월,아니요,10.0
533479,황수한,01037759159,2017년 12월 18일,73.0,남성,41,83.0,79.0,170 cm,2017-11-10,2017-11-10,아니오,월 1회,0개월,아니요,10.0
310802,백서현,010-8171-6486,2016년 07월 03일,52.0,여,25,62.0,59.0,169,2016-06-07,2016-06-07,아니오,월 2회,0개월,아니요,10.0
409326,백찬후,010-9145-7567,2017년 10월 18일,63.0,male,32,73.0,66.0,170,2017-10-14,2017-10-14,아니오,주 1회,0개월,아니요,10.0
496479,김주원,01014753379,2016년 09월 15일,72.0,남성,36,82.0,81.0,165,2016-09-06,2016-09-06,예,월 1회,0개월,아니요,10.0


## 과제(중급)

** 11. 회원 - 체중 기록 데이터를 활용해 목표 체중을 달성한 사람만을 추려주세요. ** 

여기서 체중이 다시 올랐을 경우는 고려하지 않습니다. 즉, 그 사람의 체중이 가장 낮았을 때만 고려하면 됩니다.

In [14]:
complete = weight[weight["측정 체중"] < weight["목표 체중"]]
complete[["이름", "현재 체중", "목표 체중", "측정 체중"]].head()

Unnamed: 0,이름,현재 체중,목표 체중,측정 체중
9,유채하,51.0,45.0,43.3
14,한슬아,52.0,45.0,43.4
21,조효찬,80.0,79.0,76.2
23,장영준,81.0,79.0,71.5
30,정초영,60.0,58.0,51.1


In [15]:
complete["이름"].unique()

array(['유채하', '한슬아', '조효찬', ..., '한승환', '송보성', '최윤태'], dtype=object)

** 12. 11번의 데이터를 활용해, 남성/여성별 목표 체중을 달성한 사람의 전체 인원수를 찾아주세요. ** 

In [16]:
weight.loc[weight["성별"].isin(["남성", "남", "MALE", "Male", "male"]), "성별(clean)"] = "male"
weight.loc[weight["성별"].isin(["여성", "여", "FEMALE", "Female", "female"]), "성별(clean)"] = "female"

print(weight["성별(clean)"].unique())

print(weight.shape)
weight[["성별", "성별(clean)"]].head()

['female' 'male']
(535844, 17)


Unnamed: 0,성별,성별(clean)
0,여,female
1,여,female
2,male,male
3,Male,male
4,남,male


In [17]:
complete = weight[weight["측정 체중"] < weight["목표 체중"]]
complete["성별(clean)"].value_counts()

male      79521
female    56778
Name: 성별(clean), dtype: int64

In [18]:
weight["목표 달성"] = weight["측정 체중"] < weight["목표 체중"]
weight[["성별(clean)", "목표 달성"]].pivot_table(index="성별(clean)", columns='목표 달성', aggfunc=len)

목표 달성,False,True
성별(clean),Unnamed: 1_level_1,Unnamed: 2_level_1
female,163802,56778
male,235743,79521


** 13. 12번과 비슷하게, 흡연이 체중 감량에 미치는 영향을 알고 싶습니다. 흡연/비흡연자의 목표 체중을 달성한 사람들의 총 인원을 찾아주세요. **

In [19]:
weight[["흡연 여부", "목표 달성"]].pivot_table(index="흡연 여부", columns='목표 달성', aggfunc=len)

목표 달성,False,True
흡연 여부,Unnamed: 1_level_1,Unnamed: 2_level_1
아니오,319384,109129
예,80161,27170


** 14. 매 월(1월 ~ 12월) 가장 PT를 많이 한 담당 선생님 Top 10을 찾아주세요. ** 

In [20]:
# pt_history = pd.read_csv("pt-history.csv")

pt_history = pd.read_csv("pt-history.csv",
                         parse_dates=["수강일"], 
                         date_parser=lambda datetime: pd.to_datetime(datetime, format="%Y년 %m월 %d일"))           
pt_history = pt_history[["담당 선생님", "수강일", "이름", "전화번호", "회차"]]

print(pt_history.shape)
pt_history.head()

(428903, 5)


Unnamed: 0,담당 선생님,수강일,이름,전화번호,회차
0,황설희 선생님,2016-01-04,이윤태,01058851494,1 회차
1,강현우 선생님,2016-01-04,문동환,010-3495-5299,1 회차
2,홍동운 선생님,2016-01-04,송은준,01029598386,1 회차
3,손성은 선생님,2016-01-04,손민진,010-2757-6111,1 회차
4,문채안 선생님,2016-01-05,신채연,01076274183,1 회차


In [21]:
pt_history["수강일(월)"] = pt_history["수강일"].dt.month

print(pt_history.shape)
pt_history[["수강일", "수강일(월)"]].head()

(428903, 6)


Unnamed: 0,수강일,수강일(월)
0,2016-01-04,1
1,2016-01-04,1
2,2016-01-04,1
3,2016-01-04,1
4,2016-01-05,1


In [22]:
for month in range(1, 13):
    pt_history_by_month = pt_history[pt_history["수강일(월)"] == month]
    top_10 = pt_history_by_month["담당 선생님"].value_counts().head(10)
    top_10_coaches = top_10.index
    top_10_coaches = ", ".join(top_10_coaches.values)
    top_10_coaches = top_10_coaches.replace(" 선생님", "")

    print(f"{month:2}월 = {top_10_coaches}")

 1월 = 손성은, 안서율, 강세율, 백소원, 조슬미, 윤서안, 류설안, 배선정, 홍설윤, 유우진
 2월 = 손성은, 안지율, 손준영, 장슬윤, 서슬희, 홍설윤, 유소희, 윤서안, 장세희, 황수연
 3월 = 손성은, 안지율, 장슬윤, 조성빈, 손준영, 최설희, 권소현, 조슬미, 서슬희, 류설안
 4월 = 서슬희, 장슬윤, 조성빈, 손성은, 최설희, 안지율, 고대윤, 고준아, 류설희, 조슬미
 5월 = 서슬희, 장슬윤, 안지율, 손준영, 손성은, 장세희, 조성빈, 백승은, 손지영, 문슬아
 6월 = 서슬희, 손성은, 고준아, 장슬윤, 권소현, 장은후, 장윤상, 손준영, 문도훈, 이주빈
 7월 = 장슬윤, 서슬희, 권소현, 장은후, 손성은, 장윤상, 고준아, 문슬아, 고대윤, 조설빈
 8월 = 장슬윤, 서슬희, 권소현, 문슬아, 장윤상, 정서원, 윤소윤, 장은후, 한지영, 백승은
 9월 = 장슬윤, 서슬희, 최지율, 안서안, 윤성희, 서승윤, 문슬아, 권소현, 황수연, 장윤상
10월 = 안서안, 서슬희, 최지율, 권소현, 한지영, 고준아, 박연재, 송슬은, 황수연, 손성은
11월 = 서슬희, 최설희, 한지영, 안서율, 조태원, 최지율, 손성은, 조현호, 강세율, 고준아
12월 = 서슬희, 손성은, 한지영, 안서율, 최설희, 홍설윤, 백소원, 윤서안, 유우진, 조현호


In [23]:
pt_summary = pt_history[["담당 선생님", "수강일(월)"]].pivot_table(index="담당 선생님", columns='수강일(월)', aggfunc=len)

print(pt_summary.shape)
pt_summary.head()

(1799, 12)


수강일(월),1,2,3,4,5,6,7,8,9,10,11,12
담당 선생님,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
강다훈 선생님,15.0,13.0,15.0,16.0,10.0,13.0,16.0,16.0,15.0,22.0,16.0,25.0
강대원 선생님,18.0,16.0,18.0,12.0,13.0,9.0,2.0,7.0,4.0,6.0,16.0,19.0
강대율 선생님,21.0,24.0,14.0,11.0,3.0,4.0,4.0,1.0,3.0,10.0,8.0,9.0
강대은 선생님,11.0,8.0,4.0,4.0,8.0,9.0,13.0,14.0,11.0,5.0,9.0,12.0
강대훈 선생님,12.0,19.0,20.0,25.0,23.0,22.0,34.0,26.0,25.0,26.0,16.0,12.0


In [24]:
pt_summary.sort_values(by=1, ascending=False).head(10)

수강일(월),1,2,3,4,5,6,7,8,9,10,11,12
담당 선생님,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
손성은 선생님,89.0,81.0,87.0,67.0,66.0,71.0,68.0,60.0,57.0,60.0,58.0,81.0
안서율 선생님,69.0,50.0,46.0,35.0,42.0,45.0,38.0,53.0,44.0,48.0,62.0,70.0
강세율 선생님,66.0,44.0,48.0,44.0,44.0,50.0,59.0,53.0,36.0,40.0,57.0,50.0
조슬미 선생님,65.0,57.0,67.0,57.0,53.0,39.0,35.0,39.0,33.0,47.0,36.0,42.0
백소원 선생님,65.0,56.0,53.0,56.0,52.0,48.0,61.0,56.0,42.0,38.0,29.0,63.0
류설안 선생님,63.0,49.0,62.0,50.0,51.0,44.0,48.0,50.0,47.0,46.0,53.0,56.0
배선정 선생님,63.0,48.0,46.0,42.0,55.0,52.0,41.0,34.0,35.0,34.0,51.0,55.0
홍설윤 선생님,63.0,59.0,58.0,54.0,47.0,44.0,45.0,40.0,44.0,47.0,49.0,67.0
윤서안 선생님,63.0,58.0,56.0,53.0,57.0,43.0,51.0,53.0,51.0,59.0,47.0,63.0
한지영 선생님,62.0,55.0,31.0,34.0,43.0,49.0,54.0,61.0,57.0,69.0,63.0,80.0


** 15. 2016 ~ 2018년도 기록을 모두 합쳐서 가장 많은 PT를 받은 수강생 + 선생님 조합의 Top 10을 찾아주세요. ** 

In [25]:
summary = pt_history_all[["이름", "전화번호", "담당 선생님", "수강일"]]
summary["Id"] = summary["이름"] + "(" + summary["전화번호"] + ") - " + summary["담당 선생님"]

summary["Id"].value_counts().head(10)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  


류솔윤(010-7757-6734) - 김수빈 선생님     132
고태연(01093586975) - 장설희 선생님       130
문윤일(010-2752-7349) - 송승아 선생님     124
홍슬민(010-6357-5493) - 안원재 선생님     124
오장혁(010-7242-9345) - 조인태 선생님     122
이장우(01056525496) - 홍슬빈 선생님       120
정준영(01015981989) - 류설희 선생님       116
문영준(010-7151-3848) - 송주훈 선생님     116
임채하(01014882612) - 서수진 선생님       116
류지효(010-3763-1711) - 최윤 채 선생님    116
Name: Id, dtype: int64

## 과제(고급)

** 16. 사용자별 현재 체중과 더불어 체중과 1) 가장 최근에 측정한 체중, 2) 가장 낮았을 때의 체중을 찾아주세요. ** 

In [26]:
weight_history = pd.concat([pd.read_csv(f"weight-history-{i}.csv") for i in range(1, 10)])

weight_history["Id"] = range(weight_history.shape[0])
weight_history["식별 번호"] = weight_history["이름"] + "_" + weight_history["전화번호"]
weight_history["측정일"] = pd.to_datetime(weight_history["측정일"], format="%Y년 %m월 %d일")

weight_history = weight_history.set_index("Id")
weight_history = weight_history[["식별 번호", "이름", "전화번호", "측정일", "측정 체중"]]

print(weight_history.shape)
weight_history.head()

(525379, 5)


Unnamed: 0_level_0,식별 번호,이름,전화번호,측정일,측정 체중
Id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
0,양선희_01018822981,양선희,01018822981,2016-01-03,60.1
1,박채민_010-4493-1441,박채민,010-4493-1441,2016-01-03,61.0
2,장영준_010-5728-5661,장영준,010-5728-5661,2016-01-03,80.6
3,양재민_010-7365-6481,양재민,010-7365-6481,2016-01-03,72.0
4,유성율_010-1146-4241,유성율,010-1146-4241,2016-01-04,76.7


In [27]:
weight_history = weight_history.sort_values(by="측정일", ascending=False)

ids = weight_history.groupby("식별 번호")["측정 체중"].head(1).index

weight_history.loc[ids].head()

Unnamed: 0_level_0,식별 번호,이름,전화번호,측정일,측정 체중
Id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
233918,양채안_010-8872-6994,양채안,010-8872-6994,2018-03-03,50.1
291569,송민서_010-1319-2595,송민서,010-1319-2595,2018-03-02,79.0
291568,서채희_01039158295,서채희,01039158295,2018-03-01,136.7
349660,황채유_010-4539-8676,황채유,010-4539-8676,2018-03-01,54.8
233917,황찬혁_01014451744,황찬혁,01014451744,2018-03-01,70.8


In [28]:
weight_history = weight_history.sort_values(by="측정 체중", ascending=True)

ids = weight_history.groupby("식별 번호")["측정 체중"].head(1).index

weight_history.loc[ids].head()

Unnamed: 0_level_0,식별 번호,이름,전화번호,측정일,측정 체중
Id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
129915,고은후_010-2374-8173,고은후,010-2374-8173,2016-07-02,10.9
280821,신성희_010-6721-5515,신성희,010-6721-5515,2017-09-07,11.2
10268,송연후_010-6915-9311,송연후,010-6915-9311,2016-05-28,11.7
222046,윤슬비_010-5458-5834,윤슬비,010-5458-5834,2017-08-21,11.8
273386,오예찬_010-2734-9195,오예찬,010-2734-9195,2017-06-05,12.1


** 17. 체중 기록에서 단순히 그 날 측정한 체중 뿐만 아니라, 바로 이전에 측정한 체중과의 차이를 찾아주세요. ** 

In [29]:
weight_history = weight_history.sort_values(by=["식별 번호", "측정일"])
weight_history["체중 변화"] = weight_history.groupby("식별 번호")["측정 체중"].diff() # 이전 체중과 지금 체중의 차이가 나옴

weight_history#.head()

Unnamed: 0_level_0,식별 번호,이름,전화번호,측정일,측정 체중,체중 변화
Id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
223033,강 시민_010-1344-4934,강 시민,010-1344-4934,2017-09-02,82.6,
223231,강 시민_010-1344-4934,강 시민,010-1344-4934,2017-09-05,82.9,0.3
223531,강 시민_010-1344-4934,강 시민,010-1344-4934,2017-09-08,81.2,-1.7
223744,강 시민_010-1344-4934,강 시민,010-1344-4934,2017-09-11,81.5,0.3
451855,강 시민_010-3118-6928,강 시민,010-3118-6928,2017-07-06,78.1,
452166,강 시민_010-3118-6928,강 시민,010-3118-6928,2017-07-10,77.4,-0.7
452334,강 시민_010-3118-6928,강 시민,010-3118-6928,2017-07-13,77.3,-0.1
452694,강 시민_010-3118-6928,강 시민,010-3118-6928,2017-07-17,76.9,-0.4
452917,강 시민_010-3118-6928,강 시민,010-3118-6928,2017-07-20,75.7,-1.2
453209,강 시민_010-3118-6928,강 시민,010-3118-6928,2017-07-23,75.5,-0.2


** 18. 체중 감량을 많이 한 사람들을 대상으로 환급 프로그램을 적용하고 싶습니다. **

현재 체중과 목표 체중과의 차이가 5kg 이상인 사람 중에서, 실제 목표를 달성한 사람만을 뽑아서 리스트업 해주세요.

In [30]:
weight_history = weight_history.sort_values(by="측정일", ascending=False)
ids = weight_history.groupby("식별 번호")["측정 체중"].head(1).index

latest_weight_history = weight_history.loc[ids]
latest_weight_history.head()

Unnamed: 0_level_0,식별 번호,이름,전화번호,측정일,측정 체중,체중 변화
Id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
233918,양채안_010-8872-6994,양채안,010-8872-6994,2018-03-03,50.1,-2.4
291569,송민서_010-1319-2595,송민서,010-1319-2595,2018-03-02,79.0,-0.8
291568,서채희_01039158295,서채희,01039158295,2018-03-01,136.7,0.5
233917,황찬혁_01014451744,황찬혁,01014451744,2018-03-01,70.8,-0.8
175433,오슬빈_010-6531-8413,오슬빈,010-6531-8413,2018-03-01,49.1,-1.2


In [31]:
latest_weight_history = latest_weight_history.merge(data, how="left")
latest_weight_history = latest_weight_history[["이름", "전화번호", "측정일", "현재 체중", "목표 체중", "측정 체중"]]

latest_weight_history = latest_weight_history[(latest_weight_history["현재 체중"] - latest_weight_history["목표 체중"]) >= 5]
latest_weight_history = latest_weight_history[(latest_weight_history["측정 체중"] <= latest_weight_history["목표 체중"])]

latest_weight_history.head(10)

Unnamed: 0,이름,전화번호,측정일,현재 체중,목표 체중,측정 체중
16,배윤기,010-7932-9512,2018-02-24,83.0,77.0,73.5
19,정설아,010-7245-9348,2018-02-22,64.0,59.0,58.5
27,전소영,010-7334-8971,2018-02-21,59.0,54.0,52.4
30,김주호,010-4761-8935,2018-02-21,79.0,73.0,69.4
32,송영찬,010-7735-5514,2018-02-21,74.0,69.0,68.8
35,허서훈,010-6737-3649,2018-02-20,79.0,72.0,71.2
47,최시윤,01033554724,2018-02-18,80.0,74.0,72.3
49,손태원,01021233821,2018-02-18,80.0,74.0,72.0
50,장슬영,01066444214,2018-02-18,60.0,55.0,53.0
54,류솔은,010-3692-8498,2018-02-17,56.0,51.0,47.7


** 19. 18번 데이터를 바탕으로, 사람들이 목표 체중을 달성하는데 평균적으로 며칠이 걸리는지를 계산해주세요. **

In [32]:
weight_history = weight_history.merge(data[["이름", "전화번호", "회원 가입일", "현재 체중", "목표 체중"]], how="left")
weight_history = weight_history[["식별 번호", "이름", "전화번호", "현재 체중", "목표 체중", "측정 체중", "회원 가입일", "측정일"]]

weight_history["소요 일자"] = weight_history["측정일"] - weight_history["회원 가입일"]

target = weight_history[(weight_history["현재 체중"] - weight_history["목표 체중"]) >= 5]
target = weight_history[weight_history["목표 체중"] > weight_history["측정 체중"]]
target = target.sort_values("측정일").groupby("식별 번호").first()

print(target.shape)
target.head()

(43190, 8)


Unnamed: 0_level_0,이름,전화번호,현재 체중,목표 체중,측정 체중,회원 가입일,측정일,소요 일자
식별 번호,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
강 시민_010-1344-4934,강 시민,010-1344-4934,83.0,82.0,81.2,2017-09-01,2017-09-08,7 days
강 시민_010-5433-5221,강 시민,010-5433-5221,80.0,79.0,77.8,2017-05-09,2017-05-12,3 days
강 시민_010-5529-2667,강 시민,010-5529-2667,79.0,71.0,69.0,2017-04-08,2017-04-11,3 days
강 시민_010-6237-2875,강 시민,010-6237-2875,82.0,78.0,77.2,2016-05-18,2016-05-27,9 days
강 시민_010-7192-8576,강 시민,010-7192-8576,84.0,78.0,77.6,2016-08-06,2016-09-19,44 days


In [33]:
target["소요 일자"].mean()

Timedelta('11 days 19:08:11.947210')

** 20. 사람들이 헬스장에 가입한 이후, 매 주 평균적으로 얼만큼 감량하는지를 1주부터 10주까지 평균을 내서 보여주세요. **

In [57]:
weight_history["감량 체중"] = weight_history["현재 체중"] - weight_history["측정 체중"]
weight_history["소요 일자(주)"] = (weight_history["소요 일자"] / np.timedelta64(1, 'W')).astype('int')

print(weight_history.shape)
weight_history.head()

(535844, 11)


Unnamed: 0,식별 번호,이름,전화번호,현재 체중,목표 체중,측정 체중,회원 가입일,측정일,소요 일자,소요 일자(주),감량 체중
0,양채안_010-8872-6994,양채안,010-8872-6994,59.0,56.0,50.1,2017-12-30,2018-03-03,63 days,9,8.9
1,송민서_010-1319-2595,송민서,010-1319-2595,83.0,79.0,79.0,2017-12-26,2018-03-02,66 days,9,4.0
2,서채희_01039158295,서채희,01039158295,143.0,134.0,136.7,2017-12-29,2018-03-01,62 days,8,6.3
3,황찬혁_01014451744,황찬혁,01014451744,77.0,69.0,70.8,2017-12-30,2018-03-01,61 days,8,6.2
4,오슬빈_010-6531-8413,오슬빈,010-6531-8413,56.0,46.0,49.1,2017-12-31,2018-03-01,60 days,8,6.9


In [60]:
pd.pivot_table(weight_history, index="소요 일자(주)", values="감량 체중")

Unnamed: 0_level_0,감량 체중
소요 일자(주),Unnamed: 1_level_1
0,1.609296
1,2.656414
2,3.229431
3,3.799099
4,4.211884
5,4.522117
6,4.858297
7,5.184721
8,5.449196
9,5.563551
