## 3장 집약
집약은 데이터를 처리할때 손실없이 압축하여 데이터의 의미를 변환한다고 책에 나와있습니다.
즉 과목별로 평균, 표준편차를 계산하면 시험의 난이도 수준을 알 수있고, 경향성을 파악할 수 있습니다.

# 데이터와 종류의 개수 산출
가장 기본적인 집약으로는 데이터 행의 수를 세는 것이 있습니다.

In [1]:
import pandas as pd
reserve_tb = pd.read_csv('c:/Users/User/daejeon/reserve.csv', encoding='UTF-8')
reserve_tb

Unnamed: 0,reserve_id,hotel_id,customer_id,reserve_datetime,checkin_date,checkin_time,checkout_date,people_num,total_price
0,r1,h_75,c_1,2016-03-06 13:09:42,2016-03-26,10:00:00,2016-03-29,4,97200
1,r2,h_219,c_1,2016-07-16 23:39:55,2016-07-20,11:30:00,2016-07-21,2,20600
2,r3,h_179,c_1,2016-09-24 10:03:17,2016-10-19,09:00:00,2016-10-22,2,33600
3,r4,h_214,c_1,2017-03-08 03:20:10,2017-03-29,11:00:00,2017-03-30,4,194400
4,r5,h_16,c_1,2017-09-05 19:50:37,2017-09-22,10:30:00,2017-09-23,3,68100
...,...,...,...,...,...,...,...,...,...
4025,r4026,h_129,c_999,2017-06-27 23:00:02,2017-07-10,09:30:00,2017-07-11,2,16000
4026,r4027,h_97,c_999,2017-09-29 05:24:57,2017-10-09,10:30:00,2017-10-10,2,41800
4027,r4028,h_27,c_999,2018-03-14 05:01:45,2018-04-02,11:30:00,2018-04-04,2,74800
4028,r4029,h_48,c_1000,2016-04-16 15:20:17,2016-05-10,09:30:00,2016-05-13,4,540000


집약을 하려면, 우선 집약 단위를 설정하고, 집약 함수를 호출해 구현할 수 있습니다.
이때 데이터의 수를 계산하는 집약함수는 size()이고, 중복된 항목을 제외하고 카운트하는 함수는 nunique()함수입니다.
같은 집약 단위로 여러 집약을 처리하는 경우 agg()를 사용합니다.

In [2]:
rsv_cnt_tb = reserve_tb.groupby('hotel_id').size().reset_index()
rsv_cnt_tb
# hotel_id를 집약 단위로 설정했습니다.
# 즉 코드의 의미는 자료안에 호텔이 몇개씩 있는 지 groupby 함수로 확인했습니다.
# 이때 groupby 함수로 인해 index가 흐트러지므로, reset_index()를 통해 다시 index를 설정해주었습니다.

Unnamed: 0,hotel_id,0
0,h_1,10
1,h_10,3
2,h_100,20
3,h_101,17
4,h_102,13
...,...,...
295,h_95,13
296,h_96,13
297,h_97,16
298,h_98,17


In [3]:
rsv_cnt_tb.columns = ['hotel_id', 'rsv_cnt']
rsv_cnt_tb
# column의 이름을 hotel_id, rsv_cnt로 설정했습니다.

Unnamed: 0,hotel_id,rsv_cnt
0,h_1,10
1,h_10,3
2,h_100,20
3,h_101,17
4,h_102,13
...,...,...
295,h_95,13
296,h_96,13
297,h_97,16
298,h_98,17


In [19]:
cus_cnt_tb = reserve_tb.groupby('hotel_id')['customer_id'].nunique().reset_index(drop = False)
cus_cnt_tb
# 즉 hotel_id를 집약 단위로 설정하고, 각 호텔마다 고객이 몇명 갔는 지 카운팅하기 위해
# groupby로 새로운 DataFrame이 리턴되는데, 이중에서 ['customer_id']열을 불러왔습니다.
# 그 이후 중복을 제거하기위해 nunique()함수를 사용했습니다.

Unnamed: 0,hotel_id,customer_id
0,h_1,10
1,h_10,3
2,h_100,19
3,h_101,17
4,h_102,13
...,...,...
295,h_95,13
296,h_96,13
297,h_97,16
298,h_98,16


In [5]:
cus_cnt_tb.columns = ['hotel_id', 'cuc_cnt']
cus_cnt_tb

Unnamed: 0,hotel_id,cuc_cnt
0,h_1,10
1,h_10,3
2,h_100,19
3,h_101,17
4,h_102,13
...,...,...
295,h_95,13
296,h_96,13
297,h_97,16
298,h_98,16


In [8]:
pd.merge(rsv_cnt_tb, cus_cnt_tb, on='hotel_id')
# merge()함수에서 on을 설정할경우 그 column을 기준으로 병합합니다.

Unnamed: 0,hotel_id,rsv_cnt,cuc_cnt
0,h_1,10,10
1,h_10,3,3
2,h_100,20,19
3,h_101,17,17
4,h_102,13,13
...,...,...,...
295,h_95,13,13
296,h_96,13,13
297,h_97,16,16
298,h_98,17,16


In [9]:
result = reserve_tb.groupby('hotel_id').agg({'reserve_id' : 'count', 'customer_id' : 'nunique'})
result
# groupby함수로 새로운 DataFrame을 반환받은 뒤, agg함수를 떨어져있는 column등을 한번에 합칠 수 있습니다.
# 이때 딕셔너리 오브젝트를 통해 한번에 집약처리를 가능합니다.
# 딕셔너리는 key는 열의 이름, value에는 집약함수 이름을 사용하면 됩니다.

Unnamed: 0_level_0,reserve_id,customer_id
hotel_id,Unnamed: 1_level_1,Unnamed: 2_level_1
h_1,10,10
h_10,3,3
h_100,20,19
h_101,17,17
h_102,13,13
...,...,...
h_95,13,13
h_96,13,13
h_97,16,16
h_98,17,16


In [10]:
result.reset_index(inplace=True)
result.columns = ['hotel_id', 'rsv_cnt', 'cus_cnt']
result
# 여기서 reset_index를 할때 inplace = True를 해주어 갱신을 해주어야 합니다.
# 그렇지 않을경우 hotel_id가 인덱스처럼 작용하여 열의 이름을 부가하는 것이 불가능합니다.

Unnamed: 0,hotel_id,rsv_cnt,cus_cnt
0,h_1,10,10
1,h_10,3,3
2,h_100,20,19
3,h_101,17,17
4,h_102,13,13
...,...,...,...
295,h_95,13,13
296,h_96,13,13
297,h_97,16,16
298,h_98,17,16


# 합계값 계산
이번의 목표는 호텔별로 숙박인원 수에 따른 매출금액 합을 계산하는 것입니다.

In [17]:
reserve_tb

Unnamed: 0,reserve_id,hotel_id,customer_id,reserve_datetime,checkin_date,checkin_time,checkout_date,people_num,total_price
0,r1,h_75,c_1,2016-03-06 13:09:42,2016-03-26,10:00:00,2016-03-29,4,97200
1,r2,h_219,c_1,2016-07-16 23:39:55,2016-07-20,11:30:00,2016-07-21,2,20600
2,r3,h_179,c_1,2016-09-24 10:03:17,2016-10-19,09:00:00,2016-10-22,2,33600
3,r4,h_214,c_1,2017-03-08 03:20:10,2017-03-29,11:00:00,2017-03-30,4,194400
4,r5,h_16,c_1,2017-09-05 19:50:37,2017-09-22,10:30:00,2017-09-23,3,68100
...,...,...,...,...,...,...,...,...,...
4025,r4026,h_129,c_999,2017-06-27 23:00:02,2017-07-10,09:30:00,2017-07-11,2,16000
4026,r4027,h_97,c_999,2017-09-29 05:24:57,2017-10-09,10:30:00,2017-10-10,2,41800
4027,r4028,h_27,c_999,2018-03-14 05:01:45,2018-04-02,11:30:00,2018-04-04,2,74800
4028,r4029,h_48,c_1000,2016-04-16 15:20:17,2016-05-10,09:30:00,2016-05-13,4,540000


In [21]:
result_sum = reserve_tb.groupby(['hotel_id', 'people_num'])['total_price'].sum().reset_index()
result_sum
# 두개로 묶는 groupby는 c언어에서 다차원 배열형태의 dataframe을 반환합니다.

Unnamed: 0,hotel_id,people_num,total_price
0,h_1,1,156600
1,h_1,2,156600
2,h_1,3,391500
3,h_1,4,417600
4,h_10,1,11200
...,...,...,...
1154,h_98,3,793800
1155,h_98,4,453600
1156,h_99,1,179200
1157,h_99,2,448000


In [27]:
result_sum.rename(columns={'total_price' : 'price_sum'}, inplace=True)
result_sum
# total_price를 price_sum으로 이름을 변경했습니다. rename 함수에서 dictionary 오브젝트를 사용하여
# key는 변경전 이름, value는 변경후 이름을 지정합니다.

Unnamed: 0,hotel_id,people_num,price_sum
0,h_1,1,156600
1,h_1,2,156600
2,h_1,3,391500
3,h_1,4,417600
4,h_10,1,11200
...,...,...,...
1154,h_98,3,793800
1155,h_98,4,453600
1156,h_99,1,179200
1157,h_99,2,448000


# 최댓값, 최솟값, 대푯값 산출
평균만으로는 데이터의 분포를 알기 힘드므로, 최댓값, 최솟값, 중앙값, 백분위수를 확인하여야 합니다.
그러나 데이터의 수가 많은 경우 중앙값이나 백분위수는 계산하는데 비용이 많이드므로, 이를 염두하여야 합니다.

In [33]:
import numpy as np
result_info = reserve_tb.groupby('hotel_id').agg({'total_price' : ['max', 'min', 'mean', 'median',
                                                                  lambda x: np.percentile(x, q=20)]}).reset_index()
result_info.columns = ['hotel_id', 'price_max', 'price_min', 'price_mean', 'price_median', 'price_20per']
result_info
# 앞서 보았던 데이터의 개수 파악 부분에서 agg에 딕셔너리 오브젝트 전달을 통한 한번에 집약처리가 다시 이용되었습니다.
# 백분위수의 의미는 대략적으로 분포의 상대적 위치를 뜻한다 라고 이해를 하시면 됩니다.
# 예를들어 100일 경우 가장 큰값, 0일 경우 가장 작은 값, 50일 경우 중간값이라고 생각을 하시면 됩니다.

Unnamed: 0,hotel_id,price_max,price_min,price_mean,price_median,price_20per
0,h_1,208800,26100,112230.000000,104400,73080
1,h_10,67200,11200,42933.333333,50400,26880
2,h_100,57600,4800,27600.000000,28800,9600
3,h_101,168000,14000,75764.705882,56000,30800
4,h_102,72000,12000,32769.230769,24000,18000
...,...,...,...,...,...,...
295,h_95,518400,43200,275815.384615,259200,146880
296,h_96,66600,7400,33015.384615,29600,17760
297,h_97,250800,20900,83600.000000,62700,20900
298,h_98,226800,18900,96723.529412,75600,56700


In [27]:
reserve_tb.groupby('hotel_id').describe()

reserve_tb.describe

Unnamed: 0,people_num,total_price
count,4030.0,4030.0
mean,2.542184,103065.955335
std,1.120925,110288.484355
min,1.0,3500.0
25%,2.0,32400.0
50%,3.0,64800.0
75%,4.0,129600.0
max,4.0,897600.0


같은 평균을 가지고 있더라도, 표준편차의 정도에 따라 값이 고르게 분포하는지, 집중적으로 분포하는지 다릅니다.

따라서 데이터의 표준편차도 구하여야 합니다.

이때 데이터의 개수가 1일때는 0으로 반환합니다.

In [34]:
result_info = reserve_tb.groupby('hotel_id').agg({'total_price' : ['var', 'std']}).reset_index()
result_info.columns = ['hotel_id', 'price_var', 'price_std']
result_info

# 표본의 크기가 1개인 경우는 통계학적으로 의미가 없습니다.
# 그러나 한개일때는 result_info.fillna(0, inplace = 0) 으로 작성하시면 됩니다.

Unnamed: 0,hotel_id,price_var,price_std
0,h_1,3.186549e+09,56449.526127
1,h_10,8.258133e+08,28736.968061
2,h_100,3.198316e+08,17883.835689
3,h_101,2.402441e+09,49014.703676
4,h_102,3.576923e+08,18912.755159
...,...,...,...
295,h_95,3.313772e+10,182037.696857
296,h_96,3.159231e+08,17774.225072
297,h_97,5.474685e+09,73991.116584
298,h_98,3.432893e+09,58590.896578


최빈값을 간단히 설명하자면, 대충 차 가격을 물을경우 16,325,678원 이렇게 말하기보단 대충 1600만원 이렇게 적당한 범주형으로 변환하여 말합니다. 이를 데이터에도 적용하여 어느 범주의 값이 많이 나오는 지 볼 수 있습니다.

In [35]:
reserve_tb['total_price'].round(-3).mode()
# 전공자분에 의하면 보통 대부분의 경우는 잘 사용을 안한다고 하니 그냥 참고만 하시면 될 듯합니다.

0    10000
1    20000
2    40000
dtype: int64

# 순위계산
데이터를 처리하면서 순위를 계산해야할 일이 많습니다. 따라서 순위의 경우를 나누고, 어느 방식으로 순위를 계산하는 지 정리를 하려 합니다.

1. 시간 데이터에 번호 부여
날짜는 문자열 형태로 저장되어있습니다. 따라서 이를 문자형에서 timestamp형으로 변환해주어야 합니다.

In [37]:
reserve_tb['reserve_datetime'] = pd.to_datetime(
reserve_tb['reserve_datetime'], format='%Y-%m-%d %H:%M:%S')

reserve_tb['log_no'] = reserve_tb.groupby('customer_id')['reserve_datetime'].rank(ascending = True, method = 'first')
reserve_tb
# groupby로 customer_id로 묶인 DataFrame으로 묶여있는데,시간형태로 있는 reserve_datetime 열이 rank함수 ascending = True에 정렬되었습니다.
# log_no 와 예약시간 순서를 비교해보면 빠른 순으로 배열되었는 것을 볼 수 있습니다.

Unnamed: 0,reserve_id,hotel_id,customer_id,reserve_datetime,checkin_date,checkin_time,checkout_date,people_num,total_price,log_no
0,r1,h_75,c_1,2016-03-06 13:09:42,2016-03-26,10:00:00,2016-03-29,4,97200,1.0
1,r2,h_219,c_1,2016-07-16 23:39:55,2016-07-20,11:30:00,2016-07-21,2,20600,2.0
2,r3,h_179,c_1,2016-09-24 10:03:17,2016-10-19,09:00:00,2016-10-22,2,33600,3.0
3,r4,h_214,c_1,2017-03-08 03:20:10,2017-03-29,11:00:00,2017-03-30,4,194400,4.0
4,r5,h_16,c_1,2017-09-05 19:50:37,2017-09-22,10:30:00,2017-09-23,3,68100,5.0
...,...,...,...,...,...,...,...,...,...,...
4025,r4026,h_129,c_999,2017-06-27 23:00:02,2017-07-10,09:30:00,2017-07-11,2,16000,4.0
4026,r4027,h_97,c_999,2017-09-29 05:24:57,2017-10-09,10:30:00,2017-10-10,2,41800,5.0
4027,r4028,h_27,c_999,2018-03-14 05:01:45,2018-04-02,11:30:00,2018-04-04,2,74800,6.0
4028,r4029,h_48,c_1000,2016-04-16 15:20:17,2016-05-10,09:30:00,2016-05-13,4,540000,1.0


2. 랭킹
데이터를 처리할때 값들의 순위를 매기는 경우가 있습니다. 값이 중복되는 경우 똑같은 순위를 매깁니다.

In [38]:
rsv_cnt_tb = reserve_tb.groupby('hotel_id').size().reset_index()
rsv_cnt_tb.columns = ['hotel_id', 'rsv_cnt']
rsv_cnt_tb

Unnamed: 0,hotel_id,rsv_cnt
0,h_1,10
1,h_10,3
2,h_100,20
3,h_101,17
4,h_102,13
...,...,...
295,h_95,13
296,h_96,13
297,h_97,16
298,h_98,17


In [41]:
rsv_cnt_tb['rsv_cnt_rank'] = rsv_cnt_tb['rsv_cnt'].rank(ascending=False, method = 'min')
rsv_cnt_tb
# rsv_cnt 즉 예약 횟수로 순위를 매겼고, 코드상에서 ascending = False로 내림차순(높은 거 부터 낮은거)
# 순으로 배열하고, method = min을 통해 중복등수를 처리힙니다.
# 예를들어 method = min일 이고, 중복된 값들이 가질 수 있는 등수가 4,5등이면 4등을 반환합니다.
# 반대로 method = max 일 경우 5등을 반환합니다.

Unnamed: 0,hotel_id,rsv_cnt,rsv_cnt_rank
0,h_1,10,235.0
1,h_10,3,300.0
2,h_100,20,12.0
3,h_101,17,43.0
4,h_102,13,139.0
...,...,...,...
295,h_95,13,139.0
296,h_96,13,139.0
297,h_97,16,60.0
298,h_98,17,43.0


In [42]:
rsv_cnt_tb.drop('rsv_cnt', axis = 1, inplace=True)
rsv_cnt_tb

Unnamed: 0,hotel_id,rsv_cnt_rank
0,h_1,235.0
1,h_10,300.0
2,h_100,12.0
3,h_101,43.0
4,h_102,139.0
...,...,...
295,h_95,139.0
296,h_96,139.0
297,h_97,60.0
298,h_98,43.0
