# 7장. 전개
데이터가 레코드 형식일 때를 세로 데이터, 데이터가 표 형식일 때를 가로 데이터라고 한다.

## 7.1 가로 데이터로 변환
예약 테이블에서 고객 수 및 투숙객 수에 따른 예약 건수를 세서 <br>
행을 고객 ID, 열을 투숙객 수, 값을 예약 건수인 표로 변환해보자.

In [2]:
import pandas as pd
import numpy as np

In [3]:
reserve_tb=pd.read_csv('./data/reserve.csv',encoding='UTF-8')
reserve_tb.head()

Unnamed: 0,reserve_id,hotel_id,customer_id,reserve_datetime,checkin_date,checkin_time,checkout_date,people_num,total_price
0,r1,h_75,c_1,2016-03-06 13:09:42,2016-03-26,10:00:00,2016-03-29,4,97200
1,r2,h_219,c_1,2016-07-16 23:39:55,2016-07-20,11:30:00,2016-07-21,2,20600
2,r3,h_179,c_1,2016-09-24 10:03:17,2016-10-19,09:00:00,2016-10-22,2,33600
3,r4,h_214,c_1,2017-03-08 03:20:10,2017-03-29,11:00:00,2017-03-30,4,194400
4,r5,h_16,c_1,2017-09-05 19:50:37,2017-09-22,10:30:00,2017-09-23,3,68100


In [11]:
# pivot_table함수로 가로 데이터로의 변환과 집약 처리를 동시에 실행한다.
# aggfunc에 예약 건수를 카운팅하기 위한 함수를 지정한다.

pd.pivot_table(reserve_tb, index='customer_id', columns='people_num', values='reserve_id', aggfunc=lambda x: len(x), fill_value=0).head(10)

people_num,1,2,3,4
customer_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
c_1,2,2,2,2
c_10,0,2,2,2
c_100,2,1,2,0
c_1000,1,0,0,1
c_101,2,1,1,1
c_102,0,1,0,0
c_103,3,1,2,2
c_104,0,0,1,1
c_105,0,1,1,0
c_106,2,1,2,0


In [19]:
# groupby로 할 경우와 비교
pd.DataFrame(reserve_tb.groupby(['customer_id','people_num'])['reserve_id'].count())

Unnamed: 0_level_0,Unnamed: 1_level_0,reserve_id
customer_id,people_num,Unnamed: 2_level_1
c_1,1,2
c_1,2,2
c_1,3,2
c_1,4,2
c_10,2,2
c_10,3,2
c_10,4,2
c_100,1,2
c_100,2,1
c_100,3,2


* values 매개변수에 지정된 열값을 데이터 요소의 값으로 변환할 때 사용할 함수를 aggfunc 매개변수에 지정할 수 있음.
* fill_values 매개변수에 값을 설정하면 해당 열에 값이 없는 데이터 요소의 값을 지정할 수 있다.

-----------
## 7.2 희소 행렬로의 변환
데이터 특성에 따라서 가로 데이터로 변환하면 데이터 크기가 커지는 경우가 있는 경우는 변환할 때 희소행렬이 되는 경우이다.<br>
희소행렬 (sparse matrix)은 대부분 요소의 값이 0이고 극히 일부만 값을 가지는 거대한 행렬을 말한다.



In [7]:
reserve_tb.head(15)

Unnamed: 0,reserve_id,hotel_id,customer_id,reserve_datetime,checkin_date,checkin_time,checkout_date,people_num,total_price
0,r1,h_75,c_1,2016-03-06 13:09:42,2016-03-26,10:00:00,2016-03-29,4,97200
1,r2,h_219,c_1,2016-07-16 23:39:55,2016-07-20,11:30:00,2016-07-21,2,20600
2,r3,h_179,c_1,2016-09-24 10:03:17,2016-10-19,09:00:00,2016-10-22,2,33600
3,r4,h_214,c_1,2017-03-08 03:20:10,2017-03-29,11:00:00,2017-03-30,4,194400
4,r5,h_16,c_1,2017-09-05 19:50:37,2017-09-22,10:30:00,2017-09-23,3,68100
5,r6,h_241,c_1,2017-11-27 18:47:05,2017-12-04,12:00:00,2017-12-06,3,36000
6,r7,h_256,c_1,2017-12-29 10:38:36,2018-01-25,10:30:00,2018-01-28,1,103500
7,r8,h_241,c_1,2018-05-26 08:42:51,2018-06-08,10:00:00,2018-06-09,1,6000
8,r9,h_217,c_2,2016-03-05 13:31:06,2016-03-25,09:30:00,2016-03-27,3,68400
9,r10,h_240,c_2,2016-06-25 09:12:22,2016-07-14,11:00:00,2016-07-17,4,320400


In [1]:
from scipy.sparse import csc_matrix

In [13]:
# 고객 ID/투숙객 수별 예약 건수의 표를 생성한다.
cnt_tb=reserve_tb.groupby(['customer_id','people_num'])['reserve_id'].size().reset_index()
cnt_tb.columns=['customer_id','people_num','rsv_cnt']
cnt_tb.head(10)

Unnamed: 0,customer_id,people_num,rsv_cnt
0,c_1,1,2
1,c_1,2,2
2,c_1,3,2
3,c_1,4,2
4,c_10,2,2
5,c_10,3,2
6,c_10,4,2
7,c_100,1,2
8,c_100,2,1
9,c_100,3,2


In [11]:
# sparseMatrix의 행과 열에 해당하는 열의 값을 범주형으로 변환한다.
customer_id=pd.Categorical(cnt_tb['customer_id'])
people_num=pd.Categorical(cnt_tb['people_num'])

In [14]:
# 첫 번째 매개변수에는 지정한 행렬에 해당하는 값, 행 번호, 열 번호의 배열을 묶은 튜플을 지정한다.
# shape에는 희소 행렬의 크기를 지정한다.


In [15]:
csc_matrix((cnt_tb['rsv_cnt'], (customer_id.codes, people_num.codes)),
          shape=(len(customer_id.categories), len(people_num.categories)))

<888x4 sparse matrix of type '<class 'numpy.int64'>'
	with 2366 stored elements in Compressed Sparse Column format>

In [16]:
customer_id.codes

array([  0,   0,   0, ..., 887, 887, 887], dtype=int16)

In [17]:
people_num.codes

array([0, 1, 2, ..., 1, 2, 3], dtype=int8)

In [19]:
len(customer_id.categories)

888

In [20]:
len(people_num.categories)

4