# 0. 데이터에 대한 설명 (데이터 전처리 대전 by 모토하시 도모미쓰 활용)
호텔 예약 정보를 모아둔 데이터셋인, 예약 레코드 (reserve_tb), 호텔 마스터 (hotel_tb), 고객 마스터 (customer_tb)를 이용한다. 
hotel_tb와 reserve_tb는 hotel_id(호텔 ID)로 데이터를 결합할 수 있으며, customer_tb와 reserve_tb는 customer_id(고객 ID)로 데이터를 결합할 수 있다. 

# 1. 데이터 불러오기
#read_csv를 이용해 customer.csv파일을 DataFrame으로 불러오기
#가능하다면 encoding으로 읽어올 파일의 인코딩을 설정한다.

In [1]:
import pandas as pd
reserve_tb=pd.read_csv("preprocessing_data/reserve.csv", encoding='UTF-8')

# 2. 추출
### 2-1 데이터 열을 지정한 추출
고객을 분석할 때 고객명 데이터인 이름은 가치가 없다. 
(고유한 값이기 때문에 분석 상황에 도움이 되지 않고, 마스킹 되어 의미 없는 데이터가 되었을 수도 있기 떄문)
people_num과 total_price를 배제하고 필요한 열만 남겨둔다. 

In [2]:
reserve_tb[['reserve_id', 'hotel_id', 'customer_id', 'reserve_datetime', 'checkin_date', 'checkin_time', 'checkout_date']]

Unnamed: 0,reserve_id,hotel_id,customer_id,reserve_datetime,checkin_date,checkin_time,checkout_date
0,r1,h_75,c_1,2016-03-06 13:09:42,2016-03-26,10:00:00,2016-03-29
1,r2,h_219,c_1,2016-07-16 23:39:55,2016-07-20,11:30:00,2016-07-21
2,r3,h_179,c_1,2016-09-24 10:03:17,2016-10-19,09:00:00,2016-10-22
3,r4,h_214,c_1,2017-03-08 03:20:10,2017-03-29,11:00:00,2017-03-30
4,r5,h_16,c_1,2017-09-05 19:50:37,2017-09-22,10:30:00,2017-09-23
...,...,...,...,...,...,...,...
4025,r4026,h_129,c_999,2017-06-27 23:00:02,2017-07-10,09:30:00,2017-07-11
4026,r4027,h_97,c_999,2017-09-29 05:24:57,2017-10-09,10:30:00,2017-10-10
4027,r4028,h_27,c_999,2018-03-14 05:01:45,2018-04-02,11:30:00,2018-04-04
4028,r4029,h_48,c_1000,2016-04-16 15:20:17,2016-05-10,09:30:00,2016-05-13


열을 지정하는 방법은 다양하기 때문에 가독성 좋고 데이터 변경에도 강한 코드를 구현하려면 적절한 지정 방법을 선택하는 것이 중요하다. \
DataFrame은 행/열을 추출할 수 있는 세가지 함수 (loc, iloc, ix)를 제공한다. \
loc은 행/열 이름으로, iloc은 행/열 번호로 지정, ix는 이름과 번호 모두 지정할 수 있다.\
모든 행/열을 추출하려면 콜론(:)를 지정한다. \
ix는 편리해보이지만 이름과 번호 중 어느 조건으로 추출되었는지 알기 어려워서 가독성이 떨어진다. 

[방법1] \
reserve_tb.iloc[:, 0:6]

[방법2 - 추출할 열의 이름으로 지정하는 것이 가독성이 좋다. ] \
reserve_tb[['reserve_id', 'hotel_id', 'customer_id', 'reserve_datetime', 'checkin_date', 'checkin_time', 'checkout_date']] \
또는 \
reserve_tb.loc[:,['reserve_id', 'hotel_id', 'customer_id', 'reserve_datetime', 'checkin_date', 'checkin_time','checkout_date']]

[방법3 - 추출하지 않을 열을 제거] \
reserve_tb.drop(['people_num', 'total_price', axis=1, inplace=True]) \
#drop 함수는 지정한 행이나 열을 제거하는 함수이다. axis가 0이면 행을, 1이면 열을 제거한다. \
inplace는 False로 하면 함수의 반환값으로 제거된 DataFrame을 반환하지만, True로 지정하면 반환값 없이 DataFrame을 갱신한다. \
drop 함수는 추출된 열을 파악하기 힘들어 가독성이 떨어질 수 있으나, inplace 덕분에 복사 처리가 필요없고, 필요한 메모리도 줄여 처리 성능을 높인다. 

### 2-2 조건에 따른 데이터 행 추출
reserve_tb에서 checkin_date가 2016-10-12에서 2016-10-13까지인 행을 추출하라

In [3]:
reserve_tb.query('"2016-10-13" <= checkout_date <= "2016-10-14"')

Unnamed: 0,reserve_id,hotel_id,customer_id,reserve_datetime,checkin_date,checkin_time,checkout_date,people_num,total_price
284,r285,h_121,c_67,2016-09-27 06:13:19,2016-10-12,12:00:00,2016-10-14,4,184000
513,r514,h_74,c_120,2016-10-06 03:12:04,2016-10-11,12:30:00,2016-10-14,2,28800
1065,r1066,h_205,c_261,2016-09-14 02:57:59,2016-10-11,10:00:00,2016-10-14,4,85200
1480,r1481,h_116,c_364,2016-09-17 17:45:39,2016-10-11,11:30:00,2016-10-13,4,107200
1546,r1547,h_149,c_377,2016-09-27 08:19:24,2016-10-10,11:00:00,2016-10-13,2,153600
1709,r1710,h_59,c_422,2016-09-19 04:17:25,2016-10-10,12:00:00,2016-10-13,2,148800
1932,r1933,h_113,c_477,2016-09-24 09:04:26,2016-10-12,11:30:00,2016-10-13,4,77200
2058,r2059,h_9,c_517,2016-09-19 15:32:35,2016-10-11,12:30:00,2016-10-13,3,188400
2115,r2116,h_77,c_527,2016-10-05 00:44:09,2016-10-11,09:00:00,2016-10-13,4,353600
2170,r2171,h_177,c_540,2016-09-28 01:21:26,2016-10-11,10:00:00,2016-10-13,4,560800


[방법1] reserve_tb[(reserve_tb['checkout_date'] >= '2016_10-13') & (reserve_tb['checkout_date'] <= '2016-10-14')] \
또는 \
reserve_tb.loc[(reserve_tb['checkout_date'] >= '2016_10-13') & (reserve_tb['checkout_date'] <= '2016-10-14'), :]

True/Fasle 배열을 지정하고 행을 추출한 다음에 조건식을 &(and)나 | (or)로 연결한다. \
코드의 가독성이 낮고 DataFrame이나 Column 이름을 변경하면 많이 고쳐야 한다. (변경에 약하다)

[방법2] reserve_tb.query('"2016-10-13" <= checkout_date <= "2016-10-14"') \
query 함수를 이용하면 조건식을 문자열로 작성하여 조건에 맞는 데이터 행을 추출할 수 있다. 단 한 줄로 구현 가능 (갱신/대체는 아님)

### 2-3 데이터 값을 고려하지 않는 랜덤 샘플링
데이터를 분석할 때 추출할 데이터 수가 너무 많아 다루기 어려울 경우가 있다. 랜덤 샘플링으로 데이터 수를 줄일수 있다.
랜덤 샘플링으로 50%의 행을 추출하라.

In [4]:
reserve_tb.sample(frac=0.5)

Unnamed: 0,reserve_id,hotel_id,customer_id,reserve_datetime,checkin_date,checkin_time,checkout_date,people_num,total_price
2581,r2582,h_188,c_646,2017-05-22 07:06:48,2017-06-19,11:30:00,2017-06-21,3,355200
1412,r1413,h_268,c_343,2017-07-13 02:21:32,2017-07-21,10:30:00,2017-07-22,4,81600
107,r108,h_3,c_21,2017-05-14 13:38:33,2017-05-31,11:30:00,2017-06-02,1,82600
687,r688,h_178,c_168,2016-05-20 03:58:58,2016-05-25,11:00:00,2016-05-26,2,42000
1420,r1421,h_85,c_346,2016-07-24 23:30:08,2016-08-13,10:00:00,2016-08-14,1,21500
...,...,...,...,...,...,...,...,...,...
2405,r2406,h_60,c_602,2018-09-04 01:34:47,2018-09-22,12:30:00,2018-09-23,4,46800
1856,r1857,h_266,c_460,2016-01-27 13:54:20,2016-02-11,11:00:00,2016-02-13,1,23200
3362,r3363,h_283,c_840,2017-02-28 19:24:30,2017-03-12,10:30:00,2017-03-13,4,81200
3327,r3328,h_23,c_833,2016-09-28 08:22:57,2016-10-13,09:00:00,2016-10-14,4,260400


sample 함수는 행 단위 샘플링 함수이다. 매개변수 frac은 샘플링할 배율을 지정하여 샘플링하고, 매개변수 n은 샘플링할 건수를 지정한다. \
예시)reserve_tb.sample(n=100)은 100건을 샘플링

### 2-4 조건하의 샘플링 (집약 ID에 기반한 샘플링)
2-3에서 한 방법으로는 예약 인원수별 예약 건수 데이터 비율은 크게 바뀌지 않는다. 하지만 연간 예약 횟수별 고객 수의 비율은 크게 바뀐다. 전체적으로 연간 예약 횟수가 적은 사람의 비율이 증가하기 때문이다. \
reserve_tb의 custormer_id를 대상으로 랜덤 샘플링을 실행하고 샘플링한 customer_id의 예약 레코드만을 추출하라

In [5]:
target = pd.Series(reserve_tb['customer_id'].unique()).sample(frac=0.5)
reserve_tb[reserve_tb['customer_id'].isin(target)]

Unnamed: 0,reserve_id,hotel_id,customer_id,reserve_datetime,checkin_date,checkin_time,checkout_date,people_num,total_price
8,r9,h_217,c_2,2016-03-05 13:31:06,2016-03-25,09:30:00,2016-03-27,3,68400
9,r10,h_240,c_2,2016-06-25 09:12:22,2016-07-14,11:00:00,2016-07-17,4,320400
10,r11,h_183,c_2,2016-11-19 12:49:10,2016-12-08,11:00:00,2016-12-11,1,29700
11,r12,h_268,c_2,2017-05-24 10:06:21,2017-06-20,09:00:00,2017-06-21,4,81600
12,r13,h_223,c_2,2017-10-19 03:03:30,2017-10-21,09:30:00,2017-10-23,1,137000
...,...,...,...,...,...,...,...,...,...
4017,r4018,h_204,c_996,2017-08-20 17:56:37,2017-09-06,12:30:00,2017-09-07,2,24200
4018,r4019,h_224,c_996,2017-12-10 19:39:53,2017-12-20,11:30:00,2017-12-23,3,36000
4019,r4020,h_243,c_996,2018-04-22 20:41:29,2018-05-21,12:00:00,2018-05-22,2,55400
4020,r4021,h_159,c_997,2016-01-08 20:30:10,2016-01-09,12:00:00,2016-01-11,2,258800


unique 함수를 사용하면 중복값을 제거한 pandas.Series를 얻을 수 있다.
isin 함수를 이용하면 매개변수로 전달한 리스트의 값 중 일치하는 열의 값만을 추출할 수 있다. 

# 3 집약
### 3-1 데이터와 종류의 개수 산출
호텔 별 예약 건수와 고객 수를 계산하라

In [6]:
cnt_result = reserve_tb \
        .groupby('hotel_id') \
        .agg({'reserve_id': 'count', 'customer_id': 'nunique'})
cnt_result.reset_index(inplace=True)
cnt_result.columns = ['hotel_id', 'rsv_cnt', 'cus_cnt']
cnt_result

Unnamed: 0,hotel_id,rsv_cnt,cus_cnt
0,h_1,10,10
1,h_10,3,3
2,h_100,20,19
3,h_101,17,17
4,h_102,13,13
...,...,...,...
295,h_95,13,13
296,h_96,13,13
297,h_97,16,16
298,h_98,17,16


[방법1]
#호텔 별 예약 건수 \
rsv_cnt_tb = reserve_tb.groupby('hotel_id').size().reset_index() \
rsv_cnt_tb.columns = ['hotel_id', 'rsv_cnt'] 

groupby함수에 hotel_id를 지정해 호텔 단위로 예약 레코드를 묶는다 \
size 함수로 예약 건수를 계산한다. \
reset_index 함수로 새로운 행 이름을 현재 행 번호로 고친다.\
columns를 설정하여 집약 결과의 열 이름을 설정한다.

#호텔 별 고객 수 \
reserve_tb.groupby('hotel_id')['customer_id'].nunique().reset_index()\
cus_cnt_tb.columns = ['hotel_id', 'cus_cnt']

nunique 함수로 고객 수의 유일한 값을 계산한다.

#두 DataFrame을 결합 \
pd.merge(rsv_cnt_tb, cus_cnt_tb, on='hotel_id')

이 코드는 같은 집약 단위의 처리를 따로 실행하므로 불필요한 계산 처리가 발생한다. 또한 집계 결과를 묶기 위해 시간과 용량을 많이 차지한다. 

[방법2] \
result = reserve_tb.groupby('hotel_id').agg({'reserve_id'; 'count', 'customer_id': 'nunique'})\
result.reset_index(inplace=True) \
result.columns = ['hotel_id', 'rsv_cnt', 'cus_cnt']

agg함수를 이용하여 집약 처리를 한꺼번에 실행할수 있다.

### 3-2 합곗값 계산
reserve_tb에서 호텔별로 숙박 예약 인원ㅇ 수에 따른 매출 금액 합을 산출하라

In [7]:
sum_result = reserve_tb.groupby(['hotel_id', 'people_num'])['total_price'].sum().reset_index()
sum_result.rename(columns={"total_price": 'price_sum'}, inplace=True)
sum_result

Unnamed: 0,hotel_id,people_num,price_sum
0,h_1,1,156600
1,h_1,2,156600
2,h_1,3,391500
3,h_1,4,417600
4,h_10,1,11200
...,...,...,...
1154,h_98,3,793800
1155,h_98,4,453600
1156,h_99,1,179200
1157,h_99,2,448000


rename 함수로 열 이름을 변경할 때 columns의 매개변수에 dictionary 오브젝트를 사용하여 key에 변경 전 열 이름을, value에 변경 후의 이름을 지정한다. 

### 3-3 대표값 산출
reserve_tb에서 호텔별 예약 금액의 최댓값, 최솟값, 평균값, 중앙값, 20백분위 값을 산출하라

In [8]:
import numpy as np
summary_result = reserve_tb.groupby('hotel_id') \
                .agg({'total_price': ['max', 'min', 'mean', 'median', lambda x: np.percentile(x, q=20)]}).reset_index()
summary_result.columns = ['hotel_id', 'price_max', 'price_min', 'price_mean', 'price_median', 'price_20per']

agg 함수에서는 백분위 값의 집계 처리를 문자열로 지정할 수 없으므로 람다식을 이용하여 지정한다. \
집약 처리 함수 람다식이란 lambda x:를 기술한 후 x를 처리하는 함수를 작성하는 방식이다. 

### 3-4 분포 계산
reserve_tb에서 각 호텔 예약 금액의 분산과 표준편차를 구하여라. 단, 예약이 한건 뿐이면 분산과 표준편차를 0으로 한다. 

In [9]:
#toatl_price를 var함수와 std함수에 적용하여 분산과 표준편차를 계산한다.
var_result = reserve_tb.groupby('hotel_id').agg({'total_price': ['var', 'std']}).reset_index()
var_result.columns = ['hotel_id', 'price_var', 'prive_std']

#데이터가 한건이면, 분산과 표준편차가 NA가 되므로 0으로 변환한다. 
var_result.fillna(0, inplace=True)

### 3-5 순위 계산
1) reserve_tb를 이용하여 고객별 예약 시간에 따른 순위를 매겨라 \
2) reserve_tb를 이용하여 호텔별 예약 건수에 따른 순위를 매겨라

In [12]:
#1) 시간에 따른 순위
#rank함수로 정렬하기 위해 자료형을 문자열에서 timestamp형으로 변홚나다.
reserve_tb['reserve_datetime'] = pd.to_datetime(
    reserve_tb['reserve_datetime'], format = '%Y-%m-%d %H:%M:%S'
)

#log_no를 새로운 열로 추가한다
#고객별로 묶은 reserve_datetime을 생성하여 rank 함수로 순위를 계산한다.
reserve_tb['log_no'] = reserve_tb.groupby('customer_id')['reserve_datetime'] \
    .rank(ascending=True, method='first')
reserve_tb

Unnamed: 0,reserve_id,hotel_id,customer_id,reserve_datetime,checkin_date,checkin_time,checkout_date,people_num,total_price,log_no
0,r1,h_75,c_1,2016-03-06 13:09:42,2016-03-26,10:00:00,2016-03-29,4,97200,1.0
1,r2,h_219,c_1,2016-07-16 23:39:55,2016-07-20,11:30:00,2016-07-21,2,20600,2.0
2,r3,h_179,c_1,2016-09-24 10:03:17,2016-10-19,09:00:00,2016-10-22,2,33600,3.0
3,r4,h_214,c_1,2017-03-08 03:20:10,2017-03-29,11:00:00,2017-03-30,4,194400,4.0
4,r5,h_16,c_1,2017-09-05 19:50:37,2017-09-22,10:30:00,2017-09-23,3,68100,5.0
...,...,...,...,...,...,...,...,...,...,...
4025,r4026,h_129,c_999,2017-06-27 23:00:02,2017-07-10,09:30:00,2017-07-11,2,16000,4.0
4026,r4027,h_97,c_999,2017-09-29 05:24:57,2017-10-09,10:30:00,2017-10-10,2,41800,5.0
4027,r4028,h_27,c_999,2018-03-14 05:01:45,2018-04-02,11:30:00,2018-04-04,2,74800,6.0
4028,r4029,h_48,c_1000,2016-04-16 15:20:17,2016-05-10,09:30:00,2016-05-13,4,540000,1.0


In [18]:
# 2) 예약 건수에 따른 순위
#예약 횟수를 계산한다
rsv_cnt_tb = reserve_tb.groupby('hotel_id').size().reset_index()
rsv_cnt_tb.columns = ['hotel_id', 'rsv_cnt']

#예약 횟수를 기준으로 순위를 계산한다
#method를 min으로 지정하여 값이 같은 경우에는 최소 순위를 지정한다.
rsv_cnt_tb['rsv_cnt_rank'] = rsv_cnt_tb['rsv_cnt'].rank(ascending=False, method = 'min')
rsv_cnt_tb

#drop을 통해서 불필요한 rsv_cnt 열을 제거 할수도 있다.

Unnamed: 0,hotel_id,rsv_cnt,rsv_cnt_rank
0,h_1,10,235.0
1,h_10,3,300.0
2,h_100,20,12.0
3,h_101,17,43.0
4,h_102,13,139.0
...,...,...,...
295,h_95,13,139.0
296,h_96,13,139.0
297,h_97,16,60.0
298,h_98,17,43.0


# 4 결합
### 4.1 마스터 테이블에서 정보 얻기
마스터 테이블은 마스터 데이터를 모아둔 테이블을 말하며, 마스터 데이터는 특정 요소에 대한 고옹의 데이터를 모아둔 데이터를 의미한다. \
마스터 테이블의 결합 처리와 동시에 조건을 지정하여 원하는 데이터를 추출해야 하는 상황이 자주 있다.

reserve_tb 와 hotel_tb를 결합해 숙박 인원수가 한명인 비지니스 호텔의 예약 레코드를 추출하라

In [19]:
## 데이터 불러오기
reserve_tb = pd.read_csv("preprocessing_data/reserve.csv", encoding='UTF-8')
hotel_tb = pd.read_csv("preprocessing_data/hotel.csv", encoding='UTF-8')

In [21]:
pd.merge(reserve_tb.query('people_num ==1'), hotel_tb.query('is_business'), on='hotel_id', how='inner')

Unnamed: 0,reserve_id,hotel_id,customer_id,reserve_datetime,checkin_date,checkin_time,checkout_date,people_num,total_price,base_price,big_area_name,small_area_name,hotel_latitude,hotel_longitude,is_business
0,r7,h_256,c_1,2017-12-29 10:38:36,2018-01-25,10:30:00,2018-01-28,1,103500,34500,C,C-1,38.237294,140.696131,True
1,r997,h_256,c_244,2016-10-15 22:47:40,2016-10-31,10:30:00,2016-11-02,1,69000,34500,C,C-1,38.237294,140.696131,True
2,r2602,h_256,c_650,2016-05-10 00:42:56,2016-05-12,11:00:00,2016-05-14,1,69000,34500,C,C-1,38.237294,140.696131,True
3,r3738,h_256,c_930,2017-04-12 09:53:00,2017-05-08,11:30:00,2017-05-09,1,34500,34500,C,C-1,38.237294,140.696131,True
4,r11,h_183,c_2,2016-11-19 12:49:10,2016-12-08,11:00:00,2016-12-11,1,29700,9900,G,G-4,33.595248,130.633567,True
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
441,r2766,h_56,c_698,2017-04-08 16:41:45,2017-05-03,12:30:00,2017-05-06,1,95700,31900,C,C-3,38.435640,140.898354,True
442,r2983,h_56,c_753,2016-06-18 23:17:50,2016-07-13,10:00:00,2016-07-14,1,31900,31900,C,C-3,38.435640,140.898354,True
443,r2839,h_231,c_715,2016-04-06 02:51:01,2016-04-08,09:00:00,2016-04-10,1,29200,14600,A,A-3,35.914151,139.837520,True
444,r3476,h_43,c_866,2016-09-17 21:09:02,2016-10-03,09:30:00,2016-10-04,1,18100,18100,B,B-1,35.437093,139.799077,True


pd.merge(reserve_tb, hotel_tb, on='hotel_id', how='inner').query('people_num ==1 & is_business')

다음과 같이 내부 결합한 다음 조건에 따른 데이터를 추출하는 방법도 가능하다.\
하지만 python의 merge 함수는 중간 데이터가 커지거나 처리가 느려지는 등의 단점이 있기 떄문에 주의해야 한다. 불필요한 데이터까지 결합 처리의 대상이 되므로 시간과 용량이 낭비될수 있다. 

### 4.2 조건에 따라 결합할 마스터 테이블 변경하기
hotel_tb에 있는 모든 호텔에 대하여 같은 지역에 있는 추천 후보 호텔을 연겨한 데이터를 작성하라.\
같은 소규모 지역 단위 (small_area_name)에 추천 후보 수가 20건 이상이면 같은 소규모 지역 단위의 호텔을 후보로 하고, 같은 소규모 지역 단위의 호텔 건수가 20건 미만이면 같은 대규모 지역 단위 (big_area_name)의 호텔을 추천 후보로 한다 


In [26]:
# samll_area_name 별로 호텔 수를 계산한다
small_area_mst = hotel_tb.groupby(['big_area_name', 'small_area_name'], as_index=False).size().reset_index()
small_area_mst.columns =['big_area_name', 'small_area_name', 'hotel_cnt']

#20건 이상이면 join_area_id를 small_area_name으로서 지정한다.
#20건 미만이면 join_area_id를 big_area_name으로서 지정한다.
small_area_mst['join_area_id']= \
    np.where(small_area_mst['hotel_cnt']-1 >= 20,
             small_area_mst['small_area_name'],
             small_area_mst['big_area_name'])

#필요없는 열을 제거한다
small_area_mst.drop(['hotel_cnt', 'big_area_name'], axis=1, inplace = True)

#추천 전 호텔에 small_area_mst를 결합하여 join_area_id를 설정한다
base_hotel_mst = pd.merge(hotel_tb, small_area_mst, on='small_area_name').loc[:, ['hotel_id', 'join_area_id']]

#recommend_hotel_mst는 추천 후보 테이블
recommend_hotel_mst = pd.concat([
    #join _area_id를 big_area_name으로 한 추천 후보 마스터
    hotel_tb[['small_area_name', 'hotel_id']].rename(columns={'small_area_name': 'join_area_id'}, inplace=False),
    #join_area_id를 small_area_name으로 한 추천 후보 마스터
    hotel_tb[['big_area_name', 'hotel_id']].rename(columns={'big_area_name': 'join_area_id'}, inplace=False)
])

#결합할 때 hotel_id 열 이름이 중복되므로 변경한다. 
recommend_hotel_mst.rename(columns={'hotel_id': 'rec_hotel_id'}, inplace=True)

#base_hotel_mst와 recommend_hotel_mst를 결합하여 추천 후보의 정보를 부여한다.
#query 함수로 추천 후보에서 자신을 제외한다.
pd.merge(base_hotel_mst, recommend_hotel_mst, on='join_area_id') \
    .loc[:, ['hotel_id', 'rec_hotel_id']] \
    .query('hotel_id != rec_hotel_id')




Unnamed: 0,hotel_id,rec_hotel_id
1,h_1,h_14
2,h_1,h_22
3,h_1,h_27
4,h_1,h_40
5,h_1,h_45
...,...,...
9659,h_220,h_226
9660,h_220,h_249
9661,h_220,h_271
9662,h_220,h_281


# 5 분할
### 5_1 모델 검증을 위한 데이터 레코드 분할 
교차 검증 (cross validation)은 데이터를 몇개의 데이터로 나누어 그중 하나의 데이터는 평가용 데이터로, 나머지 데이터는 모델 핛브을 실행한다. 모든 데이터가 한번씩 평가용 데이터로 이용되도록 나눠진 수만큼 반복해서 정확도를 측정하여 모델을 평가한다. \
이렇게 교차 검정은 overfitting의 영향을 배제하여 예측 모델의 정확도를 측정할 수 있는 바업이지만, 교차 검증 모델의 정확도를 올리기 위한 튜닝을 계속하면 교차 검증의 대상 문제에 대해 overfitting 상태에 가까워질수도 있다. (극단적인 overfitting은 아니어도) \
이를 해결하기 위해 교차 검증용 데이터와는 별개로 최종 정확도 검증을 위한 데이터를 미리 준비해두고, 이 데이터를 사용하여 모델의 정확도를 검증하는 홀드아웃 검증 (hold-out validation)을 사용하기도 한다. 

In [33]:
#데이터 불러오기
production_tb = pd.read_csv("preprocessing_data/production.csv", encoding='UTF-8')

Unnamed: 0,type,length,thickness,fault_flg
0,E,274.027383,40.241131,False
1,D,86.319269,16.906715,False
2,E,123.940388,1.018462,False
3,B,175.554886,16.414924,False
4,B,244.934740,29.061081,False
...,...,...,...,...
995,C,363.214163,48.369483,False
996,D,134.773797,26.861665,False
997,B,231.174985,7.087471,False
998,D,81.613510,5.716271,False


production_tb를사용하여 예측 모델 구축을 위해 데이터를 분할하여라. \
데이터의 20%를 홀드아웃 검증을 위한 데이터로 확보하고, 남은 데이터로 교차수 4의 교차 검증을 실행하라. 

In [31]:
from sklearn.model_selection import train_test_split
from sklearn.model_selection import KFold

In [41]:
#홀드아웃 검증을 위한 데이터를 분할한다
train_data, test_data, train_target, test_target = \
    train_test_split(production_tb.drop('fault_flg', axis=1),
                    production_tb[['fault_flg']],
                    test_size =0.2)

train_data.reset_index(inplace=True, drop=True)
test_data.reset_index(inplace=True, drop=True)
train_target.reset_index(inplace=True, drop=True)
test_target.reset_index(inplace=True, drop=True)

#대상 행 번호 리스트 생성
row_no_list = list(range(len(train_target)))

#교차 검증을 위한 데이터로 분할
k_fold = KFold(n_splits=4, shuffle=True)

#교차수만큼 반복 처리한다.
for trian_cv_no, test_cv_no in k_fold.split(row_no_list):
    #교차 검증에 사용할 학습 데이터를 추출한다
    train_cv = train_data.iloc[train_cv_no, :]
    #교차 검증에 사용할 검증 데이터를 추출한다
    test_cv = train_data.iloc[test_cv_no, :]
    
    #train_data와 train_target을 학습데이터로, test_data와 test_target을 검증 데이터로 머신러닝 모델을 구축하고 검증한다
