# 5. 머신러닝 프로세스2 - 데이터셋 분할과 모델검증

모델을 검증하는 방법에 대해서는 다양한 방법을 알아두는 것이 좋습니다. 그럼에도 **train dataset 과 test dataset 을 구분하여 진행하는 것은 가장 일반적인 방법**입니다.또 딥러닝에서는 train dataset 을 (훈련용), (검증용) 두가지로 분리하여 훈련과 검증을 서로 비교한 후 test data 로 일반화를 파악하는 train-valid-test 데이터셋 구성을 사용하기도 합니다. (GAN:강화학습)

## 5.1 특성치(X), 레이블(y) 나누기

In [44]:
# 데이터셋 불어오기 및 확인
import warnings
warnings.filterwarnings("ignore")

import pandas as pd
data = pd.read_csv('./extrafiles/Fvote.csv', encoding='utf=8')
data.head()

Unnamed: 0,gender_female,gender_male,region_Chungcheung,region_Honam,region_Others,region_Sudo,region_Youngnam,edu,income,age,score_gov,score_progress,score_intention,vote,parties
0,0,1,0,0,0,0,1,3,3,3,2,2,4.0,1,2
1,0,1,0,0,1,0,0,2,3,3,2,4,3.0,0,3
2,0,1,0,1,0,0,0,1,2,4,1,3,2.8,1,4
3,1,0,0,0,0,1,0,2,1,3,5,4,2.6,1,1
4,0,1,0,0,0,1,0,1,2,4,4,3,2.4,1,1


In [51]:
# 특성변수(독립변수) 와 레이블(종속변수) 데이터셋 분리
print(data.columns)

# 방법 1 : 이름으로 분리
X = data[['gender_female', 'gender_male', 'region_Chungcheung', 'region_Honam',
       'region_Others', 'region_Sudo', 'region_Youngnam', 'edu', 'income',
       'age', 'score_gov', 'score_progress', 'score_intention']]

# 방법 2 : 인덱스로 분리
X = data[data.columns[1:14]]


# 방법 3 : loc 함수로 분리
X = data.loc[:, 'gender_female':'score_intention']

# 종속변수 분리
y = data[['vote']]

Index(['gender_female', 'gender_male', 'region_Chungcheung', 'region_Honam',
       'region_Others', 'region_Sudo', 'region_Youngnam', 'edu', 'income',
       'age', 'score_gov', 'score_progress', 'score_intention', 'vote',
       'parties'],
      dtype='object')


## 5.2 train-test 데이터셋 나누기

In [52]:
# 학습용 데이터와 테스트 데이터의 분리작업
# stratify 는 범주형 자료의 분포 균형을 맞추어 주는 옵션이다.
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, stratify=y, random_state=42) 

print(X_train.shape)
print(X_test.shape)

print(X_train['gender_male'].mean())
print(X_test['gender_male'].mean())

(158, 13)
(53, 13)
0.6772151898734177
0.6037735849056604


## 5.3 모델적용

In [53]:
# LogisticRegression 알고리즘의 적용
from sklearn.linear_model import LogisticRegression
model = LogisticRegression()

### 가. 랜덤 없는 교차 검증 : cross_val_score
- **교차검증** : 훈련용 데이터를 n 등분한후 n-1 개만을 훈련용 데이터로 생성하여 훈련을 시킵니다. 이후 제외되었던 데이터셋을 포함 한 후 n-1 개의 데이터셋으로 다시한번 훈련을 반복하여 총 n 번 반복하는 훈련을 교차 검증(cross validation)이라고 합니다. (K-FOLD 교차검증)


In [54]:
# 적용할 알고리즘 모델과 X, y 값 그리고 반복 횟수 cv 를 지정하여 교차검증 실행
from sklearn.model_selection import cross_val_score
scores = cross_val_score(model, X_train, y_train, cv=5)
print("5개 테스트 셋 정확도 :" ,  scores)
print("정확도 평균 : ", scores.mean())

5개 테스트 셋 정확도 : [0.71875    0.6875     0.8125     0.58064516 0.80645161]
정확도 평균 :  0.7211693548387096


### 나. 랜덤 있는 교차 검증 : K-Fold

앞서 적용한 cross_val_score 의 경우 데이터의 순서를 유지한채 n 개의 데이터셋으로 분할하여 검증을 수행합니다. 하지만 **만약 분석하고자 하는 대상이 순서에 편향이 있다면 해당 방식은 문제**가 됩니다. 따라서 <u>훈련데이터에서 그룹을 나눌 때 무작위 추출을 이용하는 방법이 K-Fold 교차검증에서 shuffle=True 형식으로 교차검증을 수행</u>하는 것입니다.

In [55]:
from sklearn.model_selection import KFold
kfold = KFold(n_splits=5, shuffle=True, random_state=42)
scores = cross_val_score(model, X_train, y_train,cv=kfold)
print("5개 폴드의 정확도 : ", scores)

5개 폴드의 정확도 :  [0.71875    0.6875     0.625      0.70967742 0.77419355]


### 다. 임의분할 교차검증

다른 **교차검증에 사용되었던 데이터도 랜덤으로 선택되게 하는 방법**이다. 따라서 <u>전체 데이터중 일부는 훈련 데이터 또는 테스트 데이터 어느쪽에도 속하지 않는 데이터가 발생 할 수도 있다.</u>


## 5.4 train-validity-test 분할과 교차검증

이번에는 train data 와 test data 외 valid data 도 나누어 보겠습니다. 방법은 이전과 동일하게 **train data 와 test 데이터를 분리한 후 train data 를 다시금 train data 와 valid data 로 나누어 사용**하는 것입니다. 

In [56]:
# train-validity-test 분할
from sklearn.model_selection import train_test_split
X_train_val, X_test, y_train_val, y_test = train_test_split(X, y, random_state=1)
X_train, X_valid, y_train, y_valid = train_test_split(X_train_val, y_train_val, random_state=2)

In [58]:
# 모델을 훈련 시킨다.
model.fit(X_train, y_train)
scores = cross_val_score(model, X_train, y_train, cv=5)
print("교차 검증 정확도 : ", scores)
print("정확도 평균 : ", scores.mean())

교차 검증 정확도 :  [0.58333333 0.66666667 0.70833333 0.65217391 0.65217391]
정확도 평균 :  0.652536231884058


In [59]:
# 검증 데이터
model.score(X_valid, y_valid)

0.65

In [60]:
# 테스트 데이터
model.score(X_test, y_test)

0.6981132075471698

65% 수준으로 매우 만족스러운 예측 정확도는 아니지만 과대 적합의 가능성을 교차검증을 통해 예방하였음을 확인하였습니다.

- 일반예측 : fit -> predict (예측 점수)  
- 교차검증예측 : fit -> cross_val_score (cross validation score : 교차검증한 예측 점수)  