# 과적합, 분산 편향 트레이드오프, 교차 검증

In [1]:
#필요한 라이브러리 임포트

import numpy as np
import pandas as pd

# 교차검증

## 1. 사이킷런의 model_selection의 KFold()를 사용하는 경우(For loop 사용)

#### 폴드를 분리할 객체 생성

In [2]:
from sklearn.model_selection import KFold

kfold = KFold(5)

#### 데이터를 준비하고 회귀 모형 객체를 생성

In [3]:
from sklearn.datasets import load_diabetes
from sklearn.linear_model import LinearRegression

diab = load_diabetes()
X = diab.data
y = diab.target

lr = LinearRegression()

#### split()함수를 호출하여 폴드별로 분리될 행 인덱스 세트를 구함

In [8]:
list(kfold.split(X))

[(array([ 89,  90,  91,  92,  93,  94,  95,  96,  97,  98,  99, 100, 101,
         102, 103, 104, 105, 106, 107, 108, 109, 110, 111, 112, 113, 114,
         115, 116, 117, 118, 119, 120, 121, 122, 123, 124, 125, 126, 127,
         128, 129, 130, 131, 132, 133, 134, 135, 136, 137, 138, 139, 140,
         141, 142, 143, 144, 145, 146, 147, 148, 149, 150, 151, 152, 153,
         154, 155, 156, 157, 158, 159, 160, 161, 162, 163, 164, 165, 166,
         167, 168, 169, 170, 171, 172, 173, 174, 175, 176, 177, 178, 179,
         180, 181, 182, 183, 184, 185, 186, 187, 188, 189, 190, 191, 192,
         193, 194, 195, 196, 197, 198, 199, 200, 201, 202, 203, 204, 205,
         206, 207, 208, 209, 210, 211, 212, 213, 214, 215, 216, 217, 218,
         219, 220, 221, 222, 223, 224, 225, 226, 227, 228, 229, 230, 231,
         232, 233, 234, 235, 236, 237, 238, 239, 240, 241, 242, 243, 244,
         245, 246, 247, 248, 249, 250, 251, 252, 253, 254, 255, 256, 257,
         258, 259, 260, 261, 262, 263,

In [6]:
from sklearn.metrics import r2_score

r2_scores=[]

for train_idx, test_idx in kfold.split(X): 
    X_train,X_test=X[train_idx], X[test_idx] # train, test 각각 가져옴
    y_train,y_test=y[train_idx], y[test_idx] # train, test 각각 가져옴
    # 학습
    reg=lr.fit(X_train,y_train)
    # 예측값 만들기
    y_pred=reg.predict(X_test)
    # 성능평가함수
    r2_scores.append(r2_score(y_test,y_pred))

In [10]:
import numpy as np

for i, r2 in enumerate(r2_scores):
    print(i, ': R2 - {:.3f}'.format(r2))
print('Average R2 :',np.round(np.mean(r2_scores),3))

0 : R2 - 0.430
1 : R2 - 0.523
2 : R2 - 0.483
3 : R2 - 0.427
4 : R2 - 0.550
Average R2 : 0.482


## 2. 사이킷런의 cross_val_score 함수를 사용하여 K폴드 교차 검증 수행 without shuffling:
- for loop 필요 없음

In [13]:
from sklearn.datasets import load_diabetes
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import cross_val_score

diab = load_diabetes()
X = diab.data
y = diab.target

lr = LinearRegression()

r2_scores = cross_val_score(lr,X,y,cv=5) # 학습하고 점수평가까지 한번에 다 해줌, kfold와 달리 셔플링을 하지 않고, 훈련 세트 전체를 함수로 전달

print('R2 :',np.round(r2_scores,3))
print('Average R2 :', np.round(np.mean(r2_scores),3))

R2 : [0.43  0.523 0.483 0.427 0.55 ]
Average R2 : 0.482


## 3. 사이킷런의 cross_val_score 함수를 사용하여 K폴드 교차 검증 수행 with shuffling

In [16]:
from sklearn.datasets import load_diabetes
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score

diab = load_diabetes()
X = diab.data
y = diab.target

lr = LinearRegression()

kfold = KFold(5, shuffle=True, random_state=0) # 폴드 객체 생성시 폴드 분리 방법 지정
r2_scores = cross_val_score(lr,X,y,cv=kfold) # cross_val에서는 shuffling 불가
print('R2 :',np.round(r2_scores,3))
print('Average R2 :', np.round(np.mean(r2_scores),3))

# 폴드 분리를 어떻게 하는지에 따라 결과가 달라짐, 성능 지표 역시 변화

R2 : [0.332 0.46  0.537 0.522 0.595]
Average R2 : 0.489
