# scikit-learn의 교차검증 기능

[https://datascienceschool.net/view-notebook/266d699d748847b3a3aa7b9805b846ae/](https://datascienceschool.net/view-notebook/266d699d748847b3a3aa7b9805b846ae/)

<br>

# 0. 실습 데이터

In [1]:
import pandas as pd
import numpy as np
from sklearn.datasets import load_boston

boston = load_boston()

dfX = pd.DataFrame(boston.data, columns=boston.feature_names)
dfy = pd.DataFrame(boston.target, columns=['MEDV'])
df = pd.concat([dfX, dfy], axis=1)

<br>

# 1. 단순 데이터 분리

In [2]:
from sklearn.model_selection import train_test_split

df_train, df_test = train_test_split(df, test_size=0.3, random_state=0)
df_train.shape, df_test.shape

((354, 14), (152, 14))

In [3]:
dfX_train, dfX_test, dfy_train, dfy_test = train_test_split(dfX,
                                                            dfy,
                                                            test_size=0.3,
                                                            random_state=0)
dfX_train.shape, dfy_train.shape, dfX_test.shape, dfy_test.shape

((354, 13), (354, 1), (152, 13), (152, 1))

<br>

# 2. K-폴드 교차검증

데이터의 수가 적은 경우에는 이 데이터 중의 일부인 검증 데이터의 수도 적기 때문에 검증 성능의 신뢰도가 떨어진다. 그렇다고 검증 데이터의 수를 증가시키면 학습용 데이터의 수가 적어지므로 정상적인 학습이 되지 않는다. 이러한 딜레마를 해결하기 위한 검증 방법이 **K-폴드(K-fold)** 교차검증 방법이다.

K-폴드 교차검증에서는 다음처럼 학습과 검증을 반복한다.

1. 전체 데이터를 K개의 부분집합$\left( \{ D_1,D_2,\cdots,D_k\} \right)$으로 나눈다.
2. 데이터 $\{ D_1,D_2,\cdots,D_{k-1}\}$ 를 학습용 데이터로 사용하여 회귀분석 모형을 만들고, 데이터 $\{D_k\}$로 교차검증을 한다.
3. 데이터 $\{ D_1,D_2,\cdots,D_{k-2}, D_{k}\}$를 학습용 데이터로 사용하여 회귀분석 모형을 만들고 데이터 $\{D_{k-1}\}$로 교차검증을 한다.  
$\vdots$
4. 데이터 $\{ D_2,\cdots,D_{k}\}$를 학습용 데이터로 사용하여 회귀분석 모형을 만들고 데이터 $\{D_{1}\}$로 교차검증을 한다.

이렇게 하면 총 K개의 모형과 K개의 교차검증 성능이 나온다. 이 K개의 교차검증 성능을 평균하여 최종 교차검증 성능을 개선한다.

<div style="text-align: left; margin-left: 10px;">
    <img src="../_images/cv_img001.png" width="700px"/>
</div>

scikit-learn 패키지의 `model_selection` 서브 패키지는 `KFold` 클래스를 비롯한 다양한 교차검증 생성기를 제공한다. 이 생성기의 `split` 메서드는 학습용과 검증용의 데이터 인덱스를 출력하는 파이썬 반복자(iterator)를 반환한다.

In [5]:
from sklearn.model_selection import KFold
import statsmodels.api as sm

scores = np.zeros(5)
cv = KFold(5, shuffle=True, random_state=0)
for i, (idx_train, idx_test) in enumerate(cv.split(df)):
    df_train = df.iloc[idx_train]
    df_test = df.iloc[idx_test]
    
    model = sm.OLS.from_formula("MEDV ~ " + "+".join(boston.feature_names),
                                data=df_train)
    result = model.fit()
    
    pred = result.predict(df_test)
    rss = ((df_test.MEDV - pred) ** 2).sum()
    tss = ((df_test.MEDV - df_test.MEDV.mean()) ** 2).sum()
    rsquared = 1 - rss / tss
    
    scores[i] = rsquared
    print("학습 R2 = {:.8f}, 검증 R2 = {:.8f}".format(result.rsquared, rsquared))

학습 R2 = 0.77301356, 검증 R2 = 0.58922238
학습 R2 = 0.72917058, 검증 R2 = 0.77799144
학습 R2 = 0.74897081, 검증 R2 = 0.66791979
학습 R2 = 0.75658611, 검증 R2 = 0.66801630
학습 R2 = 0.70497483, 검증 R2 = 0.83953317


<br>

# 3. 평가 점수

scikit-learn의 `metrics` 서브 패키지에는 예측 성능을 평가하기 위한 다양한 함수를 제공한다. 그 중 회귀분석에 유용한 함수를 소개한다.

- `r2_score` : 결정 계수
- `mean_squared_error` : 평균 제곱 오차(MSE, mean squared error)
- `median_absolute_error` : 절대 오차 중앙값(MOE, median absolute error)

이 함수를 이용하여 위 코드를 다음처럼 간단하게 고칠 수 있다.

In [6]:
from sklearn.metrics import r2_score

scores = np.zeros(5)
cv = KFold(5, shuffle=True, random_state=0)
for i, (idx_train, test_idx) in enumerate(cv.split(df)) :
    df_train = df.iloc[idx_train]
    df_test = df.iloc[idx_test]
    
    model = sm.OLS.from_formula("MEDV ~ " + "+".join(boston.feature_names),
                                data=df_train)
    result = model.fit()
    
    pred = result.predict(df_test)
    rsquared = r2_score(df_test.MEDV, pred)
    
    scores[i] = rsquared
    
scores

array([0.85785833, 0.85920374, 0.86597345, 0.86282583, 0.83953317])

<br>

# 4. 교차검증 반복

위와 같이 교차검증을 반복하는 코드를 더 간단하게 만들어주는 함수가 있다. 바로 `cross_val_score` 이다. 사용법은 다음과 같다.

```
cross_val_score(model, X, y, scoring=None, cv=None)
```

- `model` : 회귀 분석 모형
- `X` : 독립 변수 데이터
- `y` : 종속 변수 데이터
- `scoring` : 성능 검증에 사용할 함수 이름
- `cv` : 교차검증 생성기 객체 또는 숫자
  - `None` : `KFold(3)`와 동일
  - `k` : 숫자 k를 지정하면 `KFold(k)`

단, `cross_val_score` 명령은 scikit-learn에서 제공하는 모형만 사용할 수 있다. statsmodels의 모형 객체를 사용하려면 다음과 같이 scikit-learn의 `RegressorMixin`으로 래퍼 클래스(wrapper class)를 만들어주어야 한다.

In [7]:
from sklearn.base import BaseEstimator, RegressorMixin
import statsmodels.formula.api as smf
import statsmodels.api as sm

class StatsmodelsOLS(BaseEstimator, RegressorMixin) :
    
    def __init__(self, formula) :
        self.formula = formula
        self.model = None
        self.data = None
        self.result = None
        
    def fit(self, dfX, dfy) :
        self.data = pd.concat([dfX, dfy], axis=1)
        self.model = smf.ols(self.formula, data=self.data)
        self.result = self.model.fit()
        
    def predict(self, new_data) :
        return self.result.predict(new_data)

이 래퍼 클래스와 `cross_val_score` 명령을 사용하면 교차검증 성능 값을 다음처럼 간단하게 계산할 수 있다.

In [8]:
from sklearn.model_selection import cross_val_score

model = StatsmodelsOLS("MEDV ~ " + "+".join(boston.feature_names))
cv = KFold(5, shuffle=True, random_state=0)
cross_val_score(model, dfX, dfy, scoring="r2", cv=cv)

array([0.58922238, 0.77799144, 0.66791979, 0.6680163 , 0.83953317])