<a href="https://colab.research.google.com/github/Jungddaseul/AI_study/blob/main/ML_%EA%B5%90%EC%B0%A8%EA%B2%80%EC%A6%9D.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## 모델 평가 - 교차 검증
### 학습내용
- 교차 검증의 기본 개념을 이해
- 교차 검증의 장담점을 알아보기
- IRIS 데이터 셋을 활용하여 교차 검증해보기


##01 교차 검증에 대해 알아보기
- 학습용 세트와 테스트 세트로 한번 나누는 것보다 더 안정적이고 뛰어난 통계적 평가 방법
- 데이터를 여러번 반복해서 나누고 여러 모델을 학습
- 가장 널리 쓰이는 교차 검증 방법은 k-겹 교차 검증(k-fold cross-validation)
- 보통 5 또는 10을 사용한다.

In [13]:
import os, warnings
# 경고 메시지 무시하거나 숨길때(ignore), 다시보이게(default)
# warnings.filterwarnings(action='default')
warnings.filterwarnings(action='ignore')

import pandas as pd
import numpy as np

### 교차 검증 실습
- sklearn의 21버전은 cv(k폴더의 수)가 3으로 기본 지정
- sklearn의 22버전부터는 cv가 기본이 5로 지정

In [25]:
from sklearn.datasets import load_iris
from sklearn.model_selection import cross_val_score
from sklearn.neighbors import KNeighborsClassifier
from sklearn.linear_model import LogisticRegression

iris = load_iris()
logreg = LogisticRegression()

In [27]:
scores = cross_val_score(logreg, iris.data, iris.target)
print("교차 검증 점수 : {}".format(scores))

교차 검증 점수 : [0.96666667 1.         0.93333333 0.96666667 1.        ]


### 실습 : cv의 매개변수를 이용하여 폴더의 수를 3으로 해보기

In [28]:
scores = cross_val_score(logreg, iris.data, iris.target, cv=3)
print("교차 검증 점수 : {}".format(scores))

교차 검증 점수 : [0.98 0.96 0.98]


In [29]:
print("교차 검증 점수 : {:.2f}".format(scores.mean()))

교차 검증 점수 : 0.97


### 교차 검증의 장점
- 데이터를 무작위로 나눌 때 운 좋게 학습용 세트에는 분류하기 어려운 샘플이 담길 수 있음
  * 이 경우 테스트 세트에 분류에 좋은 샘플이 담긴다면 좋은 정확도가 얻어질 겅미
- 반대로 훈련세트에 분류가 쉽고, 테스트의 세트에 분류가 어려운 샘플이 담긴다면, 테스트 세트의 정확도는 낮은 결과가 나올 것임
#### 장점 1 : 일반화된 모델을 생성할 수 있음
#### 장점 2 : 분할을 한 번 했을 때보다 데이터를 더 효과적으로 사용이 가능함

### 교차 검증의 단점
#### - 연산 비용이 늘어남. 모델을 k개를 만들어야 하므로 데이터를 한 번 나눴을 때보다 k배가 더 느림

## 02 계층별 k-겹 교차 검증에 대해 알아보기

In [30]:
from sklearn.datasets import load_iris
iris = load_iris()
print("iris 레이블 :\n{}".format(iris.target))

iris 레이블 :
[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2
 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
 2 2]


위의 데이터를 순서대로 나눌 경우 편향이 발생함

### 단순한 k-fold 교차 검증은 문제가 발생
### scikit-learn에서 계층별 교차 검증을 사용
- 계층별 교차 검증 : stratified k-fold cross-validation

In [33]:
from sklearn.model_selection import KFold

logreg = LogisticRegression()
kfold = KFold(n_splits=5, shuffle=True, random_state=0)
print('교차 검증 점수 :\n{}'.format(cross_val_score(logreg,
                                              iris.data,
                                              iris.target, cv=kfold)) )

교차 검증 점수 :
[1.         0.83333333 1.         1.         0.93333333]


In [34]:
kfold = KFold(n_splits=3, shuffle=True, random_state=0)
print("교차 검증 점수 : \n{}".format(cross_val_score(logreg, 
                                               iris.data, 
                                               iris.target, cv=kfold)))

교차 검증 점수 : 
[0.98 0.96 0.96]
