In [2]:
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, precision_score, recall_score #Confusion matrix 수업 때 진행할 예정 
from sklearn.model_selection import KFold
from sklearn.metrics import classification_report
import numpy as np
import pandas as pd

### 교차검증
* 전체 데이터를 train/test로 나누게 되면 과적합(overfitting)이 발생할 확률이 높다.
* 과적합이란 모델이 train 데이터에 과하게 최적화되는 것을 말하여, 과적합이 발생하면, 다른 데이터로 수행했을 때 예측 성능이 크게 떨어지는 문제가 생긴다.
* train의 정확도가 test 정확도보다 높다.
* 만약 train의 정확도는 낮은데 test의 정확도가 높다면, 과대적합 또는 과소적합의 문제가 발생한 것이다.
* 데이터의 편중 현상을 막기 위해 여러 개의 데이터셋으로 구성된 별개의 train set 과 test set으로 train과 test를 진행하는 방법
* 수행 결과에 따라 하이퍼파라미터 튜닝 등의 모델 최적화를 진행하게 된다.

# 파라미터 VS. 하이퍼파라미터
## 파라미터
* 모델 내부에서 결정되는 매개변수
* 데이터로부터 결정되는 값

## 하이퍼파라미터
* 모델링 시에 사용자가 직접 설정하는 값
* 정해진 최적의 값이 존재하는 것이 아닌, 여러 법칙에 따라 사용자가 직접 설정하며, 자동으로 하이퍼 파라미터를 선택해주는 라이브러리를 통해 정할 수 있다.

In [4]:
fold_iris=load_iris()
features=fold_iris.data

label=fold_iris.target
fold_df_clf=DecisionTreeClassifier()

### 교차검증 코드

In [5]:
kfold=KFold(n_splits=5)
# fold set 개수를 5개로 설정하여 각 정확도를 list에 담아 평균 등을 살펴볼 것이다.
# 정확도, 정밀도, 재현율 빈 리스트 생성
cv_accuracy=[]
cv_precision=[]
cv_recall=[]

In [6]:
kfold.split(features)

<generator object _BaseKFold.split at 0x000001D2C1319580>

In [10]:
n_iter=0
for train_idx, test_idx in kfold.split(features):
  X_train, X_test=features[train_idx], features[test_idx]
  
  y_train, y_test=label[train_idx],label[test_idx]
  
  #train
  fold_df_clf.fit(X_train, y_train)
  
  #predict
  fold_pred=fold_df_clf.predict(X_test)
  
  #정확도 측정
  n_iter+=1
  accuracy=np.round(accuracy_score(y_test,fold_pred),5)
  #precision=np.round(precision_score(y_test,fold_pred),5)
  #recall=np.round(recall_score(y_test,fold_pred),5)
  print('\n{} 교차검증 정확도: {}, 교차검증 precision: {}, 교차검증 recall: {}'.format(n_iter,accuracy,precision,recall))
  
  cv_accuracy.append(accuracy)
  #cv_precision.append(precision)
  #cv_recall.append(recall)
  
print('\n')
print('\n 평균정확도 ',np.mean(accuracy))
#print('\n 평균 검증 정확도', np.mean(cv_accuracy),np.mean(cv_precision)),np.mean(cv_recall)


1 교차검증 정확도: 1.0, 교차검증 precision: 0.0, 교차검증 recall: 0.0

2 교차검증 정확도: 1.0, 교차검증 precision: 0.0, 교차검증 recall: 0.0

3 교차검증 정확도: 0.83333, 교차검증 precision: 0.0, 교차검증 recall: 0.0

4 교차검증 정확도: 0.93333, 교차검증 precision: 0.0, 교차검증 recall: 0.0

5 교차검증 정확도: 0.8, 교차검증 precision: 0.0, 교차검증 recall: 0.0



 평균정확도  0.8


In [11]:
label

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2])

* iris data set의 target 값들은 이진이 아니다.
* target 값은 0,1,2로 이루어져 있다.
* precision, recall은 target 값이 이진이 아니면 계산 시 문제가 생긴다.

### K-fold의 문제점
* target(정답) 비중이 랜덤하게 나눠지기 때문에 target 값에는 {0,1,2}가 존재하는데, K-fold로 나눴을 때 target 값이 {0},{1},{2},{0,1},{0,2},{1,2} 식으로 나눠질 수 있다.

In [14]:
kfold_iris_data=load_iris()
kfold_iris_data_df=pd.DataFrame(data=kfold_iris_data.data,columns=kfold_iris_data.feature_names)
kfold_iris_data_df['target']=kfold_iris_data.target
print(kfold_iris_data_df['target'].value_counts())

0    50
1    50
2    50
Name: target, dtype: int64


### K-fold 문제점 확인

In [17]:
kfold_iris=KFold(n_splits=3)
kfold_iris.split(kfold_iris_data_df)


<generator object _BaseKFold.split at 0x000001D2C17463C0>

In [18]:
kfold_iris_data_df

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),target
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0
3,4.6,3.1,1.5,0.2,0
4,5.0,3.6,1.4,0.2,0
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,2
146,6.3,2.5,5.0,1.9,2
147,6.5,3.0,5.2,2.0,2
148,6.2,3.4,5.4,2.3,2


In [21]:
cnt_iter=0
for train_idx,test_idx in kfold_iris.split(kfold_iris_data_df):
  cnt_iter+=1
  label_train=kfold_iris_data_df['target'].iloc[train_idx]
  label_test=kfold_iris_data_df['target'].iloc[test_idx]
  print('교차검증 :{}'.format(cnt_iter))
  print('학습 lablel data 분포\n', label_train.value_counts())
  print('검증 label data 분포 \n', label_test.value_counts())
  

교차검증 :1
학습 lablel data 분포
 1    50
2    50
Name: target, dtype: int64
검증 label data 분포 
 0    50
Name: target, dtype: int64
교차검증 :2
학습 lablel data 분포
 0    50
2    50
Name: target, dtype: int64
검증 label data 분포 
 1    50
Name: target, dtype: int64
교차검증 :3
학습 lablel data 분포
 0    50
1    50
Name: target, dtype: int64
검증 label data 분포 
 2    50
Name: target, dtype: int64


* K-fold를 사용할 때,이진 외 다중 분류와 같은 경우
* target 값을 동일한 비율로 가져가서 kfold 시 데이터가 한 쪽으로 몰리지 않도록 할 수 있다.

### StratifiedKfold
* 분류 문제에서만 정답에 대한 이슈가 발생할 것.
* {0,1},{0,1,2} 건 분류에 대한 클래스의 불균형은 대부분 범주형 정답에 나올 것임.
* 회귀 문제와 같은 연속형 변수는 의미가 없다. (=회귀 문제 예측에서는 쓰지 않음.)