# 교차검증(Cross Validation)
## 라이브러리 

In [1]:
# 패키지 임포트 
import os 
import warnings
# FutureWarning 제거
warnings.simplefilter(action='ignore', category=FutureWarning) 

import pandas as pd # pandas package
import numpy as np  # numpy package  
import scipy as sp  # Scipy Package 
from scipy import stats  # Scipy Package 

from sklearn import datasets # sklearn dataset 
from sklearn.model_selection import train_test_split #데이터셋 분리 

# 시각화 패키지 
import matplotlib.pyplot as plt #  matplotlib 시각화 패키지 
import seaborn as sns
%matplotlib inline

# os에 따른 Font 깨짐 제거를 위해 Font 지정 
import os 
if os.name == 'nt' :  # Windows OS 
    font_family = "Malgun Gothic"
else: # MAC OS 
    font_family = "AppleGothic"
    
# - 값이 깨지는 문제 해결을 위해 파라미터 값 설정 
sns.set(font=font_family, rc ={"axes.unicode_minus" : False})  

## Cross validation 미적용 분류 모델

In [2]:
from sklearn import datasets
from sklearn.tree import DecisionTreeClassifier
from collections import Counter # count 함수 

## 데이터셋 로드 
iris = datasets.load_iris()

X = iris.data  # feature
y = iris.target # labels

print("전체 데이터의 각 레이블 갯수 :", Counter(list(y)))

X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=20)

print("train data 각 레이블 갯수 :", Counter(list(y_train)))
print("test data 각 레이블 갯수 :", Counter(list(y_test)))

# 트리 분류 모델
decision_clf = DecisionTreeClassifier().fit(X_train, y_train)

print("검증 점수 : {:.2f}".format(decision_clf.score(X_test, y_test)))

전체 데이터의 각 레이블 갯수 : Counter({0: 50, 1: 50, 2: 50})
train data 각 레이블 갯수 : Counter({2: 38, 0: 38, 1: 36})
test data 각 레이블 갯수 : Counter({1: 14, 0: 12, 2: 12})
검증 점수 : 0.92


In [3]:
# target data
print(y)

[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2
 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
 2 2]


## K-fold Cross Validation
### from sklearn.model_selection import KFold
- parameter 
 - n_split : 폴더 수, defatul = 5 
 - shuffle : 데이터 섞기, shuffle = True 
- method 
 - split : 분리된 데이터 

### K-fold의 k가 3인 Cross Validation

In [4]:
from sklearn.model_selection import KFold
from sklearn.metrics import accuracy_score

## k fold의 k가 3인 Cross Validation 
kfold = KFold(n_splits=3)
all_acc = []
fold_idx = 0

# 전체 데이터를 기준으로 
for train_idx, test_idx in kfold.split(X, y):
    
    train_X, train_y = X[train_idx], y[train_idx]
    test_X, test_y = X[test_idx], y[test_idx]
    
    print("각 레이블 갯수 :", Counter(list(train_y)))
    
    decision_clf = DecisionTreeClassifier()
    decision_clf.fit(train_X, train_y)
    pred_y = decision_clf.predict(test_X)
    acc = accuracy_score(test_y, pred_y)
    print("정확도:", acc)
    fold_idx += 1
    all_acc.append(acc)
    
print(f"KFold 모두 수행 후 평균 예측도 : {np.mean(all_acc)}")

각 레이블 갯수 : Counter({1: 50, 2: 50})
정확도: 0.0
각 레이블 갯수 : Counter({0: 50, 2: 50})
정확도: 0.0
각 레이블 갯수 : Counter({0: 50, 1: 50})
정확도: 0.0
KFold 모두 수행 후 평균 예측도 : 0.0


### K-fold의 k가 5인 Cross Validation

In [5]:
from sklearn.model_selection import KFold
from sklearn.metrics import accuracy_score

## k fold의 k가 5인 Cross Validation 
kfold = KFold(n_splits=5)
all_acc = []
fold_idx = 0

# 전체 데이터를 기준으로 
for train_idx, test_idx in kfold.split(X, y):
    
    train_X, train_y = X[train_idx], y[train_idx]
    test_X, test_y = X[test_idx], y[test_idx]
    
    print("각 레이블 갯수 :", Counter(list(train_y)))
    
    decision_clf = DecisionTreeClassifier()
    decision_clf.fit(train_X, train_y)
    pred_y = decision_clf.predict(test_X)
    acc = accuracy_score(test_y, pred_y)
    print("정확도:", acc)
    fold_idx += 1
    all_acc.append(acc)
    
print(f"KFold 모두 수행 후 평균 예측도 : {np.mean(all_acc)}")

각 레이블 갯수 : Counter({1: 50, 2: 50, 0: 20})
정확도: 1.0
각 레이블 갯수 : Counter({2: 50, 1: 40, 0: 30})
정확도: 0.9666666666666667
각 레이블 갯수 : Counter({0: 50, 2: 50, 1: 20})
정확도: 0.8333333333333334
각 레이블 갯수 : Counter({0: 50, 1: 40, 2: 30})
정확도: 0.9333333333333333
각 레이블 갯수 : Counter({0: 50, 1: 50, 2: 20})
정확도: 0.7666666666666667
KFold 모두 수행 후 평균 예측도 : 0.9


### K-fold의 k가 3인 Cross Validation의 shuffle = True 

In [6]:
## k=3, shffule = true 
kfold = KFold(n_splits=3, shuffle = True)
all_acc = []
fold_idx = 0

for train_idx, test_idx in kfold.split(X, y):
    
    train_X, train_y = X[train_idx], y[train_idx]
    test_X, test_y = X[test_idx], y[test_idx]
    
    print("각 레이블 갯수 :", Counter(list(train_y)))
    
    decision_clf = DecisionTreeClassifier()
    decision_clf.fit(train_X, train_y)
    pred_y = decision_clf.predict(test_X)
    acc = accuracy_score(test_y, pred_y)
    print("정확도:", acc)
    fold_idx += 1
    all_acc.append(acc)
    
print(f"KFold 모두 수행 후 평균 예측도 : {np.mean(all_acc)}")

각 레이블 갯수 : Counter({2: 38, 0: 32, 1: 30})
정확도: 0.96
각 레이블 갯수 : Counter({0: 35, 1: 34, 2: 31})
정확도: 0.96
각 레이블 갯수 : Counter({1: 36, 0: 33, 2: 31})
정확도: 0.98
KFold 모두 수행 후 평균 예측도 : 0.9666666666666667


## Stratified K-fold Cross Validation
### from sklearn.model_selection import StratifiedKFold
- parameter 
 - n_split : 폴더 수, defatul = 5 
 - shuffle : 데이터 섞기, shuffle = True 
- method 
 - split : 분리된 데이터 

In [7]:
from sklearn.model_selection import StratifiedKFold

iris = datasets.load_iris()
X = iris.data  # feature
y = iris.target # labels

# k=5 split 
str_kfold = StratifiedKFold(n_splits=5)
all_acc = []
fold_idx = 0

for train_idx, test_idx in str_kfold.split(X, y):
    train_X, train_y = X[train_idx], y[train_idx]
    test_X, test_y = X[test_idx], y[test_idx]
    
    print("각 레이블 갯수 :", Counter(list(train_y)))
    
    decision_clf = DecisionTreeClassifier()
    decision_clf.fit(train_X, train_y)
    pred_y = decision_clf.predict(test_X)
    acc = accuracy_score(test_y, pred_y)
    print(acc)
    fold_idx += 1
    all_acc.append(acc)
    
print(f"KFold 모두 수행 후 평균 예측도 : {np.mean(all_acc)}")

각 레이블 갯수 : Counter({0: 40, 1: 40, 2: 40})
0.9666666666666667
각 레이블 갯수 : Counter({0: 40, 1: 40, 2: 40})
0.9666666666666667
각 레이블 갯수 : Counter({0: 40, 1: 40, 2: 40})
0.9
각 레이블 갯수 : Counter({0: 40, 1: 40, 2: 40})
0.9666666666666667
각 레이블 갯수 : Counter({0: 40, 1: 40, 2: 40})
1.0
KFold 모두 수행 후 평균 예측도 : 0.9600000000000002


## sklearn의 cross_val_score, cross_validate
### sklearn.model_selection.cross_val_score(교차 검증)
- estimator: 분류기  
- cv : 교차 검증 분류기, 반복 횟수, default 5 
    
### sklearn.model_selection.cross_validate
### (교차검증 : 분할 마다 훈련과 테스트 시간 담은 딕셔너리 반환) 
- estimator: 분류기  
- cv : 교차 검증 분류기, 반복 횟수,  default 5 

In [8]:
## 교차 검증 cross_val_score 확인 
from sklearn.model_selection import cross_val_score

iris = datasets.load_iris()
X = iris.data  # feature
y = iris.target # labels

decision_clf = DecisionTreeClassifier()

# 기본 모델(cv=5), default = 5 
basic_scores = cross_val_score(decision_clf, X, y)

# cv=3 인 모델 
cv3_scores = cross_val_score(decision_clf, X, y, cv = 3)

print('기본 교차 검증 점수 : ', basic_scores)
print("기본 교차 검증 평균 점수 : {:.2f}".format(basic_scores.mean()))
print('k=3 교차 검증 점수 : ', cv3_scores)
print("k=3교차 검증 평균 점수 : {:.2f}".format(cv3_scores.mean()))

기본 교차 검증 점수 :  [0.96666667 0.96666667 0.9        1.         1.        ]
기본 교차 검증 평균 점수 : 0.97
k=3 교차 검증 점수 :  [0.98 0.94 1.  ]
k=3교차 검증 평균 점수 : 0.97


In [9]:
## 교차 검증 cross_validate 확인 
from sklearn.model_selection import cross_validate

## return_train_score=True 
cv_result = cross_validate(decision_clf, X, y, cv = 5, return_train_score=True)

df_result = pd.DataFrame(cv_result, index = ['cv1', 'cv2', 'cv3', 'cv4', 'cv5'])
df_result

Unnamed: 0,fit_time,score_time,test_score,train_score
cv1,0.001002,0.00101,0.966667,1.0
cv2,0.0,0.001,0.966667,1.0
cv3,0.0,0.000999,0.9,1.0
cv4,0.0,0.000999,1.0,1.0
cv5,0.001,0.0,1.0,1.0


In [10]:
# 모든 케이스의 평균
df_result.describe().loc[['mean'], :]

Unnamed: 0,fit_time,score_time,test_score,train_score
mean,0.0004,0.000802,0.966667,1.0


# Hyperparameter Optimization
## Grid Search 

### from sklearn.model_selection import GridSearchCV
- 모형 Wrapper, 복수개의 내부 모형을 생성하고 이를 모두 실행시켜서 최적 파라미터 도출 

#### parameter 
- estimator : 적용 모델 
- param_grid : 모델의 입력값 
- cv : Cross validation 수 
- refit=True : GridSearch한 후 가장 성능 좋은 파라미터로 학습
- return_train_score : True = 학습 성능 저장
#### Attribute 
- cv_results_ : 학습된 정보 
- grid_scores_ : param_grid 의 모든 파리미터 조합에 대한 성능 결과
- parameters: 사용된 파라미터
- mean_validation_score: 교차 검증(cross-validation) 결과의 평균값
- cv_validation_scores: 모든 교차 검증(cross-validation) 결과
- best_score_ : 최고 점수
- best_params_ : 최고 점수를 낸 파라미터
- best_estimator_ : 최고 점수를 낸 파라미터를 가진 모형

In [11]:
## 최적 Hyperparameter 찾기 위한 GridsearchCV 
from sklearn.model_selection import GridSearchCV
from sklearn.metrics import accuracy_score

# 데이터 셋 
iris_data = datasets.load_iris()
X_train, X_test, y_train, y_test = train_test_split(iris_data.data,
                                                   iris_data.target,
                                                   test_size=0.2,
                                                   random_state=20)
## 의사결정 트리 
decision_clf = DecisionTreeClassifier()

# parameter 넣어줄 값에 대해 dict으로 정의 
h_param = {'max_depth':[1,2,3], 'min_samples_split':[2,3,4]}

# 그리드 서치 파라미터 설정 
grid_dtree = GridSearchCV(decision_clf, param_grid = h_param,
                         cv=3, refit=True, return_train_score=True)

# GridSearch 학습 수행
grid_dtree.fit(X_train, y_train)

# 각 파라미터값들에 대한 모델 결과값들이 cv_results_ 객체에 할당됨
scores_df = pd.DataFrame(grid_dtree.cv_results_)

# score 결과값(ndarray형태로 할당됨) 중 특정 칼럼들만 가져오기 
scores_df[['params', 'mean_train_score', 'mean_test_score', 'rank_test_score', 
           'split0_test_score', 'split1_test_score', 'split2_test_score']]


Unnamed: 0,params,mean_train_score,mean_test_score,rank_test_score,split0_test_score,split1_test_score,split2_test_score
0,"{'max_depth': 1, 'min_samples_split': 2}",0.675,0.675,7,0.675,0.675,0.675
1,"{'max_depth': 1, 'min_samples_split': 3}",0.675,0.675,7,0.675,0.675,0.675
2,"{'max_depth': 1, 'min_samples_split': 4}",0.675,0.675,7,0.675,0.675,0.675
3,"{'max_depth': 2, 'min_samples_split': 2}",0.979167,0.966667,1,0.95,0.975,0.975
4,"{'max_depth': 2, 'min_samples_split': 3}",0.979167,0.966667,1,0.95,0.975,0.975
5,"{'max_depth': 2, 'min_samples_split': 4}",0.979167,0.966667,1,0.95,0.975,0.975
6,"{'max_depth': 3, 'min_samples_split': 2}",0.9875,0.958333,4,0.925,0.975,0.975
7,"{'max_depth': 3, 'min_samples_split': 3}",0.9875,0.958333,4,0.925,0.975,0.975
8,"{'max_depth': 3, 'min_samples_split': 4}",0.9875,0.933333,6,0.85,0.975,0.975


In [12]:
## 결과 확인 
print(f"최적의 파라미터 : {grid_dtree.best_params_}")
print(f"최적의 파라미터로 모델의 정확도 : {grid_dtree.best_score_}")

print()
print()

# 최적의 파라미터로 학습되어 있는 모델링 할당
estimator = grid_dtree.best_estimator_

# 최적의 모델로 예측해보고 실제값이랑 정확도 비교
pred_y = estimator.predict(X_test)

print(f"실제값과 예측값 정확도 : {accuracy_score(y_test, pred_y)}")

최적의 파라미터 : {'max_depth': 2, 'min_samples_split': 2}
최적의 파라미터로 모델의 정확도 : 0.9666666666666667


실제값과 예측값 정확도 : 0.9


In [13]:
## 랜덤 포레스트 그리드 서치 

from sklearn.ensemble import RandomForestClassifier

rf_clf = RandomForestClassifier()

h_param_r = {'n_estimators':[2,3,4,9,10,12,14], 'bootstrap':[True], 
              'criterion':['entropy'], 'max_depth':[5,10], 
              'max_leaf_nodes':[2,3], 'min_samples_split':[3,4,5]
              }

# 그리드 서치 파라미터 설정 
grid_dtree_r = GridSearchCV(rf_clf, param_grid = h_param_r,
                         cv=3, refit=True, return_train_score=True)


# GridSearch 학습 수행
grid_dtree_r.fit(X_train, y_train)

# 각 파라미터값들에 대한 모델 결과값들이 cv_results_ 객체에 할당됨
r_scores_df = pd.DataFrame(grid_dtree_r.cv_results_)

In [14]:
# score 결과값(ndarray형태로 할당됨) 중 특정 칼럼들만 가져오기 
s_scores_df = r_scores_df[['params', 'mean_test_score', 'rank_test_score', 
                           'split0_test_score', 'split1_test_score', 'split2_test_score']]

print(s_scores_df.shape)
s_scores_df.head()

(84, 6)


Unnamed: 0,params,mean_test_score,rank_test_score,split0_test_score,split1_test_score,split2_test_score
0,"{'bootstrap': True, 'criterion': 'entropy', 'm...",0.75,70,0.95,0.675,0.625
1,"{'bootstrap': True, 'criterion': 'entropy', 'm...",0.683333,80,0.625,0.8,0.625
2,"{'bootstrap': True, 'criterion': 'entropy', 'm...",0.75,70,0.6,0.975,0.675
3,"{'bootstrap': True, 'criterion': 'entropy', 'm...",0.875,48,0.675,0.975,0.975
4,"{'bootstrap': True, 'criterion': 'entropy', 'm...",0.858333,55,0.975,0.925,0.675


In [15]:
## 결과 확인 
print(f"최적의 파라미터 : {grid_dtree_r.best_params_}")
print(f"최적의 파라미터로 모델의 정확도 : {grid_dtree_r.best_score_}")

print()
print()

# 최적의 파라미터로 학습되어 있는 모델링 할당
estimator_r = grid_dtree_r.best_estimator_

# 최적의 모델로 예측해보고 실제값이랑 정확도 비교
pred_y_r = estimator_r.predict(X_test)

print(f"실제값과 예측값 정확도 : {accuracy_score(y_test, pred_y_r)}")

최적의 파라미터 : {'bootstrap': True, 'criterion': 'entropy', 'max_depth': 5, 'max_leaf_nodes': 3, 'min_samples_split': 5, 'n_estimators': 9}
최적의 파라미터로 모델의 정확도 : 0.975


실제값과 예측값 정확도 : 0.9333333333333333


## Random Search 

### from sklearn.model_selection import RandomizedSearchCV

#### parameter 
- estimator : 적용 모델 
- param_distributions : 모델의 입력값 
- n_iter: 샘플링된 매개변수 설정 수
- cv : Cross validation 수 
- refit=True : GridSearch한 후 가장 성능 좋은 파라미터로 학습
- return_train_score : True = 학습 성능 저장
#### Attribute 
- cv_results_ : 학습된 정보 
- cv_validation_scores: 모든 교차 검증(cross-validation) 결과
- best_score_ : 최고 점수
- best_params_ : 최고 점수를 낸 파라미터
- best_estimator_ : 최고 점수를 낸 파라미터를 가진 모형

In [16]:
from sklearn.model_selection import RandomizedSearchCV

# 데이터 셋 
iris_data = datasets.load_iris()
X_train, X_test, y_train, y_test = train_test_split(iris_data.data,
                                                   iris_data.target,
                                                   test_size=0.2,
                                                   random_state=20)
decision_clf = DecisionTreeClassifier()

# parameter 넣어줄 값에 대해 dict으로 정의 
h_param_rd = { 'criterion': ['gini', 'entropy'],
            'max_depth':[2,3], 'min_samples_split':[2,3,4]
}

# 그리드 서치 파라미터 설정 
random_dtree = RandomizedSearchCV(decision_clf, param_distributions = h_param_rd,
                                  n_iter=10, 
                                  cv=5, refit=True, return_train_score=True)
# GridSearch 학습 수행
random_dtree.fit(X_train, y_train)

# 각 파라미터값들에 대한 모델 결과값들이 cv_results_ 객체에 할당됨
scores_df_r1 = pd.DataFrame(random_dtree.cv_results_)

# score 결과값(ndarray형태로 할당됨) 중 특정 칼럼들만 가져오기 
scores_df_r1[['params', 'mean_test_score', 'rank_test_score', 
               'split0_test_score', 'split1_test_score', 'split2_test_score']]

Unnamed: 0,params,mean_test_score,rank_test_score,split0_test_score,split1_test_score,split2_test_score
0,"{'min_samples_split': 3, 'max_depth': 3, 'crit...",0.966667,1,0.916667,1.0,1.0
1,"{'min_samples_split': 2, 'max_depth': 2, 'crit...",0.966667,1,0.916667,1.0,1.0
2,"{'min_samples_split': 2, 'max_depth': 3, 'crit...",0.966667,1,0.916667,1.0,1.0
3,"{'min_samples_split': 2, 'max_depth': 2, 'crit...",0.966667,1,0.916667,1.0,1.0
4,"{'min_samples_split': 3, 'max_depth': 2, 'crit...",0.966667,1,0.916667,1.0,1.0
5,"{'min_samples_split': 4, 'max_depth': 2, 'crit...",0.966667,1,0.916667,1.0,1.0
6,"{'min_samples_split': 2, 'max_depth': 3, 'crit...",0.966667,1,0.916667,1.0,1.0
7,"{'min_samples_split': 4, 'max_depth': 2, 'crit...",0.966667,1,0.916667,1.0,1.0
8,"{'min_samples_split': 3, 'max_depth': 3, 'crit...",0.966667,1,0.916667,1.0,1.0
9,"{'min_samples_split': 3, 'max_depth': 2, 'crit...",0.966667,1,0.916667,1.0,1.0


In [17]:
## 결과 확인 
print(f"최적의 파라미터 : {random_dtree.best_params_}")
print(f"최적의 파라미터로 모델의 정확도 : {random_dtree.best_score_}")

print()
print()

# 최적의 파라미터로 학습되어 있는 모델링 할당
estimator = random_dtree.best_estimator_

# 최적의 모델로 예측해보고 실제값이랑 정확도 비교
pred_y = estimator.predict(X_test)

print(f"실제값과 예측값 정확도 : {accuracy_score(y_test, pred_y)}")

최적의 파라미터 : {'min_samples_split': 3, 'max_depth': 3, 'criterion': 'gini'}
최적의 파라미터로 모델의 정확도 : 0.9666666666666666


실제값과 예측값 정확도 : 0.9333333333333333
