# Kfold 예제

### sklearn.model_selection.KFold
class sklearn.model_selection.KFold(n_splits=5, *, shuffle=False, random_state=None)

In [2]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score
from sklearn.model_selection import KFold
from sklearn.datasets import load_iris
import numpy as np

iris = load_iris()
features = iris.data
label = iris.target
dt_clf = DecisionTreeClassifier(random_state=156)

#5개의 폴드 세트로 분리하느 kfold 객체와 폴드 세트별 정확도를 담을 리스트 객체 생성
kfold = KFold(n_splits=5)
cv_accuracy = []
print('붓꽃 데이터 세트 크기:', features.shape[0])

붓꽃 데이터 세트 크기: 150


In [8]:
n_iter = 0
#KFold객체의 split() 호출하면 폴드 별 학슴용, 검증용 테스트의 로우 인덱스를 array로 반환
for train_index, test_index in kfold.split(features):
    #kfold.split()으로 반환된 인덱스를 이용하여 학습용, 검증용 테스트 데이터 추출
    X_train, X_test = features[train_index], features[test_index]
    y_train, y_test = label[train_index], label[test_index]
    #학습 및 예측
    dt_clf.fit(X_train, y_train)
    pred = dt_clf.predict(X_test)
    n_iter += 1
    #반복 시 마다 정확도 측정
    accuracy = np.round(accuracy_score(y_test,pred), 4)
    train_size = X_train.shape[0]
    test_size = X_test.shape[0]
    print('\n#{0} 교차 검증 정확도 :{1}, 학습 데이터 크기: {2}, 검증 데이터 크기: {3}'
         .format(n_iter, accuracy, train_size, test_size))
    print('#{0} 검증 세트 인덱스:{1}'.format(n_iter, test_index))
    cv_accuracy.append(accuracy)
 
#개별 iteration별 정확도를 합하여 평균 정확도 계산
print('\n## 평균 검증 정확도:', np.mean(cv_accuracy))


#1 교차 검증 정확도 :1.0, 학습 데이터 크기: 120, 검증 데이터 크기: 30
#1 검증 세트 인덱스:[ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
 24 25 26 27 28 29]

#2 교차 검증 정확도 :0.9667, 학습 데이터 크기: 120, 검증 데이터 크기: 30
#2 검증 세트 인덱스:[30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53
 54 55 56 57 58 59]

#3 교차 검증 정확도 :0.8667, 학습 데이터 크기: 120, 검증 데이터 크기: 30
#3 검증 세트 인덱스:[60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83
 84 85 86 87 88 89]

#4 교차 검증 정확도 :0.9333, 학습 데이터 크기: 120, 검증 데이터 크기: 30
#4 검증 세트 인덱스:[ 90  91  92  93  94  95  96  97  98  99 100 101 102 103 104 105 106 107
 108 109 110 111 112 113 114 115 116 117 118 119]

#5 교차 검증 정확도 :0.7333, 학습 데이터 크기: 120, 검증 데이터 크기: 30
#5 검증 세트 인덱스:[120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137
 138 139 140 141 142 143 144 145 146 147 148 149]

## 평균 검증 정확도: 0.9


# Stratified K fold 분류법
k-fold의 문제점인 target 데이터의 비율을 일정하게 유지 하지 못하는 것을 일정 하게 유지하며, 교차 검증을 진행 하는 것
- 레이블 데이터 분포도에 따라 학습/검증 데이터를 나누기 때문에 split()에 인자로 피처데이터 뿐 아니라, 레이블데이터까지 줘야한다

In [23]:
iris_data = load_iris()
iris_data.keys()
import pandas as pd

iris = load_iris()
iris_df = pd.DataFrame(data = iris.data, columns = iris.feature_names)
iris_df['label'] = iris.target
iris_df['label'].value_counts()

df = pd.DataFrame(iris_data.data, columns=iris_data.feature_names)
df['label'] = iris_data.target
df['label'].value_counts()

0    50
1    50
2    50
Name: label, dtype: int64

In [34]:
for train_index, test_index in kfold.split(iris_df, iris_df['label']):
    n_iter += 1
    label_train = iris_df['label'].iloc[train_index]
    label_test = iris_df['label'].iloc[test_index]
    print('## 교차 검증: {0}'.format(n_iter))
    print('학습 레이블 데이터 분포 :\n', label_train.value_counts())
    print('검증 레이블 데이터 분포:\n', label_test.value_counts())

## 교차 검증: 4
학습 레이블 데이터 분포 :
 1    50
2    50
Name: label, dtype: int64
검증 레이블 데이터 분포:
 0    50
Name: label, dtype: int64
## 교차 검증: 5
학습 레이블 데이터 분포 :
 0    50
2    50
Name: label, dtype: int64
검증 레이블 데이터 분포:
 1    50
Name: label, dtype: int64
## 교차 검증: 6
학습 레이블 데이터 분포 :
 0    50
1    50
Name: label, dtype: int64
검증 레이블 데이터 분포:
 2    50
Name: label, dtype: int64


In [29]:
from sklearn.model_selection import KFold, StratifiedKFold
from sklearn.tree import DecisionTreeClassifier
kfold = KFold(n_splits=3)
dt_clf = DecisionTreeClassifier(random_state=121)
n_iter = 0
#StratifiedKFold의 split() 호출시 반드시 레이블 데이터 셋도 추가 입력
for train_index , test_index in kfold.split(features):
    #split()으로 반환된 인덱스를 이용하여 학습용, 검증용 테스트 데이터 추출
    X_train, X_test = features[train_index], features[test_index]
    y_train, y_test = label[train_index], label[test_index]
    #학습 및 예측
    n_iter +=1
    label_train = df['label'].iloc[train_index]
    label_test = df['label'].iloc[test_index]
    X_train, X_test = features[train_index], features[test_index]
    y_train, y_test = label[train_index], label[test_index]
    print(f'{n_iter} : {label_train.value_counts()} \n')
    print(f'{n_iter} : {label_test.value_counts()}')
    dt_clf.fit(X_train,y_train )
    pred = dt_clf.predict(X_test)
    print(pred)
    accuracy = np.round(accuracy_score(y_test,pred), 4)
    print(accuracy)

1 : 1    50
2    50
Name: label, dtype: int64 

1 : 0    50
Name: label, dtype: int64
[1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1]
0.0
2 : 0    50
2    50
Name: label, dtype: int64 

2 : 1    50
Name: label, dtype: int64
[2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
 2 2 2 2 2 2 2 2 2 2 2 0 2]
0.0
3 : 0    50
1    50
Name: label, dtype: int64 

3 : 2    50
Name: label, dtype: int64
[1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1]
0.0


In [35]:
sk_fold = StratifiedKFold(n_splits=3)
n_iter +=0
val_list = []
for train_index , test_index in sk_fold.split(features, label):
    n_iter +=1
    label_train = df['label'].iloc[train_index]
    label_test = df['label'].iloc[test_index]
    X_train, X_test = features[train_index], features[test_index]
    y_train, y_test = label[train_index], label[test_index]
    print(f'{n_iter} : {label_train.value_counts()} \n')
    print(f'{n_iter} : {label_test.value_counts()}')
    dt_clf.fit(X_train,y_train )
    pred = dt_clf.predict(X_test)
    print(pred)
    accuracy = np.round(accuracy_score(y_test, pred), 4)
    print(accuracy)
    val_list.append(accuracy)
val_acc = np.mean(val_list)
print(val_acc)

7 : 2    34
0    33
1    33
Name: label, dtype: int64 

7 : 0    17
1    17
2    16
Name: label, dtype: int64
[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2
 2 2 2 1 2 2 2 2 2 2 2 2 2]
0.98
8 : 1    34
0    33
2    33
Name: label, dtype: int64 

8 : 0    17
2    17
1    16
Name: label, dtype: int64
[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 2 1 1 1 1 1 1 2 1 1 1 1 1 2 2 2 1
 2 2 2 2 2 2 2 2 2 2 2 2 2]
0.94
9 : 0    34
1    33
2    33
Name: label, dtype: int64 

9 : 1    17
2    17
0    16
Name: label, dtype: int64
[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 2 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2
 2 2 2 2 2 2 2 2 2 2 2 2 2]
0.98
0.9666666666666667


In [39]:
dt_clf = DecisionTreeClassifier(random_state=156)

kfold = KFold(n_splits=3)
n_iter = 0
cv_accuracy=[]

#StratifiedKFold의 split() 호출시 반드시 레이블 데이터 셋도 추가 입력
for train_index , test_index in kfold.split(features, label):
    #split()으로 반환된 인덱스를 이용하여 학습용, 검증용 테스트 데이터 추출
    X_train, X_test = features[train_index], features[test_index]
    y_train, y_test = label[train_index], label[test_index]
    #학습 및 예측
    dt_clf.fit(X_train,y_train)
    pred = dt_clf.predict(X_test)
    
    #반복시 마다 정확도 측정
    n_iter += 1
    accuracy = np.round(accuracy_score(y_test,pred), 4)
    train_size = X_train.shape[0]
    test_size = X_test.shape[0]
    print('\n#{0}교차 검증 정확도 :{1}, 학습데이터크기: {2}, 검증데이터크기:{3}'
         .format(n_iter, accuracy, train_size, test_size))
    print('#{0} 검증 세트 인덱스:{1}'.format(n_iter, test_index))
    cv_accuracy.append(accuracy)
    
#교차 검증별 정확도 및 평균 정확도 계산
print('\n## 교차 검증별 정확도:', np.round(cv_accuracy, 4))
print('## 평균 검증 정확도:', np.mean(cv_accuracy))


#1교차 검증 정확도 :0.0, 학습데이터크기: 100, 검증데이터크기:50
#1 검증 세트 인덱스:[ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47
 48 49]

#2교차 검증 정확도 :0.0, 학습데이터크기: 100, 검증데이터크기:50
#2 검증 세트 인덱스:[50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73
 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97
 98 99]

#3교차 검증 정확도 :0.0, 학습데이터크기: 100, 검증데이터크기:50
#3 검증 세트 인덱스:[100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117
 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135
 136 137 138 139 140 141 142 143 144 145 146 147 148 149]

## 교차 검증별 정확도: [0. 0. 0.]
## 평균 검증 정확도: 0.0


# sklearn.model_selection.cross_val_score
#### cross_val_score()함수로 폴드세트 추출, 학습/예측, 평가를 한번에 수행
(estimator(판단알고리즘), X, y=None, *, groups=None, scoring=None, cv=None, n_jobs=None, verbose=0, fit_params=None, pre_dispatch='2*n_jobs', error_score=nan)

- estimator, X, cv=None

_cross_val_score() 반환 값은 scoring 파라미터로 지정된 성능 지표 측정값을 배열 형태로 반환한다. 요소의 개수는 cv(폴드 수)만큼 들어있다. 그리고 일반적으로 이를 평균한 값을 평가 수치로 사용한다.

## Cross_val_score와 cross_validate 비교
공통점 : scoring 매개변수에 원하는 평가 지표를 지정할수있다.

#### cross_val_score()

#### cross_validate() 다중평가지표
-여러개의 평가 지표를 이용할수있다. -> 딕셔너리로 만들어 전달
-디폴트 설정에서 테스트 폴드에 대한 점수 뿐만 아니라 훈련 폴드에 대한 점수도 반환


##### cross_val_score()의 값은 리스트값으로
데이터를 늘려주는 효과도 발생

In [42]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import cross_val_score, cross_validate
from sklearn.datasets import load_iris

iris_data = load_iris()
df_clf = DecisionTreeClassifier(random_state=156)

data = iris_data.data
label = iris_data.target

#scoring, cv -> 하이퍼파라미터 조정
#성능 지표는 정확도(accuracy), 교차 검증 세트 3개
scores = cross_val_score(df_clf, data, label, scoring='accuracy', cv=3)
#df_clf, data, label 은 원래 위치와 같기 때문에 '='를 써주지않고
#scoring과 cv는 위치가 다르기때문에 위치인자를 써줌 '='
print('교차 검증별 정확도:', np.round(scores, 4))
print('평균 검증 정확도:', np.round(np.mean(scores), 4))

교차 검증별 정확도: [0.98 0.94 0.98]
평균 검증 정확도: 0.9667


## GridSearchCV
- 여러개의 하이퍼파라미터 값들을 나열해놓고 하나하나 경우의 수를 따져서 최적의 하이퍼파라미터 값을 찾음( 어떤파라미터들 이 좋을지)

알고리즘을 선언 -> 데이터셋 로드 -> 피처들 선택 -> 레이블 선택 -> 하이퍼파라미터값(딕셔너리 형태)들을 넣어줌 -> GridSearchCV

##### GridSearchCV
(estimator, param_grid, *, scoring=None, n_jobs=None, refit=True, cv=None, verbose=0, pre_dispatch='2*n_jobs', error_score=nan, return_train_score=False)

ex)
max_depth = 3, 5, 10
max_features = 1, 2, 5

3,1일때 /  5,1일때 / 10,1일때 /
3,2일때 / 5,2일때 / 10,2일때 /
3,5일때 / 5,5일때 / 10,5일때 /


##### attributes 찾아보기


In [50]:
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import GridSearchCV
from sklearn.model_selection import train_test_split

#데이터를 로딩하고 학습데이터와 테스트 데이터 분리
iris = load_iris()
X_train, X_test, y_train, y_test = train_test_split(iris_data.data, iris_data.target,
                                                   test_size = 0.2, random_state = 121)
dtree = DecisionTreeClassifier()

### parameter 들을 dictionary 형태로 설정
parameters = {'max_depth':[1,2,3], 'min_samples_split':[2,3]}




In [52]:
import pandas as pd

#param_grid의 하이퍼 파라미터들을 3개의 train, test set fold로 나누어서 테스트 수행 설정
### refit=True 가 default. True이면 가장 좋은 파라미터 설정으로 재학습
grid_dtree = GridSearchCV(dtree, param_grid=parameters, cv=3, refit=True)

#붓꽃 Train 데이터로 pram_grid의 하이퍼파라미터들을 순차적으로 학습/평가
grid_dtree.fit(X_train, y_train)

#GridSearchCV결과 추출 -> DataFrame으로 변환
scores_df = pd.DataFrame(grid_dtree.cv_results_)
scores_df[['params', 'mean_test_score', 'rank_test_score', \
          'split0_test_score', 'split1_test_score', 'split2_test_score']]

Unnamed: 0,params,mean_test_score,rank_test_score,split0_test_score,split1_test_score,split2_test_score
0,"{'max_depth': 1, 'min_samples_split': 2}",0.7,5,0.7,0.7,0.7
1,"{'max_depth': 1, 'min_samples_split': 3}",0.7,5,0.7,0.7,0.7
2,"{'max_depth': 2, 'min_samples_split': 2}",0.958333,3,0.925,1.0,0.95
3,"{'max_depth': 2, 'min_samples_split': 3}",0.958333,3,0.925,1.0,0.95
4,"{'max_depth': 3, 'min_samples_split': 2}",0.975,1,0.975,1.0,0.95
5,"{'max_depth': 3, 'min_samples_split': 3}",0.975,1,0.975,1.0,0.95


In [53]:
print(grid_dtree.cv_results_['params'])

[{'max_depth': 1, 'min_samples_split': 2}, {'max_depth': 1, 'min_samples_split': 3}, {'max_depth': 2, 'min_samples_split': 2}, {'max_depth': 2, 'min_samples_split': 3}, {'max_depth': 3, 'min_samples_split': 2}, {'max_depth': 3, 'min_samples_split': 3}]


In [54]:
print(grid_dtree.best_estimator_)

DecisionTreeClassifier(max_depth=3)


In [55]:
print(grid_dtree.best_params_)

{'max_depth': 3, 'min_samples_split': 2}


In [59]:
X = [[5.2, 3.2, 1.3, 0.3]]
grid_dtree.predict(X)

array([0])

데이터 수집 -> 탐색적 분석 -> [*데이터 전처리] -> 모델링(학습) -> 평가
평가 결과에 따라 탐색적분석 전이나 모델링전으로 돌아감

# 데이터 전처리
- 데이터 클린징 (3,000 -> 3000 ','제거)
- 결손값 처리 (Null.NaN 처리)
- 데이터 인코딩(레이블, 원-핫 인코딩 -문자로되어있는 것들을 숫자로 바꿔줌)
- 데이터 스케일링 (표준편차)
- 이상치 제거 (outlier)
- Feature 선택, 추출 및 가공

###### 무언가를 바꾸는걸 인코딩 / 바꾼걸 되돌리는게 디코딩
- 문자 -> 숫자 / 숫자 -> 문자