In [None]:
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, precision_score, recall_score
from sklearn.model_selection import KFold
from sklearn.metrics import classification_report
import numpy as np
import pandas as pd

### 교차검증
- train/test로 나누면 과적합이 발생할 확률이 높다.(overfitting)
- 과적합이라는게 무엇이죠?
- 모델을 학습시에 학습 데이터에 너무 과도하게 최적화 된다, -> 실제로 test 데이터로 수행할 때 예측 성능이 과도하게 떨어진다.
- train 정확도 높고 test 정확도 낮고
- train 정확도 낮고 test 정확도 높다.
- 이런 것을 피하기 위해서 교차검증을 진행한다.
- 데이터를 나눈다.
- train, test 외에
- train 데이터를 또 나누는 것 그걸 가지고 검증을 진행한다.

In [None]:
fold_iris = load_iris() # iris 데이터 불러오기기
fold_iris 

{'data': array([[5.1, 3.5, 1.4, 0.2],
        [4.9, 3. , 1.4, 0.2],
        [4.7, 3.2, 1.3, 0.2],
        [4.6, 3.1, 1.5, 0.2],
        [5. , 3.6, 1.4, 0.2],
        [5.4, 3.9, 1.7, 0.4],
        [4.6, 3.4, 1.4, 0.3],
        [5. , 3.4, 1.5, 0.2],
        [4.4, 2.9, 1.4, 0.2],
        [4.9, 3.1, 1.5, 0.1],
        [5.4, 3.7, 1.5, 0.2],
        [4.8, 3.4, 1.6, 0.2],
        [4.8, 3. , 1.4, 0.1],
        [4.3, 3. , 1.1, 0.1],
        [5.8, 4. , 1.2, 0.2],
        [5.7, 4.4, 1.5, 0.4],
        [5.4, 3.9, 1.3, 0.4],
        [5.1, 3.5, 1.4, 0.3],
        [5.7, 3.8, 1.7, 0.3],
        [5.1, 3.8, 1.5, 0.3],
        [5.4, 3.4, 1.7, 0.2],
        [5.1, 3.7, 1.5, 0.4],
        [4.6, 3.6, 1. , 0.2],
        [5.1, 3.3, 1.7, 0.5],
        [4.8, 3.4, 1.9, 0.2],
        [5. , 3. , 1.6, 0.2],
        [5. , 3.4, 1.6, 0.4],
        [5.2, 3.5, 1.5, 0.2],
        [5.2, 3.4, 1.4, 0.2],
        [4.7, 3.2, 1.6, 0.2],
        [4.8, 3.1, 1.6, 0.2],
        [5.4, 3.4, 1.5, 0.4],
        [5.2, 4.1, 1.5, 0.1],
  

In [None]:
features = fold_iris.data
label = fold_iris.target 

In [None]:
dt = DecisionTreeClassifier()

#### Kfold는 train 데이터를 K번 Fold로 나누어서 세트별로 나눈다.

In [None]:
kfold = KFold(n_splits = 5) # 5개의 폴드 세트로 분리하는 객체 생성성

In [None]:
kfold.split(features) # split 메서드로 학습용 / 검증용 데이터로 분할할 수 있는 인덱스 반환

<generator object _BaseKFold.split at 0x7f6d6d11e6d0>

In [None]:
cv_accuracy = []
cv_precision = []
cv_recall = []   # 각 지표값을 담은 빈 리스트 생성성

In [None]:
n_iters = 0

for train_idx, test_idx in kfold.split(features):
  train_input, test_input = features[train_idx], features[test_idx]
  train_target, test_target = label[train_idx], label[test_idx]

  dt.fit(train_input, train_target) # 모델 적합
  preds = dt.predict(test_input) # 예측값

  n_iters += 1
  accuracy = np.round(accuracy_score(test_target, preds),4) 
  precision = np.round(precision_score(test_target, preds),4)
  recall = np.round(recall_score(test_target, preds),4) # 각 지표 값들을 4자리까지 구함
  print('\n{} 교차검증정확도 : {}, 교차검증 precision {}, 교차검증 recall {}'.format(n_iters, accuracy, precision, recall))
  
  cv_accuracy.append(accuracy) 
  cv_precision.append(precision)
  cv_recall.append(recall) # 각 지표값들 해당되는 리스트에 저장


1 교차검증정확도 : 1.0, 교차검증 precision 0.0, 교차검증 recall 0.0

2 교차검증정확도 : 1.0, 교차검증 precision 1.0, 교차검증 recall 1.0

3 교차검증정확도 : 0.8667, 교차검증 precision 1.0, 교차검증 recall 0.8667

4 교차검증정확도 : 0.9333, 교차검증 precision 0.8333, 교차검증 recall 1.0

5 교차검증정확도 : 0.7333, 교차검증 precision 0.0, 교차검증 recall 0.0


  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))


In [None]:
iris_data = load_iris()
iris_df = pd.DataFrame(data = iris_data.data, columns = iris_data.feature_names)
iris_df['target'] = iris_data.target

In [None]:
iris_df.target.value_counts() # target이 3개인 다중분류 문제제

0    50
1    50
2    50
Name: target, dtype: int64

- 이진분류가 아니라 다중분류
- KFold는 클래스에 대한 불균형으로 학습시킨다.
- KFold는 정답 클래스가 불균형하고 이진 분류가 아닌 경우는 문제가 될 수 있다.
- 교차검증을 진행할 때 내가 예측하 class와 해당 y값의 분포를 꼭 확인해야한다.

In [None]:
kfold = KFold(n_splits = 3)
kfold.split(iris_df)

<generator object _BaseKFold.split at 0x7f6d6a115f20>

In [None]:
n_iters = 0

for train_idx, test_idx in kfold.split(iris_df):
    n_iters += 1
    train = iris_df['target'].iloc[train_idx]
    test = iris_df['target'].iloc[test_idx]
    print('교차검증 수 :{}'.format(n_iters))
    print(train.value_counts()) # train에서 class 별 value count
    print(test.value_counts())  # test에서 class 별 value count

교차검증 수 :1
1    50
2    50
Name: target, dtype: int64
0    50
Name: target, dtype: int64
교차검증 수 :2
0    50
2    50
Name: target, dtype: int64
1    50
Name: target, dtype: int64
교차검증 수 :3
0    50
1    50
Name: target, dtype: int64
2    50
Name: target, dtype: int64


- 클래스의 불균형으로 인해서 KFold는 위험할 수 있다.
- 분류문제에서 다중으로 분류하는 경우는 KFold 사용하면 위험하고,
- 클래스의 분포가 불균형인 경우도 KFold를 사용하면 안된다.
- 회귀문제 예측하는 문제들은 상관없다.

### StratifiedKFold
- skf
- 정답에 대한 이슈 0, 1, 2 같은 다중 분류와 
- 클래스에 대한 불균형을 해결하기 위해서 사용한다.

In [None]:
from sklearn.model_selection import StratifiedKFold

In [None]:
skf = StratifiedKFold(n_splits = 3)

In [None]:
n_iters = 0

for train_idx, test_idx in skf.split(iris_df, iris_df['target']): # skf.split은 target도 전달해주어야 함
    n_iters += 1
    train = iris_df['target'].iloc[train_idx]
    test = iris_df['target'].iloc[test_idx]
    print('교차검증 수 :{}'.format(n_iters))
    print(train.value_counts())
    print(test.value_counts())

교차검증 수 :1
2    34
0    33
1    33
Name: target, dtype: int64
0    17
1    17
2    16
Name: target, dtype: int64
교차검증 수 :2
1    34
0    33
2    33
Name: target, dtype: int64
0    17
2    17
1    16
Name: target, dtype: int64
교차검증 수 :3
0    34
1    33
2    33
Name: target, dtype: int64
1    17
2    17
0    16
Name: target, dtype: int64


- 평가지표가 accuarcy, precision, recall, f1 score, AUC 등
- 평가지표는 대부분 이진 분류일 때 작동한다.
- 예측값과 실제 값을 기반으로 True/False

In [None]:
iris_df

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),target
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0
3,4.6,3.1,1.5,0.2,0
4,5.0,3.6,1.4,0.2,0
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,2
146,6.3,2.5,5.0,1.9,2
147,6.5,3.0,5.2,2.0,2
148,6.2,3.4,5.4,2.3,2


In [None]:
features

array([[5.1, 3.5, 1.4, 0.2],
       [4.9, 3. , 1.4, 0.2],
       [4.7, 3.2, 1.3, 0.2],
       [4.6, 3.1, 1.5, 0.2],
       [5. , 3.6, 1.4, 0.2],
       [5.4, 3.9, 1.7, 0.4],
       [4.6, 3.4, 1.4, 0.3],
       [5. , 3.4, 1.5, 0.2],
       [4.4, 2.9, 1.4, 0.2],
       [4.9, 3.1, 1.5, 0.1],
       [5.4, 3.7, 1.5, 0.2],
       [4.8, 3.4, 1.6, 0.2],
       [4.8, 3. , 1.4, 0.1],
       [4.3, 3. , 1.1, 0.1],
       [5.8, 4. , 1.2, 0.2],
       [5.7, 4.4, 1.5, 0.4],
       [5.4, 3.9, 1.3, 0.4],
       [5.1, 3.5, 1.4, 0.3],
       [5.7, 3.8, 1.7, 0.3],
       [5.1, 3.8, 1.5, 0.3],
       [5.4, 3.4, 1.7, 0.2],
       [5.1, 3.7, 1.5, 0.4],
       [4.6, 3.6, 1. , 0.2],
       [5.1, 3.3, 1.7, 0.5],
       [4.8, 3.4, 1.9, 0.2],
       [5. , 3. , 1.6, 0.2],
       [5. , 3.4, 1.6, 0.4],
       [5.2, 3.5, 1.5, 0.2],
       [5.2, 3.4, 1.4, 0.2],
       [4.7, 3.2, 1.6, 0.2],
       [4.8, 3.1, 1.6, 0.2],
       [5.4, 3.4, 1.5, 0.4],
       [5.2, 4.1, 1.5, 0.1],
       [5.5, 4.2, 1.4, 0.2],
       [4.9, 3

In [None]:
# skf 
skf = StratifiedKFold(n_splits = 3)
dt= DecisionTreeClassifier(random_state = 111)

cv_accuracy=[]
cv_precision=[]
cv_recall=[]

n_iters = 0

features = iris_data.data
label = iris_data.target

for train_idx, test_idx in skf.split(features, label):
    train_input, test_input = features[train_idx], features[test_idx]
    train_target, test_target = label[train_idx], label[test_idx]
    
    dt.fit(train_input, train_target)
    preds = dt.predict(test_input)
  
    n_iters += 1 
    accuracy = np.round(accuracy_score(test_target, preds), 4)
    precision = np.round(precision_score(test_target, preds, average = 'macro'), 4)
    recall = np.round(recall_score(test_target, preds, average = 'macro'), 4) # 다중 분류에서 지표 방식은 macro
    print('\n{} 교차검증정확도 : {}, 교차검증 precision {}, 교차검증 recall {}'.format(n_iters, accuracy, precision, recall))
    
    cv_accuracy.append(accuracy)
    cv_precision.append(precision)
    cv_recall.append(recall)


1 교차검증정확도 : 0.98, 교차검증 precision 0.9815, 교차검증 recall 0.9792

2 교차검증정확도 : 0.94, 교차검증 precision 0.9407, 교차검증 recall 0.9387

3 교차검증정확도 : 0.98, 교차검증 precision 0.9815, 교차검증 recall 0.9804


Target is multiclass but average='binary'. Please choose another average setting, one of [None, 'micro', 'macro', 'weighted'].

- 지정을 해주어야 한다.
- 다중분류니깐 평가하는 지표 방식을 선언해 달라!
- macro 

- skf, kf 상관없이
- cross_val_score는 자동으로 다중분류인지 확인하고 처리해준다.

In [None]:
from sklearn.model_selection import cross_val_score, cross_validate

In [None]:
dt = DecisionTreeClassifier(random_state = 111)

In [None]:
scores = cross_val_score(dt, features, label, scoring = 'accuracy', cv = 5)
print(np.round(scores, 4))

[0.9667 0.9667 0.9    0.9667 1.    ]


In [None]:
scores = cross_val_score(dt, features, label, scoring = 'recall', cv = 5) # recall의 산정방식 macro 전달해주어야 함
print(np.round(scores, 4))

[nan nan nan nan nan]


Traceback (most recent call last):
  File "/usr/local/lib/python3.9/dist-packages/sklearn/metrics/_scorer.py", line 115, in __call__
    score = scorer._score(cached_call, estimator, *args, **kwargs)
  File "/usr/local/lib/python3.9/dist-packages/sklearn/metrics/_scorer.py", line 282, in _score
    return self._sign * self._score_func(y_true, y_pred, **self._kwargs)
  File "/usr/local/lib/python3.9/dist-packages/sklearn/metrics/_classification.py", line 2098, in recall_score
    _, r, _, _ = precision_recall_fscore_support(
  File "/usr/local/lib/python3.9/dist-packages/sklearn/metrics/_classification.py", line 1573, in precision_recall_fscore_support
    labels = _check_set_wise_labels(y_true, y_pred, average, labels, pos_label)
  File "/usr/local/lib/python3.9/dist-packages/sklearn/metrics/_classification.py", line 1391, in _check_set_wise_labels
    raise ValueError(
ValueError: Target is multiclass but average='binary'. Please choose another average setting, one of [None, 'micro', 

In [None]:
# 다중분류에서의 recall
scores = cross_val_score(dt, features, label, scoring = 'recall_macro', cv = 5)
print(np.round(scores, 4))

[0.9667 0.9667 0.9    0.9667 1.    ]


- 모델을 입력하는 순간 cross_val은 분류인지 회귀인지 자동으로 확인해준다.
- x, y값을 넣으면 자동으로 클래스 불균형 확인해서 kf, skf 자동으로 바꾸어준다.