0730

# 교차 검증 (Cross Validation)

- 모델을 더욱 신뢰성 있게 평가하는 방법
- 데이터셋을 여러 개로 나누고, 각 부분이 한번 씩 검증 데이터로 사용되도록 하는 방법
- 훈련-검증을 반복하며 학습 진행
- 과대적합 방지 효과

### K-fold

In [12]:
from sklearn.datasets import load_iris

# iris_data = load_iris
iris_input, iris_target = load_iris(return_X_y=True)    # 무슨이슈일까 - 영상 보기 

np.unique(iris_target, return_counts=True)

(array([0, 1, 2]), array([50, 50, 50]))

In [13]:
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import KFold
from sklearn.metrics import accuracy_score
import numpy as np 

lr_clf = LogisticRegression()

kfold = KFold(n_splits=5, shuffle=True, random_state=42)

# kfold.split(n_splits=5, shuffle=True, random_state=42)   이건 왜 적은거냐

cv_accuracy=[]

for train_index, val_index in kfold.split(iris_input):
    # print(train_index, val_index)            # 모양 확인 위함
    X_train, y_train = iris_input[train_index], iris_target[train_index]
    X_val, y_val = iris_input[val_index], iris_target[val_index]

    print(np.unique(y_train, return_counts=True))
    print(np.unique(y_val, return_counts=True))                  # 학습데이터와 테스트 데이터의 갯수(비율) 차이가 크다. 
    print("==========================================")

    lr_clf.fit(X_train, y_train)
    y_pred = lr_clf.predict(X_val)
    acc_score = accuracy_score(y_val, y_pred)
    cv_accuracy.append(acc_score)

print('훈련별 정확도:', cv_accuracy)
print('분류모델 정확도:', np.mean(cv_accuracy))

(array([0, 1, 2]), array([40, 41, 39]))
(array([0, 1, 2]), array([10,  9, 11]))
(array([0, 1, 2]), array([37, 40, 43]))
(array([0, 1, 2]), array([13, 10,  7]))
(array([0, 1, 2]), array([38, 40, 42]))
(array([0, 1, 2]), array([12, 10,  8]))
(array([0, 1, 2]), array([42, 40, 38]))
(array([0, 1, 2]), array([ 8, 10, 12]))
(array([0, 1, 2]), array([43, 39, 38]))
(array([0, 1, 2]), array([ 7, 11, 12]))
훈련별 정확도: [1.0, 1.0, 0.9333333333333333, 0.9666666666666667, 0.9666666666666667]
분류모델 정확도: 0.9733333333333334


### Stratified-K-Fold

In [None]:
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import StratifiedKFold
from sklearn.metrics import accuracy_score
import numpy as np 

lr_clf = LogisticRegression()

stratified_kfold = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)


cv_accuracy=[]

for train_index, val_index in stratified_kfold.split(iris_input, iris_target):       # stratifiedKFold 는 동일한 비율로 나눠줘야 하기 때문에 타겟 데이터도 알아야함. 
    X_train, y_train = iris_input[train_index], iris_target[train_index]
    X_val, y_val = iris_input[val_index], iris_target[val_index]

    print(np.unique(y_train, return_counts=True))
    print(np.unique(y_val, return_counts=True))                 
    print("==========================================")

    lr_clf.fit(X_train, y_train)
    y_pred = lr_clf.predict(X_val)
    acc_score = accuracy_score(y_val, y_pred)
    cv_accuracy.append(acc_score)

print('훈련별 정확도:', cv_accuracy)
print('분류모델 정확도:', np.mean(cv_accuracy)) # 데이터 샘플링 편향이 심할 경우, stratifiadkfold와 kfold 값이 차이가 심함

(array([0, 1, 2]), array([40, 40, 40]))
(array([0, 1, 2]), array([10, 10, 10]))
(array([0, 1, 2]), array([40, 40, 40]))
(array([0, 1, 2]), array([10, 10, 10]))
(array([0, 1, 2]), array([40, 40, 40]))
(array([0, 1, 2]), array([10, 10, 10]))
(array([0, 1, 2]), array([40, 40, 40]))
(array([0, 1, 2]), array([10, 10, 10]))
(array([0, 1, 2]), array([40, 40, 40]))
(array([0, 1, 2]), array([10, 10, 10]))
훈련별 정확도: [1.0, 0.9666666666666667, 0.9333333333333333, 1.0, 0.9333333333333333]
분류모델 정확도: 0.9666666666666668


STOP: TOTAL NO. OF ITERATIONS REACHED LIMIT

Increase the number of iterations to improve the convergence (max_iter=100).
You might also want to scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(
STOP: TOTAL NO. OF ITERATIONS REACHED LIMIT

Increase the number of iterations to improve the convergence (max_iter=100).
You might also want to scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


### cross_val_score
- 교차 검증을 통해 모델 성능을 평가하는 함수 
- 내부적으로 지정한 횟수만큼 학습/검증을 나누어 반복 처리 

In [None]:
from sklearn.model_selection import cross_val_score

lr_clf = LogisticRegression(max_iter=1000)

# 첫번째 인자: 모델 
# 두번째 인자: 입력 데이터 (X 데이터)
# 세번쨰 인자: 타겟 데이터 (y 데이터)
# cv: 반복 횟수(KFold 사용, StratifidKFold 객체 전달 가능)
# scoring: 평가 지표(accuracy, precision, recall, f1)
# 반환값 = 반복한 훈련별 검증 점수 '배열'
scores = cross_val_score(lr_clf, iris_input, iris_target, cv=5, scoring='accuracy')          #cross_val_score는 scoring 방법을 하나만 사용가능함. 

print('훈련별 정확도: ', scores)
print('모델 정확도:', np.mean(scores))


훈련별 정확도:  [0.96666667 1.         0.93333333 0.96666667 1.        ]
모델 정확도: 0.9733333333333334


In [21]:
from sklearn.model_selection import cross_validate

lr_clf = LogisticRegression(max_iter=1000)

scores = cross_validate(lr_clf, iris_input, iris_target, cv=5, scoring=['accuracy', 'f1_macro'], return_train_score=True)   # return_train_score : 여러지표에 대한 시간 반환

scores

# lr_clf.predict(iris_input)  # notfittederror : cross_validate은 검증, 평가만 진행하고 모델을 반환하지는 않음. 

{'fit_time': array([0.03341651, 0.02687621, 0.00917244, 0.        , 0.00997281]),
 'score_time': array([0.00200009, 0.00201654, 0.00305915, 0.01319575, 0.00100136]),
 'test_accuracy': array([0.96666667, 1.        , 0.93333333, 0.96666667, 1.        ]),
 'train_accuracy': array([0.96666667, 0.96666667, 0.98333333, 0.98333333, 0.975     ]),
 'test_f1_macro': array([0.96658312, 1.        , 0.93265993, 0.96658312, 1.        ]),
 'train_f1_macro': array([0.96664582, 0.96664582, 0.98333333, 0.98332291, 0.97499609])}