### 회귀

#### K-Fold

In [1]:
import numpy as np
import pandas as pd
from sklearn.model_selection import KFold

In [2]:
x_data= np.array([
    [2, 1],
    [3, 2],
    [3, 4],
    [5, 5],
    [7, 5],
    [2, 5],
    [8, 9],
    [9, 10],
    [6, 12],
    [9, 2],
    [6, 10],
    [2, 4]
])

In [3]:
kf= KFold(n_splits= 5)

In [4]:
for tarin_index, test_index in kf.split(x_data):
    print('tarin_index: ', tarin_index)
    print('test_index: ', test_index)

tarin_index:  [ 3  4  5  6  7  8  9 10 11]
test_index:  [0 1 2]
tarin_index:  [ 0  1  2  6  7  8  9 10 11]
test_index:  [3 4 5]
tarin_index:  [ 0  1  2  3  4  5  8  9 10 11]
test_index:  [6 7]
tarin_index:  [ 0  1  2  3  4  5  6  7 10 11]
test_index:  [8 9]
tarin_index:  [0 1 2 3 4 5 6 7 8 9]
test_index:  [10 11]


### K-Fold 교차검증 -> 보통 회귀 문제에 사용
- 학습 데이터와 테스트 데이터를 k개의 세트로 나눠 검증하는 방법
- 데이터 셋이 굉장히 적을 때 훈련 데이터를 어떻게든 최대한 늘리기 위해 사용하는 것
- 여려 개의 훈련 데이터, 테스트 데이터 짝으로 검증

In [5]:
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression

In [6]:
x_data= np.array([
    [2, 1],
    [3, 2],
    [3, 4],
    [5, 5],
    [7, 5],
    [2, 5],
    [8, 9],
    [9, 10],
    [6, 12],
    [9, 2],
    [6, 10],
    [2, 4]
])

In [7]:
y_data= np.array([3, 5, 7, 10, 12, 7, 13, 13, 12, 13, 12, 6])

In [8]:
lr= LinearRegression()

In [9]:
train_scores= []
test_scores=[]

kf= KFold(n_splits= 5)

for train_index, test_index in kf.split(x_data):
    x_train= np.array(x_data)[train_index]
    y_train= np.array(y_data)[train_index]
    x_test= np.array(x_data)[test_index]
    y_test= np.array(y_data)[test_index]
    
    lr= LinearRegression().fit(x_train, y_train)
    score= lr.score(x_train, y_train)
    train_scores.append(score)
    
    score_test= lr.score(x_test, y_test)
    test_scores.append(score_test)
    
print(train_scores)
print(test_scores)

[0.9522707858769932, 0.9469593697441799, 0.9446524178499608, 0.9232432525564045, 0.9166499001004778]
[-1.1475590101753324, 0.56847222331606, 0.0, -11.7747639790487, 0.9602035173350366]


In [10]:
print(np.array(train_scores).mean())
print(np.array(test_scores).mean())

0.9367551452256032
-2.278729449714587


In [11]:
lr.fit(x_data, y_data)

x_test= np.array([
    [4,6]
])

y_predict= lr.predict(x_test)

In [12]:
y_predict

array([8.27950438])

### 계층별 K-겹 교차검증(Stratified K-Fold crss validation)
- 분류 모델에 적용
- K-겹 교차검증은 K-Fold가 원본 데이터 집합의 레이블 분포를 학습 및 검증 데이터 세트에 
  제대로 분배 하지 못하는 문제를 해결해주고, 레이블에 속성 값의 개수를 골고루 넣어줌
  
  (x와 y의 데이터 1000개이고, 그 중 y의 데이터가 0: 800개, 1: 200개를 가지고 있을 때
   y의 값이 한 곳에 몰린 것이 아니라 8:2라는 비율로 골고루 분배가 됨)

In [13]:
from sklearn.model_selection import cross_val_score, StratifiedKFold
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score
from sklearn.datasets import load_iris

In [14]:
iris= load_iris()

In [15]:
lr= LogisticRegression()

In [16]:
skf= StratifiedKFold(n_splits= 5, random_state= 3, shuffle= True)

In [17]:
x= iris.data
y= iris.target

In [18]:
idx_iter= 0
cv_accuracy= []

for train_index, test_index in skf.split(x, y):
    
    x_train, x_test= x[train_index], x[test_index]
    y_train, y_test= y[train_index], y[test_index]
    
    lr.fit(x_train, y_train)
    pred= lr.predict(x_test)
    
    idx_iter += 1 
    accuracy= np.round(accuracy_score(y_test, pred), 4)
    train_size= x_train.shape[0]
    test_size= x_test.shape[0]
    
    print('{0}번째 교차 검증 정확도: {1} \n 학습 데이터 크기: {2} \n 검증 데이터 크기: {3}'.format(idx_iter,
                                                                                                   accuracy,
                                                                                                   train_size,
                                                                                                   test_size))
    
    cv_accuracy.append(accuracy)

1번째 교차 검증 정확도: 1.0 
 학습 데이터 크기: 120 
 검증 데이터 크기: 30
2번째 교차 검증 정확도: 0.9667 
 학습 데이터 크기: 120 
 검증 데이터 크기: 30
3번째 교차 검증 정확도: 0.9 
 학습 데이터 크기: 120 
 검증 데이터 크기: 30
4번째 교차 검증 정확도: 1.0 
 학습 데이터 크기: 120 
 검증 데이터 크기: 30
5번째 교차 검증 정확도: 0.9667 
 학습 데이터 크기: 120 
 검증 데이터 크기: 30


STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(
STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(
STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver opt

In [19]:
print('교차 검증별 정확도: ', np.round(cv_accuracy, 4))
print('평균 검증 정확도: ', np.mean(cv_accuracy))

교차 검증별 정확도:  [1.     0.9667 0.9    1.     0.9667]
평균 검증 정확도:  0.96668


<교차 검증의 장점>
1. test set에 데이터가 최소 한 번씩 들어가기 때문에 모델이 더 잘 일반화 됨
2. 분활을 한 번 했을 때보다 데이터를 더 효과적으로 사용하기에 보다 더 정확한 모델을 만들 수 있음

<교차 검증의 단점>
1. 연산 비용이 늘어남(k개의 모델을 만들어야 함으로 데이터를 한 번 나눴을 때보다 느리다