# 정리할 것 / 숙제
  
* `count_values` : DataFrame 의 Value 값들의 분포 (개수)를 보여줌
* 본 파일 정리 필요  

# K-fold  
  
> <strong>교차검증의 필요성</strong>  
> * 훈련용 데이터와 실제 분석 데이터가 같게 되면 "과대적합"이 발생한다.  
> * 훈련용 데이터에는 잘 예측하지만, 새로운 데이터에 대해서는 정확한 예측을 하지 못하는 경우를 말한다.  
> * 이를 방지하기 위해 train data / test data로 나누어서 학습과 검증을 진행하지만  
> * 이로써도 과대적합 문제가 해결되지 않을 수 있기에 데이터셋을 k개로 나눈 후 교차 검증을 하기도 한다.    
  
> <strong>K-fold</strong>  
> * 데이터셋을 K 개로 나누어 서로 교차검증 (근데 왜 검증이라고 부르는거지?)  
> * K개 중 K-1 개를 학습 데이터로, 나머지 (편의상 1번)을 검증용 데이터로 하여 결과값을 낸다.    
> * K개 중 K-1 개를 학습 데이터로, 2번 데이터를 검증용으로 해 결과값을 낸다.  
> * ... 이를 K 번 반복  
> * K개 중 K-1 개를 학습 데이터로, K번 데이터를 검증용으로 해 결과값을 낸다.  
> * 그러고 난 후, 이 모든 데이터를 평균을 낸 값을 최종 결과값으로 한다.  
    
> <strong>사용법</strong>   
> * 라이브러리 : `sklearn.model_selection import KFold`  
> * 옵션  
> (1) n_split : 몇 개의 데이터셋으로 나눌지  
> (2) shuffle : 원 데이터셋의 순서를 섞을지  
> (3) random_state : 난수 생성 규칙 선택  
> * 메서드  
> (1) .split(데이터셋) : 데이터셋을 위에서 설정한 옵션에 맞게 분할한다.  
> (2) .get_n_splits() : 앞의 Kfold 가 데이터셋을 몇 개로 나누는지 K 를 반환  
> (3) .mro : ??? 모르겠음

* import

In [1]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.datasets import load_iris
from sklearn.metrics import accuracy_score
from sklearn.model_selection import KFold
import numpy as np
import pandas as pd

## K-Fold 기본 사용법  

In [22]:
# 사전 세팅
# (1) 사용할 데이터 셋 세팅
# (2) 사용할 머신러닝 모델 설정

iris = load_iris()
dt_clf = DecisionTreeClassifier(random_state=156)
## 의사결정나무 분류형 모델을 사용할 것임
## random_state : 난수 생성 규칙 / =156 이면 156 번째 난수 생성 법칙을 의미

In [23]:
# K-fold 설정

kfold = KFold(n_splits = 5, shuffle=True)
## K-fold 설정 : 5번 Fold 하는 kfold 생성
## shuffle : 데이터를 섞어줄지 말지 지정 (데이터 몰림 방지)

cv_accuracy = []
n_iter = 0
## 필요 변수 선언

for train_index, test_index in kfold.split(iris.data):
    #kfold(fold 저장값 5) 로 iris데이터셋을 나눈다.
    X_train, X_test = iris.data[train_index], iris.data[test_index]
    y_train, y_test = iris.target[train_index], iris.target[test_index]
    dt_clf.fit(X_train, y_train) # X_train, y_train 데이터로 학습 진행
    pred = dt_clf.predict(X_test)  # X_test 를 예측한다.
    n_iter += 1
    accuracy = accuracy_score(y_test, pred)  # y_test (타겟값 = 답) 과 pred(예측값)간 정확도 비교
    cv_accuracy.append(accuracy)  # 각 회차별 정확도를 cv_accuracy 리스트에 저장
    print(n_iter, accuracy)

1 1.0
2 0.9
3 0.9333333333333333
4 0.9666666666666667
5 0.9


In [24]:
np.round(np.mean(cv_accuracy), 4)
# 5번 kfold 를 진행한 평균 정확도를 살펴보자

0.94

## Stratified K - fold : 분산이 일정한 k-fold
  
* 불균형한 분포도를 가진 레이블 데이터 집합을  
* 최대한 "균등" 한 fold 들로 나누기 위해 사용하는 폴드법  

In [44]:
# st k-fold 를 사용하기 전에, 데이터셋을 한 번 살펴보자!
import pandas as pd

## 밸류값 출력
print(pd.value_counts(iris)), print('\n')
print(pd.value_counts(iris.target))

## 분산 보기
irisnp = pd.DataFrame(iris.target)
print(irisnp.info())
irisnp.describe()

{'data': [[5.1, 3.5, 1.4, 0.2], [4.9, 3.0, 1.4, 0.2], [4.7, 3.2, 1.3, 0.2], [4.6, 3.1, 1.5, 0.2], [5.0, 3.6, 1.4, 0.2], [5.4, 3.9, 1.7, 0.4], [4.6, 3.4, 1.4, 0.3], [5.0, 3.4, 1.5, 0.2], [4.4, 2.9, 1.4, 0.2], [4.9, 3.1, 1.5, 0.1], [5.4, 3.7, 1.5, 0.2], [4.8, 3.4, 1.6, 0.2], [4.8, 3.0, 1.4, 0.1], [4.3, 3.0, 1.1, 0.1], [5.8, 4.0, 1.2, 0.2], [5.7, 4.4, 1.5, 0.4], [5.4, 3.9, 1.3, 0.4], [5.1, 3.5, 1.4, 0.3], [5.7, 3.8, 1.7, 0.3], [5.1, 3.8, 1.5, 0.3], [5.4, 3.4, 1.7, 0.2], [5.1, 3.7, 1.5, 0.4], [4.6, 3.6, 1.0, 0.2], [5.1, 3.3, 1.7, 0.5], [4.8, 3.4, 1.9, 0.2], [5.0, 3.0, 1.6, 0.2], [5.0, 3.4, 1.6, 0.4], [5.2, 3.5, 1.5, 0.2], [5.2, 3.4, 1.4, 0.2], [4.7, 3.2, 1.6, 0.2], [4.8, 3.1, 1.6, 0.2], [5.4, 3.4, 1.5, 0.4], [5.2, 4.1, 1.5, 0.1], [5.5, 4.2, 1.4, 0.2], [4.9, 3.1, 1.5, 0.2], [5.0, 3.2, 1.2, 0.2], [5.5, 3.5, 1.3, 0.2], [4.9, 3.6, 1.4, 0.1], [4.4, 3.0, 1.3, 0.2], [5.1, 3.4, 1.5, 0.2], [5.0, 3.5, 1.3, 0.3], [4.5, 2.3, 1.3, 0.3], [4.4, 3.2, 1.3, 0.2], [5.0, 3.5, 1.6, 0.6], [5.1, 3.8, 1.9, 0.4], 

Unnamed: 0,0
count,150.0
mean,1.0
std,0.819232
min,0.0
25%,0.0
50%,1.0
75%,2.0
max,2.0


In [45]:
# (1) 그냥 k-fold without shuffle

kfold = KFold(n_splits = 5, shuffle=False)

cv_accuracy = []
n_iter = 0

for train_index, test_index in kfold.split(iris.data):   #kfold(fold 저장값 5) 로 iris데이터셋을 나눈다 -> 5개의 데이터셋이 각각 다시 train과 test 데이터셋으로 분할된다.
    # print(train_index)
    # print(test_index)
    X_train, X_test = iris.data[train_index], iris.data[test_index]
    y_train, y_test = iris.target[train_index], iris.target[test_index]
    dt_clf.fit(X_train, y_train) # 분석???
    pred = dt_clf.predict(X_test)  # X_test 를 예측한다.
    n_iter += 1
    accuracy = accuracy_score(y_test, pred)  # y_test (타겟값 = 답) 과 pred(예측값)간 정확도 비교
    cv_accuracy.append(accuracy)  # 각 회차별 정확도를 cv_accuracy 리스트에 저장
    print(n_iter, accuracy)

1 1.0
2 0.9666666666666667
3 0.8666666666666667
4 0.9333333333333333
5 0.7333333333333333


In [46]:
# (2) 그냥 k-fold with shuffle
# 위보다 더 정확도가 좋음을 볼 수 있다.

kfold = KFold(n_splits = 5, shuffle=True)

cv_accuracy = []
n_iter = 0

for train_index, test_index in kfold.split(iris.data):   #kfold(fold 저장값 5) 로 iris데이터셋을 나눈다 -> 5개의 데이터셋이 각각 다시 train과 test 데이터셋으로 분할된다.
    # print(train_index)
    # print(test_index)
    X_train, X_test = iris.data[train_index], iris.data[test_index]
    y_train, y_test = iris.target[train_index], iris.target[test_index]
    dt_clf.fit(X_train, y_train) # 분석???
    pred = dt_clf.predict(X_test)  # X_test 를 예측한다.
    n_iter += 1
    accuracy = accuracy_score(y_test, pred)  # y_test (타겟값 = 답) 과 pred(예측값)간 정확도 비교
    cv_accuracy.append(accuracy)  # 각 회차별 정확도를 cv_accuracy 리스트에 저장
    print(n_iter, accuracy)

1 0.9
2 0.9333333333333333
3 0.9333333333333333
4 0.9666666666666667
5 0.9666666666666667


In [60]:
# (3) st k-fold
# split 되는 데이터셋들이 비슷한 분포가 되도록 섞어 Fold 를 진행한다.
# 더욱 더 높은 정확성을 보인다.

from sklearn.model_selection import StratifiedKFold

kfold = StratifiedKFold(n_splits = 5, shuffle=False)
cv_accuracy = []
n_iter = 0

for train_index, test_index in kfold.split(iris.data, iris.target):   
    # print(train_index)
    # print(test_index)
    X_train, X_test = iris.data[train_index], iris.data[test_index]
    y_train, y_test = iris.target[train_index], iris.target[test_index]
    
    dt_clf.fit(X_train, y_train) # 분석???
    pred = dt_clf.predict(X_test)  # X_test 를 예측한다.
    n_iter += 1
    accuracy = accuracy_score(y_test, pred)  # y_test (타겟값 = 답) 과 pred(예측값)간 정확도 비교
    cv_accuracy.append(accuracy)  # 각 회차별 정확도를 cv_accuracy 리스트에 저장
    
    print(n_iter, "회차" , accuracy)
    print("학습데이터 분포: ", pd.DataFrame(y_train).value_counts())  # 학습데이터 보기 : value_couts = 밸류값들을 카운트해 보여준다 (분포 보기 좋음)
    print("\n")

1 회차 0.9666666666666667
학습데이터 분포:  0    40
1    40
2    40
dtype: int64


2 회차 0.9666666666666667
학습데이터 분포:  0    40
1    40
2    40
dtype: int64


3 회차 0.9
학습데이터 분포:  0    40
1    40
2    40
dtype: int64


4 회차 0.9666666666666667
학습데이터 분포:  0    40
1    40
2    40
dtype: int64


5 회차 1.0
학습데이터 분포:  0    40
1    40
2    40
dtype: int64




## cross_val_score() 교차검증을 간편하게

In [62]:
from sklearn.model_selection import cross_val_score

In [65]:
df_clf = DecisionTreeClassifier(random_state=156)
iris = load_iris()
cross_val_score(df_clf, iris.data, iris.target, cv=3)




array([0.98, 0.94, 0.98])

## GridSearchCV : 교차 검증 + 최적 하이퍼 파라미터 튜닝

> * 하이퍼 파라미터 : 머신러닝이 찾을 수 없는, 사람이 직접 넣어줘야 하는 값  
> eg. K-fold 를 몇 개를 지정해줘야 하는지  
> GridSearchCV는, K-fold의 fold 값 등의 옵션을 자동(최적)으로 지정해준다.  
  
> 하이퍼 파라미터  
> 머신러닝에서는, 하이퍼 파라미터 값에 따라 모델의 성능이 많이 좌지우지된다.  
> 그러므로 하이퍼 파라미터를 어떻게 설정해주느냐가 아주 중요하다.  
  
> GridSearchCV 는 최적화된 하이퍼 파라미터 값을 찾아 자동 적용한다.  
> 하지만 최적의 값을 찾기 위해 여러 번 학습을 반복하므로, 시간이 오래 걸린다.  

In [68]:
from sklearn.model_selection import GridSearchCV
from sklearn.model_selection import train_test_split

In [67]:
grid_param = {
    'max_depth' : [1, 2,3],
    'min_samples_split' : [2, 3],
}

# -> depth  * sample_split 횟수를 반복해, 최적의 분류/회귀값을 보이는 모델을 선택한다.

In [70]:
iris = load_iris()
X_train, X_test, y_train, y_test = train_test_split(iris.data, iris.target, test_size = 0.2, random_state=121)


In [71]:
# fit(학습) 방법에 대한 설정
dtree = DecisionTreeClassifier()
grid_dtree = GridSearchCV(dtree, grid_param, cv=3, refit=True)
# cv값 : 교차검증 횟수
# refit : 가장 좋았던 학습방법을 최종 학습법으로 재 학습시킴

# cv 값 * grid_param 값 인 18개의 결과값이 나올 것임
# -> 이 중 가장 좋은 결과값을 

In [72]:
grid_dtree.fit(X_train, y_train) # X_train과 y_train 데이터셋으로 학습을 시킨다.

GridSearchCV(cv=3, estimator=DecisionTreeClassifier(),
             param_grid={'max_depth': [1, 2, 3], 'min_samples_split': [2, 3]})

In [73]:
grid_dtree.predict(X_test) # 학습된 모델을 토대로 X_test 데이터셋으로 테스트를 진행한다.


array([1, 2, 1, 0, 0, 1, 1, 1, 1, 2, 2, 1, 1, 0, 0, 2, 1, 0, 2, 0, 2, 2,
       1, 1, 1, 1, 0, 0, 2, 2])

In [86]:
print(grid_dtree.best_estimator_) # 가장 좋은 결과값 보였던 모델
print("\n")
print(grid_dtree.best_params_) # 가장 좋은 결과값 보였던 모델의 params
print("\n")
print(grid_dtree.best_score_) # 가장 좋은 결과값 보였던 모델의 score
print("\n")
print(grid_dtree.cv_results_) # 가장 좋은 결과값 보였던 모델에 대한 결과? 설명 -> 이걸 보기 좋게 데이터프레임으로 보자
print("\n")
print(pd.DataFrame(grid_dtree.cv_results_))

DecisionTreeClassifier(max_depth=3)


{'max_depth': 3, 'min_samples_split': 2}


0.975


{'mean_fit_time': array([0.00033212, 0.        , 0.00033641, 0.00033196, 0.00033228,
       0.00033243]), 'std_fit_time': array([0.00046968, 0.        , 0.00047575, 0.00046946, 0.00046991,
       0.00047013]), 'mean_score_time': array([0.        , 0.        , 0.00033077, 0.        , 0.        ,
       0.00033204]), 'std_score_time': array([0.        , 0.        , 0.00046777, 0.        , 0.        ,
       0.00046957]), 'param_max_depth': masked_array(data=[1, 1, 2, 2, 3, 3],
             mask=[False, False, False, False, False, False],
       fill_value='?',
            dtype=object), 'param_min_samples_split': masked_array(data=[2, 3, 2, 3, 2, 3],
             mask=[False, False, False, False, False, False],
       fill_value='?',
            dtype=object), 'params': [{'max_depth': 1, 'min_samples_split': 2}, {'max_depth': 1, 'min_samples_split': 3}, {'max_depth': 2, 'min_samples_split': 2}, {'max

In [89]:
# 가장 좋은 결과값을 보였던 모델을 실제 예측에 적용해보자

pred = grid_dtree.best_estimator_.predict(X_test)
accuracy_score(y_test, pred)

0.9666666666666667