In [12]:
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split
from sklearn.model_selection import KFold
from sklearn.metrics import accuracy_score
import numpy as np
import pandas as pd

In [13]:
fold_iris = load_iris()     # iris 데이터셋을 로드

# 데이터와 라벨로 구분
features = fold_iris.data
label= fold_iris.target

In [14]:
features

array([[5.1, 3.5, 1.4, 0.2],
       [4.9, 3. , 1.4, 0.2],
       [4.7, 3.2, 1.3, 0.2],
       [4.6, 3.1, 1.5, 0.2],
       [5. , 3.6, 1.4, 0.2],
       [5.4, 3.9, 1.7, 0.4],
       [4.6, 3.4, 1.4, 0.3],
       [5. , 3.4, 1.5, 0.2],
       [4.4, 2.9, 1.4, 0.2],
       [4.9, 3.1, 1.5, 0.1],
       [5.4, 3.7, 1.5, 0.2],
       [4.8, 3.4, 1.6, 0.2],
       [4.8, 3. , 1.4, 0.1],
       [4.3, 3. , 1.1, 0.1],
       [5.8, 4. , 1.2, 0.2],
       [5.7, 4.4, 1.5, 0.4],
       [5.4, 3.9, 1.3, 0.4],
       [5.1, 3.5, 1.4, 0.3],
       [5.7, 3.8, 1.7, 0.3],
       [5.1, 3.8, 1.5, 0.3],
       [5.4, 3.4, 1.7, 0.2],
       [5.1, 3.7, 1.5, 0.4],
       [4.6, 3.6, 1. , 0.2],
       [5.1, 3.3, 1.7, 0.5],
       [4.8, 3.4, 1.9, 0.2],
       [5. , 3. , 1.6, 0.2],
       [5. , 3.4, 1.6, 0.4],
       [5.2, 3.5, 1.5, 0.2],
       [5.2, 3.4, 1.4, 0.2],
       [4.7, 3.2, 1.6, 0.2],
       [4.8, 3.1, 1.6, 0.2],
       [5.4, 3.4, 1.5, 0.4],
       [5.2, 4.1, 1.5, 0.1],
       [5.5, 4.2, 1.4, 0.2],
       [4.9, 3

In [15]:
label

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2])

## Decision Tree를 이용한 모델 학습 및 예측

1. train / test 데이터로 split
2. model을 의사결정나무로 하고 model_sp1은 depth를 3으로 설정
3. 두 모델을 학습(fit)하고 X_train, X_test 데이터를 예측한다
4. 예측한 데이터를 y_train, y_test 데이터와의 정확도를 계산한다

In [16]:
X_train, X_test, y_train, y_test = train_test_split(features, label, test_size=0.2, random_state=111)

In [17]:
model = DecisionTreeClassifier()
model_sp1 = DecisionTreeClassifier(random_state=111, max_depth=3)

#모델 학습
model.fit(X_train, y_train) 
model_sp1.fit(X_train, y_train) 

# X train 데이터로 예측 --> test 데이터로 예측
pred_train = model.predict(X_train) #train 예측
pred_test = model.predict(X_test) # test예측

pred_train_sp = model_sp1.predict(X_train) #train 예측
pred_test_sp = model_sp1.predict(X_test) # test예측

In [18]:
# 일반적인 Decision Tree 모델의 예측 정확도

print(accuracy_score(y_train, pred_train))
print(accuracy_score(y_test, pred_test))

1.0
0.9


In [19]:
# depth를 3으로 설정한 Decision Tree 모델의 예측 정확도

print(accuracy_score(y_train, pred_train_sp))
print(accuracy_score(y_test, pred_test_sp))

0.9916666666666667
0.9


1. 일반적으로 Decision Tree 모델을 적용한 경우, 1.0의 예측 정확도가 나왔다 --> 과적합
2. depth를 3으로 설정한 Decision Tree 모델의 경우, 약간의 정확도 감소는 있지만 여전히 과적합이 야기되었다.

## 교차검증(KFold)를 사용하면 과적합이 예방되는가?


In [20]:
from sklearn.model_selection import KFold

kfold = KFold(n_splits=5) # n_splits: 데이터셋을 분할할 세트의 개수 --> 1세트만 test 데이터, 나머지는 train 데이터가 된다
# n_splits는 default로 5이고 이는 train_test_split함수의 'test_size=0.2'와 동일한 역할을 수행한다
# 그러나 5개로 나누어진 부분에서 1개가 test 데이터로 사용되는 것을 총 5번 수행할 수 있어 동일 데이터를 가지고 총 5번의 모델 학습 및 평가가 가능한 것이다

cv_accuracy_train=[]    # train 데이터의 예측 정확도를 저장할 빈 리스트
cv_accuracy_test=[]     # test 데이터의 예측 정확도를 저장할 빈 리스트
kf_model = DecisionTreeClassifier(random_state=111, max_depth=3)    

In [21]:
kfold

KFold(n_splits=5, random_state=None, shuffle=False)

In [38]:
n_iter = 0 # for문의 반복 횟수를 나타내며 초기값으로 0을 설정

for train_idx, test_idx in kfold.split(features):
    X_train, X_test = features[train_idx], features[test_idx]
    y_train, y_test = label[train_idx], label[test_idx]
    
    # 모델 학습
    kf_model.fit(X_train, y_train)
    
    # 예측
    kf_pred_train = kf_model.predict(X_train)
    df_pred_test = kf_model.predict(X_test)
    
    # 정확도를 계산하고 소수점 4자리로 반올림 
    accuracy_train = np.round(accuracy_score(y_train, kf_pred_train),4) 
    accuracy_test = np.round(accuracy_score(y_test, df_pred_test),4)
    # 해당하는 정확도 값을 해당 리스트에 append
    cv_accuracy_train.append(accuracy_train)
    cv_accuracy_test.append(accuracy_test)
    
    n_iter +=1 # 다음 시행을 위한 업데이트
    print('\n{} 번 train 교차 검증 정확도 :{} ,test 교차 검증 정확도 :{} '.format(n_iter,accuracy_train, accuracy_test))

print()
print('train 평균 정확도',round(np.mean(cv_accuracy_train), 4), 'test 평균 정확도',round(np.mean(cv_accuracy_test), 4))


1 번 train 교차 검증 정확도 :0.975 ,test 교차 검증 정확도 :1.0 

2 번 train 교차 검증 정확도 :0.975 ,test 교차 검증 정확도 :0.9667 

3 번 train 교차 검증 정확도 :0.9917 ,test 교차 검증 정확도 :0.8333 

4 번 train 교차 검증 정확도 :0.9833 ,test 교차 검증 정확도 :0.9333 

5 번 train 교차 검증 정확도 :0.975 ,test 교차 검증 정확도 :0.7 

train 평균 정확도 0.98 test 평균 정확도 0.8867


<결과>   
Kfold 적용 전에 (0.9916666666666667, 0.9)였던 정확도가 (0.98, 0.8867)로 감소한 것을 확인할 수 있다.   
그러나 여전히 과적합이 제대로 해결되지 않았다

--> kFold는 데이터 자체가 불균형할 때 모든 fold에서 모든 데이터가 충분히 테스트되지 않을 위험이 존재한다   
--> 그리하여 skFold(stratified k-fold)를 적용하여 데이터가 균형있게 분할될 수 있도록 하여 모델을 학습하고 평가해볼 수 있다

## SK-Fold를 사용하면 과적합이 예방되는가?

In [6]:
from sklearn.model_selection import StratifiedKFold

skf_iris = StratifiedKFold(n_splits=5)      # skFold

skf_cv_accuracy_train = []                  # skfold를 통해 train 데이터로 예측한 정확도를 저장할 빈 리스트
skf_cv_accuracy_test = []                   # skfold를 통해 test 데이터로 예측한 정확도를 저장할 빈 리스트

skf_model = DecisionTreeClassifier(random_state=111, max_depth=3)   # depth가 3인 의사결정 나무 모델 설정

In [45]:
n_iter=0

for train_idx, test_idx in skf_iris.split(features, label):     # skfold의 경우 split에 feature와 label이 둘 다 들어가야 한다
    X_train, X_test = features[train_idx], features[test_idx]
    y_train, y_test = label[train_idx], label[test_idx]
    
    # 학습
    skf_model.fit(X_train, y_train)
    # 예측
    skf_pred_train = skf_model.predict(X_train)
    skf_pred_test = skf_model.predict(X_test)
    
    # 정확도를 계산하고 소수점 4자리로 반올림 
    accuracy_train = np.round(accuracy_score(y_train, skf_pred_train),4)
    accuracy_test = np.round(accuracy_score(y_test, skf_pred_test),4)
    # 해당하는 정확도 값을 해당 리스트에 append
    skf_cv_accuracy_train.append(accuracy_train)
    skf_cv_accuracy_test.append(accuracy_test)
    
    n_iter +=1 # 다음 시행을 위한 업데이트
    print('\n{} 번 train 교차 검증 정확도 :{} ,test 교차 검증 정확도 :{} '.format(n_iter,accuracy_train, accuracy_test))
    
print()
print('train 평균 정확도',round(np.mean(skf_cv_accuracy_train), 4), 'test 평균 정확도',round(np.mean(skf_cv_accuracy_test), 4))


1 번 train 교차 검증 정확도 :0.9583 ,test 교차 검증 정확도 :0.9667 

2 번 train 교차 검증 정확도 :0.975 ,test 교차 검증 정확도 :0.9667 

3 번 train 교차 검증 정확도 :0.9917 ,test 교차 검증 정확도 :0.9333 

4 번 train 교차 검증 정확도 :0.975 ,test 교차 검증 정확도 :0.9333 

5 번 train 교차 검증 정확도 :0.9667 ,test 교차 검증 정확도 :1.0 

train 평균 정확도 0.9733 test 평균 정확도 0.96


<결과>   
Kfold 적용 전 : (0.9916666666666667, 0.9)   
Kfold 적용 후 : (0.98, 0.8867)
SKfold 적용 후 ; (0.9733, 0.96)

여전히 과적합이 제대로 해결되지 않은 것을 확인할 수 있다 

## K-fold와 SK-fold의 차이

K-fold : 랜덤하게 데이터를 추출하기 때문에 데이터의 클래스 비율이 제대로 반영되지 않을 수 있다   
SK-Fold : 데이터가 가진 클래스의 비율을 고려하여 분할될 수 있도록 조정해주기 때문에 분할한 이후에도 클래스의 비율이 반영된

In [3]:
import pandas as pd
iris=load_iris()

iris_df = pd.DataFrame(data=iris.data, columns=iris.feature_names)
iris_df['label'] = iris.target
iris_df

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),label
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0
3,4.6,3.1,1.5,0.2,0
4,5.0,3.6,1.4,0.2,0
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,2
146,6.3,2.5,5.0,1.9,2
147,6.5,3.0,5.2,2.0,2
148,6.2,3.4,5.4,2.3,2


In [4]:
kfold= KFold(n_splits=5) 

for train_idx, test_idx in kfold.split(iris_df):
    
    label_train = iris_df['label'].iloc[train_idx]
    label_test = iris_df['label'].iloc[test_idx]
    
    print('학습 정답 레이블', label_train.value_counts(), '\n')
    print('학습 정답 레이블', label_test.value_counts(), '\n\n')

학습 정답 레이블 label
1    50
2    50
0    20
Name: count, dtype: int64 

학습 정답 레이블 label
0    30
Name: count, dtype: int64 


학습 정답 레이블 label
2    50
1    40
0    30
Name: count, dtype: int64 

학습 정답 레이블 label
0    20
1    10
Name: count, dtype: int64 


학습 정답 레이블 label
0    50
2    50
1    20
Name: count, dtype: int64 

학습 정답 레이블 label
1    30
Name: count, dtype: int64 


학습 정답 레이블 label
0    50
1    40
2    30
Name: count, dtype: int64 

학습 정답 레이블 label
2    20
1    10
Name: count, dtype: int64 


학습 정답 레이블 label
0    50
1    50
2    20
Name: count, dtype: int64 

학습 정답 레이블 label
2    30
Name: count, dtype: int64 




In [8]:
skf_iris = StratifiedKFold(n_splits=5)

for train_idx, test_idx in skf_iris.split(iris_df, iris_df['label']): # skfold의 경우 label값도 주어야 한다
    
    label_train = iris_df['label'].iloc[train_idx]
    label_test = iris_df['label'].iloc[test_idx]
    
    print('학습 정답 레이블', label_train.value_counts(), '\n')
    print('학습 정답 레이블', label_test.value_counts(), '\n\n')

학습 정답 레이블 label
0    40
1    40
2    40
Name: count, dtype: int64 

학습 정답 레이블 label
0    10
1    10
2    10
Name: count, dtype: int64 


학습 정답 레이블 label
0    40
1    40
2    40
Name: count, dtype: int64 

학습 정답 레이블 label
0    10
1    10
2    10
Name: count, dtype: int64 


학습 정답 레이블 label
0    40
1    40
2    40
Name: count, dtype: int64 

학습 정답 레이블 label
0    10
1    10
2    10
Name: count, dtype: int64 


학습 정답 레이블 label
0    40
1    40
2    40
Name: count, dtype: int64 

학습 정답 레이블 label
0    10
1    10
2    10
Name: count, dtype: int64 


학습 정답 레이블 label
0    40
1    40
2    40
Name: count, dtype: int64 

학습 정답 레이블 label
0    10
1    10
2    10
Name: count, dtype: int64 




In [10]:
iris_df['label'].value_counts()

label
0    50
1    50
2    50
Name: count, dtype: int64

iris 데이터의 label에는 0, 1, 2의 세 가지 값이 있으며 각각 50개씩 데이터가 있는 것을 확인할 수 있다   
   
kfold로 train과 test를 분할하여 학습을 시킬 때, 레이블의 분포를 확인해보면 균등하지 않은 것을 알 수 있다   
ex) 50(1), 50(2), 20(0) / 30(0) 으로 train과 test의 레이블이 분할되었고 test의 경우 0의 레이블만 있는 것을 확인할 수 있다   
   
그러나 skfold로 train과 test를 분할하여 학습을 시킬 때, 레이블의 분포가 균등하게 적용되어 있는 것을 확인할 수 있다   
ex) 40(1), 40(2), 40(0) / 10(1), 10(2), 10(0) 으로 train과 test의 레이블이 분할되었디    
    --> 기존의 iris의 레이블이 50, 50, 50으로 균등하기 때문에 5개로 분할된 만큼 40, 10로 균등하게 분할되어 분포되어 있는 것을 확인할 수 있다. 