## Iris 데이터

In [10]:
from sklearn.datasets import load_iris

iris_data = load_iris()

print("<feature_names>")
print(iris_data.feature_names)

print("<data>")
print(iris_data.data)

print("<target_names>")
print(iris_data.target_names)

print("<target>")
print(iris_data.target)

<feature_names>
['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']
<data>
[[5.1 3.5 1.4 0.2]
 [4.9 3.  1.4 0.2]
 [4.7 3.2 1.3 0.2]
 [4.6 3.1 1.5 0.2]
 [5.  3.6 1.4 0.2]
 [5.4 3.9 1.7 0.4]
 [4.6 3.4 1.4 0.3]
 [5.  3.4 1.5 0.2]
 [4.4 2.9 1.4 0.2]
 [4.9 3.1 1.5 0.1]
 [5.4 3.7 1.5 0.2]
 [4.8 3.4 1.6 0.2]
 [4.8 3.  1.4 0.1]
 [4.3 3.  1.1 0.1]
 [5.8 4.  1.2 0.2]
 [5.7 4.4 1.5 0.4]
 [5.4 3.9 1.3 0.4]
 [5.1 3.5 1.4 0.3]
 [5.7 3.8 1.7 0.3]
 [5.1 3.8 1.5 0.3]
 [5.4 3.4 1.7 0.2]
 [5.1 3.7 1.5 0.4]
 [4.6 3.6 1.  0.2]
 [5.1 3.3 1.7 0.5]
 [4.8 3.4 1.9 0.2]
 [5.  3.  1.6 0.2]
 [5.  3.4 1.6 0.4]
 [5.2 3.5 1.5 0.2]
 [5.2 3.4 1.4 0.2]
 [4.7 3.2 1.6 0.2]
 [4.8 3.1 1.6 0.2]
 [5.4 3.4 1.5 0.4]
 [5.2 4.1 1.5 0.1]
 [5.5 4.2 1.4 0.2]
 [4.9 3.1 1.5 0.2]
 [5.  3.2 1.2 0.2]
 [5.5 3.5 1.3 0.2]
 [4.9 3.6 1.4 0.1]
 [4.4 3.  1.3 0.2]
 [5.1 3.4 1.5 0.2]
 [5.  3.5 1.3 0.3]
 [4.5 2.3 1.3 0.3]
 [4.4 3.2 1.3 0.2]
 [5.  3.5 1.6 0.6]
 [5.1 3.8 1.9 0.4]
 [4.8 3.  1.4 0.3]
 [5.1 3.8 1.6 0.2]
 

## Model Selection - 학습 데이터와 테스트 데이터

- 학습 데이터 셋
    - 머신러닝 알고리즘의 학습을 위해 사용
    - 데이터의 속성과 결정값(레이블)을 모두 가지고 있음
    - 학습 데이터를 기반으로 데이터의 속성과 결정값의 패턴을 인지하고 학습
- 테스트 데이터 셋
    - 학습된 머신러닝 알고리즘을 테스트
    - `학습 데이터 셋과 별개로 제공되어야함`

In [20]:
from sklearn.metrics import accuracy_score
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split

# 학습 데이터셋, 테스트 데이터셋 분리
X_train, X_test, y_train, y_test = train_test_split(iris_data.data, iris_data.target, test_size=0.3)

# model 학습
dt_clf = DecisionTreeClassifier()
dt_clf.fit(X_train, y_train)

# 예측치를 테스트셋 타겟과 비교
score = dt_clf.predict(X_test)
print(f"예측 정확도: {accuracy_score(y_test, score)}")

예측 정확도: 0.9555555555555556


## 교차 검증 - K-Fold, Stratified K-Fold

- 나뉘어진 학습 데이터 셋을 추가로 학습 데이터 셋과 검증 데이터 셋으로 나눈다.-
- Stratified K-Fold
    - 일반적으로 사용되는 K-Fold 방식
    - 불균형한 분포도를 가진 레이블 데이터 셋을 위한 K-Fold 방식
        - e.g.) 0: 19900건, 1: 100건
    - 학습 데이터셋과 검증 데이터셋이 가지는 레이블 분포도가 유사하도록 검증 데이터를 추출한다.

### K-Fold

In [39]:
from sklearn.model_selection import KFold
import numpy as np

dt_clf = DecisionTreeClassifier()
kfold = KFold(n_splits=5)

cv_accuracy = []

i = 1
for train_index, test_index in kfold.split(iris_data.data):
    print(f">> {i}번 째")
    print(f"train_index: {train_index}")
    print(f"test_index: {test_index}")
    i += 1

    X_train, X_test = iris_data.data[train_index], iris_data.data[test_index]
    y_train, y_test = iris_data.target[train_index], iris_data.target[test_index]

    dt_clf.fit(X_train, y_train)
    score = dt_clf.predict(X_test)
    accuracy = accuracy_score(y_test, score)

    cv_accuracy.append(accuracy)

print("==============================")
print(f"정확도: {cv_accuracy}")
print(f"평균 정확도: {np.mean(cv_accuracy)}")

>> 1번 째
train_index: [ 30  31  32  33  34  35  36  37  38  39  40  41  42  43  44  45  46  47
  48  49  50  51  52  53  54  55  56  57  58  59  60  61  62  63  64  65
  66  67  68  69  70  71  72  73  74  75  76  77  78  79  80  81  82  83
  84  85  86  87  88  89  90  91  92  93  94  95  96  97  98  99 100 101
 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119
 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137
 138 139 140 141 142 143 144 145 146 147 148 149]
test_index: [ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
 24 25 26 27 28 29]
>> 2번 째
train_index: [  0   1   2   3   4   5   6   7   8   9  10  11  12  13  14  15  16  17
  18  19  20  21  22  23  24  25  26  27  28  29  60  61  62  63  64  65
  66  67  68  69  70  71  72  73  74  75  76  77  78  79  80  81  82  83
  84  85  86  87  88  89  90  91  92  93  94  95  96  97  98  99 100 101
 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119


### Stratified K-Fold


In [49]:
# K-Fold 사용시 데이터 분포 문제
import pandas as pd

iris_df = pd.DataFrame(data=iris_data.data, columns=iris_data.feature_names)
iris_df["label"] = iris_data.target

kfold = KFold(n_splits=3)
i = 1
for train_index, test_index in kfold.split(iris_df):
    print(f">> {i}번 째")
    print(f'학습셋 데이터 분포: {iris_df["label"][train_index].value_counts()}')
    print(f'검증셋 데이터 분포: {iris_df["label"][test_index].value_counts()}')
    i += 1

>> 1번 째
학습셋 데이터 분포: label
1    50
2    50
Name: count, dtype: int64
검증셋 데이터 분포: label
0    50
Name: count, dtype: int64
>> 2번 째
학습셋 데이터 분포: label
0    50
2    50
Name: count, dtype: int64
검증셋 데이터 분포: label
1    50
Name: count, dtype: int64
>> 3번 째
학습셋 데이터 분포: label
0    50
1    50
Name: count, dtype: int64
검증셋 데이터 분포: label
2    50
Name: count, dtype: int64


In [52]:
from sklearn.model_selection import StratifiedKFold

dt_clf = DecisionTreeClassifier()

# StratifiedKFold를 통해 데이터 분포를 고르게 한다
skf = StratifiedKFold(n_splits=3)
cv_accuracy = []
i = 1
for train_index, test_index in skf.split(iris_df, iris_df["label"]):
    print(f">> {i}번 째")
    print(f'학습셋 데이터 분포: {iris_df["label"][train_index].value_counts()}')
    print(f'검증셋 데이터 분포: {iris_df["label"][test_index].value_counts()}')
    i += 1

    X_train, X_test = iris_data.data[train_index], iris_data.data[test_index]
    y_train, y_test = iris_data.target[train_index], iris_data.target[test_index]

    dt_clf.fit(X_train, y_train)
    score = dt_clf.predict(X_test)
    accuracy = accuracy_score(y_test, score)
    cv_accuracy.append(accuracy)

print("==============================")
print(f"정확도: {cv_accuracy}")
print(f"평균 정확도: {np.mean(cv_accuracy)}")

>> 1번 째
학습셋 데이터 분포: label
2    34
0    33
1    33
Name: count, dtype: int64
검증셋 데이터 분포: label
0    17
1    17
2    16
Name: count, dtype: int64
>> 2번 째
학습셋 데이터 분포: label
1    34
0    33
2    33
Name: count, dtype: int64
검증셋 데이터 분포: label
0    17
2    17
1    16
Name: count, dtype: int64
>> 3번 째
학습셋 데이터 분포: label
0    34
1    33
2    33
Name: count, dtype: int64
검증셋 데이터 분포: label
1    17
2    17
0    16
Name: count, dtype: int64
정확도: [0.98, 0.92, 1.0]
평균 정확도: 0.9666666666666667


### cross_val_score - 교차 검증을 보다 간편하게

- KFold의 template 코드를 `cross_val_score를` 통해 단순화 시킨다.

In [7]:
from sklearn.model_selection import cross_val_score
from sklearn.tree import DecisionTreeClassifier
from sklearn.datasets import load_iris
import numpy as np

iris_data = load_iris()
feature = iris_data.data
label = iris_data.target

dt_clf = DecisionTreeClassifier()

scores = cross_val_score(  # StratifiedKFold를 사용
    estimator=dt_clf,
    X=feature,
    y=label,
    scoring="accuracy",  # 성능 지표: 정확도
    cv=3,  # 교차 검증 세트 수: 3개
)

## 데이터 확인
print(f"정확도: {scores}")
print(f"교차 검증별 정확도: {np.mean(scores)}")
print(f"평균 검증 정확도: {np.round(np.mean(scores), 4)}")

정확도: [0.98 0.92 0.98]
교차 검증별 정확도: 0.96
평균 검증 정확도: 0.96


### GridSearchCV

- 하이퍼 파라미터를 순차적으로 입력하면서
  최적의 파라미터를 도출할 수 있는 방안을 제공한다

In [13]:
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.datasets import load_iris
import pandas as pd

iris_data = load_iris()
X_train, X_test, y_train, y_test = train_test_split(iris_data.data, iris_data.target, test_size=0.2)

grid_dt = GridSearchCV(
    estimator=DecisionTreeClassifier(),
    param_grid={
        "max_depth": [1, 2, 3],
        "min_samples_split": [2, 3],
    },
    cv=3,
    refit=True,  # 가장 좋은 파라미터 기준으로 재학습 실행 여부
    return_train_score=True,
)
# 학습 데이터 셋으로 하이퍼 파라미터들을 순차적으로 학습 및 평가
grid_dt.fit(X_train, y_train)

# 모델 평가
scores_df = pd.DataFrame(grid_dt.cv_results_)
display(scores_df)
print(f"최적 파라미터: {grid_dt.best_params_}")
print(f"최고 정확도: {grid_dt.best_score_}")

Unnamed: 0,mean_fit_time,std_fit_time,mean_score_time,std_score_time,param_max_depth,param_min_samples_split,params,split0_test_score,split1_test_score,split2_test_score,mean_test_score,std_test_score,rank_test_score,split0_train_score,split1_train_score,split2_train_score,mean_train_score,std_train_score
0,0.000354,0.000201,0.000236,0.000102,1,2,"{'max_depth': 1, 'min_samples_split': 2}",0.675,0.675,0.675,0.675,1.110223e-16,5,0.7,0.6875,0.6875,0.691667,0.005893
1,0.000194,2e-06,0.000155,3e-06,1,3,"{'max_depth': 1, 'min_samples_split': 3}",0.675,0.675,0.675,0.675,1.110223e-16,5,0.7,0.6875,0.6875,0.691667,0.005893
2,0.000203,4e-06,0.000152,2e-06,2,2,"{'max_depth': 2, 'min_samples_split': 2}",0.9,0.925,0.9,0.908333,0.01178511,2,0.9875,0.9625,0.9875,0.979167,0.011785
3,0.000194,5e-06,0.000143,2e-06,2,3,"{'max_depth': 2, 'min_samples_split': 3}",0.9,0.925,0.9,0.908333,0.01178511,2,0.9875,0.9625,0.9875,0.979167,0.011785
4,0.000203,5e-06,0.000147,3e-06,3,2,"{'max_depth': 3, 'min_samples_split': 2}",0.9,0.9,0.9,0.9,0.0,4,0.9875,0.975,0.9875,0.983333,0.005893
5,0.000193,4e-06,0.000143,4e-06,3,3,"{'max_depth': 3, 'min_samples_split': 3}",0.9,1.0,0.9,0.933333,0.04714045,1,0.9875,0.975,0.9875,0.983333,0.005893


최적 파라미터: {'max_depth': 3, 'min_samples_split': 3}
최고 정확도: 0.9333333333333332


In [17]:
from sklearn.metrics import accuracy_score

# `refit=True` 옵션을 준 경우 GridSearchCV 자체적으로 predict를 수행할 수 있음
y_pred = grid_dt.predict(X_test)
score = accuracy_score(y_test, y_pred)
print(score)

# 혹은 best_estimator_를 사용할 수 있음
y_pred = grid_dt.best_estimator_.predict(X_test)
score = accuracy_score(y_test, y_pred)
print(score)


0.9666666666666667
0.9666666666666667
