## 교차 검증
- (1) K Fold
- (2) Stratified 검증
- (3) cross_val_score() > 검증을 할 수 있도록 도와주는 함수


In [2]:
# (1) K Fold
import numpy as np
from sklearn.datasets import load_iris
from sklearn.model_selection import KFold
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score

#데이터 로드
iris = load_iris()
train_data = iris.data
train_target = iris.target

# 모델 학습 및 평가 함수 정의
def train_and_evaluate(train_index, test_index, model, train_data, train_target):
    # 학습 및 검증 데이터 분리
    X_train, X_test = train_data[train_index], train_data[test_index]
    y_train, y_test = train_target[train_index], train_target[test_index]

    # 모델 학습 및 예측
    model.fit(X_train, y_train)
    predictions = model.predict(X_test)

    # 정확도 계산
    accuracy = accuracy_score(y_test, predictions)
    return accuracy, X_train.shape[0], X_test.shape[0], test_index

# K-Fold 교차 검증 설정
kfold = KFold(n_splits=5)
cv_accuracy = []
dt_clf = DecisionTreeClassifier()

# K-Fold 교차 검증 수행
for fold, (train_index, test_index) in enumerate(kfold.split(train_data), 1):
    accuracy, train_size, test_size, test_idx = train_and_evaluate(
        train_index, test_index, dt_clf, train_data, train_target
    )
    cv_accuracy.append(accuracy)

    print(f"{fold}번째 트레이닝")
    print(f"검증 정확도: {accuracy}, 학습데이터 크기: {train_size}, 검증 데이터 크기: {test_size}")
    print(f"검증 데이터 셋 인덱스 값: {test_idx}")
    print("===" * 10)

# 최종 정확도 평균 출력
print("최종 정확도 평균 값: ", np.mean(cv_accuracy))




1번째 트레이닝
검증 정확도: 1.0, 학습데이터 크기: 120, 검증 데이터 크기: 30
검증 데이터 셋 인덱스 값: [ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
 24 25 26 27 28 29]
2번째 트레이닝
검증 정확도: 0.9666666666666667, 학습데이터 크기: 120, 검증 데이터 크기: 30
검증 데이터 셋 인덱스 값: [30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53
 54 55 56 57 58 59]
3번째 트레이닝
검증 정확도: 0.9, 학습데이터 크기: 120, 검증 데이터 크기: 30
검증 데이터 셋 인덱스 값: [60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83
 84 85 86 87 88 89]
4번째 트레이닝
검증 정확도: 0.9333333333333333, 학습데이터 크기: 120, 검증 데이터 크기: 30
검증 데이터 셋 인덱스 값: [ 90  91  92  93  94  95  96  97  98  99 100 101 102 103 104 105 106 107
 108 109 110 111 112 113 114 115 116 117 118 119]
5번째 트레이닝
검증 정확도: 0.7333333333333333, 학습데이터 크기: 120, 검증 데이터 크기: 30
검증 데이터 셋 인덱스 값: [120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137
 138 139 140 141 142 143 144 145 146 147 148 149]
최종 정확도 평균 값:  0.9066666666666666


In [5]:
# (2) Strtified KFold
import numpy as np
from sklearn.datasets import load_iris
from sklearn.model_selection import StratifiedKFold
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score

# 데이터 로드
iris = load_iris()
features = iris.data
label = iris.target

# 모델 초기화
dt_clf = DecisionTreeClassifier(random_state=156)

# 모델 학습 및 평가 함수 정의
def train_and_evaluate(train_index, test_index, model, features, label):
    # 학습 및 검증 데이터 분리
    X_train, X_test = features[train_index], features[test_index]
    y_train, y_test = label[train_index], label[test_index]

    # 모델 학습 및 예측
    model.fit(X_train, y_train)
    predictions = model.predict(X_test)

    # 정확도 계산
    accuracy = np.round(accuracy_score(y_test, predictions), 4)
    return accuracy, X_train.shape[0], X_test.shape[0], test_index

# Stratified K-Fold 교차 검증 실험
skfold = StratifiedKFold(n_splits=3)
cv_accuracy = []

# Stratified K-Fold 교차 검증 수행
for fold, (train_index, test_index) in enumerate(skfold.split(features, label), 1):
    accuracy, train_size, test_size, test_idx = train_and_evaluate(
        train_index, test_index, dt_clf, features, label
    )
    cv_accuracy.append(accuracy)

    # 출력 메세지 변경
    print(f"{fold}번째 트레이닝")
    print(f"검증 정확도: {accuracy}, 학습 데이터 크기: {train_size}, 검증 데이터 크기: {test_size}")
    print(f"검증 데이터 셋 인덱스 값: {test_idx}")
    print("===" * 10)

print("\n최종 정확도 평균 값: ", np.mean(cv_accuracy))


1번째 트레이닝
검증 정확도: 0.98, 학습 데이터 크기: 100, 검증 데이터 크기: 50
검증 데이터 셋 인덱스 값: [  0   1   2   3   4   5   6   7   8   9  10  11  12  13  14  15  16  50
  51  52  53  54  55  56  57  58  59  60  61  62  63  64  65  66 100 101
 102 103 104 105 106 107 108 109 110 111 112 113 114 115]
2번째 트레이닝
검증 정확도: 0.94, 학습 데이터 크기: 100, 검증 데이터 크기: 50
검증 데이터 셋 인덱스 값: [ 17  18  19  20  21  22  23  24  25  26  27  28  29  30  31  32  33  67
  68  69  70  71  72  73  74  75  76  77  78  79  80  81  82 116 117 118
 119 120 121 122 123 124 125 126 127 128 129 130 131 132]
3번째 트레이닝
검증 정확도: 0.98, 학습 데이터 크기: 100, 검증 데이터 크기: 50
검증 데이터 셋 인덱스 값: [ 34  35  36  37  38  39  40  41  42  43  44  45  46  47  48  49  83  84
  85  86  87  88  89  90  91  92  93  94  95  96  97  98  99 133 134 135
 136 137 138 139 140 141 142 143 144 145 146 147 148 149]

최종 정확도 평균 값:  0.9666666666666667


In [7]:
# (3) cross_val_score()
import numpy as np
from sklearn.datasets import load_iris
from sklearn.model_selection import cross_val_score
from sklearn.tree import DecisionTreeClassifier

iris_data = load_iris()
dt_clf = DecisionTreeClassifier(random_state=156)

data = iris_data.data # x
label = iris_data.target # y
scores = cross_val_score(dt_clf , data , label , scoring='accuracy', cv=3) # scoring=평가지표, cv=교차검증폴드

# print(scores, type(scores))
print('교차 검증별 정확도: ', np.round(scores, 4))
print('평균 검증 정확도 ', np.round(np.mean(scores), 4))



교차 검증별 정확도:  [0.98 0.94 0.98]
평균 검증 정확도  0.9667


### 데이터 인코딩
- 1. Label Encoding
- 2. OneHot Encoding
- 3. GetDeummies - pd의 df를 활용한 방법



In [9]:
from sklearn.preprocessing import LabelEncoder

items=['강남구','서초구','송파구','노원구','마포구','마포구','용산구','용산구']

#LabelEncoder를 객체로 생성한 후 , fit() 과 transform()으로 label 인코딩 수행.
encoder = LabelEncoder()
encoder.fit(items)
label = encoder.transform(items)
print('인코딩 변환값: ', label) # 문자열 값 > 숫자형 값으로 변경 (Label Encoding)

인코딩 변환값:  [0 3 4 1 2 2 5 5]


In [10]:
from sklearn.preprocessing import OneHotEncoder
import numpy as np

items=['강남구','서초구','송파구','노원구','마포구','마포구','용산구','용산구']

# 2차원 ndarray로 변환
# reshape() 함수의 첫 번째 인자로 -1을 주면 해당 차원의 크기를 자동으로 계산하여 맞춤
# 두 번째 인자로 1을 주면 열의 크기를 1로 지정하여 결과적으로 1개의 열로 이루어진 2차원 배열을 생성
# 이렇게 2차원 배열로 변환된 데이터는 머신 러닝 모델에 입력으로 사용하기에 적합한 형태가 됨
# 머신 러닝 모델은 입력으로 2차원 배열을 기대하므로, 데이터를 이와 같은 형태로 변환하여 모델에 사용해야 ㅎ함
items = np.array(items).reshape(-1, 1)

# 원-핫 인코딩을 적용
oh_encoder = OneHotEncoder()
oh_encoder.fit(items)
oh_labels = oh_encoder.transform(items)

# OneHotEncoder로 변환된 결과는 최소행열(Sparse Matrix)이므로 toarray()를 이용하여 밀집 행렬(Dense Matrix)로 변환
print('원-핫 인코딩 데이터')
print(oh_labels.toarray())
print('원-핫 인코딩 데이터 차원')
print(oh_labels.shape)

원-핫 인코딩 데이터
[[1. 0. 0. 0. 0. 0.]
 [0. 0. 0. 1. 0. 0.]
 [0. 0. 0. 0. 1. 0.]
 [0. 1. 0. 0. 0. 0.]
 [0. 0. 1. 0. 0. 0.]
 [0. 0. 1. 0. 0. 0.]
 [0. 0. 0. 0. 0. 1.]
 [0. 0. 0. 0. 0. 1.]]
원-핫 인코딩 데이터 차원
(8, 6)


In [16]:
# df.get_dummies
import pandas as pd

df= pd.DataFrame({'item':['강남구','서초구','송파구','노원구','마포구','마포구','용산구','용산구']})

pd.get_dummies(df)


Unnamed: 0,item_강남구,item_노원구,item_마포구,item_서초구,item_송파구,item_용산구
0,1,0,0,0,0,0
1,0,0,0,1,0,0
2,0,0,0,0,1,0
3,0,1,0,0,0,0
4,0,0,1,0,0,0
5,0,0,1,0,0,0
6,0,0,0,0,0,1
7,0,0,0,0,0,1


In [19]:
import pandas as pd

data = {'Fruit': ['Apple', 'Banana', 'Cherry', 'Apple', 'Cherry'],
        'Color': ['Red', 'Yellow', 'Red', 'Green', 'Red']}
df = pd.DataFrame(data)
df_encoded = pd.get_dummies(df, columns=['Fruit', 'Color'], prefix=['Fruit', 'Color'])
df_encoded

Unnamed: 0,Fruit_Apple,Fruit_Banana,Fruit_Cherry,Color_Green,Color_Red,Color_Yellow
0,1,0,0,0,1,0
1,0,1,0,0,0,1
2,0,0,1,0,1,0
3,1,0,0,1,0,0
4,0,0,1,0,1,0
