# 사이킷런으로 시작하는 머신러닝

분류는 대표적인 지도학습 방법의 하나<br>
지도학습은 학습을 위한 다양한 피처와 분류 결정값인 레이블 데이터로 모델을 학습한 뒤, 별도의 테스트 데이터 세트에서 미지의 레이블을 예측 <br>
즉 지도학습은 명확한 정답이 주어진 데이터를 먼저 학습한 뒤, 미지의 정답을 예측하는 방식 <br>
학습을 위해 주어진 데이터 세트; 학습 데이터 세트 / 머신러닝 모델의 예측 성능을 평가하기 위해 별도로 주어진 데이터 세트; 테스트 데이터 세트 

- sklearn.datasets <br>
: 사이킷런에서 자체적으로 제공하는 데이터 세트를 생성하는 모듈의 모임<br>
- sklearn.tree<br>
: 트리 기반 ML 알고리즘을 구현한 클래스의 모임 <br>
- sklearn.model_selection<br>
: 학습 데이터와 검증 데이터, 예측 데이터로 데이터를 분리하거나 / 최적의 하이퍼 파라미터로 평가하기 위한 다양한 모듈의 모임<br>

하이퍼 파라미터<br>
: 머신러닝 알고리즘별로 최적의 학습을 위해 직접 입력하는 파라미터들을 통칭<br>
: 하이퍼 파라미터를 통해 머신러닝 알고리즘의 성능을 튜닝할 수 있음<br>

In [1]:
import sklearn

In [2]:
print(sklearn.__version__)

1.0.2


## * 첫 번째 머신러닝 만들어 보기 - 붓꽃 품종 예측하기 

1. 데이터 세트 분리 : 데이터를 학습 데이터와 테스트 데이터로 분리
2. 모델 학습 : 학습 데이터를 기반으로 ML 알고리즘을 적용해 모델을 학습
3. 예측 수행 : 학습된 ML 모델을 이용해 테스트 데이터의 분류 (즉 붓꽃 종류)를 예측
4. 평가 : 이렇게 예측된 결과값과 테스트 데이터의 실제 결괏값을 비교해 ML 모델 성능을 평가

In [3]:
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split

In [7]:
import pandas as pd

#붓꽃 데이터 세트를 로딩합니다 
iris = load_iris()

#iris.data는 iris 데이터 세트에서 피처(feature)만으로 된 데이터를 numpy로 가지고 있습니다
iris_data = iris.data
#iris.target은 iris 데이터 세트에서 레이블(결정 값)데이터를 numpy로 가지고 있습니다
iris_label = iris.target

print("iris target값:", iris_label )
print("iris target명:", iris.target_names)


iris target값: [0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2
 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
 2 2]
iris target명: ['setosa' 'versicolor' 'virginica']


In [8]:
#붓꽃 데이터 세트를 자세히 보기 위해 DataFrame으로 변환합니다 
iris_df = pd.DataFrame(data=iris_data, columns=iris.feature_names)
iris_df["label"]=iris.target
iris_df.head(3)

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),label
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0


#### 1. 데이터 세트 분리

In [9]:
X_train, X_test, y_train, y_test = train_test_split(iris_data, iris_label, test_size=0.2, random_state=11)

#### 2. 모델학습
머신러닝 분류 알고리즘의 하나인 의사 결정 트리를 이용해 학습과 예측을 수행하겠다고 계획

사이킷런의 의사 결정 트리 클래스인 DecisionTreeClassifier를 객체로 생성 <br>
fit해서 학습 데이터를 기반으로 학습 수행 <br>

In [11]:
#DecisionTreeClassifier 객체 생성
dt_clf = DecisionTreeClassifier(random_state=11)

#학습수행 
dt_clf.fit(X_train,y_train)

DecisionTreeClassifier(random_state=11)

#### 3. 예측 수행 

이렇게 학습된 DecisionTreeClassifier 객체를 이용해 예측을 수행 (예측은 반드시 학습데이터가 아닌 다른 데이터, 보통 테스트 데이터)<br>
DecisionTreeClassifier 객체의 predict() 메서드에 테스트용 피처 데이터 세트를 입력해 호출<br>
->학습된 모델 기반에서 테스트 데이터 세트에 대한 예측값을 반환

In [12]:
#학습이 완료된 DecisionTreeClassifier 객체에서 테스트 데이터 세트로 예측 수행
pred = dt_clf.predict(X_test)

#### 4. 평가 

예측 결과를 기반으로 의사 결정 트리 기반인 DecisionTreeClassifier의 예측 성능을 평가<br>
; 일반적으로 머신러닝 모델의 성능 평가 방법은 여러 가지가 있으나, 여기서는 "정확도"를 측정<br>
정확도는 예측 결과가 실제 레이블 값과 얼마나 정확하게 맞는지를 평가하는 지표 <br>
= 예측한 붓꽃 품종과 실제 테스트 데이터 세트의 붓꽃 품종이 얼마나 일치하는지 확인 <br>

In [13]:
from sklearn.metrics import accuracy_score
print("예측 정확도: {0:.4f}".format(accuracy_score(y_test,pred)))

예측 정확도: 0.9333


## * 사이킷런의 기반 프레임워크 익히기 

### Estimator 이해 및 fit( ), predict( ) 메서드

사이킷런


- 분류 알고리즘을 구현한 클래스를 Classifier
- 회귀 알고리즘을 구현한 클래스를 Regressor 
- Estimator 클래스 = Classifier 클래스 + Regressor 클래스 ; 즉 지도학습의 모든 알고리즘을 구현한 클래스를 통칭해서 Estimator 



- ML 모델 학습을 위해서 fit( )
- 학습된 모델의 예측을 위해 predict( )


### 내장된 예제 데이터 세트

: 키는 보통 data, target, target_name, feature_names, DESCR로 구성 

- data: 피처(feature)의 데이터 세트 
- target: 분류 시 레이블 값, 회귀일 때는 숫자 결괏값 데이터 세트 
- target_names : 개별 레이블의 이름 
- feature_names : 피처(feature)의 이름 
- DESCR : 데이터 세트에 대한 설명과 각 피처의 설명 

In [15]:
from sklearn.datasets import load_iris

iris_data = load_iris()
print(type(iris_data))

<class 'sklearn.utils.Bunch'>


Bunch 클래스는 파이썬 딕셔너리 자료형과 유사 

In [16]:
keys = iris_data.keys()
print("붓꽃 데이터 세트의 키들:", keys)

붓꽃 데이터 세트의 키들: dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names', 'filename', 'data_module'])


In [21]:
print("\n feature_names 의 type:", type(iris_data.feature_names))
print(" feature_names의 shape:",len(iris_data.feature_names))

print(iris_data.feature_names)


 feature_names 의 type: <class 'list'>
 feature_names의 shape: 4
['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']


In [23]:
print("\n target_names 의 type:", type(iris_data.target_names))
print(" target_names의 shape:",len(iris_data.target_names))

print(iris_data.target_names)


 target_names 의 type: <class 'numpy.ndarray'>
 target_names의 shape: 3
['setosa' 'versicolor' 'virginica']


In [24]:
print("\n data 의 type:", type(iris_data.data))
print(" target_names의 shape:",iris_data.data.shape)

print(iris_data["data"])


 data 의 type: <class 'numpy.ndarray'>
 target_names의 shape: (150, 4)
[[5.1 3.5 1.4 0.2]
 [4.9 3.  1.4 0.2]
 [4.7 3.2 1.3 0.2]
 [4.6 3.1 1.5 0.2]
 [5.  3.6 1.4 0.2]
 [5.4 3.9 1.7 0.4]
 [4.6 3.4 1.4 0.3]
 [5.  3.4 1.5 0.2]
 [4.4 2.9 1.4 0.2]
 [4.9 3.1 1.5 0.1]
 [5.4 3.7 1.5 0.2]
 [4.8 3.4 1.6 0.2]
 [4.8 3.  1.4 0.1]
 [4.3 3.  1.1 0.1]
 [5.8 4.  1.2 0.2]
 [5.7 4.4 1.5 0.4]
 [5.4 3.9 1.3 0.4]
 [5.1 3.5 1.4 0.3]
 [5.7 3.8 1.7 0.3]
 [5.1 3.8 1.5 0.3]
 [5.4 3.4 1.7 0.2]
 [5.1 3.7 1.5 0.4]
 [4.6 3.6 1.  0.2]
 [5.1 3.3 1.7 0.5]
 [4.8 3.4 1.9 0.2]
 [5.  3.  1.6 0.2]
 [5.  3.4 1.6 0.4]
 [5.2 3.5 1.5 0.2]
 [5.2 3.4 1.4 0.2]
 [4.7 3.2 1.6 0.2]
 [4.8 3.1 1.6 0.2]
 [5.4 3.4 1.5 0.4]
 [5.2 4.1 1.5 0.1]
 [5.5 4.2 1.4 0.2]
 [4.9 3.1 1.5 0.2]
 [5.  3.2 1.2 0.2]
 [5.5 3.5 1.3 0.2]
 [4.9 3.6 1.4 0.1]
 [4.4 3.  1.3 0.2]
 [5.1 3.4 1.5 0.2]
 [5.  3.5 1.3 0.3]
 [4.5 2.3 1.3 0.3]
 [4.4 3.2 1.3 0.2]
 [5.  3.5 1.6 0.6]
 [5.1 3.8 1.9 0.4]
 [4.8 3.  1.4 0.3]
 [5.1 3.8 1.6 0.2]
 [4.6 3.2 1.4 0.2]
 [5.3 3.7 1.5 0.2]

In [25]:
print("\n target 의 type:", type(iris_data.target))
print(" targe 의 shape:",iris_data.target.shape)

print(iris_data.target)


 target 의 type: <class 'numpy.ndarray'>
 targe 의 shape: (150,)
[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2
 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
 2 2]


## * Model Selection 모듈 소개

### 학습/테스트 데이터 세트 분리 - train_test_split( )

- test_size<br>
: 전체 데이터에서 테스트 데이터 세트 크기를 얼마로 샘플링할 것인가를 결정. 디폴트는 0.25<br>
- train_size<br>
: 전체 데이터에서 학습용 데이터 세트 크기를 얼마로 샘플링할 것인가를 결정. (<->test_size)<br>
- shuffle<br>
: 데이터를 분리하기 전에 데이터를 미리 섞을지를 결정. 디폴트는 True. <br>
: 데이터를 분산시켜서 좀 더 효율적인 학습 및 테스트 데이터 세트를 만드는 데 사용. <br>
- random_state<br>
: 호출할 때마다 동일한 학습/테스트용 데이터 세트를 생성하기 위해 주어지는 난수 값. <br>
: train_test_split()은 호출 시 무작위로 데이터를 분리하므로 random_state를 지정하지 않으면 수행할 때마다 다른 학습/테스트 용 데이터를 생성 


: train_test_split()의 반환값은 튜플 형태.<br>
순차적으로 학습용 데이터의 피처 데이터 세트, 테스트용 데이터의 피처 데이터 세트, 학습용 데이터의 레이블 데이터 세트, 테스트용 데이터의 레이블 데이터 세트가 반환

In [2]:
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score

iris = load_iris()
dt_clf = DecisionTreeClassifier()
train_data = iris.data
train_label = iris.target
dt_clf.fit(train_data,train_label)

#학습데이터 세트로 예측 수행
pred = dt_clf.predict(train_data)
print("예측 정확도:", accuracy_score(train_label,pred))

예측 정확도: 1.0


In [3]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split

dt_clf = DecisionTreeClassifier()
iris_data = load_iris()

X_train, X_test, y_train, y_test = train_test_split(iris_data.data, iris_data.target, test_size=0.3, random_state=121)

In [4]:
dt_clf.fit(X_train, y_train)
pred = dt_clf.predict(X_test)
print("예측 정확도: {0:.4f}".format(accuracy_score(y_test,pred)))

예측 정확도: 0.9556


### 교차검증 

앞에서 알고리즘을 학습시키는 학습 데이터와 이에 대한 예측 성능을 평가하기 위한 별도의 테스트용 데이터가 필요하다고 언급<br>
하지만 이 방법 역시 과적합(overfitting)에 취약한 약점을 가질 수 있음. <br>
: 과적합은 모델이 학습 데이터에만 과도하게 최적화되어, 실제 예측을 다른 데이터로 수행할 경우에는 예측 성능이 과도하게 떨어지는 것을 말함. <br>
그런데 고정된 학습 데이터와 테스트 데이터로 평가를 하다 보면 테스트 데이터에만 최적의 성능을 발휘할 수 있도록 편향되게 모델을 유도하는 경향이 생기게 됨. 결국 해당 테스트 데이터에만 과적합되는 학습 모델이 만들어져 다른 테스트용 데이터가 들어올 경우에는 성능이 저하 <br>
-> 이러한 문제를 개선하기 위해 "교차 검증"을 이용해 더 다양한 학습과 평가를 수행 

: 교차 검증을 좀 더 간략히 설명하자면 본고사를 치르기 전에 모의고사를 여러 번 보는 것<br>
즉, 본고사가 테스트 데이터 세트에 대해 평가하는 거라면 모의고사는 교차 검증에서 많은 학습과 검증 세트에서 알고리즘 학습과 평가를 수행

ML은 데이터에 기반. 그리고 데이터는 이상치, 분포도, 다양한 속성값, 피처 중요도 등 여러 가지 ML에 영향을 미치는 요소를 가지고 있음.<br>
특정 ML 알고리즘에서 최적으로 동작할 수 있도록 데이터를 선별해 학습한다면 실제 데이터 양식과는 많은 차이가 있을 것이고 결국 성능 저하로 이어질 것

: 교차 검증은 이러한 데이터 편중을 막기 위해서 별도의 여러 세트로 구성된 학습 데이터 세트와 검증 데이터 세트에서 학습과 평가를 수행하는 것.<br>
그리고 각 세트에서 수행한 평가 결과에 따라 하이퍼 파라미터 튜닝 등의 모델 최적화를 더욱 손쉽게 할 수 있음<br>
: 대부분의 ML 모델의 성능 평가는 교차 검증 기반으로 1차 평가를 한 뒤에 최종적으로 테스트 데이터 세트에 적용해 평가하는 프로세스<br>
-> ML에 사용되는 데이터 세트를 세분화해서 학습, 검증, 테스트 데이터 세트로 나눌 수 있음. <br>
=테스트 데이터 세트 외에 별도의 검증 데이터 세트를 둬서 최종 평가 이전에 학습된 모델을 다양하게 평가하는 데 사용 


### K 폴드 교차 검증 

: 먼저 K개의 데이터 폴드 세트를 만들어서 K번만큼 각 폴드 세트에 학습과 검증 평가를 반복적으로 수행하는 방법<br>
: 예를 들어, K=5면 5개의 폴드된 데이터 세트를 학습과 검증을 위한 데이터 세트로 변경하면서 5번 평가를 수행한 뒤, 이 5개의 평가를 평균한 결과를 가지고 예측 성능을 평가 <br>
: 먼저 데이터 세트를 5등분. 첫 번째 반복에서는 처음부터 4개 등분을 학습 데이터 세트, 마지막 5번째 등분 하나를 검증 데이터 세트로 설정. 첫 번째 평가를 수행하고 나면 이제 두 번째 반복에서 다시 비슷한 학습과 평가 작업을 수행. 단, 이번에는 처음부터 3개 등분까지, 그리고 마지막 5번째 등분을 학습 데이터 세트로, 4번째 등분 하나를 검증 데이터 세트로 설정 . 이렇게 학습 데이터 세트와 검증 데이터 세트를 점진적으로 변경하면서 5번째까지 학습과 검증을 수행하는 것 -> 5개의 예측 평가를 구했으면 이를 평균해서 K폴드 평가 결과로 반영하면 됨 


In [5]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score
from sklearn.model_selection import KFold
import numpy as np

iris = load_iris()
features = iris.data
label = iris.target
dt_clf = DecisionTreeClassifier(random_state=156)

#5개의 폴드 세트로 분리하는 KFold 객체와 폴드 세트별 정확도를 담을 리스트 객체 생성
kfold = KFold(n_splits=5)
cv_accuracy = []
print("붓꽃 데이터 세트 크기:", features.shape[0])

붓꽃 데이터 세트 크기: 150


In [8]:
n_iter = 0

#KFold 객체의 split()를 호출하면 폴드 별 학습용, 검증용 테스트의 로우 인덱스를 array로 반환

for train_index, test_index in kfold.split(features):
    X_train, X_test = features[train_index], features[test_index]
    y_train, y_test = label[train_index], label[test_index]
    
    dt_clf.fit(X_train, y_train)
    pred = dt_clf.predict(X_test)
    n_iter += 1 
    
    accuracy = np.round(accuracy_score(y_test,pred),4)
    train_size = X_train.shape[0]
    test_size = X_test.shape[0]
    
    print("\n#{0} 교차 검증 정확도 : {1}, 학습 데이터 크기: {2}, 검증 데이터 크기: {3}"
         .format(n_iter, accuracy, train_size, test_size))
    print("#{0} 검증 세트 인덱스:{1}".format(n_iter, test_index))
    cv_accuracy.append(accuracy)
    

print("\n## 평균 검증 정확도:", np.mean(cv_accuracy))


#1 교차 검증 정확도 : 1.0, 학습 데이터 크기: 120, 검증 데이터 크기: 30
#1 검증 세트 인덱스:[ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
 24 25 26 27 28 29]

#2 교차 검증 정확도 : 0.9667, 학습 데이터 크기: 120, 검증 데이터 크기: 30
#2 검증 세트 인덱스:[30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53
 54 55 56 57 58 59]

#3 교차 검증 정확도 : 0.8667, 학습 데이터 크기: 120, 검증 데이터 크기: 30
#3 검증 세트 인덱스:[60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83
 84 85 86 87 88 89]

#4 교차 검증 정확도 : 0.9333, 학습 데이터 크기: 120, 검증 데이터 크기: 30
#4 검증 세트 인덱스:[ 90  91  92  93  94  95  96  97  98  99 100 101 102 103 104 105 106 107
 108 109 110 111 112 113 114 115 116 117 118 119]

#5 교차 검증 정확도 : 0.7333, 학습 데이터 크기: 120, 검증 데이터 크기: 30
#5 검증 세트 인덱스:[120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137
 138 139 140 141 142 143 144 145 146 147 148 149]

## 평균 검증 정확도: 0.9


### Stratified K 폴드

: 불균형한 분포도를 가진 레이블(결정 클래스) 데이터 집합을 위한 K 폴드 방식 <br>
= 불균형한 분포도를 가진 레이블 데이터 집합은 특정 레블 값이 특이하게 많거나 매우 적어서 값의 분포가 한쪽으로 치우치는 것을 말함<br>

ex. 대출 사기 데이터 예측 <br>
; 대부분의 데이터는 정상 대출일 것. 예를 들어 전체의 0.0001%의 아주 작은 확률로 대출 사기 레이블이 존재하면 K 폴드로 랜덤하게 학습 및 테스트 세트의 인덱스를 고르더라도 레이블 값의 비율을 제대로 반영하지 못하는 경우가 쉽게 발생. 즉 레이블 값으로 대출사기(1)이 특정 개별 반복별 학습/테스트 데이터 세트에는 상대적으로 많이 들어있고, 다른 반복 학습/테스트 데이터 세트에는 그렇지 못한 결과가 발생<br>
; 대출 사기 레이블이 1인 레코드는 비록 건수는 작지만 알고리즘이 대출 사기를 예측하기 위한 중요한 피처 값을 가지고 있기 때문에 매우 중요한 데이터 세트. 따라서 원본 데이터와 유사한 대출 사기 레이블 값의 분포를 학습/테스트 세트에도 유지하는 게 매우 중요 <br>

-> stratified K 폴드는 이처럼 K 폴드가 레이블 데이터 집합이 원본 데이터 집합의 레이블 분포를 학습 및 테스트 세트에 제대로 분배하지 못하는 경우의 문제를 해결해줌.<br>
; 원본 데이터 레이블 분포를 먼저 고려한 뒤, 이 분포와 동일하게 학습과 검증 데이터 세트를 분배함. 

+회귀에서는 Stratified K 폴드가 지원되지 않음. 회귀의 결정값은 이산값 형태의 레이블이 아니라 연속된 숫자값이기 때문에 결정값별로 분포를 정하는 의미가 없기 때문

In [9]:
import pandas as pd
iris = load_iris()
iris_df = pd.DataFrame(data=iris.data, columns=iris.feature_names)
iris_df["label"]=iris.target

iris_df["label"].value_counts()

0    50
1    50
2    50
Name: label, dtype: int64

In [12]:
#KFold

kfold = KFold(n_splits=3)
n_iter = 0

for train_index, test_index in kfold.split(iris_df):
    n_iter +=1 
    label_train = iris_df["label"].iloc[train_index]
    label_test = iris_df["label"].iloc[test_index]
    print("## 교차 검증: {0}".format(n_iter))
    print("학습 레이블 데이터 분포 : \n", label_train.value_counts())
    print("검증 레이블 데이터 분포 : \n", label_test.value_counts())

## 교차 검증: 1
학습 레이블 데이터 분포 : 
 1    50
2    50
Name: label, dtype: int64
검증 레이블 데이터 분포 : 
 0    50
Name: label, dtype: int64
## 교차 검증: 2
학습 레이블 데이터 분포 : 
 0    50
2    50
Name: label, dtype: int64
검증 레이블 데이터 분포 : 
 1    50
Name: label, dtype: int64
## 교차 검증: 3
학습 레이블 데이터 분포 : 
 0    50
1    50
Name: label, dtype: int64
검증 레이블 데이터 분포 : 
 2    50
Name: label, dtype: int64


In [13]:
from sklearn.model_selection import StratifiedKFold

skf = StratifiedKFold(n_splits=3)
n_iter = 0

for train_index, test_index in skf.split(iris_df, iris_df["label"]):
    n_iter += 1
    label_train = iris_df["label"].iloc[train_index]
    label_test = iris_df["label"].iloc[test_index]
    print("## 교차 검증: {0}".format(n_iter))
    print("학습 레이블 데이터 분포 : \n", label_train.value_counts())
    print("검증 레이블 데이터 분포 : \n", label_test.value_counts())

## 교차 검증: 1
학습 레이블 데이터 분포 : 
 2    34
0    33
1    33
Name: label, dtype: int64
검증 레이블 데이터 분포 : 
 0    17
1    17
2    16
Name: label, dtype: int64
## 교차 검증: 2
학습 레이블 데이터 분포 : 
 1    34
0    33
2    33
Name: label, dtype: int64
검증 레이블 데이터 분포 : 
 0    17
2    17
1    16
Name: label, dtype: int64
## 교차 검증: 3
학습 레이블 데이터 분포 : 
 0    34
1    33
2    33
Name: label, dtype: int64
검증 레이블 데이터 분포 : 
 1    17
2    17
0    16
Name: label, dtype: int64


In [14]:
dt_clf = DecisionTreeClassifier(random_state=156)

skfold = StratifiedKFold(n_splits=3)
n_iter = 0 
cv_accuracy=[]

for train_index, test_index in skfold.split(features, label):
    
    X_train, X_test = features[train_index], features[test_index]
    y_train, y_test = label[train_index], label[test_index]
    
    dt_clf.fit(X_train,y_train)
    pred = dt_clf.predict(X_test)
    
    n_iter += 1 
    accuracy = np.round(accuracy_score(y_test,pred),4)
    train_size = X_train.shape[0]
    test_size = X_test.shape[0]
    
    print("\n#{0} 교차 검증 정확도 : {1}, 학습 데이터 크기: {2}, 검증 데이터 크기: {3}"
         .format(n_iter, accuracy, train_size, test_size))
    print("#{0} 검증 세트 인덱스:{1}".format(n_iter, test_index))
    cv_accuracy.append(accuracy)
    
print("\n## 교차 검증별 정확도:", np.round(cv_accuracy,4))
print("\n## 평균 검증 정확도:", np.mean(cv_accuracy))


#1 교차 검증 정확도 : 0.98, 학습 데이터 크기: 100, 검증 데이터 크기: 50
#1 검증 세트 인덱스:[  0   1   2   3   4   5   6   7   8   9  10  11  12  13  14  15  16  50
  51  52  53  54  55  56  57  58  59  60  61  62  63  64  65  66 100 101
 102 103 104 105 106 107 108 109 110 111 112 113 114 115]

#2 교차 검증 정확도 : 0.94, 학습 데이터 크기: 100, 검증 데이터 크기: 50
#2 검증 세트 인덱스:[ 17  18  19  20  21  22  23  24  25  26  27  28  29  30  31  32  33  67
  68  69  70  71  72  73  74  75  76  77  78  79  80  81  82 116 117 118
 119 120 121 122 123 124 125 126 127 128 129 130 131 132]

#3 교차 검증 정확도 : 0.98, 학습 데이터 크기: 100, 검증 데이터 크기: 50
#3 검증 세트 인덱스:[ 34  35  36  37  38  39  40  41  42  43  44  45  46  47  48  49  83  84
  85  86  87  88  89  90  91  92  93  94  95  96  97  98  99 133 134 135
 136 137 138 139 140 141 142 143 144 145 146 147 148 149]

## 교차 검증별 정확도: [0.98 0.94 0.98]

## 평균 검증 정확도: 0.9666666666666667


#### 교차검증을 보다 간편하게 -> cross_val_score( )

KFold로 데이터를 학습하고 예측하는 코드 <br>
1. 폴드 세트를 설정
2. for 루프에서 반복으로 학습 및 데스트 데이터의 인덱스 추출
3. 반복으로 학습과 예측을 수행하고 예측 성능을 반환

cross_val_score( )는 일련의 과정을 한꺼번에 수행해주는 API
; 주요 파라미터  <br>
- estimator : 사이킷런의 분류 알고리즘 클래스인 Classifier 또는 회귀 알고리즘 클래스인 Regressor <br>
: classifier가 입력되면 Stratified K 폴드 방식, 회귀인 경우에는 할 수 없기 때문에 K 폴드 방식으로 분할
- X : 피처 데이터 세트 
- y : 레이블 데이터 세트
- scoring : 예측 성능 평가 지표를 기술
- cv : 교차 검증 폴드 수 

In [17]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import cross_val_score, cross_validate
from sklearn.datasets import load_iris

iris_data = load_iris()
dt_clf = DecisionTreeClassifier(random_state=156)

data = iris_data.data
label = iris_data.target

scores = cross_val_score(dt_clf, data, label, scoring="accuracy", cv=3)
print("교차 검증별 정확도:", np.round(scores,4))
print("평균 검증별 정확도:", np.round(np.mean(scores),4))

교차 검증별 정확도: [0.98 0.94 0.98]
평균 검증별 정확도: 0.9667


### GridSearchCV - 교차검증과 최적 하이퍼 파라미터 튜닝을 한 번에

하이퍼 파라미터: 머신러닝 알고리즘을 구성하는 주요 구성 요소이며, 이 값을 조정해 알고리즘 예측 성능 개선 가능<br>
사이킷런 - GridSearchCV <br>
; Classifier나 Regressor와 같은 알고리즘에 사용되는 하이퍼 파라미터를 순차적으로 입력하면서 편리하게 최적의 파라미터를 도출할 수 있는 방안 제공<br>

GridSearchCV 클래스의 생성자로 들어가는 주요 파라미터 
- estimator : classifier, regressor, pipeline이 사용될 수 있다
- param_grid : key+리스트 값을 가지는 딕셔너리가 주어짐. estimator의 튜닝을 위해 파라미터명과 사용될 여러 파라미터 값을 지정
- scoring : 예측 성능을 측정할 평가 방법을 지정. 보통은 사이킷런의 성능 평가 지표를 지정하는 문자열 (ex. "accuracy")
- cv : 교차 검증을 위해 분할되는 학습/테스트 세트의 개수를 지정
- refit : 디폴트가 True이며, True로 생성 시 가장 최적의 하이퍼 파라미터를 찾은 뒤 입력된 estimator 객체를 해당 하이퍼 파라미터로 재학습

예를 들어 결정 트리 알고리즘의 여러 하이퍼 파라미터를 순차적으로 변경하면서 최고 성능을 가지는 파라미터 조합을 찾고자 한다면?<br>
테스트 할 파라미터 세트를 입력; 딕셔너리 형태로, 하이퍼 파라미터의 명칭은 문자열 key 값으로, 하이퍼 파라미터의 값은 리스트 형으로 설정<br>

아래의 예시에서는 총 6회에 걸쳐 파라미터를 순차적으로 바꿔 실행하며 최적의 파라미터와 수행 결과 도출 가능<br>
for 루프로 모든 파라미터를 번갈아 입력하면서 학습시키는 방법을 좀 더 유연하게 API 레벨에서 제공<br>

In [18]:
gird_parameters = {"max_depth":[1,2,3], "min_samples_split":[2,3]}

In [19]:
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import GridSearchCV

iris = load_iris()
X_train, X_test, y_train, y_test = train_test_split(iris_data.data, iris_data.target, test_size=0.2, random_state=121)

dtree = DecisionTreeClassifier()

parameters = {"max_depth":[1,2,3], "min_samples_split":[2,3]}

**시행과정**<br>
학습 데이터 세트를 GridsearchCV 객체 (grid_dtree) 의 fit 메서드에 인자로 입력

fit 메서드 수행하면, 학습 데이터를 cv에 기술된 폴딩 세트로 분할해,  param_gird에 기술된 하이퍼 파라미터를 순차적으로 변경하면서 학습/평가를 수행하고 그 결과를 cv_results_ 속성에 기록

cv_results_는 gridsearchcv의 결과 세트로서 딕셔너리 형태로 key 값과 리스트 형태의 value 값을 가짐 

In [24]:
import pandas as pd


grid_dtree = GridSearchCV(dtree, param_grid=parameters, cv=3, refit=True)

grid_dtree.fit(X_train,y_train)

scores_df = pd.DataFrame(grid_dtree.cv_results_)
scores_df[["params","mean_test_score","rank_test_score","split0_test_score","split1_test_score","split2_test_score"]]

Unnamed: 0,params,mean_test_score,rank_test_score,split0_test_score,split1_test_score,split2_test_score
0,"{'max_depth': 1, 'min_samples_split': 2}",0.7,5,0.7,0.7,0.7
1,"{'max_depth': 1, 'min_samples_split': 3}",0.7,5,0.7,0.7,0.7
2,"{'max_depth': 2, 'min_samples_split': 2}",0.958333,3,0.925,1.0,0.95
3,"{'max_depth': 2, 'min_samples_split': 3}",0.958333,3,0.925,1.0,0.95
4,"{'max_depth': 3, 'min_samples_split': 2}",0.975,1,0.975,1.0,0.95
5,"{'max_depth': 3, 'min_samples_split': 3}",0.975,1,0.975,1.0,0.95


In [25]:
print("GridSearchCV 최적파라미터:", grid_dtree.best_params_)
print("GridSearchCV 최고 정확도:{0:.4f}".format(grid_dtree.best_score_))

GridSearchCV 최적파라미터: {'max_depth': 3, 'min_samples_split': 2}
GridSearchCV 최고 정확도:0.9750


In [27]:
estimator = grid_dtree.best_estimator_

pred = estimator.predict(X_test)
print("테스트 데이터 세트 정확도:{0:.4f}".format(accuracy_score(y_test,pred)))

테스트 데이터 세트 정확도:0.9667
