파이썬 머신러닝 완벽가이드 ch2. pg. 87~117

# 사이킷런으로 시작하는 머신러닝

## 01. 사이킷런 소개와 특징

사이킷런은 머신러닝 라이브러리 중 가장 많이 사용되는 라이브러리로, 파이썬 기반의 머신러닝은 곧 사이킷런으로 개발하는 것을 의미할 정도로 오랜 기간 파이썬 세계에서 인정받았으며, 파이썬 기반의 머신러닝을 위한 가장 쉽고 효율적인 개발 라이브러리를 제공한다.

특징은 다음과 같다.

- 파이썬 기반의 다른 머신러닝 패키지도 사이킷런 스타일의 api를 지향할 정도로 쉽고 가장 파이썬 스러운 api를 제공한다.

- 머신러닝을 위한 매우 다양한 알고리즘과 개발을 위한 편리한 프레임워크와 api를 제공한다.

- 오랜 기간 실전환경에서 검증되었으며, 매우 많은 환경에서 사용되는 성숙한 라이브러리이다.

##02. 첫번째 머신러닝 만들어 보기 - 붓꽃 품종 예측

붓꽃 데이터 세트로 붓꽃의 품종을 분류해보자.

**분류**는 대표적인 **지도학습**으로, 지도학습은 학습을 위한 다양한 피쳐와 분류 결정값인 레이블 데이터로 모델을 학습한 뒤, 별도의 테스트 데이터 세트에서 미지의 레이블을 예측하는 것이다.

즉 지도학습은 명확한 정답이 주어진 데이터를 먼저 학습한 뒤 미지의 정답을 예측하는 방식이다.

sklearn.datasets : 사이킷런에서 자체적으로 제공하는 데이터 세트를 생성하는 모듈의 모임

sklearn.tree : 트리기반 ML 알고리즘을 구현한 클래스의 모임

sklearn.model_selection : 학습 데이터와 검증 데이터, 예측 데이터로 데이터를 분리하거나 최적의 하이퍼파라미터로 평가하기 위한 다양한 모듈의 모임.

하이퍼파라미터 : 머신러닝 알고리즘 별로 최적의 학습을 위해 직접 입력하는 파라미터 통칭. -> 머신러닝 알고리즘의 성능 튜닝 가능

In [1]:
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split

In [2]:
import pandas as pd

# 붓꽃 데이터 세트 로딩
iris = load_iris()

# iris.data는 Iris 데이터세트에서 피처만으로 된 데이터를 넘파이로 가지고 있다.
iris_data = iris.data

# iris.target 은 붓꽃 데이터 세트에서 레이블 데이터를 넘파이로 가진다.
iris_label = iris.target
print('iris target값 : ', iris_label)
print('iris target명 :', iris.target_names)

iris_df= pd.DataFrame(data=iris_data, columns= iris.feature_names)
iris['label']= iris.target
iris_df.head(3)

iris target값 :  [0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2
 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
 2 2]
iris target명 : ['setosa' 'versicolor' 'virginica']


Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2


피쳐로 sepal length, sepal width, petal width 존재, 레이블은 0,1,2 세가지로 0이 setosa, 1이 versicolor, 2가 virginica 의미.

train_test_split() api를 통해 학습데이터와 테스트 용 데이터로 나눌 수 있음.

In [7]:
X_train, X_test, y_train, y_test = train_test_split(iris_data, iris_label, test_size=0.2, random_state=11)

첫번째 파라미터 : 피쳐 데이터 세트

두번째 파라미터 : 레이블 데이터 세트

test_size : 테스트 데이터 세트의 비율

random_state : 난수 발생 값

In [8]:
# DT 객체 생성
dt_clf = DecisionTreeClassifier(random_state=11)
# 학습 수행
dt_clf.fit(X_train, y_train)

DT 객체가 학습 데이터 기반으로 학습 완료되었음. 이제 예측 수행

예측은 일반적으로 테스트 데이터 세트를 이용함.

In [9]:
pred= dt_clf.predict(X_test)

In [10]:
from sklearn.metrics import accuracy_score
print('예측 정확도: {0:.4f}'.format(accuracy_score(y_test, pred)))

예측 정확도: 0.9333


정확도 : 예측 결과가 실제 레이블 값과 얼마나 정확하게 맞는지 평가하는 지표.

**예측 프로세스 정리**

1. 데이터 세트 분리 : 데이터를 학습 데이터와 테스트 데이터로 분리

2. 모델 학습 : 학습 데이터를 기반으로 ML알고리즘 적용해 모델 학습

3. 예측 수행 : 학습된 ML 모델 이용해 테스트 데이터 분류 예측

4. 평가 : 예측된 결괏값과 테스트 데이터의 실제 결괏값을 비교해 ML 모델 성능 예측.

##03. 사이킷런의 기반 프레임워크 익히기

지도학습의 두 축인 분류와 회귀의 다양한 알고리즘을 구현한 모든 사이킷런 클래스는 fit()과 predict()만을 이용해 간단하게 학습과 예측 결과를 반환한다.

분류 알고리즘 클래스 : Classifier

회귀 알고리즘 클래스 : Regressor

두개를 합쳐서 Estimator 클래스라고 부른다.
Estimator 클래스는 fit()과 predict()를 내부에서 구현한다.

cross_val_score과 GridSearchCV같은 클래스 경우 이 estimator를 인자로 받는다. 인자로 받은 estimator에 대해 cross_val_score(), GridSearchCV.fit() 함수 내에서 이 Estimator의 fit()과 predict()를 호출해서 평가를 하거나 하이퍼파라미터 튜닝을 수행하게 된다.

비지도학습인 차원축소, 클러스터링, 피쳐추출 등을 구현한 클래스 역시 대부분 fit()과 transform()을 적용함. 이때의 fit()은 사전 구조를 맞추는 작업, transform()은 실제 작업임.

fit_transform()을 사용 할 때 주의 필요함

### 사이킷런의 주요 모듈

1. 예제 데이터 : sklearn.datasets : 사이킷런에 내장되어 예제로 제공하는 데이터 세트

2. 피처 쳐리
- sklearn.preprocessing : 전처리에 필요한 다양한 가공 기능 제공 (인코딩, 정규화, 스케일링)

- sklearn.feature_selection : 알고리즘에 큰 영향을 주는 피처를 우선순위댈 셀렉션 작업을 수행하는 다양한 기능 제공

- sklearn.feature_extraction : 텍스트 데이터나 이미지 데이터의 벡터화된 피처를 추출하는 데 사용.

3. 피처처리 & 차원축소
- sklearn.decomposition : 차원축소와 관련된 알고리즘을 지원하는 모듈

4. 데이터분리, 검증 & 파라미터 튜닝
- sklearn.model_selection : 교차 검증을 위한 학습용/테스트용 분리, 그리드 서치로 최적 파라미터 추출

5. 평가 : sklearn.metrics : 다양한 성능 측정 방법 제공

6. ML 알고리즘
- sklearn.ensemble : 앙상블 알고리즘

- sklearn.linear_model : 주로 선형회귀, 릿지, 라쏘, 로지스틱 회귀...

- sklearn.naive_bayes : 나이브 베이즈 알고리즘 제공

- sklearn.neighbors : 최근접 이웃 알고리즘 제공

- sklearn.svm : 서포트 벡터 머신 알고리즘 제공

- sklearn.tree : 의사결정트리 알고리즘 제공

- sklearn.cluster : 비지도 클러스터링 알고리즘 제공

7. 유틸리티 : sklearn.pipeline : 피처처리 등의 변환과 ML 알고리즘 학습, 예측 등을 함께 묶어 실행할 수 있는 유틸리티 제공

### 내장된 예제 데이터 세트

datasets.load_boston() : 회귀

datasets.load_breast_cancer() : 분류

datasets.load_diabetes() : 회귀

datasets.load_digits() : 분류

datasets.load_iris() : 분류

data : 피처의 데이터 세트

target : 분류 시 레이블 값 / 회귀 시 숫자 결괏값 데이터

target_names : 개별 레이블의 이름

feature_names : 피처 이름

DESCR : 데이터 세트에 대한 설명과 각 피처의 설명

data와 target은 넘파이 배열 차입, target_names, feature_names는 넘파이 배열/ 파이썬 리스트 타입.

In [11]:
from sklearn.datasets import load_iris

iris_data= load_iris()
print(type(iris_data))

<class 'sklearn.utils._bunch.Bunch'>


Bunch 클래스는 파이썬 딕셔너리 자료형과 유사.

In [12]:
keys = iris_data.keys()
print('붓꽃 데이터 세트의 키들 : ', keys)

붓꽃 데이터 세트의 키들 :  dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names', 'filename', 'data_module'])


데이터 키는 피처들의 데이터 값을 의미함.

In [13]:
print('\n feature_names의 type:', type(iris_data.feature_names))
print(' feature_names의 shape: ', len(iris_data.feature_names))
print(iris_data.feature_names)

print('\n target_names의 type:', type(iris_data.target_names))
print(' target_names의 shape: ', len(iris_data.target_names))
print(iris_data.target_names)

print('\n data의 type:', type(iris_data.data))
print(' data의 shape:', iris_data.data.shape)
print(iris_data['data'])

print('\n target의 type:', type(iris_data.target))
print(' target의 shape:', iris_data.target.shape)
print(iris_data.target)


 feature_names의 type: <class 'list'>
 feature_names의 shape:  4
['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']

 target_names의 type: <class 'numpy.ndarray'>
 target_names의 shape:  3
['setosa' 'versicolor' 'virginica']

 data의 type: <class 'numpy.ndarray'>
 data의 shape: (150, 4)
[[5.1 3.5 1.4 0.2]
 [4.9 3.  1.4 0.2]
 [4.7 3.2 1.3 0.2]
 [4.6 3.1 1.5 0.2]
 [5.  3.6 1.4 0.2]
 [5.4 3.9 1.7 0.4]
 [4.6 3.4 1.4 0.3]
 [5.  3.4 1.5 0.2]
 [4.4 2.9 1.4 0.2]
 [4.9 3.1 1.5 0.1]
 [5.4 3.7 1.5 0.2]
 [4.8 3.4 1.6 0.2]
 [4.8 3.  1.4 0.1]
 [4.3 3.  1.1 0.1]
 [5.8 4.  1.2 0.2]
 [5.7 4.4 1.5 0.4]
 [5.4 3.9 1.3 0.4]
 [5.1 3.5 1.4 0.3]
 [5.7 3.8 1.7 0.3]
 [5.1 3.8 1.5 0.3]
 [5.4 3.4 1.7 0.2]
 [5.1 3.7 1.5 0.4]
 [4.6 3.6 1.  0.2]
 [5.1 3.3 1.7 0.5]
 [4.8 3.4 1.9 0.2]
 [5.  3.  1.6 0.2]
 [5.  3.4 1.6 0.4]
 [5.2 3.5 1.5 0.2]
 [5.2 3.4 1.4 0.2]
 [4.7 3.2 1.6 0.2]
 [4.8 3.1 1.6 0.2]
 [5.4 3.4 1.5 0.4]
 [5.2 4.1 1.5 0.1]
 [5.5 4.2 1.4 0.2]
 [4.9 3.1 1.5 0.2]
 [5.  3.2 1.2 0.2]
 

##04.  Model Selection 모듈 소개

### 학습/테스트 데이터 세트 분리 - train_test_split()

In [14]:
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score

iris= load_iris()
dt_clf = DecisionTreeClassifier()
train_data= iris.data
train_label= iris.target
dt_clf.fit(train_data, train_label)

pred= dt_clf.predict(train_data)
print('예측 정확도 :', accuracy_score(train_label, pred))

예측 정확도 : 1.0


학습 데이터로 예측 수행한 결과 정확도가 100%로 출력된다.

따라서 예측을 수행하는 데이터 세트는 전용의 테스트 데이터 세트여야 한다.

test_size : 디폴트는 0.25, 얼마로 샘플링할지

shuffle : 데이터를 분리하기 전에 데이터를 미리 섞을지 결정

random_state : 동일한 학습/테스트용 데이터 세트를 생성하기 위해 주어지는 난수값.

In [20]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split

dt_clf = DecisionTreeClassifier()
iris_data = load_iris()

X_train, X_test, y_train, y_test = train_test_split(iris_data.data, iris_data.target, test_size=0.3, random_state=121)

dt_clf.fit(X_train, y_train)
pred= dt_clf.predict(X_test)
print('예측 정확도 : {0:.4f}'.format(accuracy_score(y_test, pred)))

예측 정확도 : 0.9556


## 교차 검증

**과적합** :모델이 학습데이터에만 과도하게 최적화되어 실제 예측을 다른 데이터로 수행할 경우 예측 성능이 과도하게 떨어지는 것.

고정된 학습데이터와 테스트 데이터로 평가를 하다 보면 해당 테스트 데이터에 과적합된 학습 모델이 만들어져 성능 저하 가능성.

**교차 검증** : 본고사를 치르기 전에 모의고사를 여러 번 보는 것. 교차검증에서 많은 학습과 검증 세트에서 알고리즘 학습과 평가를 수행하는 것.

데이터 편증을 막기 위해 별도의 여러 세트로 구성된 학습 데이터 세트와 검증 데이터 세트에서 학습과 평가를 수행함.

각 세트에서 수행한 평가 결과에 따라 하이퍼 파라미터 튜닝 등의 모델 최적화를 손쉽게 할 수 있음.

### K 폴드 교차검증

가장 보편적인 교차 검증 기법.

K개의 데이터 폴드 세트를 만들어 K번 만큼 각 폴드 세트에 학습과 검증 평가를 반복적으로 수행함.

In [22]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score
from sklearn.model_selection import KFold
import numpy as np

iris= load_iris()
features= iris.data
label = iris.target
dt_clf = DecisionTreeClassifier(random_state=156)

# 5개의 폴드 세트로 분리하는 KFold 객체아 폴드 세트별 정확도를 담을 리스트 객체 생성.
kfold= KFold(n_splits=5)
cv_accuracy =[]
print('붓꽃 데이터 세트 크기 :', features.shape[0])

붓꽃 데이터 세트 크기 : 150


5개의 폴드 데이터 세트로 분리하였으므로 학습용 데이터 세트는 120개, 검증 테스트 데이터 세트는 30개.

In [23]:
n_iter=0

# KFold 객체의 split()을 호출하면 폴드 별 학습용, 검증용 테스트의 로우 인덱스를 array로 반환
for train_index, test_index in kfold.split(features):
  # kfold.split()으로 반환된 인덱스를 이용해 학습용, 검증용 테스트 데이터 추출
  X_train, X_test = features[train_index], features[test_index]
  y_train, y_test = label[train_index], label[test_index]

  # 학습 및 예측
  dt_clf.fit(X_train, y_train)
  pred = dt_clf.predict(X_test)
  n_iter +=1

  # 반복 시마다 정확도 측정
  accuracy = np.round(accuracy_score(y_test, pred),4)
  train_size = X_train.shape[0]
  test_size= X_test.shape[0]
  print('\n#{0} 교차 검증 정확도 : {1}, 학습 데이터 크기 {2}, 검증 데이터 크기: {3}'.format(n_iter, accuracy, train_size, test_size))
  print('#{0} 검증 세트 인덱스 : {1}'.format(n_iter, test_index))
  cv_accuracy.append(accuracy)

# 개별 iteration 별 정확도를 합하여 평균 정확도 계산
print('\n## 평균 검증 정확도:', np.mean(cv_accuracy))


#1 교차 검증 정확도 : 1.0, 학습 데이터 크기 120, 검증 데이터 크기: 30
#1 검증 세트 인덱스 : [ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
 24 25 26 27 28 29]

#2 교차 검증 정확도 : 0.9667, 학습 데이터 크기 120, 검증 데이터 크기: 30
#2 검증 세트 인덱스 : [30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53
 54 55 56 57 58 59]

#3 교차 검증 정확도 : 0.8667, 학습 데이터 크기 120, 검증 데이터 크기: 30
#3 검증 세트 인덱스 : [60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83
 84 85 86 87 88 89]

#4 교차 검증 정확도 : 0.9333, 학습 데이터 크기 120, 검증 데이터 크기: 30
#4 검증 세트 인덱스 : [ 90  91  92  93  94  95  96  97  98  99 100 101 102 103 104 105 106 107
 108 109 110 111 112 113 114 115 116 117 118 119]

#5 교차 검증 정확도 : 0.7333, 학습 데이터 크기 120, 검증 데이터 크기: 30
#5 검증 세트 인덱스 : [120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137
 138 139 140 141 142 143 144 145 146 147 148 149]

## 평균 검증 정확도: 0.9


교차 검증 시마다 검증 세트의 인데스가 달라진다.

split()함수가 첫번째 교차검증에서는 0 ~ 29까지, 두번째는 30 ~ 59번....마지막은 120 ~ 149번으로 각각 30개의 검증 세트 인덱스를 생성. 이를 기반으로 검증 세트 추출

### Stratified K Fold

불균형한 분포도를 가진 레이블 데이터 집합을 위한 K 폴드 방식.

불균형한 분포도를 가진 레이블 데이터 집합은 특정 레이블 값이 특이하게 많거나 매우 적어서 값의 분포가 한 쪽으로 치우치는 것을 의미함.

Stratified K 폴드는 원본 데이터의 레이블 분포를 먼저 고려한 뒤 이 분포와 동일하게 학습과 검증 데이터 세트를 분배함.

In [24]:
import pandas as pd

iris = load_iris()
iris_df = pd.DataFrame(data= iris.data, columns= iris.feature_names)
iris_df['label']=iris.target
iris_df['label'].value_counts()

0    50
1    50
2    50
Name: label, dtype: int64

레이블 값 확인 결과, 3개 다 50개로 동일함

In [25]:
kfold = KFold(n_splits=3)
n_iter = 0
for train_index, test_index in kfold.split(iris_df):
  n_iter +=1
  label_train = iris_df['label'].iloc[train_index]
  label_test = iris_df['label'].iloc[test_index]
  print('## 교차 검증: {0}'.format(n_iter))

  print('학습 레이블 데이터 분포:\n', label_train.value_counts())
  print('검증 레이블 데이터 분포:\n', label_test.value_counts())

## 교차 검증: 1
학습 레이블 데이터 분포:
 1    50
2    50
Name: label, dtype: int64
검증 레이블 데이터 분포:
 0    50
Name: label, dtype: int64
## 교차 검증: 2
학습 레이블 데이터 분포:
 0    50
2    50
Name: label, dtype: int64
검증 레이블 데이터 분포:
 1    50
Name: label, dtype: int64
## 교차 검증: 3
학습 레이블 데이터 분포:
 0    50
1    50
Name: label, dtype: int64
검증 레이블 데이터 분포:
 2    50
Name: label, dtype: int64


3개의 폴드 세트로 만들어지는 학습 레이블과 검증 레이블이 완전히 다른 값으로 추출되었음.

이런 경우, 검증 예측 정확도가 0이 되어버림

Stratified K Fold의 차이점 : 레이블 데이터 분포도에 따라 학습/검증 데이터를 나누기 때문에 split()메서드에 인자로 레이블 데이터 세트도 반드시 필요함.

In [26]:
from sklearn.model_selection import StratifiedKFold

skf = StratifiedKFold(n_splits=3)
n_iter=0

for train_index, test_index in skf.split(iris_df, iris_df['label']):
  n_iter +=1
  label_train = iris_df['label'].iloc[train_index]
  label_test = iris_df['label'].iloc[test_index]
  print('## 교차 검증: {0}'.format(n_iter))
  print('학습 레이블 데이터 분포:\n', label_train.value_counts())
  print('검증 레이블 데이터 분포:\n', label_test.value_counts())

## 교차 검증: 1
학습 레이블 데이터 분포:
 2    34
0    33
1    33
Name: label, dtype: int64
검증 레이블 데이터 분포:
 0    17
1    17
2    16
Name: label, dtype: int64
## 교차 검증: 2
학습 레이블 데이터 분포:
 1    34
0    33
2    33
Name: label, dtype: int64
검증 레이블 데이터 분포:
 0    17
2    17
1    16
Name: label, dtype: int64
## 교차 검증: 3
학습 레이블 데이터 분포:
 0    34
1    33
2    33
Name: label, dtype: int64
검증 레이블 데이터 분포:
 1    17
2    17
0    16
Name: label, dtype: int64


출력 결과, 학습 레이블과 검증 레이블 데이터 값의 분포도가 동일하게 할당되었음

In [27]:
dt_clf = DecisionTreeClassifier(random_state=156)

skfold= StratifiedKFold(n_splits=3)
n_iter=0
cv_accuracy =[]

# StratifiedKFold의 split() 호출 시 반드시 레이블 데이터 세트도 추가입력 필요
for train_index, test_index in skfold.split(features, label):
  # split()으로 반환된 인덱스를 이용해 학습용, 검증용 데이터 추출
  X_train, X_test = features[train_index], features[test_index]
  y_train, y_test = label[train_index], label[test_index]

  dt_clf.fit(X_train, y_train)
  pred = dt_clf.predict(X_test)

  # 반복시마다 정확도 측정
  n_iter +=1
  accuracy = np.round(accuracy_score(y_test, pred),4)
  train_size = X_train.shape[0]
  test_size = X_test.shape[0]
  print('\n#{0} 교차 검증 정확도 : {1}, 학습 데이터 크기 : {2}, 검증 데이터 크기:{3}'.format(n_iter, accuracy, train_size, test_size))
  print('#{0} 검증 세트 인덱스 :{1}'.format(n_iter, test_index))
  cv_accuracy.append(accuracy)

  print('\n## 교차 검증별 정확도:', np.round(cv_accuracy, 4))
  print('## 평균 검증 정확도:', np.mean(cv_accuracy))


#1 교차 검증 정확도 : 0.98, 학습 데이터 크기 : 100, 검증 데이터 크기:50
#1 검증 세트 인덱스 :[  0   1   2   3   4   5   6   7   8   9  10  11  12  13  14  15  16  50
  51  52  53  54  55  56  57  58  59  60  61  62  63  64  65  66 100 101
 102 103 104 105 106 107 108 109 110 111 112 113 114 115]

## 교차 검증별 정확도: [0.98]
## 평균 검증 정확도: 0.98

#2 교차 검증 정확도 : 0.94, 학습 데이터 크기 : 100, 검증 데이터 크기:50
#2 검증 세트 인덱스 :[ 17  18  19  20  21  22  23  24  25  26  27  28  29  30  31  32  33  67
  68  69  70  71  72  73  74  75  76  77  78  79  80  81  82 116 117 118
 119 120 121 122 123 124 125 126 127 128 129 130 131 132]

## 교차 검증별 정확도: [0.98 0.94]
## 평균 검증 정확도: 0.96

#3 교차 검증 정확도 : 0.98, 학습 데이터 크기 : 100, 검증 데이터 크기:50
#3 검증 세트 인덱스 :[ 34  35  36  37  38  39  40  41  42  43  44  45  46  47  48  49  83  84
  85  86  87  88  89  90  91  92  93  94  95  96  97  98  99 133 134 135
 136 137 138 139 140 141 142 143 144 145 146 147 148 149]

## 교차 검증별 정확도: [0.98 0.94 0.98]
## 평균 검증 정확도: 0.9666666666666667


일반적으로 **분류** 에서의 교차검증은 Stratified K Fold활용, **회귀**에서의 교차검증은 Stratified K Fold 지원 X

-> 연속된 숫자값이기 때문에

### cross_val_score()

KFold로 데이터를 학습하고 예측하는 코드.

1) 폴드 세트를 설정

2) for 루프에서 반복으로 학습, 테스트 데이터의 인덱스 추출

3) 반복적으로 학습과 예측 수행, 예측 성능 반환

**cross_val_score** : 일련의 과정을 한꺼번에 수행

cross_val_score(estimator, X, y=None, scoring=None, cv=None, n_jobs =1, verbose=0, fit_params =None,pre_dispatch='2*n_jobs')

estimator : Classifier / Regressor

X : 피처 데이터 세트

y : 레이블 데이터 세트

scoring : 예측 성능 평가 지표

cv : 교차 검증 폴드 수

In [28]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import cross_val_score, cross_validate
from sklearn.datasets import load_iris

iris_data= load_iris()
dt_clf = DecisionTreeClassifier(random_state=156)

data= iris_data.data
label= iris_data.target

scores= cross_val_score(dt_clf, data, label, scoring='accuracy', cv=3)
print('교차 검증별 정확도:', np.round(scores,4))
print('평균 검증 정확도:', np.round(np.mean(scores),4))

교차 검증별 정확도: [0.98 0.94 0.98]
평균 검증 정확도: 0.9667


간단하게 교차검증 수행 가능함.

## GridSearchCV- 교차 검증과 최적 하이퍼파라미터 튜닝을 한번에

사이킷런은 GridSearchCV를 이용해 Classifier나 Regressor 같은 알고리즘에 사용되는 하이퍼파라미처를 순차적으로 입력하며 편리하게 최적의 파라미터를 도출할 수 있는 방안을 제공함.

grid_parameters={'max_depth' :[1,2,3],
'min_samples_split':[2,3]}


총 6회에 걸쳐 파라미터를 순차적으로 바꿔 실행하며 최적의 파라미터와 수행 결과를 도출 가능함.

**주요 파라미터**

- estimator : classifier, regressor 이 사용가능

- param_grid : estimator의 츄닝을 위해 파라미터명과 파라미터 값 지정

- scoring : 예측 성능을 측정할 평가 방법 지정

- cv : 교차 검증을 위해 분할되는 학습/테스트 세트의 개수 지정

- refil : 디폴트가 True. 디폴트 시 가장 최적의 하이퍼파라미터를 찾은 뒤 입력된 estimator객체를 해당 하이퍼파라미터로 재학습

In [31]:
from sklearn.datasets import load_breast_cancer
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import GridSearchCV

iris = load_iris()
X_train, X_test, y_train, y_test= train_test_split(iris_data.data, iris_data.target, test_size=0.2, random_state=121)
dtree= DecisionTreeClassifier()

parameters= {'max_depth':[1,2,3], 'min_samples_split':[2,3]}

In [33]:
import pandas as pd
grid_dtree = GridSearchCV(dtree, param_grid=parameters, cv=3, refit=True)

grid_dtree.fit(X_train, y_train)

scores_df=pd.DataFrame(grid_dtree.cv_results_)
scores_df[['params','mean_test_score','rank_test_score','split0_test_score','split1_test_score','split2_test_score']]


Unnamed: 0,params,mean_test_score,rank_test_score,split0_test_score,split1_test_score,split2_test_score
0,"{'max_depth': 1, 'min_samples_split': 2}",0.7,5,0.7,0.7,0.7
1,"{'max_depth': 1, 'min_samples_split': 3}",0.7,5,0.7,0.7,0.7
2,"{'max_depth': 2, 'min_samples_split': 2}",0.958333,3,0.925,1.0,0.95
3,"{'max_depth': 2, 'min_samples_split': 3}",0.958333,3,0.925,1.0,0.95
4,"{'max_depth': 3, 'min_samples_split': 2}",0.975,1,0.975,1.0,0.95
5,"{'max_depth': 3, 'min_samples_split': 3}",0.975,1,0.975,1.0,0.95


1) params : 수행할 때 적용된 개별 하이퍼파라미터 값 나타냄

2) rank_test_score : 하이퍼 파라미터 별로 성능이 좋은 score순위 나타냄

3) mean_test_score : 개별 하이퍼파라미터 별로 cv의 폴딩 테스트 세트에 대해 총 수행한 평가 평균값

In [34]:
print('GridSearchCV 최적 파라미터:', grid_dtree.best_params_)
print('GridSearchCV 최고 정확도:{0:.4f}'.format(grid_dtree.best_score_))

GridSearchCV 최적 파라미터: {'max_depth': 3, 'min_samples_split': 2}
GridSearchCV 최고 정확도:0.9750


max_depth가 3, min_samples_split이 2일 때 검증용 폴드 세트에서 평균 최고 정확도가 96.67%로 측정됨

In [35]:
# 이미 학습된 best estimator로 테스트 데이터 세트에 대해 예측, 성능 평가

estimator= grid_dtree.best_estimator_

pred= estimator.predict(X_test)
print('테스트 데이터 세트 정확도: {0:.4f}'.format(accuracy_score(y_test, pred)))

테스트 데이터 세트 정확도: 0.9667


일반적으로 학습 데이터를 GridSearchCV를 이용해 최적 하이퍼파라미터튜닝을 수행한 후에 별도의 테스트 세트에서 이를 평가하는 것이 일반적인 머신러닝 모델 적용 방법.