## **CHAPTER 2 사이킷런으로 시작하는 머신러닝**

## **01 사이킷런 소개와 특징**

**사이킷런은 파이썬 머신러닝 라이브러리 중 가장 많이 사용되는 라이브러리이다.**

**사이킷런은 파이썬 기반의 머신러닝을 위한 가장 쉽고 효율적인 개발 라이브러리를 제공한다.**

**물론 최근에는 텐서플로, 케라스 등 딥러닝 전문 라이브러리의 강세로 인해 대중적인 관심이 줄어들고 있지만 여전히 많은 데이터 분석가가 의존하는 대표적인 파이썬 ML 라이브러리이다.**

**사이킷런의 특징은 다음과 같다.**

> **파이썬 기반의 다른 머신러닝 패키지도 사이킷런 스타일의 API를 지향할 정도로 쉽고 가장 파이썬스러운 API를 제공한다.**

> **머신러닝을 위한 매우 다양한 알고리즘과 개발을 위한 편리한 프레임워크와 API를 제공한다.**

> **오랜 기간 실전 환경에서 검증됐으며, 매우 많은 환경에서 사용되는 성숙한 라이브러리이다.**

In [1]:
import sklearn

In [2]:
print(sklearn.__version__)

0.21.3


## **02 첫 번째 머신러닝 만들어 보기 - 붓꽃 품종 예측하기**

**사이킷런을 통해 첫 번째로 만들어볼 머신러닝 모델은 붓꽃 데이터 세트로 붓꽃의 품종을 분류하는 것이다.**

**붓꽃 데이터 세트는 꽃잎의 길이와 너비, 꽃받침의 길이와 너비 피처(feature)를 기반으로 꽃의 품종을 예측하기 위한 것이다.**

> **붓꽃 데이터 피처: Sepal length(꽃받침 길이), Sepal width(꽃받침 너비), Petal length(꽃잎 길이), Petal width(꽃잎 너비)**

> **붓꽃 레이블: Setosa, Vesicolor, Virginica**

**분류(Classification)는 대표적인 지도학습(Supervised Learning) 방법의 하나이다.**

> **지도학습은 학습을 위한 다양한 피처와 분류 결정값인 레이블(Label) 데이터로 모델을 학습한 뒤, 별도의 테스트 데이터 세트에서 미지의 레이블을 예측한다.**

> **즉, 지도학습은 명확한 정답이 주어진 데이터를 먼저 학습한 뒤 미지의 정답을 예측하는 방식이다.**

> **이 때 학습을 위해 주어진 데이터 세트를 학습 데이터 세트, 머신러닝 모델의 예측 성능을 평가하기 위해 별도로 주어진 데이터 세트를 테스트 데이터 세트로 지칭**

![test](./img/아이리스.jpg)

**하이퍼 파라미터란 머신러닝 알고리즘별로 최적의 학습을 위해 직접 입력하는 파라미터들을 통칭하며, 하이퍼 파라미터를 통해 머신러닝 알고리즘의 성능을 튜닝할 수 있다.**

In [3]:
# sklearn.datasets 사이킷런에서 자체적으로 제공하는 데이터 세트를 생성하는 모임
from sklearn.datasets import load_iris 
# sklearn.tree 트리에서 자체적으로 제공하는 데이터 세트를 생성하는 모듈의 모임
from sklearn.tree import DecisionTreeClassifier
# sklearn.model_selection은 학습 데이터와 검증 데이터, 예측 데이터로 데이터를 분리하거나 
# 최적의 파라미터로 평가하기 위한 다양한 모듈의 모임
from sklearn.model_selection import train_test_split

In [4]:
import pandas as pd

In [5]:
# 붓꽃 데이터 세트를 로딩
iris = load_iris()

In [6]:
iris.data[:10]

array([[5.1, 3.5, 1.4, 0.2],
       [4.9, 3. , 1.4, 0.2],
       [4.7, 3.2, 1.3, 0.2],
       [4.6, 3.1, 1.5, 0.2],
       [5. , 3.6, 1.4, 0.2],
       [5.4, 3.9, 1.7, 0.4],
       [4.6, 3.4, 1.4, 0.3],
       [5. , 3.4, 1.5, 0.2],
       [4.4, 2.9, 1.4, 0.2],
       [4.9, 3.1, 1.5, 0.1]])

In [7]:
# iris.data는 Iris 데이터 세트에서 피처(feature)만으로 된 데이터를 numpy로 가지고 있다
iris_data = iris.data

In [8]:
iris.feature_names

['sepal length (cm)',
 'sepal width (cm)',
 'petal length (cm)',
 'petal width (cm)']

In [9]:
# iris.target은 붓꽃 데이터 세트에서 레이블 데이터를 numpy로 가지고 있다.
# setosa = 0 , versicolor = 1 , virginica = 2
iris_label = iris.target
print('iris target 값:',iris_label)
print('iris target 명:',iris.target_names)

iris target 값: [0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2
 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
 2 2]
iris target 명: ['setosa' 'versicolor' 'virginica']


In [10]:
# 붓꽃 데이터 세트를 자세히 보기 위해 DataFrame으로 변환한다.
# numpy 자료형을 DataFrame으로 변환하는 과정에서 data는 처음 가져온 iris_data
# columns명은 iris.feature_names으로 지정한다.
# label 자료를 Series에 추가
iris_df = pd.DataFrame(data=iris_data, columns=iris.feature_names)
iris_df['label'] = iris.target
iris_df.tail()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),label
145,6.7,3.0,5.2,2.3,2
146,6.3,2.5,5.0,1.9,2
147,6.5,3.0,5.2,2.0,2
148,6.2,3.4,5.4,2.3,2
149,5.9,3.0,5.1,1.8,2


In [11]:
# 학습용 데이터와 테스트용 데이터는 반드시 분리해야 한다.
# 학습 데이터로 학습된 모델이 얼마나 뛰어난 성능을 가지는지 평가하려면 테스트 세트가 필요하기 때문
# 사이킷런은 train_test_split() API를 통해 학습 데이터와 테스트 데이터를 
# test_size 파라미터 입력 값의 비율로 쉽게 분할한다.
# iris_data(피쳐 데이터 세트)와 iris_label(레이블 데이터 세트)을 테스트 세트의 비율을 20%로 하고 
# 랜덤 난수 값 11로 하여 분할한다.
X_train, X_test, y_train, y_test = train_test_split(iris_data, iris_label,
                                                   test_size = 0.2, random_state=11)

In [12]:
# 학습 데이터를 확보했으니 이 데이터를 기반으로 머신러닝 분류 알고리즘의 하나인 의사 결정 트리를 
# 이용해 학습과 예측을 수행한다.
# DecisionTreeClassifier 객체 생성
# 여기서 random_state역시 동일한 학습/예측 결과를 출력하기 위한 용도이다.
dt_clf = DecisionTreeClassifier(random_state=11)

In [13]:
# 생성된 DecisionTreeClassifier 객체의 fit() 메서드에 학습용 피쳐 데이터 속성과
# 결정 값 데이터 세트를 입력해 호출하면 학습을 수행한다.
# 이제 의사 결정 트리 기반의 DecisionTreeClassifier 객체는 학습 데이터를 기반으로 학습이 완료
dt_clf.fit(X_train,y_train)

DecisionTreeClassifier(class_weight=None, criterion='gini', max_depth=None,
                       max_features=None, max_leaf_nodes=None,
                       min_impurity_decrease=0.0, min_impurity_split=None,
                       min_samples_leaf=1, min_samples_split=2,
                       min_weight_fraction_leaf=0.0, presort=False,
                       random_state=11, splitter='best')

In [14]:
# 이렇게 학습된 DecisionTreeClassifier 객체를 이용해 예측을 수행
# 예측은 반드시 학습 데이터가 아닌 다른 데이터를 이용해야 하며, 일반적으로 테스트 데이터를 사용
# DecisionTreeClassifier 객체의 predict() 메서드에 테스트용 피쳐 데이터 세트를 입력해
# 호출하면 학습된 모델 기반에서 테스트 세트에 대한 예측값을 반환
# 학습이 완료된 DecisionTreeClassifier 객체에서 테스트 데이터 세트로 예측 수행
pred = dt_clf.predict(X_test)

In [15]:
pred

array([2, 2, 1, 1, 2, 0, 1, 0, 0, 1, 1, 1, 1, 2, 2, 0, 2, 1, 2, 2, 1, 0,
       0, 1, 0, 0, 2, 1, 0, 1])

In [16]:
# 예측 결과를 기반으로 의사 결정 트리 기반의 DecisionTreeClassifier의 예측성능 평가
# 일반적으로 머신러닝 모델의 성능 평가 방법은 여러 가지가 있으나, 여기서는 정확도를 측정
# 정확도는 예측 결과가 실제 레이블 값과 얼마나 정확하게 맞는지를 평가하는 지표이다.
# 사이킷런은 정확도 측정을 위해 accuracy_score() 함수를 제공
# accuracy_score()의 첫 번째 파라미터로 실제 레이블 데이터 세트, 
# 두 번재 파라미터로 예측 레이블 데이터 세트를 입력하면 된다.
from sklearn.metrics import accuracy_score
print('예측 정확도: {:.4f}'.format(accuracy_score(y_test,pred)))

예측 정확도: 0.9333


**학습한 의사 결정 트리의 알고리즘 예측 정확도가 약 0.9333(93.33%)으로 측정되었다.**

**붓꽃 데이터 세트로 분류를 예측한 프로세스를 정리하면**

> **1. 데이터 세트 분리: 데이터를 학습 데이터와 테스트 데이터로 분리한다.**

> **2. 모델 학습: 학습 데이터를 기반으로 ML 알고리즘을 적용해 모델을 학습시킨다.**

> **3. 예측 수행: 학습된 ML 모델을 이용해 테스트 데이터의 분류(즉, 붓꽃 종류)를 예측한다.**

> **4. 평가: 이렇게 예측된 결괏값과 테스트 데이터의 실제 결괏값을 비교해 ML 모델 성능을 평가**

![test](./img/프로세스.png)

## **03 사이킷런의 기반 프레임워크 익히기**

### **Estimator 이해 및 fit( ), predict( ) 메서드**

**사이킷런은 API 일관성과 개발 편의성을 제공하기 위한 노력이 엿보이는 패키지이다.**

**사이킷런은 ML 모델 학습을 위해서 fit()을, 학습된 모델의 예측을 위해 predict() 메서드를 제공한다.**

> **지도학습의 주요 두 축인 분류(Classification)와 회귀(Regression)의 다양한 알고리즘을 구현한 모든 사이킷런 클래스는 fit()과 predict()만을 이용해 간단하게 학습과 예측 결과를 반환한다.**

**사이킷런은 매우 많은 유형의 Classifier와 Regressor를 합쳐서 Estimator 클래스라고 부른다.**

> **즉, 지도학습의 모든 알고리즘을 구현한 클래스를 통칭해서 Estimator라고 부른다.**

> **당연히 Estimator 클래스는 fit()과 predict()를 내부에서 구현하고 있다.**

**cross_val_score()와 같은 evaluation 함수, GridSearchCV와 같은 하이퍼 파라미터 튜닝을 지원하는 클래스의 경우 이 Estimator를 인자로 받는다.**

**인자로 받은 Estimator에 대해서 cross_val_score(), GridSearchCV.fit() 함수 내에서 이 Estimator의 fit()과 predict()를 호출해서 평가를 하거나 하이퍼 파라미터 튜닝을 수행하는 것이다.**

![test](./img/모듈듈.jpg)

**사이킷런에서 비지도학습인 차원 축소, 클러스터링, 피처 추출(Feature Extraction) 등을 구현한 클래스 역시 대부분 fit()과 transform()을 적용한다.**

> **비지도학습과 피처 추출에서 fit()은 지도학습의 fit()과 같이 학습하는 것이 아니라 입력 데이터의 형태에 맞춰 데이터를 변환하기 위한 사전 구조를 맞추는 작업이다.**

> **fit()으로 변환을 위한 사전 구조를 맞추면 이후 입력 데이터의 차원 변환, 클러스터링, 피처 추출 등의 실제 작업은 transform()으로 수행한다.**

**사이킷런은 fit()과 transform()을 하나로 결합한 fit_transform()도 함께 제공하지만 사용에 약간의 주의가 필요하다. 그것은 비지도 학습 단원에서 자세히 설명한다.** 

### **사이킷런의 주요 모듈**

|   분류  | 모듈명 | 설명 | 
|---|:---:|---:|
| `예제 데이터` | sklearn.datasets | 사이킷런에 내장되어 예제로 제공하는 데이터 세트  |  
| `피처 처리`| sklearn.preprocessing | 데이터 전처리에 필요한 다양한 기능을 제공(문자열을 숫자형 코드 값으로 인코딩, 정규화, 스케일링 등 |  
| `피처 처리`| sklearn.feature_selcetion | 알고리즘에 큰 영향을 미치는 피처를 우선순위대로 셀렉션 작업을 수행하는 다양한 기능을 제공  |  
| `피처 처리`| sklearn.feature_extraction | 텍스트 데이터나 이미지 데이터의 벡터화된 피처를 추출하는데 사용됨  |  
| `피처 처리 & 차원 축소`| sklearn.decomposition | 차원 축소와 관련한 알고리즘을 지원하는 모듈임. PCA, NMF, Truncated SVD 등을 통해 차원 축소 기능을 수행  |  
| `데이터 분리, 검증 & 파라미터 튜닝`| sklearn.model_selction | 교차 검증을 위한 학습용/ 테스트용 분리, 그리드 서치(Grid Search)로 최적 파라미터 추출 등의 API 제공  |  
| `평가`| sklearn.metrics | 분류, 회귀, 클러스터링, 페어와이즈(Pairwise)에 대한 다양한 성능 측정 방법을 제공 Accuracy, Precision, Recall, ROC-AUC, RMSE 등 제공 |  
| `ML 알고리즘`| sklearn.ensemble | 앙상블 알고리즘 제공 랜덤포레스트, 에이다 부스트, 그래디언트 부스팅 등을 제공 |  
| `ML 알고리즘`| sklearn.linear_model | 주로 선형 회귀, 릿지, 라쏘 및 로지스틱 회귀 등 회귀 관련 알고리즘을 지원 또한 SGD(Stochastic Gradient Descent) 관련 알고리즘도 제공 |  
| `ML 알고리즘`| sklearn.naive_bayes | 나이브 베이즈 알고리즘 제공, 가우시안 NB, 다항 분포 NB 등 |  
| `ML 알고리즘`| sklearn.neighbors | 최근접 이웃 알고리즘 제공 K-NN 등 |  
| `ML 알고리즘`| sklearn.svm | 서포트 벡터 머신 알고리즘 제공 |  
| `ML 알고리즘`| sklearn.tree | 의사 결정 트리 알고리즘 제공 |  
| `ML 알고리즘`| sklearn.cluster | 비지도 클러스터링 알고리즘 제공 (K-평균, 계층형, DBSCAN 등 |  
| `유틸리티`| sklearn.pipeline | 피처 처리 등의 변환과 ML 알고리즘 학습, 예측 등을 함께 묶어서 실행할 수 있는 유틸리티 제공 |  

**현 시점에서는 이들 모듈에 대해 개괄적으로만 이해해도 충분하다.**

**ML에 대해 많은 것을 습득하게 되면 앞에서 소개한 사이킷런의 주요 모듈에 대해 더 깊게, 더 새롭게 이해할 수 있을 것이다.**

**일반적으로 머신러닝 모델을 구축하는 주요 프로세스는 피처의 가공, 변경, 추출을 수행하는 피처 처리(feature processing), ML 알고리즘 학습/예측 수행, 그리고 모델 평가의 단계를 반복적으로 수행하는 것이다.**

> **사이킷런 패키지는 머신러닝 모델을 구축하는 주요 프로세스를 지원하기 위해 매우 편리하고 다양하며 유연한 모듈을 지원한다. 이러한 편리성, 다양성, 유연성이 바로 많은 ML 개발자가 사이킷런을 파이썬 기반의 ML 개발 프레임워크로 선택하게 된 이유이다.**

## **내장된 예제 데이터 세트 예제**

**사이킷런에는 별도의 외부 웹사이트에서 데이터 세트를 내려받을 필요 없이 예제로 활용할 수 있는 간단하면서도 좋은 데이터 세트가 내장돼 있다. 자세한 설명은 P96 ~ P97를 참고하자**

**사이킷런에 내장 되어 있는 데이터 세트는 분류나 회귀를 연습하기 위한 예제용도의 데이터 세트와 분류나 클러스터링을 위해 표본 데이터로 생성될 수 있는 데이터 세트로 나뉘어진다.**

**fetch 계열의 명령은 데이터의 크기가 커서 패키지에 처음부터 저장돼 있지 않고 인터넷에서 내려받아 홈 디렉터리 아래의 scikit_learn_data라는 서브 디렉터리에 저장한 후 추후 불러들이는 데이터이다. 따라서 최초 사용 시에 인터넷에 연결돼 있지 않으면 사용할 수 없다.**

**분류나 회귀를 위한 연습용 예제 데이터가 어떻게 구성돼 있는지 좀 더 살펴보겠다. 사이킷런에 내장된 이 데이터 세트는 일반적으로 딕셔너리 형태로 돼 있다.**

**키는 보통 data, target, target_name, feature_name, DESCR로 구성돼 있다.**

> **data는 피처의 데이터 세트를 가르킨다.**

> **target은 분류 시 레이블 값, 회귀일 때는 숫자 결괏값 데이터 세트이다.**

> **target_names는 개별 레이블의 이름을 나타낸다.**

> **feature_names는 피처의 이름을 나타낸다.**

> **DESCR은 데이터 세트에 대한 설명과 각 피처의 설명을 나타낸다.**

**data, target은 넘파이 배열(ndarray) 타입이며, target_names, feature_names는 넘파이 배열 또는 파이썬 리스트(list) 타입이다. DESCR은 스트링 타입이다.**

**피처의 데이터 값을 반환받기 위해서는 내장 데이터 세트 API를 호출한 뒤에 그 Key값을 지정하면 된다.**

In [17]:
from sklearn.datasets import load_iris

In [18]:
iris_data = load_iris()
print(type(iris_data))

<class 'sklearn.utils.Bunch'>


**load_iris() API의 반환 결과는 sklearn.utile.Bunch 클래스이다.**

> **sklearn.utile.Bunch 클래스는 파이썬 딕셔너리 자료형과 유사하다.**

> **데이터 세트에 내장돼 있는 대부분의 데이터 세트는 이와 같이 딕셔너리 형태의 값을 반환한다.**

> **딕셔너리 형태이므로 load_iris() 데이터 세트의 key 값을 확인한다.**

In [19]:
# load_iris() 데이터 세트의 key값을 확인
keys = iris_data.keys()
print('붓꽃 데이터 세트의 키들:',keys)

붓꽃 데이터 세트의 키들: dict_keys(['data', 'target', 'target_names', 'DESCR', 'feature_names', 'filename'])


In [20]:
print('\n feature_name의 type:',type(iris_data.feature_names))
print('feature_name의 shape:',len(iris_data.feature_names))
print(iris_data.feature_names)

print('\n target_name의 type:',type(iris_data.target_names))
print('target_name의 shape:',len(iris_data.target_names))
print(iris_data.target_names)

print('\n data의 type:',type(iris_data.data))
print('data의 shape:',type(iris_data.data))
print(iris_data.data)

print('\n target의 type:',type(iris_data.target))
print('target의 shape:',len(iris_data.target))
print(iris_data.target)


 feature_name의 type: <class 'list'>
feature_name의 shape: 4
['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']

 target_name의 type: <class 'numpy.ndarray'>
target_name의 shape: 3
['setosa' 'versicolor' 'virginica']

 data의 type: <class 'numpy.ndarray'>
data의 shape: <class 'numpy.ndarray'>
[[5.1 3.5 1.4 0.2]
 [4.9 3.  1.4 0.2]
 [4.7 3.2 1.3 0.2]
 [4.6 3.1 1.5 0.2]
 [5.  3.6 1.4 0.2]
 [5.4 3.9 1.7 0.4]
 [4.6 3.4 1.4 0.3]
 [5.  3.4 1.5 0.2]
 [4.4 2.9 1.4 0.2]
 [4.9 3.1 1.5 0.1]
 [5.4 3.7 1.5 0.2]
 [4.8 3.4 1.6 0.2]
 [4.8 3.  1.4 0.1]
 [4.3 3.  1.1 0.1]
 [5.8 4.  1.2 0.2]
 [5.7 4.4 1.5 0.4]
 [5.4 3.9 1.3 0.4]
 [5.1 3.5 1.4 0.3]
 [5.7 3.8 1.7 0.3]
 [5.1 3.8 1.5 0.3]
 [5.4 3.4 1.7 0.2]
 [5.1 3.7 1.5 0.4]
 [4.6 3.6 1.  0.2]
 [5.1 3.3 1.7 0.5]
 [4.8 3.4 1.9 0.2]
 [5.  3.  1.6 0.2]
 [5.  3.4 1.6 0.4]
 [5.2 3.5 1.5 0.2]
 [5.2 3.4 1.4 0.2]
 [4.7 3.2 1.6 0.2]
 [4.8 3.1 1.6 0.2]
 [5.4 3.4 1.5 0.4]
 [5.2 4.1 1.5 0.1]
 [5.5 4.2 1.4 0.2]
 [4.9 3.1 1.5 0.2]
 [5.  3.2 1.2 

## **04 Model Selection 모듈 소개**

**사이킷런의 model_selection 모듈은 학습 데이터와 테스트 데이터 세트를 분리하거나 교차 검증 분할 및 평가, 그리고 Estimator의 하이퍼 파라미터를 튜닝하기 위한 다양한 함수와 클래스를 제공한다.**

### **학습/테스트 데이터 세트 분리 - train_test_split()**

**먼저 테스트 데이터 세트를 이용하지 않고 학습 데이터 세트로만 학습하고 예측하면 무엇이 문제인지 살펴본다**

In [21]:
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score
from sklearn.model_selection import train_test_split

In [22]:
# 데이터 불러오기
iris = load_iris()
dt_clf = DecisionTreeClassifier()
train_data = iris.data
train_label = iris.target

In [23]:
# 모델 학습
dt_clf.fit(train_data,train_label)

DecisionTreeClassifier(class_weight=None, criterion='gini', max_depth=None,
                       max_features=None, max_leaf_nodes=None,
                       min_impurity_decrease=0.0, min_impurity_split=None,
                       min_samples_leaf=1, min_samples_split=2,
                       min_weight_fraction_leaf=0.0, presort=False,
                       random_state=None, splitter='best')

In [24]:
# 학습 데이터 세트로 예측 수행
pred = dt_clf.predict(train_data)
print('예측 정확도:',accuracy_score(train_label,pred))

예측 정확도: 1.0


**위의 예측 결과가 100% 정확한 이유는 이미 학습한 학습 데이터 세트를 기반으로 예측했기 때문이다.**

> **즉, 모의고사를 이미 한 번 보고 답을 알고 있는 상태에서 모의고사 문제와 똑같은 본고사 문제가 출제됐기 때문이라 생각하면 된다.**

**따라서 예측을 수행하는 데이터 세트는 학습을 수행한 학습용 데이터 세트가 아닌 전용의 테스트 데이터 세트여야 한다.**

**사이킷런의 train_test_split()를 통해 원본 데이터를 train, test 데이터로 분리한다.**

> **train_test_split()는 첫 번째 파라미터로 피처 데이터 세트, 두 번째 파라미터로 레이블 데이터 세트를 입력 받는다.**

> **test_size: 전체 데이터에서 테스트 데이터 세트 크기를 얼마로 샘플링할 것인가를 결정**

> **shuffle: 데이터를 분리하기 전에 데이터를 미리 섞을지를 결정한다. 디폴트는 True**

> **random_state: 호출할 때마다 동일한 학습/테스트용 데이터 세트를 생성하기 위해 주어지는 난수 값이다.**

> **train_test_split()의 반환값은 튜플 형태이다. 순차적으로 학습용 데이터의 피처 데이터 세트, 테스트용 데이터의 피처 데이터 세트, 학습용 데이터의 레이블 데이터 세트, 테스트용 데이터의 레이블 세트가 반환된다.**

In [25]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split

In [26]:
# 데이터 불러오기 및 머신러닝 모델 생성
dt_clf = DecisionTreeClassifier()
iris_data = load_iris()

In [27]:
# 데이터 분할
X_train, X_test, y_train, y_test = train_test_split(iris_data.data, iris_data.target,
                                                   test_size = 0.3, random_state=121)

In [28]:
# 모델 훈련 및 예측
dt_clf.fit(X_train,y_train)
pred = dt_clf.predict(X_test)
print('예측 정확도: {:.4f}'.format(accuracy_score(y_test,pred)))

예측 정확도: 0.9556


**붓꽃 데이터는 150개의 데이터로 데이터 양이 크지 않아 전체의 30% 정도인 테스트 데이터는 45개 정도밖에 되지 않으므로 이를 통해 알고리즘의 예측 성능을 판단하기에는 그리 적절하지 않다.**

**학습을 위한 데이터의 양을 일정 수준 이상으로 보장하는 것도 중요하지만, 학습된 모델에 대해 다양한 데이터를 기반으로 예측 성능을 평가해보는 것도 매우 중요하다.**

### **과적합(Overfiting)**

**과적합은 모델이 학습 데이터에만 과도하게 최적화되어, 실제 예측을 다른 데이터로 수행할 경우에는 예측 성능이 과도하게 떨어지는 것을 말한다.**

**그런데 고정된 학습 데이터와 테스트 데이터로 평가를 하다 도변 테스트 데이터에만 최적의 성능을 발휘할 수 있도록 편향되게 모델을 유도하는 경향이 생기게 된다.**

> **결국은 해당 테스트 데이터에만 과적합되는 학습 모델이 만들어져 다른 테스트용 데이터가 들어올 경우에는 성능이 저하된다.**

**이러한 문제점을 개선하기 위해 교차 검증을 이용해 다양한 학습과 평가를 수행한다.**

> **교차 검증을 좀 더 간략히 설명하자면 본고사를 치르기 전에 모의고사를 여러 번 보는 것이다. 즉, 본고사가 테스트 데이터 세트에 대해 평가하는 거라면 모의고사는 교차 검증에서 많은 학습과 검증 세트에서 알고리즘 학습과 평가를 수행하는 것이다.**

**ML은 데이터에 기반한다. 그리고 데이터는 이상치, 분포도, 다양한 속성값, 피처 중요도 등 여러 가지 ML에 영향을 미치는 요소를 가지고 있다.**

> **따라서 특정 ML 알고리즘에서 최적으로 동작할 수 있도록 데이터를 선별해 학습한다면 실제 데이터 양식과는 많은 차이가 있을 것이고 결국 성능 저하로 이어질 것이다.**

**교차 검증은 이러한 데이터 편중을 막기 위해서 별도의 여러 세트로 구성된 학습 데이터 세트와 검증 데이터 세트에서 학습과 평가를 수행하는 것이다.**

> **그리고 각 세트에서 수행한 평가 결과에 따라 하이퍼 파라미터 튜닝 등의 모델 최적화를 더욱 손쉽게 할 수 있다.**

**대부분의 ML 모델의 성능 평가는 교차 검증 기반으로 1차 평가를 한 뒤에 최종적으로 테스트 데잉터 세트에 적용해 평가하는 프로세스이다.**

**ML에 사용되는 데이터 세트를 세분화해서 학습, 검증, 테스트 데이터 세트로 나눌 수 있다.**

> **테스트 데이터 세트 외에 별도의 검증 데이터 세트를 둬서 최종 평가 이전에 학습된 모델을 다양하게 평가하는 데 사용한다.**

![test](./img/교차검증.png)

#### **K 폴드 교차 검증**

**K 폴드 교차 검증은 가장 보편적으로 사용되는 교차 검증 기법이다. 먼저 K개의 데이터 폴드 세트를 만들어서 K번만큼 각 폴드 세트에 학습과 검증 평가를 반복적으로 수행하는 방법이다.**

![test](./img/k폴트.png)

**5개의 폴드된 데이터 세트를 학습과 검증을 위한 데이터 세트로 변경하면서 5번 평가를 수행한 뒤, 이 5개의 평가를 평균한 결과를 가지고 예측 성능을 평가한다.**

**이렇게 학습 데이터 세트와 검증 데이터 세트를 점진적으로 변경하면서 마지막 5번째(K번째)까지 학습과 검증을 수행하는 것이 바로 K폴드 교차 검증이다.**

**5개(K개)의 예측 평가를 구했으면 이를 평균해서 K폴드 평가 결과로 반영하면 된다.**

In [29]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score
from sklearn.model_selection import KFold
import numpy as np

In [30]:
# 데이터 불러오기
iris = load_iris()
features = iris.data
label = iris.target
# 모델 생성
dt_clf = DecisionTreeClassifier(random_state=156)

In [31]:
# Kfold 객체 생성 fold는 5개로 지정
kfold = KFold(n_splits=5)
# 폴드 세트별 정확도를 담는 리스트
cv_accuracy = []
print('붓꽃 데이터 세트의 크기:',features.shape[0])

붓꽃 데이터 세트의 크기: 150


**이제 생성된 KFold 객체의 split()을 호출해 전체 붓꽃 데이터를 5개의 폴드 데이터 세트로 분리한다.**

**KFold 객체는 split()을 호출하면 학습용/검증용 데이터로 분할할 수 있는 인덱스를 반환한다.**

> **실제로 학습용/검증용 데이터 추출은 반환된 인덱스를 기반으로 개발 코드에서 직접 수행해야 한다.**

In [32]:
# 다음 예제는 5개의 폴드 세트를 생성하는 KFold 객체의 split()을 호출해 교차 검증 수행 시마다
# 학습과 검증을 반복해 예측 정확도를 측정한다.
# 그리고 split()이 어떤 값을 실제로 반환하는지도 확인해 보기 위해 검증 데이터 세트의 인덱스 추출

n_iter = 0

# KFold 객체의 split()을 호출하면 폴드 별 학습용, 검증용 테스트의 로우 인덱스를 array로 반환
for train_index, test_index in kfold.split(features):
    # kfold.split()으로 반환된 인덱스를 이용해 학습용, 검증용 테스트 데이터 추출
    # 여기서 features는 iris.data의 훈련 데이터를 뜻하고, label은 해당 결과 값을 뜻한다.
    X_train, X_test = features[train_index], features[test_index]
    y_train, y_test = label[train_index], label[test_index]
    # 학습 및 예측
    dt_clf.fit(X_train,y_train)
    pred = dt_clf.predict(X_test)
    n_iter += 1 # 1,2,3,4,5 번째 교차 검증을 보여주기 위한 단순한 count 변수
    # 반복 시마다 정확도 측정
    # np.round accuracy_score의 실제 label과 예측 label을 비교하여 accuacy_score계산하고
    # 소수점 5번째 자리에서 반올림
    accuracy = np.round(accuracy_score(y_test,pred),4)
    train_size = X_train.shape[0]
    test_size = X_test.shape[0]
    print('\n#{0} 교차 검증 정확도: {1}, 학습 데이터 크기: {2}, 검증 데이터 크기: {3}'
         .format(n_iter,accuracy, train_size,test_size))
    print('#{0} 검증 세트 인덱스:{1}'.format(n_iter, test_index))
    cv_accuracy.append(accuracy)
    
# 개별 iteration별 정확도를 합하여 평균 정확도 계산
print('\n## 평균 검증 정확도:',np.mean(cv_accuracy))


#1 교차 검증 정확도: 1.0, 학습 데이터 크기: 120, 검증 데이터 크기: 30
#1 검증 세트 인덱스:[ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
 24 25 26 27 28 29]

#2 교차 검증 정확도: 0.9667, 학습 데이터 크기: 120, 검증 데이터 크기: 30
#2 검증 세트 인덱스:[30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53
 54 55 56 57 58 59]

#3 교차 검증 정확도: 0.8667, 학습 데이터 크기: 120, 검증 데이터 크기: 30
#3 검증 세트 인덱스:[60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83
 84 85 86 87 88 89]

#4 교차 검증 정확도: 0.9333, 학습 데이터 크기: 120, 검증 데이터 크기: 30
#4 검증 세트 인덱스:[ 90  91  92  93  94  95  96  97  98  99 100 101 102 103 104 105 106 107
 108 109 110 111 112 113 114 115 116 117 118 119]

#5 교차 검증 정확도: 0.7333, 학습 데이터 크기: 120, 검증 데이터 크기: 30
#5 검증 세트 인덱스:[120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137
 138 139 140 141 142 143 144 145 146 147 148 149]

## 평균 검증 정확도: 0.9


**5번 교차 검증 결과 평균 검증 정확도는 0.9이다. 그리고 교차 검증 시마다 검증 세트의 인덱스가 달라짐을 알 수 있다. 학습 데이터 세트의 인덱스는 수가 많아서 출력하지 않았지만 검증 세트의 인덱스를 보면 교차 검증 시마다 split()함수가 어떻게 인덱스를 할당하는지 알 수 있다.**

> **첫 번째 교차 검증에서는 0 ~ 29, 두 번째 교차 검증에서는 30 ~ 59 등 5개의 교차 검증이 진행되고 이를 기반으로 검증 세트를 추출하게 된다.**

#### **Stratified K 폴드**

**Stratified K 폴드는 불균형한(imbalanced)분포를 가진 레이블(결정 클래스) 데이터 집합을 위한 K 폴드 방식이다.**

> **여기서 불균형한 분포도를 가진 레이블 데이터 집합은 특정 레이블 값이 특이하게 많거나 매우 적어서 값의 분포가 한쪽으로 치우치는 것을 말한다.**

**주로 작은 비율의 1 레이블(사건 발생)값이 있다면 K 폴드로 랜덤하게 학습 및 테스트 세트의 인덱스를 고르더라도 레이블 값인 0과 1의 비율을 제대로 반영하지 못하는 경우가 쉽게 발생한다. 즉, 레이블 값으로 1이 특정 개별 반복별 학습/테스트 데이터 세트에 상대적으로 많이 들어 있고, 다른 반복 학습/테스트 데이터 세트에는 그렇지 못한 결과가 발생한다.**

**따라서 원본 데이터와 유사한 레이블 값의 분포를 학습/테스트 세트에도 유지하는 게 중요하다.**

**Stratified K 폴드는 이처럼 K 폴드가 레이블 데이터 집합이 원본 데이터 집합의 레이블 분포를 학습 및 테스트 세트에 제대로 분배하지 못하는 경우의 문제를 해결해준다.**

> **이를 위해 Stratified K 폴드는 원본 데이터의 레이블 분포를 먼저 고려한 뒤 이 분포와 동일하게 학습과 검증 데이터 세트를 분배한다.**

In [33]:
import pandas as pd

In [34]:
iris = load_iris()

In [35]:
# 레이블 값은 0,1,2값 모두 50개로 동일하다.
# 즉, Setosa 품종, Versicolor 품종, Virginica 품종 모두가 50개이다.
iris_df = pd.DataFrame(data=iris.data, columns=iris.feature_names)
iris_df['label'] = iris.target
iris_df['label'].value_counts()

2    50
1    50
0    50
Name: label, dtype: int64

In [36]:
# 먼저 K 폴드가 어떤 문제를 가지고 있는지 확인
kfold = KFold(n_splits=3) # 3-Fold
n_iter = 0 # count 변수

for train_index, test_index in kfold.split(iris_df):
    n_iter += 1
    label_train = iris_df['label'].iloc[train_index] # 학습 레이블 
    label_test = iris_df['label'].iloc[test_index] # 검증 레이블
    print('## 교차 검증: {0}'.format(n_iter))
    print('학습 레이블 데이터 분포:\n',label_train.value_counts())
    print('검증 레이블 데이터 분포:\n',label_test.value_counts())

## 교차 검증: 1
학습 레이블 데이터 분포:
 2    50
1    50
Name: label, dtype: int64
검증 레이블 데이터 분포:
 0    50
Name: label, dtype: int64
## 교차 검증: 2
학습 레이블 데이터 분포:
 2    50
0    50
Name: label, dtype: int64
검증 레이블 데이터 분포:
 1    50
Name: label, dtype: int64
## 교차 검증: 3
학습 레이블 데이터 분포:
 1    50
0    50
Name: label, dtype: int64
검증 레이블 데이터 분포:
 2    50
Name: label, dtype: int64


**교차 검증 시마다 3개의 폴드 세트로 만들어지는 학습 레이블과 검증 레이블이 완전히 다른 값으로 추출되었다.**

> **예를 들어 첫 번째 교차 검증에서는 학습 레이블의 1,2, 값이 각각 50개가 추출되었고, 검증 레이블의 0값이 50개 추출되었다.**

> **학습 레이블은 1,2 밖에 없으므로 0의 경우는 전혀 학습하지 못한다. 반대로 검증 레이블은 0밖에 없으므로 학습 모델은 절대 0을 예측하지 못한다.**

**StratifiedKFold는 이렇게 KFold로 분할된 레이블 데이터 세트가 전체 레이블 갑싀 분포도를 반영하지 못하는 문제를 해결해 준다.**

> **StratifiedKFlod와 Kfold의 사용방법은 거의 비슷하지만 한 가지 큰 차이는 StratifiedKFold는 레이블 데이터 분포도에 따라 학습/검증 데이터를 나누기 때문에 split()메서드에 인자로 피처 데이터 세트뿐만 아니라 레이블 데이터 세트도 반드시 필요하다는 사실이다.**


In [37]:
from sklearn.model_selection import StratifiedKFold

In [38]:
skf = StratifiedKFold(n_splits=3)
n_iter = 0

In [39]:
for train_index, test_index in skf.split(iris_df,iris_df['label']):
    
    n_iter += 1
    
    label_train = iris_df['label'].iloc[train_index]
    label_test = iris_df['label'].iloc[test_index]
    print('## 교차 검증: {0}'.format(n_iter))
    print('학습 레이블 데이터 분포:\n',label_train.value_counts())
    print('검증 레이블 데이터 분포:\n',label_test.value_counts())

## 교차 검증: 1
학습 레이블 데이터 분포:
 2    33
1    33
0    33
Name: label, dtype: int64
검증 레이블 데이터 분포:
 2    17
1    17
0    17
Name: label, dtype: int64
## 교차 검증: 2
학습 레이블 데이터 분포:
 2    33
1    33
0    33
Name: label, dtype: int64
검증 레이블 데이터 분포:
 2    17
1    17
0    17
Name: label, dtype: int64
## 교차 검증: 3
학습 레이블 데이터 분포:
 2    34
1    34
0    34
Name: label, dtype: int64
검증 레이블 데이터 분포:
 2    16
1    16
0    16
Name: label, dtype: int64


**출력 결과를 보면 학습 레이블과 검증 레이블 데이터 값의 분포도가 동일하게 할당됐음을 알 수 있다.**

> **이렇게 분할이 되어야 레이블 값 0,1,2를 모두 학습할 수 있고, 이에 기반해 검증을 수행할 수 있다.**

In [40]:
# StratifiedKFold를 이용해 붓꽃 데이터의 교차검증
df_clf = DecisionTreeClassifier(random_state=156)

In [41]:
skfold = StratifiedKFold(n_splits=3)
n_iter = 0
cv_accuracy = []

In [42]:
# StratifiedKFold의 split() 호출시 반드시 레이블 데이터 세트도 추가 입력 필요
for train_index, test_index in skfold.split(features,label):
    # split()으로 반환된 인덱스를 이용해 학습용, 검증용 테스트 데이터 추출
    # features, label의 인덱스를 train_index, test_index로 들어가는데,
    # 3겹 Fold이므로 for문의 에폭은 3이고, 100개는 train_index, 50개는 test_index에 들어간다.
    # 그리고, 각 분할된 index를 차례로 train 데이터와 test 데이터로 할당 한다.
    X_train, X_test = features[train_index], features[test_index]
    y_train, y_test = label[train_index], label[test_index]
    
    # 학습 및 예측
    dt_clf.fit(X_train,y_train)
    pred = dt_clf.predict(X_test)
    
    # 반복 시마다 정확도 측정
    n_iter += 1
    accuracy = np.round(accuracy_score(y_test,pred),4)
    train_size = X_train.shape[0] # train sample의  갯수
    test_size = X_test.shape[0] # test sample의 갯수
    print('\n#{0} 교차 검증 정확도: {1}, 학습 데이터 크기: {2}, 검증 데이터 크기: {3}'
         .format(n_iter, accuracy, train_size, test_size))
    print('#{0} 검증 세트 인덱스: {1}'.format(n_iter, test_index))
    cv_accuracy.append(accuracy) # 각 에폭의 accuracy를 빈 리스트에 기록
    
#1 교차 검증별 정확도 및 평균 정확도 계산
print('\n## 교차 검증별 정확도:', np.round(cv_accuracy,4))
print('## 평균 검증 정확도:',np.mean(cv_accuracy))


#1 교차 검증 정확도: 0.9804, 학습 데이터 크기: 99, 검증 데이터 크기: 51
#1 검증 세트 인덱스: [  0   1   2   3   4   5   6   7   8   9  10  11  12  13  14  15  16  50
  51  52  53  54  55  56  57  58  59  60  61  62  63  64  65  66 100 101
 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116]

#2 교차 검증 정확도: 0.9216, 학습 데이터 크기: 99, 검증 데이터 크기: 51
#2 검증 세트 인덱스: [ 17  18  19  20  21  22  23  24  25  26  27  28  29  30  31  32  33  67
  68  69  70  71  72  73  74  75  76  77  78  79  80  81  82  83 117 118
 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133]

#3 교차 검증 정확도: 0.9792, 학습 데이터 크기: 102, 검증 데이터 크기: 48
#3 검증 세트 인덱스: [ 34  35  36  37  38  39  40  41  42  43  44  45  46  47  48  49  84  85
  86  87  88  89  90  91  92  93  94  95  96  97  98  99 134 135 136 137
 138 139 140 141 142 143 144 145 146 147 148 149]

## 교차 검증별 정확도: [0.9804 0.9216 0.9792]
## 평균 검증 정확도: 0.9604


**3개의 Stratified K 폴드로 교차 검증한 결과 평균 검증 정확도가 약 96.04%로 측정됐다.**

**Stratified K 폴드의 경우 원본 데이터의 레이블 분포도 특성을 반영한 학습 및 검증 데이터 세트를 만들 수 있으므로 왜곡된 레이블 데이터 세트에서는 반드시 Stratified K 폴드를 이용해 교차 검증을 실시 해야한다.**

> **사실, 일반적으로 분류(Classification)에서의 교차 검증은 K폴드가 아니라 Stratified K 폴드로 분할돼야 한다.**

> **회귀에서는 Stratified K 폴드가 지원되지 않는다. 이유는 회귀의 결정값은 이산값 형태의 레이블이 아니라 연속된 숫자값이기 때문에 결정값별로 분포를 정하는 의미가 없기 때문이다.**

#### **교차 검증을 보다 간편하게 - cross_val_score( )**

**사이킷런은 교차 검증을 좀 더 편리하게 수행할 수 있게 해주는 API를 제공한다.**

**대표적인 것이 cross_val_score( )이다.**

> **KFold로 데이터를 학습하고 예측하는 이전의 코드를 보면 폴드 세트를 설정하고 for 루프에서 반복으로 학습 및 테스트 데이터의 인덱스를 추출한 뒤 반복적으로 학습과 예측을 수행하고 예측 성능을 반환했다.**

**cross_val_score()는 이런 일련의 과정을 한꺼번에 수행해주는 API이다.**

> **cross_val_score(estimator, X, y=None, scoring=None, n_job=1, verbose=0, fit_params=None, pre_dispatch='2*n_jobs').**

> **이 중 estimator, X, y, scoring, cv가 주요 파라미터이다.**

**estimator는 사이킷런의 분류 알고리즘 클래스인 Classification 또는 회귀 알고리즘 클래스인 Regressor를 의미하고, X는 피처 데이터 세트, y는 레이블 데이터 세트, scoring은 예측 성능 평가 지표를 기술하며, cv는 교차 검증 폴드 수를 의미한다.**


**cross_val_score()는 classifier가 입력되면 Stratified K 폴드 방식으로 레이블값의 분포에 따라 학습/테스트 세트를 분할한다.(회귀 이 경우는 Stratified K 폴드 방식으로 분할할 수 없으므로 K폴드 방식으로 분할한다.)**

In [43]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import cross_val_score, cross_validate
from sklearn.datasets import load_iris

In [44]:
iris_data = load_iris()
df_clf = DecisionTreeClassifier(random_state=156)

In [45]:
data = iris_data.data
label = iris_data.target

In [46]:
# 성능 지표는 정확도, 교차 검증 세트는 3개
scores = cross_val_score(dt_clf,data,label,scoring='accuracy',cv=3)
print('교차 검증별 정확도:',np.round(scores,4))
print('평균 검증별 정확도:',np.round(np.mean(scores),4))

교차 검증별 정확도: [0.9804 0.9216 0.9792]
평균 검증별 정확도: 0.9604


**cross_val_score()는 cv로 지정된 횟수만큼 scoring 파라미터로 지정된 평가 지표로 평가 결괏값을 배열로 반환한다. 그리고 일반적으로 이를 평균해 평가 수치로 사용한다.**

**cross_val_score() API 내부에서 Estimator를 학습(fit), 예측(predict), 평가(evaluation)시켜주므로 간단하게 교차 검증을 수행할 수 있다.**

> **분류의 경우 cross_val_score()가 내부적으로 StratifiedKFold를 이용한다.**

**비슷한 API로 Cross_validate()가 있는데, 여러 개의 평가 지표를 반환할 수 있다. 또한, 학습 데이터에 대한 성능평가가 지표와 수행 시간도 같이 제공한다.**

> **하지만 보통 cross_val_score()하나로도 대부분의 경우 사용한다.**

## **GridSearchCV - 교차 검증과 최적 하이퍼 파라미터 튜닝을 한 번에**

**하이퍼 파라미터에 대한 상세한 설명은 뒷부분에서 배우기 때문에 튜닝 방안을 언급하는 것이 성급할 수 있지만 어떤 방식으로 이 파라미터에 대한 튜닝을 진행하는지 미리 알아두는 것이 좋다.**

**하이퍼 파라미터는 머신러닝 알고리즘을 구성하는 주요 구성 요소이며, 이 값을 조정해 알고리즘의 예측 성능을 개선할 수 있다.**

**사이킷런은 GridSearchCV API를 이용해 Classifier나 Regressor와 같은 알고리즘에 사용되는 하이퍼 파라미터를 순차적으로 입력하면서 편리하게 최적의 파라미터를 도출할 수 있는 방안을 제공한다.**

> **Grid는 격자라는 뜻으로, 촘촘하게 파라미터를 입력하면서 테스트를 하는 방식이다.**

In [47]:
# 결정 트리 알고리즘의 여러 하이퍼 파라미터를 순차적으로 변경하면서 최고 성능을 가지는 파라미터
# 조합을 찾고자 한다면 다음과 같이 집합을 만들고 이를 순차적으로 적용하면서 최적화를 수행
grid_parameters = {'max_depth':[1,2,3],
                  'min_samples_split':[2,3]
                  }

**하이퍼 파라미터는 다음과 같이 순차적으로 적용되며, 총 6회의 걸쳐 파라미터를 순차적으로 바꿔 실행하면서 최적의 파라미터와 수행 결과를 도출할 수 있다.**

> **for 루프로 모든 파라미터를 번갈아 입력하면서 학습시키는 방법을 좀 더 유연하게 API레벨에서 제공**

**GridSearchCV는 교차 검증을 기반으로 이 하이퍼 파라미터의 최적 값을 찾게 해준다. 즉, 데이터 세트를 cross-validation을 위한 학습/테스트 세트로 자동으로 분할한 뒤 하이퍼 파라미터 그리에 기술된 모든 파라미터를 순차적으로 적용해 최적의 파라미터를 찾을 수 있게 해준다.**

> **튜닝하고자 하는 여러 종류의 하이퍼 파라미터를 다양하게 테스트하면서 최적의 파라미터를 편리하게 찾게 해주지만 동시에 순차적으로 파라미터를 테스트하므로 수행시간이 상대적으로 오래 걸리는 것에 유념**

**GridSearchCV 클래스의 생성자로 들어가는 주요 파라미터**

> **estimator: classifier, regressor, pipeline**

> **param_grid: key + 리스트 값을 가지는 딕셔너리가 주어진다. estimator의 튜닝을 위해 파라미터명과 사용될 여러 파라미터 값을 지정한다.**

> **scoring: 예측 성능을 평가할 평가 방법을 지정한다. 보통은 accuracy를 주로 사용**

> **cv: 교차 검증을 위해 분할되는 학습/테스트 세트의 개수를 지정한다.**

> **refit: 디폴트가 True이며, True로 생성 시 가장 최적의 파라미터를 찾은 뒤 입력된 estimator 객체를 해당 파라미터로 재학습시킨다.**


In [48]:
# 결정 트리 알고리즘의 여러 가지 최적화 파라미터를 순차적으로 적용해 붓꽃 데이터를 예측
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import GridSearchCV

In [49]:
# 데이터를 로딩하고 학습 데이터와 테스트 데이터 분리
iris = load_iris()
X_train, X_test, y_train, y_test = train_test_split(iris_data.data, iris_data.target,
                                                   test_size=0.2, random_state=121)

In [50]:
dtree = DecisionTreeClassifier()

In [51]:
# 파라미터를 딕녀너리 형태로 설정
parameter = {'max_depth':[1,2,3],
            'min_samples_split':[2,3]}

**학습 데이터 세트를 GridSearchCV 객체의 fit(학습 데이터 세트) 메서드에 인자로 입력한다.**

**GridSearchCV 객체의 fit(학습 데이터 세트) 메서드를 수행하면 학습 데이터를 cv에 기술된 폴딩 세트로 분할해 param_grid에 기술된 하이퍼 파라미터를 순차적으로 변경하면서 학습/평가를 수행하고 그 결과를 cv_results_ 속성에 기록한다.**

> **cv_results_는 gridsearchcv의 결과 세트로서 딕셔너리 형태로 key값과 리스트 형태의 value 값을 가진다.**

> **cv_results_를 Pandas의 DataFrame으로 변환하면 내용을 좀 더 쉽게 볼 수 있다.**

In [52]:
import pandas as pd

In [53]:
# param_grid의 하이퍼 파라미터를 3개의 train, test set fold로 나누어 테스트 수행 설정
# refit = True가 default
grid_dtree = GridSearchCV(dtree, param_grid=parameter,cv=3, refit=True)

In [54]:
# 붓꽃 학습 데이터로 param_grid의 하이퍼 파라미터를 순차적으로 학습/평가
grid_dtree.fit(X_train, y_train)

GridSearchCV(cv=3, error_score='raise-deprecating',
             estimator=DecisionTreeClassifier(class_weight=None,
                                              criterion='gini', max_depth=None,
                                              max_features=None,
                                              max_leaf_nodes=None,
                                              min_impurity_decrease=0.0,
                                              min_impurity_split=None,
                                              min_samples_leaf=1,
                                              min_samples_split=2,
                                              min_weight_fraction_leaf=0.0,
                                              presort=False, random_state=None,
                                              splitter='best'),
             iid='warn', n_jobs=None,
             param_grid={'max_depth': [1, 2, 3], 'min_samples_split': [2, 3]},
             pre_dispatch='2*n_jobs', refit=True, return_

In [55]:
# GridSearchCV 결과를 추출해 DataFrame으로 변환
# rank_test_score: 하이퍼 파라미터 조합의 순위
# split0_test_score, split1_test_score, split2_test_score는
# 3겹 교차 검증의 각각의 점수이다.
# 그것을 평균한게 mean_test_score이다.
scores_df = pd.DataFrame(grid_dtree.cv_results_) # 여러 개의 파라미터로 학습시킨 결과를 데이터 프레임 형태로 변환하여 출력
scores_df[['params','mean_test_score','rank_test_score',
          'split0_test_score','split1_test_score','split2_test_score']] # 칼럼명 지정

Unnamed: 0,params,mean_test_score,rank_test_score,split0_test_score,split1_test_score,split2_test_score
0,"{'max_depth': 1, 'min_samples_split': 2}",0.7,5,0.7,0.7,0.7
1,"{'max_depth': 1, 'min_samples_split': 3}",0.7,5,0.7,0.7,0.7
2,"{'max_depth': 2, 'min_samples_split': 2}",0.958333,3,0.925,1.0,0.95
3,"{'max_depth': 2, 'min_samples_split': 3}",0.958333,3,0.925,1.0,0.95
4,"{'max_depth': 3, 'min_samples_split': 2}",0.975,1,0.975,1.0,0.95
5,"{'max_depth': 3, 'min_samples_split': 3}",0.975,1,0.975,1.0,0.95


**GridSearchCV 객체의 fit()을 수행하면 최고 성능을 나타낸 하이퍼 파라미터의 값과 그때의 평가 결과 값이 각각 best_params_, best_score_속성에 기록된다.(즉, cv_results_의 rank_test_score가 1일 때의 값이다.)**

In [56]:
# 최적 하이퍼 파라미터의 값과 그때의 정확도
# max_depth가 3, min_samples_split 2일 때 검증용 폴드 세트에서 평균 최고 정확도가 96.67%
# refit=True이면 GridSearchCV가 최적 성능을 나타내는 하이퍼 파라미터로 Estimator를 학습해
# best_estimato_로 저장된다.
print('GridSearchCV 최적 파라미터:', grid_dtree.best_params_)
print('GridSearchCV 최고 정확도:{:.4f}'.format(grid_dtree.best_score_))

GridSearchCV 최적 파라미터: {'max_depth': 3, 'min_samples_split': 2}
GridSearchCV 최고 정확도:0.9750


In [57]:
# 이미 학습된 best_estimator_를 이용해 앞에서 분리한 테스트 데이터 세트에 대한 예측하고 성능평가
estimator = grid_dtree.best_estimator_

In [58]:
# GridSearchCV의 best_estimator_는 이미 최적 학습이 됐으므로 별도 학습이 필요 없다.
pred = estimator.predict(X_test)
print('테스트 데이터 세트 정확도: {:.4f}'.format(accuracy_score(y_test,pred)))

테스트 데이터 세트 정확도: 0.9667


**별도의 테스트 데이터세트로 정확도를 측정한 결과 약 96.67%의 결과가 도출됐다. 일반적으로 학습 데이터를 GridSearchCV를 이용해 최적 하이퍼 파라미터 튜닝을 수행한 뒤에 별도의 테스트 세트에서 이를 평가하는 것이 일반적인 머신러닝 모델 적용 방법이다.**