# 사이킷런(scikit-learn) 기본 지식

사이킷런(scikit-learn)은 파이썬 머신러닝 라이브러리 중 가장 많이 사용되는 라이브러리입니다.
파이썬 기반의 머신러닝은 곧 사이킷런으로 개발하는 것을 의미할 정도로 오랜 기간 사용되고 있으며 머신러닝을 위한 가장 쉽고 효율적인 개발 라이브러리를 제공합니다. 최근에는 **텐스플로, 케라스** 등 딥러닝 전문 라이브러리가 강세이지만 여전히 많은 데이터 분석가가 의존하는 ML 라이브러리입니다.

**사이킷런의 특징**
- 쉽고 가장 파이썬스러운 API 제공
- 머신러닝을 위한 매우 다양한 알고리즘과 개발을 위한 편리한 프레임워크와 API 제공
- 오랜 기간 실전 환경에서 검증됐으며, 매우 많은 환경에서 사용되는 성숙한 라이브러리


Anaconda설치 시 자동으로 사이킷런까지 설치되므로 별도의 설치는 필요 없음. 만약 제거되어 별도로 다시 설치해야할 경우 pip / conda로 설치 가능하며 가급적이면 conda로 셋업할 것을 권장함.


### 첫 번째 머신러닝 만들어 보기 - 붓꽃 품종 예측하기

붓꽃 데이터 세트로 붓꽃의 품종을 분류(Classification)하기

붓꽃 데이터 세트 : 꽃잎의 길이와 너비, 꽃받침의 길이와 너비 피처(Feature)

#### 분류 (Classification)

대표적인 지도 학습(Supervised Learning) 방법 중 하나이다. 지도학습이란 학습을 위한 다양한 피처와 분류 결정값인 레이블(Lable) 데이터로 모델을 학습한 뒤, 별도의 테스트 데이터 세트에서 미지의 레이블을 예측하는 방식이다. 이 때 학습을 위해 주어진 데이터 세트를 학습 데이터 세트(Training Dataset), 머신러닝 모델의 예측 성능을 평가하기 위해 별도로 주어진 데이터 세트를 테스트 데이터 세트(Test Dataset)로 지칭함.


- scikit-learn 패키지 내의 모듈명은 sklearn으로 시작
- sklearn.datasets 내의 모듈 : scikit-learn에서 자체적으로 제공하는 dataset을 생성하는 모듈의 모임
- sklearn.tree 내의 모듈 : 트리 기반 ML 알고리즘을 구현한 클래스의 모임
- sklearn.model_selection : training data와 test data로 데이터를 분리하거나 최적의 하이퍼 파라미터로 평가하기 위한 다양한 모듈의 모임

Hyperparameter란? 머신러닝 알고리즘별로 최적의 학습을 위해 직접 입력하는 파라미터들을 통칭! 이를 통해 머신러닝 알고리즘의 성능을 tuning할 수 있음.


- 붓꽃 dataset 생성 : load_iris()
- ML알고리즘 : 의사 결정 트리(Decision Tress) 사용 -> DecisionTreeClassifier

In [3]:
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split

In [15]:
import pandas as pd

# 붓꽃 데이터 세트를 로딩합니다.
iris = load_iris()

# iris.data는 Iris 데이터 세트에서 feature만으로 된 데이터를 numpy로 가지고 있습니다.
iris_data = iris.data

# iris.target은 붓꽃 데이터 세트에서 lable(결정 값) 데이터를 numpy로 가지고 있습니다.
iris_label = iris.target
print('iris target값 : ', iris_label)
print('iris target명 : ', iris.target_names)

# 붓꽃 데이터 세트를 자세히 보기 위해 DataFrame으로 변환합니다.
iris_df = pd.DataFrame(data = iris_data, columns = iris.feature_names)
iris_df['label'] = iris.target
iris_df.head(3)

iris target값 :  [0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2
 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
 2 2]
iris target명 :  ['setosa' 'versicolor' 'virginica']


Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),label
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0


#### train_test_split() API
**학습용 데이터와 테스트용 데이터 분리**

- training data로 학습된 모델이 얼마나 뛰어난 성능을 가지는지 평가하려면 test dataset이 필요하기 때문.
- test_size 파라미터 입력 값의 분할로 쉽게 분할 가능
- e.g) test_size = 0.2 -> 전체 데이터 중 test data가 20%, training data가 80%


In [16]:
X_train, X_test, y_train, y_test = train_test_split(iris_data, iris_label, test_size = 0.2, random_state = 11)

**parameter**
- iris_data : feature dataset
- iris_lable : label dataset
- test_size : 전체 데이터 세트 중 test dataset의 비율
- random_state : 호출할 때마다 같은 training/test 용 dataset를 생성하기 위해 주어지는 난수 발생 값. -> train_test_split()는 호출 시 무작위로 데이터를 분리하므로 random_state를 지정하지 않으면 수행할 때마다 다른 training/test 용 데이터를 만들기 때문에!


**return value**
- X_train : train용 feature dataset
- X_test : test용 feature dataset
- y_train : train용 label dataset
- y_test : test용 label dataset

사이킷런의 의사 결정 트리 클래스인 DecisionTreeClassifier를 객체로 생성.

생성된 객체의 **fit()**메서드에 학습용 feature data 속성과 lable dataset를 입력해 호출하면 학습 수행!

In [17]:
# DecisionTreeClassifier 객체 생성
dt_clf = DecisionTreeClassifier(random_state = 11)

# 학습 수행
dt_clf.fit(X_train, y_train)

DecisionTreeClassifier(ccp_alpha=0.0, class_weight=None, criterion='gini',
                       max_depth=None, max_features=None, max_leaf_nodes=None,
                       min_impurity_decrease=0.0, min_impurity_split=None,
                       min_samples_leaf=1, min_samples_split=2,
                       min_weight_fraction_leaf=0.0, presort='deprecated',
                       random_state=11, splitter='best')

**predict()**

예측은 반드시 training data가 아닌 다른 data를 이용해야 함! 일반적으로 test dataset이용!

In [18]:
# 학습이 완료된 DecisionTreeClassifier 객체에서 test dataset로 예측 수행
pred = dt_clf.predict(X_test)

**성능 평가**
머신러닝 모델의 성능 평가 방법은 여러 가지가 있음.
이번에는 정확도를 측정해보자.

정확도란? 예측 결과가 실제 레이블 값과 얼마나 정확하게 맞는지를 평가하는 지표.

**acuracy_score()**
첫 번째 파라미터 값으로 실제 lable dataset, 두 번째 파라미터 값으로 예측 lable dataset 입력!

In [19]:
from sklearn.metrics import accuracy_score

print('예측 정확도 : {0:.4f}'.format(accuracy_score(y_test, pred)))

예측 정확도 : 0.9333


### 사이킷런의 기반 프레임워크 익히기

#### Estimator 이해 및 fit(), predict() 메서드

- 모델 학습을 위해서 fit(), 학습된 모델의 예측을 위해 predict() 메서드 제공.
- 지도학습의 주요 두 축인 분류(Classification)와 회귀(Regression)의 다양한 알고리즘을 구현한 모든 사이킷 클래스는 fit()과 predict()만을 이용해 간단하게 학습과 예측 결과 반환

**Estimator**
- 분류 알고리즘을 구현한 클래스 **Classifier**와 회귀 알고리즘을 구현한 클래스 **Regressor**를 합쳐서 **Estimator**라고 부름. 
- Estimator 클래스 내부에 fit()과 predict() 구현
- cross_val_score()와 같은 evaluation 함수, GridSearchCV와 같은 Hyperparemeter tuning을 지원하는 클래스의 경우 이 Estimator를 인자로 받음.
- 인자로 받은 Estimator에 대해서 cross_val_score(), GridSearchCV.fit()함수 내에서 이 Estimator의 fit()과 predict()를 호출해서 평가하거나 hyper parameter tuning 수행


- 비지도학습(Unsupervised Learning)인 차원축소, 클러스터링, 피처 추출(Feature Extraction) 등을 구현한 클래스 역시 대부분 fit()과 transform()적용
- 이때 fit()은 지도학습의 fit()과 같이 학습을 의미하는 것이 아니라 입력 데이터의 형태에 맞춰 데이터를 변환하기 위한 사전 구조를 맞춘ㄴ 작업
- fit()으로 사전 구조를 맞추면 이후 입력 데이터의 차원 변환, 클러스터링, 피처 추출 등의 실제 작업은 transform()으로 수행
- fit()과 transform()을 하나로 결합한 fit_transform()도 제공함

#### 사이킷런의 주요 모듈

**예제 데이터**
- sklearn.datasets : 사이킷런에 내장되어 예제로 제공하는 데이터 세트


**피처 처리**
- sklearn.preprocessing : 데이터 전처리에 필요한 다양한 가공 기능 제공(문자열을 숫자형 코드 값으로 인코딩, 정규화, 스케일링 등)
- sklearn.feature_selection : 알고리즘에 큰 영향을 미치는 피처를 우선순위대로 셀렉션 작업을 수행하는 다양한 기능 제공
- sklearn.feature_extraction : 텍스트 데이터나 이미지 데이터의 벡터화된 피처를 추출하는데 사용됨. 예를 들어 텍스트 데이터에서 Count Vectorizer나 Tf-Idf Vectorizer 등을 생성하는 기능 제공. 텍스트 데이터의 피처 추출은 - - sklearn.feature_extraction.text 모듈에, 이미지 데이터의 피처 추출은 sklearn.feature_extraion.image 모듈에 지원 API가 있음


**피처 처리 & 차원 축소**
- sklearn.decomposition : 차원 축소와 관련한 알고리즘을 지원하는 모듈임. PCA, NMF, Truncated SVD 등을 통해 차원 축소 기능을 수행할 수 있음


**데이터 분리, 검증 & 파라미터 튜닝**
- sklearn.model_selection : 교차 검증을 위한 학습용/테스트용 분리, 그리드 서치(GridSearch)로 최적 파라미터 추출 등의 API 제공


**평가**
- sklearn.metrics : 분류, 회귀, 클러스터링, 페어와이즈(Pairwise)에 대한 다양한 성능 측정 방법 제공(Accuracy, Precision, Recall ROC-AUC, RMSE 등 제공)


**ML 알고리즘**
- sklearn.ensemble : 앙상블 알고리즘 제공(random forest, AdaBoost, Gradient Boosting 등)
- sklearn.linear_model : 주로 선형 회귀, 릿지(Ridge), 라쏘(Lasso) 및 로지스틱 회귀 등 회귀 관련 알고리즘을 지원. 또한 SGD(Stochastic Gradient Descent) 관련 알고리즘도 제공
- sklearn.naive_bayes : 나이브 베이즈 알고리즘 제공. 가우시안 NB, 다항 분포 NB 등.
- sklearn.neighbors : 최근접 이웃 알고리즘 제공(K-NN 등)
- sklearn.svm : 서포트 벡터 머신 알고리즘 제공
- sklearn.tree : 의사 결정 트리 알고리즘 제공
- sklearn.cluster : 비지도 클러스터링 알고리즘 제공(k-means, 계층형, DBSCAN 등)


**유틸리티**
- sklearn.pipeline : 피처 처리 등의 변환과 ML 알고리즘 학습, 예측 등을 함께 묶어서 실행할 수 있는 유틸리티 제공

### 내장된 예제 데이터 세트

- datasets.load_boston() : 회귀 용도이며, 미국 보스턴의 집 피처들과 가격에 대한 데이터 세트
- datasets.load_breast_cancer() : 분류 용도이며, 위스콘신 유방암 피처들과 악성/음성 레이블 데이터 세트
- datasets.load_diabetes() : 회귀 용도이며, 당뇨 데이터 세트
- datasets.load_digits() : 분류 용도이며, 0에서 9까지의 숫자의 이미지 픽셀 데이터 세트
- datasets.load_iris() : 분류 용도이며, 붓꽃에 대한 피처를 가진 데이터 세트

fetch 계열의 명령은 데이터의 크기가 커서 패키지에 처음부터 저장돼 있지 않고 인터넷에서 내려받아 scikit_learn_data라는 서브 디렉터리에 저장한 후 불러들여 사용가능
- fetch_covtype() : 회귀 분석용 토지 조사 자료
- fetch_20newsgroups() : 뉴스 그룹 텍스트 자료
- fetch_olivetti_faces() : 얼굴 이미지 자료
- fetch_lfw_people() : 얼굴 이미지 자료
- fetch_lfw_pairs() : 얼굴 이미지 자료
- fetch_rcv1() : 로이터 뉴스 말뭉치
- fetch_mldata() : ML 웹사이트에서 다운로드

분류와 클러스터링을 위한 표본 데이터 생성기
- datasets.make_classification() : 분류를 위한 데이터 세트를 만듭니다. 특히 높은 상관도, 불필요한 속성 등의 노이즈 효과를 위한 데이터를 무작위로 생성해 줍니다.
- datasets.make_blobs() : 클러스터링을 위한 데이터 세트를 무작위로 생성해 줍니다. 군집 지정 개수에 따라 여러 가지 클러스터링을 위한 데이터 세트를 쉽게 만들어 줍니다.

In [5]:
iris_data = load_iris()
print(type(iris_data))

<class 'sklearn.utils.Bunch'>


Bunch 클래스란? 파이썬 딕셔너리 자료형과 유사. 데이터 세트에 내장돼 있는 대부분의 데이터 세트는 이와 같이 딕셔너리 형태의 값을 반환함. 

In [6]:
keys = iris_data.keys()
print('붓꽃 데이터 세트의 키들 : ', keys)

붓꽃 데이터 세트의 키들 :  dict_keys(['data', 'target', 'target_names', 'DESCR', 'feature_names', 'filename'])


데이터 키는 feature들의 데이터 값을 가리키므로 **데이터세트.data(또는 데이터세트['data'])**를 이용해서 feature data값 추출 가능

In [9]:
print('\n feature_names의 type : ', type(iris_data.feature_names))
print('\n feature_names의 shape : ', len(iris_data.feature_names))
print(iris_data.feature_names)

print('\n target_names의 type : ', type(iris_data.target_names))
print('\n target_names의 shape : ', len(iris_data.target_names))
print(iris_data.target_names)

print('\n data의 type : ', type(iris_data.data))
print('\n data의 shape : ', len(iris_data.data.shape))
print(iris_data['data'])

print('\n target의 type : ', type(iris_data.target))
print('\n target의 shape : ', len(iris_data.target.shape))
print(iris_data.target)


 feature_names의 type :  <class 'list'>

 feature_names의 shape :  4
['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']

 target_names의 type :  <class 'numpy.ndarray'>

 target_names의 shape :  3
['setosa' 'versicolor' 'virginica']

 data의 type :  <class 'numpy.ndarray'>

 data의 shape :  2
[[5.1 3.5 1.4 0.2]
 [4.9 3.  1.4 0.2]
 [4.7 3.2 1.3 0.2]
 [4.6 3.1 1.5 0.2]
 [5.  3.6 1.4 0.2]
 [5.4 3.9 1.7 0.4]
 [4.6 3.4 1.4 0.3]
 [5.  3.4 1.5 0.2]
 [4.4 2.9 1.4 0.2]
 [4.9 3.1 1.5 0.1]
 [5.4 3.7 1.5 0.2]
 [4.8 3.4 1.6 0.2]
 [4.8 3.  1.4 0.1]
 [4.3 3.  1.1 0.1]
 [5.8 4.  1.2 0.2]
 [5.7 4.4 1.5 0.4]
 [5.4 3.9 1.3 0.4]
 [5.1 3.5 1.4 0.3]
 [5.7 3.8 1.7 0.3]
 [5.1 3.8 1.5 0.3]
 [5.4 3.4 1.7 0.2]
 [5.1 3.7 1.5 0.4]
 [4.6 3.6 1.  0.2]
 [5.1 3.3 1.7 0.5]
 [4.8 3.4 1.9 0.2]
 [5.  3.  1.6 0.2]
 [5.  3.4 1.6 0.4]
 [5.2 3.5 1.5 0.2]
 [5.2 3.4 1.4 0.2]
 [4.7 3.2 1.6 0.2]
 [4.8 3.1 1.6 0.2]
 [5.4 3.4 1.5 0.4]
 [5.2 4.1 1.5 0.1]
 [5.5 4.2 1.4 0.2]
 [4.9 3.1 1.5 0.2]
 [5.  3.2 1.2 

### Model Selection 모듈 소개

model_selection 모듈은 학습 데이터와 테스트 데이터 세트를 분리하거나 교차 검증 분할 및 평가, 그리고 Estimator의 hyperparameter를 튜닝하기 위한 다양한 함수와 클래스를 제공.

#### 학습/테스트 데이터 세트 분리 : train_test_split()
- test_size : 테스트 데이터 세트 크기를 얼마로 샘플링할 것인가(default = 0.25)
- train_size : 학습용 데이터 세트 크기를 얼마로 샘플링할 것인가(보통 test_size사용)
- shuffl : data를 분리하기 전에 미리 섞을지 결정, 데이터를 분산시켜 좀 더 효율적인 dataset만드는데 사용 (defatul = True)
- random_state : 호출할 때마다 동일한 학습/테스트용 dataset를 생성하기 위해 주어지는 난수 값. 
- 반환값 : 튜플 형태. 순차적으로 학습용 데이터의 feature dataset, 테스트용 데이터의 feature dataset, 학습용 데이터의 lable dataset, 테스트용 데이터의 lable dataset 반환


만약 나누지 않고 학습 데이터 세트로만 학습하고 예측한다면?

In [20]:
dt_clf = DecisionTreeClassifier()
train_data = iris.data
train_label = iris.target
dt_clf.fit(train_data, train_label)

# 학습 데이터 세트로 예측 수행
pred = dt_clf.predict(train_data)
print('예측 정확도 : ', accuracy_score(train_label, pred))

예측 정확도 :  1.0


-> 이미 학습한 학습 데이터 세트를 기반으로 예측했기 때문!

In [31]:
# 테스트 데이터 세트를 전체의 30, random_state = 121로 변경

dt_clf = DecisionTreeClassifier()
iris_data = load_iris()

X_train, X_test, y_train, y_test = train_test_split(iris_data.data, iris_data.target, test_size = 0.3, random_state = 121)

dt_clf.fit(X_train, y_train)
pred = dt_clf.predict(X_test)
print('예측 정확도 : {0:.4f}'.format(accuracy_score(y_test, pred)))

예측 정확도 : 0.9556


### 교차 검증 (Cross-validation)

테스트 데이터가 별도로 있다하더라도 과적합(Overfitting)이 생길 수 있음.

Overfitting이란? : 모델이 학습 데이터에만 과도하게 최적화되어, 실제 예측을 다른 데이터로 수행할 경우에 예측 성능이 과도하게 떨어지는 것
이러한 문제를 해결하기 위해 교차 검증 이용!

#### k-fold cross validation

k개의 데이터 폴드 세트를 만들어서 k번만큼 각 폴드 세트에 학습과 검증 평가를 반복적으로 수행하는 방법

In [33]:
from sklearn.model_selection import KFold
import numpy as np

features = iris.data
label = iris.target
dt_clf = DecisionTreeClassifier(random_state = 156)

# 5개의 폴드 세트로 분리하는 KFold 객체와 폴드 세트별 정확도를 담을 리스트 객체 생성
kfold = KFold(n_splits = 5)
cv_accuracy = []
print('붓꽃 데이터 세트 크기 : ', features.shape[0])`

붓꽃 데이터 세트 크기 :  150


In [35]:
n_iter = 0

# KFold 객체의 split()를 호출하면 폴드 별 학습용, 검증용 테스트의 로우 인덱스를 array로 변환
for train_index, test_index in kfold.split(features):
    # kfold.split()으로 반환된 인덱스를 이용해 학습용, 검증용 테스트 데이터 추출
    X_train, X_test = features[train_index], features[test_index]
    y_train, y_test = label[train_index], label[test_index]
    #학습 및 예측
    dt_clf.fit(X_train, y_train)
    pred = dt_clf.predict(X_test)
    n_iter += 1
    # 반복 시마다 정확도 측정
    accuracy = np.round(accuracy_score(y_test, pred), 4)
    train_size = X_train.shape[0]
    test_size = X_test.shape[0]
    print('\n#{0} 교차 검증 정확도 : {1}, 학습 데이터 크기 : {2}, 검증 데이터 크기 : {3}'.format(n_iter, accuracy, train_size, test_size))
    print('#{0} 검증 세트 인덱스 : {1}'.format(n_iter, test_index))
    cv_accuracy.append(accuracy)
    
# 개별 iteration 별 정확도를 합하여 평균 정확도 계산
print('\n## 평균 검증 정확도 : ', np.mean(cv_accuracy))


#1 교차 검증 정확도 : 1.0, 학습 데이터 크기 : 120, 검증 데이터 크기 : 30
#1 검증 세트 인덱스 : [ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
 24 25 26 27 28 29]

#2 교차 검증 정확도 : 0.9667, 학습 데이터 크기 : 120, 검증 데이터 크기 : 30
#2 검증 세트 인덱스 : [30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53
 54 55 56 57 58 59]

#3 교차 검증 정확도 : 0.8667, 학습 데이터 크기 : 120, 검증 데이터 크기 : 30
#3 검증 세트 인덱스 : [60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83
 84 85 86 87 88 89]

#4 교차 검증 정확도 : 0.9333, 학습 데이터 크기 : 120, 검증 데이터 크기 : 30
#4 검증 세트 인덱스 : [ 90  91  92  93  94  95  96  97  98  99 100 101 102 103 104 105 106 107
 108 109 110 111 112 113 114 115 116 117 118 119]

#5 교차 검증 정확도 : 0.7333, 학습 데이터 크기 : 120, 검증 데이터 크기 : 30
#5 검증 세트 인덱스 : [120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137
 138 139 140 141 142 143 144 145 146 147 148 149]

## 평균 검증 정확도 :  0.9


#### Startified K Fold

불균형한(imbalanced) 분포도를 가진 label(결정 클래스) 데이터 집합을 위한 K-Fold 방식.
불균형한 분포도를 가진 lable data 집합은 특정 lable 값이 특이하게 많거나 매우 적어서 값의 분포가 한쪽으로 치우치는 것을 의미. 

e.g) 대출사기 : 대부분의 데이터는 정상 대출, 대출 사기는 전체의 약 0.0001%로 아주 작은 확률. 따라서 제대로 레이블 값을 반영하지 못하는 경우가 있음. 

In [37]:
iris = load_iris()
iris_df = pd.DataFrame(data = iris.data, columns = iris.feature_names)
iris_df['label'] = iris.target
iris_df['label'].value_counts()

2    50
1    50
0    50
Name: label, dtype: int64

In [52]:
# 이슈가 발생하는 현상을 도출하기 위해 3개의 폴드 세트를 생성하고, 각 교차 검증 시마다 생성되는 학습/ 검증 레이블 데이터 값의 분포도 확인

kfold = KFold(n_splits = 3)
n_iter = 0

for train_index, test_index, in kfold.split(iris_df):
    n_iter += 1
    label_train = iris_df['label'].iloc[train_index]
    label_test = iris_df['label'].iloc[test_index]
    print('## 교차 검증 : {0}'.format(n_iter))
    print('학습 레이블 데이터 분포 : \n', label_train.value_counts())
    print('검증 레이블 데이터 분포 : \n', label_test.value_counts())
    iris_df['label'].value_counts()

## 교차 검증 : 1
학습 레이블 데이터 분포 : 
 2    50
1    50
Name: label, dtype: int64
검증 레이블 데이터 분포 : 
 0    50
Name: label, dtype: int64
## 교차 검증 : 2
학습 레이블 데이터 분포 : 
 2    50
0    50
Name: label, dtype: int64
검증 레이블 데이터 분포 : 
 1    50
Name: label, dtype: int64
## 교차 검증 : 3
학습 레이블 데이터 분포 : 
 1    50
0    50
Name: label, dtype: int64
검증 레이블 데이터 분포 : 
 2    50
Name: label, dtype: int64


-> 첫번째 교차 검증을 살펴보면 학습 레이블의 1, 2 값이 각각 50개가 추출, 검증 레이블의 0값이 50개 이므로 0의 경우는 전혀 학습하지 못함. 따라서 예측 정확도는 0이 될 수밖에 없음.

StartifiedKFold를 사용하는 방법은 KFold를 사용하는 방법과 비슷함. 
단 하나 큰 차이는 StartifiedKFold는 레이블 데이터 분포도에 따라 학습 / 검증 데이터를 나누기 때문에 split() 메서드에 인자로 피처 데이터 세트뿐만 아니라 레이블 데이터 세트도 반드시 필요하다는 것.

In [53]:
from sklearn.model_selection import StratifiedKFold

skf = StratifiedKFold(n_splits = 3)
n_iter = 0

for train_index, test_index in skf.split(iris_df, iris_df['label']):
    n_iter += 1
    label_train = iris_df['label'].iloc[train_index]
    label_test = iris_df['label'].iloc[test_index]
    print('## 교차 검증 : {0}'.format(n_iter))
    print('학습 레이블 데이터 분포 : \n', label_train.value_counts())
    print('학습 레이블 데이터 분포 : \n', label_test.value_counts())

## 교차 검증 : 1
학습 레이블 데이터 분포 : 
 2    34
1    33
0    33
Name: label, dtype: int64
학습 레이블 데이터 분포 : 
 1    17
0    17
2    16
Name: label, dtype: int64
## 교차 검증 : 2
학습 레이블 데이터 분포 : 
 1    34
2    33
0    33
Name: label, dtype: int64
학습 레이블 데이터 분포 : 
 2    17
0    17
1    16
Name: label, dtype: int64
## 교차 검증 : 3
학습 레이블 데이터 분포 : 
 0    34
2    33
1    33
Name: label, dtype: int64
학습 레이블 데이터 분포 : 
 2    17
1    17
0    16
Name: label, dtype: int64


In [60]:
dt_clf = DecisionTreeClassifier(random_state = 156)

skfold = StratifiedKFold(n_splits = 3)
n_iter = 0
cv_accuracy = []


# StratifiedKFold의 split() 호출 시 반드시 레이블 데이터 세트도 추가 입력 필요
for train_index, test_index in skfold.split(features, label):
    # split()으로 반환된 인덱스를 이용해 학습용, 검증용 테스트 데이터 추출
    X_train, X_test = features[train_index], features[test_index]
    y_train, y_test = label[train_index], label[test_index]
    
    # 학습 및 예측
    dt_clf.fit(X_train, y_train)
    pred = dt_clf.predict(X_test)
    
    # 반복 시마다 정확도 측정
    n_iter += 1
    accuracy = np.round(accuracy_score(y_test, pred), 4)
    train_size = X_train.shape[0]
    test_size = X_test.shape[0]
    print('\n#{0} 교차 검증 정확도 : {1}, 학습 데이터 크기 : {2}, 검증 데이터 크기 : {3}'
          .format(n_iter, accuracy, train_size, test_size))
    print('#{0} 검증 세트 인덱스 : {1}'.format(n_iter, test_index))
    cv_accuracy.append(accuracy)
    # 교차 검증별 정확도 및 평균 정확도 계산
    print('\n## 교차 검증별 정확도 : ', np.round(cv_accuracy, 4))
    print('## 평균 검증 정확도 : ', np.mean(cv_accuracy))


#1 교차 검증 정확도 : 0.98, 학습 데이터 크기 : 100, 검증 데이터 크기 : 50
#1 검증 세트 인덱스 : [  0   1   2   3   4   5   6   7   8   9  10  11  12  13  14  15  16  50
  51  52  53  54  55  56  57  58  59  60  61  62  63  64  65  66 100 101
 102 103 104 105 106 107 108 109 110 111 112 113 114 115]

## 교차 검증별 정확도 :  [0.98]
## 평균 검증 정확도 :  0.98

#2 교차 검증 정확도 : 0.94, 학습 데이터 크기 : 100, 검증 데이터 크기 : 50
#2 검증 세트 인덱스 : [ 17  18  19  20  21  22  23  24  25  26  27  28  29  30  31  32  33  67
  68  69  70  71  72  73  74  75  76  77  78  79  80  81  82 116 117 118
 119 120 121 122 123 124 125 126 127 128 129 130 131 132]

## 교차 검증별 정확도 :  [0.98 0.94]
## 평균 검증 정확도 :  0.96

#3 교차 검증 정확도 : 0.98, 학습 데이터 크기 : 100, 검증 데이터 크기 : 50
#3 검증 세트 인덱스 : [ 34  35  36  37  38  39  40  41  42  43  44  45  46  47  48  49  83  84
  85  86  87  88  89  90  91  92  93  94  95  96  97  98  99 133 134 135
 136 137 138 139 140 141 142 143 144 145 146 147 148 149]

## 교차 검증별 정확도 :  [0.98 0.94 0.98]
## 평균 검증 정확도 :  0.9666666666666667


일반적으로 분류(Classification)에서의 교차 검증은 K-Fold가 아니라 Stratified K-Fold로 분할돼야 함.
회귀(Regression)에서는 Stratified K-Fold가 지원되지 않음.

이유는 회귀의 결정값은 이산값 형태의 레이블이 아니라 연속된 숫자값이기 때문에 결정값별로 분포를 정하는 의미가 없기 때문!

#### 교차 검증을 보다 간편하게 - cross_val_score()

KFold로 데이터를 학습하고 예측하는 코드
1. 폴드 세트를 설정
2. for 루프에서 반복으로 학습 및 테스트 데이터의 인덱스를 추출
3. 반복적으로 학습과 예측 수행하고 예측 성능 반환

-> cross_val_score()는 이런 일련의 과정을 한꺼번에 수행해주는 API

cross_val_score(estimator, X, y = None, scoring = None, cv = None, n_jobs = 1, verbose = 0, fit_params = None, pre_dispatch = '2*n_jobs')

이 중 estimator, X, y, scoring, cv가 주요 파라미터!
- estimator : Classifier / Regressor
- X : feature dataset
- y : lable dataset
- scoring : 예측 성능 평가 성능 지표
- cv : 교차 검증 폴드 수
- 반환 값 : scoring 파라미터로 지정된 성능 지표 측정값을 배열형태로 반환
- classifier입력 시 Stratified K 폴드 방식으로 lable값의 분포에 따라 학습/테스트 세트 분할
- regressor 입력 시 Stratified K 폴드 방식으로 분류 불가능하므로 KFold방식으로 분할

In [62]:
from sklearn.model_selection import cross_val_score, cross_validate

iris_data = load_iris()
dt_clf = DecisionTreeClassifier(random_state = 156)

data = iris_data.data
label = iris_data.target

# 성능 지표는 정확도(accuracy), 교차 검증 세트는 3개
scores = cross_val_score(dt_clf, data, label, scoring = 'accuracy', cv = 3)
print('교차 검증별 정확도 : ', np.round(scores, 4))
print('평균 검증 정확도 : ', np.round(np.mean(scores), 4))

교차 검증별 정확도 :  [0.98 0.94 0.98]
평균 검증 정확도 :  0.9667


비슷한 API로 **cross_validate()**

cross_val_score는 하나의 평가 지표만 가능하지만 cross_validate는 여러 개의 평가 지표 반환 가능.
또한 학습 데이터에 대한 성능 평가 지표와 수행 시간도 같이 제공.

### GridSearchCV - 교차 검증과 최적 하이퍼 파라미터 튜닝을 한 번에

Classifier나 Regressor와 같은 알고리즘에 사용되는 하이퍼 파라미터를 순차적으로 입력하면서 편리하게 최적의 파라미터를 도출할 수 있는 방안 제공.

Grid는 격자라는 뜻으로 촘촘하게 파라미터를 입력하면서 테스트를 하는 방식을 의미!

즉, 데이터 세트를 cross-validation을 위한 학습 / 테스트 세트로 자동으로 분할한 뒤에 하이퍼 파라미터 그리드에 기술된 모든 파라미터를 순차적으로 적용해 최적의 파라미터를 찾을 수 있게 해줌.

튜닝하고자 하는 여러 종류의 하이퍼 파라미터를 다양하게 테스트하면서 최적의 파라미터를 편리하게 찾게 해주지만 동시에 순차적으로 파라미터를 테스트하므로 수행시간이 상대적으로 오래 걸리는 것에 유념해야 함!

e.g) 결정 트리 알고리즘의 여러 하이퍼 파라미터를 순차적으로 변경하면서 최고 성능을 가지는 파라미터 조합을 찾고자 한다면
다음과 같이 파라미터의 집합을 만들고 이를 순차적으로 적용하면서 최적화를 수행 할 수 있음 

In [64]:
grid_parameters = {'max_depth' : [1, 2, 3],
                   'min_samples_split' : [2, 3]
                  }

**GridSearchCV 클래스의 생성자로 들어가는 주요 파라미터**
- estimator : classifier, regressor, pipeline
- param_grid : key + 리스트 값을 가지는 딕셔너리. estimator의 튜닝을 위해 파라미터명과 사용될 여러 파라미터 값 지정
- scoring : 예측 성능을 측정할 평가 방법 지정. 보통은 성능 평가 지표를 지정하는 문자열(e.g accuracy)로 지정하나 별도의 성능 평가 지표 함수도 지정 가능
- cv : 교차 검증을 위해 분할되는 학습/테스트 세트의 개수 지정
- refit : 생성 시 가장 최적의 하이퍼 파라미터를 찾을 뒤 입력된 estimator 객체를 해당 하이퍼 파라미터로 재학습. default = True

In [67]:
from sklearn.model_selection import GridSearchCV

# 데이터를 로딩하고 학습 덷이터와 테스트 데이터 분리
iris = load_iris()
X_train, X_test, y_train, y_test = train_test_split(iris_data.data, iris_data.target, test_size = 0.2, random_state = 121)

dtree = DecisionTreeClassifier()

### 파라미터를 딕셔너리 형태로 설정
parameters = {'max_depth' : [1, 2, 3], 'min_samples_split' : [2, 3]}

GridSearchCV 객체의 fit(학습 데이터 세트) 메서드를 수행하면 학습 데이터를 cv에 기술된 폴딩 세트로 분할해 param_grid에 기술된 하이퍼 파라미터를 순차적으로 변경하면서 학습/평가를 수행하고 그 결과를 cv_results_ 속성에 기록.
cv_results_는 gridsearchcv의 결과 세트로서 딕셔너리 형태로 key값과 value 값을 가짐.

In [69]:
# param_grid의 하이퍼 파라미터를 3개의 train, test set fold로 나누어 테스트 수행 설정
### refit = True가 default임. True면 가장 좋은 파라미터 설정으로 재학습시킴.
grid_dtree = GridSearchCV(dtree, param_grid = parameters, cv = 3, refit = True)

# 붓꽃 학습 데이터로 param_grid의 하이퍼 파라미터를 순차적으로 학습 / 평가
grid_dtree.fit(X_train, y_train)

# GridSearchCV 결과를 추출해 DataFrame으로 변환
scores_df = pd.DataFrame(grid_dtree.cv_results_)
scores_df[['params', 'mean_test_score', 'rank_test_score', 'split0_test_score', 'split1_test_score', 'split2_test_score']]

Unnamed: 0,params,mean_test_score,rank_test_score,split0_test_score,split1_test_score,split2_test_score
0,"{'max_depth': 1, 'min_samples_split': 2}",0.7,5,0.7,0.7,0.7
1,"{'max_depth': 1, 'min_samples_split': 3}",0.7,5,0.7,0.7,0.7
2,"{'max_depth': 2, 'min_samples_split': 2}",0.958333,3,0.925,1.0,0.95
3,"{'max_depth': 2, 'min_samples_split': 3}",0.958333,3,0.925,1.0,0.95
4,"{'max_depth': 3, 'min_samples_split': 2}",0.975,1,0.975,1.0,0.95
5,"{'max_depth': 3, 'min_samples_split': 3}",0.975,1,0.975,1.0,0.95


- params 칼럼에는 수행할 때마다 적용된 개별 하이퍼 파라미터값을 나타냄 
- rank_test_score는 하이퍼 파라미터 별로 성능이 좋은 score 순위를 나타냄. 1이 가장 뛰어난 순위이며 이때의 파라미터가 최적의 하이퍼 파라미터.
- mean_test_score는 개별 하이퍼 파라미터별로 CV의 폴딩 테스트 세트에 대해 총 수행한 평가 평균값
- best_params_, best_score_속성에 최고 성능을 나타낸 하이퍼 파라미터 값과 평과 결과 값 기록

In [70]:
print('GridSearchCV 최적 파라미터 : ', grid_dtree.best_params_)
print('GTridSearchCV 최고 정확도 : {0:.4f}'.format(grid_dtree.best_score_))

GridSearchCV 최적 파라미터 :  {'max_depth': 3, 'min_samples_split': 2}
GTridSearchCV 최고 정확도 : 0.9750


In [71]:
# GridSearchCV의 refit으로 이미 학습된 estimator 반환
estimator = grid_dtree.best_estimator_

# GridSearchCV의 best_estimator_는 이미 최적 학습이 됐으므로 별도 학습이 필요 없음
pred = estimator.predict(X_test)
print('테스트 데이터 세트 정확도 : {0:.4f}'.format(accuracy_score(y_test, pred)))

테스트 데이터 세트 정확도 : 0.9667
