<a href="https://colab.research.google.com/github/Ymin-2/ESAA/blob/main/ESAA_YB_WEEK04_1_scikit_learn.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#**사이킷런(scikit-learn)소개와 특징**

* 파이썬 머신러닝 라이브러리 중 가장 많이 사용되는 라이브러리
* 파이썬 기반의 다른 머신러닝 패키지도 사이킷런 스타일의 API를 지향할 정도로 쉽고 가장 파이썬스러운 API 제공
* 머신러닝을 위한 다양한 알고리즘과 개발을 위한 편리한 프레임워크와 API 제공
* 오랜 기간 실전 환경에서 검증됨, 많은 환경에서 사용되는 성숙한 라이브러리

In [1]:
# 사이킷런 설치
!pip install -U scikit-learn



In [2]:
# 사이킷런 버전 확인
import sklearn
print(sklearn.__version__)

1.7.2


#**첫 번째 머신러닝 만들어 보기 - 붓꽃 품종 예측하기**

**분류**(Classification): 지도학습 방법의 하나  
지도학습: 학습을 위한 다양한 피처와 분류 결정값인 Label 데이터로 모델을 학습한 뒤, 별도의 테스트 데이터 세트에서 미지의 Lable 예측  
: 명확한 정답이 주어진 데이터를 먼저 학습한 뒤 미지의 정답 예측 방식

In [3]:
# 사이킷런에서 사용할 모듈 임포트
# 사이킷런 패키지 내의 모듈명은 sklearn으로 시작
from sklearn.datasets import load_iris
# sklearn.datasets: 사이킷런에서 자체적으로 제공하는 데이터 세트를 생성하는 모듈 모임
from sklearn.tree import DecisionTreeClassifier
# sklearn.tree: 트리 기반 ML 알고리즘을 구현한 클래스 모임
from sklearn.model_selection import train_test_split
# sklearn.model_selection: 학습 데이터와 검증 데이터, 예측 데이터로 데이터를 분리하거나
# 최적의 하이퍼 파라미터로 평가하기 위한 모듈 모임

하이퍼 파라미터: 머신러닝 알고리즘별로 최적의 학습을 위해 직접 입력하는 파라미터

In [4]:
import pandas as pd

# 붓꽃 데이터 세트 로딩
iris = load_iris()

# iris.data는 Iris 데이터 세트에서 피처(feature)만으로 된 데이터를 numpy로 가지고 있음
iris_data = iris.data

# iris.target은 붓꽃 데이터 세트에서 레이블(결정 값) 데이터를 numpy로 가지고 있음
iris_label = iris.target
print('iris target값:', iris_label)
print('iris target명:', iris.target_names)

# 붓꽃 데이터 세트를 자세히 보기 위해 DataFrame으로 변환
iris_df = pd.DataFrame(data=iris_data, columns=iris.feature_names)
iris_df['label'] = iris.target
iris_df.head(3)

iris target값: [0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2
 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
 2 2]
iris target명: ['setosa' 'versicolor' 'virginica']


Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),label
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0


피처에는 separl length, sepal width, petal length, petal width가 있음  
레이블은 0, 1, 2 세 가지 값으로 되어 있음  
0: Setosa 품종 / 1: versicolor 품종 / 2: virginica 품종

학습용 데이터와 테스트용 데이터는 반드시 분리 필요  
(∵학습 데이터로 학습된 모델이 얼마나 뛰어난 성능을 가지는지 평가하려면 테스트 데이터 세트가 필요하기 때문)  
이를 위해 사이킷런은 train_test_split() API 제공  
→ 학습 데이터와 테스트 데이터를 test_size 파라미터 입력값의 비율로 쉽게 분할

In [5]:
X_train, X_test, y_train, y_test = train_test_split(iris_data, iris_label,
                                                    test_size=0.2, random_state=11)
# test_size = 0.2로 입력 파라미터를 설정하면 전체 데이터 중 테스트 데이터가 20%로 분할

train_test_split()의 첫 번째 파라미터인 iris_data는 피처 데이터 세트  
두 번째 파라미터인 iris_label은 레이블 데이터 세트  
test_size=0.2는 전체 데이터 세트 중 테스트 데이터 세트의 비율  
random_state는 호출할 때마다 같은 학습/테스트 용데이터 세트를 생성하기 위해 주어지는 난수 발생 값  
(지정하지 않을 시 수행할 때마다 다른 학습/테스트 용 데이터를 만들 수 있음)

학습용 피처 데이터 세트를 X_train, 테스트용 피처 데이터 세트를 X_test,  
학습용 레이블 데이터 세트를 y_train, 테스트용 레이블 데이터 세트를 y_test로 반환

In [6]:
# DecisionTreeClassifier 객체 생성
dt_clf = DecisionTreeClassifier(random_state=11)

# 생성된 객체의 fit() 메서드에 학습용 피처 데이터 속성과 결정값 데이터 세트 입력
# 학습 수행
dt_clf.fit(X_train, y_train)

0,1,2
,criterion,'gini'
,splitter,'best'
,max_depth,
,min_samples_split,2
,min_samples_leaf,1
,min_weight_fraction_leaf,0.0
,max_features,
,random_state,11
,max_leaf_nodes,
,min_impurity_decrease,0.0


In [7]:
# 학습이 완료된 DecisionTreeClassifier 객체에서 테스트 데이터 세트로 예측 수행
pred = dt_clf.predict(X_test)

In [8]:
# 예측 결과를 기반으로 정확도 확인
# 정확도: 예측 결과가 실제 레이블 값과 얼마나 정확하게 맞는지 평가
# 예측한 붓꽃 품종과 실제 테스트 데이터 세트의 붓꽃 품종이 얼마나 일치하는지 확인
from sklearn.metrics import accuracy_score
print('예측 정확도: {0:.4f}'.format(accuracy_score(y_test, pred)))

예측 정확도: 0.9333


**분류를 예측한 프로레스**
1. 데이터 세트 분리: 데이터를 학습 데이터와 테스트 데이터로 분리
2. 모델 학습: 학습 데이터를 기반으로 ML 알고리즘을 적용해 모델 학습
3. 예측 수행: 학습된 ML 모델을 이용해 테스트 데이터의 분류를 예측
4. 평가: 예측된 결과값과 테스트 데이터의 실제 결괏값을 비교해 ML 모델 성능 평가

#**사이킷런의 기반 프레임워크 익히기**

##**Estimator 이해 및 fit(), predict() 메서드**  

사이킷런은 ML 모델 학습을 위해 fit()을, 학습된 모데릐 예측으 위해 predict() 메서드 제공

분류 알고리즘을 구현한 클래스: Classifier  
회귀 알고리즘을 구현한 클래스: Regressor  
이 둘을 합쳐서 Estimator 클래스: 지도학습의 모든 알고리즘을 구현한 클래스  
cross_val_score()와 같은 evaluation 함수, GridSearchCV와 같은 하이퍼 파라미터 튜닝을 지원하는 클래스의 경우 Estimator를 인자로 받음  
인자로 받은 Estimator에 대해 cross_val_score(), GridSearchCV.fit() 함수 내에서 이 Estimator의 fit()과 predict() 호출해서 평가/하이퍼 파라미터튜닝 수행

사이킷런에서 비지도학습인 차원축소, 클러스터링, 피처 추출 등을 구현하 클래스 대부분 fit(), transform() 적용  
fit(): 입력 데이터의 형태에 맞춰 데이터를 변환하기 위한 사전 구조를 맞추는 작업  
fit으로 사전 구조를 맞추면 이후 입력 데이터의 차원 변환, 클러스터링, 피처 추충 등의 실제 작업을 transform()으로 수행  
fit_transform(): fit과 transfomr 결합

##**사이킷런의 주요 모듈**

<img src="https://drive.google.com/uc?id=166g66O57XMHVSA8cQ9BsjTJL5kk63rDD">
<img src="https://drive.google.com/uc?id=1JALP_pAQ0S3iaqDgIKeQ1fPSuA_kyDy_">
<img src="https://drive.google.com/uc?id=1aKHswYVsv4VZksHrQne6xMhK5j1KRT6Z">



##**내장된 예제 데이터 세트**

<img src="https://drive.google.com/uc?id=1qMGkni7jlgYaWETjn9Cdjj-7sFzQIeEM">

fetch 계열의 명령은 데이터의 크기가 커서 패키지에 처음부터 저장돼 있지 않고 인터넷에서 내려받아 홈 디렉터리 아래의 scikit_learn_data라는 서브 디렉터리에 저장한 추후 불러들이는 데이터  
즉 최초 사용 시에 인터넷에 연결돼 있지 않으면 사용할 수 없음

* covtype: 회귀 분석용 토지 조사 자료
* 20newsgroups: 뉴스 그룹 텍스트 자료
* olivetti_faces: 얼굴 이미지 자료
* lfw_people: 얼굴 이미지 자료
* lfw_pairs: 얼굴 이미지 자료
* rcv1: 로이터 뉴스 말뭉치
* mldata: ML 웹사이트에서 다운로드

<분류와 클러스터링을 위한 표본 데이터 생성기>
* datasets.make_classifications(): 분류를 위한 데이터 세트 생성  
특히 높은 상관도, 불필요한 속성 등의 노이즈 효과를 위한 데이터를 무작위로 생성
* datasets.make_blobs(): 클러스터링을 위한 데이터 세트 무작위 생성  
군집 지정 개수에 따라 여러 가지 클러스터링을 위한 데이터 세트 생성

<분류나 회귀를 위한 연습용 예제 데이터의 구성>

사이킷런에 내장된 이 데이터 세트는 일반적으로 딕셔너리 형태로 됨  
**개별 키**
* data: 피처의 데이터 세트
* target: 분류 시 레이블 값, 회귀일 때는 숫자 결괏값 데이터 세트
* target_names: 개별 레이블의 이름
* feature_names:피처의 이름
* DESCR: 데이터 세트에 대한 설명과 각 피처의 설명

data, target: ndarray 타입  
target_names, feature_names: ndarray/list 타입  
DESCR: string 타입

피처의 데이터 값을 반환받기 위해서는  
내장 데이터 세트 API를 호출한 뒤에 그 Key값을 지정하면 됨

In [9]:
# 붓꽃 데이터 세트 생성
from sklearn.datasets import load_iris

iris_data = load_iris()
print(type(iris_data))

<class 'sklearn.utils._bunch.Bunch'>


Bunch클래스: 파이썬 디겨너리 자료형과 유사

In [10]:
keys = iris_data.keys()
print('붓꽃 데이터 세트의 키들: ', keys)

붓꽃 데이터 세트의 키들:  dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names', 'filename', 'data_module'])


데이터 세트가 딕셔너리 형태이기 때문에 피처 데이터 값을 추출하기 위해서는 데이터 세트.data(또는 데이터 세트['data']) 이용  
target, feature_names, DESCR key가 가리키는 데이터 값의 추출도 동일 수행

In [11]:
# load_iris()가 반환하는 객체의 키인 feature_names, target_name, data, target이 가리키는 값
print('\n feature_names 의 type:', type(iris_data.feature_names))
print(' feature_names 의 shape:', len(iris_data.feature_names))
print(iris_data.feature_names)

print('\n target_names 의 type:', type(iris_data.target_names))
print(' feature_names 의 shape:', len(iris_data.target_names))
print(iris_data.target_names)

print('\n data 의 type:', type(iris_data.data))
print(' data 의 shape:', iris_data.data.shape)
print(iris_data['data'])

print('\n target 의 type:', type(iris_data.target))
print(' target 의 shape:', iris_data.target.shape)
print(iris_data.target)


 feature_names 의 type: <class 'list'>
 feature_names 의 shape: 4
['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']

 target_names 의 type: <class 'numpy.ndarray'>
 feature_names 의 shape: 3
['setosa' 'versicolor' 'virginica']

 data 의 type: <class 'numpy.ndarray'>
 data 의 shape: (150, 4)
[[5.1 3.5 1.4 0.2]
 [4.9 3.  1.4 0.2]
 [4.7 3.2 1.3 0.2]
 [4.6 3.1 1.5 0.2]
 [5.  3.6 1.4 0.2]
 [5.4 3.9 1.7 0.4]
 [4.6 3.4 1.4 0.3]
 [5.  3.4 1.5 0.2]
 [4.4 2.9 1.4 0.2]
 [4.9 3.1 1.5 0.1]
 [5.4 3.7 1.5 0.2]
 [4.8 3.4 1.6 0.2]
 [4.8 3.  1.4 0.1]
 [4.3 3.  1.1 0.1]
 [5.8 4.  1.2 0.2]
 [5.7 4.4 1.5 0.4]
 [5.4 3.9 1.3 0.4]
 [5.1 3.5 1.4 0.3]
 [5.7 3.8 1.7 0.3]
 [5.1 3.8 1.5 0.3]
 [5.4 3.4 1.7 0.2]
 [5.1 3.7 1.5 0.4]
 [4.6 3.6 1.  0.2]
 [5.1 3.3 1.7 0.5]
 [4.8 3.4 1.9 0.2]
 [5.  3.  1.6 0.2]
 [5.  3.4 1.6 0.4]
 [5.2 3.5 1.5 0.2]
 [5.2 3.4 1.4 0.2]
 [4.7 3.2 1.6 0.2]
 [4.8 3.1 1.6 0.2]
 [5.4 3.4 1.5 0.4]
 [5.2 4.1 1.5 0.1]
 [5.5 4.2 1.4 0.2]
 [4.9 3.1 1.5 0.2]
 [5.  3.2 1.2 0

#**Model Selection 모듈 소개**

##**학습/테스트 데이터 세트 분리 - train_test_split()**

In [12]:
# 학습과 예측을 동일한 데이터 세트로 수행한 결과
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score

iris = load_iris()
dt_clf = DecisionTreeClassifier()
train_data = iris.data
train_label = iris.target
dt_clf.fit(train_data, train_label)

# 학습 데이터 세트로 예측 수행
pred = dt_clf.predict(train_data)
print('예측 정확도:', accuracy_score(train_label, pred))

예측 정확도: 1.0


예측 결과가 100%인 이유: 이미 학습한 학습 데이터 세트를 기반으로 예측했기 때문

예측을 수행하는 데이터 세트는 학습을 수행한 학습용 데이터 세트가 아닌 전용의 테스트 데이터 세트여야 함

<train_test_split()를 이용해 붓꽃 데이터 세트를 학습 및 테스트 데이터 세트로 분리>

sklearn.model_selection 모듈에서 train_test_split 로드  
train_test_split()는 첫 번째 파라미터로 피처 데이터 세트, 두 번째 파라미터로 레이블 데이터 세트를 입력받음, 선택적으로 다음 파라미터를 입력받음
* test_size: 전체 데이터에서 테스트 데이터 세트 크기를 얼마로 샘플링할 것인가를 결정함, 디폴트 25%
* train_size: 전체 데이터에서 학습용 데이터 세트 크기를 얼마로 샘플링할 것인가를 결정함. test_size parameter를 통상적으로 사용
* shuffle: 데이터 분리 전에 데이터를 미리 섞을지 결정  
디폴트: True  
데이터를 분산시켜서 좀 더 효율적인 학습 및 테스트 데이터 세트를 만드는 데 사용
* random_state: 호출할 때마다 동일한 학습/테스트용 데이터 세트를 생성하기 위해 주어지는 난수값   
train_test_split()는 호출 시 무작위로 데이터를 분리하므로 random_state를 지정하지 않으면 수행할 때마다 다른 학습/테스트 용 데이터 생성
* train_test_split()의 반환값: 튜플

In [16]:
# 붓꽃 데이터 세트를 train_test_split()을 이용해
# 테스트 데이터 세트를 전체의 30%로
# 학습 데이터 세트를 70%로 분리
# random_state=121로 변경

from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split

dt_clf = DecisionTreeClassifier()
iris_data = load_iris()

X_train, X_test, y_train, y_test = train_test_split(iris_data.data, iris_data.target,
                                                    test_size=0.3, random_state=121)

In [17]:
# 학습 데이터 기반으로 DecisionTreeClassifier 학습하고 예측 정확도 측정
dt_clf.fit(X_train, y_train)
pred = dt_clf.predict(X_test)
print('예측 정확도: {0:.4f}'.format(accuracy_score(y_test, pred)))

예측 정확도: 0.9556


##**교차검증**

: 데이터 편중을 막기 위해 별도의 여러 세트로 구성된 학습 데이터 세트와 검증 데이터 세트에서 학습과 평가 수행

데부분의 ML 모델의 성능 평가는 교차 검증 기반으로 1차 평가 후에 최종적으로 테스트 데이터 세트에 적용해 평가하는 프로세스

##**K 폴드 교차 검증**

K개의 데이터 폴드 세트를 만들어서 K번만큼 각 폴트 세트에 학습과 검증 평가를 반복적으로 수행하는 방법

ex) K=5  
1. 5개의 폴드된 데이터 세트를 학습과 검증을 위한 데이터 세트로 변경
2. 5번의 평가 수행  
* 데이터 세트를 5등분
* 첫 번째 반복에서 처음부터 4개 등분을 학습 데이터 세트, 마지막 5번째 등분 하나를 검증 데이터 세트로 설정
* 학습 데이터 세트에서 학습 수행, 검증 데이터 세트에서 평가 수행
* 첫 번째 평가 수행 후 두 번째 반복에서 비슷한 학습과 평가 작업 수행
* 이때 1, 2, 3, 5번째 등분을 학습 데이터 세트, 4번째 등분을 검증 데이터 세트로 설정
3. 5개의 평가를 평균한 결과로 예측 성능 평가

사이킷런에서는 K 폴드 교차 검증 프로세스를 구현하기 위해 KFold와 StratifiedKFold 클래스 제공

In [18]:
# KFold 클래스 이용해 붓꽃 데이터 세트 교차 검증, 예측 정확도 측정
# 붓꽃 데이터 세트와 DecisionTreeClassifier 다시 생성
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score
from sklearn.model_selection import KFold
import numpy as np

iris = load_iris()
features = iris.data
label = iris.target
dt_clf = DecisionTreeClassifier(random_state=156)

# 5개의 폴드 세트로 분리하는 KFold 객체와 폴드 세트별 정확도를 담을 리스트 객체 생성
kfold = KFold(n_splits=5)
cv_accuracy = []
print('붓꽃 데이터 세트 크기:', features.shape[0])

붓꽃 데이터 세트 크기: 150


In [19]:
n_iter = 0

# KFold 객체의 split()를 호출하면 폴드별 학습용, 검증용 테스트의 로우 인덱스를 array로 반환
for train_index, test_index in kfold.split(features):
  # kfold.split()으로 반환된 인덱스를 이용해 학습용, 검증용 테스트 데이터 추출
  X_train, X_test = features[train_index], features[test_index]
  y_train, y_test = label[train_index], label[test_index]
  # 학습 및 예측
  dt_clf.fit(X_train, y_train)
  pred = dt_clf.predict(X_test)
  n_iter += 1
  # 반복 시마다 정확도 측정
  accuracy = np.round(accuracy_score(y_test, pred), 4)
  train_size = X_train.shape[0]
  test_size = X_test.shape[0]
  print('\n#{0} 교차 검증 정확도: {1}, 학습 데이터 크기: {2}, 검증 데이터 크기: {3}'
  .format(n_iter, accuracy, train_size, test_size))
  print('#{0} 검증 세트 인덱스: {1}'.format(n_iter, test_index))
  cv_accuracy.append(accuracy)

# 개별 iteration별 정확도를 합하여 평균 정확도 계산
print('\n## 평균 검증 정확도:', np.mean(cv_accuracy))


#1 교차 검증 정확도: 1.0, 학습 데이터 크기: 120, 검증 데이터 크기: 30
#1 검증 세트 인덱스: [ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
 24 25 26 27 28 29]

#2 교차 검증 정확도: 0.9667, 학습 데이터 크기: 120, 검증 데이터 크기: 30
#2 검증 세트 인덱스: [30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53
 54 55 56 57 58 59]

#3 교차 검증 정확도: 0.8667, 학습 데이터 크기: 120, 검증 데이터 크기: 30
#3 검증 세트 인덱스: [60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83
 84 85 86 87 88 89]

#4 교차 검증 정확도: 0.9333, 학습 데이터 크기: 120, 검증 데이터 크기: 30
#4 검증 세트 인덱스: [ 90  91  92  93  94  95  96  97  98  99 100 101 102 103 104 105 106 107
 108 109 110 111 112 113 114 115 116 117 118 119]

#5 교차 검증 정확도: 0.7333, 학습 데이터 크기: 120, 검증 데이터 크기: 30
#5 검증 세트 인덱스: [120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137
 138 139 140 141 142 143 144 145 146 147 148 149]

## 평균 검증 정확도: 0.9


##**Stratified K 폴드**

* 불균형한 분포도를 가진 레이블 데이터 집합을 위한 K 폴드 방식  
* K 폴드가 레이블 데이터 집합이 원본 데이터 집합의 레이블 분포를 학습 및 테스트 세트에 제대로 분배하지 못하는 경우의 문제 해결  
* 원본 데이터의 레이블 분포를 먼저 고려한 뒤 이 분포와 동일하게 학습과 검증 데이터 세트를 분배

In [20]:
# 붓꽃 데이터 세트를 DataFrame으로 생성하고 레이블 값의 분포도 확인
import pandas as pd

iris = load_iris()
iris_df = pd.DataFrame(data=iris.data, columns=iris.feature_names)
iris_df['label'] = iris.target
iris_df['label'].value_counts()

Unnamed: 0_level_0,count
label,Unnamed: 1_level_1
0,50
1,50
2,50


In [22]:
# 이슈가 발생하는 현상 도출 위해 3개의 폴드 세트를 KFold로 생성
# 각 교차 검증 시마다 생성되는 학습/검증 레이블 데이터 값의 분포도 확인
kfold = KFold(n_splits = 3)
n_iter = 0
for train_index, test_index in kfold.split(iris_df):
  n_iter += 1
  label_train = iris_df['label'].iloc[train_index]
  label_test = iris_df['label'].iloc[test_index]
  print('## 교차 검증: {0}'.format(n_iter))
  print('학습 레이블 데이터 분포:\n', label_train.value_counts())
  print('검증 레이블 데이터 분포:\n', label_test.value_counts())

## 교차 검증: 1
학습 레이블 데이터 분포:
 label
1    50
2    50
Name: count, dtype: int64
검증 레이블 데이터 분포:
 label
0    50
Name: count, dtype: int64
## 교차 검증: 2
학습 레이블 데이터 분포:
 label
0    50
2    50
Name: count, dtype: int64
검증 레이블 데이터 분포:
 label
1    50
Name: count, dtype: int64
## 교차 검증: 3
학습 레이블 데이터 분포:
 label
0    50
1    50
Name: count, dtype: int64
검증 레이블 데이터 분포:
 label
2    50
Name: count, dtype: int64


첫 번째 교차 검증: 학습 레이블의 1, 2 값이 각각 50개 추출 / 검증 레이블의 0값이 50개 추출  
학습 레이블은 1, 2 밖에 없으므로 0의 경우는 학습X  
검증 레이블은 0밖에 없으므로 학습 모델은 절대 0을 예측X

In [24]:
# StratifiedKFold는 레이블 데이터 분포도에 따라 학습/검증 데이터를 나누기 때문에
# split() 메서드에 인자로 피처 데이터 세트뿐만 아니라 레이블 데이터 세트도 반드시 필요
from sklearn.model_selection import StratifiedKFold

skf = StratifiedKFold(n_splits = 3)
n_iter = 0

for train_index, test_index in skf.split(iris_df, iris_df['label']):
  n_iter += 1
  label_train = iris_df['label'].iloc[train_index]
  label_test = iris_df['label'].iloc[test_index]
  print('## 교차 검증: {0}'.format(n_iter))
  print('학습 레이블 데이터 분포:\n', label_train.value_counts())
  print('검증 레이블 데이터 분포:\n', label_test.value_counts())

## 교차 검증: 1
학습 레이블 데이터 분포:
 label
2    34
0    33
1    33
Name: count, dtype: int64
검증 레이블 데이터 분포:
 label
0    17
1    17
2    16
Name: count, dtype: int64
## 교차 검증: 2
학습 레이블 데이터 분포:
 label
1    34
0    33
2    33
Name: count, dtype: int64
검증 레이블 데이터 분포:
 label
0    17
2    17
1    16
Name: count, dtype: int64
## 교차 검증: 3
학습 레이블 데이터 분포:
 label
0    34
1    33
2    33
Name: count, dtype: int64
검증 레이블 데이터 분포:
 label
1    17
2    17
0    16
Name: count, dtype: int64


In [26]:
# StratifiedKFold를 이용해 데이터 분리
dt_clf = DecisionTreeClassifier(random_state=156)

skfold = StratifiedKFold(n_splits=3)
n_iter=0
cv_accuracy=[]

# StratifiedKFold의 split() 호출 시 반드시 레이블 데이터 세트도 추가 입력 필요
for train_index, test_index in skfold.split(features, label):
  # split()으로 반환된 인덱스를 이용해 학습용, 검증용 테스트 데이터 추출
  X_train, X_test = features[train_index], features[test_index]
  y_train, y_test = label[train_index], label[test_index]
  # 학습 및 예측
  dt_clf.fit(X_train, y_train)
  pred = dt_clf.predict(X_test)

  # 반복 시마다 정확도 측정
  n_iter += 1
  accuracy = np.round(accuracy_score(y_test, pred), 4)
  train_size = X_train.shape[0]
  test_size = X_test.shape[0]
  print('\n#{0} 교차 검증 정확도: {1}, 학습 데이터 크기: {2}, 검증 데이터 크기: {3}'
  .format(n_iter, accuracy, train_size, test_size))
  print('#{0} 검증 세트 인덱스: {1}'.format(n_iter, test_index))
  cv_accuracy.append(accuracy)

# 교차 검증별 정확도 및 평균 정확도 계산
print('\n## 교차 검증별 정확도:', np.round(cv_accuracy, 4))
print('## 평균 검증 정확도:', np.round(np.mean(cv_accuracy), 4))


#1 교차 검증 정확도: 0.98, 학습 데이터 크기: 100, 검증 데이터 크기: 50
#1 검증 세트 인덱스: [  0   1   2   3   4   5   6   7   8   9  10  11  12  13  14  15  16  50
  51  52  53  54  55  56  57  58  59  60  61  62  63  64  65  66 100 101
 102 103 104 105 106 107 108 109 110 111 112 113 114 115]

#2 교차 검증 정확도: 0.94, 학습 데이터 크기: 100, 검증 데이터 크기: 50
#2 검증 세트 인덱스: [ 17  18  19  20  21  22  23  24  25  26  27  28  29  30  31  32  33  67
  68  69  70  71  72  73  74  75  76  77  78  79  80  81  82 116 117 118
 119 120 121 122 123 124 125 126 127 128 129 130 131 132]

#3 교차 검증 정확도: 0.98, 학습 데이터 크기: 100, 검증 데이터 크기: 50
#3 검증 세트 인덱스: [ 34  35  36  37  38  39  40  41  42  43  44  45  46  47  48  49  83  84
  85  86  87  88  89  90  91  92  93  94  95  96  97  98  99 133 134 135
 136 137 138 139 140 141 142 143 144 145 146 147 148 149]

## 교차 검증별 정확도: [0.98 0.94 0.98]
## 평균 검증 정확도: 0.9667


Stratified K 폴드의 경우 원본 데이터의 레이블 분포도 특성을 반영한 학습 및 검증 데이터 세트를 만들 수 있으므로 왜곡된 레이블 데이터 세트에서는 반드시 Stratified K 폴드를 이용해 교차 검증해야함

##**교차 검증을 보다 간편하게 - cross_val_score()**

KFold로 데이터를 학습하고 예측하는 코드
1. 폴드 세트를 설정
2. for 루프에서 반복으로 학습 및 테스트 데이터의 인덱스 추출
3. 반복적으로 학습과 예측 수행하고 예측 성능 반환

cross_val_score()는 이런 일련의 과정을 한꺼번에 수행해주는 API

cross_val_score() API 선언 형태:  
cross_val_score(estimator, X, y=None, scoring=None, n_jobs=1, verbose=0, fit_params=None, pre_dispatch='2*n_jobs')  
estimator, X, y, scoring, cv: 주요 파라미터
* estimator: 사이킷런의 분류 알고리즘 클래스인 Classifier 또는 회귀 알고리즘 클래스인 Regressor
* X: 피처 데이터 세트
* y: 레이블 데이터 세트
* scoring: 예측 성능 평가 지표 기술
* cv: 교차 검증 폴드 수
* cross_val_score() 수행후 반환 값: scoring 파라미터로 지저된 성능 지표 측정값을 배열 형태로 반환

cross_val_score()는 classifier가 입력되면 Stratified K 폴드 방식으로 레이블값의 분포에 따라 학습/테스트 세트 분할  
(회귀의 경우는 Stratified K 폴드 방식으로 분할X, 그래서 K 폴드 방식으로 분할)

In [27]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import cross_val_score, cross_validate
from sklearn.datasets import load_iris

iris_data = load_iris()
dt_clf = DecisionTreeClassifier(random_state=156)

data = iris_data.data
label = iris_data.target

# 성능 지표는 정확도(accuracy), 교차 검증 세트는 3개
scores = cross_val_score(dt_clf, data, label, scoring = 'accuracy', cv = 3)
print('교차 검증별 정확도: ', np.round(scores, 4))
print('평균 검증 정확도: ', np.round(np.mean(scores), 4))

교차 검증별 정확도:  [0.98 0.94 0.98]
평균 검증 정확도:  0.9667


cross_val_score()는 cv로 지정된 횟수만큼 scoring 파라미터로 지정된 평가 지표로 평가 결괏값을 배열로 반환  
이를 평균해 평가 수치로 사용

##**GridSearchCV - 교차 검증과 최적 하이퍼 파라미터 튜닝을 한 번에**

하이퍼 파라미터: 머신러닝 알고리즘을 구성하는 주요 구성 요소, 이 값을 조정해 알고리즘의 예측 성능 개선 가능

사이킷런은 GridSearchCV API를 이용해 Classifier나 Regressor와 같은 알고리즘에 사용되는 하이퍼 파라미터를 순차적으로 입력하면서 편리하게 최적의 파라미터를 도출할 수 있는 방안 제공

In [28]:
# 파라미터 집합 만들고 이를 순차적으로 적용하면서 최적화 수행
grid_parameters = {'max_depth': [1, 2, 3],
                   'min_samples_split': [2, 3]
                   }

GridSearchCV: 교차 검증을 기반으로 이 하이퍼 파라미터의 최적 값을 찾게 해줌  
데이터 세트를 cross-validation을 위한 학습/테스트 세트로 자동으로 분할한 뒤에 하이퍼 파라미터 그리드에 기술된 모든 파라미터를 순차적으로 적용해 최적의 파라미터를 찾을 수 있게 해줌

사용자가 튜닝하고자 하는 여러 종류의 하이퍼 파라미터를 다양하게 테스트하면서 최고의 파라미터를 편리하게 차게 해줌  
동시에 순차적으로 파라미터를 테스트하므로 수행시간이 상대적으로 오래 걸리는 것에 유념

GridSearchCV 클래스의 생성자로 들어가는 주요 파라미터
* estimator: classifier, regressor, pipeline이 사용될 수 있음
* param_grid: key+리스트 값을 가지는 딕셔너리 주어짐  
estimator의 튜닝을 위해 파라미터명과 사용될 여러 파라미터 값을 지정
* scoring: 예측 성능을 측정할 평가 방법 지정  
사이킷런의 성능 평가 지표를 지정하는 문자열로 지정하나 별도의 성능 평가 지표 함수도 지정 가능
* cv: 교차 검증을 위해 분할되는 학습/테스트 세트의 개수 지정
* refit: 디폴트가 True, True로 생성 시 가장 최적의 하이퍼 파라미터를 찾은 뒤 입력된 estimator 객체를 해당 하이퍼 파라미터로 재학습시킴

In [29]:
# train_test_split()을 이용해 학습 데이터와 테스트 데이터를 먼저 분리
# 학습 데이터에서 GridSearchCV를 이용해 최적 하이퍼 파라미터 추출
# DecisionTreeClassifier의 중요 하이퍼 파라미터인 max_depth와 min_samples_split의 값을 변화시키면서 최적화 진행
# 테스트할 하이퍼 파라미터 세트는 딕셔너리 형태
# 하이퍼 파라미터의 명칭은 문자열 Key 값으로
# 하이퍼 파라미터의 값은 리스트 형

from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import GridSearchCV

# 데이터를 로딩하고 학습 데이터와 테스트 데이터 분리
iris_data = load_iris()
X_train, X_test, y_train, y_test = train_test_split(iris_data.data, iris_data.target,
                                                    test_size = 0.2, random_state=121)
dtree = DecisionTreeClassifier()

### 파라미터를 딕셔너리 형태로 설정
parameters = {'max_depth': [1, 2, 3], 'min_samples_split': [2, 3]}

학습 데이터 세트를 GridSearchCV 객체의 fit(학습 데이터 세트) 메서드에 인자로 입력  
GridSearchCV 객체의 fit(학습 데이터 세트) 메서드를 수행하면 학습 데이터를 cv에 기술된 폴딩 세트로 분할해 param_grid에 기술된 하이퍼 파라미터를 순차적으로 변경하면서 학습/평가를 수행하고 그 결과를 cv_results_속성에 기록  
cv_results_는 gridsearchcv의 결과 세트로서 딕셔너리 형태로 key 값과 리스트 형태의 value 값을 가짐  

In [30]:
import pandas as pd

# param_grid의 하이퍼 파라미터를 3개의 train_ test set fold로 나누어 테스트 수행 설정.
### refit=True가 default임. True이면 가장 좋은 파라미터 설정으로 재학습시킴
grid_dtree = GridSearchCV(dtree, param_grid = parameters, cv = 3, refit = True)

# 붓꽃 학습 데이터로 param_grid의 하이퍼 파라미터를 순차적으로 학습/평가
grid_dtree.fit(X_train, y_train)

# GridSearchCV 결과를 추출해 DataFrame으로 변환
scores_df = pd.DataFrame(grid_dtree.cv_results_)
scores_df[['params', 'mean_test_score', 'rank_test_score',
           'split0_test_score', 'split1_test_score', 'split2_test_score']]

Unnamed: 0,params,mean_test_score,rank_test_score,split0_test_score,split1_test_score,split2_test_score
0,"{'max_depth': 1, 'min_samples_split': 2}",0.7,5,0.7,0.7,0.7
1,"{'max_depth': 1, 'min_samples_split': 3}",0.7,5,0.7,0.7,0.7
2,"{'max_depth': 2, 'min_samples_split': 2}",0.958333,3,0.925,1.0,0.95
3,"{'max_depth': 2, 'min_samples_split': 3}",0.958333,3,0.925,1.0,0.95
4,"{'max_depth': 3, 'min_samples_split': 2}",0.975,1,0.975,1.0,0.95
5,"{'max_depth': 3, 'min_samples_split': 3}",0.975,1,0.975,1.0,0.95


* params: 수행할 때마다 적용된 개별 하이퍼 파라미터값
* rank_test_score: 하이퍼 파라미터별로 성능이 좋은 score 순위  
1이 가장 뛰어난 순위, 이때의 파라미터가 최적의 하이퍼 파라미터
* mean_test_score: 개별 하이퍼 파라미터별로 CV의 폴딩 테스트 세트에 대해 총 수행한 평가 평균값

GridSearchCV 객체의 fit()을 수행하면 최고 성능을 나타낸 하이퍼 파라미터의 값과 그때의 평가 결과 값이 각각 best_params_, best_score_ 속성에 기록됨

In [31]:
print('GridSearchCV 최적 파라미터:', grid_dtree.best_params_)
print('GridSearchCV 최고 정확도: {0:.4f}'.format(grid_dtree.best_score_))

GridSearchCV 최적 파라미터: {'max_depth': 3, 'min_samples_split': 2}
GridSearchCV 최고 정확도: 0.9750


In [32]:
# GridSearchCV의 refit으로 이미 학습된 estimator 반환
estimator = grid_dtree.best_estimator_

# GridSearchCV의 best_estimator_는 이미 최적 학습이 됐으므로 별도 학습이 필요 없음
pred = estimator.predict(X_test)
print('테스트 데이터 세트 정확도: {0:.4f}'.format(accuracy_score(y_test, pred)))

테스트 데이터 세트 정확도: 0.9667
