<a href="https://colab.research.google.com/github/choi-yh/Pyhon_ML_Guide/blob/master/02%EC%9E%A5/Chapter_2_%EC%82%AC%EC%9D%B4%ED%82%B7%EB%9F%B0%EC%9C%BC%EB%A1%9C_%EC%8B%9C%EC%9E%91%ED%95%98%EB%8A%94_%EB%A8%B8%EC%8B%A0%EB%9F%AC%EB%8B%9D.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## 01. 사이킷런 소개와 특징

* 가장 파이썬스러운 API 제공
* 오랜 기간 실전 환경에서 검증되고 매우 많은 환경에서 사용되는 라이브러리

In [1]:
import sklearn

print(sklearn.__version__)

0.22.2.post1


## 02. 첫 번째 머신러닝 만들어 보기 - 붓꽃 품종 예측하기

* **붓꽃 데이터 세트**: 꽃잎의 길이와 너비, 꽃받침의 길이와 너비 feature를 기반으로 꽃의 품종 예측
* Classification / Supervised Learning

---

* 0: Setosa
* 1: Versicolor
* 2: Virginica

---

* 분류 프로세스 정리
    1. **데이터 세트 분리**: 데이터를 학습 데이터와 테스트 데이터로 분리
    2. **모델 학습**: 학습 데이터를 기반으로 ML 알고리즘을 적요해 모델을 학습
    3. **예측 수행**: 학습된 ML 모델을 이용해 테스트 데이터의 분류(즉, 붓꽃 종류)를 예측
    4. **평가**: 이렇게 예측된 결괏값과 테스트 데이터의 실제 결괏값을 비교해 ML 모델 성능을 평가

In [2]:
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split
import pandas as pd

# 붓꽃 데이터 세트 로딩
iris = load_iris()

# iris.data는 Iris 데이터 세트에서 feature만으로 된 데이터를 numpy로 가진다.
iris_data = iris.data

# iris.target은 붓꽃 데이터 세트에서 레이블 (결정 값) 데이터를 numpy로 가진다.
iris_label = iris.target
print('iris target 값: ',iris_label)
print('iris target 명: ', iris.target_names)

# 붓꽃 데이터 세트를 자세히 보기 위해 DataFrame으로 변환
iris_df = pd.DataFrame(data=iris_data, columns=iris.feature_names)
iris_df['label'] = iris.target
iris_df.head(3)

iris target 값:  [0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2
 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
 2 2]
iris target 명:  ['setosa' 'versicolor' 'virginica']


Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),label
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0


In [3]:
# 학습용 데이터, 테스트용 데이터 분리
X_train, X_test, y_train, y_test = train_test_split(iris_data, iris_label,
                                                    test_size=0.2, random_state=13)

In [4]:
# 의사 결정 트리를 이용해 학습 및 예측

# DecisionTreeClassifier 객체 생성
dt_clf = DecisionTreeClassifier(random_state=13)

# 학습 수행
dt_clf.fit(X_train, y_train)

DecisionTreeClassifier(ccp_alpha=0.0, class_weight=None, criterion='gini',
                       max_depth=None, max_features=None, max_leaf_nodes=None,
                       min_impurity_decrease=0.0, min_impurity_split=None,
                       min_samples_leaf=1, min_samples_split=2,
                       min_weight_fraction_leaf=0.0, presort='deprecated',
                       random_state=13, splitter='best')

In [5]:
# 학습이 완료된 DecisionTreeClassifier 객체에서 테스트 데이터 세트로 예측 수행.
pred = dt_clf.predict(X_test)

In [6]:
# 정확도를 평가 지표로 사용
from sklearn.metrics import accuracy_score
print("예측 정확도: {:.4f}".format(accuracy_score(y_test, pred)))

예측 정확도: 0.9333


## 03. 사이킷런의 기반 프레임워크 익히기

### Estimator 이해 및 fit(), predict() 메서드

* fit() 메서드: ML 모델 학습
* predict() 메서드: 학습된 모델 예측

---

* Estimator 클래스
    * Classifier: 분류 알고리즘
    * Regressor: 회귀 알고리즘
    * *cross_val_score()* 같은 evaluation 함수, *GridSearchCV*와 같은 하이퍼 파라미터 튜닝을 지원하는 클래스의 경우 Estimator를 인자로 받는다.  
    => 인자로 받은 Estimator에 대해서 cross_val_score(), GridSearchCV.fit() 함수 내에서 Estimator의 fit()과 predict()를 호출해서 평가하거나 하이퍼 파라미터 튜닝 수행

---

* 비지도 학습
    * 차원 축소, 클러스터링, 피처 추출(Feature Extraction) 에서도 fit()과 transform() 적용
    * 여기서의 **fit()**은 학습이 아니라 **입력 데이터의 형태에 맞춰 데이터를 변환하기 위한 사전 구조를 맞추는 작업**
    * fit()을 통해 사전 구조를 맞추고 transform()으로 실제 작업을 수행한다.
    * fit_transform() 도 제공하지만 사용할 때 주의가 필요하다.

### 사이킷런의 주요 모듈

|**분류**|**모듈 명**|**설명**|
|--------|-----------|--------|
| 예제 데이터 | sklearn.datasets | 사이킷런에 내장되어 예제로 제공하는 데이터 세트|
| 피처 처리 | sklearn.preprocessing | 데이터 전처리에 필요한 다양한 가공 기능 제공 |
|| sklearn.feature_selection | 알고리즘에 큰 영향을 미치는 피처를 우선순위대로 셀렉션 작업을 수행하는 다양한 기능 제공 |
|| sklearn.feature_extraction | 텍스트 데이터나 이미지 데이터의 벡터화된 피처를 추출하는데 사용됨.|
||||
| 피처 처리 & 차원 축소 | sklearn.decomposition | 차원 축소와 관련한 알고리즘을 지원하는 모듈. PCA, NMF, Truncated SVD 등을 통해 차원 축소 기능 수행 |
| 데이터 분리. 검증 & 파라미터 튜닝 | sklearn.model_selection | 교차 검증을 위한 학습용/테스트용 분리. Grid Search로 최적 파라미터 추출 등의 API 제공 |
| 평가 | sklearn.metrics | 분류, 회귀, 클러스터링, Pairwise에 대한 다양한 성능 측정 방법 제공 |
||||
| ML 알고리즘 | sklearn.ensemble | 앙상블 알고리즘 제공 (RF, AdaBoost, GBT,...) |
|| sklearn.linear_model | 선형회귀, Ridge, Lasso 및 로지스틱 회귀 등, SGD 관련 알고리즘도 제공 |
|| sklearn.naive_bayes | 나이브 베이즈 알고리즘 제공. 가우시안 NB, 다항 분포 NB 등 |
|| sklearn.neighbors | 최근접 이웃 알고리즘 제공. K-NN 등 |
|| sklearn.svm | 서포트 벡터 머신 알고리즘 제공 |
|| sklearn.tree | 의사 결정 트리 알고리즘 제공 |
|| sklearn.cluster | 비지도 클러스터링 알고리즘 제공 (K-means, 계층형, DBSCAN 등) |
||||
| 유틸리티 | sklearn.pipeline | 피처 처리 등의 변환과 ML 알고리즘 학습, 예측 등을 함께 묶어서 실행할 수 있는 유틸리티 제공

### 내장된 예제 데이터 세트

* 분류나 회귀 연습용 예제 데이터

| **API 명** | **설명** |
|------------|----------|
| dataset.load_boston() | *회귀*, 미국 보스턴의 집 피처들과 가격에 대한 데이터 세트 |
| dataset.load_breas_cancer() | *분류*, 위스콘신 유방암 피처들과 악성/음성 레이블 데이터 세트 |
| datasets.load_diabets() | *회귀*, 당뇨 데이터 세트 |
| datasets.load_digits() | *분류*, 0에서 9까지 숫자의 이미지 픽셀 데이터 세트 |
| dataset.load_iris() | *분류*, 붓꽃에 대한 피처를 가진 데이터 세트 |


* 분류나 회귀를 위한 연습용 예제 데이터 구성
    * data: feature의 데이터 세트
    * target: 분류 시 레이블 값, 회귀일 때는 숫자 결과값 데이터 세트
    * target_name: 개별 레이블 이름
    * feature_names: feature의 이름
    * DESCR: 데이터 세트에 대한 설명과 각 feature의 설명

---

* fetch 계열 명령

    * 데이터의 크기가 커서 인터넷에서 내려받아 scikit_learn_data 서브 디렉터리에 저장한 뒤 불러들이는 데이터
    * fetch_covtype(): 회귀 분석용 토지 조사 자료
    * fetch_20newsgroups(): 뉴스 그룹 텍스트 자료
    * fetch_olivetti_faces(): 얼굴 이미지 자료
    * fetch_lfw_people(): 얼굴 이미지 자료
    * fetch_lfw_pairs(): 얼굴 이미지 자료
    * fetch_rcv1(): 로이터 뉴스 말뭉치
    * fetch_mldata(): ML 웹사이트에서 다운로드

---

* 분류와 클러스터링을 위한 표본 데이터 생성기

| **API 명** | **설명** |
|------------|----------|
| datasets.make_classifications() | 분류를 위한 데이터 세트를 만듭니다.  |
|                                 |특히 높은 상관도, 불필요한 속성 등의 노이즈 효과를 위한 데이터를 무작위로 생성해 줍니다. |
| datasets.make_blobs() | 클러스터링을 위한 데이터 세트를 무작위로 생성해 줍니다. |
|                       | 군집 지정 개수에 따라 여러 가지 클러스터링을 위한 데이터 세트를 쉽게 만들어 줍니다. |





In [7]:
from sklearn.datasets import load_iris

iris_data = load_iris()
print(type(iris_data))

<class 'sklearn.utils.Bunch'>


In [8]:
keys = iris_data.keys()
print('붓꽃 데이터 세트의 키들: ', keys)

붓꽃 데이터 세트의 키들:  dict_keys(['data', 'target', 'target_names', 'DESCR', 'feature_names', 'filename'])


In [9]:
print(' feature_names 의 type: ', type(iris_data.feature_names))
print(' feature_names의 shape: ', len(iris_data.feature_names))
print(iris_data.feature_names)

print('\n target_names 의 type: ', type(iris_data.target_names))
print(' target_names 의 shape: ', len(iris_data.target_names))
print(iris_data.target_names)

print('\n data 의 type: ', type(iris_data.data))
print(' data 의 shape: ', iris_data.data.shape)
print(iris_data['data'])

print('\n target 의  type: ', type(iris_data.target))
print(' target 의 shape: ', iris_data.target.shape)
print(iris_data.target)

 feature_names 의 type:  <class 'list'>
 feature_names의 shape:  4
['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']

 target_names 의 type:  <class 'numpy.ndarray'>
 target_names 의 shape:  3
['setosa' 'versicolor' 'virginica']

 data 의 type:  <class 'numpy.ndarray'>
 data 의 shape:  (150, 4)
[[5.1 3.5 1.4 0.2]
 [4.9 3.  1.4 0.2]
 [4.7 3.2 1.3 0.2]
 [4.6 3.1 1.5 0.2]
 [5.  3.6 1.4 0.2]
 [5.4 3.9 1.7 0.4]
 [4.6 3.4 1.4 0.3]
 [5.  3.4 1.5 0.2]
 [4.4 2.9 1.4 0.2]
 [4.9 3.1 1.5 0.1]
 [5.4 3.7 1.5 0.2]
 [4.8 3.4 1.6 0.2]
 [4.8 3.  1.4 0.1]
 [4.3 3.  1.1 0.1]
 [5.8 4.  1.2 0.2]
 [5.7 4.4 1.5 0.4]
 [5.4 3.9 1.3 0.4]
 [5.1 3.5 1.4 0.3]
 [5.7 3.8 1.7 0.3]
 [5.1 3.8 1.5 0.3]
 [5.4 3.4 1.7 0.2]
 [5.1 3.7 1.5 0.4]
 [4.6 3.6 1.  0.2]
 [5.1 3.3 1.7 0.5]
 [4.8 3.4 1.9 0.2]
 [5.  3.  1.6 0.2]
 [5.  3.4 1.6 0.4]
 [5.2 3.5 1.5 0.2]
 [5.2 3.4 1.4 0.2]
 [4.7 3.2 1.6 0.2]
 [4.8 3.1 1.6 0.2]
 [5.4 3.4 1.5 0.4]
 [5.2 4.1 1.5 0.1]
 [5.5 4.2 1.4 0.2]
 [4.9 3.1 1.5 0.2]
 [5.  3.2 1.

## 04. Model Selection 모듈 소개

### 학습/테스트 데이터 세트 분리 - train_test_split()

* 학습을 위한 데이터 양을 일정 수준 이상으로 보장하는 것도 중요하지만, **학습된 모델에 대해 다양한 데이터를 기반으로 예측 성능을 평가해 보는 것도 매우 중요**

In [11]:
"""
테스트 데이터 세트를 이용하지 않고 학습 데이터 세트로만 학습하고 예측할 시 문제점
학습한 데이터 세트를 예측하니깐 정확도가 100%이다.
"""

from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score

iris = load_iris()
dt_clf = DecisionTreeClassifier()
train_data = iris.data
train_label = iris.target
dt_clf.fit(train_data, train_label)

# 학습 데이터 세트로 예측 수행
pred = dt_clf.predict(train_data)
print('예측 정확도: ', accuracy_score(train_label, pred))

예측 정확도:  1.0


In [13]:
"""
train_test_split을 활용해 학습 데이터와 테스트 데이터를 분리
예측 정확도가 높게 나왔지만 iris 데이터는 150개의 데이터,
따라서 테스트 데이터는 30%인 45개 밖에 되지 않으므로 알고리즘의 예측 성능을 파악하기는 어렵다.
"""

from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split

dt_clf = DecisionTreeClassifier()
iris_data = load_iris()

X_train, X_test, y_train, y_test = train_test_split(iris_data.data, iris_data.target, test_size=0.3, random_state=13)

dt_clf.fit(X_train, y_train)
pred = dt_clf.predict(X_test)
print('예측 정확도: {:.4f}'.format(accuracy_score(y_test, pred)))

예측 정확도: 0.9778


### 교차 검증 (Cross Validation)

* Train / Test set을 나눠서 학습하는 방법은 **Overfitting**의 문제점이 생길 수 있다.
    * **Overfitting**: 모델이 학습 데이터에만 치중되게 학습하여 실제 예측시에는 성능이 과도하게 떨어지는 현상
* 고정된 Train / Test 데이터를 사용할 경우 Test Set에 Overfitting 되도록 학습하게 됨.


* **교차 검증**은 데이터의 편증을 막기 위해 별도의 여러 세트로 구성된 학습 데이터 세트와 검증 데이터 세트에서 학습과 평가를 수행하는 것
* 대부분의 ML 모델의 성능 평가는 교차 검증 기반으로 1차 평가를 한 뒤에 최종적으로 테스트 세트에 적용해 평가하는 프로세스

* 분류(Classification)에서의 교차 검증은 Stratified K Fold로 분할해야한다.
* 회귀에서는 Stratified K Fold를 지원하지 않는데, 회귀 문제는 연속된 값이므로 결정값 분포로 나누는 것이 의미가 없기 때문이다.

#### K 폴드 교차 검증 (K-fold Cross Validation)

* **K개의 데이터 폴드 세트를 만들어서 K번만큼 각 폴드 세트에 학습과 검증 평가를 반복적으로 수행하는 방법**
* KFold 객체 내의 split()을 호출 시 학습용/검증용 데이터로 분할할 수 있는 인덱스를 반환
* 실제로 학습용/검증용 데이터 추출은 반환된 인덱스를 기반으로 개발 코드에서 직접 수행해야한다.

In [15]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score
from sklearn.model_selection import KFold
import numpy as np

iris = load_iris()
features = iris.data
label = iris.target
dt_clf = DecisionTreeClassifier(random_state=13)

# 5개의 폴드 세트로 분리하는 KFold 객체와 폴드 세트별 정확도를 담을 리스트 객체 생성
kfold = KFold(n_splits=5)
cv_accuracy = []
print('붓꽃 데이터 세트 크기: ', features.shape[0])

붓꽃 데이터 세트 크기:  150


In [17]:
n_iter = 0

# KFold 객체의 split()을 호출하면 폴드 별 학습용, 검증용 테스트의 로우 인덱스를 array로 반환
for train_index, test_index in kfold.split(features):
    # kfold.split()으로 반환된 인덱스를 이용해 학습용, 검증용 테스트 데이터 추출
    X_train, X_test = features[train_index], features[test_index]
    y_train, y_test = label[train_index], label[test_index]

    # 학습 및 예측
    dt_clf.fit(X_train, y_train)
    pred = dt_clf.predict(X_test)
    n_iter += 1
    
    # 반복 시마다 정확도 측정
    accuracy = np.round(accuracy_score(y_test, pred), 4)
    train_size = X_train.shape[0]
    test_size = X_test.shape[0]
    print('\n{0} 교차 검증 정확도: {1}, 학습 데이터 크기: {2}, 검증 데이터 크기: {3}'.format(n_iter, accuracy, train_size, test_size))
    print('#{0} 검증 세트 인덱스: {1}'.format(n_iter, test_index))
    cv_accuracy.append(accuracy)

# 개별 iteration별 정확도를 합하여 평균 정확도 계산
print('\n## 평균 검증 정확도: ', np.mean(cv_accuracy))


1 교차 검증 정확도: 1.0, 학습 데이터 크기: 120, 검증 데이터 크기: 30
#1 검증 세트 인덱스: [ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
 24 25 26 27 28 29]

2 교차 검증 정확도: 1.0, 학습 데이터 크기: 120, 검증 데이터 크기: 30
#2 검증 세트 인덱스: [30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53
 54 55 56 57 58 59]

3 교차 검증 정확도: 0.8667, 학습 데이터 크기: 120, 검증 데이터 크기: 30
#3 검증 세트 인덱스: [60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83
 84 85 86 87 88 89]

4 교차 검증 정확도: 0.9333, 학습 데이터 크기: 120, 검증 데이터 크기: 30
#4 검증 세트 인덱스: [ 90  91  92  93  94  95  96  97  98  99 100 101 102 103 104 105 106 107
 108 109 110 111 112 113 114 115 116 117 118 119]

5 교차 검증 정확도: 0.7333, 학습 데이터 크기: 120, 검증 데이터 크기: 30
#5 검증 세트 인덱스: [120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137
 138 139 140 141 142 143 144 145 146 147 148 149]

## 평균 검증 정확도:  0.9066599999999999


#### Stratified K Fold

* **불균형한(imbalanced) 분포도를 가진 레이블(결정 클래스) 데이터 집합을 위한 K Fold 방식**
* 레이블 값이 imbalanced 하다면 Train / Valid 세트를 나눌 시에 특정 세트에 레이블 값이 몰려있는 경우가 발생하게 된다.
* 원본 데이터의 분포를 고려하여 Train / Valid 세트를 나눈다. 

* K Fold의 문제점 확인

    * 학습과 검증 데이터 셋의 값이 매우 편중되게 나왔다. => 실제로는 써먹지 못함

In [19]:
import pandas as pd

iris = load_iris()
iris_df = pd.DataFrame(data=iris.data, columns=iris.feature_names)
iris_df['label'] = iris.target
iris_df['label'].value_counts()

2    50
1    50
0    50
Name: label, dtype: int64

In [23]:
kfold = KFold(n_splits=3)
n_iter = 0
for train_index, test_index in kfold.split(iris_df):
    n_iter += 1
    label_train = iris_df['label'].iloc[train_index]
    label_test = iris_df['label'].iloc[test_index]
    print('\n## 교차 검증: {}'.format(n_iter))
    print('학습 레이블 데이터 분포:\n ', label_train.value_counts())
    print('검증 레이블 데이터 분포:\n ', label_test.value_counts())


## 교차 검증: 1
학습 레이블 데이터 분포:
  2    50
1    50
Name: label, dtype: int64
검증 레이블 데이터 분포:
  0    50
Name: label, dtype: int64

## 교차 검증: 2
학습 레이블 데이터 분포:
  2    50
0    50
Name: label, dtype: int64
검증 레이블 데이터 분포:
  1    50
Name: label, dtype: int64

## 교차 검증: 3
학습 레이블 데이터 분포:
  1    50
0    50
Name: label, dtype: int64
검증 레이블 데이터 분포:
  2    50
Name: label, dtype: int64


* Stratified KFold 사용하여 데이터 분할

    * KFold 와의 차이점은 레이블 데이터 분포도에 따라 Train / Valid Set을 나누기 때문에 split() 메서드에 인자로 feature data set과 label data set도 필요하다.

In [25]:
from sklearn.model_selection import StratifiedKFold

skf = StratifiedKFold(n_splits=3)
n_iter = 0

for train_index, test_index in skf.split(iris_df, iris_df['label']):
    n_iter += 1
    label_train = iris_df['label'].iloc[train_index]
    label_test = iris_df['label'].iloc[test_index]
    print("\n## 교차 검증: {}".format(n_iter))
    print('학습 레이블 데이터 분포:\n', label_train.value_counts())
    print('검증 레이블 데이터 분포:\n', label_test.value_counts())


## 교차 검증: 1
학습 레이블 데이터 분포:
 2    34
1    33
0    33
Name: label, dtype: int64
검증 레이블 데이터 분포:
 1    17
0    17
2    16
Name: label, dtype: int64

## 교차 검증: 2
학습 레이블 데이터 분포:
 1    34
2    33
0    33
Name: label, dtype: int64
검증 레이블 데이터 분포:
 2    17
0    17
1    16
Name: label, dtype: int64

## 교차 검증: 3
학습 레이블 데이터 분포:
 0    34
2    33
1    33
Name: label, dtype: int64
검증 레이블 데이터 분포:
 2    17
1    17
0    16
Name: label, dtype: int64


In [27]:
# StratifiedKFold를 활용한 iris data 교차 검증

dt_clf = DecisionTreeClassifier(random_state=13)

skfold = StratifiedKFold(n_splits=3)
n_iter = 0
cv_accuracy = []

# StratifiedKFold의 split() 호출시 반드시 레이블 데이터 세트도 추가 입력 필요
for train_index, test_index in skfold.split(features, label):
    # split()으로 반환된 인덱스를 이용해 학습용, 검증용 테스트 데이터 추출
    X_train, X_test = features[train_index], features[test_index]
    y_train, y_test = label[train_index], label[test_index]

    # 학습 및 예측
    dt_clf.fit(X_train, y_train)
    pred = dt_clf.predict(X_test)

    # 반복 시마다 정확도 측정
    n_iter += 1
    accuracy = np.round(accuracy_score(y_test, pred), 4)
    train_size = X_train.shape[0]
    test_size = X_test.shape[0]
    print('\n#{0} 교차 검증 정확도: {1}, 학습 데이터 크기: {2}, 검증 데이터 크기: {3}'.format(n_iter, accuracy, train_size, test_size))
    print("#{0} 검증 세트 인덱스: {1}".format(n_iter, test_index))
    cv_accuracy.append(accuracy)

    # 교차 검증별 정확도 및 평균 정확도 계산
    print('\n## 교차 검증별 정확도: ', np.round(cv_accuracy, 4))
    print('## 평균 검증 정확도: ', np.mean(cv_accuracy))


#1 교차 검증 정확도: 0.98, 학습 데이터 크기: 100, 검증 데이터 크기: 50
#1 검증 세트 인덱스: [  0   1   2   3   4   5   6   7   8   9  10  11  12  13  14  15  16  50
  51  52  53  54  55  56  57  58  59  60  61  62  63  64  65  66 100 101
 102 103 104 105 106 107 108 109 110 111 112 113 114 115]

## 교차 검증별 정확도:  [0.98]
## 평균 검증 정확도:  0.98

#2 교차 검증 정확도: 0.92, 학습 데이터 크기: 100, 검증 데이터 크기: 50
#2 검증 세트 인덱스: [ 17  18  19  20  21  22  23  24  25  26  27  28  29  30  31  32  33  67
  68  69  70  71  72  73  74  75  76  77  78  79  80  81  82 116 117 118
 119 120 121 122 123 124 125 126 127 128 129 130 131 132]

## 교차 검증별 정확도:  [0.98 0.92]
## 평균 검증 정확도:  0.95

#3 교차 검증 정확도: 1.0, 학습 데이터 크기: 100, 검증 데이터 크기: 50
#3 검증 세트 인덱스: [ 34  35  36  37  38  39  40  41  42  43  44  45  46  47  48  49  83  84
  85  86  87  88  89  90  91  92  93  94  95  96  97  98  99 133 134 135
 136 137 138 139 140 141 142 143 144 145 146 147 148 149]

## 교차 검증별 정확도:  [0.98 0.92 1.  ]
## 평균 검증 정확도:  0.9666666666666667


#### 교차 검증을 보다 간편하게 - cross_val_score()

* KFold 로 데이터를 학습하고 예측하는 프로세스
    1. 폴드 세트를 설정
    2. for 루프에서 반복으로 학습 및 테스트 데이터의 인덱스를 추출
    3. 반복적으로 학습과 예측을 수행하고 예측 성능을 반환

* cross_val_score()는 위의 일련의 과정을 한번에 수행해줌
    * estimator, X, y, scoring, cv가 주요 파라미터
* return 값은 scoring 파라미터로 지정된 성능 지표 측정값을 배열 형태로 반환

* **cross_validate**: 여러 개의 평가 지표 반환, 학습 데이터에 대한 성능 지표와 수행 시간도 제공

In [28]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import cross_val_score, cross_validate
from sklearn.datasets import load_iris

iris_data = load_iris()
dt_clf = DecisionTreeClassifier(random_state=13)

data = iris_data.data
label = iris_data.target

# 성능 지표는 정확도(accuracy), 교차 검증 세트는 3개
scores = cross_val_score(dt_clf, data, label, scoring='accuracy', cv=3)
print('교차 검증별 정확도: ', np.round(scores, 4))
print('평균 검증 정확도: {:.4f}'.format(np.mean(scores)))

교차 검증별 정확도:  [0.98 0.92 1.  ]
평균 검증 정확도: 0.9667


### GridSearchCV - 교차 검증과 최적 하이퍼 파라미터 튜닝을 한 번에

* Classifier나 Regressor와 같은 알고리즘에 사용되는 하이퍼 파라미터를 순차적으로 입력하면서 편리하게 최적의 파라미터를 도출할 수 있는 방안 제공
* 데이터 세트를 cross-validation을 위한 학습/테스트 세트로 자동으로 분할한 뒤에 하이퍼 파라미터 그리드에 기술된 모든 파라미터를 순차적으로 적용해 최적의 파라미터를 찾을 수 있게 해준다.

* **학습 데이터를 GridSearchCV를 이용해 최적 하이퍼 파라미터 튜닝을 수행한 뒤에 별도의 테스트 세트에서 이를 평가하는 것이 일반적인 머신러닝 모델 적용 방법**

In [30]:
"""
iris data 예측에 GridSearchCV 이용
train_test_split() 으로 학습 데이터와 테스트 데이터를 분리
학습 데이터에서 GridSearchCV를 이용해 최적 하이퍼 파라미터 추출
DecisionTreeClassifier의 중요 하이퍼 파라미터인 max_depth, min_samples_split에 대하여 최적화

estimator 객체 생성
estimator의 튜닝할 파라미터 설정
GridSearchCV 객체 생성
fit(X, y)
.cv_result_를 통해 결과 확인
"""

import pandas as pd
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import GridSearchCV

# 데이터를 로딩하고 학습 데이터와 테스트 데이터 분리
iris_data = load_iris()
X_train, X_test, y_train, y_test = train_test_split(iris_data.data, iris_data.target,
                                                    test_size=0.2, random_state=13)
dtree = DecisionTreeClassifier()

### 파라미터를 딕셔너리 형태로 설정
parameters = {'max_depth': [1, 2, 3],
              'min_samples_split': [2, 3]}

# param_grid의 하이퍼 파라미터를 3개의 train, test set fold로 나누어 테스트 수행 설정.
### refit=True 가 default. True이면 가장 좋은 파라미터 설정으로 재학습시킴
grid_dtree = GridSearchCV(dtree, param_grid=parameters, cv=3, refit=True)

# iris 학습 데이터로 param_grid의 하이퍼 파라미터를 순차적으로 학습/평가
grid_dtree.fit(X_train, y_train)

# GridSearchCV 결과를 추출해 DataFrame으로 변환
scores_df = pd.DataFrame(grid_dtree.cv_results_)
scores_df[['params', 'mean_test_score', 'rank_test_score',
           'split0_test_score', 'split1_test_score', 'split2_test_score']]

Unnamed: 0,params,mean_test_score,rank_test_score,split0_test_score,split1_test_score,split2_test_score
0,"{'max_depth': 1, 'min_samples_split': 2}",0.691667,5,0.675,0.7,0.7
1,"{'max_depth': 1, 'min_samples_split': 3}",0.691667,5,0.675,0.7,0.7
2,"{'max_depth': 2, 'min_samples_split': 2}",0.933333,3,0.925,0.925,0.95
3,"{'max_depth': 2, 'min_samples_split': 3}",0.933333,3,0.925,0.925,0.95
4,"{'max_depth': 3, 'min_samples_split': 2}",0.941667,1,0.95,0.925,0.95
5,"{'max_depth': 3, 'min_samples_split': 3}",0.941667,1,0.95,0.925,0.95


* params: 수행할 때마다 적용된 개별 하이퍼 파라미터 값
* rank_test_score: 하이퍼 파라미터 별로 성능이 좋은 score 순위
* mean_test_score: 개별 하이퍼 파라미터별로 CV의 폴딩 테스트 세트에 대해 총 수행한 평가 평균 값

In [34]:
print('GridSearchCV 최적 파라미터: ', grid_dtree.best_params_)
print('GridSearchCV 최고 정확도: {:.4f}'.format(grid_dtree.best_score_))

GridSearchCV 최적 파라미터:  {'max_depth': 3, 'min_samples_split': 2}
GridSearchCV 최고 정확도: 0.9417


In [35]:
"""
refit=True 이면 GridSearchCV가 최적 성능을 나타내는 하이퍼 파리미터로 Estimator를 학습해 best_estimator_로 저장
best_estimator_를 이용해서 테스트 세트에 대한 예측, 성능 평가
"""

# GridSearchCV의 refit으로 이미 학습된 estimator 반환
estimator = grid_dtree.best_estimator_

# GridSearchCV의 best_estimator_는 이미 최적 학습이 됐으므로 별도 학습이 필요없음
pred = estimator.predict(X_test)
print("테스트 데이터 세트 정확도: {:.4f}".format(accuracy_score(y_test, pred)))

테스트 데이터 세트 정확도: 0.9333


## 05. 데이터 전처리

* ML 알고리즘은 데이터에 기반하기 때문에 입력 데이터에 따라 결과가 크게 바뀐다. (Garbage In, Garbage Out)
* 결손값(NaN, Null)값은 고정된 다른 값으로 변환해야 한다.
* 사이킷런의 머신러닝 알고리즘은 **문자열**을 입력 값으로 허용하지 않기 때문에 인코딩을 통해 숫자형으로 변환해야 한다.
    * 카테고리형 피처: 코드 값으로 이해
    * 텍스트형 피처: 벡터화(feature vectorization), 불필요하다면 삭제(식별자 피처 같은 경우, 주민번호, id 등)

### 데이터 인코딩

* **레이블 인코딩(Label Encoding)**
    * 카테고리 피처를 코드형 숫자 값으로 변환

* **원-핫 인코딩(One Hot Encoding)**

#### Label Encoding

* Label Encoding을 통해 변환할 경우 특정 ML 알고리즘에서 숫자 값에 가중치가 부여되거나 중요하게 인식할 가능성이 있어 예측 성능이 떨어질 수 있다.
* 따라서 **선형 회귀**와 같은 ML 알고리즘에는 적용하지 않아야 한다.
* **트리** 계열의 ML 알고리즘은 숫자의 이런 특성을 반영하지 않으므로 문제가 없다.

In [37]:
from sklearn.preprocessing import LabelEncoder

items = ['TV', '냉장고', '전자레인지', '컴퓨터', '선풍기', '선풍기', '믹서', '믹서']

# LabelEncoder를 객체로 생성한 후, fit()과 transform()으로 레이블 인코딩 수행.
encoder = LabelEncoder()
encoder.fit(items)
labels = encoder.transform(items)
print('인코딩 변환 값: ', labels)

인코딩 변환 값:  [0 1 4 5 3 3 2 2]


In [38]:
# 데이터가 큰 경우 어떤 문자열이 인코딩 됐는지 알기 힘들다.
# classes_로 확인 가능
print('인코딩 클래스: ', encoder.classes_)

인코딩 클래스:  ['TV' '냉장고' '믹서' '선풍기' '전자레인지' '컴퓨터']


In [40]:
# 디코딩
print('디코딩 원본 값: ', encoder.inverse_transform([0, 1, 4, 5, 3, 3, 2, 2]))

디코딩 원본 값:  ['TV' '냉장고' '전자레인지' '컴퓨터' '선풍기' '선풍기' '믹서' '믹서']


#### 원-핫 인코딩 (One-Hot Encoding)

* 피처 값의 유형에 따라 새로운 피처를 추가해 고유 값에 해당하는 컬럼에만 1을 표시하고 나머지 컬럼에는 0을 표시하는 방식
* 주의할 점
    1. OneHotEncoder로 변환하기 전에 모든 문자열 값이 숫자형 값으로 변환돼야 한다는 것
    2. 입력 값으로 2차원 데이터가 필요하다는 점

* pandas의 get_dummies()를 이용하면 더 쉽다.

In [42]:
from sklearn.preprocessing import OneHotEncoder
import numpy as np

items = ['TV', '냉장고', '전자레인지', '컴퓨터', '선풍기', '선풍기', '믹서', '믹서']

# 먼저 숫자 값으로 변환을 위해 LabelEncoder로 변환
encoder = LabelEncoder()
encoder.fit(items)
labels = encoder.transform(items)

# 2차원 데이터로 변환
labels = labels.reshape(-1, 1)

# 원-핫 인코딩을 적용
oh_encoder = OneHotEncoder()
oh_encoder.fit(labels)
oh_labels = oh_encoder.transform(labels)

print('원-핫 인코딩 데이터')
print(oh_labels.toarray())
print('원-핫 인코딩 데이터 차원')
print(oh_labels.shape)

원-핫 인코딩 데이터
[[1. 0. 0. 0. 0. 0.]
 [0. 1. 0. 0. 0. 0.]
 [0. 0. 0. 0. 1. 0.]
 [0. 0. 0. 0. 0. 1.]
 [0. 0. 0. 1. 0. 0.]
 [0. 0. 0. 1. 0. 0.]
 [0. 0. 1. 0. 0. 0.]
 [0. 0. 1. 0. 0. 0.]]
원-핫 인코딩 데이터 차원
(8, 6)


In [45]:
import pandas as pd

df = pd.DataFrame({'item': ['TV', '냉장고', '전자레인지', '컴퓨터', '선풍기', '선풍기', '믹서', '믹서']})
pd.get_dummies(df)

Unnamed: 0,item_TV,item_냉장고,item_믹서,item_선풍기,item_전자레인지,item_컴퓨터
0,1,0,0,0,0,0
1,0,1,0,0,0,0
2,0,0,0,0,1,0
3,0,0,0,0,0,1
4,0,0,0,1,0,0
5,0,0,0,1,0,0
6,0,0,1,0,0,0
7,0,0,1,0,0,0


### 피처 스케일링과 정규화

* **Feature Scaling**: 서로 다른 변수의 값 범위를 일정한 수준으로 맞추는 작업
* **표준화(Standardization)**
    * 데이터의 feature 각각이 **평균이 0이고 분산이 1인 가우시안 정규 분포**를 가진 값으로 변환하는 것
    $$x_i \_new = \frac{x_i - mean(x)}{stdev(x)}$$

* **정규화(Normalization)**
    * **서로 다른 피처의 크기를 통일**하기 위해 크기를 변환해주는 개념
    $$x_i \_new = \frac{x_i - min(x)}{max(x) - min(x)}$$

* Scikit-Learn의 Normalizer 모듈
    * 선형대수에서의 정규화 개념이 적용, 개별 벡터의 크기를 맞추기 위해 변환하는 것
    $$x_i \_new = \frac{x_i}{\sqrt{x_i^2 + y_i^2 + z_i^2 + \cdots}}$$

### StandardScaler

* 표준화를 지원하는 클래스
* 서포트 벡터 머신(Support Vector Machine), 선형 회귀(Linear Regression), 로지스틱 회귀(Logistic Regression) 의 경우 데이터가 가우시안 분포를 가지고 있다고 가정하고 구현되었기 때문에 표준화가 예측 성능에 중요한 역할을 할 수 있다.

In [46]:
from sklearn.datasets import load_iris
import pandas as pd

# iris data를 로딩하고 DataFrame으로 변환
iris = load_iris()
iris_data = iris.data
iris_df = pd.DataFrame(data=iris_data, columns=iris.feature_names)

print('feature 들의 평균 값')
print(iris_df.mean())
print('\nfeature 들의 분산 값')
print(iris_df.var())

feature 들의 평균 값
sepal length (cm)    5.843333
sepal width (cm)     3.057333
petal length (cm)    3.758000
petal width (cm)     1.199333
dtype: float64

feature 들의 분산 값
sepal length (cm)    0.685694
sepal width (cm)     0.189979
petal length (cm)    3.116278
petal width (cm)     0.581006
dtype: float64


In [47]:
from sklearn.preprocessing import StandardScaler

# StandardScaler 객체 생성
scaler = StandardScaler()

# StandardScaler로 데이터 세트 변환. fit()과 transform() 호출
scaler.fit(iris_df)
iris_scaled = scaler.transform(iris_df)

# transform() 시 스케일 변환된 데이터 세트가 NumPy ndarray로 반환돼 이를 DataFrame으로 변환
iris_df_scaled = pd.DataFrame(data=iris_scaled, columns=iris.feature_names)
print('feature 들의 평균 값')
print(iris_df_scaled.mean())
print('\nfeature 들의 분산 값')
print(iris_df_scaled.var())

feature 들의 평균 값
sepal length (cm)   -1.690315e-15
sepal width (cm)    -1.842970e-15
petal length (cm)   -1.698641e-15
petal width (cm)    -1.409243e-15
dtype: float64

feature 들의 분산 값
sepal length (cm)    1.006711
sepal width (cm)     1.006711
petal length (cm)    1.006711
petal width (cm)     1.006711
dtype: float64


### MinMaxScaler

* 데이터 값을 0과 1사이의 값으로 변환 (음수 값이 있으면 -1에서 1로 변환)

In [50]:
from sklearn.preprocessing import MinMaxScaler

# MinMaxScaler 객체 생성
scaler = MinMaxScaler()

# MinMaxScaler로 데이터 세트 변환. fit()과 transform() 호출
scaler.fit(iris_df)
iris_df_scaled = scaler.transform(iris_df)

# transform() 시 스케일 변환된 데이터 세트가 NumPy ndarray로 반환돼 이를 DataFrame으로 변환
iris_df_scaled = pd.DataFrame(iris_df_scaled, columns=iris.feature_names)

print('feature 들의 최솟값')
print(iris_df_scaled.min())
print('\nfeature들의 최댓값')
print(iris_df_scaled.max())

feature 들의 최솟값
sepal length (cm)    0.0
sepal width (cm)     0.0
petal length (cm)    0.0
petal width (cm)     0.0
dtype: float64

feature들의 최댓값
sepal length (cm)    1.0
sepal width (cm)     1.0
petal length (cm)    1.0
petal width (cm)     1.0
dtype: float64


### 학습 데이터와 테스트 데이터의 스케일링 변환 시 유의점

* Scaler 객체 이용 시
    * fit(): 데이터 변환을 위한 기준 정보 설정 (ex) 데이터 세트의 최댓값/최솟값 설정 등)
    * transform(): 설정된 정보를 이용해 데이터를 변환
    * fit_transform(): fit()과 transform()을 한번에 적용

* 학습 데이터로 fit()을 하고 transform()을 적용할 때,  
테스트 데이터는 학습 데이터의 새로 fit()을 적용하지 않고 transform()만 적용해야 한다. (학습 데이터의 fit()으로 정해진 기준을 바꾸면 안된다.)


* fit_transform() 도 마찬가지로 train set에만 적용하고 test set에는 적용하면 안된다.

* 요약
    1. 가능하다면 전체 데이터의 스케일링 변환을 적용한 뒤 학습과 테스트 데이터로 분리
    2. 1이 여의치 않다면 테스트 데이터 변환 시에는 fit()이나 fit_transform()을 적용하지 않고 학습데이터로 이미 fit()된 Scaler 객체를 이용해 transform()으로 변환

In [53]:
from sklearn.preprocessing import MinMaxScaler
import numpy as np

# 학습 데이터는 0부터 10까지, 테스트 데이터는 0부터 5까지 값을 가지는 데이터 세트로 생성
# Scaler 클래스의 fit(), transfrom()은 2차원 이상 데이터만 가능하므로 reshape(-1, 1)로 차원 변경

train_array = np.arange(0, 11).reshape(-1, 1)
test_array = np.arange(0, 6).reshape(-1, 1)

# MinMaxScaler 객체에 별도의 feature_range 파라미터 값을 지정하지 않으면 0~1 값으로 변환
scaler = MinMaxScaler()

# fit()하게 되면 train_array 데이터의 최솟값이 0, 최댓값이 10으로 설정
scaler.fit(train_array)

# 1/10 scale로 train_array 데이터 변환.
train_scaled = scaler.transform(train_array)

print('원본 train_array 데이터: ', np.round(train_array.reshape(-1), 2))
print('Scale된 train_array 데이터: ', np.round(train_scaled.reshape(-1), 2))

원본 train_array 데이터:  [ 0  1  2  3  4  5  6  7  8  9 10]
Scale된 train_array 데이터:  [0.  0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1. ]


In [54]:
# MinMaxScaler에 test_array를 fit()하게 되면 원본 데이터의 최솟값이 0, 최댓값이 5로 설정됨
scaler.fit(test_array)

# 1/5 scale로 test_array 데이터 변환
test_scaled = scaler.transform(test_array)

# test_array의 scale 변환 출력
print('원본 test_array 데이터: ', np.round(test_array.reshape(-1), 2))
print('Scale된 test_array 데이터: ', np.round(test_scaled.reshape(-1), 2))

원본 test_array 데이터:  [0 1 2 3 4 5]
Scale된 test_array 데이터:  [0.  0.2 0.4 0.6 0.8 1. ]


fit()을 test set에 적용하게 되면 train과 test의 다른 값이 같은 값으로 변환되는 경우가 생긴다 (train의 4와 test의 2가 0.4로 변환되었다.)

In [56]:
"""
테스트 데이터에 fit()을 호출하지 않고 학습 데이터로 fit()을 수행한 MinMaxScaler 객체에 transform()을 이용해 데이터를 변환
출력 결과가 모두 1/10 수준으로 스케일링 되었다.
"""

scaler = MinMaxScaler()
scaler.fit(train_array)
train_scaled = scaler.transform(train_array)

print('원본 train_array 데이터: ', np.round(train_array.reshape(-1), 2))
print('Scale된 train_array 데이터: ', np.round(train_scaled.reshape(-1), 2))

# test_array에 Scale 변환을 할 때는 반드시 fit()을 호출하지 않고 transform()만으로 변환해야 함.
test_scaled = scaler.transform(test_array)
print('\n원본 test_array 데이터: ', np.round(test_array.reshape(-1), 2))
print('Scale된 test_array 데이터: ', np.round(test_scaled.reshape(-1), 2))

원본 train_array 데이터:  [ 0  1  2  3  4  5  6  7  8  9 10]
Scale된 train_array 데이터:  [0.  0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1. ]

원본 test_array 데이터:  [0 1 2 3 4 5]
Scale된 test_array 데이터:  [0.  0.1 0.2 0.3 0.4 0.5]


In [58]:
# fit_transform()도 적용

# train / test 모두 fit_transform() 적용
scaler = MinMaxScaler()
train_scaled = scaler.fit_transform(train_array)
test_scaled = scaler.fit_transform(test_array)

print('############################')
print("train / test에 fit_transform() 적용")
print('원본 train_array 데이터: ', np.round(train_array.reshape(-1), 2))
print('Scale된 train_array 데이터: ', np.round(train_scaled.reshape(-1), 2))

print('\n원본 test_array 데이터: ', np.round(test_array.reshape(-1), 2))
print('Scale된 test_array 데이터: ', np.round(test_scaled.reshape(-1), 2))

# train set에만 fit_transform() 적용 / test set에는 transform()만 적용하면 된다.
scaler = MinMaxScaler()
train_scaled = scaler.fit_transform(train_array)
test_scaled = scaler.transform(test_array)

print('')
print("train 에만 fit_transform() 적용")
print('원본 train_array 데이터: ', np.round(train_array.reshape(-1), 2))
print('Scale된 train_array 데이터: ', np.round(train_scaled.reshape(-1), 2))

print('\n원본 test_array 데이터: ', np.round(test_array.reshape(-1), 2))
print('Scale된 test_array 데이터: ', np.round(test_scaled.reshape(-1), 2))

############################
train / test에 fit_transform() 적용
원본 train_array 데이터:  [ 0  1  2  3  4  5  6  7  8  9 10]
Scale된 train_array 데이터:  [0.  0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1. ]

원본 test_array 데이터:  [0 1 2 3 4 5]
Scale된 test_array 데이터:  [0.  0.2 0.4 0.6 0.8 1. ]

train 에만 fit_transform() 적용
원본 train_array 데이터:  [ 0  1  2  3  4  5  6  7  8  9 10]
Scale된 train_array 데이터:  [0.  0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1. ]

원본 test_array 데이터:  [0 1 2 3 4 5]
Scale된 test_array 데이터:  [0.  0.1 0.2 0.3 0.4 0.5]
