# 사이킷런으로 시작하는 머신러닝
- 사이킷런(scikit-learn) : 파이썬 머신러닝 라이브러리로 API 일관성과 개발 편의성을 제공한다.

#### 특징
- 파이썬 기반의 다른 머신러닝 패키지도 사이킷런 스타일의 API를 지향할 정도로 쉽고 가장 파이썬스러운 API를 제공한다.
- 머신러닝을 위한 매우 다양한 알고리즘과 개발을 위한 편리한 프레임워크와 API를 제공한다.
- 오랜 기간 실전 환경에서 검증됐으며, 매우 많은 환경에서 사용되는 성숙한 라이브러리이다.

## 첫 번째 머신러닝 만들어 보기 - 붓꽃 품종 예측하기
- 지도학습(Supervised Learning) : 학습을 위한 다양한 피처(feature)와 분류 결정값인 레이블(label) 데이터로 모델을 학습한 뒤, 별도의 테스트 데이터 세트에서 미지의 레이블을 예측한다. 즉 명확한 정답이 주어진 데이터를 먼저 학습한 뒤 미지의 정답을 예측하는 방식이다.
- 학습 데이터 세트 : 학습을 위해 주어진 데이터 세트
- 테스트 데이터 세트 : 머신러닝 모델의 예측 성능을 평가하기 위해 별도로 주어진 데이터 세트
- 분류(Classification) : 대표적인 지도학습 방법의 하나.

In [1]:
#사이킷런 패키지 임포트
import sklearn

print(sklearn.__version__)

0.21.3


#### 주요 모듈
- sklearn.datasets : 사이킷런에서 자체적으로 제공하는 데이터 세트를 생성하는 모듈의 모임이다.
- sklearn.tree : 트리 기반 ML 알고리즘을 구현한 클래스의 모임이다.
- sklearn.model_selection : 학습 데이터와 검증 데이터, 예측 데이터로 데이터를 분리하거나 최적의 하이퍼 파라미터로 평가하기 위한 다양한 모듈의 모임이다.
- sklearn.matrics : 분류, 회귀, 클러스터링, 페어와이즈(Pairwise)에 대한 다양한 성능 측정 방법을 제공하는 모듈의 모임이다.
- 하이퍼 파라미터 : 머신러닝 알고리즘별로 최적의 학습을 위해 직접 입력하는 파라미터다. 이를 통해 머신러닝 알고리즘의 성능을 튜닝한다.

In [2]:
#사이킷런에서 사용할 모듈을 임포트
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

- laod_iris() : 붓꽃 데이터 세트 생성
- DecisionTreeClassifier : 의사 결정 트리(Decision Tree) 알고리즘, 즉 ML 알고리즘
- train_test_split() : 데이터 세트를 학습 데이터와 테스트 데이터로 분리
- accuracy_score() : 예측 결과가 실제 레이블 값과 얼마나 정확하게 맞는지를 평가하는 지표. 즉 정확도를 측정

In [3]:
#붓꽃 데이터 세트 구성 확인
import pandas as pd

#붓꽃 데이터 세트를 로딩한다.
iris = load_iris()

#iris.data는 붓꽃 데이터 세트에서 피처 데이터를 numpy로 가지고 있다.
#iris.target은 붓꽃 데이터 세트에서 레이블 데이터를 numpy로 가지고 있다.
print('iris target값:', iris.target)
print('iris target명:', iris.target_names)

#붓꽃 데이터 세트를 DataFrame으로 변환한다.
iris_df = pd.DataFrame(data=iris.data, columns=iris.feature_names)
iris_df['label'] = iris.target
iris_df.head(3)

iris target값: [0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2
 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
 2 2]
iris target명: ['setosa' 'versicolor' 'virginica']


Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),label
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0


- 피처에는 sepal length, sepal width, petal length, petal width가 있다.
- 레이블은 0, 1, 2 세 가지 값으로 돼 있고, 0이 setosa 품종, 1이 versicolor 품종, 2가 virginica 품종을 의미한다.

In [4]:
#학습용 데이터와 테스트용 데이터를 분리
X_train, X_test, y_train, y_test = train_test_split(iris.data, iris.target,
                                                   test_size=0.2, random_state=11)

- 학습 데이터로 학습된 모델이 얼마나 뛰어난 성능을 가지는지 평가하려면 테스트 데이터 세트가 필요하다.
- train_test_split()은 학습 데이터와 테스트 데이터를 test_size 파라미터 입력 값의 비율로 분할한다.
- train_test_split()의 첫 번째 파라미터는 피처 데이터 세트이다.
- train_test_split()의 두 번째 파라미터는 레이블 데이터 세트이다.
- test_size는 전체 데이터 세트 중 테스트 데이터 세트의 비율이다.
- random_state는 호출할 때마다 같은 학습/테스트 용 데이터 세트를 생성하기 위해 주어지는 난수 발생 값이다. 이를 지정하지 않으면 수행할 때마다 다른 학습/테스트 용 데이터를 만든다.
- X_train : 학습용 피처 데이터 세트
- y_train : 학습용 레이블 데이터 세트
- X_test : 테스트용 피처 데이터 세트
- y_test : 테스트용 레이블 데이터 세트

In [5]:
#의사 결정 트리를 이용해 학습과 예측 수행
#DecisionTreeClassifier 객체 생성
dt_clf = DecisionTreeClassifier(random_state=11)

#학습 수행
dt_clf.fit(X_train, y_train)

#학습이 완료된 DecisionTreeClassifier 객체에서 테스트 데이터 세트로 예측 수행
pred = dt_clf.predict(X_test)

- fit() 메서드 : 학습용 피처 데이터 세트와 레이블 데이터 세트를 입력해 호출하면 학습을 수행한다.
- predict() 메서드 : 테스트용 피처 데이터 세트를 입력해 호출하면 학습된 모델 기반에서 테스트 데이터에 대한 예측값을 반환한다.

In [6]:
#정확도를 측정해 예측 성능 평가
print('예측 정확도: {0:.4f}'.format(accuracy_score(y_test, pred)))

예측 정확도: 0.9333


- accuracy_score() : 첫 번째 파라미터로 실제 레이블 데이터 세트, 두 번째 파라미터로 예측 레이블 데이터 세트를 입력한다.

## 사이킷런의 기반 프레임워크 익히기

### Estimator 이해 및 fit(), predict() 메서드

#### 지도학습
- 지도학습의 주요 두 축인 분류(Classification)과 회귀(Regression)의 다양한 알고리즘을 구현한 모든 사이킷런 클래스는 fit()과 predict()만을 이용해 간단하게 학습과 예측 결과를 반환한다.
- fit() : ML 모델 학습
- predict() : 학습된 모델의 예측
- Classifier : 분류 알고리즘을 구현한 클래스
- Regressor : 회귀 알고리즘을 구현한 클래스
- Estimator : 지도학습의 모든 알고리즘을 구현한 클래스를 통칭해서 Estimator라고 부른다. fit()과 predict()를 내부에서 구현한다.

#### 비지도학습
- 비지도학습인 차원 축소, 클러스터링, 피처 추출(Feature Extraction) 등을 구현한 클래스는 대부분 fit()과 transform()을 적용한다.
- fit() : 입력 데이터의 형태에 맞춰 데이터를 변환하기 위한 사전 구조를 맞추는 작업
- transform() : 입력 데이터의 차원 변환, 클러스터링, 피처 추출 등의 실제 작업
- fit_transform() : fit()과 transform()을 하나로 결합

#### 머신러닝 모델을 구축하는 주요 프로세스
1. 피처의 가공, 변경, 추출을 수행하는 피처 처리(feature processing)
2. ML 알고리즘 학습/예측 수행
3. 모델 평가

### 내장된 예제 데이터 세트
- sklearn.datasets : 별도의 외부 웹사이트에서 데이터 세트를 내려받을 필요 없이 예제로 활용할 수 있는 간단하면서도 좋은 데이터 세트가 내장돼 있다.
- 사이킷런에 내장되어 있는 데이터 세트는 분류나 회귀를 연습하기 위한 예제용도의 데이터 세트와 분류나 클러스터링을 위해 표본 데이터로 생성될 수 있는 데이터 세트로 나뉘어진다.

In [7]:
from sklearn.datasets import load_iris

iris = load_iris()
print(type(iris))

<class 'sklearn.utils.Bunch'>


- 사이킷런에 내장된 분류나 회귀를 위한 연습용 예제 데이터 세트는 일반적으로 딕셔너리 형태로 돼 있다.
- Bunch 클래스는 파이썬 딕셔너리 자료형과 유사하다.

In [8]:
#load_iris() 데이터 세트의 key 값 확인
keys = iris.keys()
print('붓꽃 데이터 세트의 키들:', keys)

붓꽃 데이터 세트의 키들: dict_keys(['data', 'target', 'target_names', 'DESCR', 'feature_names', 'filename'])


- 키는 data, target, target_name, feature_names, DESCR로 구성돼 있다.
- data는 피처 데이터 세트를 가리킨다.
- target은 분류 시 레이블 값, 회귀일 때는 숫자 결과 값 데이터 세트이다.
- target_names는 개별 레이블의 이름을 나타낸다.
- feature_names는 피처의 이름을 나타낸다.
- DESCR은 데이터 세트에 대한 설명과 각 피처의 설명을 나타낸다.

In [9]:
# 각 키가 가리키는 값 출력
print('\n feature_name 의 type:', type(iris.feature_names))
print(' feature_name 의 shape:', len(iris.feature_names))
print(iris.feature_names)
#print(iris['feature_names'])

print('\n target_names 의 type:', type(iris.target_names))
print(' target_names 의 shape:', len(iris.target_names))
print(iris.target_names)
#print(iris['target_names'])

print('\n data 의 type:', type(iris.data))
print(' data 의 shape:', iris.data.shape)
print(iris.data)
#print(iris['data'])

print('\n target 의 type:', type(iris.target))
print(' target 의 shape:', iris.target.shape)
print(iris.target)
#print(iris['target'])


 feature_name 의 type: <class 'list'>
 feature_name 의 shape: 4
['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']

 target_names 의 type: <class 'numpy.ndarray'>
 target_names 의 shape: 3
['setosa' 'versicolor' 'virginica']

 data 의 type: <class 'numpy.ndarray'>
 data 의 shape: (150, 4)
[[5.1 3.5 1.4 0.2]
 [4.9 3.  1.4 0.2]
 [4.7 3.2 1.3 0.2]
 [4.6 3.1 1.5 0.2]
 [5.  3.6 1.4 0.2]
 [5.4 3.9 1.7 0.4]
 [4.6 3.4 1.4 0.3]
 [5.  3.4 1.5 0.2]
 [4.4 2.9 1.4 0.2]
 [4.9 3.1 1.5 0.1]
 [5.4 3.7 1.5 0.2]
 [4.8 3.4 1.6 0.2]
 [4.8 3.  1.4 0.1]
 [4.3 3.  1.1 0.1]
 [5.8 4.  1.2 0.2]
 [5.7 4.4 1.5 0.4]
 [5.4 3.9 1.3 0.4]
 [5.1 3.5 1.4 0.3]
 [5.7 3.8 1.7 0.3]
 [5.1 3.8 1.5 0.3]
 [5.4 3.4 1.7 0.2]
 [5.1 3.7 1.5 0.4]
 [4.6 3.6 1.  0.2]
 [5.1 3.3 1.7 0.5]
 [4.8 3.4 1.9 0.2]
 [5.  3.  1.6 0.2]
 [5.  3.4 1.6 0.4]
 [5.2 3.5 1.5 0.2]
 [5.2 3.4 1.4 0.2]
 [4.7 3.2 1.6 0.2]
 [4.8 3.1 1.6 0.2]
 [5.4 3.4 1.5 0.4]
 [5.2 4.1 1.5 0.1]
 [5.5 4.2 1.4 0.2]
 [4.9 3.1 1.5 0.2]
 [5.  3.2 1.2 0.2]

- feature_names, target_names는 넘파이 ndarray 또는 파이썬 리스트 타입이다.
- data, target은 넘파이 ndarray 타입이다.
- DESCR은 스트링 타입이다.
- 데이터 세트가 딕셔너리 형태이기 때문에 피처 데이터 값을 추출하기 위해서는 데이터 세트.data 또는 데이터 세트['data']를 이용한다.

## Model Selection 모듈 소개
- 사이킷런의 model_selection 모듈은 학습 데이터와 테스트 데이터 세트를 분리하거나 교차 검증 분할 및 평가, 그리고 Estimator의 하이퍼 파라미터를 튜닝하기 위한 다양한 함수와 클래스를 제공한다.

### 학습/테스트 데이터 세트 분리 - train_test_split()
- train_test_split()은 첫 번째 파라미터로 피처 데이터 세트, 두 번재 파라미터로 레이블 데이터 세트를 입력받는다.
- test_size : 전체 데이터에서 테스트 데이터 세트 크기를 얼마로 샘플링할 것인가를 결정한다. 디폴트는 0.25, 즉 25%이다.
- train_size : 전체 데이터에서 학습용 데이터 세트 크기를 얼마로 샘플링할 것인가를 결정한다.
- shuffle : 데이터를 분리하기 전에 데이터를 미리 섞을지를 결정한다. 디폴트는 True이다. 데이터를 분산시켜 좀 더 효율적인 학습 및 테스트 데이터 세트를 만든다.
- random_state : 호출할 때마다 동일한 학습/테스트용 데이터 세트를 생성하기 위해 주어지는 난수 값이다.
- train_test_split()의 반환 값은 튜플 형태이다. 순서대로 학습용 데이터의 피처 데이터 세트, 테스트용 데이터의 피처 데이터 세트, 학습용 데이터의 레이블 데이터 세트, 테스트용 데이터의 레이블 데이터 세트가 반환된다.

In [10]:
#학습 데이터 세트로만 학습하고 예측
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score

iris = load_iris()
dt_clf = DecisionTreeClassifier()
dt_clf.fit(iris.data, iris.target)

#학습 데이터 세트로 예측 수행
pred = dt_clf.predict(iris.data)
print('예측 정확도:', accuracy_score(iris.target, pred))

예측 정확도: 1.0


- 예측을 수행하는 데이터 세트는 학습을 수행한 학습용 데이터 세트가 아닌 전용의 테스트 데이터 세트여야 한다.

In [11]:
#train_test_split()을 이용해 붓꽃 데이터 세트를 학습 및 테스트 데이터 세트로 분리
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

iris = load_iris()
dt_clf = DecisionTreeClassifier()

X_train, X_test, y_train, y_test = train_test_split(iris.data, iris.target,
                                                   test_size=0.3, random_state=121)
dt_clf.fit(X_train, y_train)
pred = dt_clf.predict(X_test)
print('예측 정확도: {0:.4f}'.format(accuracy_score(y_test, pred)))

예측 정확도: 0.9556


### 교차 검증(cross-validation)
- 고정된 학습 데이터와 테스트 데이터로 평가를 하다 보면 테스트 데이터에만 최적의 성능을 발휘할 수 있도록 편향되게 모델을 유도하는 경향이 생긴다.
- 결국은 해당 테스트 데이터에만 과적합되는 학습 모델이 만들어져 다른 테스트 데이터가 들어올 경우에는 성능이 저하된다.
- 이런 문제점을 개선하기 위해 교차 검증을 이용한다.
- 과적합(Overfitting) : 모델이 학습 데이터에만 과도하게 최적화되어, 실제 예측을 다른 데이터로 수행할 경우에는 예측 성능이 과도하게 떨어지는 것을 말한다.
- 교차 검증 : 별도의 여러 세트로 구성된 학습 데이터 세트와 검증 데이터 세트에서 학습과 평가를 수행하는 것이다. 각 세트에서 수행한 평가 결과에 따라 하이퍼 파라미터 유닝 등의 모델 최적화를 더욱 손쉽게 할 수 있다.
- 대부분의 ML 모델의 성능 평가는 교차 검증 기반으로 1차 평가를 한 뒤에 최종적으로 테스트 데이터 세트에 적용해 평가하는 프로세스이다.
  - ML에 사용되는 데이터를 세분화해서 학습, 검증, 데스트 데이터 세트로 나눈다.
  - 테스트 데이터 세트 외에 별도의 검증 데이터 세트를 둬서 최종 평가가 이전에 학습된 모델을 다양하게 평가하는 데 사용한다.

#### K 폴드 교차 검증
- 가장 보편적으로 사용되는 교차 검증 기법으로 K개의 데이터 폴드 세트를 만들어서 K번만큼 각 폴드 세트에 학습과 검증 평가를 반복적으로 수행한다.
  1. 데이터 세트를 K등분한다.
  2. 첫 번째 반복에서는 처음부터 K-1등분을 학습 데이터, 마지막 K번째 등분 하나를 검증 데이터 세트로 설정한다.
  3. 학습 데이터 세트에서 학습 수행, 검증 데이터 세트에서 평가를 수행한다.
  4. 두 번째 반복에서 처음부터 K-2등분까지, 그리고 마지막 K번째 등분을 학습 데이터 세트로, K-1번째 등분 하나를 검증 데이터 세트로 설정한다.
  5. 학습 데이터 세트에서 학습 수행, 검증 데이터 세트에서 평가를 수행한다.
  6. 이렇게 학습 데이터 세트와 검증 데이터 세트를 점진적으로 변경하면서 마지막 K번째까지 학습과 검증을 수행한다.

In [12]:
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import KFold

iris = load_iris()
features = iris.data
label = iris.target
dt_clf = DecisionTreeClassifier(random_state=156)

#5개의 폴드 세트로 분리하는 KFold 객체 생성
kfold = KFold(n_splits=5)
#폴드 세트별 정확도를 담을 리스트 객체 생성
cv_accuracy = []

print('붓꽃 데이터 세트 크기:', features.shape[0])

붓꽃 데이터 세트 크기: 150


In [13]:
import numpy as np
n_iter = 0

#KFold 객체의 split()을 호출하면 폴드 별 학습용, 검증용 테스트의 로우 인덱스를 array로 반환
for train_index, test_index in kfold.split(features):
    #kfold.split()로 반환된 인덱스를 이용해 학습용, 검증용 테스트 데이터 추출
    X_train, X_test = features[train_index], features[test_index]
    y_train, y_test = label[train_index], label[test_index]
    #학습 및 예측
    dt_clf.fit(X_train, y_train)
    pred = dt_clf.predict(X_test)
    n_iter += 1
    #반복 시마다 정확도 측정
    accuracy = np.round(accuracy_score(y_test, pred), 4) #반올림
    train_size = X_train.shape[0]
    test_size = X_test.shape[0]
    print('\n#{0} 교차 검증 정확도:{1}, 학습 데이터 크기:{2}, 검증 데이터 크기:{3}'
          .format(n_iter, accuracy, train_size, test_size))
    print('\n#{0} 검증 세트 인덱스:{1}'.format(n_iter, test_index))
    cv_accuracy.append(accuracy)
    
#개별 iteration별 정확도를 합하여 평균 정확도 계산
print('\n## 평균 검증 정확도:', np.mean(cv_accuracy))


#1 교차 검증 정확도:1.0, 학습 데이터 크기:120, 검증 데이터 크기:30

#1 검증 세트 인덱스:[ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
 24 25 26 27 28 29]

#2 교차 검증 정확도:0.9667, 학습 데이터 크기:120, 검증 데이터 크기:30

#2 검증 세트 인덱스:[30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53
 54 55 56 57 58 59]

#3 교차 검증 정확도:0.8667, 학습 데이터 크기:120, 검증 데이터 크기:30

#3 검증 세트 인덱스:[60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83
 84 85 86 87 88 89]

#4 교차 검증 정확도:0.9333, 학습 데이터 크기:120, 검증 데이터 크기:30

#4 검증 세트 인덱스:[ 90  91  92  93  94  95  96  97  98  99 100 101 102 103 104 105 106 107
 108 109 110 111 112 113 114 115 116 117 118 119]

#5 교차 검증 정확도:0.7333, 학습 데이터 크기:120, 검증 데이터 크기:30

#5 검증 세트 인덱스:[120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137
 138 139 140 141 142 143 144 145 146 147 148 149]

## 평균 검증 정확도: 0.9


#### Stratified K 폴드
- 불균형한(imbalanced) 분포도를 가진 레이블 데이터 집합을 위한 K 폴드 방식이다.
- 불균형한 분포도를 가진 레이블 데이터 집합은 특정 레이블 값이 특이하게 많거나 매우 적어서 값의 분포가 한쪽으로 치우치는 것을 말한다.
- 원본 데이터의 레이블 분포를 먼저 고려한 뒤 이 분포와 동일하게 학습과 검증 데이터 세트를 분배한다.

In [14]:
#붓꽃 데이터 세트 레이블 값의 분포도 확인
import pandas as pd

iris = load_iris()
iris_df = pd.DataFrame(data=iris.data, columns=iris.feature_names)
iris_df['label'] = iris.target
iris_df['label'].value_counts()

2    50
1    50
0    50
Name: label, dtype: int64

In [15]:
#KFold
kfold = KFold(n_splits=3)
n_iter = 0
for train_index, test_index in kfold.split(iris_df):
    n_iter += 1
    label_train = iris_df['label'].iloc[train_index]
    label_test = iris_df['label'].iloc[test_index]
    print('##교차 검증: {0}'.format(n_iter))
    print('학습 레이블 데이터 분포:\n', label_train.value_counts())
    print('검증 레이블 데이터 분포:\n', label_test.value_counts())

##교차 검증: 1
학습 레이블 데이터 분포:
 2    50
1    50
Name: label, dtype: int64
검증 레이블 데이터 분포:
 0    50
Name: label, dtype: int64
##교차 검증: 2
학습 레이블 데이터 분포:
 2    50
0    50
Name: label, dtype: int64
검증 레이블 데이터 분포:
 1    50
Name: label, dtype: int64
##교차 검증: 3
학습 레이블 데이터 분포:
 1    50
0    50
Name: label, dtype: int64
검증 레이블 데이터 분포:
 2    50
Name: label, dtype: int64


In [16]:
#StraitifiedKFold
from sklearn.model_selection import StratifiedKFold

skf = StratifiedKFold(n_splits=3)
n_iter = 0

for train_index, test_index in skf.split(iris_df, iris_df['label']):
    n_iter += 1
    label_train = iris_df['label'].iloc[train_index]
    label_test = iris_df['label'].iloc[test_index]
    print('##교차 검증: {0}'.format(n_iter))
    print('학습 레이블 데이터 분포:\n', label_train.value_counts())
    print('검증 레이블 데이터 분포:\n', label_test.value_counts())

##교차 검증: 1
학습 레이블 데이터 분포:
 2    33
1    33
0    33
Name: label, dtype: int64
검증 레이블 데이터 분포:
 2    17
1    17
0    17
Name: label, dtype: int64
##교차 검증: 2
학습 레이블 데이터 분포:
 2    33
1    33
0    33
Name: label, dtype: int64
검증 레이블 데이터 분포:
 2    17
1    17
0    17
Name: label, dtype: int64
##교차 검증: 3
학습 레이블 데이터 분포:
 2    34
1    34
0    34
Name: label, dtype: int64
검증 레이블 데이터 분포:
 2    16
1    16
0    16
Name: label, dtype: int64


- StraitifiedKFold는 레이블 데이터 분포도에 따라 학습/검증 데이터를 나누기 때문에 split() 메서드에 인자로 레이블 데이터 세트도 반드시 필요하다.

In [17]:
#StratifiedKFold를 이용해 붓꽃 데이터 교차 검증
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import StratifiedKFold
import numpy as np

iris = load_iris()
features = iris.data
label = iris.target
df_clf = DecisionTreeClassifier(random_state=156)
skfold = StratifiedKFold(n_splits=3)
n_iter = 0
cv_accuracy = []

for train_index, test_index in skfold.split(features, label):
    X_train, X_test = features[train_index], features[test_index]
    y_train, y_test = label[train_index], label[test_index]
    dt_clf.fit(X_train, y_train)
    pred = dt_clf.predict(X_test)
    n_iter += 1
    accuracy = np.round(accuracy_score(y_test, pred), 4)
    train_size = X_train.shape[0]
    test_size = X_test.shape[0]
    print('\n#{0} 교차 검증 정확도:{1}, 학습 데이터 크기:{2}, 검증 데이터 크기:{3}'
          .format(n_iter, accuracy, train_size, test_size))
    print('\n#{0} 검증 세트 인덱스:{1}'.format(n_iter, test_index))
    cv_accuracy.append(accuracy)
    
print('\n## 교차 검증별 정확도:', np.round(cv_accuracy, 4))
print('## 평균 검증 정확도:', np.mean(cv_accuracy))


#1 교차 검증 정확도:0.9804, 학습 데이터 크기:99, 검증 데이터 크기:51

#1 검증 세트 인덱스:[  0   1   2   3   4   5   6   7   8   9  10  11  12  13  14  15  16  50
  51  52  53  54  55  56  57  58  59  60  61  62  63  64  65  66 100 101
 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116]

#2 교차 검증 정확도:0.9216, 학습 데이터 크기:99, 검증 데이터 크기:51

#2 검증 세트 인덱스:[ 17  18  19  20  21  22  23  24  25  26  27  28  29  30  31  32  33  67
  68  69  70  71  72  73  74  75  76  77  78  79  80  81  82  83 117 118
 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133]

#3 교차 검증 정확도:0.9792, 학습 데이터 크기:102, 검증 데이터 크기:48

#3 검증 세트 인덱스:[ 34  35  36  37  38  39  40  41  42  43  44  45  46  47  48  49  84  85
  86  87  88  89  90  91  92  93  94  95  96  97  98  99 134 135 136 137
 138 139 140 141 142 143 144 145 146 147 148 149]

## 교차 검증별 정확도: [0.9804 0.9216 0.9792]
## 평균 검증 정확도: 0.9604


- 일반적으로 분류(Classification)에서의 교차 겁증은 K 폴드가 아니라 Stratified K 폴드로 분할돼야 한다.
- 회귀(Regrssion)에서는 Stratified K 폴드가 지원되지 않는다. 회귀의 결정값은 이산값 형태의 레이블이 아니라 연속된 숫자값이기 때문에 결정값별로 분포를 정하는 의미가 없다.

#### 교차 검증을 보다 간편하게 - cross_val_score()
- 교차 검증을 좀 더 편리하게 수행할 수 있게 해주는 API
    1. 폴드 세트를 설정한다.
    2. for 루프에서 반복으로 학습 및 테스트 데이터의 인덱스를 추출한다.
    3. 반복적으로 학습과 예측을 수행하고 예측 성능을 반환한다.
- cross_val_score() API의 선언 형태
    - cross_val_score(estimator, X, y=None, scoring=None, cv=None, n_jobs=1, verbose=0, fit_params=None, pre_dispatch='2*n_jobs')
    - 주요 파라미터는 estimator, X, y, scoring, cv이다.
    - estimator는 사이킷런의 분류 알고리즘 클래스인 Classifier 또는 회귀 알고리즘 클래스인 Regressor를 의미한다.
    - X는 피처 데이터 세트, y는 레이블 데이터 세트, scoring은 예측 성능 평가 지표를 기술한다.
    - cv는 교차 검증 폴드 수를 의미한다.
    - cross_val_score() 수행 후 반환 값은 scoring 파라미터로 지정된 성능 지표 측정값을 배열 형태로 반환한다.
    - estimator는 classifier가 입력되면 Stratified K 폴드 방식으로 레이블값의 분포에 따라 학습/테스트 세트를 분할한다.

In [18]:
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import cross_val_score, cross_validate
import numpy as np

iris = load_iris()
df_clf = DecisionTreeClassifier(random_state=156)
data = iris.data
label = iris.target

scores = cross_val_score(dt_clf, data, label, scoring='accuracy', cv=3)
print('교차 검증별 정확도:', np.round(scores, 4))
print('평균 검증 정확도:', np.round(np.mean(scores), 4))

교차 검증별 정확도: [0.9804 0.9216 0.9792]
평균 검증 정확도: 0.9604


- cross_val_score()는 평가 결과 값을 배열로 반환한다.
- 일반적으로 이를 평균해 평가 수치로 사용한다.
- 내부에서 Estimatior를 학습(fit), 예측(predict), 평가(evaluation)시켜주므로 간단하게 교차 검증을 수행할 수 있다.
- cross_validate()는 여러 개의 평가 지표를 반환할 수 있다. 또한 학습 데이터에 대한 성능 평가 지표와 수행 시간도 같이 제공한다.

### GridSearchCV - 교차 검증과 최적 하이퍼 파라미터 튜닝을 한 번에
- 하이퍼 파라미터는 머신러닝 알고리즘을 구성하는 주요 구성 요소이며, 이 값을 조정해 알고리즘의 예측 성능을 개선한다.
- 사이킷런은 GridSearchCV API를 이용해 Classifier나 Regressor와 같은 알고리즘에 사용되는 하이퍼 파라미터를 순차적으로 입력하면서 편리하게 최적의 파라미터를 도출하는 방안을 제공한다.

#### GridSearchCV 클래스
- GridSearchCV는 교차 검증을 기반으로 하이퍼 파라미터의 최적 값을 찾게 해준다.
- 데이터 세트를 교차 검증을 위한 학습/테스트 세트로 자동으로 분할한 뒤에 하이퍼 파라미터 그리드에 기술된 모든 파라미터를 순차적으로 적용해 최적의 파라미터를 찾을 수 있게 한다.
- 동시에 순차적으로 파라미터를 테스트하므로 수행시간이 상대적으로 오래 걸린다.
- 생성자로 들어가는 주요 파라미터는 다음과 같다.
  - estimator
  - scoring
  - cv
  - param_grid : key + 리스트 값을 가지는 딕셔너리가 주어진다. estimator의 튜닝을 위해 파라미터명과 사용될 여러 파라미터 값을 지정한다.
  - refit : 디폴트가 True이며 True로 생성 시 가장 최적의 하이퍼 파라미터를 찾은 뒤 입력된 estimator 객체를 해당 하이퍼 파라미터로 재학습시킨다.

In [19]:
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import GridSearchCV
import pandas as pd

iris = load_iris()
dtree = DecisionTreeClassifier()
X_train, X_test, y_train, y_test = train_test_split(iris.data, iris.target,
                                                    test_size=0.2, random_state=121)

#파라미터를 딕셔너리 형태로 설정
parameters = {'max_depth':[1,2,3], 'min_samples_split':[2,3]}
# param_grid의 하이퍼 파라미터를 3개의 train, test set fold로 나누어 테스트 수행 설정
grid_dtree = GridSearchCV(dtree, param_grid=parameters, cv=3, refit=True)
#붓꽃 학습 데이터로 param_grid의 하이퍼 파라미터를 순차적으로 학습/평가
grid_dtree.fit(X_train, y_train)
#GridSearchCV 결과를 추출해 DataFrame으로 변환
scores_df = pd.DataFrame(grid_dtree.cv_results_)
scores_df[['params', 'mean_test_score', 'rank_test_score',
          'split0_test_score', 'split1_test_score', 'split2_test_score']]

Unnamed: 0,params,mean_test_score,rank_test_score,split0_test_score,split1_test_score,split2_test_score
0,"{'max_depth': 1, 'min_samples_split': 2}",0.7,5,0.7,0.7,0.7
1,"{'max_depth': 1, 'min_samples_split': 3}",0.7,5,0.7,0.7,0.7
2,"{'max_depth': 2, 'min_samples_split': 2}",0.958333,3,0.925,1.0,0.95
3,"{'max_depth': 2, 'min_samples_split': 3}",0.958333,3,0.925,1.0,0.95
4,"{'max_depth': 3, 'min_samples_split': 2}",0.975,1,0.975,1.0,0.95
5,"{'max_depth': 3, 'min_samples_split': 3}",0.975,1,0.975,1.0,0.95


- 테스트할 하이퍼 파라미터 세트는 딕셔너리 형태로 하이퍼 파라미터의 명칭은 문자열 key 값으로, 하이퍼 파라미터의 값은 리스트 형으로 설정한다.
- params 칼럼에는 수행할 때마다 적용된 개별 하이퍼 파라미터값을 나타낸다.
- rank_test_score는 하이퍼 파라미터별로 성능이 좋은 score 순위를 나타낸다. 1이 가장 뛰어난 순위이며 최적의 파라미터이다.
- mean_test_score는 개별 하이퍼 파라미터별로 CV의 폴딩 테스트 세트에 대해 총 수행한 평가 평균값이다.

In [20]:
#최적 하이퍼 파라미터의 값과 그때의 정확도
print('GridSearchCV 최적 파라미터:', grid_dtree.best_params_)
print('GridSearchCV 최고 정확도:{0:.4f}'.format(grid_dtree.best_score_))

GridSearchCV 최적 파라미터: {'max_depth': 3, 'min_samples_split': 2}
GridSearchCV 최고 정확도:0.9750


- GridSearchCV 객체의 fit()을 수행하면 최고 성능을 나타낸 하이퍼 파라미터의 값과 그 때의 평가 결과 값이 각각 best_params_, best_score_ 속성에 기록된다.

In [21]:
#GridSearchCV의 refit으로 이미 학습된 estimator 반환
estimator = grid_dtree.best_estimator_
#GridSearchCV의 bes_estimator_는 이미 최적 학습이 됐으므로 별도 학습이 필요 없음
pred = estimator.predict(X_test)
print('테스트 데이터 세트 정확도:{0:.4f}'.format(accuracy_score(y_test, pred)))

테스트 데이터 세트 정확도:0.9667


- refit=True이면 GridSearchCV가 최적 성능을 나타내는 하이퍼 파라미터로 Estimator를 학습해 best_estimator_로 저장한다.
- 이미 학습된 best_estimator_를 이용해 앞에서 train_test_split()으로 분리한 테스트 데이터 세트에 대해 예측하고 성능을 평가한다.
- GridSearchCV의 bes_estimator_는 이미 최적 학습이 됐으므로 별도 학습이 필요 없다.
- 학습 데이터를 GridSearchCV를 이용해 최적 하이퍼 파라미터 튜닝을 수행한 뒤에 별도의 테스트 세트에서 이를 평가하는 것이 일반적인 머신러닝 모델 적용 방법이다.

## 데이터 전처리
- 데이터 클렌징
- 결손값 처리 : NaN, Null 값은 허용되지 않으므로 Null 값을 다른 고정값으로 변환한다.(피처의 평균값 등)
- 데이터 인코딩 : 문자열 값을 입력 값으로 사용하지 않으므로 숫자 형으로 변환한다.
- 데이터 스케일링
- 이상치 제거
- Feature 선택, 추출 및 가공

#### 주요 모듈
- sklearn.preprocessing : 데이처 전처리에 필요한 다양한 기능을 제공한다.(인코딩, 정규화, 스케일링 등)

### 데이터 인코딩
- 카테고리형 피처 : 코드 값으로 표현한다.
- 텍스트형 피처 : 피처 벡터화(feature vectorization)등의 기법으로 벡터화한다.

#### 레이블 인코딩(Label encoding)
- 카테고리 피처를 코드형 숫자 값으로 변환하는 것이다.
- 몇몇 ML 알고리즘에는 예측 성능이 떨어진다. 이는 숫자 값의 크고 작음에 대한 특성이 작용하기 때문이다.
- 숫자 변환 값은 단순 코드이지 숫자 값에 따른 순서나 중요도로 인식돼서는 안 된다.
- 레이블 인코딩은 선형 회귀와 같은 ML 알고리즘에는 적용하지 않는다.
- 트리 계열의 ML 알고리즘은 레이블 인코딩도 문제가 없다.

In [22]:
from sklearn.preprocessing import LabelEncoder

items=['TV','냉장고','전자렌지','컴퓨터','선풍기','선풍기','믹서','믹서']

encoder = LabelEncoder()
encoder.fit(items)
labels = encoder.transform(items)
print('인코딩 변환값:',labels)

인코딩 변환값: [0 1 4 5 3 3 2 2]


- LabelEncoder 클래스로 구현한다.
- LabelEncoder로 객체를 생성하고 fit()과 transform()을 호출해 레이블 인코딩을 수행한다.

In [23]:
print('인코딩 클래스:',encoder.classes_)

인코딩 클래스: ['TV' '냉장고' '믹서' '선풍기' '전자렌지' '컴퓨터']


- 문자 열 값이 어떤 숫자 값으로 인코딩됐는지 알기 위해 LabelEncoder 객체의 classes_ 속성값으로 확인한다.
- classes_ 속성은 0번부터 순서대로 변환된 인코딩 값에 대한 원본 값을 가지고 있다.

In [24]:
print('디코딩 원본 값:',encoder.inverse_transform([4, 5, 2, 0, 1, 1, 3, 3]))

디코딩 원본 값: ['전자렌지' '컴퓨터' '믹서' 'TV' '냉장고' '냉장고' '선풍기' '선풍기']


- inverse_transform()을 통해 인코딩된 값을 다시 디코딩할 수 있다.

#### 원-핫 인코딩(One Hot encoding)
- 피처 값의 유형에 따라 새로운 피처를 추가해 고유 값에 해당하는 칼럼에만 1을 표시하고 나머지 칼럼에는 0을 표시하는 방법이다.
- 행 형태로 돼 있는 피처의 고유 값을 열 형태로 차원을 변환한 뒤, 고유 값에 해당하는 칼럼에만 1을 표시하고 나머지 칼럼에는 0을 표시한다.

In [25]:
from sklearn.preprocessing import OneHotEncoder
import numpy as np

items=['TV','냉장고','전자렌지','컴퓨터','선풍기','선풍기','믹서','믹서']

# 먼저 숫자값으로 변환을 위해 LabelEncoder로 변환합니다. 
encoder = LabelEncoder()
encoder.fit(items)
labels = encoder.transform(items)

# 2차원 데이터로 변환합니다. 
labels = labels.reshape(-1,1)

# 원-핫 인코딩을 적용합니다. 
oh_encoder = OneHotEncoder()
oh_encoder.fit(labels)
oh_labels = oh_encoder.transform(labels)

print('원-핫 인코딩 데이터')
print(oh_labels.toarray())
print('원-핫 인코딩 데이터 차원')
print(oh_labels.shape)

원-핫 인코딩 데이터
[[1. 0. 0. 0. 0. 0.]
 [0. 1. 0. 0. 0. 0.]
 [0. 0. 0. 0. 1. 0.]
 [0. 0. 0. 0. 0. 1.]
 [0. 0. 0. 1. 0. 0.]
 [0. 0. 0. 1. 0. 0.]
 [0. 0. 1. 0. 0. 0.]
 [0. 0. 1. 0. 0. 0.]]
원-핫 인코딩 데이터 차원
(8, 6)


In case you used a LabelEncoder before this OneHotEncoder to convert the categories to integers, then you can now use the OneHotEncoder directly.


- OneHotEncoder 클래스로 구현한다.
- OneHotEncoder로 변환하기 전에 모든 문자열 값을 숫자형 값으로 변환한다.
- 입력 값으로 2차원 데이터가 필요하다.

In [26]:
import pandas as pd

df = pd.DataFrame({'item':['TV','냉장고','전자렌지','컴퓨터','선풍기','선풍기','믹서','믹서']})
pd.get_dummies(df)

Unnamed: 0,item_TV,item_냉장고,item_믹서,item_선풍기,item_전자렌지,item_컴퓨터
0,1,0,0,0,0,0
1,0,1,0,0,0,0
2,0,0,0,0,1,0
3,0,0,0,0,0,1
4,0,0,0,1,0,0
5,0,0,0,1,0,0
6,0,0,1,0,0,0
7,0,0,1,0,0,0


- 판다스의 get_dummies()는 원-핫 인코딩을 더 쉽게 지원한다.
- 문자열 카테고리 값을 숫자 형으로 변환할 필요가 없다.

### 피처 스케일링(feature scaling)과 정규화
- 서로 다른 변수의 값 범위를 일정한 수준으로 맞추는 작업이다.
- 대표적으로 표준화와 정규화가 있다.

#### 표준화
- 표준화(Standardization) : 데이터의 피처 각각이 평균이 0이고 분산이 1인 가우시안 정규 분포를 가진 값으로 변환하는 것을 의미한다.
- 표준화를 통해 변환될 피처 x의 새로운 i번째 데이터 값은 원래 값에서 피처 x의 평균을 뺀 값을 피처 x의 표준편차로 나눈 값으로 계산한다.

#### 정규화
- 정규화(Normalization) : 서로 다른 피처의 크기를 통일하기 위해 크기를 변환한다. 즉, 개별 데이터의 크기를 모두 똑같은 단위로 변경하는 것이다.
- 정규화를 통해 변환될 피처 x의 새로운 i번째 데이터 값은 원래 값에서 피처 x의 최솟값을 뺀 값을 피처 x의 최댓값과 최솟값의 차이로 나눈 값으로 계산한다.

#### 벡터 정규화
- 사이킷런의 Normalizer 모듈은 선형대수에서의 정규화 개념이 적용된다. 개별 벡터의 크기를 맞추기 위해 변환하는 것을 의미한다.
- 개별 벡터를 모든 피처 벡터의 크기로 나눈다.
- 세 개의 피처 x,y,z가 있다면 피처 x의 새로운 i번째 데이터 값은 원래 값에서 세 개의 피처의 i번째 피처 값에 해당하는 크기를 합한 값으로 나눈 값으로 계산한다.

### StandardScaler
- 표준화를 쉽게 지원하기 위한 클래스이다.
- 개별 피처를 평균이 0이고 분산이 1인 값으로 변환한다.

In [27]:
from sklearn.datasets import load_iris
import pandas as pd
# 붓꽃 데이터 셋을 로딩하고 DataFrame으로 변환합니다. 
iris = load_iris()
iris_data = iris.data
iris_df = pd.DataFrame(data=iris_data, columns=iris.feature_names)

print('feature 들의 평균 값')
print(iris_df.mean())
print('\nfeature 들의 분산 값')
print(iris_df.var())

feature 들의 평균 값
sepal length (cm)    5.843333
sepal width (cm)     3.057333
petal length (cm)    3.758000
petal width (cm)     1.199333
dtype: float64

feature 들의 분산 값
sepal length (cm)    0.685694
sepal width (cm)     0.189979
petal length (cm)    3.116278
petal width (cm)     0.581006
dtype: float64


In [28]:
from sklearn.preprocessing import StandardScaler

# StandardScaler객체 생성
scaler = StandardScaler()
# StandardScaler 로 데이터 셋 변환. fit( ) 과 transform( ) 호출.  
scaler.fit(iris_df)
iris_scaled = scaler.transform(iris_df)

#transform( )시 scale 변환된 데이터 셋이 numpy ndarry로 반환되어 이를 DataFrame으로 변환
iris_df_scaled = pd.DataFrame(data=iris_scaled, columns=iris.feature_names)
print('feature 들의 평균 값')
print(iris_df_scaled.mean())
print('\nfeature 들의 분산 값')
print(iris_df_scaled.var())

feature 들의 평균 값
sepal length (cm)   -1.690315e-15
sepal width (cm)    -1.842970e-15
petal length (cm)   -1.698641e-15
petal width (cm)    -1.409243e-15
dtype: float64

feature 들의 분산 값
sepal length (cm)    1.006711
sepal width (cm)     1.006711
petal length (cm)    1.006711
petal width (cm)     1.006711
dtype: float64


- 모든 칼럼 값의 평균이 0에 아주 가까운 값으로, 분산은 1에 아주 가까운 값으로 변환됐다.

### MinMaxScaler
- 데이터값을 0과 1사이의 범위 값으로 변환한다.(음수 값이 있으면 -1에서 1값으로 변환한다.)
- 데이터의 분포가 가우시안 분포가 아닐 경우에 Min, Max Scale을 적용한다.

In [29]:
from sklearn.preprocessing import MinMaxScaler

# MinMaxScaler객체 생성
scaler = MinMaxScaler()
# MinMaxScaler 로 데이터 셋 변환. fit() 과 transform() 호출.  
scaler.fit(iris_df)
iris_scaled = scaler.transform(iris_df)

# transform()시 scale 변환된 데이터 셋이 numpy ndarry로 반환되어 이를 DataFrame으로 변환
iris_df_scaled = pd.DataFrame(data=iris_scaled, columns=iris.feature_names)
print('feature들의 최소 값')
print(iris_df_scaled.min())
print('\nfeature들의 최대 값')
print(iris_df_scaled.max())

feature들의 최소 값
sepal length (cm)    0.0
sepal width (cm)     0.0
petal length (cm)    0.0
petal width (cm)     0.0
dtype: float64

feature들의 최대 값
sepal length (cm)    1.0
sepal width (cm)     1.0
petal length (cm)    1.0
petal width (cm)     1.0
dtype: float64


- 모든 피처에서 0에서 1 사이의 값으로 변환되는 스케일링이 적용됐다.