## **01. 사이킷런 소개와 특징**

**사이킷런(scikit-learn)**: 파이썬 머신러닝 라이브러리 중 가장 많이 사용되는 라이브러리
* 머신러닝을 위한 매우 다양한 알고리즘과 개발을 위한 편리한 프레임워크와 API를 제공한다.
* 오랜 기간 실전 환경에서 검증됐으며, 매우 환경에서 사용되는 성숙한 라이브러리이다.


In [1]:
import sklearn
print(sklearn.__version__)

1.0.2


## **02. 첫 번째 머신러닝 만들어 보기 - 붓꽃 품종 예측하기**

    첫 번째로 만들어볼 머신러닝 모델:
    붓꽃 데이터 세트로 붓꽃의 품종을 분류(Classification)하는 것

* 붓꽃 데이터 세트: 꽃잎의 길이와 너비, 꽃받침의 길이와 너비 피처(Feature)를 기반으로 꽃의 품종을 예측하기 위한 것
* **분류(Classification)** - 대표적인 지도학습(Supervised Learning) 방법의 하나
    * **지도학습**: **명확한 정답이 주어진 데이터를 먼저 학습**한 뒤 **미지의 정답을 예측**하는 방식이다.
        * 학습을 위한 다양한 피처와 분류 결정값인 레이블(Label) 데이터로 모델을 학습한 뒤, 별도의 테스트 데이터 세트에서 미지의 레이블을 예측한다.
        * 이 때 학습을 위해 주어진 데이터 세트를 **학습 데이터 세트**, 머신러닝 모델의 예측 성능을 평가하기 위해 별도로 주어진 데이터 세트를 **테스트 데이터 세트**로 지칭한다.


1. 데이터 세트 분리: 데이터를 학습 데이터와 테스트 데이터로 분리한다.
2. 모델 학습: 학습 데이터를 기반으로 ML 알고리즘을 적용해 모델을 학습시킨다.
3. 예측 수행: 학습된 ML 모델을 이용해 테스트 데이터의 분류(즉, 붓꽃 종류)를 예측한다.
4. 평가: 이렇게 예측된 결괏값과 테스트 데이터의 실제 결괏값을 비교해 ML 모델 성능을 평가한다.

[ 데이터 세트 분리 ]

*사이킷런에서 사용할 모듈을 임포트한다.*

* sklearn.datasets: 사이킷런에서 자체적으로 제공하는 데이터 세트를 생성하는 모듈의 모임
* sklearn.tree: 트리 기반 ML 알고리즘을 구현한 클래스의 모임
* sklearn.model_selection: 학습 데이터와 검증 데이터, 예측 데이터로 데이터를 분리하거나 최적의 하이퍼 파라미터로 평가하기 위한 다양한 모듈의 모임
    * 하이퍼 파라미터: 머신러닝 알고리즘별로 통칭하며, 하이퍼 파라미터를 통해 머신러닝 알고리즘의 성능을 튜닝할 수 있다.
* `load_iris()`: 붓꽃 데이터를 생성하는 데 이용
* `DecisionTreeClassifier`: 의사 결정 트리(Decision Tree) 알고리즘인 ML 알고리즘을 구현
* `train_test_split()`: 데이터 세트를 학습 데이터와 테스트 데이터로 분리하는 데 사용

In [2]:
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split

*피처들과 데이터 값이 어떻게 구성돼 있는지 확인 위해 DataFrame으로 변환한다.*

In [3]:
import pandas as pd

# 붓꽃 데이터 세트를 로딩
iris = load_iris()

# iris.data는 Iris 데이터 세트에서 피처(feature)만으로 된 데이터를 numpy로 가지고 있다.
iris_data = iris.data

# iris.target은 붓꽃 데이터 세트에서 레이블(결정 값) 데이터를 numpy로 가지고 있다.
iris_label = iris.target
print('iris target값:', iris_label)
print('iris target명:', iris.target_names)

iris target값: [0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2
 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
 2 2]
iris target명: ['setosa' 'versicolor' 'virginica']


In [4]:
# 붓꽃 데이터 세트를 자세히 보기 위해 DataFrame으로 변환
iris_df = pd.DataFrame(data=iris_data, columns=iris.feature_names)
iris_df['label'] = iris.target
iris_df.head(3)

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),label
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0


* Feature - sepal length, sepal width, petal length, petal width
* Label(결정값) - 0(Setosa 품종), 1(versicolor 품종), 2(virginica 품종)

***학습용 데이터와 테스트용 데이터를 분리한다.***

* 학습 데이터로 학습된 모델이 **얼마나 뛰어난 성능을 가지는지 평가**하려면 테스트 데이터 세트가 필요하기 때문에 **반드시 분리**해야 한다.
* 사이킷런은 **`train_test_split()`** API를 제공한다.
    * 학습 데이터와 테스트 데이터를 **`test_size`** 파라미터 입력 값의 비율로 쉽게 분할  
    * 예시)
        * `iris_data`(첫 번째 파라미터): Feature 데이터 세트
        * `iris_label`(두 번째 파라미터): Label 데이터 세트
        * **`test_size=0.2`**: 전체 데이터 세트 중 테스트 데이터 세트의 비율 -> 테스트 데이터 20%, 학습 데이터 80%로 데이터로 분할
        * **`random_state`**: 호출할 때마다 같은 학습/테스트 용 데이터 세트를 생성하기 위해 주어지는 난수 발생 값 (random값을 만드는 seed와 같은 의미, 숫자 자체는 어떤 값을 지정해도 상관X)
        * 학습용 Feature 데이터 세트를 X_train으로, 테스트용 Feature 데이터 세트를 X_test로,  
        학습용 Label 데이터 세트를 y_train으로, 테스트용 Label 데이터 세트를 y_test로 반환


In [5]:
X_train, X_test, y_train, y_test = train_test_split(iris_data, iris_label,
                                                    test_size=0.2, random_state=11)

[ 모델 학습 ]

***머신러닝 분류 알고리즘의 하나인 의사 결정 트리를 이용해 학습을 수행한다.***

* 사이킷런의 의사 결정 트리 클래스인 **`DecisionTreeClassfier`**를 객체로 생성한다.
* 생성된 `DecisionTreeClassfier` 객체의 **`fit()`** 메서드에 학습용 Feature 데이터 속성과 결정값 데이터 세트를 입력해 호출하면 학습을 수행한다.

In [6]:
# DecisionTreeClassfier 객체 생성
dt_clf = DecisionTreeClassifier(random_state=11)

In [7]:
# 학습 수행
dt_clf.fit(X_train, y_train)

DecisionTreeClassifier(random_state=11)

[ 예측 수행 ]

***머신러닝 분류 알고리즘의 하나인 의사 결정 트리를 이용해 예측을 수행한다.***
* 학습된 `DecisionTreeClassfier` 객체를 이용해 예측을 수행한다.
* 예측은 반드시 학습 데이터가 아닌 다른 데이터를 이용해야 하며, 일반적으로 **테스트 데이터 세트를 이용**한다.
* `DecisionTreeClassfier` 객체의 **`predict()`** 메서드에 테스트용 Feature 데이터 세트를 입력해 호출하면 학습된 모델 기반에서 테스트 데이터 세트에 대한 예측값을 반환하게 된다.

In [8]:
# 학습이 완료된 DecisionTreeClassfier 객체에서 테스트 데이터 세트로 예측 수행
pred = dt_clf.predict(X_test)

[ 평가 ]

***예측 결과를 기반으로 예측 성능을 평가한다.***

* 의사 결정 트리 기반의 `DecisionTreeClassfier`의 예측 성능을 평가한다.
* 머신러닝 모델의 성능 평가 방법은 여러 가지가 있으나, 여기서는 정확도를 측정한다.
    * **정확도**: 예측 결과가 실제 레이블 값과 얼마나 정확하게 맞는지를 평가하는 지표
* 사이킷런은 정확도 측정을 위해 **`accuracy_score()`** 함수를 제공한다.
    * 첫 번째 파라미터: 실제 레이블 데이터 세트
    * 두 번째 파라미터: 예측 레이블 데이터 세트

In [9]:
from sklearn.metrics import accuracy_score
print('예측 정확도: {0:.4f}'.format(accuracy_score(y_test, pred)))

예측 정확도: 0.9333


## **03. 사이킷런의 기반 프레임워크 익히기**

> ### Estimator 이해 및 `fit()`, `predict()` 메서드
> ---

* 모든 사이킷런 클래스는 **`fit()`**과 **`predict()`** 만을 이용해 간단하게 학습과 예측 결과를 반환한다.
* 사이킷런에서는 분류 알고리즘을 구현한 클래스를 `Classifier`로, 그리고 회귀 알고리즘을 구현한 클래스를 `Regressor`로 지칭한다. 이들을 합쳐서 `Estimator` 클래스라고 부른다.
    * 분류 구현 클래스
        * DecisionTreeClassifier
        * RandomForestClassifier
        * GradientBoostingClassifier
        * GaussianNB
        * SVC
    * 회귀 구현 클래스
        * LinearRegression
        * Ridge
        * Lasso
        * RandomForestRegressor
        * GradientBoostingRegressor

* `cross_val_score()`와 같은 evaluation 함수, `GridSearchCV`와 같은 하이퍼 파라미터 튜닝을 지원하는 클래스의 경우 `Estimator`를 인자로 받는다.
* 사이킷런에서 비지도학습인 차원 축소, 클러스터링, 피처 추출(Feature Extraction) 등을 구현한 클래스 역시 대부분 `fit()`과 `transform()`을 적용한다.
    * **`fit()`**: 입력 데이터의 형태에 맞춰 데이터를 변환하기 위한 사전 구조를 맞추는 작업
    * **`transform()`**: 입력 데이터의 차원 변환, 클러스터링, 피처 추출 등의 실제 작업 수행
    * `fit_transform()`: `fit()`과 `transform()`을 하나로 결합

> ### 사이킷런의 주요 모듈
> ---

* 예제 데이터

|모듈명|설명|
|---|---|
|sklearn.datasets|사이킷런에 내장되어 예제로 제공하는 데이터 세트|

* Feature 처리

|모듈명|설명|
|---|---|
|sklearn.preprocessing|데이터 전처리에 필요한 다양한 가공 기능 제공(문자열을 숫자형 코드 값으로 인코딩, 정규화, 스케일링 등)|
|sklearn.feature_selection|알고리즘에 큰 영향을 미치는 Feature를 우선순위대로 셀렉션 작업을 수행하는 다양한 기능 제공|
|sklearn.feature_extraction|텍스트 데이터나 이미지 데이터의 벡터화된 Feature를 추출하는 데 사용됨|

* Feature 처리 & 차원 축소

|모듈명|설명|
|---|---|
|sklearn.decomposition|차원 축소와 관련한 알고리즘을 지원하는 모듈, PCA, NMF, Truncated SVD 등을 통해 차원 축소 기능을 수행할 수 있음|

* 데이터 분리, 검증 & 파라미터 튜닝

|모듈명|설명|
|---|---|
|sklearn.model_selection|교차 검증을 위한 학습용/테스트용 분리, Grid Search로 최적 파라미터 추출 등의 API 제공|

* 평가

|모듈명|설명|
|---|---|
|sklearn.metrics|분류, 회귀, 클러스터링, 페어와이즈에 대한 다양한 성능 측정 방법 제공 (Accuracy, Precision, Recall, ROC-AUC, RMSE 등)|

* ML 알고리즘

|모듈명|설명|
|---|---|
|sklearn.ensemble|앙상블 알고리즘 제공 / 랜덤 포레스트, 에이다 부스트, 그래디언트 부스팅 등을 제공|
|sklearn.linear_model|주로 선형 회귀, Ridge, Lasso 및 로지스틱 회귀 등 회귀 관련 알고리즘을 지원, SGD 관련 알고리즘도 제공|
|sklearn.naive_bayes|나이브 베이즈 알고리즘 제공 (가우시안 NB, 다항 분포 NB 등)|
|sklearn.neighbors|최근접 이웃 알고리즘 제공 (K-NN 등)|
|sklearn.svm|서포트 벡터 머신 알고리즘 제공|
|sklearn.tree|의사 결정 트리 알고리즘 제공
|sklearn.cluster|비지도 클러스터링 알고리즘 제공 (K-평균, 계층형, DBSCAN 등)

* 유틸리티

|모듈명|설명|
|---|---|
|sklearn.pipeline|Feature 처리 등의 변환과 ML 알고리즘 학습, 예측 등을 함께 묶어서 실행할 수 있는 유틸리티 제공|

일반적으로 머신러닝 모델을 구축하는 주요 프로세스는 Feature의 가공, 변경, 추출을 수행하는 Feature 처리, ML 알고리즘 학습/예측 수행, 그리고 모델 평가의 단계를 반복적으로 수행하는 것이다.

> ### 내장된 예제 데이터 세트
> ---

* 분류나 회귀 연습용 예제 데이터

|API명|설명|
|---|---|
|`datasets.load_boston()`|회귀 용도 - 미국 보스턴의 집 Feature들과 가격에 대한 데이터 세트|
|`datasets.load_breast_cance()`|분류 용도 - 위스콘신 Feature들과 악성/음성 Label 데이터 세트|
|`datasets.load_diabetes()`|회귀 용도 - 당뇨 데이터 세트|
|`datasets.load_digits()`|분류 용도 - 0에서 9까지 숫자의 이미지 픽셀 데이터 세트|
|`datasets.load_iris()`|분류 용도 - 붓꽃에 대한 Feature를 가진 데이터 세트|

* fetch 계열의 명령 - 데이터의 크기가 커서 패키지에 처음부터 저장돼 있지 않고 인터넷에서 내려받아 홈 디렉토리 아래의 sckit_learn_data라는 서브 디렉터리에 저장한 후 추후 불러들이는 데이터, 최초 사용 시에 인터넷에 연결돼 있지 않으면 사용 불가
    * `fetch_covtype()`: 회귀 분석용 토지 조사 자료
    * `fetch_20newsgroups()`: 뉴스 그룹 텍스트 자료
    * `fetch_olivetti_faces()`: 얼굴 이미지 자료
    * `fetch_lfw_people()`: 얼굴 이미지 자료
    * `fetch_lfw_pairs()`: 얼굴 이미지 자료
    * `fetch_rcv1()`: 로이터 뉴스 말뭉치
    * `fetch_mldata()`: ML 웹사이트에서 다운로드

* 분류와 클러스터링을 위한 표본 데이터 생성기

|API명|설명|
|---|---|
|datasets.make_classifications()|분류를 위한 데이터 세트, 특히 높은 상관도, 불필요한 속성 등의 노이즈 효과를 위한 데이터를 무작위로 생성해 줌|
|datasets.make_blobs()|클러스터링을 위한 데이터 세트를 무작위로 생성해 줌, 군집 지정 개수에 따라 여러 가지 클러스터링을 위한 데이터 세트 쉽게 만들어 줌|

* 분류와 회귀를 위한 연습용 예제 데이터
    * 일반적으로 딕셔너리 형태로 구성
    * 키는 보통 data, target, target_name, feature_names, DESCR로 구성
        * data: Feature의 데이터 세트 - 넘파이 배열(ndarray) 타입
        * target: 분류 시 Label 값, 회귀일 때는 숫자 결괏값 데이터 세트 - 넘파이 배열(ndarray) 타입
        * target_names: 개별 Label의 이름 - 넘파이 배열 또는 파이썬 리스트 타입
        * feature_names: Feature의 이름 - 넘파이 배열 또는 파이썬 리스트 타입
        * DESCR: 데이터 세트에 대한 설명과 각 Feature의 설명 - string 타입

In [10]:
# 붓꽃 데이터 세트 생성
from sklearn.datasets import load_iris

iris_data = load_iris()
print(type(iris_data))

<class 'sklearn.utils.Bunch'>


In [11]:
# 데이터 세트의 key 값 확인
keys = iris_data.keys()
print('붓꽃 데이터 세트의 키들:', keys)

붓꽃 데이터 세트의 키들: dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names', 'filename', 'data_module'])


In [12]:
# 객체의 키가 가리키는 값 출력 - feature_names
print('feature_names의 type:', type(iris_data.feature_names))
print('feature_names의 shape:', len(iris_data.feature_names))
print(iris_data.feature_names)

feature_names의 type: <class 'list'>
feature_names의 shape: 4
['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']


In [13]:
# 객체의 키가 가리키는 값 출력 - target_names
print('target_names의 type:', type(iris_data.target_names))
print('target_names의 shape:', len(iris_data.target_names))
print(iris_data.target_names)

target_names의 type: <class 'numpy.ndarray'>
target_names의 shape: 3
['setosa' 'versicolor' 'virginica']


In [14]:
# 객체의 키가 가리키는 값 출력 - data
print('data의 type:', type(iris_data.data))
print('data의 shape:', iris_data.data.shape)
print(iris_data['data'])

data의 type: <class 'numpy.ndarray'>
data의 shape: (150, 4)
[[5.1 3.5 1.4 0.2]
 [4.9 3.  1.4 0.2]
 [4.7 3.2 1.3 0.2]
 [4.6 3.1 1.5 0.2]
 [5.  3.6 1.4 0.2]
 [5.4 3.9 1.7 0.4]
 [4.6 3.4 1.4 0.3]
 [5.  3.4 1.5 0.2]
 [4.4 2.9 1.4 0.2]
 [4.9 3.1 1.5 0.1]
 [5.4 3.7 1.5 0.2]
 [4.8 3.4 1.6 0.2]
 [4.8 3.  1.4 0.1]
 [4.3 3.  1.1 0.1]
 [5.8 4.  1.2 0.2]
 [5.7 4.4 1.5 0.4]
 [5.4 3.9 1.3 0.4]
 [5.1 3.5 1.4 0.3]
 [5.7 3.8 1.7 0.3]
 [5.1 3.8 1.5 0.3]
 [5.4 3.4 1.7 0.2]
 [5.1 3.7 1.5 0.4]
 [4.6 3.6 1.  0.2]
 [5.1 3.3 1.7 0.5]
 [4.8 3.4 1.9 0.2]
 [5.  3.  1.6 0.2]
 [5.  3.4 1.6 0.4]
 [5.2 3.5 1.5 0.2]
 [5.2 3.4 1.4 0.2]
 [4.7 3.2 1.6 0.2]
 [4.8 3.1 1.6 0.2]
 [5.4 3.4 1.5 0.4]
 [5.2 4.1 1.5 0.1]
 [5.5 4.2 1.4 0.2]
 [4.9 3.1 1.5 0.2]
 [5.  3.2 1.2 0.2]
 [5.5 3.5 1.3 0.2]
 [4.9 3.6 1.4 0.1]
 [4.4 3.  1.3 0.2]
 [5.1 3.4 1.5 0.2]
 [5.  3.5 1.3 0.3]
 [4.5 2.3 1.3 0.3]
 [4.4 3.2 1.3 0.2]
 [5.  3.5 1.6 0.6]
 [5.1 3.8 1.9 0.4]
 [4.8 3.  1.4 0.3]
 [5.1 3.8 1.6 0.2]
 [4.6 3.2 1.4 0.2]
 [5.3 3.7 1.5 0.2]
 [5.  3.3 1

In [15]:
# 객체의 키가 가리키는 값 출력 - target
print('target의 type:', type(iris_data.target))
print('target의 shape:', iris_data.target.shape)
print(iris_data.target)

target의 type: <class 'numpy.ndarray'>
target의 shape: (150,)
[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2
 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
 2 2]


## **04. Model Selection 모듈 소개**

사이킷런의 model_selection 모듈은 학습 데이터와 테스트 데이터를 분리하거나 교차 검증 분할 및 평가, 그리고 Estimator의 하이퍼 파라미터를 튜닝하기 위한 다양한 함수와 클래스를 제공한다.

> ### 학습/테스트 데이터 세트 분리 - **`train_test_split()`**
> ---

* 테스트 데이터 세트를 이용하지 않고 학습 데이터 세트로만 학습하고 예측 시 정확도가 100%라는 문제점이 발생한다.

In [16]:
# 학습과 예측을 동일한 데이터 세트로 수행

from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score

iris = load_iris()
dt_clf = DecisionTreeClassifier()
train_data = iris.data
train_label = iris.target
dt_clf.fit(train_data, train_label)

# 학습 데이터 세트로 에측 수행
pred = dt_clf.predict(train_data)
print('예측 정확도:', accuracy_score(train_label, pred))

예측 정확도: 1.0


* **`train_test_split()`**: 원본 데이터 세트에서 학습 및 테스트 데이터 세트를 쉽게 분리 가능하다.
    * 첫 번째 파라미터: Feature dataset
    * 두 번째 파라미터: Label dataset
    * 선택적 파라미터
        * `test_size`: 전체 데이터에서 테스트 데이터 세트 크기를 얼마로 샘플링할 것인가 결정(디폴트는 0.25 = 25%)
        * `train_size`: 전체 데이터에서 학습용 데이터 세트 크기를 얼마로 샘플링할 것인가 결정 (test_size를 통상적으로 사용하여 이는 잘 사용X)
        * `shuffle`: 데이터를 분리하기 전에 데이터를 미리 섞을지를 결정 (디폴트는 True), 데이터를 분산시켜서 좀 더 효율적인 학습 및 테스트 데이터 세트를 만드는 사용
        * `random_state`: 호출할 때마다 동일한 학습/테스트용 데이터 세트를 생성하기 위해 주어지는 난수 값, 지정하지 않으면 수행할 때마다 다른 학습/테스트용 데이터 생성
    * 반환값은 튜플 형태 - 순차적으로 학습용 데이터의 Feature dataset, 테스트용 데이터의 Feature dataset, 학습용 데이터의 Label dataset, 테스트용 데이터의 Label dataset

In [17]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split

dt_clf = DecisionTreeClassifier()
iris_data = load_iris()

# 테스트 데이터 세트 30%, 학습 데이터 세트 70%로 분리
X_train, X_test, y_train, y_test = train_test_split(iris_data.data, iris_data.target, \
                                                    test_size=0.3, random_state=121)

In [18]:
# 예측 정확도 측정
dt_clf.fit(X_train, y_train)
pred = dt_clf.predict(X_test)
print('예측 정확도: {0:.4f}'.format(accuracy_score(y_test, pred)))

예측 정확도: 0.9556


> ### 교차 검증
> ---

* **과적합(Overfitting)**: 모델이 학습 데이터에만 과도하게 최적화되어, 실제 예측을 다른 데이터로 수행할 경우에는 예측 성능이 과도하게 떨어지는 것
    * 고정된 학습 데이터와 테스트 데이터로 평가를 하다 보면 테스트 데이터에만 최적의 성능을 발휘할 수 있도록 편향되게 모델을 유도하는 경향
    * 교차 검증을 이용해 더 다양한 학습과 평가를 수행하여 문제점을 개선

* **교차 검증**: 데이터 편증을 막기 위해서 별도의 여러 세트로 구성된 학습 데이터 세트와 검증 데이터 세트에서 학습과 평가를 수행하는 것
    * 각 세트에서 수행한 결과에 따라 하이퍼 파라미터 튜닝 등의 모델 최적화를 더욱 손쉽게 가능
    * 대부분의 ML 모델의 성능 평가는 교차 검증 기반으로 1차 평가를 한 뒤에 최종적으로 테스트 데이터 세트에 적용해 평가하는 프로세스 - 학습, 검증, 테스트 데이터 세트로 세분화

> #### *K 폴드 교차 검증*

: **K개의 데이터 폴드 세트**를 만들어 **K번만큼 각 폴트 세트에 학습과 검증 평가**를 반복적으로 수행하는 방법
* 가장 보편적으로 사용되는 교차 검증 기법이다.
* 데이터 세트를 K등분하여 학습 데이터와 검증 데이터 세트를 점진적으로 변경하면서 마지막 K번째까지 학습과 검증을 수행한다.
* 사이킷런에서는 K 폴드 교차 검증 프로세스를 구현하기 위해 `KFold`와 `StratifiedKFold` 클래스를 제공한다.

In [19]:
## KFold 클래스를 이용해 붓꽃 데이터 세트 교차 검증 및 예측 정확도 측정
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score
from sklearn.model_selection import KFold
import numpy as np

iris = load_iris()
features = iris.data
label = iris.target
dt_clf = DecisionTreeClassifier(random_state=156)

* K개의 폴드 세트로 분리하는 `KFold` 객체를 생성한다.

In [20]:
# 5개의 폴드 세트로 분리하는 KFold 객체와 폴드 세트별 정확도를 담은 리스트 객체 생성
kfold = KFold(n_splits=5)
cv_accuracy = []
print('붓꽃 데이터 세트 크기:', features.shape[0])

붓꽃 데이터 세트 크기: 150


* `KFold `객체의 **`split()`**을 호출해 전체 데이터를 K개의 폴드 데이터 세트로 분리한다.
    * 호출 시 학습용/검증용 데이터로 분할할 수 있는 인덱스를 반환
    * 실제로 학습용/검증용 데이터 추출은 반환된 인덱스를 기반으로 개발 코드에서 직접 수행

In [21]:
n_iter = 0

# KFold 객체의 split()를 호출하면 폴드 별 학습용, 검증용 테스트의 로우 인덱스를 array로 반환
for train_index, test_index in kfold.split(features):

    # kfold.split()으로 반환으로 인덱스를 이용해 학습용, 검증용 테스트 데이터 추출
    X_train, X_test = features[train_index], features[test_index]
    y_train, y_test = label[train_index], label[test_index]

    # 학습 및 예측
    dt_clf.fit(X_train, y_train)
    pred = dt_clf.predict(X_test)
    n_iter += 1

    # 반복 시마다 정확도 측정
    accuracy = np.round(accuracy_score(y_test, pred), 4)
    train_size = X_train.shape[0]
    test_size = X_test.shape[0]
    print('\n{0} 교차 검증 정확도 : {1}, 학습 데이터 크기: {2}, 검증 데이터 크기: {3}'
          .format(n_iter, accuracy, train_size, test_size))
    print('#{0} 검증 세트 인덱스:{1}'.format(n_iter, test_index))
    cv_accuracy.append(accuracy)


1 교차 검증 정확도 : 1.0, 학습 데이터 크기: 120, 검증 데이터 크기: 30
#1 검증 세트 인덱스:[ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
 24 25 26 27 28 29]

2 교차 검증 정확도 : 0.9667, 학습 데이터 크기: 120, 검증 데이터 크기: 30
#2 검증 세트 인덱스:[30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53
 54 55 56 57 58 59]

3 교차 검증 정확도 : 0.8667, 학습 데이터 크기: 120, 검증 데이터 크기: 30
#3 검증 세트 인덱스:[60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83
 84 85 86 87 88 89]

4 교차 검증 정확도 : 0.9333, 학습 데이터 크기: 120, 검증 데이터 크기: 30
#4 검증 세트 인덱스:[ 90  91  92  93  94  95  96  97  98  99 100 101 102 103 104 105 106 107
 108 109 110 111 112 113 114 115 116 117 118 119]

5 교차 검증 정확도 : 0.7333, 학습 데이터 크기: 120, 검증 데이터 크기: 30
#5 검증 세트 인덱스:[120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137
 138 139 140 141 142 143 144 145 146 147 148 149]


In [22]:
# 개별 iteration별 정확도를 합하여 평균 정확도 계산
print('## 평균 검증 정확도:', np.mean(cv_accuracy))

## 평균 검증 정확도: 0.9


> #### *Stratified K 폴드*

: **불균형한(imbalacned) 분포도를 가진 Label(결정 클래스) 데이터 집합을 위한** K 폴드 방식  
(불균형한 분포도: 특정 레이블 값이 특이하게 많거나 매우 적어서 값의 분포가 한쪽으로 치우치우는 것)
* 작은 비율로 레이블 값이 있다면 K 폴드로 랜덤하게 학습 및 테스트 세트의 인덱스를 고르더라도 레이블 값의 비율을 제대로 반영하지 못하는 경우가 쉽게 발생한다.
* 원본 데이터와 유사한 레이블 값의 분포를 학습/테스트 세트에도 유지하는 게 매우 중요하다.
* Stratified K 폴드는 원본 데이터의 레이블 분포를 먼저 고려한 뒤 이 분포와 동일하게 학습과 검증 데이터 세트를 분배한다.

In [23]:
## K 폴드가 가진 문제점 확인
# 레이블 값의 분포도 확인

import pandas as pd

iris = load_iris()
iris_df = pd.DataFrame(data=iris.data, columns = iris.feature_names)
iris_df['label']=iris.target
iris_df['label'].value_counts()

0    50
1    50
2    50
Name: label, dtype: int64

In [24]:
# 각 교차 검증 시마다 생성되는 학습/검증 레이블 데이터 값의 분포도 확인
kfold = KFold(n_splits=3)
n_iter = 0
for train_index, test_index in kfold.split(iris_df):
    n_iter += 1
    label_train=iris_df['label'].iloc[train_index]
    label_test=iris_df['label'].iloc[test_index]
    print('## 교차 검증: {0}'.format(n_iter))
    print('학습 레이블 데이터 분포:\n', label_train.value_counts())
    print('검증 레이블 데이터 분포:\n', label_test.value_counts())

## 교차 검증: 1
학습 레이블 데이터 분포:
 1    50
2    50
Name: label, dtype: int64
검증 레이블 데이터 분포:
 0    50
Name: label, dtype: int64
## 교차 검증: 2
학습 레이블 데이터 분포:
 0    50
2    50
Name: label, dtype: int64
검증 레이블 데이터 분포:
 1    50
Name: label, dtype: int64
## 교차 검증: 3
학습 레이블 데이터 분포:
 0    50
1    50
Name: label, dtype: int64
검증 레이블 데이터 분포:
 2    50
Name: label, dtype: int64


* 교차 검증 시마다 학습 레이블과 검증 레이블이 완전히 다른 값으로 추출되어 검증 예측 정확도는 0이 될 수밖에 없다.
* StratifiedKFold는 KFold로 분할된 레이블 데이터 세트가 전체 레이블 값의 분포도를 반영하지 못하는 문제를 해결해 준다.
    * `split()` 메서드에 인자로 Feature 데이터 세트뿐만 아니라 Label 데이터 세트도 반드시 필요
    * 학습 레이블과 검증 레이블 데이터 값의 분포도가 동일하게 할당
    * 레이블별로 동일하게 할당되어야 레이블 값 모두 학습할 수 있고, 이에 기반해 검증 수행 가능

In [25]:
## StratifiedKFold로 데이터 분할 수행하고 학습/검증 레이블 데이터의 분포도 확인

from sklearn.model_selection import StratifiedKFold

skf = StratifiedKFold(n_splits=3)
n_iter=0

for train_index, test_index in skf.split(iris_df, iris_df['label']):
    n_iter += 1
    label_train=iris_df['label'].iloc[train_index]
    label_test=iris_df['label'].iloc[test_index]
    print('## 교차 검증: {0}'.format(n_iter))
    print('학습 레이블 데이터 분포 : \n', label_train.value_counts())
    print('검증 레이블 데이터 분포 : \n', label_test.value_counts())

## 교차 검증: 1
학습 레이블 데이터 분포 : 
 2    34
0    33
1    33
Name: label, dtype: int64
검증 레이블 데이터 분포 : 
 0    17
1    17
2    16
Name: label, dtype: int64
## 교차 검증: 2
학습 레이블 데이터 분포 : 
 1    34
0    33
2    33
Name: label, dtype: int64
검증 레이블 데이터 분포 : 
 0    17
2    17
1    16
Name: label, dtype: int64
## 교차 검증: 3
학습 레이블 데이터 분포 : 
 0    34
1    33
2    33
Name: label, dtype: int64
검증 레이블 데이터 분포 : 
 1    17
2    17
0    16
Name: label, dtype: int64


In [26]:
## StratifiedKFold를 이용해 데이터 분리
dt_clf = DecisionTreeClassifier(random_state=156)

skfold = StratifiedKFold(n_splits=3)
n_itier=0
cv_accuracy = []

# StratifiedKFold의 split() 호출 시 반드시 레이블 데이터 세트도 추가 입력 필요
for train_index, test_index in skfold.split(features, label):

    # split( )으로 반환된 인덱스를 이용하여 학습용, 검증용 테스트 데이터 추출
    X_train, X_test = features[train_index], features[test_index]
    y_train, y_test = label[train_index], label[test_index]

    #학습 및 예측 
    dt_clf.fit(X_train , y_train)    
    pred = dt_clf.predict(X_test)

    # 반복 시 마다 정확도 측정 
    n_iter += 1
    accuracy = np.round(accuracy_score(y_test,pred), 4)
    train_size = X_train.shape[0]
    test_size = X_test.shape[0]
    print('\n#{0} 교차 검증 정확도: {1}, 학습 데이터 크기: {2}, 검증 데이터 크기: {3}'
          .format(n_iter, accuracy, train_size, test_size))
    print('#{0} 검증 세트 인덱스:{1}'.format(n_iter, test_index))
    cv_accuracy.append(accuracy)

# 교차 검증별 정확도 및 평균 정확도 계산 
print('\n## 교차 검증별 정확도:', np.round(cv_accuracy, 4))
print('## 평균 검증 정확도:', np.mean(cv_accuracy))


#4 교차 검증 정확도: 0.98, 학습 데이터 크기: 100, 검증 데이터 크기: 50
#4 검증 세트 인덱스:[  0   1   2   3   4   5   6   7   8   9  10  11  12  13  14  15  16  50
  51  52  53  54  55  56  57  58  59  60  61  62  63  64  65  66 100 101
 102 103 104 105 106 107 108 109 110 111 112 113 114 115]

#5 교차 검증 정확도: 0.94, 학습 데이터 크기: 100, 검증 데이터 크기: 50
#5 검증 세트 인덱스:[ 17  18  19  20  21  22  23  24  25  26  27  28  29  30  31  32  33  67
  68  69  70  71  72  73  74  75  76  77  78  79  80  81  82 116 117 118
 119 120 121 122 123 124 125 126 127 128 129 130 131 132]

#6 교차 검증 정확도: 0.98, 학습 데이터 크기: 100, 검증 데이터 크기: 50
#6 검증 세트 인덱스:[ 34  35  36  37  38  39  40  41  42  43  44  45  46  47  48  49  83  84
  85  86  87  88  89  90  91  92  93  94  95  96  97  98  99 133 134 135
 136 137 138 139 140 141 142 143 144 145 146 147 148 149]

## 교차 검증별 정확도: [0.98 0.94 0.98]
## 평균 검증 정확도: 0.9666666666666667


* 왜곡된 레이블 데이터 세트에서는 반드시 Stratified K 폴드를 이용해 교차 검증해야 한다.
* 일반적으로 분류(Classification)에서의 교차 검증 K 폴드가 아니라 Stratified K 폴드로 분할되어야 한다.
* 회귀(Regression)에서는 Stratified K 폴드가 지원되지 않는다. 회귀의 결정값은 이산값 형태의 레이블이 아니라 연속된 숫자값이기 때문에 결정값별로 분포를 정하는 의미가 없기 때문이다.

> #### *교차 검증을 보다 간편하게 - `cross_val_score()`*

**`cross_val_score()`**: 1.폴드 세트를 설정 2.for 루프에서 반복으로 학습 및 테스트 데이터의 인덱스 추출 3. 반복적으로 학습과 예측을 수행하고 예측 성능 반환하는 일련의 과정을 한꺼번에 수행해주는 API

```
cross_val_score(estimator, X, y=None, scoring=None, cv=None, n_jobs=1, verbose=0, fit_params=None, pre_dispatch='2*n_jobs')
```

* `estimator, X, y, scoring, cv`가 주요 파라미터
    * `estimator`: 사이킷런의 분류 알고리즘 클래스인 Classifier 또는 회귀 알고리즘 클래스인 Regressor
    * `X`: Feature 데이터 세트
    * `y`: Label 데이터 세트
    * `scoring`: 예측 성능 평가 지표
    * `cv`: 교차 검증 폴드 수
* 반환 값은 `scoring` 파라미터로 지정된 성능 지표 측정값을 배열 형태로 반환한다. 일반적으로 이를 평균해 평가 수치로 사용한다.
* classifier가 입력되면 Stratified K 폴드 방식으로 레이블값의 분포에 따라 학습/테스트 세트를 분할한다.(회귀의 경우, K 폴드 방식으로 분할)
* 내부에서 Estimator를 학습(fit), 예측(predict), 평가(evaluation) 시켜주므로 간단하게 교차 검증을 수행할 수 있다.
* `cross_validate()`는 `cross_val_score()`가 단 하나의 평균 지표만 가능한 반면, 여러 개의 평가 지표를 반환할 수 있다. 또한 학습 데이터에 대한 성능 평가 지표와 수행 시간도 같이 제공한다.



In [27]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import cross_val_score, cross_validate
from sklearn.datasets import load_iris

iris_data = load_iris()
dt_clf = DecisionTreeClassifier(random_state=156)

data = iris_data.data
label = iris_data.target

# 성능 지표는 정확도(accuracy), 교차 검증 세트는 3개
scores = cross_val_score(dt_clf, data, label, scoring='accuracy', cv=3)
print('교차 검증별 정확도:', np.round(scores, 4))
print('평균 검증 정확도:', np.round(np.mean(scores), 4))

교차 검증별 정확도: [0.98 0.94 0.98]
평균 검증 정확도: 0.9667


> ### GridSearchCV - 교차 검증과 최적 하이퍼 파라미터 튜닝을 한 번에
> ---

* 하이퍼 파라미터: 머신러닝 알고리즘을 구성하는 주요 구성 요소이며, 이 값을 조정해 알고리즘의 예측 성능을 개선할 수 있다.
* 사이킷런은 GridSearchCV API를 이용해 Classifier나 Regressor와 같은 알고리즘에 사용되는 하이퍼 파라미터를 순차적으로 입력하면서 편리하게 최적의 파라미터를 도출할 수 있는 방안을 제공한다.
    * 파라미터를 순차적으로 바꿔 실행하면서 최적의 파라미터와 수행 결과를 도출 가능
    * 데이터 세트를 cross-validation을 위한 학습/테스트 세트로 자동으로 분할한 뒤에 하이퍼 파리미터 그리드에 기술된 모든 파라미터를 순차적으로 적용해 교차 검증을 기반으로 최적의 파라미터를 찾게 해줌  
    예) CV가 3회 -> 개별 파라미터 조합마다 3개의 폴딩 세트를 3회에 걸쳐 학습/평가해 평균값으로 성능을 측정, 6개의 파라미터 조합 => CV 3회 * 6개 파라미터 조합 = 18회의 학습/평가
    * 수행시간이 상대적으로 오래 걸리는 것에 유념
    * `GridSearchCV` 클래스의 생성자로 들어가는 주요 파라미터
        * `estimator`: classifier, regressor, pipeline이 사용될 수 있음
        * `param_grid`: key + 리스트 값을 가지는 딕셔너리 / estimator의 튜닝을 위해 파라미터명과 사용될 여러 파라미터 값을 지정
        * `scoring`: 예측 성능을 측정할 평가 방법을 지정 / 보통은 사이킷런의 성능 평가 지표를 지정하는 문자열(예: 정확도의 경우 'accuracy')로 지정하나 별도의 성능 평가 지표 함수도 지정 가능
        * `cv`: 교차 검증을 위해 분할되는 학습/테스트 세트의 개수 지정
        * `refit`: 디폴트가 True이며 True로 생성 시 가장 최적의 하이퍼 파라미터를 찾은 뒤 입력된 estimator 객체를 해당 하이퍼 파라미터로 재학습시킴


*학습 데이터에서 `GridSearchCV`를 이용해 최적 하이퍼 파라미터 추출*

* `DecisionTreeClassifier`의 중요 하이퍼 파라미터인 **`max_depth`**와 **`min_samples_split`**의 값을 변화시키면서 최적화 진행
     * 테스트할 하이퍼 파라미터 세트는 딕셔너리 형태로 하이퍼 파라미터의 명칭은 문자열 Key 값으로, 하이퍼 파라미터의 값은 리스트 형으로 설정

In [28]:
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import GridSearchCV

# 데이터를 로딩하고 학습 데이터와 테스트 데이터 분리
iris = load_iris()
X_train, X_test, y_train, y_test = train_test_split(iris_data.data, iris_data.target, 
                                                    test_size=0.2, random_state=121)

dtree = DecisionTreeClassifier()

# 파라미터를 딕셔너리 형태로 설정
parameters = {'max_depth':[1,2,3],
              'min_samples_split':[2,3]}

*`GridSearchCV `객체의 `fit`(학습 데이터 세트) 메서드 수행*
* 학습 데이터를 `fit`(학습 데이터 세트) 메서드에 인자로 입력한다.
* 학습 데이터를 `cv`에 기술된 폴딩 세트로 분할해 *param_grid*에 기술된 하이퍼 파라미터를 순차적으로 변경하면서 학습/평가를 수행하고 그 결과를 `cv_results` 속성에 기록한다.
    * `cv_results`: gridsearchcv의 결과 세트로서 딕셔너리 형태로 key 값과 리스트 형태의 value 값 - Pandas의 DataFrame으로 변환하면 내용을 좀 더 쉽게 보기 가능
* 주요 칼럼별 의미
    * params: 수행할 때마다 적용된 개별 하이퍼 파라미터값
    * rank_test_score: 하이퍼 파라미터별로 성능이 좋은 순위 / 1이 가장 뛰어난 순위이며 이때의 파라미터가 최적의 하이퍼 파라미터
    * mean_test_score: 개별 하이퍼 파라미터별로 CV의 폴딩 테스트 세트에 대해 총 수행한 평가 평균값

In [29]:
import pandas as pd

# param_grid의 하이퍼 파라미터를 3개의 train, test set fold로 나누어 테스트 수행 설정
## refit=True가 dafault임. True이면 가장 좋은 파라미터로 재학습시킴.
grid_dtree = GridSearchCV(dtree, param_grid=parameters, cv=3, refit=True)

# 붓꽃 학습 데이터로 param_grid의 하이퍼 파라미터를 순차적으로 학습/평가
grid_dtree.fit(X_train, y_train)

# GridSearchCV 결과를 추출해 DataFrame으로 변환
scores_df = pd.DataFrame(grid_dtree.cv_results_)
scores_df[['params', 'mean_test_score', 'rank_test_score',
           'split0_test_score', 'split1_test_score', 'split2_test_score']]

Unnamed: 0,params,mean_test_score,rank_test_score,split0_test_score,split1_test_score,split2_test_score
0,"{'max_depth': 1, 'min_samples_split': 2}",0.7,5,0.7,0.7,0.7
1,"{'max_depth': 1, 'min_samples_split': 3}",0.7,5,0.7,0.7,0.7
2,"{'max_depth': 2, 'min_samples_split': 2}",0.958333,3,0.925,1.0,0.95
3,"{'max_depth': 2, 'min_samples_split': 3}",0.958333,3,0.925,1.0,0.95
4,"{'max_depth': 3, 'min_samples_split': 2}",0.975,1,0.975,1.0,0.95
5,"{'max_depth': 3, 'min_samples_split': 3}",0.975,1,0.975,1.0,0.95


* 최고 성능을 나타낸 하이퍼 파라미터의 값과 그때의 평가 결과 값이 각각 `best_params_, best_score_`속성에 기록된다.

In [30]:
## 최적 하이퍼 파라미터의 값과 그때의 정확도 알아보기
print('GridSearchCV 최적 파라미터:', grid_dtree.best_params_)
print('GridSearchCV 최고 정확도:{0:.4f}'.format(grid_dtree.best_score_))

GridSearchCV 최적 파라미터: {'max_depth': 3, 'min_samples_split': 2}
GridSearchCV 최고 정확도:0.9750


* `GridSearchCV` 객체의 생성 파라미터로 `refit=True`가 디폴트이다.
    * `GridSearchCV`가 최적 성능을 나타내는 하이퍼 파라미터로 Estimator를 학습해 `best_estimaotr_`로 저장

In [31]:
## 분리한 테스트 데이터 세트에 대해 예측하고 성능 평가

# GridSearchCV의 refit으로 이미 학습된 estimator 반환
estimator = grid_dtree.best_estimator_

# GridSearchCV의 best_estimator_는 이미 최적 학습이 됐으므로 별도 학습이 필요 없음
pred = estimator.predict(X_test)
print('테스트 데이터 세트 정확도: {0:.4f}'.format(accuracy_score(y_test, pred)))

테스트 데이터 세트 정확도: 0.9667


## **05. 데이터 전처리**

* 데이터 전처리(Data Preprocessing)은 ML 알고리즘만큼 중요하다.
* **결손값, 즉 NaN, Null 값은 허용되지 않는다**. 이러한 Null 값은 **고정된 다른 값으로 변환**해야 한다.
    * Feature 값 중 Null 값이 얼마 되지 않는 경우) Feature의 평균값 등으로 간단히 대체
    * Null 값이 대부분인 경우) 해당 Feature drop하는 것이 더 좋은 방법
    * Null 값이 일정 수준 이상 되는 경우) 해당 Feature가 중요도가 높은 Feature이고 Null을 단순히 Feature의 평균값으로 대체해 예측 왜곡이 심할 수 있다면 업무 로직 등을 상세히 검토해 더 정밀한 대체 값을 선정
* **문자열 값을 입력 값으로 허용하지 않는다.** 모든 문자열 값은 인코딩돼서 **숫자 형으로 변환**해야 한다.
    * 문자열 Feature: 일반적으로 카테고리형 Feature와 텍스형 Feature를 의미
        * 카테고리형 Feature는 코드 값으로 표현하는 게 더 이해 쉬울 것
        * 텍스트형 Feature는 피터 벡터화(feature vectorization) 등의 기법으로 벡터화하거나 불필요한 Feature라고 판단되면 삭제하는 게 좋음

> ### 데이터 인코딩
> ---

> #### *레이블 인코딩*

: 카테고리 Feature를 코드형 숫자 값으로 변환하는 것

* 사이킷런의 레이블 인코딩(Label encoding)은 **`LabelEncoder`** 클래스로 구현한다.
* `LabelEncoder`를 객체로 생성한 후 `fit()`과 `transform()`을 호출해 수행한다.
* 주의 - 코드 값(예: '01', '02') 역시 문자열이므로 숫자형(예: 1, 2) 값으로 변환돼야 한다.

In [32]:
from sklearn.preprocessing import LabelEncoder

items=['TV', '냉장고', '전자레인지', '컴퓨터', '선풍기', '선풍기', '믹서', '믹서']

# LabelEncoder를 객체로 생성한 후, fit()과 transform()으로 레이블 인코딩 수행
encoder = LabelEncoder()
encoder.fit(items)
labels = encoder.transform(items)
print('인코딩 변환값:', labels)

인코딩 변환값: [0 1 4 5 3 3 2 2]


* 데이터가 많아 문자열 값이 어떤 숫자 값으로 인코딩됐는지 직관적으로 알 수 없는 경우에는 `LabelEncoder` 객체의 **`classes_`** 속성값으로 확인하면 된다.
    * 0번부터 순서대로 변환된 인코딩 값에 대한 원본값을 가짐

In [33]:
print('인코딩 클래스:', encoder.classes_)

인코딩 클래스: ['TV' '냉장고' '믹서' '선풍기' '전자레인지' '컴퓨터']


* `inverse_transfrom()`을 통해 인코딩된 값을 다시 디코딩할 수 있다.

In [34]:
print('디코딩 원본값:', encoder.inverse_transform([4,5,2,0,1,1,3,3]))

디코딩 원본값: ['전자레인지' '컴퓨터' '믹서' 'TV' '냉장고' '냉장고' '선풍기' '선풍기']


* 일괄적인 숫자 값으로 변환이 되면서 몇몇 ML 알고리즘에는 이를 적용할 경우, 크고 작음에 대한 특성이 작용하여 특정 ML 알고리즘에서 가중치가 더 부여되거나 더 중요하게 인식할 가능성으로 인해 예측 성능이 떨어지는 경우 발생할 수 있다.
    * 선형 회귀와 같은 ML 알고리즘에는 적용하지 않아야 한다.
    * 트리 계열의 ML 알고리즘은 문제 없다.


> #### *원-핫 인코딩(One-Hot Encoding)*

: Feature 값의 유형에 따라 새로운 Feature를 추가해 고유 값에 해당하는 칼럼에만 1을 표시하고 나머지 칼럼에는 0을 표시하는 방식

* 행 형태로 돼 있는 Feature의 고유 값을 열 형태로 차원을 변환한 뒤, 고유 값에 해당하는 칼럼에만 1을 표시하고 나머지 칼럼에는 0을 표시
* 사이킷런에서 **`OneHotEncoder`** 클래스로 쉽게 변환 가능하다.
    * `OneHotEncoder`로 변환하기 전에 모든 문자열 값이 숫자형 값으로 변환돼야 함
    * 입력 값으로 2차원 데이터가 필요함

In [35]:
from sklearn.preprocessing import OneHotEncoder
import numpy as np

items=['TV', '냉장고', '전자레인지', '컴퓨터', '선풍기', '선풍기', '믹서', '믹서']

# 먼저 숫자 값으로 변환을 위해 LabelEncoder로 변환
encoder = LabelEncoder()
encoder.fit(items)
labels = encoder.transform(items)

# 2차원 데이터로 변환
labels = labels.reshape(-1,1)

# 원-핫 인코딩을 적용
oh_encoder = OneHotEncoder()
oh_encoder.fit(labels)
oh_labels = oh_encoder.transform(labels)
print('원-핫 인코딩 데이터')
print(oh_labels.toarray())
print('원-핫 인코딩 데이터 차원')
print(oh_labels.shape)

원-핫 인코딩 데이터
[[1. 0. 0. 0. 0. 0.]
 [0. 1. 0. 0. 0. 0.]
 [0. 0. 0. 0. 1. 0.]
 [0. 0. 0. 0. 0. 1.]
 [0. 0. 0. 1. 0. 0.]
 [0. 0. 0. 1. 0. 0.]
 [0. 0. 1. 0. 0. 0.]
 [0. 0. 1. 0. 0. 0.]]
원-핫 인코딩 데이터 차원
(8, 6)


* 판다스에는 원-핫 인코딩을 더 쉽게 지원하는 API가 있다.
    * **`get_dummies()`**를 이용하면 문자열 카테고리 값을 숫자 형으로 변환할 필요 없이 바로 변환 가능

In [36]:
import pandas as pd

df = pd.DataFrame({'item':['TV', '냉장고', '전자레인지', '컴퓨터', '선풍기', '선풍기', '믹서', '믹서']})
pd.get_dummies(df)

Unnamed: 0,item_TV,item_냉장고,item_믹서,item_선풍기,item_전자레인지,item_컴퓨터
0,1,0,0,0,0,0
1,0,1,0,0,0,0
2,0,0,0,0,1,0
3,0,0,0,0,0,1
4,0,0,0,1,0,0
5,0,0,0,1,0,0
6,0,0,1,0,0,0
7,0,0,1,0,0,0


> ### 피처 스케일링과 정규화
> ---

피처 스케일링(feature scaling): 서로 다른 변수의 값 범위를 일정한 수준으로 맞추는 작업

* 대표적인 방법으로 표준화(Standardization)와 정규화(Normalization)가 있다.
    * 표준화: 데이터의 Feature 각각이 평균이 0이고 분산이 1인 가우시안 정규 분포를 가진 값으로 변환하는 것
 $${x_i}\_{new} = \frac{x_i - mean(x)}{stdev(x)}$$
    * 정규화: 서로 다른 Feature의 크기를 통일하기 위해 크기를 변환해주는 것
    $${x_i}\_{new} = \frac{x_i - min(x)}{max(x)-min(x))}$$
    * 선형대수에서의 정규화: 개별 벡터의 크기를 맞추기 위해 변환하는 것
    $${x_i}\_{new} = \frac{x_i}{\sqrt{{x_i}^2 + {y_i}^2 + {z_i}^2}}$$
        * 사이킷런의 Normalizer 모듈은 이 개념을 적용
* 일반적인 의미의 표준화와 정규화를 피처 스케일링으로 통칭하고 선형대수 개념의 정규화를 벡터 정규화로 지칭할 것이다.

> ### StandardScaler
> ---

: 표준화를 쉽게 지원하기 위한 클래스

* 개별 Feature를 평균이 0이고, 분산이 1인 값으로 변환해준다.
* 몇몇 알고리즘에서 가우시안 정규 분포를 가질 수 있도록 데이터를 변환하는 것은 매우 중요하다.
    * 사이킷런에서 구현한 RBF 커널을 이용하는 벡터 머신(Support Vector Machine)이나 선형 회귀(Linear Regression), 로지스틱 회귀(Logistic Regression)는 데이터가 가우시안 분포를 가지고 있다고 가정하고 구현됐기 때문에 사전에 표준화를 적용하는 것은 예측 성능 향상에 중요한 요소가 될 수 있음

In [37]:
from sklearn.datasets import load_iris
import pandas as pd

# 붓꽃 데이터 세트를 로딩하고 DataFrame으로 변환
iris = load_iris()
iris_data = iris.data
iris_df = pd.DataFrame(data=iris_data, columns=iris.feature_names)

print('feature 들의 평균 값')
print(iris_df.mean())
print('\nfeature 들의 분산 값')
print(iris_df.var())

feature 들의 평균 값
sepal length (cm)    5.843333
sepal width (cm)     3.057333
petal length (cm)    3.758000
petal width (cm)     1.199333
dtype: float64

feature 들의 분산 값
sepal length (cm)    0.685694
sepal width (cm)     0.189979
petal length (cm)    3.116278
petal width (cm)     0.581006
dtype: float64


* 각 Feature를 한 번에 표준화해 변환한다.
    * **`StandardScaler`** 객체를 생성한 후에 **`fit()`**과 **`transform()`** 메서드에 변환 대상 Feature 데이터 세트를 입력하고 호출하면 간단하게 변환
    * `transform()`을 호출할 때 스케일 변환된 데이터 세트가 넘파이의 ndarray이므로 이를 DataFrame으로 변환돼 평균값과 분산 값을 다시 확인

In [38]:
from sklearn.preprocessing import StandardScaler

# StandardScaler 객체 생성
scaler = StandardScaler()

# StandardScaler 데이터 세트 변환, fit()과 transform() 호출
scaler.fit(iris_df)
iris_scaled = scaler.transform(iris_df)

# transform() 시 스케일 변환된 데이터 세트가 NumPy ndarray로 반환돼 DataFrame으로 변환
iris_df_scaled = pd.DataFrame(data=iris_scaled, columns=iris.feature_names)

print('feature 들의 평균 값')
print(iris_df_scaled.mean())
print('\nfeature 들의 분산 값')
print(iris_df_scaled.var())

feature 들의 평균 값
sepal length (cm)   -1.690315e-15
sepal width (cm)    -1.842970e-15
petal length (cm)   -1.698641e-15
petal width (cm)    -1.409243e-15
dtype: float64

feature 들의 분산 값
sepal length (cm)    1.006711
sepal width (cm)     1.006711
petal length (cm)    1.006711
petal width (cm)     1.006711
dtype: float64


> ### MinMaxScaler
> ---

* 데이터값을 0과 1사이의 범위 값으로 변환한다.(음수 값이 있으면 -1에서 1값으로 변환한다.)
* 데이터의 분포가 가우시안 분포가 아닐 경우에 Min, Max Scale을 적용해 볼 수 있다.

In [39]:
from sklearn.preprocessing import MinMaxScaler

# MinMaxScaler 객체 생성
scaler = MinMaxScaler()

# MinMaxScaler 데이터 세트 변환, fit()과 transform() 호출
scaler.fit(iris_df)
iris_scaled = scaler.transform(iris_df)

# transform() 시 스케일 변환된 데이터 세트가 NumPy ndarry로 반환돼 이를 DataFrame으로 변환
iris_df_scaled = pd.DataFrame(data=iris_scaled, columns=iris.feature_names)

print('feature들의 최솟값')
print(iris_df_scaled.min())
print('\nfeature들의 최댓값')
print(iris_df_scaled.max())

feature들의 최솟값
sepal length (cm)    0.0
sepal width (cm)     0.0
petal length (cm)    0.0
petal width (cm)     0.0
dtype: float64

feature들의 최댓값
sepal length (cm)    1.0
sepal width (cm)     1.0
petal length (cm)    1.0
petal width (cm)     1.0
dtype: float64


> ### 학습 데이터와 테스트 데이터의 스케일링 변환 시 유의점
> ---

* `StandardScaler`나 `MinMaxScaler`와 같은 Scaler 객체를 이용해 데이터 스케일링 변환 시 `fit()`, `transform()`, `fit_transform()` 메소드를 이용한다.
    * `fit()`: 데이터 변환을 위한 기준 정보 설정
    * `transform()`: 설정된 정보를 이용해 데이터 변환
    * `fit_transform()`: `fit()`과 `transform()`을 한번에 적용
* 학습 데이터 세트와 테스트 데이터 세트에 `fit()`과 `transform()`을 적용할 때 주의가 필요하다.
    * 학습 데이터로 `fit(`)이 적용된 스케일링 기준 정보를 그대로 테스트 데이터에 적용해야 하며, 그렇지 않고 테스트 데이터로 다시 새로운 스케일링 기준 정보를 만드렉 되면 학습 데이터와 테스트 데이터의 스케일링 기준 정보가 서로 달라지기 때문에 올바른 예측 결과를 도출하지 못할 수 있다.

In [40]:
## 테스트 데이터에 fit()을 적용할 때 문제 발생 알아보기

from sklearn.preprocessing import MinMaxScaler
import numpy as np

# 학습 데이터는 0부터 10까지, 테스트 데이터는 0부터 5까지 값을 가지는 데이터 세트로 생성
# Scaler 클래스의 fit(), transform()은 2차원 이상 데이터만 가능하므로 reshape(-1.1)로 차원 변경
train_array = np.arange(0,11).reshape(-1,1)
test_array = np.arange(0,6).reshape(-1,1)

In [41]:
## 학습 데이터인 train_array부터 MinMaxScaler를 이용해 변환

# MinMaxScaler 객체에 별도의 feature_range 파라미터 값을 지정하지 않으면 0~1 값으로 변환
scaler = MinMaxScaler()

# fit()하게 되면 train_array 데이터의 최솟값이 0, 최댓값이 10으로 설정
scaler.fit(train_array)

# 1/10 scale로 train_array 데이터 변환함, 원본 10->1로 변환됨
train_scaled = scaler.transform(train_array)

print('원본 train_array 데이터: ', np.round(train_array.reshape(-1), 2))
print('Scale된 train_array 데이터: ', np.round(train_scaled.reshape(-1), 2))

원본 train_array 데이터:  [ 0  1  2  3  4  5  6  7  8  9 10]
Scale된 train_array 데이터:  [0.  0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1. ]


In [42]:
## 테스트 데이터 세트 변환

# MinMaxScaler에 test_array를 fit()하게 되면 원본 데이터의 최솟값이 0, 최댓값이 5로 설정됨
scaler.fit(test_array)

# 1/5 scale로 test_array 데이터 변환함, 원본 5->1로 변환됨
test_scaled = scaler.transform(test_array)

# test_array의 scale 변환 출력
print('원본 test_array 데이터:', np.round(test_array.reshape(-1), 2))
print('Scale된 test_array 데이터:', np.round(test_scaled.reshape(-1), 2))

원본 test_array 데이터: [0 1 2 3 4 5]
Scale된 test_array 데이터: [0.  0.2 0.4 0.6 0.8 1. ]


* 머신러닝 모델은 학습 데이터를 기반으로 학습되기 때문에 반드시 테스트 데이터는 학습 데이터의 스케일링 기준에 따라야 한다.
    * 테스트에 다시 `fit()`을 적용해서는 안 되며 학습 데이터로 이미 `fit()`이 적용된 Scaler 객체를 이용해 `transform()`으로 변환

In [43]:
## 테스트 데이터에 fit()을 호출하지 않고 학습 데이터로 fit()을 수행한 객체 이용

scaler = MinMaxScaler()
scaler.fit(train_array)
train_scaled = scaler.transform(train_array)

print('원본 train_array 데이터:', np.round(train_array.reshape(-1), 2))
print('Scale된 train_array 데이터:', np.round(train_scaled.reshape(-1), 2))

# test_array에 Scale 변환을 할 때는 반드시 fit()을 호출하지 않고 transform()만으로 변환
test_scaled = scaler.transform(test_array)
print('\n원본 test_array 데이터:', np.round(test_array.reshape(-1), 2))
print('Scale된 test_array 데이터:', np.round(test_scaled.reshape(-1), 2))

원본 train_array 데이터: [ 0  1  2  3  4  5  6  7  8  9 10]
Scale된 train_array 데이터: [0.  0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1. ]

원본 test_array 데이터: [0 1 2 3 4 5]
Scale된 test_array 데이터: [0.  0.1 0.2 0.3 0.4 0.5]


* `fit_transform()`을 적용할 때도 마찬가지로 학습 데이터에서는 상관없지만 테스트 데이터에서는 절대 사용해서는 안 된다.
* 학습 데이터와 테스트 데이터의 스케일링 변환 시 유의할 점
    1. 가능하다면 전체 데이터의 스케일링 변환을 적용한 뒤 학습과 테스트 데이터로 분리
    2. 1이 여의치 않다면 테스트 데이터 변환 시에는 `fit()`이나 `fit_transform()`을 적용하지 않고 학습 데이터로 이미 `fit()`된 Scaler 객체를 이용해 `transform()`으로 변환