# 🍎 파이썬 머신러닝 완벽 가이드 혼공

### 2019.03.05 ~ 2019.03.28 교재 1,2장

코로나19 사태로 1,2장은 혼자 공부해야 하는데, 양이 많아서 농땡이 부리지 말고 열심히 하자^*^

01. 파이썬 기반의 머신러닝과 생태계 이해 
02. 사이킷런으로 시작하는 머신러닝

Let's get started⚽️!

### 2020-03-13-Fri

진도: 01. 사이킷런 소개와 특징 ~ (87쪽 ~) 

## 2장 사이킷런으로 시작하는 머신러닝 

### 01. 사이킷런 소개와 특징

- 사이킷런(scikit-learn)은 파이썬 머신러닝 라이브러리 중 가장 많이 사용되는 라이브러리
- 파이썬 기반의 머신러닝을 위한 가장 쉽고 효율적인 개발 라이브러리를 제공
- Anaconda를 설치하면 기본으로 사이킷런까지 설치가 완료

### 02. 첫 번째 머신러닝 만들어 보기 - 붓꽃 품종 예측하기

- 사이킷런을 통해 첫번째로 만들어볼 머신러닝 모델은 **붓꽃 데이터 세트로 붓꽃의 품종을 분류(Classification)**하는 것!
- 붓꽃 데이터 세트는 꽃잎의 길이와 너비, 꽃받침의 길이와 너비 피처(feature)를 기반으로 **꽃의 품종을 예측**하기 위한 것
- ML 알고리즘은 **의사 결정 트리(Decision Tree) 알고리즘**으로, 이를 구현한 **DecisionTreeClassifier**를 적용

#### 분류(Classification) 
- 분류는 대표적인 **지도학습(Supervised Learning)** 방법의 하나 
- 지도학습은 학습을 위한 다양한 **피처(feature, 특징들)**와 분류 결정값인 **레이블(Label, 분류방식)** 데이터로 모델을 학습한 뒤, 별도의 테스트 데이터 세트에서 미지의 레이블을 예측 
- 즉, 지도학습은 **명확한 정답이 주어진 데이터를 먼저 학습 - train set**한 뒤, **미지의 정답을 예측 - test set**하는 방식 

#### 베이스 라인 구축

##### 데이터 로딩
- **sklearn.datasets**: 사이킷런에서 자체적으로 제공하는 데이터 세트를 생성하는 모듈의 모임
- **sklearn.tree**: 트리 기반 ML 알고리즘을 구현한 클래스의 모임
- **sklearn.model_selection**: 학습 데이터와 검증 데이터, 예측 데이터로 데이터를 분리하거나 최적의 하이퍼 파라미터로 평가하기 위한 다양한 모듈의 모임
- **하이퍼 파라미터**: 머신러닝 알고리즘별로 최적의 학습을 위해 직접 입력하는 파라미터들을 통치, 하이퍼 파라미터를 통해 머신러닝 알고리즘의 성능을 튜닝할 수 있음. 


In [1]:
from sklearn.datasets import load_iris # 붓꽃 데이터 세트 생성
from sklearn.tree import DecisionTreeClassifier 
from sklearn.model_selection import train_test_split  # 데이터 세트를 학습, 테스트 데이터로 분리

In [2]:
import pandas as pd

# 붓꽃 데이터 세트 로딩 
iris = load_iris()

# iris.data는 iris 데이터 세트에서 피처(feature)만으로 된 데이터를 numpy로 가지고 있음. 
iris_data = iris.data

# iris.target은 붓꽃 데이터 세트에서 레이블(결정 값) 데이터를 numpy로 가지고 있음. 
iris_label = iris.target
print('iris target값:', iris_label)
print('iris target명:', iris.target_names)

iris target값: [0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2
 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
 2 2]
iris target명: ['setosa' 'versicolor' 'virginica']


In [3]:
# 붓꽃 데이터 세트를 자세히 보기 위해 DataFrame으로 변환
iris_df = pd.DataFrame(data=iris_data, columns=iris.feature_names)
iris_df['label'] = iris.target
iris_df.head(3)

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),label
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0


##### 학습용 데이터와 테스트용 데이터 확보하기 

- 학습 데이터로 학습된 모델이 얼마나 뛰어난 성능을 가지는지 평가하려면 테스트 데이터 세트가 필요
- 사이킷런은 **train_test_split()**으로 학습 데이터와 테스트 데이터를 쉽게 분할할 수 있음. 
- **test_size 파라미터**를 이용하면 입력 값의 비율로 쉽게 분할. 예를 들어 test_size=0.2라면, 전체 데이터 중 테스트 데이터가 20%, 학습 데이터가 80%로 데이터를 분할함
- **random_state=n**: 호출할 때마다 '같은' 학습/테스트 용 데이터 세트를 생성하기위해 주어지는 난수 발생 값. 숫자 자체는 어떤 값을 지정해도 상관없음.

In [4]:
# X_train은 학습용 피처 데이터 세트 
# X_test는 테스트용 피처 데이터 세트 
# y_train은 학습용 레이블 데이터 세트 
# y_test는 테스트용 레이블 데이터 세트
X_train, X_test, y_train, y_test = train_test_split(iris_data, iris_label,
                                                   test_size=0.2, random_state=11)

##### 의사 결정 트리를 이용해 학습하기


In [5]:
# DecisionTreeClassifier 객체 생성 
dt_clf = DecisionTreeClassifier(random_state=11)

In [6]:
# 학습 수행 
dt_clf.fit(X_train, y_train)

DecisionTreeClassifier(class_weight=None, criterion='gini', max_depth=None,
                       max_features=None, max_leaf_nodes=None,
                       min_impurity_decrease=0.0, min_impurity_split=None,
                       min_samples_leaf=1, min_samples_split=2,
                       min_weight_fraction_leaf=0.0, presort=False,
                       random_state=11, splitter='best')

##### 의사 결정 트리를 이용해 예측하기

In [7]:
# 학습이 완료된 DecisionTreeClassifier 객체에서 테스트 데이터 세트로 예측 수행 
pred = dt_clf.predict(X_test)

##### 예측 성능 평가하기

- ML 모델의 성능 평가 방법은 여러가지가 있으나, 여기서는 정확도를 측정하려 함. 
- 정확도는 예측 결과가 실제 레이블 값과 얼마나 정확하게 맞는지를 평가하는 지표

In [8]:
from sklearn.metrics import accuracy_score
print('예측 정확도: {0:.4f}'.format(accuracy_score(y_test, pred)))

예측 정확도: 0.9333


##### 정리 
1. 데이터 세트 분리: 데이터를 학습 데이터와 테스트 데이터를 분리 
2. 모델 학습: 학습 데이터를 기반으로 ML 알고리즘을 적용해 모델을 학습시킴 
3. 예측 수행: 학습된 ML 모델을 이용해 테스트 데이터의 분류(즉, 붓꽃 종류)를 예측 
4. 평가: 이렇게 예측된 결괏값과 테스트 데이터의 실제 결괏값을 비교해 ML 모델 성능 평가 

### 2020-03-16-Mon

진도: 03. 사이킷런의 기반 프레임워크 익히기 ~ (93쪽 ~) 

### 03. 사이킷런의 기반 프레임워크 익히기 

#### Estimator 이해 및 fit(), predict() 메서드

사이킷런은 **지도학습**의 경우 ML 모델 학습을 위해서 **fit( )**을, 학습된 모델의 예측을 위해 **predict( )**를 제공함. 지도학습의 주요 두 축인 분류와 회귀의 다양한 알고리즘을 구현한 사이킷런은 fit()과 predict()만 가지고 간단하게 학습과 예측 결과를 반환함. 

- 분류 알고리즘을 구현한 클래스 **Classifier(ex. 양이나 수, 자전거 대여량, 상품판매량, 감수량 등)**, 회귀 알고리즘을 구현한 **Regressor(ex. 분류 text 데이터 긍부정, 댓글 주제 파악
- Classifier와 Regressor를 합쳐서 **Estimator 클래스**라 함. 즉, 지도학습의 모든 알고리즘을 구현한 클래스를 통칭하여 Estimator라 부름.

사이킷런에서 **비지도학습**인 차원 축소, 클러스터링, 피처 추출 등을 구현한 클래스 대부분 **fit()과 transform()**을 적용함. 여기서 fit()은 입력 데이터의 형태에 맞춰 데이터를 변환하기위한 사전 구조를 맞추는 작업. 입력 데이터의 차원 변환, 클러스터링, 피처 추출 등의 실제 작업은 transform()으로 수행. 

#### 사이킷런의 주요 모듈

일반적으로 머신러닝 모델을 구축하는 주요 프로세스는 **피처 처리(feature processing, 피처의 가공, 변경, 추출을 수행), ML 알고리즘 학습/예측 수행, 모델 평가 단계**를 반복적으로 수행 👉 이렇게 하면서 성능을 높여야지! 

#### 내장된 예제 데이터 세트 

분류나 회귀 연습용 예제 데이터와 분류나 클러스트링을 위해 표본 데이터로 생성될 수 있는 데이터 세트로 나눠져있음. 

분류나 회귀를 위한 연습용 예제 데이터 키(key)
- data: 피처의 데이터 세트 
- target: 분류 시 레이블 값, 회귀일 때는 숫자 결괏값 데이터 세트 
- target_names: 개별 레이블의 이름
- feature_names: 피처의 이름 
- DESCR: 데이터 세트에 대한 설명과 각 피처의 설명 

In [9]:
from sklearn.datasets import load_iris   

iris_data = load_iris()   #load_iris()를 변수에 담아줘야 데이터를 사용하지!
print(type(iris_data))

<class 'sklearn.utils.Bunch'>


**Bunch** 클래스는 파이썬 딕셔너리 자료형과 유사함. 그래서 key값이 있으니 key값을 확인해보면, 

In [10]:
keys = iris_data.keys()
print(keys)

dict_keys(['data', 'target', 'target_names', 'DESCR', 'feature_names', 'filename'])


In [11]:
print('\n feature_names 의 type:', type(iris_data.feature_names))
print(' feature_names 의 shape:', len(iris_data.feature_names))  #len()이 여기서는 리스트 안에 몇개? 
print(iris_data.feature_names)


print('\n target_names의 type:', type(iris_data.target_names))
print(' target_names의 shape:', len(iris_data.target_names))
print(iris_data.target_names)

print('\n data의 type:', type(iris_data.data)) #data는 피처의 데이터값 
print(' data의 shape:', iris_data.data.shape)  #ndarray라 shape을 쓸 수 있음. 
print(iris_data['data'])

print('\n target의 type:', type(iris_data.target))
print(' target의 shape:', iris_data.target.shape)
print(iris_data.target)                       #iris_data['target'] 이렇게 보겠다 하는 것! 


 feature_names 의 type: <class 'list'>
 feature_names 의 shape: 4
['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']

 target_names의 type: <class 'numpy.ndarray'>
 target_names의 shape: 3
['setosa' 'versicolor' 'virginica']

 data의 type: <class 'numpy.ndarray'>
 data의 shape: (150, 4)
[[5.1 3.5 1.4 0.2]
 [4.9 3.  1.4 0.2]
 [4.7 3.2 1.3 0.2]
 [4.6 3.1 1.5 0.2]
 [5.  3.6 1.4 0.2]
 [5.4 3.9 1.7 0.4]
 [4.6 3.4 1.4 0.3]
 [5.  3.4 1.5 0.2]
 [4.4 2.9 1.4 0.2]
 [4.9 3.1 1.5 0.1]
 [5.4 3.7 1.5 0.2]
 [4.8 3.4 1.6 0.2]
 [4.8 3.  1.4 0.1]
 [4.3 3.  1.1 0.1]
 [5.8 4.  1.2 0.2]
 [5.7 4.4 1.5 0.4]
 [5.4 3.9 1.3 0.4]
 [5.1 3.5 1.4 0.3]
 [5.7 3.8 1.7 0.3]
 [5.1 3.8 1.5 0.3]
 [5.4 3.4 1.7 0.2]
 [5.1 3.7 1.5 0.4]
 [4.6 3.6 1.  0.2]
 [5.1 3.3 1.7 0.5]
 [4.8 3.4 1.9 0.2]
 [5.  3.  1.6 0.2]
 [5.  3.4 1.6 0.4]
 [5.2 3.5 1.5 0.2]
 [5.2 3.4 1.4 0.2]
 [4.7 3.2 1.6 0.2]
 [4.8 3.1 1.6 0.2]
 [5.4 3.4 1.5 0.4]
 [5.2 4.1 1.5 0.1]
 [5.5 4.2 1.4 0.2]
 [4.9 3.1 1.5 0.2]
 [5.  3.2 1.2 0.2]
 

### 2020-03-18-Wed

진도: 03. 사이킷런의 기반 프레임워크 익히기 ~ (100쪽 ~) 

### 04. Model Selection 모듈 소개 

사이킷런의 **model_selection 모듈**
1. **학습 데이터와 테스트 데이터 세트를 분리**
2. **교차 검증 분할 및 평가**
3. **Estimator의 하이퍼 파라미터를 튜닝하기위한 다양한 함수와 클래스를 제공**

#### 학습/테스트 데이터 세트 분리 - train_test_split()

먼저 테스트 데이터 세트를 이용하지 않고 학습 데이터 세트로만 학습하고 예측하면 무엇이 문제일까?

In [12]:
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score 

iris = load_iris()
dt_clf = DecisionTreeClassifier()
train_data = iris.data
train_label = iris.target 
dt_clf.fit(train_data, train_label)

# 학습 데이터 세트로 예측 수행 
pred = dt_clf.predict(train_data)
print('예측 정확도:', accuracy_score(train_label, pred))

예측 정확도: 1.0


당연히 예측이 100%가 되지. 그래서 **train_text_split()**을 이용해 원본 데이터 세트에서 테스트 데이터 세트를 분리해야 함.

- sklearn.model_selection(피처 데이터 세트, 레이블 데이터 세트, 옵션) 
- test_size: 전체 데이터에서 테스트 데이터 세트 크기를 얼마로 샘플링할 것인가 
- random_state: 호출할 때마다 동일한 학습/테스트용 데이터 세트를 생성하기위해 주어지는 난수 값 

In [13]:
from sklearn.tree import DecisionTreeClassifier 
from sklearn.metrics import accuracy_score
from sklearn.datasets import load_iris 
from sklearn.model_selection import train_test_split   # 여기 모듈에서 가져오는 것! 

dt_clf = DecisionTreeClassifier()
iris_data = load_iris()

X_train, X_test, y_train, y_test = train_test_split(iris_data.data, iris_data.target,
                                                   test_size=0.3, random_state=121)

dt_clf.fit(X_train, y_train)
pred = dt_clf.predict(X_test)
print('예측 정확도: {0:.4f}'.format(accuracy_score(y_test, pred)))

예측 정확도: 0.9556


학습을 위한 데이터의 양을 일정수준 이상으로 보장하는 것도 중요, 그러나 학습된 모델에 대해 다양한 데이터를 기반으로 예측 성능을 평가해보는 것도 매우 중요. (붓꽃 데이터는 150개의 데이터라 30% 해봤자 테스트 데이터는 45개, 알고리즘의 예측 성능을 판단하기에는 적절하지 않음.) 

#### 교차 검증

학습 데이터와 데스트용 데이터를 나누는데 이 방법 역시 **과적합(Overfitting)**에 취약하다는 약점이 있음. 과적합은 모델이 학습 데이터에만 과도하게 최적화되어, 실제 예측을 다른 데이터로 수행할 경우에는 예측 성능이 과도하게 떨어지는 것을 말함. 이러한 문제점을 개선하기위해 **교차 검증**을 이용해 더 다양한 학습과 평가를 수행함. 

**교차검증**을 간단히 설명하면 본고사를 치르기 전에 모의고사를 여러 번 보는 것. 교차 검증은 데이터 편중을 막기 위해 별도의 여러 세트로 구성된 학습 데이터 세트와 검증 데이터 세트에서 학습과 평가를 수행하는 것임. 대부분의 ML 모델의 성능 평가는 교차 검증 기반으로 1차 평가를 한 후에 최종적으로 테스트 데이터 세트에 적용해 평가하는 프로세스임.

- 먼저 학습 데이터 세트와 테스트 데이터 세트로 분할
- 그 후 학습 데이터 세트를 학습 데이터 세트와 **검증 데이터 세트**로 분할 

##### K 폴드 교차 검증 

K 폴드 교차 검증은 가장 보편적으로 사용되는 교차 검증 기법. K개의 데이터 폴드 세트를 만들어서 K번만큼 각 폴트 세트에 학습과 검증 평가를 반복적으로 수행. 
- [5 폴드 교차 검증 과정](https://img1.daumcdn.net/thumb/R720x0.q80/?scode=mtistory2&fname=http%3A%2F%2Fcfile27.uf.tistory.com%2Fimage%2F9916854E5AC0B61D220CD3)
- 사이킷런에서는 K 폴드 교차 검증 프로세스를 구현하기 위해 **KFold와 StratifiedKFOLD** 클래스를 제공함.

In [14]:
from sklearn.tree import DecisionTreeClassifier 
from sklearn.metrics import accuracy_score
from sklearn.model_selection import KFold
import numpy as np

iris = load_iris()
features = iris.data 
label = iris.target 
dt_clf = DecisionTreeClassifier(random_state=156)
# 5개의 폴드 세트로 분리하는 KFold 객체와 폴드 세트별 정확도를 담을 리스트 객체 생성.
kfold = KFold(n_splits=5)    #5번 검증하겠다 설정!
cv_accuracy = []
print('붓꽃 데이터 세트 크기:', features.shape[0])

붓꽃 데이터 세트 크기: 150


생성된 KFold 객체의 split()을 호출해 전체 붓꽃 데이터를 5개의 폴드 데이터 세트로 분리함. KFold 객체는 split()을 호출하면 학습용/검증용 데이터를 분할할 수 있는 인덱스를 반환함. 실제로 학습용/검증용 데이터 추출은 **반환된 인덱스**를 기반으로 개발 코드에서 직접 수행해야 함. 즉, split()은 학습용과 검증용 테스트 데이터를 인덱스로 split함.

In [15]:
n_iter = 0

# KFold 객체의 split()를 호출하면 폴드 별 학습용, 검증용 테스트의 로우 인덱스를 array로 반환 
for train_index, test_index in kfold.split(features):
    #kfold.split()으로 반환된 인덱스를 이용해 학습용, 검증용 테스트 데이터 추출 
    X_train, X_test = features[train_index], features[test_index]
    y_train, y_test = label[train_index], label[test_index]
    #학습 및 예측 
    dt_clf.fit(X_train, y_train)
    pred = dt_clf.predict(X_test)
    n_iter += 1
    # 반복 시마다 정확도 측정 
    accuracy = np.round(accuracy_score(y_test, pred),4)   #np.round(a,n): a를 n자리수에서 반올림
    train_size = X_train.shape[0]
    test_size = X_test.shape[0]
    print('\n#{0} 교차 검증 정확도 :{1}, 학습 데이터 크기: {2}, 검증 데이터 크리: {3}'
         .format(n_iter, accuracy, train_size, test_size))
    print('#{0} 검증 세트 인덱스: {1}'.format(n_iter, test_index))
    cv_accuracy.append(accuracy)
    
# 개별 interaction별 정확도를 합하여 평균 정확도 계산 
print('\n## 평균 검증 정확도:', np.mean(cv_accuracy))


#1 교차 검증 정확도 :1.0, 학습 데이터 크기: 120, 검증 데이터 크리: 30
#1 검증 세트 인덱스: [ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
 24 25 26 27 28 29]

#2 교차 검증 정확도 :0.9667, 학습 데이터 크기: 120, 검증 데이터 크리: 30
#2 검증 세트 인덱스: [30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53
 54 55 56 57 58 59]

#3 교차 검증 정확도 :0.8667, 학습 데이터 크기: 120, 검증 데이터 크리: 30
#3 검증 세트 인덱스: [60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83
 84 85 86 87 88 89]

#4 교차 검증 정확도 :0.9333, 학습 데이터 크기: 120, 검증 데이터 크리: 30
#4 검증 세트 인덱스: [ 90  91  92  93  94  95  96  97  98  99 100 101 102 103 104 105 106 107
 108 109 110 111 112 113 114 115 116 117 118 119]

#5 교차 검증 정확도 :0.7333, 학습 데이터 크기: 120, 검증 데이터 크리: 30
#5 검증 세트 인덱스: [120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137
 138 139 140 141 142 143 144 145 146 147 148 149]

## 평균 검증 정확도: 0.9


5번 교차 검증 결과 평균 검증 정확도는 0.9, 교차 검증 시마다 검증 세트의 인덱스가 달라짐. 

#### Stratified K 폴드 

**불균형한 분포도를 가진 레이블 데이터 집합을 위한 K 폴드 방식**임. 특정 레이블 값이 특이하게 많거나 매우 적어서 값의 분포가 한쪽으로 치우칠 때. 예를 들어 대출 사기 데이터 예측. 대출 사기가 약 1000건 있다고 하면 전체의 0.0001%의 아주 작은 확률로 대출 사기 레이블이 존재함. K 폴드로 랜던하게 학습 및 테스트 세트의 인덱스를 고르더라도 레이블 값인 0과 1의 비율을 제대로 반영하지 못하는 경우가 쉽게 발생함. 대출 사기 레이블이 1인 레코드는 비록 건수는 작지만 알고리즘이 대출 사기를 예측하기 위한 중요한 피처 값을 가지고 있기 때문에 매우 중요한 데이터 세트임. 따라서 원본 데이터와 유사한 대출 사기 레이블 값의 분포를 학습/데이터 세트에도 유지하는게 매우 중요함.**Stratified K 폴드는 원본 데이터의 레이블 분포를 먼저 고려한 뒤 이 분포와 동일하게 학습과 검증 데이터 세트를 분배함.**

K 폴드가 어떤 문제를 가지고 있는지 보고, 이를 사이킷런의 StratifiedKFold 클래스를 이용해 개선해 볼 것. 

In [16]:
import pandas as pd

iris = load_iris()
iris_df = pd.DataFrame(data=iris.data, columns=iris.feature_names)
iris_df['lable'] = iris.target 
iris_df['lable'].value_counts()

2    50
1    50
0    50
Name: lable, dtype: int64

In [17]:
kfold = KFold(n_splits=3)
# kfold.split(X)는 폴드 세트를 3번 반복할 때마다 달라지는 학습/테스트 용 데이터 로우 인덱스 번호 반환. 
n_iter =0
for train_index, test_index  in kfold.split(iris_df):
    n_iter += 1
    label_train= iris_df['lable'].iloc[train_index]
    label_test= iris_df['lable'].iloc[test_index]
    print('## 교차 검증: {0}'.format(n_iter))
    print('학습 레이블 데이터 분포:\n', label_train.value_counts())
    print('검증 레이블 데이터 분포:\n', label_test.value_counts())

## 교차 검증: 1
학습 레이블 데이터 분포:
 2    50
1    50
Name: lable, dtype: int64
검증 레이블 데이터 분포:
 0    50
Name: lable, dtype: int64
## 교차 검증: 2
학습 레이블 데이터 분포:
 2    50
0    50
Name: lable, dtype: int64
검증 레이블 데이터 분포:
 1    50
Name: lable, dtype: int64
## 교차 검증: 3
학습 레이블 데이터 분포:
 1    50
0    50
Name: lable, dtype: int64
검증 레이블 데이터 분포:
 2    50
Name: lable, dtype: int64


### 2020-03-19-Thu

진도: 03. Model Selection 모듈 소개 ~ (108쪽 ~) 

이렇게 하게 되면 학습레이블과 검증 레이블이 완전히 다른 값으로 추출된 것. 예를 들어 첫번째에서는 학습을 1,2만 하고 검증은 0으로 하니까 0은 학습할 수 없음. 당연히 이런 유형으로 교차 검증 데이터 세트를 분할 하면 검증 예측 정확도는 0이 될 수밖에 없음.

StratifiedKFold는 KFold로 분할된 레이블 데이터 세트가 전체 레이블 값의 분포도를 반영하지 못하는 문제를 해결해줌. 이 경우 피처 데이터 세트 뿐만 아니라 레이블 데이터 세트도 split() 메서드에 인자로 필요함.

In [18]:
from sklearn.model_selection import StratifiedKFold 

skf = StratifiedKFold(n_splits=3)
n_iter=0

for train_index, test_index in skf.split(iris_df, iris_df['lable']): 
    n_iter += 1 
    label_train = iris_df['lable'].iloc[train_index]
    label_test = iris_df['lable'].iloc[test_index]
    print('## 교차 검증: {0}'.format(n_iter))
    print('학습 레이블 데이터 분포:\n', label_train.value_counts())
    print('검증 레이블 데이터 분포:\n', label_test.value_counts())

## 교차 검증: 1
학습 레이블 데이터 분포:
 2    33
1    33
0    33
Name: lable, dtype: int64
검증 레이블 데이터 분포:
 2    17
1    17
0    17
Name: lable, dtype: int64
## 교차 검증: 2
학습 레이블 데이터 분포:
 2    33
1    33
0    33
Name: lable, dtype: int64
검증 레이블 데이터 분포:
 2    17
1    17
0    17
Name: lable, dtype: int64
## 교차 검증: 3
학습 레이블 데이터 분포:
 2    34
1    34
0    34
Name: lable, dtype: int64
검증 레이블 데이터 분포:
 2    16
1    16
0    16
Name: lable, dtype: int64


학습 레이블과 검증 레이블 데이터 값의 분포도가 동일하게 할당. 이렇게 분할 되어야 레이블 값 0,1,2를 모두 학습할 수 있고, 이에 기반해 검증할 수 있음. 

StratifiedKFold를 이용해 붓꽃 데이터 교차 검증해보기

In [19]:
dt_clf = DecisionTreeClassifier(random_state=156)

skfold = StratifiedKFold(n_splits=3)
n_iter=0
cv_accuracy=[]

# StratifiedKFold의 split() 호출시 반드시 레이블 데이터 세트도 추가 입력 필요
for train_index, test_index in skfold.split(features, label):
    # split()으로 반환된 인덱스를 이용해 학습용, 검증용 테스트 데이터 추출 
    X_train, X_test = features[train_index], features[test_index]
    y_train, y_test = label[train_index], label[test_index]
    # 학습 및 예측 
    dt_clf.fit(X_train, y_train)
    pred = dt_clf.predict(X_test)
    
    # 반복 시마다 정확도 측정 
    n_iter += 1
    accuracy = np.round(accuracy_score(y_test, pred), 4)  # 4자리 수에서 반올림
    train_size = X_train.shape[0]
    test_size = X_test.shape[0]
    print('\n#{0} 교차 검증 정확도 :{1}, 학습 데이터 크기: {2}, 검증 데이터 크기: {3}'
         .format(n_iter, accuracy, train_size, test_size))
    print('#{0} 검증 세트 인덱스:{1}'.format(n_iter, test_index))
    cv_accuracy.append(accuracy)

# 교차 검증별 정확도 및 평균 정확도 계산 
print('\n## 교차 검증별 정확도:', np.round(cv_accuracy, 4))
print('## 평균 검증 정확도:', np.mean(cv_accuracy))


#1 교차 검증 정확도 :0.9804, 학습 데이터 크기: 99, 검증 데이터 크기: 51
#1 검증 세트 인덱스:[  0   1   2   3   4   5   6   7   8   9  10  11  12  13  14  15  16  50
  51  52  53  54  55  56  57  58  59  60  61  62  63  64  65  66 100 101
 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116]

#2 교차 검증 정확도 :0.9216, 학습 데이터 크기: 99, 검증 데이터 크기: 51
#2 검증 세트 인덱스:[ 17  18  19  20  21  22  23  24  25  26  27  28  29  30  31  32  33  67
  68  69  70  71  72  73  74  75  76  77  78  79  80  81  82  83 117 118
 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133]

#3 교차 검증 정확도 :0.9792, 학습 데이터 크기: 102, 검증 데이터 크기: 48
#3 검증 세트 인덱스:[ 34  35  36  37  38  39  40  41  42  43  44  45  46  47  48  49  84  85
  86  87  88  89  90  91  92  93  94  95  96  97  98  99 134 135 136 137
 138 139 140 141 142 143 144 145 146 147 148 149]

## 교차 검증별 정확도: [0.9804 0.9216 0.9792]
## 평균 검증 정확도: 0.9604


일반적으로 분류(Classification)에서의 교차 검증은 K 폴드가 아니라 Stratified K 폴드로 분할돼야 함. 회귀(Regression)에서는 Stratified K 폴드가 지원되지 않음.(연속된 숫자값이라 결정값 별로 분포를 정하는 의미가 없음) 

##### 교차 검증을 보다 간편하게 - cross_val_score()

사이킷런은 교차 검증을 좀 더 편리하게 수행할 수 있게 해주는 API 제공. 대표적인 것이 **cross_val_score()**

- cross_val_score(**estimator, X, y=None, scoring=None, cv=None**, n_jobs=1, verbose=0, fit_params=None, pre_dispatch='2*n_jobs')
- estimator: 분류냐 회귀냐 
- X: 피처 데이터 세트 
- y: 레이블 데이터 세트 
- scoring: 예측 성능 평가 지표 기술 
- cv: 교차 검증 폴드 수 
- 반환 값은 scoring 파라미터로 지정된 성능지표 측정값을 배열 형태로 반환 
- classifier가 입력되면, Stratified K 폴드 방식으로 레이블값의 분포에 따라 학습/테스트 세트를 분할
- Regression이면, Stratified K 폴드 방식으로 분할할 수 없으므로 K 폴드 방식으로 분할


In [20]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import cross_val_score, cross_validate
from sklearn.datasets import load_iris 

iris_data = load_iris()
dt_clf = DecisionTreeClassifier(random_state=156)

data = iris_data.data
label = iris_data.target

# 성능 지표는 정확도(accuracy), 교차 검증 세트는 3개 
scores = cross_val_score(dt_clf, data, label, scoring='accuracy', cv=3)
print('교차 검증별 정확도:', np.round(scores, 4))
print('평균 검증 정확도:', np.round(np.mean(scores), 4))

교차 검증별 정확도: [0.9804 0.9216 0.9792]
평균 검증 정확도: 0.9604


cross_val_score() API는 내부에서 Estimator를 학습(fit), 예측(predict), 평가(evaluation)시켜주므로 간단하게 교차검증 수행할 수 있음. 

- cross_validate(): 여러개의 평가지표를 반환할 수 있음.

### 2020-03-20-Fri

진도: 04. Model Selection 모듈 소개 ~ (113쪽 ~) 

#### GridSearchCV - 교차 검증과 최적 하이퍼 파라미터 튜닝을 한 번에

하이퍼 파라미터는 머신러닝 알고리즘을 구성하는 주요 구성 요소이며, 이 값을 조정해 알고리즘의 예측 성능을 개선할 수 있음. 사이킷런은 GridSearchCV API를 이용해 Classifier나 Regressor와 같은 같은 알고리즘에 사용되는 하이퍼 파라미터를 순차적으로 입력하면서 편리하게 최적의 파라미터를 도출할 수 있는 방안을 제공함. GridSearchCV는 교차 검증을 기반으로 이 하이퍼 파라미터의 최적 값을 찾게 해줌.

In [21]:
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import GridSearchCV, train_test_split
from sklearn.metrics import accuracy_score

# 데이터를 로딩하고 학습 데이터와 테스트 데이터 분리 
iris_data = load_iris()

X_train, X_test, y_train, y_test = train_test_split(iris_data.data, iris_data.target,
                                                   test_size=0.2, random_state=121)
dtree = DecisionTreeClassifier()

# 파라미터를 딕셔너리 형태로 지정 
parameters = {'max_depth': [1,2,3], 'min_samples_split':[2,3]}

In [22]:
import pandas as pd 

# param_grid의 하이퍼 파라미터를 3개의 train, test set fold로 나누어 테스트 수행 설정.
### refit=True가 default임. True이면 가장 좋은 파라미터 설정으로 재학습시킴. 
grid_dtree = GridSearchCV(dtree, param_grid=parameters, cv=3, refit=True)

# 붓꽃 학습 데이터로 param_grid의 하이퍼 파라미터를 순차적으로 학습/평가
grid_dtree.fit(X_train, y_train)

# GridSearchCV 결과를 추출해 데이터프레임으로 변환
### cv_results_는 gridsearchcv의 결과 세트
score_df = pd.DataFrame(grid_dtree.cv_results_)
score_df[['params','mean_test_score','rank_test_score',
         'split0_test_score','split1_test_score','split2_test_score']]

Unnamed: 0,params,mean_test_score,rank_test_score,split0_test_score,split1_test_score,split2_test_score
0,"{'max_depth': 1, 'min_samples_split': 2}",0.7,5,0.7,0.7,0.7
1,"{'max_depth': 1, 'min_samples_split': 3}",0.7,5,0.7,0.7,0.7
2,"{'max_depth': 2, 'min_samples_split': 2}",0.958333,3,0.925,1.0,0.95
3,"{'max_depth': 2, 'min_samples_split': 3}",0.958333,3,0.925,1.0,0.95
4,"{'max_depth': 3, 'min_samples_split': 2}",0.975,1,0.975,1.0,0.95
5,"{'max_depth': 3, 'min_samples_split': 3}",0.975,1,0.975,1.0,0.95


- rank_test_score: 하이퍼 파라미터별로 성능이 좋은 score 순위
- mean_test_score: 개별 하이퍼 파라미터별로 CV의 폴딩 테스트 세트에 대해 총 수행한 평가 평균값

In [23]:
print('GridSearchCV 최적 파라미터:', grid_dtree.best_params_)
print('GridSearchCV 최고 정확도:{0:.4f}'.format(grid_dtree.best_score_))

GridSearchCV 최적 파라미터: {'max_depth': 3, 'min_samples_split': 2}
GridSearchCV 최고 정확도:0.9750


In [24]:
# GridSearchCV의 refit으로 이미 학습된 estimator 반환
estimator = grid_dtree.best_estimator_

# GridSearchCV의 best_estimator_는 이미 최적 학습이 됐으므로 별도 학습이 필요 없음
pred = estimator.predict(X_test)
print('테스트 데이터 세트 정확도: {0:.4f}'.format(accuracy_score(y_test, pred)))

테스트 데이터 세트 정확도: 0.9667


### 2020-03-21-Sat

진도: 05. 데이터 전처리 ~ (118쪽 ~) 

### 05. 데이터 전처리 

데이터 전처리는 ML 알고리즘만큼 중요함. 데이터에 기반하고 있기 때문에 어떤 데이터를 입력으로 가지느냐에 따라 결과도 크게 달라질 수 있음. 

- 결손값은 허용되지 않음! Null값은 다른 값으로 변환해야 함. 
    1. Null 값이 몇 안되면, 피처의 평균값으로 간단히 대체 
    2. Null 값이 대부분이면, 해당 피처는 드롭 
    3. Null 값이 일정 수준이 이상이면, (중요도가 높은 피처라면) Null을 단순히 평균값으로 대체하게 될 경우 예측 왜곡이 심할 수 있음. 그래서 정밀한 대체 값을 선택해줘야 함. 
    
- 문자열 값을 입력 값으로 허용하지 않음. 👉 모든 문자열 값은 인코딩돼서 숫자형으로 변환해야 함 
    1. 문자열 피처 1) 카테고리형 피처 2) 텍스트형 피처 
    2. 카테고리형 피처는 코드 값으로 표현 
    3. 텍스트형 피처는 피처 벡트화 등의 기법으로 벡터화하거나, 불필요한 피처라 판단되면 삭제. 주민번호나 단순 문자열 아이디의 경우, 인코딩하지 않고 삭제하는게 좋음(예측에 중요한 요소도 아니고, 알고리즘을 복잡하게 만들어 예측 성능을 떨어뜨리기 때문)
    
#### 데이터 인코딩 

대표적으로 **레이블 인코딩(Label encoding)과 원-핫 인코딩(One Hot encoding)**이 있음. 

##### 레이블 인코딩
- 카테고리 피처를 코드형 숫자 값으로 변환 
- LabelEncoder 클래스로 구현
- fit(), transform()을 호출해 레이블 인코딩 수행

In [25]:
from sklearn.preprocessing import LabelEncoder 

items = ['TV', '냉장고','전자레인지','컴퓨터','선풍기','선풍기','믹서','믹서']

# LabelEncoder를 객체로 생성한 후, fit()과 transform()으로 레이블 인코딩 수행. 
encoder = LabelEncoder()
encoder.fit(items)
labels = encoder.transform(items)
print('인코딩 변환값:', labels)

인코딩 변환값: [0 1 4 5 3 3 2 2]


In [26]:
# 데이터가 많은 경우 classes_ 속성값으로 확인
### 순서대로 0,1,2,3,4,5로 인코딩
print('인코딩 클래스:', encoder.classes_)

인코딩 클래스: ['TV' '냉장고' '믹서' '선풍기' '전자레인지' '컴퓨터']


In [27]:
# inverse_transform()으로 다시 디코딩 
print('디코딩 원본값:', encoder.inverse_transform([4,5,2,0,1,1,3,3]))

디코딩 원본값: ['전자레인지' '컴퓨터' '믹서' 'TV' '냉장고' '냉장고' '선풍기' '선풍기']


그러나 몇몇 ML 알고리즘에는 이를 적용할 때 예측 성능이 떨어지는 경우가 발생. **숫자 값의 경우 크고 작음에 대한 특성이 작용**하기 때문. 특정 ML 알고리즘에서 가중치가 더 부여되거나 더 중요하게 인식할 가능성이 발생. 그래서 레이블 인코딩은 선형 회귀와 같은 ML 알고리즘에 적용하지 않아야 함. 

이런 문제점을 해결하기 위한 것이 **원-핫 인코딩** 방식

##### 원-핫 인코딩(One-Hot Encoding)

피처 값의 유형에 따라 새로운 피처를 추가해 고유 값에 해당하는 칼럼에만 1을 표시하고 나머지 칼럼에는 0을 표시하는 방식.
- OneHotEncoder 클래스로 쉽게 변환
    1. OneHotEncoder로 변환하기 전에 모든 문자열 값이 숫자형 값으로 변환되어야 함
    2. 입력 값으로 2차원 데이터가 필요함.

In [28]:
from sklearn.preprocessing import OneHotEncoder 
import numpy as np 

items = ['TV','냉장고','전자레인지','컴퓨터','선풍기','선풍기','믹서','믹서']

# 먼저 숫자 값으로 변환을 위해 LabelEncoder로 변환함 
encoder = LabelEncoder()
encoder.fit(items)
labels = encoder.transform(items)
# 2차원 데이터로 변환
labels = labels.reshape(-1,1)
labels

array([[0],
       [1],
       [4],
       [5],
       [3],
       [3],
       [2],
       [2]])

In [29]:
# 원-핫 인코딩 적용
oh_encoder = OneHotEncoder()
oh_encoder.fit(labels)
oh_labels = oh_encoder.transform(labels)
print('원-핫 인코딩 데이터')
print(oh_labels.toarray())
print('원-핫 인코딩 데이터 차원')
print(oh_labels.shape)

원-핫 인코딩 데이터
[[1. 0. 0. 0. 0. 0.]
 [0. 1. 0. 0. 0. 0.]
 [0. 0. 0. 0. 1. 0.]
 [0. 0. 0. 0. 0. 1.]
 [0. 0. 0. 1. 0. 0.]
 [0. 0. 0. 1. 0. 0.]
 [0. 0. 1. 0. 0. 0.]
 [0. 0. 1. 0. 0. 0.]]
원-핫 인코딩 데이터 차원
(8, 6)


In case you used a LabelEncoder before this OneHotEncoder to convert the categories to integers, then you can now use the OneHotEncoder directly.


- 판다스는 원-핫 인코딩을 더 쉽게 지원하는 **get_dummies()** API가 있음.

In [30]:
import pandas as pd 

df = pd.DataFrame({'items':['TV','냉장고','전자레인지','컴퓨터','선풍기','선풍기','믹서','믹서']})
pd.get_dummies(df)

Unnamed: 0,items_TV,items_냉장고,items_믹서,items_선풍기,items_전자레인지,items_컴퓨터
0,1,0,0,0,0,0
1,0,1,0,0,0,0
2,0,0,0,0,1,0
3,0,0,0,0,0,1
4,0,0,0,1,0,0
5,0,0,0,1,0,0
6,0,0,1,0,0,0
7,0,0,1,0,0,0


### 2020-03-22-Sun

진도: 05. 데이터 전처리 ~ (124쪽 ~) 

#### 피처 스케일링과 정규화 

피처 스케일링은 서로 다른 변수의 값 범위를 일정한 수준으로 맞추는 작업. 

- 표준화: 데이터 피처 각각이 평균=0, 분산=1인 정규분포를 가진 값으로 변환 
- 정규화: 서로 다른 피처의 크기를 통일하기위해 크기를 변환해주는 개념, 최소 0 ~ 최대1의 값으로 변환. 개별 데이터의 크기를 모두 똑같은 단위로 변경. 
- 벡터 정규화: 선형대수에서의 정규화 개념 적용, 개별 벡터의 크기를 맞추기 위해 변환하는 것을 의미. 즉, 개별 벡터를 모든 피처 벡터의 크기로 나눠줌. -> 크기가 1인 벡터로 표준화 시켜주는 것(단위 벡터) 

#### StandardScaler 

표준화를 쉽게 지원하기 위한 클래스. 

In [31]:
from sklearn.datasets import load_iris 
import pandas as pd 

# 붓꽃 데이터 세트를 로딩하고 DataFrame으로 변환 
iris = load_iris()
iris_data = iris.data
iris_df = pd.DataFrame(iris_data, columns = iris.feature_names)
iris_df.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2


In [32]:
print('feature들의 평균 값')
print(iris_df.mean())
print('feature들의 분산 값')
print(iris_df.var())

feature들의 평균 값
sepal length (cm)    5.843333
sepal width (cm)     3.057333
petal length (cm)    3.758000
petal width (cm)     1.199333
dtype: float64
feature들의 분산 값
sepal length (cm)    0.685694
sepal width (cm)     0.189979
petal length (cm)    3.116278
petal width (cm)     0.581006
dtype: float64


In [33]:
from sklearn.preprocessing import StandardScaler

# StandardScaler객체 생성 
scaler = StandardScaler()
# StandardScaler로 데이터 세트 변환. fit()과 transform() 호출. 
scaler.fit(iris_df)
iris_scared = scaler.transform(iris_df)
print(type(iris_scared))

# transform()시 스케일 변환된 데이터 세트가 NumPy ndarray로 반환돼 이를 DataFrame으로 변환 
iris_df_scaled = pd.DataFrame(data=iris_scared, columns=iris.feature_names)
print('feature 들의 평균 값')
print(iris_df_scaled.mean())
print('\nfeature 들의 분산 값')
print(iris_df_scaled.var())

<class 'numpy.ndarray'>
feature 들의 평균 값
sepal length (cm)   -1.690315e-15
sepal width (cm)    -1.842970e-15
petal length (cm)   -1.698641e-15
petal width (cm)    -1.409243e-15
dtype: float64

feature 들의 분산 값
sepal length (cm)    1.006711
sepal width (cm)     1.006711
petal length (cm)    1.006711
petal width (cm)     1.006711
dtype: float64


#### MinMaxScaler 

데이터값을 0과 1사이의 범위 값으로 변환. (-1 음수가 있으면 1값으로 변환) 데이터의 분포가 가우시안 분포가 아닐 경우에 Min, Max Scaler을 적용해 볼 수 있음. 

In [34]:
from sklearn.preprocessing import MinMaxScaler 

# MinMaxScaler 생성 
scaler = MinMaxScaler()
# MinMaxScaler로 데이터 세트 변환. fit()과 transform() 호출.
scaler.fit(iris_df)
iris_scaled = scaler.transform(iris_df)

#transform()시 스케일 변환된 데이터 세트가 NumPy ndarray로 반환돼 이를 DataFrame으로 변환 
iris_df_scaled = pd.DataFrame(iris_scaled, columns=iris.feature_names)
print('feature 들의 평균 값')
print(iris_df_scaled.min())
print('\nfeature 들의 분산 값')
print(iris_df_scaled.max())

feature 들의 평균 값
sepal length (cm)    0.0
sepal width (cm)     0.0
petal length (cm)    0.0
petal width (cm)     0.0
dtype: float64

feature 들의 분산 값
sepal length (cm)    1.0
sepal width (cm)     1.0
petal length (cm)    1.0
petal width (cm)     1.0
dtype: float64


#### 학습 데이터와 테스트 데이터의 스케일링 변환 시 유의점

테스트 데이터 세트로는 다시 fit()을 수행하지 않고 학습 데이터 세트로 fit()을 수행한 결과를 이용해 transform() 변환을 적용해야 함. 새로 하게 되면, 학습 데이터와 테스트 데이터의 스케일링 기준 정보가 서로 달라지기 때문에 올바른 예측 결과를 도출하지 못할 수 있음. 

In [35]:
from sklearn.preprocessing import MinMaxScaler 
import numpy as np 

# 학습 데이터는 0부터 10까지, 테스트 데이터는 0부터 5까지 값을 가지는 데이터 세트로 생성 
# Scaler 클래스의 fit(), transform()은 2차원 이상 데이터만 가능하므로 reshape(1,1)로 차원 변경
train_array = np.arange(0,11).reshape(-1,1)
test_array = np.arange(0,6).reshape(-1,1)

In [36]:
# MinMaxScaler 객체에 별도의 feature_range 파라미터 값을 지정하지 않으면 0~1 값으로 변환
scaler = MinMaxScaler()

# fit()하게 되면 test_array 데이터의 최솟값이 0, 최댓값이 10으로 설정. 
scaler.fit(train_array)

# 1/10 scale로 train_array 데이터 변환함. 원본 10 -> 1로 변환됨. 
train_scaled = scaler.transform(train_array)

print('원본 train_array 데이터:', np.round(train_array.reshape(-1),2))
print('Scale된 train_array 데이터:', np.round(train_array.reshape(-1),2))

원본 train_array 데이터: [ 0  1  2  3  4  5  6  7  8  9 10]
Scale된 train_array 데이터: [ 0  1  2  3  4  5  6  7  8  9 10]


In [37]:
# fit()을 새로 호출하게 되면? 

# MinMaxScaler에 test_array를 fit()하게 되면 원본 데이터의 최솟값이 0, 최댓값이 5로 설정됨
scaler.fit(test_array)

# 1/5 scale로 test_array 데이터 변환함. 원본 5->1로 변환. 
test_scaled = scaler.transform(test_array)

# test_array의 scaler 변환 출력. 
print('원본 train_array 데이터:', np.round(test_array.reshape(-1),2))
print('Scale된 train_array 데이터:', np.round(test_scaled.reshape(-1),2))

원본 train_array 데이터: [0 1 2 3 4 5]
Scale된 train_array 데이터: [0.  0.2 0.4 0.6 0.8 1. ]


출력 결과는 학습 데이터와 테스트 데이터의 스케일링이 맞지 않음을 알 수 있음. 머신러닝 모델은 학습 데이터를 기반으로 학습되기 때문에 반드시 테스트 데이터는 학습 데이터의 스케일링 기준에 따라야 하고, 테스트 데이터의 1값은 학습 데이터와 동일하게 0.1값으로 변환돼야 함. 따라서 테스트 데이터에 다시 fit()을 적용해서는 안 되며 학습 데이터로 이미 fit()이 적용된 Scaler 객체를 이용해 transform()으로 변환해야 함.

In [38]:
scaler = MinMaxScaler()
scaler.fit(train_array)
train_scaled = scaler.transform(train_array)
print('원본 train_array 데이터:', np.round(train_array.reshape(-1),2))
print('Scale된 train_array 데이터:', np.round(train_scaled.reshape(-1),2))

# test_array에 Scale 변환을 할 때는 반드시 fit()을 호출하지 않고 transform()만으로 변환해야 함. 
test_scaled = scaler.transform(test_array)
print('\n원본 train_array 데이터:', np.round(test_array.reshape(-1),2))
print('Scale된 train_array 데이터:', np.round(test_scaled.reshape(-1),2))

원본 train_array 데이터: [ 0  1  2  3  4  5  6  7  8  9 10]
Scale된 train_array 데이터: [0.  0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1. ]

원본 train_array 데이터: [0 1 2 3 4 5]
Scale된 train_array 데이터: [0.  0.1 0.2 0.3 0.4 0.5]


fit_transform()을 적용할 때도 마찬가지임. 

1. 가능하다면 전체 데이터의 스케일링 변환을 적용한 뒤 학습과 테스트 데이터로 분리 
2. 1이 여의치 않다면 테스트 데이터 변환 시에는 fit()이나 fit_transform()을 적용하지않고 학습 데이터로 이미 fit()된 Scaler 객체를 이용해 transform()으로 변환