p.87~131

## Chapter 2. 사이키럿으로 시작하는 머신러닝

## 1. 사이킷런 소개와 특징

사이킷런:파이썬 기반의 머신러닝을 위한 가장 쉽고 효율적인 개발 라이브러리를 제공

- 파이썬 기반의 다른 머신러닝 패키지도 사이킷런 스타일의 API를 지향할 정도로 쉽고 파이썬스러운 API를 제공한다.

- 머신러닝을 위한 매우 다양한 알고리즘과 개발을 위한 편리한 프레임워크와 API를 제공한다.

- 오랜 기간 실전 환경에서 검증되었으며 매우 많은 환경에서 사용되는 성숙한 라이브러리

In [None]:
import sklearn
print(sklearn.__version__)

1.0.2


## 2. 첫번째 머신러닝 만들어 보기 - 붓꽃 품종 예측하기

분류(Classification)

- 지도학습 : 학습을 위한 다양한 피처와 분류 결정값인 레이블 데이터로 모델을 학습한 뒤, 별도의 테스트 데이터 세트에서 미지의 레이블을 예측한다. 즉, 명확한 정답이 주어진 데이터를 먼저 학습한 뒤 미지의 정답을 예측하는 방식

- sklearn.datasets : 사이킷런에서 자체적으로 제공하는 데이터 세트를 생성하는 모듈의 모임

- sklearn.tree : 트리 기반 ML 알고리즘을 구현한 클래스의 모임

- sklearn.model_selection : 학습 데이터와 검증 데이터, 예측 데이터로 데이터를 분리하거나 최적의 하이퍼 파라미터로 평가하기 위한 다양한 모듈의 모임

- 하이퍼 파라미터 : 머신러닝 알고리즘별로 최적의 학습을 위해 직접 입력하는 파라미터들 -> 하이퍼 파라미터를 통해 머신러닝 알고리즘의 성능을 튜닝할 수 있음.

In [None]:
from sklearn.datasets import load_iris # 붓꽃 데이터 세트 생성
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split

In [None]:
import pandas as pd
iris = load_iris() # 붓꽃 데이터 세트 로딩
iris_data=iris.data # iris.data는 Iris 데이터 세트에서 피처(feature)만으로 된 데이터를 numpy로 가지고 있음
iris_label=iris.target # iris.target은 붓꽃 데이터 세트에서 레이블(결정 값) 데이터를 numpy로 가지고 있음
print('iris target값:',iris_label)
print('iris target명:',iris.target_names)

# 붓꽃 데이터 세트를 자세히 보기 위해 DataFrame으로 변환
iris_df=pd.DataFrame(data=iris_data,columns=iris.feature_names)
iris_df['label']=iris.target
iris_df.head()

# feature에는 sepal length, sepal width, petal length, petal width가 있음
# label은 0,1,2 값으로 되어 있음 (0: Setosa 품종, 1:versiolor 품종, 2:virginica 품종)

iris target값: [0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2
 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
 2 2]
iris target명: ['setosa' 'versicolor' 'virginica']


Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),label
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0
3,4.6,3.1,1.5,0.2,0
4,5.0,3.6,1.4,0.2,0


In [None]:
# 테스트 데이터 20%, 학습 데이터 80%로 데이터 분할

X_train, X_test, y_train, y_test = train_test_split(iris_data, iris_label, test_size=0.2, random_state=11) # X: feature 데이터 세트, Y: label 데이터 세트, random_state는 난수 발생 값(random seed)

In [None]:
# DecisionTreeClassifier 객체 생성
dt_clf = DecisionTreeClassifier(random_state=11)
# 학습 수행
dt_clf.fit(X_train, y_train)

# 학습이 완료된 DecisonTreeClassifier 객체에서 테스트 데이터 세트로 예측 수행
pred=dt_clf.predict(X_test)

# 모델의 성능 평가 - 정확도: 예측 결과가 실제 레이블 값과 얼마나 정확하게 맞는지를 평가하는 지표
from sklearn.metrics import accuracy_score
print("예측 정확도: {0:.4f}".format(accuracy_score(y_test,pred)))
# 학습한 의사 결정 트리의 알고리즘 정확도가 0.9333(93.33%)로 측정됨

예측 정확도: 0.9333


붓꽃 데이터 세트로 분류를 예측한 프로세스

1. 데이터 세트 분리: 데이터를 학습 데이터와 테스트 데이터로 분리합니다.

2. 모델 학습: 학습 데이터를 기반으로 ML알고리즘을 적용해 모델을 학습시킨다.

3. 예측 수행: 학습된 ML모델을 이용해 테스트 데이터의 분류(즉,붓꽃 종류)를 예측한다.

4. 평가: 이렇게 예측된 결괏값과 테스트 데이터의 실제 결괏값을 비교해 ML 모델 성능을 평가한다.

## 3. 사이킷런의 기반 프레임워크 익히기

Estimator: 지도학습의 모든 알고리즘을 구현한 클래스를 통칭

Estimator 

학습: fit(), 예측: predict()

- 분류: DecisionTreeClassifier, RandomForestClassifier, GradientBoostingClassifier, GaussianNB, SVC

- 회귀: LinearRegression, Ridge, Lasso, RandomForestRegressor, GradientBoostingRegressor

비지도학습(차원 축소, 클러스터링, 피처 추출)에서도 대부분 fit()과 transform()을 적용 -> 비지도학습과 피처 추출에서 fit()은 지도학습의 fit()과 같이 학습을 의미하는 것이 아니라 입력 데이터의 형태에 맞추어 데이터를 변환하기 위한 사전 구조를 맞추는 작업

이후, transform()으로 입력 데이터의 차원 변환, 클러스터링, 피터 추출 등의 실제 작업 수행

fit_transform(): fit()과 transform()을 하나로 결합

### 사이킷런의 주요 모듈

<예제 데이터>

- sklearn.datasets : 사이킷런에 내장되어 예제로 제공하는 데이터 세트

<피처 처리>

- sklearn.preprocessing : 데이터 전처리에 필요한 다양한 가공 기능 제공(문자열을 숫자형 코드 값으로 인코딩,정규화, 스케일링 등)

- sklearn.feature_selection : 알고리즘에 큰 영향을 미치는 피처를 우선순위대로 셀렉션 작업을 수행하는 다양한 기능 제공

- sklearn.feature_extraction : 텍스트 데이터나 이미지 데이터의 벡터화된 피처를 추출하는데 사용됨. 예를 들어 텍스트 데이터에서 Count Vectorize나 Tf-Idf Vectorizer 등을 생성하는 기능 제공. 텍스트 데이터의 피처 추출은 sklearn.feature_extraction.text 모듈에, 이미지 데이터 피처 추출은 sklearn.feature_extraction.image 모듈에 지원 API가 있음.


<피처 처리 & 차원 축소>

- sklearn.decomposition : 차원 축소와 관련한 알고리즘을 지원하는 모듈임. PCA, NMF, Truncated SVD 등을 통해 차원 축소 기능을 수행할 수 있음


<데이터 분리, 검증 & 파라미터 튜닝>

- sklearn.model_selection : 교차 검증을 위한 학습용/테스트용 분리, 그리드 서치(Grid Search)로 최적 파라미터 추출 등의 API 제공

<평가>

- sklearn.metrics : 분류, 회귀, 클러스터링, 페어와이즈(Pairwise)에 대한 다양한 성능 측정 방법 제공. Accuracy, Precision, Recall, ROC-AUC, RSME 등 제공

<ML 알고리즘>

- sklearn.ensemble : 앙삼블 알고리즘 제공. 랜덤 포레스트, 에이다 부스트, 그래디언트 부스팅 등을 제공

- sklearn.linear_model : 주로 선형 회귀, 릿지(Ridge), 라쏘(Lasso) 및 로지스틱 회귀 등 회귀 관련 알고리즘을 지원. 또한 SGD(Stochastic Gradient Descent) 관련 알고리즘도 제공

- sklearn.naive_bayes : 나이브 베이즈 알고리즘 제공. 가우시안 NB. 다항분포 NB 등

- sklearn.neighbors : 최근접 이웃 알고리즘 제공. K-NN 등

- sklearn.svm : 서포트 벡터 머신 알고리즘 제공

- sklearn.tree : 의사 결정 트리 알고리즘 제공

- sklearn.cluster : 비지도 클러스터링 알고리즘 제공 (K-평균, 계층형, DBSCAN 등)

<유틸리티>

sklearn.pipeline : 피처 처리 등의 변환과 ML 알고리즘 학습, 예측 등을 함께 묶어서 실행할 수 있는 유틸리티 제공

### 내장된 예제 데이터 세트

- datasets.load_boston() : 회귀 용도이며, 미국 보스턴의 집 피처들과 가격에 대한 데이터 세트

- datasets.load_breast_cancer() : 분류 용도이며, 위스콘신 유방암 피처들과 악성/음성 레이블 데이터 세트

- datasets.load_diabetes() : 회귀 용도이며, 당뇨 데이터 세트

- datsets.load_digits() : 분류 용도이며, 0에서 9까지 숫자의 이미지 픽셀 데이터 세트

- datasets.load_iris() : 분류 욛도이며, 붓꽃에 대한 피처를 가진 데이터 세트

### fetch 계열의 명령 : 
데이터 크기가 커서 패키지에 처음부터 저장되어 있지 않고 인터넷에서 내려받아 홈 디렉토리 아래의 scikit_learn_data라는 서브 디렉토리에 저장한 후 추후 불러들이는 데이터

- fetch_covtype(): 회귀 분석용 토지 조사 자료

- fetch_20newsgroups() : 뉴스 그룹 텍스트 자료

- fetch_olivetti_faces() : 얼굴 이미지 자료

- fetch_lfw_people() : 얼굴 이미지 자료

- fetch_lfw_pairs() : 얼굴 이미지 자료

- fetch_rcv1() : 로이터 뉴스 말뭉치

- fetch_mldata() : ML 웹사이트에서 다운로드

### 분류와 클러스터링을 위한 표본 데이터 생성기

- datasets.make_classifications() : 분류를 위한 데이터 세트를 만듬. 특히 높은 상관도, 불필요한 속성 등의 노이즈 효과를 위한 데이터를 무작위로 생성해 준다.

- datasets.make_blobs() : 클러스터링을 위한 데이터 세트를 무작위로 생성해 준다. 군집 지정 개수에 따라 여러 가지 클러스터링을 위한 데이터 세트를 쉽게 만들어 준다. 

### 사이킷런에 내장된 데이터 세트에서 key

- data는 피처의 데이터 세트 

- target은 분류 시 레이블 값, 회귀일 때는 숫자 결괏값 데이터 세트

- target_names은 개별 레이블의 이름

- feature_names은 피처의 이름

- DESCR은 데이터 세트에 대한 설명과 각 피처의 설명

- data, target은 넘파이 배열(ndarray)

 target_names, feature_names는 넘파이 배열 또는 파이썬 리스트 타입

 DESCR은 스트링 타입

In [1]:
from sklearn.datasets import load_iris

iris_data=load_iris()
print(type(iris_data)) # Bunch 클래스는 파이썬 딕셔너리 자료형과 유사함.

<class 'sklearn.utils.Bunch'>


In [2]:
keys=iris_data.keys()
print("붓꽃 데이터 세트의 키들:",keys)

붓꽃 데이터 세트의 키들: dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names', 'filename', 'data_module'])


In [10]:
print("\n feature_names의 type:",type(iris_data.feature_names))
print(' feature_names의 shape:',len(iris_data.feature_names))
print(iris_data.feature_names)

print('\n target_names의 type:',type(iris_data.target_names))
print(' target_names의 shape:',len(iris_data.target_names))
print(iris_data.target_names)

print('\n data의 type:',type(iris_data.data))
print(' data의 shape:',iris_data.data.shape)
print(iris_data['data'])

print('\n target의 type:',type(iris_data.target))
print(' target의 shape:',iris_data.target.shape)
print(iris_data.target)


 feature_names의 type: <class 'list'>
 feature_names의 shape: 4
['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']

 target_names의 type: <class 'numpy.ndarray'>
 target_names의 shape: 3
['setosa' 'versicolor' 'virginica']

 data의 type: <class 'numpy.ndarray'>
 data의 shape: (150, 4)
[[5.1 3.5 1.4 0.2]
 [4.9 3.  1.4 0.2]
 [4.7 3.2 1.3 0.2]
 [4.6 3.1 1.5 0.2]
 [5.  3.6 1.4 0.2]
 [5.4 3.9 1.7 0.4]
 [4.6 3.4 1.4 0.3]
 [5.  3.4 1.5 0.2]
 [4.4 2.9 1.4 0.2]
 [4.9 3.1 1.5 0.1]
 [5.4 3.7 1.5 0.2]
 [4.8 3.4 1.6 0.2]
 [4.8 3.  1.4 0.1]
 [4.3 3.  1.1 0.1]
 [5.8 4.  1.2 0.2]
 [5.7 4.4 1.5 0.4]
 [5.4 3.9 1.3 0.4]
 [5.1 3.5 1.4 0.3]
 [5.7 3.8 1.7 0.3]
 [5.1 3.8 1.5 0.3]
 [5.4 3.4 1.7 0.2]
 [5.1 3.7 1.5 0.4]
 [4.6 3.6 1.  0.2]
 [5.1 3.3 1.7 0.5]
 [4.8 3.4 1.9 0.2]
 [5.  3.  1.6 0.2]
 [5.  3.4 1.6 0.4]
 [5.2 3.5 1.5 0.2]
 [5.2 3.4 1.4 0.2]
 [4.7 3.2 1.6 0.2]
 [4.8 3.1 1.6 0.2]
 [5.4 3.4 1.5 0.4]
 [5.2 4.1 1.5 0.1]
 [5.5 4.2 1.4 0.2]
 [4.9 3.1 1.5 0.2]
 [5.  3.2 1.2 0.2]
 [5

## 4 Model Selection 모듈 소개

사아킷런의 model selection 모듈:

학습 데이터와 테스트 세트를 분리하거나 교차 검증 분할 및 평가, Estimator의 하이퍼 파라미터를 튜닝하기 위한 다양한 함수와 클래스를 제공

### 학습/테스트 데이터 세트 분리 - train_test_split()

In [12]:
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score

iris=load_iris()
dt_clf=DecisionTreeClassifier()
train_data=iris.data
train_label=iris.target
dt_clf.fit(train_data,train_label)

# 학습 데이터 세트로 예측 수행
pred=dt_clf.predict(train_data)
print('예측 정확도:',accuracy_score(train_label,pred))

# 이미 학습한 학습 데이터 세트를 지반으로 예측했기 때문에 정확도가 100%
# 예측을 수행하는 데이터 세트는 학습을 수행한 학습용 데이터 세트가 아닌 전용의 테스트 데이터 세트여야 한다.

예측 정확도: 1.0


- test_size : 전체 데이터에서 테스트 데이터 세트 크기를 얼마로 샘플링할 것인가를 결정, default는 0.25

- train_size : 전체 데이터에서 학습용 데이터 세트 크기를 얼마로 샘플링할 것인가를지 결정. test_size parameter로 통상적으로 사용하여 train_size는 잘 사용되지 않음.

- shuffle : 데이터를 분리하기 전에 미리 섞을 지 결정. default는 True

- random_state : 호출할 때 마다 동일한 학습/테스트용 데이터 세트를 생성하기 위해 주어지는 난수 값. 미지정 시, 수행할 때마다 다른 학습/테스트용 데이터를 생성

- train_test_split() : 반환값은 튜플 형태. 순차적으로 학습용 데이터의 피처 데이터 세트, 테스트용 데이터의 피터 데이터 세트, 학습용 데이터의 레이블 데이터 세트, 테스트용 데이터의 레이블 데이터 세트가 반환

In [5]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split

dt_clf=DecisionTreeClassifier()
iris_data=load_iris()

X_train, X_test, y_train, y_test = train_test_split(iris_data.data,iris_data.target, test_size=0.3, random_state=121)

# 학습 데이터를 기반으로 DeicisonTreeClassifier를 학습하고 예측 정확도를 측정
dt_clf.fit(X_train,y_train)
pred=dt_clf.predict(X_test)
print('예측 정확도: {0:.4f}'.format(accuracy_score(y_test,pred)))

예측 정확도: 0.9556


### 교차 검증

과적합(Overfitting):모델이 학습 데이터에만 과도하게 최적화되어, 실제 예측은 다른 데이터로 수행할 경우에는 예측 성능이 과도하게 떨어지는 것

고정된 학습 데이터와 테스트 데이터로 평가를 하다 보면 테스트 데이터에만 최적의 성능을 발휘할 수 있도록 편향되기 모델을 유도하는 경향이 생김, 해당 테스트 데이터에만 과적화되는 학습 모델이 만들어져 다른 테스트용 데이터가 들어올 경우에는 성능이 저하됨. -> 교차 검증 필요

### K 폴드 교차 검증

- 가장 보편적인 교차 검증 기법

- K개의 데이터 폴드 세트를 만들어 K번만큼 각 폴드 세트에 학습과 검증 평가를 반복적으로 수행하는 방법

ex. K=5일 때, 5 폴드 교차 검증:

5개의 폴드된 데이터 세트를 학습과 검증을 위한 데이터 세트로 변경하면서 5번 평가를 수행한 뒤, 이 5개의 평가를 평균한 결과를 가지고 예측 성능을 평가

In [6]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score
from sklearn.model_selection import KFold
import numpy as np

iris=load_iris()
features=iris.data
label=iris.target
dt_clf=DecisionTreeClassifier(random_state=156)

# 5개의 폴드 세트로 분리하는 KFold 객체와 폴드 세트별 정확도를 담을 리스트 객체 생성
kfold=KFold(n_splits=5)
cv_accuracy=[]
print('붓꽃 데이터 세트 크기:',features.shape[0])

붓꽃 데이터 세트 크기: 150


In [7]:
# 전체 붓꽃 데잍너는 모두 150개이므로 학습용 데이터 세트는 120개(4/5), 검증 테스트 데이터 세트는 30개(1/5)로 분할된다.
# KFold 객체는 split()을 호출하면 학습용/검증용 데이터로 분할할 수 있는 인덱스를 반환

n_iter=0

# KFold 객체의 split()을 호출하면 폴드 별 학습용, 검증용 데이터의 로우 인덱스를 array로 반환
for train_index, test_index in kfold.split(features):
  # kfold.split()으로 반환된 인덱스를 이용해 학습용, 검증용 테스트 데이터 추출
  X_train, X_test = features[train_index], features[test_index]
  y_train, y_test = label[train_index], label[test_index]
  # 학습 및 예측
  dt_clf.fit(X_train, y_train)
  pred=dt_clf.predict(X_test)
  n_iter+=1
  # 반복 시마다 정확도 측정
  accuracy=np.round(accuracy_score(y_test,pred),4)
  train_size=X_train.shape[0]
  test_size=X_test.shape[0]
  print('\n#{0} 교차 검증 정확도 :{1}, 학습 데이터 크기: {2}, 검증 데이터 크기: {3}'.format(n_iter,accuracy, train_size, test_size))
  print('#{0} 검증 데이터 인덱스:{1}'.format(n_iter, test_index))
  cv_accuracy.append(accuracy)

# 개별 iteration별 정확도를 합하여 평균 정확도 계산
print('\n## 평균 검증 정확도:',np.mean(cv_accuracy))


#1 교차 검증 정확도 :1.0, 학습 데이터 크기: 120, 검증 데이터 크기: 30
#1 검증 데이터 인덱스:[ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
 24 25 26 27 28 29]

#2 교차 검증 정확도 :0.9667, 학습 데이터 크기: 120, 검증 데이터 크기: 30
#2 검증 데이터 인덱스:[30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53
 54 55 56 57 58 59]

#3 교차 검증 정확도 :0.8667, 학습 데이터 크기: 120, 검증 데이터 크기: 30
#3 검증 데이터 인덱스:[60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83
 84 85 86 87 88 89]

#4 교차 검증 정확도 :0.9333, 학습 데이터 크기: 120, 검증 데이터 크기: 30
#4 검증 데이터 인덱스:[ 90  91  92  93  94  95  96  97  98  99 100 101 102 103 104 105 106 107
 108 109 110 111 112 113 114 115 116 117 118 119]

#5 교차 검증 정확도 :0.7333, 학습 데이터 크기: 120, 검증 데이터 크기: 30
#5 검증 데이터 인덱스:[120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137
 138 139 140 141 142 143 144 145 146 147 148 149]

## 평균 검증 정확도: 0.9


### Stratified K 폴드

- 불균형한(imbalanced) 분포도를 가진 레이블(결정 클래스) 데이터 집합을 위한 K 폴드 방식

  *불균형한 분포도를 가진 레블 데이터 집합: 특정 레이블 값이 특이하게 많거나 매우 적어서 값의 분포가 한쪽으로 치우치는 것

- ex) 대출 사기 데이터 예측 - 대출 사기 레이블은 아주 작은 확률로 존재하므로, K폴드로 랜덤하게 학습 및 테스트 세트의 인덱스를 고르더라도 특정 레이블에 상대적으로 많이 들어있을 수 있어 원본 데이터와 유사한 대출 사기 레이블 값의 분포를 학습/데이터 세트에도 유지하는게 중요함.
 
 -> Stratified K 폴드는 K폴드가 레이블 데이터 집합이 원본 데이터 집합의 레이블 분포를 학습 및 테스트 세트에 제대로 분배하지 못하는 경우의 문제를 해결해줌.

- 원본 데이터의 레이블 분포를 먼저 고려한 뒤 이 분포와 동일하게 학습과 검증 데이터 세트를 분배함.

In [8]:
# K폴드가 가지고 있는 문제 확인
import pandas as pd
iris=load_iris()
iris_df=pd.DataFrame(data=iris.data, columns=iris.feature_names)
iris_df['label']=iris.target
print(iris_df['label'].value_counts(),'\n')

# 이슈가 발생하는 형상을 도출하기 위해 3개의 폴드 세트를 KFold로 생성하고, 각 교차 검증 시마다 생성하는 학습/검증 레이블 데이터 값의 분포도를 확인
kfold=KFold(n_splits=3)
n_iter=0
for train_index, test_index in kfold.split(iris_df):
  n_iter+=1
  label_train=iris_df['label'].iloc[train_index]
  label_test=iris_df['label'].iloc[test_index]
  print('## 교차 검증:{0}'.format(n_iter))
  print('학습 레이블 데이터 분포:\n',label_train.value_counts())
  print('검증 레이블 데이터 분포:\n',label_test.value_counts())
  print('')
# K폴드로 교차 검증 시, 3개의 폴드 각각은 특정 레이블에 치우친 데이터가 생성되어 검증 예측 정확도는 0

0    50
1    50
2    50
Name: label, dtype: int64 

## 교차 검증:1
학습 레이블 데이터 분포:
 1    50
2    50
Name: label, dtype: int64
검증 레이블 데이터 분포:
 0    50
Name: label, dtype: int64

## 교차 검증:2
학습 레이블 데이터 분포:
 0    50
2    50
Name: label, dtype: int64
검증 레이블 데이터 분포:
 1    50
Name: label, dtype: int64

## 교차 검증:3
학습 레이블 데이터 분포:
 0    50
1    50
Name: label, dtype: int64
검증 레이블 데이터 분포:
 2    50
Name: label, dtype: int64



In [9]:
# StratifiedKFold는 Kfold로 분할된 레이블 데이터 세트가 전체 레이블 값의 분포도를 반영하지 못하는 문제를 해결
# StratifiedKFold는 레이블 데이터 분포도에 따라 학습/검증 데이터를 나누기 때문에 split()메서드에 인자로 피처 데이터 세트뿐만 아니라 레이블 데이터 세트도 반드시 필요

from sklearn.model_selection import StratifiedKFold
skf=StratifiedKFold(n_splits=3)
n_iter=0

for train_index, test_index in skf.split(iris_df, iris_df['label']):
  n_iter+=1
  label_train=iris_df['label'].iloc[train_index]
  label_test=iris_df['label'].iloc[test_index]
  print('## 교차 검증:{0}'.format(n_iter))
  print("학습 레이블 데이터 분포:\n",label_train.value_counts())
  print('검증 레이블 데이터 분포:\n',label_test.value_counts())
  
# 학습 레이블과 검증 레이블 데이터 값의 분포도가 동일하게 할당됨

## 교차 검증:1
학습 레이블 데이터 분포:
 2    34
0    33
1    33
Name: label, dtype: int64
검증 레이블 데이터 분포:
 0    17
1    17
2    16
Name: label, dtype: int64
## 교차 검증:2
학습 레이블 데이터 분포:
 1    34
0    33
2    33
Name: label, dtype: int64
검증 레이블 데이터 분포:
 0    17
2    17
1    16
Name: label, dtype: int64
## 교차 검증:3
학습 레이블 데이터 분포:
 0    34
1    33
2    33
Name: label, dtype: int64
검증 레이블 데이터 분포:
 1    17
2    17
0    16
Name: label, dtype: int64


In [12]:
dt_clf=DecisionTreeClassifier(random_state=156)

skfold=StratifiedKFold(n_splits=3)
n_iter=0
cv_accuracy=[]

# StratifiedKFold의 split() 호출시 반드시 레이블 데이터 세트도 추가 입력 필요
for train_index, test_index in skfold.split(features,label):
  # split()으로 반환된 인덱스를 이용해 학습용, 검증용 테스트 데이터 추출
  X_train, X_test = features[train_index], features[test_index]
  y_train, y_test = label[train_index], label[test_index]
  # 학습 및 예측
  dt_clf.fit(X_train, y_train)
  pred=dt_clf.predict(X_test)

  # 반복 시마다 정확도 측정
  n_iter+=1
  accuracy=np.round(accuracy_score(y_test,pred),4)
  train_size=X_train.shape[0]
  test_size=X_test.shape[0]
  print('\n#{0} 검증 세트 인덱스:{1}, 학습 데이터 크기: {2}, 검증 데이터 크기: {3}'.format(n_iter, accuracy, train_size, test_size))
  print("#{0} 검증 세트 인덱스:{1}".format(n_iter, test_index))
  cv_accuracy.append(accuracy)

# 교차 검증별 정확도 및 평균 정확도 계산
print('\n## 교차 검증별 정확도:', np.round(cv_accuracy,4))
print('## 평균 검증 정확도:',np.mean(cv_accuracy))


#1 검증 세트 인덱스:0.98, 학습 데이터 크기: 100, 검증 데이터 크기: 50
#1 검증 세트 인덱스:[  0   1   2   3   4   5   6   7   8   9  10  11  12  13  14  15  16  50
  51  52  53  54  55  56  57  58  59  60  61  62  63  64  65  66 100 101
 102 103 104 105 106 107 108 109 110 111 112 113 114 115]

#2 검증 세트 인덱스:0.94, 학습 데이터 크기: 100, 검증 데이터 크기: 50
#2 검증 세트 인덱스:[ 17  18  19  20  21  22  23  24  25  26  27  28  29  30  31  32  33  67
  68  69  70  71  72  73  74  75  76  77  78  79  80  81  82 116 117 118
 119 120 121 122 123 124 125 126 127 128 129 130 131 132]

#3 검증 세트 인덱스:0.98, 학습 데이터 크기: 100, 검증 데이터 크기: 50
#3 검증 세트 인덱스:[ 34  35  36  37  38  39  40  41  42  43  44  45  46  47  48  49  83  84
  85  86  87  88  89  90  91  92  93  94  95  96  97  98  99 133 134 135
 136 137 138 139 140 141 142 143 144 145 146 147 148 149]

## 교차 검증별 정확도: [0.98 0.94 0.98]
## 평균 검증 정확도: 0.9666666666666667


### 교차 검증을 보다 간편하게 - cross_val_score()

cross_val_score(estimator, X, y=None, scoring=None, cv=None)

- estimator : 사이킷런 분류 알고리즘 클래스인 Classifier 또는 회귀 알고리즘 클래스인 Regressor

- X는 피처 데이터 세트

- y는 레이블 데이터 세트

- scoring은 예측 성능 평가 지표

- cv는 교차 검증 폴드 수

cross_val_score() 

- 수행 후 반환값은 scoring 파라미터로 지정된 성능 지표 측정값을 배열 형태로 반환

- classifier가 입력되면 Stratified K폴드 방식으로 레이블값의 분포에 따라 학습/데이터 세트를 분할 / 회귀인 경우는 Stratified K폴드 방식으로 분할할 수 없으므로 K폴드 방식으로 분할함.

cross val_score()은 하나의 평가 지표만 가능하지만, cross_validate()는 여러 개의 평가 지표를 반환할 수 있음.

In [14]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import cross_val_score, cross_validate
from sklearn.datasets import load_iris

iris_data=load_iris()
dt_clf=DecisionTreeClassifier(random_state=156)

data=iris_data.data
label=iris_data.target

# 성능 지표는 정확도(accuracy), 교차 검증 세트는 3개
scores=cross_val_score(dt_clf, data, label, scoring='accuracy', cv=3) 
# cross_val_score은 cv로 지정된 횟수만큼 scoring 파라미터로 지정된 평가 지표로 평가 결괏값을 배열로 반환
print('교차 검증별 정확도:',np.round(scores,4))
print('평균 검증 정확도:',np.round(np.mean(scores),4))
# cross_val_score()가 내부적으로 Stratified KFold를 이용하기 때문에 이전 결과와 동일

교차 검증별 정확도: [0.98 0.94 0.98]
평균 검증 정확도: 0.9667


### GridSearchCV - 교차 검증과 최적 하이퍼 파라미터 튜닝을 한 번에

하이퍼 파라미터: 머신러닝 알고리즘을 구성하는 주요 오소이며, 이 값을 조정해 알고리즘의 예측 성능을 개선 가능

사이킷런은 GridSearchCV API를 이용해 Classifier나 Regressor와 같은 알고리즘에 사용되는 하이퍼 파라미터를 순차적으로 입력하면서 편리하게 최적의 파라미터를 도출할 수 있는 방안을 제공

In [15]:
grid_parameters={'max_depth':[1,2,3],
                 'min_samples_split':[2,3]} 
# CV가 3회라면, 6개의 파라미터 조합이므로 18회의 학습/평가가 이뤄짐.

GridSearchCV

- 데이터 세트를 cross-validation을 위한 학습/데이터 세트로 자동으로 분할한 뒤에 하이퍼 파라미터 그리드에 기술된 모든 파라미터를 순차적으로 적용해 하이퍼 파라미터의 최적 값을 찾게 해줌.

- 편리하지만, 수행시간이 상대적으로 오래 걸림

GridSearchCV 클래스의 생성자로 들어가는 주요 파라미터

- estimator : classifier, regressor, pipeline이 사용될 수 있음.

- param_gird : key+리스트 값을 가지는 딕서녀리가 주어진다. estimator의 튜닝을 위해 파라미터명과 사용될 여러 파라미터값을 지정한다.

- scoring : 예측 성능을 측정할 평가 방법을 지정한다. 보통은 사이킷런의 성능 평가 지표를 지정하는 문자열(ex.정확도의 경우 'accuracy')로 지정하나 별도의 성능 평가 지표 함수도 지정할 수 있다.

- cv : 교차 검증을 위해 분할되는 학습/테스트 세트의 개수를 지정한다.

- refit : 디폴트가 True이며 True로 생성 시 가장 최적의 하이퍼 파라미터를 찾은 뒤 입력된 estimator 객체를 해당 하이퍼 파라미터로 재학습시킨다.

In [16]:
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import GridSearchCV

# 데이터를 로딩하고 학습 데이터와 테스트 데이터 분리
iris=load_iris()
X_train, X_test, y_train, y_test = train_test_split(iris_data.data, iris_data.target, test_size=0.2, random_state=121)
dtree=DecisionTreeClassifier()

# 파라미터를 딕셔너리 형태로 설정
parameters={'max_depth':[1,2,3],'min_samples_split':[2,3]}

학습 데이터 세트를 GridSearchCV 객쳋의 fit 메서드에 인자로 입력하여 수행하면 학습 데이터를 cv에 기술된 폴딩 세트로 분할해 param_grid에 기술된 하이퍼 파라미터를 순차적으로 변경하면서 학습/평가를 수행하고 그 결과를 cv_results_ 속성에 기록

cv_results_는 gridsearchcv의 결과 세트로서 딕셔너리 형태로 key값과 리스트 형태의 value값을 가진다. cv_results_를 데이터프레임으로 변환하면 더 쉽게 확인 가능

In [17]:
import pandas as pd

# param_grid의 하이퍼 파라미터를 3개의 train, test set fold로 나누어 테스트 수행 설정
### refit=True가 default. True이면 가장 좋은 파라미터 설정으로 재학습시킴.

grid_dtree=GridSearchCV(dtree,param_grid=parameters, cv=3, refit=True)

# 붓꽃 학습 데이터로 param_grid의 하이퍼 파라미터를 순차적으로 학습/평가
grid_dtree.fit(X_train, y_train)

# GridSearchCV 결과를 추출해 DataFrame으로 변환
scores_df=pd.DataFrame(grid_dtree.cv_results_)
scores_df[['params','mean_test_score','rank_test_score','split0_test_score','split1_test_score','split2_test_score']]

# 하이퍼 파라미터 max_depth와 min_samples_split을 순차적으로 6번 변경하면서 학습 및 평가를 수행했음.
# rank_test_score은 평가한 결과 예측 성능(mean_test_score) 순위

Unnamed: 0,params,mean_test_score,rank_test_score,split0_test_score,split1_test_score,split2_test_score
0,"{'max_depth': 1, 'min_samples_split': 2}",0.7,5,0.7,0.7,0.7
1,"{'max_depth': 1, 'min_samples_split': 3}",0.7,5,0.7,0.7,0.7
2,"{'max_depth': 2, 'min_samples_split': 2}",0.958333,3,0.925,1.0,0.95
3,"{'max_depth': 2, 'min_samples_split': 3}",0.958333,3,0.925,1.0,0.95
4,"{'max_depth': 3, 'min_samples_split': 2}",0.975,1,0.975,1.0,0.95
5,"{'max_depth': 3, 'min_samples_split': 3}",0.975,1,0.975,1.0,0.95


- params 칼럼에는 수행할 때마다 적용된 개별 하이퍼 파라미터 값을 나타낸다.

- rank_test_score은 하이퍼 파라미터별로 성능이 좋은 score순위를 나타낸다. 1이 가장 뛰어난 순위이며 이때의 파라미터가 최적의 하이퍼 파라미터이다.

- mean_test_score은 개별 하이퍼 파라미터별로 CV의 폴딩 테스트 세트에 대해 총 수행한 평가 평균값이다.

best_params_, best_score_속성은 GridSearchCV 객체의 fit()을 수행하면 최고 성능을 나타낸 하이퍼 파라미터의 값과 그때의 평가 결과 값이 기록

In [19]:
print('GridSearchCV 최적 파라미터:',grid_dtree.best_params_)
print('GridSearchCV 최고 정확도:{0:.4f}'.format(grid_dtree.best_score_))

GridSearchCV 최적 파라미터: {'max_depth': 3, 'min_samples_split': 2}
GridSearchCV 최고 정확도:0.9750


In [21]:
# GridSearchCV의 refit으로 이미 학습된 estimator 반환
estimator=grid_dtree.best_estimator_

# GridSearchCV의 best_estimator_는 이미 최적 학습이 되었으므로 별도 학습이 필요 없음
pred=estimator.predict(X_test)
print('테스트 데이처 세트 정확도: {0:.4f}'.format(accuracy_score(y_test,pred)))

# 일반적으로 학습 데이터를 GridSearchCV를 이용해 최적 하이퍼 파라미터 튜닝을 수행한 뒤에 별도의 테스트 세트에서 이를 평가

테스트 데이처 세트 정확도: 0.9667


## 5. 데이터 전처리

- 결손값(NaN, Null) 값 X

- 문자열 값을 입력 값으로 혀용X -> 모든 문자열 값은 인코딩돼서 숫자형으로 변환 필요

### 데이터 인코딩

**레이블 인코딩**(Label encoding): 카테고리 피처를 코드형 숫자 값으로 변환하는 것 

- LabelEncoder 클래스로 구현

- 숫자 값에 따른 순서나 중요도로 인식될 수 있어 선형 회귀와 같은 ML알고리즘에 적용X, 트리 계열의 ML알고리즘은 숫자의 이러한 특성을 반영하지 않으므로 레이블 인코딩에서 문제가 생기지 않음.

**원-핫 인코딩**(One Hot encoding): 피처 값의 유형에 따라 새로운 피처를 추가해 고유 값에 해당하는 칼럼에만 1을 표시하고 나머지 칼럼에는 0을 표시하는 방식

- OneHotEncoder 클래스로 구현

- OneHotEncoder로 변환 전 모든 문자열 값이 숫자형 값으로 변환되어야 함.

- 입력 값으로 2차원 데이터가 필요

In [24]:
# 레이블 인코딩

from sklearn.preprocessing import LabelEncoder

items=['TV','냉장고','전자레인지','컴퓨터','선풍기','선풍기','믹서','믹서']

# LabelEncoder로 객체를 생성한 후, fit()과 transform()으로 레이블 인코딩 수행
encoder=LabelEncoder()
encoder.fit(items)
labels=encoder.transform(items)
print('인코딩 변환값:',labels)

# 어떤 문자열 값이 어떤 숫자값으로 인코딩되었는지 확인
print('인코딩 클래스:',encoder.classes_)

# 인코딩된 값을 다시 디코딩
print('디코딩 원본값:',encoder.inverse_transform([4,5,2,0,1,1,3,3]))

인코딩 변환값: [0 1 4 5 3 3 2 2]
인코딩 클래스: ['TV' '냉장고' '믹서' '선풍기' '전자레인지' '컴퓨터']
디코딩 원본값: ['전자레인지' '컴퓨터' '믹서' 'TV' '냉장고' '냉장고' '선풍기' '선풍기']


In [26]:
# 원핫인코딩

from sklearn.preprocessing import OneHotEncoder
import numpy as np

items=['TV','냉장고','전자레인지','컴퓨터','선풍기','선풍기','믹서','믹서']

# 먼저 숫자 값으로 변환을 위해 LabelEncoder로 변환
encoder=LabelEncoder()
encoder.fit(items)
labels=encoder.transform(items)

# 2차원 데이터로 변환
labels=labels.reshape(-1,1)

# 원핫인코딩을 적용
oh_encoder=OneHotEncoder()
oh_encoder.fit(labels)
oh_labels=oh_encoder.transform(labels)
print('원 핫 인코딩 데이터 \n',oh_labels.toarray())
print('원 핫 인코딩 데이터 차원\n',oh_labels.shape)

원 핫 인코딩 데이터 
 [[1. 0. 0. 0. 0. 0.]
 [0. 1. 0. 0. 0. 0.]
 [0. 0. 0. 0. 1. 0.]
 [0. 0. 0. 0. 0. 1.]
 [0. 0. 0. 1. 0. 0.]
 [0. 0. 0. 1. 0. 0.]
 [0. 0. 1. 0. 0. 0.]
 [0. 0. 1. 0. 0. 0.]]
원 핫 인코딩 데이터 차원
 (8, 6)


In [27]:
# 판다스에서 원 핫 인코딩을 더 쉽게 지원하는 API : get_dummies()

import pandas as pd
df=pd.DataFrame({'item':['TV','냉장고','전자레인지','컴퓨터','선풍기','선풍기','믹서','믹서']})
pd.get_dummies(df)

# 숫자형 값으로 변환 없이 바로 변환 가능

Unnamed: 0,item_TV,item_냉장고,item_믹서,item_선풍기,item_전자레인지,item_컴퓨터
0,1,0,0,0,0,0
1,0,1,0,0,0,0
2,0,0,0,0,1,0
3,0,0,0,0,0,1
4,0,0,0,1,0,0
5,0,0,0,1,0,0
6,0,0,1,0,0,0
7,0,0,1,0,0,0


### 피처 스케일링과 정규화

- 피처 스케일링(feature scaling): 서로 다른 변수의 값 범위를 일정한 수준으로 맞추는 작업 (대표적으로 표준화, 정규화)

- 표준화: 데이터의 피처 각각이 평균이 0, 분산이 1인 가우시안 정규 분포를 가진 값으로 변환하는 것

      xi_new = (xi-mean(x))/sd(x)

- 정규화: 서로 다른 피처의 크기를 통일하기 위해 크기를 변환해줌. 개별 데이터의 크기를 모두 똑같은 단위(0~1)로 변경하여 비교 가능

      xi_new = (xi-min(x))/(max(x)-min(x))

- 벡터 정규화(사이킷런의 전처리에서 제공하는 Normalizer 모듈): 개별 벡터의 크기를 맞추기 위해 변환 (정규화와 큰 개념은 동일하나, 약간의 차이 존재)

      xi_new = xi / sqrt(xi^2 + yi^2 + zi^2)

### StandScaler 

- 표준화를 쉽게 지원하기 위한 클래스

- 개별 피처를 평균이 0, 분산이 1인 값으로 변환

- 사이킷런에서 구현한 RBF 커널을 이용하는 서포트 벡터 머신이나 선형 회귀, 로지스틱 회귀는 데이터가 가우시안 분포를 가지고 있다고 가정 후 구현되었기 때문에 표준화를 적용하는 것은 예측 성능 향상에 중요한 요소가 될 수 있음.

In [33]:
from sklearn.datasets import load_iris
import pandas as pd

# 붓꽃 데이터 세트를 로딩하고 DataFrame으로 변환
iris=load_iris()
iris_data=iris.data
iris_df=pd.DataFrame(data=iris_data,columns=iris.feature_names)

print('feature 들의 평균 값\n',iris_df.mean())
print('\nfeature들의 분산 값 \n',iris_df.var())

feature 들의 평균 값
 sepal length (cm)    5.843333
sepal width (cm)     3.057333
petal length (cm)    3.758000
petal width (cm)     1.199333
dtype: float64

feature들의 분산 값 
 sepal length (cm)    0.685694
sepal width (cm)     0.189979
petal length (cm)    3.116278
petal width (cm)     0.581006
dtype: float64


In [35]:
# StandardScaler를 이용해 표준화
from sklearn.preprocessing import StandardScaler

# StandardScaler 객체 생성
scaler=StandardScaler()
# StandardScaler로 데이터 객체 변환. fit()과 transform() 호출
scaler.fit(iris_df)
iris_scaled=scaler.transform(iris_df)

# transform() 시 스케일 변환된 데이터 세트가 Numpy ndarray로 반환되어 DataFrame으로 변환
iris_df_scaled=pd.DataFrame(data=iris_scaled,columns=iris.feature_names)

print('feature 들의 평균 값\n',iris_df_scaled.mean())
print('\nfeature들의 분산 값 \n',iris_df_scaled.var())

feature 들의 평균 값
 sepal length (cm)   -1.690315e-15
sepal width (cm)    -1.842970e-15
petal length (cm)   -1.698641e-15
petal width (cm)    -1.409243e-15
dtype: float64

feature들의 분산 값 
 sepal length (cm)    1.006711
sepal width (cm)     1.006711
petal length (cm)    1.006711
petal width (cm)     1.006711
dtype: float64


### MinMaxScaler

- 데이터 값을 0과 1사이의 범위 값으로 변환 (음수 값이 있으면 -1값에서 1값으로 변환)

- 데이터의 분포가 가우시안 분포가 아닐 경우에 적용해 볼 수 있음.

In [37]:
from sklearn.preprocessing import MinMaxScaler

# MinMaxScaler 객체 생성
scaler=MinMaxScaler()
# MinMaxScaler로 데이터 세트 변환. fit()과 transform() 호출
scaler.fit(iris_df)
iris_scaled=scaler.transform(iris_df)

# transform() 시 스케일 변환된 데이터 세트가 Numpy ndarray로 반환되어 이를 DataFrame으로 변환
iris_df_scaled=pd.DataFrame(data=iris_scaled, columns=iris.feature_names)

print('feature들의 최솟값 \n',iris_df_scaled.min())
print('\nfeature들의 최댓값 \n',iris_df_scaled.max())

feature들의 최솟값 
 sepal length (cm)    0.0
sepal width (cm)     0.0
petal length (cm)    0.0
petal width (cm)     0.0
dtype: float64

feature들의 최댓값 
 sepal length (cm)    1.0
sepal width (cm)     1.0
petal length (cm)    1.0
petal width (cm)     1.0
dtype: float64


### 학습 데이터와 테스트 데이터의 스케일링 변환 시 유의점

- fit(): 데이터 변환을 위한 기준 정보 설정

- transform(): 이렇게 설정된 정보를 이용해 데이터 변환

- fit_transform(): fit()과 transform()을 한번에 적용

Scaler 개체를 이용해 학습 데이터 세트에 fit()과 transform()을 적용하면 테스트 데이터 세트로는 다시 fit()을 수행하지 않고 학습 데이터 세트로 fit()을 수행한 결과를 이용해 transform() 변환을 적용해야 함. 

즉, 학습 데이터로 fit()이 적용된 스케일링 기준 정보를 그대로 테스트 데이터에 적용해야 함. 

-> 테스트 데이터에 fit을 적용X, 학습 데이터로 이미 fit이 적용된 Scaler 객체를 이용해 transform으로 변환

In [44]:
from sklearn.preprocessing import MinMaxScaler
import numpy as np

# 학습 데이터는 0부터 10까지, 테스트 데이터는 0부터 5까지 값을 가지는 데이터 세트로 생성
# Scaler 클래스의 fit(), transform()은 2차원 이상 데이터만 가능하므로 reshape(-1,1)로 차원 변경
train_array=np.arange(0,11).reshape(-1,1)
test_array=np.arange(0,6).reshape(-1,1)

# MinMaxScaler 객체에 별도의 feature_range 파라미터 값을 지정하지 않으면 0~1 값으로 변환
scaler=MinMaxScaler()

# fit()하게 되면 train_array 데이터의 최솟값이 0, 최댓값이 10으로 설정
scaler.fit(train_array)

# 1/10 scale로 train_array 데이터 변환함. 원본 10 -> 1로 변환됨
train_scaled = scaler.transform(train_array)

print('원본 train_array 데이터:', np.round(train_array.reshape(-1),2))
print('Scale된 train_array 데이터:', np.round(train_scaled.reshape(-1),2))

원본 train_array 데이터: [ 0  1  2  3  4  5  6  7  8  9 10]
Scale된 train_array 데이터: [0.  0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1. ]


In [45]:
# 테스트 데이터에 fit() 적용 시 오류 발생 예시

# MinMaxScaler에 test_array를 fit()하게 되면 원본 데이터의 최솟값이 0, 최댓값이 5로 설정됨
scaler.fit(test_array)

# 1/5 scale로 test_array 데이터 변환함. 원본 5->1로 변환
test_scaled = scaler.transform(test_array)

# test_array의 scale 변환 출력
print('원본 test_array 데이터:', np.round(test_array.reshape(-1), 2))
print('Scale된 test_array 데이터:', np.round(test_scaled.reshape(-1),2))

# 학습 데이터와 테스트 데이터의 스케일링이 맞지 않음. 서로 다른 원본값이 동일한 값으로 변환되는 결과 초래
# 머신러닝 모델은 학습 데이터를 기반으로 학습되기 떄문에 반드시 테스트 데이터는 학습 데이터의 스케일링 기준을 따라야 함. -> 테스트 데이터에 fit() 적용X

원본 test_array 데이터: [0 1 2 3 4 5]
Scale된 test_array 데이터: [0.  0.2 0.4 0.6 0.8 1. ]


In [47]:
# 올바른 방법

scaler=MinMaxScaler()
scaler.fit(train_array)
train_scaled=scaler.transform(train_array)
print('원본 train_array 데이터:',np.round(train_array.reshape(-1),2))
print('Scale된 train_array 데이터:',np.round(train_scaled.reshape(-1),2))

# test_array로 Scale 변환을 할 때는 반드시 fit()을 호출하지 않고 transform()만으로 변환해야 함.
test_scaled=scaler.transform(test_array)
print('\n원본 test_array 데이터:',np.round(test_array.reshape(-1),2))
print('Scale된 test_array 데이터:',np.round(test_scaled.reshape(-1),2))

원본 train_array 데이터: [ 0  1  2  3  4  5  6  7  8  9 10]
Scale된 train_array 데이터: [0.  0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1. ]

원본 test_array 데이터: [0 1 2 3 4 5]
Scale된 test_array 데이터: [0.  0.1 0.2 0.3 0.4 0.5]


fit_transofrm()도 테스트 데이터에서는 사용X

학습 데이터와 테스트 데이터의 fit(), transform(), fit_transform()을 이용해 스케일링 변환 시 유의할 점

1. 가능하다면 전체 데이터의 스케일링 변환을 적용한 뒤 학습과 테스트 데이터 분리

2. 1이 여의치 않다면 테스트 데이터 변환 시에는 fit()이나 fit_transform()을 적용하지 않고 학습 데이터로 이미 fit()된 scaler 객체를 이용하여 transform()으로 변환