## 붖꽃 품종 예측하기
- datasets : 붖꽃 데이터 세트(load_iris) 가져오기 위한 라이브러리
- tree : 학습 모듈 (DecisionTree : 의사 결정 트리)
- train_test_split : 데이터 분리를 위한 함수
- pandas : 데이터 핸들링을 위한 라이브러리
- accuracy_score : 정확도 측정을 위한 함수

In [1]:
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
import pandas as pd

In [2]:
# 붖꽃 데이터 세트 로딩 
iris = load_iris()

In [3]:
# 붖꽃 데이터 세트중 피처만으로 되어있는 데이터를 가져옴
iris_data = iris.data

In [4]:
# 데이터 확인
iris_label = iris.target
print('iris target값 : {}'.format(iris_label))
print('iris target명 : {}'.format(iris.target_names))

iris target값 : [0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2
 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
 2 2]
iris target명 : ['setosa' 'versicolor' 'virginica']


In [5]:
# 데이터 세트를 dataframe 으로 변경
# label 은 품종으로 0, 1, 2 로 구성되어 있음
iris_df = pd.DataFrame(data=iris_data, columns=iris.feature_names)
iris_df['label'] = iris.target
iris_df.head(5)

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),label
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0
3,4.6,3.1,1.5,0.2,0
4,5.0,3.6,1.4,0.2,0


In [6]:
# 데이터 분리 
# test_size=0.2 : 테스트 20%, 학습데이터 80% (default : 0.25)
# random_state=11 : 랜덤한 세트로 분리하기 위한 시드값 (시드값을 지정해주지 않으면 실행시마다 다른 세트로 나올수 있으며 11은 큰 의미 없으므로 다른 숫자를 넣어도 됨) 
# shuffle : 데이터를 분리하기전 미리 섞을 것인지 : (default: true)
x_train, x_test , y_train , y_test = train_test_split(iris_data, iris_label, test_size=0.2, random_state=11, shuffle=True)

In [7]:
# 트리 생성
dt_class = DecisionTreeClassifier(random_state=11)

In [8]:
# 학습 수행
dt_class.fit(x_train, y_train)

DecisionTreeClassifier(random_state=11)

In [9]:
# 학습 완료된 객체에서 테스트 데이터 세트로 예측 수행
pred = dt_class.predict(x_test)

In [10]:
# 정확도 출력 : 93%
print('정확도 : {0:.4f}'.format(accuracy_score(y_test, pred)))

정확도 : 0.9333


## 교차검증
### 1) K 폴드 교차 검증

In [11]:
from sklearn.model_selection import KFold
import numpy as np

In [12]:
iris = load_iris()
features = iris.data # 입력 데이터
label = iris.target # 정답 데이터
dt_class = DecisionTreeClassifier(random_state=156)

In [13]:
# K 폴드 선언
kfold = KFold(n_splits=5)
cv_accuracy = []
print('붖꽃 데이터 세트 크기 : ', features.shape[0])

붖꽃 데이터 세트 크기 :  150


In [14]:
n_iter = 0
# Kfold 의 split 함수 호출시 index 반환
for train_index, test_index in kfold.split(features):
    x_train, x_test = features[train_index], features[test_index]
    y_train, y_test = label[train_index], label[test_index]
    #학습 및 예측
    dt_class.fit(x_train, y_train)
    pred = dt_class.predict(x_test)
    n_iter+=1
    #정확도 측정
    accuracy = np.round(accuracy_score(y_test, pred), 4)
    train_size = x_train.shape[0]
    test_size = x_test.shape[0]
    print("[{0}] 번째 교차 검증".format(n_iter))
    print('- 교차 검증 정확도 : {0}, 학습 데이터 크기 : {1}, 검증 데이터 크기 : {2}'.format(accuracy, train_size, test_size))
    print('- 검증 인덱스 : {0}'.format(test_index))
    print("----------------------------------------------------------------------")
    cv_accuracy.append(accuracy)

[1] 번째 교차 검증
- 교차 검증 정확도 : 1.0, 학습 데이터 크기 : 120, 검증 데이터 크기 : 30
- 검증 인덱스 : [ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
 24 25 26 27 28 29]
----------------------------------------------------------------------
[2] 번째 교차 검증
- 교차 검증 정확도 : 0.9667, 학습 데이터 크기 : 120, 검증 데이터 크기 : 30
- 검증 인덱스 : [30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53
 54 55 56 57 58 59]
----------------------------------------------------------------------
[3] 번째 교차 검증
- 교차 검증 정확도 : 0.8667, 학습 데이터 크기 : 120, 검증 데이터 크기 : 30
- 검증 인덱스 : [60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83
 84 85 86 87 88 89]
----------------------------------------------------------------------
[4] 번째 교차 검증
- 교차 검증 정확도 : 0.9333, 학습 데이터 크기 : 120, 검증 데이터 크기 : 30
- 검증 인덱스 : [ 90  91  92  93  94  95  96  97  98  99 100 101 102 103 104 105 106 107
 108 109 110 111 112 113 114 115 116 117 118 119]
----------------------------------------------------------------------
[5] 번

In [15]:
# 정확도 : K개 검증 평균 => 90%
print("검증 정확도 : {}".format(np.mean(cv_accuracy)))

검증 정확도 : 0.9


### 2) stratified K 폴드
- 데이터가 편향되어 분배되는 것을 방지하기 위한 방법

In [16]:
from sklearn.model_selection import StratifiedKFold
import numpy as np

In [17]:
iris = load_iris()
features = iris.data # 입력 데이터
label = iris.target # 정답 데이터
dt_class = DecisionTreeClassifier(random_state=156)

In [18]:
# K 폴드 선언
skfold = StratifiedKFold(n_splits=5)
cv_accuracy = []
print('붖꽃 데이터 세트 크기 : ', features.shape[0])

붖꽃 데이터 세트 크기 :  150


In [19]:
n_iter = 0
# Kfold 의 split 함수 호출시 index 반환
for train_index, test_index in skfold.split(features, label):
    x_train, x_test = features[train_index], features[test_index]
    y_train, y_test = label[train_index], label[test_index]
    #학습 및 예측
    dt_class.fit(x_train, y_train)
    pred = dt_class.predict(x_test)
    n_iter+=1
    #정확도 측정
    accuracy = np.round(accuracy_score(y_test, pred), 4)
    train_size = x_train.shape[0]
    test_size = x_test.shape[0]
    print("[{0}] 번째 교차 검증".format(n_iter))
    print('- 교차 검증 정확도 : {0}, 학습 데이터 크기 : {1}, 검증 데이터 크기 : {2}'.format(accuracy, train_size, test_size))
    print('- 검증 인덱스 : {0}'.format(test_index))
    print("----------------------------------------------------------------------")
    cv_accuracy.append(accuracy)

[1] 번째 교차 검증
- 교차 검증 정확도 : 0.9667, 학습 데이터 크기 : 120, 검증 데이터 크기 : 30
- 검증 인덱스 : [  0   1   2   3   4   5   6   7   8   9  50  51  52  53  54  55  56  57
  58  59 100 101 102 103 104 105 106 107 108 109]
----------------------------------------------------------------------
[2] 번째 교차 검증
- 교차 검증 정확도 : 0.9667, 학습 데이터 크기 : 120, 검증 데이터 크기 : 30
- 검증 인덱스 : [ 10  11  12  13  14  15  16  17  18  19  60  61  62  63  64  65  66  67
  68  69 110 111 112 113 114 115 116 117 118 119]
----------------------------------------------------------------------
[3] 번째 교차 검증
- 교차 검증 정확도 : 0.9, 학습 데이터 크기 : 120, 검증 데이터 크기 : 30
- 검증 인덱스 : [ 20  21  22  23  24  25  26  27  28  29  70  71  72  73  74  75  76  77
  78  79 120 121 122 123 124 125 126 127 128 129]
----------------------------------------------------------------------
[4] 번째 교차 검증
- 교차 검증 정확도 : 0.9667, 학습 데이터 크기 : 120, 검증 데이터 크기 : 30
- 검증 인덱스 : [ 30  31  32  33  34  35  36  37  38  39  80  81  82  83  84  85  86  87
  88  89 130 131 132 133 134 135 136

In [20]:
# 정확도 : K개 검증 평균 => 96%
print("검증 정확도 : {}".format(np.mean(cv_accuracy)))

검증 정확도 : 0.9600200000000001


### 3) K 폴드 vs stratified K 폴드
- 분류에서는 stratified K 폴드를 주로 사용
- 회귀에서는 정답 데이터가 연속적인 값이기에 stratified K 폴드를 사용할 수 없다. (input에 정답 데이터를 넣기에)

In [21]:
# K 폴드 방식
kfold = KFold(n_splits=3)

n_iter = 0
for train_index, test_index in kfold.split(features):
    y_train, y_test = label[train_index], label[test_index]
    n_iter+=1
    print("[{0}] 번째 교차 검증".format(n_iter))
    print("- 학습 데이터\n{0}".format(pd.DataFrame(y_train).value_counts()))
    print("- 검증 데이터\n{0}".format(pd.DataFrame(y_test).value_counts()))
    print("------------------")

[1] 번째 교차 검증
- 학습 데이터
2    50
1    50
dtype: int64
- 검증 데이터
0    50
dtype: int64
------------------
[2] 번째 교차 검증
- 학습 데이터
2    50
0    50
dtype: int64
- 검증 데이터
1    50
dtype: int64
------------------
[3] 번째 교차 검증
- 학습 데이터
1    50
0    50
dtype: int64
- 검증 데이터
2    50
dtype: int64
------------------


In [22]:
# stratified K 폴드 방식
skfold = StratifiedKFold(n_splits=3)

n_iter = 0
for train_index, test_index in skfold.split(features, label):
    y_train, y_test = label[train_index], label[test_index]
    n_iter+=1
    print("[{0}] 번째 교차 검증".format(n_iter))
    print("- 학습 데이터\n{0}".format(pd.DataFrame(y_train).value_counts()))
    print("- 검증 데이터\n{0}".format(pd.DataFrame(y_test).value_counts()))
    print("------------------")

[1] 번째 교차 검증
- 학습 데이터
2    34
1    33
0    33
dtype: int64
- 검증 데이터
1    17
0    17
2    16
dtype: int64
------------------
[2] 번째 교차 검증
- 학습 데이터
1    34
2    33
0    33
dtype: int64
- 검증 데이터
2    17
0    17
1    16
dtype: int64
------------------
[3] 번째 교차 검증
- 학습 데이터
0    34
2    33
1    33
dtype: int64
- 검증 데이터
2    17
1    17
0    16
dtype: int64
------------------


### 4) 교차 검증을 간편하게
- cross_val_score
- 교차 검증을 위한 데이터를 나누고 , 학습을 시켜주고 , 정확도 리턴을 한번에 해준다.

In [23]:
from sklearn.model_selection import cross_val_score

In [24]:
iris_data = load_iris()
dt_class = DecisionTreeClassifier(random_state=156)

In [25]:
data = iris_data.data
label = iris_data.target

In [26]:
# 1 : 학습 모델
# 2 : 입력 데이터
# 3 : 출력 데이터
# 4(scoring) : 성능지표 (accuracy : 정확도)
# 5(cv) : 교차 검증 수
scores = cross_val_score(dt_class, data, label, scoring='accuracy', cv=3)

In [27]:
print('교차 검증별 정확도 : {}'.format(np.round(scores, 4)))
print('평균 검증 정확도 : {}'.format(np.round(np.mean(scores),4)))

교차 검증별 정확도 : [0.98 0.94 0.98]
평균 검증 정확도 : 0.9667


### 5) 교차검증 + 하이퍼 파라미터 튜닝
- GridSearchCV
- 입력 파라미터에 데이터가 없기에 데이터를 따로 넣어줘야함.

In [28]:
from sklearn.model_selection import GridSearchCV

In [29]:
iris_data = load_iris()
x_train, x_test , y_train , y_test = train_test_split(iris_data.data, iris_data.target, test_size=0.2, random_state=121)

In [30]:
dt_class = DecisionTreeClassifier()

In [31]:
parameters = {'max_depth':[1,2,3], 'min_samples_split':[2,3]}

In [32]:
# 1: 모델 명
# 2(param_grid) : 하이퍼 파라미터 
# 3(cv) : 교차 검증 수
# 4(refit) : True 면 좋은 하이퍼 파라미터로 한번더 학습시킴 (default: True) 
grid_dtree = GridSearchCV(dt_class, param_grid=parameters, cv=3, refit=True)

In [33]:
grid_dtree.fit(x_train, y_train)

GridSearchCV(cv=3, estimator=DecisionTreeClassifier(),
             param_grid={'max_depth': [1, 2, 3], 'min_samples_split': [2, 3]})

In [34]:
scores_df = pd.DataFrame(grid_dtree.cv_results_)
scores_df

Unnamed: 0,mean_fit_time,std_fit_time,mean_score_time,std_score_time,param_max_depth,param_min_samples_split,params,split0_test_score,split1_test_score,split2_test_score,mean_test_score,std_test_score,rank_test_score
0,0.000556,0.000103,0.00034,0.0001021713,1,2,"{'max_depth': 1, 'min_samples_split': 2}",0.7,0.7,0.7,0.7,1.110223e-16,5
1,0.000427,9e-06,0.000257,5.90778e-06,1,3,"{'max_depth': 1, 'min_samples_split': 3}",0.7,0.7,0.7,0.7,1.110223e-16,5
2,0.000427,5e-06,0.000253,0.0,2,2,"{'max_depth': 2, 'min_samples_split': 2}",0.925,1.0,0.95,0.958333,0.03118048,3
3,0.000427,8e-06,0.000254,2.545614e-06,2,3,"{'max_depth': 2, 'min_samples_split': 3}",0.925,1.0,0.95,0.958333,0.03118048,3
4,0.000429,2e-06,0.000252,5.61958e-07,3,2,"{'max_depth': 3, 'min_samples_split': 2}",0.975,1.0,0.95,0.975,0.02041241,1
5,0.000424,2e-06,0.00025,5.61958e-07,3,3,"{'max_depth': 3, 'min_samples_split': 3}",0.975,1.0,0.95,0.975,0.02041241,1


In [35]:
# 최적 파라미터 
print('최적 파라미터 : {}'.format(grid_dtree.best_params_))
print('학습 데이터로 교차 검증 3개 폴드의 최고 평균 정확도 : {}'.format(grid_dtree.best_score_))

최적 파라미터 : {'max_depth': 3, 'min_samples_split': 2}
학습 데이터로 교차 검증 3개 폴드의 최고 평균 정확도 : 0.975


In [36]:
# 최적 파라미터로 한번더 학습 됐는지 확인
pred = grid_dtree.predict(x_test)
print('테스트 데이터로 예측 정확도 : {}'.format(accuracy_score(y_test, pred)))

테스트 데이터로 예측 정확도 : 0.9666666666666667


In [37]:
# 최적 파라미터로 학습된 모델 반환
estimator = grid_dtree.best_estimator_

# 따로 학습할 필요가 없어 예측만 수행
pred = estimator.predict(x_test)
print('테스트 데이터로 예측 정확도 : {}'.format(accuracy_score(y_test, pred)))

테스트 데이터로 예측 정확도 : 0.9666666666666667


## 데이터 전처리

### 1) 레이블 인코딩

In [38]:
from sklearn.preprocessing import LabelEncoder

In [39]:
items = ['TV', '냉장고', '전자레인지']

In [40]:
encoder = LabelEncoder()
encoder.fit(items)
labels = encoder.transform(items)
print('인코딩 값 : {}'.format(labels))
print('인코딩 클래스 : {}'.format(encoder.classes_))
print('인코딩 값을 거꾸로 뒤집어서 디코드 : {}'.format(encoder.inverse_transform(list(reversed(labels)))))

인코딩 값 : [0 1 2]
인코딩 클래스 : ['TV' '냉장고' '전자레인지']
인코딩 값을 거꾸로 뒤집어서 디코드 : ['전자레인지' '냉장고' 'TV']


### 2) 원-핫 인코딩
- sklearn
- pandas

#### 1.  sklearn

In [41]:
from sklearn.preprocessing import OneHotEncoder

In [42]:
items = ['TV', '냉장고', '전자레인지','TV']

In [43]:
# 라벨 인코딩으로 숫자로 변환 후 1차원 > 2차원 변경 
encoder = LabelEncoder()
encoder.fit(items)
labels = encoder.transform(items)
print('데이터 차원\n{0} \n라벨 인코딩 데이터\n{1}'.format(labels.shape,labels))
labels = labels.reshape(-1,1)
print('------------')
print('데이터 차원\n{0} \n2차원으로 변형된 데이터\n{1}'.format(labels.shape,labels))

데이터 차원
(4,) 
라벨 인코딩 데이터
[0 1 2 0]
------------
데이터 차원
(4, 1) 
2차원으로 변형된 데이터
[[0]
 [1]
 [2]
 [0]]


In [44]:
# 원-핫 인코딩으로 변환
oh_encoder = OneHotEncoder()
oh_encoder.fit(labels)
oh_labels = oh_encoder.transform(labels)
print('원-핫 인코딩 데이터\n{0}'.format(oh_labels.toarray()))
print('원-핫 인코딩 데이터 차원\n{0}'.format(oh_labels.shape))

원-핫 인코딩 데이터
[[1. 0. 0.]
 [0. 1. 0.]
 [0. 0. 1.]
 [1. 0. 0.]]
원-핫 인코딩 데이터 차원
(4, 3)


#### 2.  pandas

In [45]:
import pandas as pd

In [46]:
df = pd.DataFrame({'item':items})
df

Unnamed: 0,item
0,TV
1,냉장고
2,전자레인지
3,TV


In [47]:
# 겟 더미스 사용시 쉽게 one-hot encoding 이 가능하다.
pd.get_dummies(df)

Unnamed: 0,item_TV,item_냉장고,item_전자레인지
0,1,0,0
1,0,1,0
2,0,0,1
3,1,0,0


## 피처 스케일링
- StandardScaler
- MinMaxScaler

### 현재 데이터 분포

In [48]:
iris = load_iris()
input_data = iris.data
input_df = pd.DataFrame(data=input_data, columns=iris.feature_names)
input_df

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2
...,...,...,...,...
145,6.7,3.0,5.2,2.3
146,6.3,2.5,5.0,1.9
147,6.5,3.0,5.2,2.0
148,6.2,3.4,5.4,2.3


In [49]:
print('평균값\n{}'.format(input_df.mean()))
print('분산값\n{}'.format(input_df.var()))

평균값
sepal length (cm)    5.843333
sepal width (cm)     3.057333
petal length (cm)    3.758000
petal width (cm)     1.199333
dtype: float64
분산값
sepal length (cm)    0.685694
sepal width (cm)     0.189979
petal length (cm)    3.116278
petal width (cm)     0.581006
dtype: float64


### Standard Scaler
- 표준화 : 평균은 0에 가까운값, 분산은 1에 가까운 가우시안 정규 분포를 가진 값으로 변경

In [50]:
from sklearn.preprocessing import StandardScaler

In [51]:
scaler = StandardScaler()
scaler.fit(input_df)
iris_scaled = scaler.transform(input_df) # numpy 로 리턴
type(iris_scaled)

numpy.ndarray

In [52]:
# dataframe 으로 변경
iris_scaled_df = pd.DataFrame(data=iris_scaled, columns=iris.feature_names)
iris_scaled_df

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,-0.900681,1.019004,-1.340227,-1.315444
1,-1.143017,-0.131979,-1.340227,-1.315444
2,-1.385353,0.328414,-1.397064,-1.315444
3,-1.506521,0.098217,-1.283389,-1.315444
4,-1.021849,1.249201,-1.340227,-1.315444
...,...,...,...,...
145,1.038005,-0.131979,0.819596,1.448832
146,0.553333,-1.282963,0.705921,0.922303
147,0.795669,-0.131979,0.819596,1.053935
148,0.432165,0.788808,0.933271,1.448832


In [53]:
print('평균값\n{}'.format(iris_scaled_df.mean()))
print('분산값\n{}'.format(iris_scaled_df.var()))

평균값
sepal length (cm)   -1.690315e-15
sepal width (cm)    -1.842970e-15
petal length (cm)   -1.698641e-15
petal width (cm)    -1.409243e-15
dtype: float64
분산값
sepal length (cm)    1.006711
sepal width (cm)     1.006711
petal length (cm)    1.006711
petal width (cm)     1.006711
dtype: float64


### MinMaxScaler
- 데이터를 0과 1사이 값으로 변환 (음수가 있다면 -1 ~ 1값으로 변경)

In [54]:
from sklearn.preprocessing import MinMaxScaler

In [55]:
scaler = MinMaxScaler()
scaler.fit(input_df)
iris_scaled = scaler.transform(input_df)# numpy 로 리턴
type(iris_scaled)

numpy.ndarray

In [56]:
# dataframe 으로 변경
iris_scaled_df = pd.DataFrame(data=iris_scaled, columns=iris.feature_names)
iris_scaled_df

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,0.222222,0.625000,0.067797,0.041667
1,0.166667,0.416667,0.067797,0.041667
2,0.111111,0.500000,0.050847,0.041667
3,0.083333,0.458333,0.084746,0.041667
4,0.194444,0.666667,0.067797,0.041667
...,...,...,...,...
145,0.666667,0.416667,0.711864,0.916667
146,0.555556,0.208333,0.677966,0.750000
147,0.611111,0.416667,0.711864,0.791667
148,0.527778,0.583333,0.745763,0.916667


In [57]:
print('최소값\n{}'.format(iris_scaled_df.min()))
print('최대값\n{}'.format(iris_scaled_df.max()))

최소값
sepal length (cm)    0.0
sepal width (cm)     0.0
petal length (cm)    0.0
petal width (cm)     0.0
dtype: float64
최대값
sepal length (cm)    1.0
sepal width (cm)     1.0
petal length (cm)    1.0
petal width (cm)     1.0
dtype: float64


### 스케일링 유의 사항
- train data를 fit, transform  진행 후, test data fit, transform 진행 하면 각각 스케일링 기준이 달라져서 정확한 예측이 불가능
- train data 를 fit, transform 진행 후, test data transform 진행 해야함

### 잘못된 스케일링
- train , test 스케일링된 값이 다름.

In [58]:
import numpy as np
# fit, transform 은 2차원 이상 데이터만 가능하여 2차원으로 변환후 진행
# reshape(-1,1) : -1은 행수 지정하지 않음, 1열 > 보통 2차원으로 변경시 사용
train_arr = np.arange(0,11).reshape(-1,1)
test_arr = np.arange(0,6).reshape(-1,1)

In [59]:
scaler = MinMaxScaler()
scaler.fit(train_arr)
train_scaled = scaler.transform(train_arr)

# reshape(-1) : 1차원으로 변경할때 쓰는 방법
print('원본 train 데이터 : {}'.format(train_arr.reshape(-1)))
print('변환 된 train 데이터 : {}'.format(train_scaled.reshape(-1)))

원본 train 데이터 : [ 0  1  2  3  4  5  6  7  8  9 10]
변환 된 train 데이터 : [0.  0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1. ]


In [60]:
scaler = MinMaxScaler()
scaler.fit(test_arr)
test_scaled = scaler.transform(test_arr)

# reshape(-1) : 1차원으로 변경할때 쓰는 방법
print('원본 test 데이터 : {}'.format(test_arr.reshape(-1)))
print('변환 된 test 데이터 : {}'.format(test_scaled.reshape(-1)))

원본 test 데이터 : [0 1 2 3 4 5]
변환 된 test 데이터 : [0.  0.2 0.4 0.6 0.8 1. ]


### 올바른 스케일링 예시

In [61]:
train_arr = np.arange(0,11).reshape(-1,1)
test_arr = np.arange(0,6).reshape(-1,1)

In [62]:
scaler = MinMaxScaler()
scaler.fit(train_arr)
train_scaled = scaler.transform(train_arr)

# reshape(-1) : 1차원으로 변경할때 쓰는 방법
print('원본 train 데이터 : {}'.format(train_arr.reshape(-1)))
print('변환 된 train 데이터 : {}'.format(train_scaled.reshape(-1)))

원본 train 데이터 : [ 0  1  2  3  4  5  6  7  8  9 10]
변환 된 train 데이터 : [0.  0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1. ]


In [63]:
test_scaled = scaler.transform(test_arr)

# reshape(-1) : 1차원으로 변경할때 쓰는 방법
print('원본 test 데이터 : {}'.format(test_arr.reshape(-1)))
print('변환 된 test 데이터 : {}'.format(test_scaled.reshape(-1)))

원본 test 데이터 : [0 1 2 3 4 5]
변환 된 test 데이터 : [0.  0.1 0.2 0.3 0.4 0.5]
