
## 2.5 데이터전처리 (data preprocessing)

데이터 전처리는 왜 중요한가? 

   **Garbage In, Garbage Out**

* 머신러닝 알고리즘을 적용하기 전에 처리할 사항
  + `결손값(NaN, Null) 처리` : 다른 값으로 대체 혹은 데이터에서 제외
  + `문자열 값 처리`
   - category 형 문자열 값 : 숫자로 대체 (data encoding)
   - 텍스트형 문자열 값 : feature vectorization(8장 텍스트분석) 또는 삭제.

즉 사이킷런에서는 결손(결측)값 NaN, Null 등이 허용되지 않으므로 미리 적절하게 처리해야한다. 또 문자열 값도 입력값으로 허용되지 않으므로 숫자로 바꾸거나 삭제해야한다.

### 2.5.1 데이터 인코딩 (범주형)

범주를 나타내는 문자열 데이터를 숫자형으로 인코딩하는 두 가지 방법이 있다.    

<u>label encoding</u>과 <u>one-hot encoding</u>이 그것인데  label encoding이 간단하기는 하지만 교재 120쪽의 설명과 같은 문제를 낳을 수도 있으므로 그럴 경우에는 one-hot encoding을 이용하자.

* **레이블 인코딩(label encoding)**

아래 코드와 같이 여섯 가지의 전자제품(범주의 수를 n_class라고 부르자)으로 이루어진 8개의 데이터가 있다고 하자. label encoding은 각 전자제품을 고유의 숫자 번호로 나타낸다.

`sklearn의 모듈 preprocessing` 안에 있는 `LabelEncoder`를 불러와서 객체를 생성한 다음, **fit( )** 과 **transform( )** 으로 encoding을 수행하면 숫자 0부터 (n_class - 1)까지의 label이 들어있는 넘파이 배열을 만들 수 있다. 

In [3]:
from sklearn.preprocessing import LabelEncoder

items=['TV','냉장고','전자렌지','컴퓨터','선풍기','선풍기','믹서','믹서']

encoder = LabelEncoder()
encoder.fit(items)
labels = encoder.transform(items)
print('인코딩 변환값:',labels)

인코딩 변환값: [0 1 4 5 3 3 2 2]


In [4]:
print('인코딩 클래스:', encoder.classes_)

인코딩 클래스: ['TV' '냉장고' '믹서' '선풍기' '전자렌지' '컴퓨터']


In [5]:
print('인코딩 원본 값:',encoder.inverse_transform([4, 5, 2, 0, 1, 1, 3, 3]))

인코딩 원본 값: ['전자렌지' '컴퓨터' '믹서' 'TV' '냉장고' '냉장고' '선풍기' '선풍기']


In [6]:
type(labels)

numpy.ndarray

encoder 객체로 숫자로 바꾼 `0부터 (n_class - 1)까지`의 label들이 어떤 범주를 나타내는지 보려면 `encoder.classes_` 이용.

In [7]:
print('인코딩 클래스:', encoder.classes_)

인코딩 클래스: ['TV' '냉장고' '믹서' '선풍기' '전자렌지' '컴퓨터']


범주를 숫자 label로 바꾸는 대신 inverse_transform를 이용하면 거꾸로 숫자 label들을 범주로 바꿀 수 있다.

In [8]:
print('디코딩 원본 값:', encoder.inverse_transform([4, 5, 2, 0, 1, 1, 3, 3]))

디코딩 원본 값: ['전자렌지' '컴퓨터' '믹서' 'TV' '냉장고' '냉장고' '선풍기' '선풍기']


교재에 없는 아래 코드에서는 숫자를 숫자로 encoding한다. 실행하기 전에 아래 print()문의 결과를 예상해보라.

In [9]:
encoder.fit([1, 2, 2, 6, 23])
label1 = encoder.transform([1, 2, 2, 6, 23])
print(label1)

[0 1 1 2 3]


`LableEncoder` 클래스만 이용하면 인코딩은 끝난 걸까? 아니다. 120쪽 설명을 잘 읽어보고 One-Hot Encoding이 왜 필요한지 이해하고 다음을 공부하자.

* **원-핫 인코딩(One-Hot encoding)**

앞에서와 마찬가지로 여섯 가지의 전자제품으로 이루어진 8개의 데이터가 있다. 이럴 때 one-hot encoding은 0과 1로 된 $ 8 \times 6 $ 행렬을 만든다. 
간단한 label encoding 대신 one-hot encoding방법으로 번거롭게 행렬까지 만드는 이유는? 

`숫자는 크기를 비교할 수 있다.` 따라서 전자제품들을 위와 같이 label encoding하고 나면 컴퓨터(5)가 냉장고(1)보다 '크고', 컴퓨터 - 냉장고 = 전자렌지(5-1 = 4)가 된다!

sklearn.preprocessing에서 OneHotEncoder 클래스를 이용하여 인코딩하기 위해서는 먼저 label encoding과 마찬가지로 `LabelEncoder()`를 써서 객체를 만들고 fit(), transform()을 이용하여 각 범주를 숫자로 표현한 다음, 그 결과를 `reshape(-1,1)을 이용하여 2차원 배열로 바꾸어야`한다.

In [10]:
import numpy as np

items=['TV','냉장고','전자렌지','컴퓨터','선풍기','선풍기','믹서','믹서']

encoder = LabelEncoder()
encoder.fit(items)
labels = encoder.transform(items)

labels = labels.reshape(-1,1)

from sklearn.preprocessing import OneHotEncoder
oh_encoder = OneHotEncoder()
oh_encoder.fit(labels)
oh_labels = oh_encoder.transform(labels)
oh_labels
print('원-핫 인코딩 데이터')
print(oh_labels.toarray())
print()
print('원-핫 인코딩 데이터 차원')
print(oh_labels.shape)

원-핫 인코딩 데이터
[[1. 0. 0. 0. 0. 0.]
 [0. 1. 0. 0. 0. 0.]
 [0. 0. 0. 0. 1. 0.]
 [0. 0. 0. 0. 0. 1.]
 [0. 0. 0. 1. 0. 0.]
 [0. 0. 0. 1. 0. 0.]
 [0. 0. 1. 0. 0. 0.]
 [0. 0. 1. 0. 0. 0.]]

원-핫 인코딩 데이터 차원
(8, 6)


위의 결과를 순차적으로 나타낸것

In [11]:
import numpy as np

items=['TV','냉장고','전자렌지','컴퓨터','선풍기','선풍기','믹서','믹서']

In [12]:
# 먼저 숫자값으로 변환을 위해 LabelEncoder로 변환합니다. 
encoder = LabelEncoder()
encoder.fit(items)
labels = encoder.transform(items)
labels

array([0, 1, 4, 5, 3, 3, 2, 2])

위에서 만든 labels는 1차원 넘파이 배열이다. reshape()을 써서 2차원 데이터로 바꾸자. 

In [13]:
labels = labels.reshape(-1,1)
labels

array([[0],
       [1],
       [4],
       [5],
       [3],
       [3],
       [2],
       [2]])

In [14]:
print(' 크기 :', labels.shape,'\n','차원 :', labels.ndim)

 크기 : (8, 1) 
 차원 : 2


OneHotEncoder()를 써서 one-hot encoding을 하기위해 sklearn.preprocessing 모듈에 있는 OneHotEncoder()를 불러 객체를 만든 다음 역시 fit(), transform()으로 인코딩한다.

In [15]:
from sklearn.preprocessing import OneHotEncoder
oh_encoder = OneHotEncoder()
oh_encoder.fit(labels)
oh_labels = oh_encoder.transform(labels)
oh_labels

<8x6 sparse matrix of type '<class 'numpy.float64'>'
	with 8 stored elements in Compressed Sparse Row format>

이렇게 만든 인코딩 oh_labels의 내용은 `oh_labels.toarray()`로 확인할 수 있다.

In [16]:
print('원-핫 인코딩 데이터')
print(oh_labels.toarray())
print()
print('원-핫 인코딩 데이터 차원')
print(oh_labels.shape)

원-핫 인코딩 데이터
[[1. 0. 0. 0. 0. 0.]
 [0. 1. 0. 0. 0. 0.]
 [0. 0. 0. 0. 1. 0.]
 [0. 0. 0. 0. 0. 1.]
 [0. 0. 0. 1. 0. 0.]
 [0. 0. 0. 1. 0. 0.]
 [0. 0. 1. 0. 0. 0.]
 [0. 0. 1. 0. 0. 0.]]

원-핫 인코딩 데이터 차원
(8, 6)


`판다스`를 이용하면 아주 쉽게 one-hot encoding을 만들 수 있다. 먼저 아래와 같이 전자제품 목록으로 이루어진 딕셔너리를 만들어서 pandas 데이터프레임으로 바꾼 다음 `get_dummies()`를 쓰면 된다. 훨씬 간단하다.

In [17]:
import pandas as pd
df = pd.DataFrame({'item':['TV','냉장고','전자렌지','컴퓨터','선풍기','선풍기','믹서','믹서'] })
df

Unnamed: 0,item
0,TV
1,냉장고
2,전자렌지
3,컴퓨터
4,선풍기
5,선풍기
6,믹서
7,믹서


In [18]:
pd.get_dummies(df)

Unnamed: 0,item_TV,item_냉장고,item_믹서,item_선풍기,item_전자렌지,item_컴퓨터
0,1,0,0,0,0,0
1,0,1,0,0,0,0
2,0,0,0,0,1,0
3,0,0,0,0,0,1
4,0,0,0,1,0,0
5,0,0,0,1,0,0
6,0,0,1,0,0,0
7,0,0,1,0,0,0


### 2.5.2 피처 스케일링과 정규화 (연속형)

인코딩보다 중요하다고 할 수 있다.

머신러닝 알고리즘 가운데에는 변수들의 값 범위에 따라 결과가 아주 달라지는 것들이 있다. 따라서 변수들의 값 범위를 일정하게 만들 필요가 있는데 이를 **feature scaling**이라고 부른다. **표준화**, **정규화**가 대표적인 방법이다.

feature scaling : 데이터들은 측정방법, 단위 등에 따라 값의 범위가 서로 다르다. 가령 성인들의 키는 m 단위로 재고 몸무게는 kg 단위로 잰 데이터가 있다고 하자. 키의 값들은 대개 1과 2사이에 있을 것이고 몸무게 데이터들은 키와 전혀 다른 범위(가령 40에서 120사이)에 있을 것이다. 이런 경우 만약 값의 크기로 변수들의 중요성을 판단한다면 키보다 몸무게가 훨씬 중요해져버리는 문제가 생긴다. 이런 데이터들은 데이터전처리 과정에서 **표준화**, **정규화**과 같은 **feature scaling** 방법을 써서 `변수들 값의 범위를 일정하게 만들어줄 필요가 있다.` (표준화에 대한 교재 124쪽  설명 오류 수정 -> 가우시안 정규분포 X)

  * 표준화 : 평균을 빼고 표준편차로 나누어서 평균 0, 표준편차 1이 되도록 변환.

  * 정규화 : 값에서 최소값을 빼고 범위(Max-Min)로 나누어서 0과 1 사이(또는 -1과 1 사이)가 되도록 변환.

  * 벡터 정규화 : vector의 각 성분을 그 벡터의 길이로 나누어서 길이 1인 벡터로 변환.
  
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;(예) 3차원 벡터 
          
$$ v = (x, y, z)$$
          
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 가 있다고 하자. 벡터의 길이는 
          
$$ ||v|| = \sqrt{ x^2 + y^2 + z^2 }$$
          
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;이다. 벡터 $v$의 각 성분을 길이로 나눈 새로운 벡터 

$$ u = \frac {v }{||v||} = \left( \frac {x}{||v||} , \frac {y}{||v||} , \frac {z}{||v||} \right) $$

&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;를 만들면 

$$||u|| = 1$$

&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;이 된다.

* **StandardScaler** : 변수 표준화 클래스

평균 0, 분산 1로 만드는 '표준화'를 위한 클래스로서 `sklearn.preprocessing` 안에 있다. 객체를 만들고 **fit()**, **transform()**을 이용하면 된다.

먼저 iris 데이터를 불러와서 pandas 데이터프레임으로 만들고 네 개 변수 각각의 평균과 분산, 최소, 최대값들을 계산하자.

In [19]:
from sklearn.datasets import load_iris
import pandas as pd

iris = load_iris()

In [20]:
type(iris)

sklearn.utils.Bunch

In [21]:
iris.keys()

dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names', 'filename'])

In [22]:
iris_data = iris.data
iris_df = pd.DataFrame(data=iris_data, columns=iris.feature_names)

In [23]:
iris_df.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2


In [24]:
iris_df.tail()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
145,6.7,3.0,5.2,2.3
146,6.3,2.5,5.0,1.9
147,6.5,3.0,5.2,2.0
148,6.2,3.4,5.4,2.3
149,5.9,3.0,5.1,1.8


In [25]:
iris_df.shape

(150, 4)

In [26]:
print('feature 들의 평균 값')
print(iris_df.mean())
print('\nfeature 들의 분산 값')
print(iris_df.var())
print('\nfeature 들의 최소값')
print(iris_df.min())
print('\nfeature 들의 최대값')
print(iris_df.max())

feature 들의 평균 값
sepal length (cm)    5.843333
sepal width (cm)     3.057333
petal length (cm)    3.758000
petal width (cm)     1.199333
dtype: float64

feature 들의 분산 값
sepal length (cm)    0.685694
sepal width (cm)     0.189979
petal length (cm)    3.116278
petal width (cm)     0.581006
dtype: float64

feature 들의 최소값
sepal length (cm)    4.3
sepal width (cm)     2.0
petal length (cm)    1.0
petal width (cm)     0.1
dtype: float64

feature 들의 최대값
sepal length (cm)    7.9
sepal width (cm)     4.4
petal length (cm)    6.9
petal width (cm)     2.5
dtype: float64


네 변수의 평균이 서로 꽤 다르다. 분산 역시 서로 다르다. 모두가 같은 평균, 같은 분산을 같도록 표준화해보자.

sklearn.preprocessing에서 StandardScaler를 불러와서 객체를 만든 다음 fit(), transform()을 이용해서 feature들을 표준화한 넘파이 배열을만든다. 배열을 판다스 데이터프레임으로 만들고 평균과 분산을 계산한다.

In [27]:
from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
scaler.fit(iris_df)
iris_scaled = scaler.transform(iris_df)

In [28]:
iris_scaled[0 : 5]

array([[-0.90068117,  1.01900435, -1.34022653, -1.3154443 ],
       [-1.14301691, -0.13197948, -1.34022653, -1.3154443 ],
       [-1.38535265,  0.32841405, -1.39706395, -1.3154443 ],
       [-1.50652052,  0.09821729, -1.2833891 , -1.3154443 ],
       [-1.02184904,  1.24920112, -1.34022653, -1.3154443 ]])

결과가 numpy ndarray 이므로 pandas dataframe으로 바꾸어서 평균과 분산을 확인해보자.

In [29]:
iris_df_scaled = pd.DataFrame(data=iris_scaled, columns=iris.feature_names)
print('feature 들의 평균 값')
print(iris_df_scaled.mean())
print('\nfeature 들의 분산 값')
print(iris_df_scaled.var())

feature 들의 평균 값
sepal length (cm)   -1.690315e-15
sepal width (cm)    -1.842970e-15
petal length (cm)   -1.698641e-15
petal width (cm)    -1.409243e-15
dtype: float64

feature 들의 분산 값
sepal length (cm)    1.006711
sepal width (cm)     1.006711
petal length (cm)    1.006711
petal width (cm)     1.006711
dtype: float64


위의 표준화시킨 네 개 feature(iris_df_scaled)의 평균이 모두 0, 분산은 1이 되었다.

* **MinMaxScaler** : 변수 정규화 클래스

iris 데이터의 네 feature들의 값은 모두 양수이므로 MinMaxScaler를 이용하여 0과 1 사이의 값으로 변환한다. **fit()**, **transform()**을 이용하면 된다.

iris 데이터 변수들의 최소,최대값을 먼저 알아보자

In [30]:
iris_df.min()

sepal length (cm)    4.3
sepal width (cm)     2.0
petal length (cm)    1.0
petal width (cm)     0.1
dtype: float64

In [31]:
iris_df.max()

sepal length (cm)    7.9
sepal width (cm)     4.4
petal length (cm)    6.9
petal width (cm)     2.5
dtype: float64

In [32]:
from sklearn.preprocessing import MinMaxScaler

scaler = MinMaxScaler()
scaler.fit(iris_df)
iris_scaled = scaler.transform(iris_df)

iris_df_scaled = pd.DataFrame(data=iris_scaled, columns=iris.feature_names)
print('feature들의 최소 값')
print(iris_df_scaled.min())
print('\nfeature들의 최대 값')
print(iris_df_scaled.max())

feature들의 최소 값
sepal length (cm)    0.0
sepal width (cm)     0.0
petal length (cm)    0.0
petal width (cm)     0.0
dtype: float64

feature들의 최대 값
sepal length (cm)    1.0
sepal width (cm)     1.0
petal length (cm)    1.0
petal width (cm)     1.0
dtype: float64


정규화시킨 결과, 네 개 feature들의 최대값은 1, 최소값은 0이 되었다.

In [33]:
iris_df_scaled[0 : 5]

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,0.222222,0.625,0.067797,0.041667
1,0.166667,0.416667,0.067797,0.041667
2,0.111111,0.5,0.050847,0.041667
3,0.083333,0.458333,0.084746,0.041667
4,0.194444,0.666667,0.067797,0.041667


- 참고 : 만일 0과 1 사이가 아니라 다른 범위의 값으로 변환하고 싶다면? 아래 코드는 -1과 1사이 값으로 변환하는 예다 (교재 127쪽 설명 수정)

In [34]:
data1 = np.random.randn(100).reshape(10, -1)
data1

array([[-0.60244428,  0.23685613, -0.2755197 ,  0.62490748,  2.02207056,
        -1.18838408, -0.63399192,  0.02157405, -0.94999943,  1.7116225 ],
       [-1.82152508, -0.02964526, -0.23763878, -0.62285089, -1.2960836 ,
        -0.80441092,  0.00523084,  1.95209674, -1.18812864, -0.48126098],
       [-0.85610736, -1.00514073, -0.46063183, -0.85452757, -0.25947959,
        -0.32728703,  0.24471103,  1.13211032, -0.18674632,  1.85737225],
       [ 2.1159352 , -1.19137442,  0.49459453,  0.54248225, -1.16609033,
         1.48211085,  0.33089141, -1.46926143, -0.90059141, -0.13807929],
       [-0.42052695,  1.28529238,  1.35534705, -0.25995273, -0.80585526,
         1.31276939, -0.28470455,  1.58994087, -0.57541808, -1.09748869],
       [-0.70810745,  0.1775619 , -1.75241926,  0.58647283,  2.4508057 ,
         0.5354273 ,  0.39409017, -0.11338007, -0.16756713, -0.28032068],
       [-0.98701723,  0.83048659,  0.24380184, -0.16545412, -0.43013135,
         1.7688327 ,  0.55191461,  0.67355794

아래는 데이터 값을 -1과 1사이의 범위 값으로 변환하는 것

In [35]:
scaler2 = MinMaxScaler((-1,1))
scaler2.fit(data1)
i2 = scaler2.transform(data1)
i2[0 : 5]

array([[-0.38077811,  0.15334897, -0.07204581,  0.14022157,  0.77115142,
        -1.        , -1.        , -0.13469325, -0.7335049 ,  0.90134916],
       [-1.        , -0.06186075, -0.04824476, -0.60116577, -1.        ,
        -0.7403145 , -0.38358145,  0.98581557, -1.        , -0.58290578],
       [-0.50962415, -0.84960941, -0.18835404, -0.73882235, -0.44668554,
        -0.41763008, -0.15264469,  0.50988125,  0.12066673,  1.        ],
       [ 1.        , -1.        ,  0.41182645,  0.09124652, -0.9306127 ,
         0.80608669, -0.06953879, -1.        , -0.6782114 , -0.35062297],
       [-0.28837472,  1.        ,  0.95264786, -0.38554061, -0.73832782,
         0.69155909, -0.66317342,  0.77561403, -0.31430351, -1.        ]])

### 2.5.3 학습 데이터와 테스트 데이터의 scale 변환시 유의할 점 

- Scaler를 이용하여 학습 데이터와 테스트 데이터에 fit(), transform(), fit_transform()을 적용할 때 유의 사항

교재 128쪽 설명을 읽어보자

아래 코드에서 학습데이터는 0부터 10까지, 테스트 데이터는 0 부터 5까지 값을 가지는 1차원 numpy 배열 데이터 세트로 만든다. 이어서 `Scaler클래스의 fit(), transform()은 2차원 이상 데이터만 가능하`므로 `reshape(-1,1)`로 차원을 변경한다.

잠시 numby 배열을 복습하고 시작하자.

In [36]:
import numpy as np
x = np.arange(3,7)
print(x)

[3 4 5 6]


In [37]:
y1 = x.reshape(1,-1)
y1

array([[3, 4, 5, 6]])

In [38]:
y2 = x.reshape(-1,1)
y2

array([[3],
       [4],
       [5],
       [6]])

2차원 배열을 다시 1차원으로 만들려면?

In [39]:
z = y2.reshape(-1)
z

array([3, 4, 5, 6])

반올림 할 때 쓰는 numpy.round()도 연습하자.

In [40]:
sz= np.sqrt(z)
sz

array([1.73205081, 2.        , 2.23606798, 2.44948974])

In [41]:
np.round(sz, 2)

array([1.73, 2.  , 2.24, 2.45])

In [42]:
from sklearn.preprocessing import MinMaxScaler
import numpy as np

# 학습 데이터는 0 부터 10까지, 테스트 데이터는 0 부터 5까지 값을 가지는 데이터 세트로 생성
# Scaler클래스의 fit(), transform()은 2차원 이상 데이터만 가능하므로 reshape(-1, 1)로 차원 변경
train_array = np.arange(0, 11).reshape(-1, 1)
test_array =  np.arange(0, 6).reshape(-1, 1)

In [43]:
train_array.shape

(11, 1)

In [44]:
test_array.shape

(6, 1)

In [45]:
scaler2 = MinMaxScaler()
scaler2.fit(train_array)
train_scaled2 = scaler2.transform(train_array)

print('원본 train_array 데이터:', np.round(train_array.reshape(-1), 2))
print('Scale된 train_array 데이터:', np.round(train_scaled2.reshape(-1), 2))

원본 train_array 데이터: [ 0  1  2  3  4  5  6  7  8  9 10]
Scale된 train_array 데이터: [0.  0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1. ]


먼저 학습 데이터(0부터 10사이의 값)를 MinMaxScaler로 정규화시켜보자. 0은 0이 되고 5는 0.5가 되며 1은 1.0이 되었다.

원본 트레인 데이터의 범위가 10 - 0 = 10 이므로 MinMaxScaler()는 데이터의 범위를 0과 1사이로 만들기 위해 원본 데이터를 1/10로 축소했다. 이제 위에서 생성한 scaler를 가지고 fit(), transform()을 이용해 테스트 데이터를 스케일링해보자.

In [46]:
scaler2 = MinMaxScaler()
scaler2.fit(test_array)
test_scaled2 = scaler2.transform(test_array)

print('원본 test_array 데이터:', np.round(test_array.reshape(-1), 2))
print('Scale된 test_array 데이터:', np.round(test_scaled2.reshape(-1), 2))

원본 test_array 데이터: [0 1 2 3 4 5]
Scale된 test_array 데이터: [0.  0.2 0.4 0.6 0.8 1. ]


데스트 데이터의 범위는 5이므로 0과 1사이로 만들기 위해 1/5로 축소되었다.

In [47]:
# 최소값 0, 최대값 1로 변환하는 MinMaxScaler객체 생성
scaler = MinMaxScaler()
# fit()하게 되면 train_array 데이터의 최소값이 0, 최대값이 10으로 설정.  
scaler.fit(train_array)
# 1/10 scale로 train_array 데이터 변환함. 원본 10-> 1로 변환됨.
train_scaled = scaler.transform(train_array)
train_scaled

array([[0. ],
       [0.1],
       [0.2],
       [0.3],
       [0.4],
       [0.5],
       [0.6],
       [0.7],
       [0.8],
       [0.9],
       [1. ]])

변환한 결과 2차원배열을 reshape(-1)을 이용하여 다시 1차원 배열로 바꾸어서 출력해보자.

In [48]:
print('원본 train_array 데이터:', np.round(train_array.reshape(-1), 2))
print('Scale된 train_array 데이터:', np.round(train_scaled.reshape(-1), 2))

원본 train_array 데이터: [ 0  1  2  3  4  5  6  7  8  9 10]
Scale된 train_array 데이터: [0.  0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1. ]


이번에는 테스트 데이터(0부터 5사이의 값)를 MinMaxScaler로 정규화시켜보자. 0은 0이 되고 5는 1.0이 되었다.

In [49]:
# 앞에서 생성한 MinMaxScaler에 test_array를 fit()하게 되면 원본 데이터의 최소값이 0, 최대값이 5으로 설정됨 
scaler.fit(test_array)
# 1/5 scale로 test_array 데이터 변환함. 원본 5->1로 변환.  
test_scaled = scaler.transform(test_array)

In [50]:
print('원본 test_array 데이터:', np.round(test_array.reshape(-1), 2))
print('Scale된 test_array 데이터:', np.round(test_scaled.reshape(-1), 2))

원본 test_array 데이터: [0 1 2 3 4 5]
Scale된 test_array 데이터: [0.  0.2 0.4 0.6 0.8 1. ]


학습 데이터에서는 5가 0.5가 되고 테스트 데이터의 5는 1로 변환되었다. `머신러닝에서 학습, 테스트 데이터에서 동일 값은 역시 같은 값으로 변환되어야한다.` 그러므로 학습, `테스트 데이터를 따로 변환해서는 안 되고(즉 fit()을 두 번 적용해서는 안되고)` 아래와 같이 변환해야한다.

In [51]:
scaler = MinMaxScaler()
scaler.fit(train_array)
train_scaled = scaler.transform(train_array)
print('원본 train_array 데이터:', np.round(train_array.reshape(-1), 2))
print('Scale된 train_array 데이터:', np.round(train_scaled.reshape(-1), 2))

# test_array에 Scale 변환을 할 때는 반드시 fit()을 호출하지 않고 transform() 만으로 변환해야 함. 
test_scaled = scaler.transform(test_array)
print('\n원본 test_array 데이터:', np.round(test_array.reshape(-1), 2))
print('Scale된 test_array 데이터:', np.round(test_scaled.reshape(-1), 2))


원본 train_array 데이터: [ 0  1  2  3  4  5  6  7  8  9 10]
Scale된 train_array 데이터: [0.  0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1. ]

원본 test_array 데이터: [0 1 2 3 4 5]
Scale된 test_array 데이터: [0.  0.1 0.2 0.3 0.4 0.5]


131쪽 설명을 잘 읽고 넘어가자

- 교재 124쪽에서 잠깐 언급된 모듈 Nomalizer도 연습해보자. (아래 코드는 사이킷런 홈페이지에서 제공하는 예제임).

In [52]:
from sklearn.preprocessing import Normalizer

In [53]:
X = [[4, 1, 2, 2],[1, 3, 9, 3],[5, 7,  5, 1]]
X

[[4, 1, 2, 2], [1, 3, 9, 3], [5, 7, 5, 1]]

In [54]:
transformer = Normalizer().fit(X)

In [55]:
Y= transformer.transform(X)
Y

array([[0.8, 0.2, 0.4, 0.4],
       [0.1, 0.3, 0.9, 0.3],
       [0.5, 0.7, 0.5, 0.1]])

In [58]:
Y.shape[0]

3

In [89]:
import numpy as np
Y.dot(Y.T)

array([[1.  , 0.62, 0.78],
       [0.62, 1.  , 0.74],
       [0.78, 0.74, 1.  ]])

- 퀴즈 : 위의 곱셈 결과 대각선 원소 세 개가 모두 1이 되었다. 무슨 의미일까?

그 벡터의 길이를 1로 만들었기 때문

벡터의 길이는 아래와 같이 알아볼 수 있다.

In [91]:
from numpy import linalg as LA
for k in range(Y.shape[0]):
    print(LA.norm(Y[k]))

1.0
1.0
1.0


scale을 조정하는데 데이터 전처리가 필요한 경우는?

In [None]:
변수들의 범위가 서로 많이 다를 때

변수의 범위를 0과 1사이로 만들어주는 것은?

In [None]:
MinMaxScaler()

다음 중 sklearn.preprocessing에 들어있지 않은 것은?

In [None]:
get_dummies()

데이터 전처리에 속하지 않는 것은? *

In [None]:
교차검증 *
데이터 인코딩
결손값 대체
데이터 정규화