# 4.1 특성 스케일 바꾸기

In [1]:
# MinMaxScaler 사용

In [2]:
import numpy as np
from sklearn import preprocessing

In [5]:
feature = np.array([[-500.5],
                   [-100.1],
                   [0],
                   [100.1],
                   [900.9]])

In [6]:
# 스케일러 객체 만들기
minmax_scale = preprocessing.MinMaxScaler(feature_range = (0, 1))

In [7]:
# 특성의 스케일을 변환하기
scaled_feature = minmax_scale.fit_transform(feature)

In [8]:
# 특성을 출력하기
scaled_feature

array([[0.        ],
       [0.28571429],
       [0.35714286],
       [0.42857143],
       [1.        ]])

스케일 조정은 머신러닝에서 흔한 전처리 작업이다.\
최솟값과 최댓값을 사용하여 일정 범위 안으로 값을 조정한다.\
xi' = xi-min(x) / max(x)-min(x)\
\
xi는 특성 x의 개별 원소이고, xi는 특성 백터이다.

######
훈련 세트와 테스트 세트의 스케일을 따로 조정하면 안된다. 예를 들면 훈련 세트의 스케일을 조정하고자 구한 최솟값과 최댓값을 사용하여 테스트 세트를 반환해야 한다. 아래는 간단한 예 이다.\\

\
다음 샘플 중 처음 세개를 훈련 세트, 나머지 두 개를 테스트 세트라고 가정해본다.\
먼저 두 세트를 독립적으로 각각 변환한다.

In [9]:
# 훈련 세트를 변환한다.
preprocessing.MinMaxScaler().fit_transform(feature[:3])

array([[0. ],
       [0.8],
       [1. ]])

In [10]:
# 테스트 세트를 변환한다.
preprocessing.MinMaxScaler().fit_transform(feature[3:])

array([[0.],
       [1.]])

훈련 세트와 테스트 세트를 각각 변환하면 서로 다른 비율로 데이터를 변환한다. 이러면 안됨.

In [14]:
# 훈련 세트로 변환기를 학습한다.
scaler = preprocessing.MinMaxScaler().fit(feature[:3])
scaler.transform(feature[:3])

array([[0. ],
       [0.8],
       [1. ]])

In [15]:
# 훈련 세트에서 학습한 변환기로 테스트 세트를 변환한다.
scaler.transform(feature[3:])

array([[1.2],
       [2.8]])

훈련 세트를 학습한 변환기 객체를 사용하여 원본 데이터셋과 동일한 비률로 테스트를 변환했다.

# 4.2 특성을 표준화하기

In [16]:
x = np.array([[-1000.1],
             [-200.2],
             [500.5],
             [600.6],
             [9000.9]])

In [17]:
# 변환기 객체 만들기.
scaler = preprocessing.StandardScaler()

In [18]:
# 특성을 변환한다.
standardized = scaler.fit_transform(x)

In [19]:
# 특성을 출력한다.
standardized

array([[-0.76058269],
       [-0.54177196],
       [-0.35009716],
       [-0.32271504],
       [ 1.97516685]])

4.1에서 설명한 최소-최대 스케일링과 함께 특성을 표준 정규분포로 근사하는 스케일링 방식이 자주 쓰인다.\
이 방식은 표준화를 사용하여 데이터의 평균이 0이고 표준편차가 1이 되도록 변환한다.

이 방식은 머신러닝에서 상당히 많이 쓰인다. 하지만 학습 알고리즘에 의존적이다.\
예를 들어 주성분 분석은 표준화가 잘 맞지만 신경망에는 최소-최대 스케일링을 종종 권장한다.

In [23]:
# 평균과 표준편차를 출력한다,
print('평균:', round(standardized.mean()))
print('표준편차:', standardized.std())

평균: 0
표준편차: 1.0


이상치가 많을 경우엔 중간값과 사분위 범위를 사용하여 특성의 스케일을 조정하는 것이 좋다. RobusScaler

In [24]:
# 변환기 객체를 만든다.
robust_scaler = preprocessing.RobustScaler()

In [25]:
# 특성을 변환한다.
robust_scaler.fit_transform(x)

array([[-1.87387612],
       [-0.875     ],
       [ 0.        ],
       [ 0.125     ],
       [10.61488511]])

RobusScaler는 데이터에서 중간값을 빼고 IQR로 나눈다.

In [26]:
interquatile_range = x[3] - x[1]

(x - np.median(x)) / interquatile_range

array([[-1.87387612],
       [-0.875     ],
       [ 0.        ],
       [ 0.125     ],
       [10.61488511]])

QuantileTransformer는 훈련 데이터를 1,000개의 분위로 나누어 0~1 사이에 고르게 분포시킴으로써 이상치로 인한 영향을 줄인다.\
예를 들어 해결에 나온 특성 x는 다섯 개의 샘플을 가지고 있으므로 0%, 25%, 50%, 75%, 100%의 위치에 할당한다.

In [27]:
preprocessing.QuantileTransformer().fit_transform(x)



array([[0.  ],
       [0.25],
       [0.5 ],
       [0.75],
       [1.  ]])

# 4.3 정규화하기

In [3]:
import numpy as np
from sklearn.preprocessing import Normalizer

In [4]:
# 특성 행렬 만들기
features = np.array([[0.5, 0.5],
                    [1.1, 3.4],
                    [1.5, 20.2],
                    [1.63, 34.3],
                    [10.9, 3.3]])

In [5]:
# 변환기 객체 만들기
normalizer = Normalizer(norm = 'l2')

In [6]:
# 특성 행렬을 변환한다.
normalizer.transform(features)

array([[0.70710678, 0.70710678],
       [0.30782029, 0.95144452],
       [0.07405353, 0.99725427],
       [0.0474683 , 0.99887275],
       [0.95709822, 0.28976368]])

Normalizer는 단위 노름(길이의 합이 1이다)이 되도록 개별 샘플의 값을 변환한다.\
이런 종류의 스케일링은 (예를 들어 각 단어나 n개의 단어 그룹이 특성인 텍스트 분류와 같이) 유사한 특성이 많을 때 종종 사용한다.

In [7]:
# 특성 행렬을 변환한다.
features_l2_norm = Normalizer(norm = 'l2').transform(features)

In [9]:
# 특성 행렬을 출력한다.
features_l2_norm

array([[0.70710678, 0.70710678],
       [0.30782029, 0.95144452],
       [0.07405353, 0.99725427],
       [0.0474683 , 0.99887275],
       [0.95709822, 0.28976368]])

In [10]:
# 맨해튼 노름(l1)을 지정할 수도 있다.
# 특성 행렬을 변환한다.
features_l1_norm = Normalizer(norm = 'l1').transform(features)

In [11]:
# 특성 행렬을 출력한다.
features_l1_norm

array([[0.5       , 0.5       ],
       [0.24444444, 0.75555556],
       [0.06912442, 0.93087558],
       [0.04536599, 0.95463401],
       [0.76760563, 0.23239437]])

l2 노름은 뉴욕의 두 지점 사이를 잇는 직선 거리로 볼 수 있다.\
l1 노름은 사람이 도로를 따라 걷는 것과 같다.\
이를 '맨해튼 노름', '택시 노름'으로 부른다.

In [12]:
# norm = 'l1'은 각 샘플 특성값의 합을 1로 만든다.
# 합을 출력한다.

print('첫 번째 샘플값의 합: ',
     features_l1_norm[0, 1] + features_l1_norm[0, 1])

첫 번째 샘플값의 합:  1.0


Normalizer는 행 단위로 변환되므로 fit 메서드는 아무런 작업을 수행하지 않는다.\
이런 이유로 해결의 코드처럼 바로 transform 메서드를 사용할 수 있다.

In [13]:
# L1 노름을 사용한 변환.
# 각 행(axis = 1)을 합한 결과가 2차원 배열로 유지되도록
# keepdims를 True로 설정한다.

features / np.sum(np.abs(features), axis = 1, keepdims = True)


array([[0.5       , 0.5       ],
       [0.24444444, 0.75555556],
       [0.06912442, 0.93087558],
       [0.04536599, 0.95463401],
       [0.76760563, 0.23239437]])

In [15]:
# L2 노름을 사용한 변환
features / np.sqrt(np.sum(np.square(features), axis = 1, keepdims = True))

array([[0.70710678, 0.70710678],
       [0.30782029, 0.95144452],
       [0.07405353, 0.99725427],
       [0.0474683 , 0.99887275],
       [0.95709822, 0.28976368]])

Normalizer의 norm 매개변수에 지정할 수 있는 다른 한 가지 옵션은 'max'이다. 이 옵션은 단순히 각 행의 최댓값으로 행의 값을 나눈다.

In [16]:
# 각 행에서 최댓값으로 나눈다.
Normalizer(norm = 'max').transform(features)

array([[1.        , 1.        ],
       [0.32352941, 1.        ],
       [0.07425743, 1.        ],
       [0.04752187, 1.        ],
       [1.        , 0.30275229]])

# 4.4 다항 특성과 교차항 특성 생성하기

In [18]:
import numpy as np
from sklearn.preprocessing import PolynomialFeatures

In [19]:
features = np.array([[2, 3],
                    [2, 3],
                    [2, 3]])

In [20]:
Polynomial_interaction = PolynomialFeatures(degree = 2, include_bias = False)

In [22]:
# 다항 특성 만들기.
Polynomial_interaction.fit_transform(features)

array([[2., 3., 4., 6., 9.],
       [2., 3., 4., 6., 9.],
       [2., 3., 4., 6., 9.]])

degree 매개변수가 다항식의 최대 차수를 결정한다.\
예를 들어 degree = 2는 2제곱까지 새로운 특성을 만든다.\
x1,x2,x1(2),x2(2)\
\
degree=3은 3제곱까지 새로운 특성을 만든다.\
x1,x2,x1(2),x2(2),x1(3),x2(3)

기본적으로 PolynomialFeatrues는 교차항을 포함한다.\
interaction_only를 True로 지정하면 교차항 특성만 만들 수 있다.

In [23]:
interaction = PolynomialFeatures(degree = 2,
                                interaction_only = True, include_bias = False)
interaction.fit_transform(features)

array([[2., 3., 6.],
       [2., 3., 6.],
       [2., 3., 6.]])

특성과 타깃 사이에 비선형 관계가 있다는 가정을 추가할 때 다항 특성을 종종 만든다.\
개별 특성을 곱한 교차항을 특성에 추가하여 이런 관계를 인코딩할 수 있다.(예시: 커피당도)

In [24]:
# 상수항 1을 추가한다.
polynomial_bias = PolynomialFeatures(degree = 2,
                                    include_bias = True).fit(features)
polynomial_bias.transform(features)

array([[1., 2., 3., 4., 6., 9.],
       [1., 2., 3., 4., 6., 9.],
       [1., 2., 3., 4., 6., 9.]])

In [25]:
# get_feature_names 메서드는 특성 변환 식을 이름으로 반환한다.
polynomial_bias.get_feature_names()

['1', 'x0', 'x1', 'x0^2', 'x0 x1', 'x1^2']

# 4.5 특성 변환하기

In [26]:
import numpy as np
from sklearn.preprocessing import FunctionTransformer

In [27]:
features = np.array([[2, 3],
                    [2, 3],
                    [2, 3]])

In [28]:
def add_ten(x):
    return x + 10

In [29]:
ten_transformer = FunctionTransformer(add_ten)

In [30]:
ten_transformer.transform(features)

array([[12, 13],
       [12, 13],
       [12, 13]])

판다스의 apply 메서드를 사용하여 동일한 변환을 수행할 수 있다.