In [1]:
import numpy as np
from sklearn import preprocessing

#특성 스케일 변환
#MinMaxScaler은 0과 1에 모든 값을 있게 한다.
feature=np.array([[-500.5],[-100.1],[0],[100.1],[900.9]])
minmax_scale=preprocessing.MinMaxScaler(feature_range=(0,1))

#fit()은 특성의 최대, 최소 값을 계산 transform()은 특성의 스케일을 조정 
scaled_feature=minmax_scale.fit_transform(feature)
scaled_feature

array([[0.        ],
       [0.28571429],
       [0.35714286],
       [0.42857143],
       [1.        ]])

In [26]:
import numpy as np
from sklearn import preprocessing

#특성 표준화 변환
#StandardScaler은 특성 평균이 0 표준편차가 1이 되도록 변환 - 특성을 정규분포로 근사하게 스케일링 
x= np.array([[-1000.1], [-200.2], [500.5], [600.6], [9000.9]])
scaler = preprocessing.StandardScaler()
standardized = scaler.fit_transform(x)
print(standardized)
print("평균:", round(standardized.mean()))
print("표준편차:", standardized.std())

[[-0.76058269]
 [-0.54177196]
 [-0.35009716]
 [-0.32271504]
 [ 1.97516685]]
평균: 0.0
표준편차: 1.0


In [6]:
import numpy as np
from sklearn import preprocessing

#QuantileTransformer은 데이터를 1000개의 분위로 나누어 0~1에 분포시킴, 이상치의 영향 줄임
x= np.array([[-1000.1], [-200.2], [500.5], [600.6], [9000.9]])
preprocessing.QuantileTransformer().fit_transform(x)

  % (self.n_quantiles, n_samples))


array([[0.  ],
       [0.25],
       [0.5 ],
       [0.75],
       [1.  ]])

In [7]:
#RobustScaler은 평균과 분산 대신 median과 quartile사용, 이상치에 영향 받지 않음
robust_scaler = preprocessing.RobustScaler()
robust_scaler.fit_transform(x)

array([[-1.87387612],
       [-0.875     ],
       [ 0.        ],
       [ 0.125     ],
       [10.61488511]])

In [18]:
import numpy as np
from sklearn.preprocessing import Normalizer

#Normalizer은 row마다 각각 정규화됨
features = np.array([[0.5, 0.5], [1.1, 3.4], [1.5, 20.2], [1.63, 34.4], [10.9, 3.3]])

#L2->유클리드 거리가 1이 되도록 데이터를 조정함
normalizer = Normalizer(norm="l2")
normalizer.transform(features)
features_l2_norm = Normalizer(norm="l2").transform(features)
print(features_l2_norm)

#L1->맨하튼 거리계산(샘플 특성 값의 합을 1로 만듬
features_l1_norm = Normalizer(norm="l1").transform(features)
print(features_l1_norm)

print("첫 번째 샘플값의 합 : ", features_l1_norm[0, 0] + features_l1_norm[0, 1])
features / np.sum(np.abs(features), axis=1, keepdims=True)
features / np.sqrt(np.sum(np.square(features), axis=1, keepdims=True))

[[0.70710678 0.70710678]
 [0.30782029 0.95144452]
 [0.07405353 0.99725427]
 [0.04733062 0.99887928]
 [0.95709822 0.28976368]]
[[0.5        0.5       ]
 [0.24444444 0.75555556]
 [0.06912442 0.93087558]
 [0.04524008 0.95475992]
 [0.76760563 0.23239437]]
첫 번째 샘플값의 합 :  1.0
[[0.5        0.5       ]
 [0.24444444 0.75555556]
 [0.06912442 0.93087558]
 [0.04524008 0.95475992]
 [0.76760563 0.23239437]]
[[0.70710678 0.70710678]
 [0.30782029 0.95144452]
 [0.07405353 0.99725427]
 [0.04733062 0.99887928]
 [0.95709822 0.28976368]]


In [19]:
import numpy as np
from sklearn.preprocessing import Normalizer

#max:각 행의 최대값으로 행을 나눔
features = np.array([[0.5, 0.5], [1.1, 3.4], [1.5, 20.2], [1.63, 34.4], [10.9, 3.3]])
Normalizer(norm="max").transform(features)

array([[1.        , 1.        ],
       [0.32352941, 1.        ],
       [0.07425743, 1.        ],
       [0.04738372, 1.        ],
       [1.        , 0.30275229]])

In [20]:
import numpy as np
from sklearn.preprocessing import PolynomialFeatures

#특성 행렬
features = np.array([[2, 3], [2, 3], [2, 3]]) 

# PolynomialFeatures 객체를 만듭니다.(교차항을 포함함)
#degree 다항식의 최대 차수 결정
#interaction_only->True로 지정할 시 교차항 특성만 만듬
polynomial_interaction = PolynomialFeatures(degree=2, include_bias=False)
#다항 특성 생성
polynomial_interaction.fit_transform(features)
interaction = PolynomialFeatures(degree=2, interaction_only=True, include_bias=False)
interaction.fit_transform(features)

array([[2., 3., 6.],
       [2., 3., 6.],
       [2., 3., 6.]])

In [21]:
#include_bias 매개벼수의 변수값은 True(변환된 특성에 상수항 1 추가)
polynomial_bias = PolynomialFeatures(degree=2, include_bias=True).fit(features)
polynomial_bias.transform(features)
polynomial_bias.get_feature_names()

['1', 'x0', 'x1', 'x0^2', 'x0 x1', 'x1^2']

In [22]:
import numpy as np
from sklearn.preprocessing import FunctionTransformer

#FunctionTransformer을 사용 하여 특성에 함수 적용 가능
features = np.array([[2, 3], [2, 3], [2, 3]])

def add_ten(x): 
    return x + 10

#변환기 객체 생성
ten_transformer = FunctionTransformer(add_ten)
ten_transformer.transform(features)

array([[12, 13],
       [12, 13],
       [12, 13]])

In [23]:
import pandas as pd

#pandas의 apply()를 사용하여 동일 변환 수행 가능
df = pd.DataFrame(features, columns=['feature_1', 'feature_2'])
df.apply(add_ten)

Unnamed: 0,feature_1,feature_2
0,12,13
1,12,13
2,12,13


In [25]:
from sklearn.compose import ColumnTransformer

#validate 매개변수가 True이면 입력값이 2차원 배열인지 확인 후 아닐 경우 예외 발생
#validate 매개변수가 False이면 1차원 배열에도 적용 가능

def add_hundred(x):
    return x + 100

#Columntransformer은 특성 배열이나 데이터프레임 열마다 다른 변환 적용 가능
#(이름, 변환기, 열 리스트)로 구성된 튜플의 리스트를 ColumnTransformer에 전달
ct = ColumnTransformer(
[("add_ten", FunctionTransformer(add_ten, validate=True), ['feature_1']),
("add_hundred", FunctionTransformer(add_hundred, validate=True), ['feature_2'])])
ct.fit_transform(df)

array([[ 12, 103],
       [ 12, 103],
       [ 12, 103]])