# 4.0 소개

---

# 4.1 특성 스케일 바꾸기
- 수치형 특성이 두 값의 범위 안에 놓이도록 스케일(scale)을 바꿔야 합니다
- MinMaxScaler()

In [1]:
# 라이브러리를 임포트합니다
import numpy as np
from sklearn import preprocessing

In [6]:
# 특성을 만듭니다
feature = np.array([[-500.5],[-100.1],[0],[100.1],[900.9]])

In [7]:
# 스케일러의 객체를 만듭니다
minmax_scale = preprocessing.MinMaxScaler(feature_range=(0,1))

In [8]:
# 특성의 스케일을 변환합니다
scaled_feature = minmax_scale.fit_transform(feature)

In [9]:
# 특성을 출력합니다
scaled_feature

array([[0.        ],
       [0.28571429],
       [0.35714286],
       [0.42857143],
       [1.        ]])

- 다른 방식 코딩 (1)

In [11]:
from sklearn.preprocessing import MinMaxScaler
minmax_scale = MinMaxScaler(feature_range=(0,1))
scaled_feature = minmax_scale.fit_transform(feature)
scaled_feature

array([[0.        ],
       [0.28571429],
       [0.35714286],
       [0.42857143],
       [1.        ]])

- 다른 방식 코딩 (2)

In [12]:
from sklearn.preprocessing import MinMaxScaler
scaled_feature = MinMaxScaler(feature_range=(0,1)).fit_transform(feature)
scaled_feature

array([[0.        ],
       [0.28571429],
       [0.35714286],
       [0.42857143],
       [1.        ]])

- 훈련 세트와 테스트 세트의 스케일을 따로 조정하면 안됨

In [14]:
# 훈련 세트를 변환합니다
preprocessing.MinMaxScaler().fit_transform(feature[:3])

array([[0. ],
       [0.8],
       [1. ]])

In [15]:
# 테스트 세트를 변환합니다
preprocessing.MinMaxScaler().fit_transform(feature[3:])

array([[0.],
       [1.]])

- 같이 스케일링 하는 케이스

In [17]:
# 훈련 세트로 변환기를 학습합니다
scaler = preprocessing.MinMaxScaler().fit(feature[:3])
scaler.transform(feature[:3])

array([[0. ],
       [0.8],
       [1. ]])

In [18]:
# 훈련 세트에서 학습한 변환기로 테스트 세트를 변환합니다
scaler.transform(feature[3:])

array([[1.2],
       [2.8]])

# 4.2 특성을 표준화하기
- 특성을 평균이 0이고 표준편차가 1이 되도록 변환해야 합니다
- StandardScaler(), RobustScaler()

In [19]:
# 라이브러리를 임포트합니다
import numpy as np
from sklearn import preprocessing

In [20]:
# 특성을 만듭니다
x = np.array([[-1000.1],[-200.2],[500.5],[600.6],[9000.9]])

In [21]:
# 변환기 객체를 만듭니다
scaler = preprocessing.StandardScaler()

In [22]:
# 특성을 변환합니다.
standardized = scaler.fit_transform(x)

In [23]:
# 특성을 출력합니다
standardized

array([[-0.76058269],
       [-0.54177196],
       [-0.35009716],
       [-0.32271504],
       [ 1.97516685]])

- 표준화 효과 확인

In [25]:
# 평균과 표준편차를 출력
print('평균     : ', round(standardized.mean()))
print('표준편차 : ', round(standardized.std()))

평균     :  0
표준편차 :  1


- 이상치가 많은 경우 : RobustScaler 활용

In [26]:
# 변환기 객체를 만듭니다
robust_scaler = preprocessing.RobustScaler()

In [27]:
# 특성을 변환합니다
robust_scaler.fit_transform(x)

array([[-1.87387612],
       [-0.875     ],
       [ 0.        ],
       [ 0.125     ],
       [10.61488511]])

In [28]:
interquantile_range = x[3]-x[1]
(x - np.median(x)) / interquantile_range

array([[-1.87387612],
       [-0.875     ],
       [ 0.        ],
       [ 0.125     ],
       [10.61488511]])

In [29]:
preprocessing.QuantileTransformer().fit_transform(x)



array([[0.  ],
       [0.25],
       [0.5 ],
       [0.75],
       [1.  ]])

# 4.3 정규화 하기
- 샘플의 특성값을 전체 길이가 1인 단위 노름(norm)이 되도록 변환하고 싶습니다
- Normalizer
  - 옵션 : l1(Manhattan), l2(Euclidean), max

In [30]:
# 라이브러리를 임포트합니다
import numpy as np
from sklearn.preprocessing import Normalizer

In [31]:
# 특성 행렬을 만듭니다
features = np.array([[0.5,0.5], [1.1,3.4],[1.5,2.4],[1.63,34.4],[10.0,3.3]])

In [32]:
# 변환기 객체를 만듭니다
normalizer = Normalizer(norm='l2')

In [33]:
# 특성 행렬을 변환합니다
normalizer.transform(features)

array([[0.70710678, 0.70710678],
       [0.30782029, 0.95144452],
       [0.52999894, 0.8479983 ],
       [0.04733062, 0.99887928],
       [0.94962865, 0.31337745]])

- l2 norm : 유클리드(Euclidean)

In [34]:
# 특성 행렬을 변환합니다
features_l2_norm = Normalizer(norm='l2').transform(features)

In [35]:
# 특성 행렬을 출력합니다
features_l2_norm

array([[0.70710678, 0.70710678],
       [0.30782029, 0.95144452],
       [0.52999894, 0.8479983 ],
       [0.04733062, 0.99887928],
       [0.94962865, 0.31337745]])

- l1 norm : 맨해튼(Manhattan)

In [36]:
# 특성 행렬을 변환합니다
features_l1_norm = Normalizer(norm='l1').transform(features)

In [37]:
# 특성 행렬을 출력합니다
features_l1_norm

array([[0.5       , 0.5       ],
       [0.24444444, 0.75555556],
       [0.38461538, 0.61538462],
       [0.04524008, 0.95475992],
       [0.7518797 , 0.2481203 ]])

In [38]:
# 합을 출력합니다
print('첫번째 샘플값의 합 : ', features_l1_norm[0,0] + features_l1_norm[0,1])

첫번째 샘플값의 합 :  1.0


- Normalizer는 행단위 변환이라 fit 메서드는 아무런 작업을 수행하지 않는다

In [39]:
# L1 노름을 사용한 변환
# 각 행(axis=1)을 합한 결과가 2차원 배열로 유지되도록
# keepdims를 True로 설정합니다
features / np.sum(np.abs(features), axis=1, keepdims=True)

array([[0.5       , 0.5       ],
       [0.24444444, 0.75555556],
       [0.38461538, 0.61538462],
       [0.04524008, 0.95475992],
       [0.7518797 , 0.2481203 ]])

In [43]:
# keepdims가 없으면 features 절대값의 전체 합계로 나눗셈을 수행한다
features / np.sum(np.abs(features))

array([[0.00851354, 0.00851354],
       [0.01872978, 0.05789205],
       [0.02554061, 0.04086498],
       [0.02775413, 0.58573131],
       [0.17027073, 0.05618934]])

In [48]:
# L2 노름을 사용한 변환
features / np.sqrt(np.sum(np.square(features), axis=1, keepdims=True))

array([[0.70710678, 0.70710678],
       [0.30782029, 0.95144452],
       [0.52999894, 0.8479983 ],
       [0.04733062, 0.99887928],
       [0.94962865, 0.31337745]])

- max 옵션 사용

In [49]:
# 각 행에서 최댓값으로 나눕니다
Normalizer(norm='max').transform(features)

array([[1.        , 1.        ],
       [0.32352941, 1.        ],
       [0.625     , 1.        ],
       [0.04738372, 1.        ],
       [1.        , 0.33      ]])

# 4.4 다항 특성과 교차항 특성 생성하기
- 다항(polynominal) 특성과 교차항(interaction) 특성을 만들고 싶습니다
- PolynomialFeatures(degree=, include_bias=, interaction_only=)
  - get_feature_names_out()

In [50]:
# 라이브러리를 임포트합니다
import numpy as np
from sklearn.preprocessing import PolynomialFeatures

In [54]:
# 특성 행렬을 만듭니다
features = np.array([[2,3],[2,4],[3,5]])

In [58]:
# PolynomialFeatures 객체를 만듭니다
polynomial_interaction = PolynomialFeatures(degree=2, include_bias=False)

In [59]:
# 다항 특성을 만듭니다
polynomial_interaction.fit_transform(features)

array([[ 2.,  3.,  4.,  6.,  9.],
       [ 2.,  4.,  4.,  8., 16.],
       [ 3.,  5.,  9., 15., 25.]])

- 교차항 특성

In [61]:
# interaction_only 옵션으로 교차항 특성만 생성 가능
interaction = PolynomialFeatures(degree=2, interaction_only=True, include_bias=False)
interaction.fit_transform(features)

array([[ 2.,  3.,  6.],
       [ 2.,  4.,  8.],
       [ 3.,  5., 15.]])

- 3차항 생성

In [56]:
# PolynomialFeatures 객체를 만듭니다
polynomial_interaction = PolynomialFeatures(degree=3, include_bias=False)

In [57]:
# 다항 특성을 만듭니다
polynomial_interaction.fit_transform(features)

array([[  2.,   3.,   4.,   6.,   9.,   8.,  12.,  18.,  27.],
       [  2.,   4.,   4.,   8.,  16.,   8.,  16.,  32.,  64.],
       [  3.,   5.,   9.,  15.,  25.,  27.,  45.,  75., 125.]])

- include_bias 옵션

In [62]:
# 상수항 1을 추가합니다
polynomial_bias = PolynomialFeatures(degree=2, include_bias=True).fit(features)
polynomial_bias.transform(features)

array([[ 1.,  2.,  3.,  4.,  6.,  9.],
       [ 1.,  2.,  4.,  4.,  8., 16.],
       [ 1.,  3.,  5.,  9., 15., 25.]])

In [65]:
# get_feature_names
#polynomial_bias.get_feature_names()   # 버전 차이로 이름 변경됨
polynomial_bias.get_feature_names_out()

array(['1', 'x0', 'x1', 'x0^2', 'x0 x1', 'x1^2'], dtype=object)

# 4.5 특성 변환하기
- 하나 이상의 특성에 사용자 정의 변환을 적용하고 싶습니다
- FunctionTransformer, ColumnTransformer

In [66]:
# 라이브러리를 임포트합니다.
import numpy as np
from sklearn.preprocessing import FunctionTransformer

In [68]:
# 특성 행렬을 만듭니다
features = np.array([[2,3],[2,3],[2,3]])

In [69]:
# 간단한 함수를 정의합니다
def add_ten(x):
    return x+10

In [70]:
# 변환기 객체를 만듭니다
ten_transformer = FunctionTransformer(add_ten)

In [71]:
# 특성 행렬을 변환합니다
ten_transformer.transform(features)

array([[12, 13],
       [12, 13],
       [12, 13]])

- Pandas의 apply 메서드를 사용한 동일한 변환

In [72]:
# 라이브러리를 임포트합니다
import pandas as pd

In [73]:
# 데이터프레임을 만듭니다
df = pd.DataFrame(features, columns=['feature_1','feature_2'])

In [74]:
# 함수를 적용합니다
df.apply(add_ten)

Unnamed: 0,feature_1,feature_2
0,12,13
1,12,13
2,12,13


- validate 매개변수

In [75]:
FunctionTransformer(add_ten, validate=False).transform(np.array([1,2,3]))

array([11, 12, 13])

In [76]:
FunctionTransformer(add_ten, validate=True).transform(np.array([1,2,3]))

ValueError: Expected 2D array, got 1D array instead:
array=[1 2 3].
Reshape your data either using array.reshape(-1, 1) if your data has a single feature or array.reshape(1, -1) if it contains a single sample.

- ComumnTransformer

In [77]:
from sklearn.compose import ColumnTransformer

# 100을 더하는 함수를 만듭니다
def add_hundred(x):
    return x+100

# (이름, 변환기, 열 리스트)로 구성된 튜플의 리스트를
# ColumnTransformer에 전달합니다
ct = ColumnTransformer(
          [('add_ten', FunctionTransformer(add_ten, validate=True), ['feature_1']),
           ('add_hundred', FunctionTransformer(add_hundred, validate=True), ['feature_2'])])
ct.fit_transform(df)

array([[ 12, 103],
       [ 12, 103],
       [ 12, 103]])

# 4.6 이상치 감지하기
- 아주 예외적인 샘플을 구별하고 싶습니다
- EllipticEnvelope()

In [78]:
# 라이브러리를 임포트합니다
import numpy as np
from sklearn.covariance import EllipticEnvelope
from sklearn.datasets import make_blobs

In [95]:
# 모의 데이터를 만듭니다
features, _ = make_blobs(n_samples=10, n_features=2, centers=1, random_state=1)

In [96]:
# 첫번째 샘플을 극단적인 값으로 바꿉니다
features[0,0] = 10000
features[0,1] = 10000

In [81]:
# 이상치 감지 객체를 만듭니다
outlier_detector = EllipticEnvelope(contamination=.1)

In [82]:
# 감지 객체를 훈련합니다
outlier_detector.fit(features)

In [83]:
# 이상치를 예측합니다
outlier_detector.predict(features)

array([-1,  1,  1,  1,  1,  1,  1,  1,  1,  1])

In [84]:
features

array([[ 1.00000000e+04,  1.00000000e+04],
       [-2.76017908e+00,  5.55121358e+00],
       [-1.61734616e+00,  4.98930508e+00],
       [-5.25790464e-01,  3.30659860e+00],
       [ 8.52518583e-02,  3.64528297e+00],
       [-7.94152277e-01,  2.10495117e+00],
       [-1.34052081e+00,  4.15711949e+00],
       [-1.98197711e+00,  4.02243551e+00],
       [-2.18773166e+00,  3.33352125e+00],
       [-1.97451969e-01,  2.34634916e+00]])

- 자체 추가 테스트

In [91]:
# 다섯번째 샘플도 극단적인 값으로 바꿉니다
features[4,0] = 20000
features[4,1] = 20000

# 이상치 감지 객체를 만듭니다
outlier_detector = EllipticEnvelope(contamination=.2)

# 감지 객체를 훈련합니다
outlier_detector.fit(features)

# 이상치를 예측합니다
outlier_detector.predict(features)

array([-1,  1,  1,  1, -1,  1,  1,  1,  1,  1])

- 개별 특성에서 사분위범위(IQR)를 사용하여 극단적인 값 추출

In [98]:
# 하나의 특성을 만듭니다
feature = features[:,0]

In [93]:
# 이상치의 인덱스를 반환하는 함수를 만듭니다
def indicies_of_outliers(x):
    q1, q3 = np.percentile(x, [25,75])
    iqr = q3-q1
    lower_bound = q1 - (iqr * 1.5)
    upper_bound = q3 + (iqr * 1.5)
    return np.where((x>upper_bound) | (x<lower_bound))

In [99]:
# 함수를 실행합니다
indicies_of_outliers(feature)

(array([0], dtype=int64),)

# 4.7 이상치 다루기
- 이상치가 존재합니다

1) 첫번째 방법 : 이상치 삭제

In [101]:
# 라이브러리를 임포트합니다
import pandas as pd

In [102]:
# 데이터프레임을 만듭니다
houses = pd.DataFrame()
houses['Price'] = [534433, 392333, 293222, 432032]
houses['Bathrooms'] = [2, 3.5, 2, 116]
houses['Square_Feet'] = [1500, 2500, 1500, 48000]

In [103]:
# 샘플을 필터링합니다
houses[houses['Bathrooms'] < 20]

Unnamed: 0,Price,Bathrooms,Square_Feet
0,534433,2.0,1500
1,392333,3.5,2500
2,293222,2.0,1500


2) 두번째 방법 : 이상치 표시, 특성의 하나로 포함

In [105]:
# 라이브러리를 임포트합니다
import numpy as np

In [106]:
# 불리언 조건을 기반으로 특성을 만듭니다
houses['Outlier'] = np.where(houses['Bathrooms'] < 20, 0, 1)

In [107]:
# 데이터를 확인합니다
houses

Unnamed: 0,Price,Bathrooms,Square_Feet,Outlier
0,534433,2.0,1500,0
1,392333,3.5,2500,0
2,293222,2.0,1500,0
3,432032,116.0,48000,1


3) 세번째 방법 : 이상치의 영향이 줄어들도록 특성을 변환합니다

In [108]:
# 로그 특성
houses['Log_Of_Square_Feet'] = [np.log(x) for x in houses['Square_Feet']]

In [109]:
# 데이터를 확인합니다
houses

Unnamed: 0,Price,Bathrooms,Square_Feet,Outlier,Log_Of_Square_Feet
0,534433,2.0,1500,0,7.31322
1,392333,3.5,2500,0,7.824046
2,293222,2.0,1500,0,7.31322
3,432032,116.0,48000,1,10.778956


# 4.8 특성 이산화하기
- 수치 특성을 개별적인 구간으로 나누고 싶습니다

1) 임곗값이 따라 특성을 둘로 나누는 방법

In [111]:
# 라이브러리를 임포트합니다
import numpy as np
from sklearn.preprocessing import Binarizer

In [113]:
# 특성을 만듭니다
age = np.array([[6],[12],[20],[36],[65]])

In [119]:
# Binarizer 객체를 만듭니다
binarizer = Binarizer(threshold=18)

In [120]:
# 특성을 변환합니다
binarizer.fit_transform(age)

array([[0],
       [0],
       [1],
       [1],
       [1]])

2) 수치 특성을 여러 임곗값에 따라 나누는 방법

In [121]:
# 특성을 나눕니다
np.digitize(age, bins=[20, 30, 64])

array([[0],
       [0],
       [1],
       [2],
       [3]], dtype=int64)

In [123]:
# 특성을 나눕니다
np.digitize(age, bins=[20, 30, 64], right=True)   # 경곗값 좌우 구분

array([[0],
       [0],
       [0],
       [2],
       [3]], dtype=int64)

- digitize를 Binarizer로 사용하기

In [126]:
# 특성을 나눕니다
np.digitize(age, bins=[18])

array([[0],
       [0],
       [1],
       [1],
       [1]], dtype=int64)

- 연속적인 특성값을 여러 구간으로 나누어 주는 KBinsDiscretizer 클래스

In [129]:
from sklearn.preprocessing import KBinsDiscretizer

# 4개의 구간으로 나눕니다
kb = KBinsDiscretizer(4, encode='ordinal', strategy='quantile')
kb.fit_transform(age)

array([[0.],
       [1.],
       [2.],
       [3.],
       [3.]])

In [130]:
# One-Hot-Encoding을 반환합니다
kb = KBinsDiscretizer(4, encode='onehot-dense', strategy='quantile')
kb.fit_transform(age)

array([[1., 0., 0., 0.],
       [0., 1., 0., 0.],
       [0., 0., 1., 0.],
       [0., 0., 0., 1.],
       [0., 0., 0., 1.]])

In [131]:
# 동일한 길이의 구간을 만듭니다
kb = KBinsDiscretizer(4, encode='onehot-dense', strategy='uniform')
kb.fit_transform(age)

array([[1., 0., 0., 0.],
       [1., 0., 0., 0.],
       [1., 0., 0., 0.],
       [0., 0., 1., 0.],
       [0., 0., 0., 1.]])

In [132]:
kb.bin_edges_

array([array([ 6.  , 20.75, 35.5 , 50.25, 65.  ])], dtype=object)

# 4.9 군집으로 샘플을 그룹으로 묶기
- 비슷한 샘플을 그룹으로 모으고 싶습니다

# 4.10 누락된 값을 가진 샘플을 삭제하기
- 누락된 값이 있는 샘플을 삭제해야 합니다

# 4.11 누락된 값 채우기
- 데이터에 누락된 값이 있을 때 이를 채우거나 값을 예측하고 싶습니다