## 특성 스케일 바꾸기

In [3]:
import numpy as np
from sklearn import preprocessing

In [7]:
feature = np.array([[-500.5],[-100.1],[0],[100.1],[900.9]])

In [8]:
# 스케일러 객체 만들기
minmax_scale=preprocessing.MinMaxScaler(feature_range=(0,1))

In [9]:
# 특성의 스케일 변환
scaled_feature=minmax_scale.fit_transform(feature)

In [15]:
scaled_feature

array([[0.        ],
       [0.28571429],
       [0.35714286],
       [0.42857143],
       [1.        ]])

#### 특성 스케일은 두가지의 방법이 존재한다

1. fit 메소드를 통해 특서의 최솟값과 최댓값을 계산한 다음 transform 메소드로 스케일을 조정하는 방식
2. fit_transform 메소드로 두 연산을 한번에 처리하는 방식

계산상의 차이는 없으나, 동일한 변환을 다른 데이터셋에 적용시키기 위해서는 fit 과 transform을 따로 호출해야한다

In [13]:
# training set

preprocessing.MinMaxScaler().fit_transform(feature[:3])

array([[0. ],
       [0.8],
       [1. ]])

In [14]:
# test set

preprocessing.MinMaxScaler().fit_transform(feature[3:])

array([[0.],
       [1.]])

위는 기존의 feature 배열로 스케일링한 결과이다.

0 과 900.9 모두 1로 바뀌었다. 이는 서로 다른 스케일을 사용했기에 나타난 결과이다.

In [17]:
# training set으로 스케일러 학습

scaler=preprocessing.MinMaxScaler().fit(feature[:3])
scaler.transform(feature[:3])

array([[0. ],
       [0.8],
       [1. ]])

In [18]:
# 위의 스케일러를 활용하여 test set 학습

scaler.transform(feature[3:])

array([[1.2],
       [2.8]])

training set을 이용하여 만든 scaler를 test set에 동일하게 적용했을 때,
원본 데이터셋과 동일한 비율로 test set을 변환할 수 있음을 확인할 수 있다.

## 특성 표준화하기

In [19]:
import numpy as np
from sklearn import preprocessing

In [20]:
x=np.array([[-1000.1],[-200.2],[500.5],[600.6],[9000.9]])

In [25]:
# 스케일러 생성

scaler=preprocessing.StandardScaler()

In [26]:
# 특성 변환

standardized=scaler.fit_transform(x)

In [27]:
standardized

array([[-0.76058269],
       [-0.54177196],
       [-0.35009716],
       [-0.32271504],
       [ 1.97516685]])

#### StandardScaler() 는 특성을 표준 정규분포로 근사하는 스케일링 방식이다.

표준화를 사용하여 데이터의 평균이 0이고 표준편차가 1이 되도록 변환한다. (= z-score)

- 머신러닝의 일반적인 전처리 단계에서 자주 쓰인다

In [28]:
# StandardScaler() 가 평균과 표준편차를 0과 1로 바꾸었는지 확인

print('평균 :',round(standardized.mean()))
print('표준편차 : ',round(standardized.std()))

평균 : 0.0
표준편차 :  1.0


#### 데이터에 이상치가 많으면 특성의 평균과 표준편차에 영향을 많이 미친다.

이와 같은 경우에는 중간값과 사분위 범위를 사용하여 특성의 스케일을 조정한다

In [29]:
robust_scaler=preprocessing.RobustScaler()

In [30]:
robust_scaler.fit_transform(x)

array([[-1.87387612],
       [-0.875     ],
       [ 0.        ],
       [ 0.125     ],
       [10.61488511]])

#### RobustScaler 는 데이터에서 중간값을 빼고 IQR(3사분위-1사분위)로 나눈다

In [31]:
inter_range=x[3]-x[1]
(x-np.median(x))/inter_range

array([[-1.87387612],
       [-0.875     ],
       [ 0.        ],
       [ 0.125     ],
       [10.61488511]])

QuantileTransformer() 를 통해 이상치의 영향을 줄일수도 있다.

QuantileTransformer() 는 훈련데이터를 1000개의 분위로 나누어 0~1 사이에 고르게 분포시키는 기법이다.

In [32]:
preprocessing.QuantileTransformer().fit_transform(x)

  % (self.n_quantiles, n_samples))


array([[0.  ],
       [0.25],
       [0.5 ],
       [0.75],
       [1.  ]])

## 정규화하기

In [33]:
import numpy as np
from sklearn.preprocessing import Normalizer

In [34]:
features=np.array([[0.5,0.5],
                   [1.1,3.4],
                  [1.5,20.2],
                  [1.63,34.4],
                  [10.9,3.3]])

In [37]:
# 스케일러 생성

norm_scaler=Normalizer(norm="l2")

In [38]:
norm_scaler.transform(features)

array([[0.70710678, 0.70710678],
       [0.30782029, 0.95144452],
       [0.07405353, 0.99725427],
       [0.04733062, 0.99887928],
       [0.95709822, 0.28976368]])

많은 스케일링 방법이 특성별로 적용되지만 샘플별로 스케일을 바꿀 수도 있다.

Normalizer는 단위의 길이의 합이 1이 되도록 개별 샘플의 값을 변환한다.
이런 종류의 스케일링은 유사한 특성이 많을 때(ex: 텍스트분류) 종종 사용한다

L2 : 유클리드 거리
L1 : 맨해튼 거리

In [41]:
features_l2=Normalizer(norm="l2").transform(features)

In [42]:
features_l2

array([[0.70710678, 0.70710678],
       [0.30782029, 0.95144452],
       [0.07405353, 0.99725427],
       [0.04733062, 0.99887928],
       [0.95709822, 0.28976368]])

In [43]:
features_l1=Normalizer(norm="l1").transform(features)

In [44]:
features_l1

array([[0.5       , 0.5       ],
       [0.24444444, 0.75555556],
       [0.06912442, 0.93087558],
       [0.04524008, 0.95475992],
       [0.76760563, 0.23239437]])

In [53]:
'''
norm='l1' 은 각 샘플 특성값의 합을 1로 만든다.
'''

for i in range(len(features_l1)):
    print(str(i),'번째 샘플 값의 합 : ',features_l1[i,0]+features_l1[i,1])

0 번째 샘플 값의 합 :  1.0
1 번째 샘플 값의 합 :  1.0
2 번째 샘플 값의 합 :  1.0
3 번째 샘플 값의 합 :  1.0
4 번째 샘플 값의 합 :  1.0


Normalizer 는 행 단위로 변환되므로 fit 메소드는 아무런 작업을 수행하지 않는다.
따라서 위처럼 transform() 메소드를 바로 사용할 수 있다.

'ㅣ1'과 'ㅣ2' 옵션의 변환은 각 행의 ㅣ1 과 ㅣ2를 구해 나누는 것이다.

In [54]:
'''
L1 변환
각 행(axis=1) 을 합한 결과가 2차원 배열로 유지되도록 keepdims=True 로 설정
'''

features/np.sum(np.abs(features), axis=1, keepdims=True)

array([[0.5       , 0.5       ],
       [0.24444444, 0.75555556],
       [0.06912442, 0.93087558],
       [0.04524008, 0.95475992],
       [0.76760563, 0.23239437]])

In [55]:
'''
L2 변환
'''

features/np.sqrt(np.sum(np.square(features), axis=1, keepdims=True))

array([[0.70710678, 0.70710678],
       [0.30782029, 0.95144452],
       [0.07405353, 0.99725427],
       [0.04733062, 0.99887928],
       [0.95709822, 0.28976368]])

In [56]:
'''
단순 최대값으로 나누는 경우
'''

Normalizer(norm="max").transform(features)

array([[1.        , 1.        ],
       [0.32352941, 1.        ],
       [0.07425743, 1.        ],
       [0.04738372, 1.        ],
       [1.        , 0.30275229]])

## 다항 특성과 교차항 특성 생성하기

In [57]:
import numpy as np
from sklearn.preprocessing import PolynomialFeatures

In [58]:
features=np.array([[2,3],[2,3],[2,3]])

In [62]:
# Polynomial 객체 생성

polynomial_interaction=PolynomialFeatures(degree=2, include_bias=False)

In [63]:
polynomial_interaction.fit_transform(features)

array([[2., 3., 4., 6., 9.],
       [2., 3., 4., 6., 9.],
       [2., 3., 4., 6., 9.]])

#### degree 매개변수는 다항식의 최대 차수를 결정한다

- 예를 들어 degree=2 는 2제곱 까지 새로운 특성을 생성한다
-> x1, x2, x1^2, x1x2, x2^2

In [64]:
interaction=PolynomialFeatures(degree=2, interaction_only=True, include_bias=False)

In [66]:
interaction.fit_transform(features)

array([[2., 3., 6.],
       [2., 3., 6.],
       [2., 3., 6.]])

#### include_bias 의 default 값은 True 이다. 이 설정은 변환된 특성에 상수항을 1 추가한다.

In [67]:
polynomial_bias=PolynomialFeatures(degree=2, include_bias=True).fit(features)

In [68]:
polynomial_bias.transform(features)

array([[1., 2., 3., 4., 6., 9.],
       [1., 2., 3., 4., 6., 9.],
       [1., 2., 3., 4., 6., 9.]])

In [69]:
'''
get_feature_names() 메소드는 특성 변환식을 이름으로 반환한다
'''
polynomial_bias.get_feature_names()

['1', 'x0', 'x1', 'x0^2', 'x0 x1', 'x1^2']

## 특성 변환하기

#### 사용자 정의 변환 적용

In [70]:
import numpy as np
from sklearn.preprocessing import FunctionTransformer

In [76]:
features=np.array([[2,3],
                  [2,3],
                  [2,3]])

In [72]:
def add_ten(x):
    return x+10

In [73]:
ten_transformer=FunctionTransformer(add_ten)

In [74]:
ten_transformer.transform(features)

array([[12, 13],
       [12, 13],
       [12, 13]])

In [77]:
'''
판다스의 apply 메소드를 사용하여 동일한 변환을 수행할 수 있다.
'''
import pandas as pd

df=pd.DataFrame(features, columns=['Feature_1','Feature_2'])

In [78]:
df.apply(add_ten)

Unnamed: 0,Feature_1,Feature_2
0,12,13
1,12,13
2,12,13


FunctionTransformer 의 validate 매개변수가 True 이면 입력값이 2차원배열 인지 확인하고 아닐 경우 예외를 발생시킨다

In [79]:
FunctionTransformer(add_ten, validate=False).transform(np.array([1,2,3]))

array([11, 12, 13])

In [85]:
FunctionTransformer(add_ten,validate=True).transform(np.array([[1,2],[3,4]])) # 그 예외가 뭔지 모르겟음

array([[11, 12],
       [13, 14]])

In [86]:
'''
ColumnTransformer 를 사용해서 각 열마다 다르게 특성 변환을 시킬 수 있다
'''

from sklearn.compose import ColumnTransformer

In [87]:
def add_hundred(x):
    return x+100

In [88]:
# (이름,변환기,열 리스트) 로 구성된 튜플의 리스트를 전달

ct=ColumnTransformer([('add_ten',FunctionTransformer(add_ten, validate=True),['Feature_1']),
                     ('add_hundred',FunctionTransformer(add_hundred,validate=True),['Feature_2'])])

In [89]:
ct.fit_transform(df)

array([[ 12, 103],
       [ 12, 103],
       [ 12, 103]])

## 이상치 감지하기

#### 일반적인 방법은 데이터가 정규분포를 따른다고 가정하고, 이런 가정을 기반으로 데이터를 둘러싼 타원을 그린다.
#### 이 타원 안의 샘플을 정상치(레이블 1)로 분류하고, 타원 밖의 샘플을 이상치(레이블 -1)로 분류한다

In [92]:
import numpy as np
from sklearn.covariance import EllipticEnvelope
from sklearn.datasets import make_blobs

In [96]:
features, _ = make_blobs(n_samples=10, n_features=2, centers=1, random_state=1)

In [97]:
# 이상치 생성

features[0,0]=10000
features[0,1]=10000

In [98]:
# 이상치 탐지 객체 생성

outlier_detector=EllipticEnvelope(contamination=.1)

In [99]:
# 탐지 객체 훈련

outlier_detector.fit(features)

EllipticEnvelope(assume_centered=False, contamination=0.1, random_state=None,
                 store_precision=True, support_fraction=None)

In [100]:
# 이상치 예측

outlier_detector.predict(features)

array([-1,  1,  1,  1,  1,  1,  1,  1,  1,  1])

데이터에 이상치가 있을것으로 예상되는 정도를 contamination 매개변수를 통하여 지정한다

In [101]:
'''
샘플을 전체적으로 보는 것보다 개별 특성에서 사분위범위(IQR)를 사용하여 이상치를 구별할 수 있다.
'''

feature=features[:,0]

In [102]:
# 이상치의 인덱스를 반환하는 함수

def indicies_of_outliers(x):
    q1, q3=np.percentile(x, [25,75])
    iqr= q3-q1
    lower_bound=q1-1.5*iqr
    upper_bound=q3+1.5*iqr
    return np.where((x>upper_bound) | (x<lower_bound))

In [103]:
indicies_of_outliers(feature)

(array([0], dtype=int64),)

## 이상치 다루기

In [104]:
import pandas as pd

In [105]:
houses=pd.DataFrame()
houses['Price']=[534433,392333,293222,4322032]
houses['Bathroom']=[2,3.5,2,116]
houses['Square_Feet']=[1500,2500,1500,48000]

In [106]:
houses

Unnamed: 0,Price,Bathroom,Square_Feet
0,534433,2.0,1500
1,392333,3.5,2500
2,293222,2.0,1500
3,4322032,116.0,48000


In [107]:
houses[houses['Bathroom']<20]

Unnamed: 0,Price,Bathroom,Square_Feet
0,534433,2.0,1500
1,392333,3.5,2500
2,293222,2.0,1500


In [110]:
'''
이상치를 하나의 특성으로 표현하기
'''
import numpy as np

houses['Outlier']=np.where(houses['Bathroom']<20, 0, 1)

In [111]:
houses

Unnamed: 0,Price,Bathroom,Square_Feet,Outlier
0,534433,2.0,1500,0
1,392333,3.5,2500,0
2,293222,2.0,1500,0
3,4322032,116.0,48000,1


In [113]:
'''
이상치의 영향이 줄어들도록 특성 변환
'''
houses['Log_of_sqft']=[np.log(x) for x in houses['Square_Feet']]

In [114]:
houses

Unnamed: 0,Price,Bathroom,Square_Feet,Outlier,Log_of_sqft
0,534433,2.0,1500,0,7.31322
1,392333,3.5,2500,0,7.824046
2,293222,2.0,1500,0,7.31322
3,4322032,116.0,48000,1,10.778956


## 특성 이산화하기
#### 수치 특성을 개별적인 구간으로 나누는 방법

In [115]:
'''
임계값에 따라 특성을 둘로 나누는 방법
'''

import numpy as np
from sklearn.preprocessing import Binarizer

In [116]:
age=np.array([[6],[12],[20],[36],[65]])

In [119]:
# Binarizer 객체 생성

binarizer=Binarizer(18) # 임계값 설정

In [118]:
# 특성 변환

binarizer.fit_transform(age)

array([[0],
       [0],
       [1],
       [1],
       [1]])

In [121]:
'''
수치 특성을 여러 임계값에 따라 나누는 방법
'''

np.digitize(age,bins=[20,30,64]) # bins 의 매개변수 값이 각 구간의 왼쪽 경계값이 됨

array([[0],
       [0],
       [1],
       [2],
       [3]], dtype=int64)

In [123]:
np.digitize(age, bins=[20,30,64], right=True) # right 매개변수로 오른쪽 경계값으로 설정 가능

array([[0],
       [0],
       [0],
       [2],
       [3]], dtype=int64)

In [124]:
'''
digitize() 메소드의 bins 매개변수를 하나만 설정하면 Binarizer 처럼 사용할 수 있다
'''

np.digitize(age, bins=[20])

array([[0],
       [0],
       [1],
       [1],
       [1]], dtype=int64)

In [125]:
'''
연속적인 특성값을 여러 구간으로 나누어줄 수 있다
'''

from sklearn.preprocessing import KBinsDiscretizer

In [127]:
kb=KBinsDiscretizer(4, encode='ordinal', strategy='quantile') # 4개의 구간으로 나눔
kb.fit_transform(age)

array([[0.],
       [1.],
       [2.],
       [3.],
       [3.]])

- KBinsDiscretizer 의 encode 매개변수의 기본값은 'onehot' 으로 원핫 인코딩된 희소행렬을 반환한다
- KBinsDiscretizer 의 encode 매개변수의 값으로 'onehot-dense' 를 설정하면 원핫 인코딩된 밀집 배열을 반환한다

연속된 값을 이산화하여 원핫 인코딩으로 만들면 범주형 특성으로 다루기 편리하다

In [130]:
# 원핫인코딩 반환

kb=KBinsDiscretizer(4, encode='onehot-dense', strategy='quantile')
kb.fit_transform(age)

array([[1., 0., 0., 0.],
       [0., 1., 0., 0.],
       [0., 0., 1., 0.],
       [0., 0., 0., 1.],
       [0., 0., 0., 1.]])

- strategy 매개변수의 기본값은 'quantile' 로 각 구간에 포함된 샘플 개수가 비슷하도록 만든다
- 'uniform' 은 구간의 폭이 동일하도록 만든다

In [131]:
kb=KBinsDiscretizer(4, encode='onehot-dense', strategy='uniform')
kb.fit_transform(age)

array([[1., 0., 0., 0.],
       [1., 0., 0., 0.],
       [1., 0., 0., 0.],
       [0., 0., 1., 0.],
       [0., 0., 0., 1.]])

In [132]:
'''
구간 확인은 bin_edges_  속성으로 확인할 수 있다
'''

kb.bin_edges_

array([array([ 6.  , 20.75, 35.5 , 50.25, 65.  ])], dtype=object)

## 군집으로 샘플을 그룹으로 묶기

In [134]:
import pandas as pd
from sklearn.datasets import make_blobs
from sklearn.cluster import KMeans

In [135]:
features,_ = make_blobs(n_samples=50, n_features=2, centers=3, random_state=1)

In [136]:
dataframe=pd.DataFrame(features, columns=['Feature_1','Feature_2'])

In [139]:
# K-평균 군집 모델 생성

clusterer=KMeans(3, random_state=0)

In [141]:
clusterer.fit(features)

KMeans(algorithm='auto', copy_x=True, init='k-means++', max_iter=300,
       n_clusters=3, n_init=10, n_jobs=None, precompute_distances='auto',
       random_state=0, tol=0.0001, verbose=0)

In [142]:
# 그룹 소속 예측

dataframe['Group']=clusterer.predict(features)

In [143]:
dataframe.head(5)

Unnamed: 0,Feature_1,Feature_2,Group
0,-9.877554,-3.336145,2
1,-7.28721,-8.353986,0
2,-6.943061,-7.023744,0
3,-7.440167,-8.791959,0
4,-6.641388,-8.075888,0


## 누락된 값을 가진 샘플 삭제하기

In [144]:
import numpy as np

In [145]:
features=np.array([[1.1, 11.1],
                  [2.2, 22.2],
                  [3.3, 33.3],
                  [4.4, 44.4],
                  [np.nan, 55]])

In [146]:
# ~ 연산자를 사용하여 누락된 값이 없는 샘플만 남긴다

features[~np.isnan(features).any(axis=1)]

array([[ 1.1, 11.1],
       [ 2.2, 22.2],
       [ 3.3, 33.3],
       [ 4.4, 44.4]])

In [147]:
# 판다스 이용

import pandas as pd

dataframe=pd.DataFrame(features, columns=['Feature_1','Feature_2'])

In [148]:
dataframe.dropna()

Unnamed: 0,Feature_1,Feature_2
0,1.1,11.1
1,2.2,22.2
2,3.3,33.3
3,4.4,44.4


### 누락되는 데이터의 종류

- 완전히 랜덤하게 누락(MCAR) : 값이 누락될 확률이 모든것에 독립적   ex) 설문참여자가 설문을 하기전에 주사위를 굴려 6이 나오면 설문 패스
- 랜덤하게 누락(MAR) : 값이 누락될 확률이 다른 특성에서 얻은 정보에 의존   ex) 자녀여부-결혼여부
- 랜덤하지 않게 누락(MNAR) : 값이 누락될 확률이 랜덤하지 않고 특성에서 잡지 못한 정보에 의존  ex) 자녀여부를 물어보는 설문에 결혼여부가 없는경우


#### MCAR이나 MAR 일때는 이따금 샘플을 삭제해도 괜찮으나, MNAR 이면 값이 누락되는 것 자체가 정보이다.
#### 따라서 MNAR 일때는 샘플을 삭제하면 데이터에 편향을 추가하게 된다.

- fancyimpute 라이브러리가 로컬에 설치되지않아 뒷부분은 코랩으로 진행함