### 특성 스케일 바꾸기 - MinMaxScaler

In [1]:
import numpy as np
from sklearn import preprocessing

# 특성을 만듭니다.
feature = np.array([[-500.5],
                    [-100.1],
                    [0],
                    [100.1],
                    [900.9]])
print(feature)

[[-500.5]
 [-100.1]
 [   0. ]
 [ 100.1]
 [ 900.9]]


In [2]:
# 스케일러 객체를 만듭니다.
minmax_scale = preprocessing.MinMaxScaler(feature_range=(0, 1))
# 특성의 스케일을 변환합니다.- fit_Transform, fit + transform
scaled_feature = minmax_scale.fit_transform(feature)
# 특성을 출력합니다.
scaled_feature

array([[0.        ],
       [0.28571429],
       [0.35714286],
       [0.42857143],
       [1.        ]])

In [3]:
### 주의 : ML 모델 학습 시 train 의 data로 scale 변환을 하고 난 후 그대로 test 변환
# 훈련 세트로 변환기를 학습합니다.
scaler = preprocessing.MinMaxScaler().fit(feature[:3])
scaler.transform(feature[:3])

array([[0. ],
       [0.8],
       [1. ]])

In [4]:
# 훈련 세트에서 학습한 변환기로 테스트 세트를 변환합니다.
scaler.transform(feature[3:])

array([[1.2],
       [2.8]])

### 특성을 표준화 - StandardScaler

In [5]:
import numpy as np
from sklearn import preprocessing

# 특성을 만듭니다.
x = np.array([[-1000.1],
              [-200.2],
              [500.5],
              [600.6],
              [9000.9]])

# 변환기 객체를 만듭니다.
scaler = preprocessing.StandardScaler()
# 특성을 변환합니다.
standardized = scaler.fit_transform(x)
# 특성을 출력합니다.
standardized

array([[-0.76058269],
       [-0.54177196],
       [-0.35009716],
       [-0.32271504],
       [ 1.97516685]])

In [6]:
# 평균과 표준 편차를 출력합니다.
print("평균 Mean:", round(standardized.mean()))
print("표준 편차 Standard deviation:", standardized.std())

평균 Mean: 0
표준 편차 Standard deviation: 1.0


### 그 외 변환 - RobustScaler(), QuantileTransformer()

- 표준화는 ML에서 많이 사용하는 일반적인 전처리 단계. Min Max Scaling 보다 많이 사용. 하지만 알고리즘에 의존적
- 예를들어 주성분 분석은 표준화가 잘 맞지만, 신경망에서는 Min Max를 종종 권장
- 이상치가 많은 Data에서는 평균, 표준편차가 영향을 미치기 때문에 중앙값과 사분위 범위를 사용하는 스케일을 조정하는 Robust Scaler
- RobustSclaer : (x - np.median(x)) / IQR
- interquatile_range = x[3] - x[1]
- (x - np.median(x)) / interquatile_range

In [7]:
# 변환기 객체를 만듭니다.
robust_scaler = preprocessing.RobustScaler()
# 특성을 변환합니다.
robust = robust_scaler.fit_transform(x)
robust

array([[-1.87387612],
       [-0.875     ],
       [ 0.        ],
       [ 0.125     ],
       [10.61488511]])

In [8]:
### QuantileTransfomer : Train Data를 1000개로 나누어 0~1사이에 고르게 분포하게 조정
preprocessing.QuantileTransformer().fit_transform(x)

  % (self.n_quantiles, n_samples))


array([[0.  ],
       [0.25],
       [0.5 ],
       [0.75],
       [1.  ]])

### 정규화 - Normalizer
- Normalizer는 매우 다른 스케일 조정 기법
- 이 방식은 특성 벡터의 유클리디안 길이가 1이 되도록 데이터 포인트를 조정
- 다른 말로 하면 지름이 1인 원(3차원일땐 구)에 데이터 포인트를 투영
- 이 말은 각 데이터 포인트가 다른 비율로 (길이에 반비례하여) 스케일이 조정된다는 뜻
- 이러한 정규화normalization 는 특성 벡터의 길이는 상관없고 데이터의 방향 (또는 각도)만이 중요할 때 많이 사용
- 특정 벡터의 유클리디안 길이가 1이 되도록 데이터 포인트를 조정, 각 데이터 포인트가 다른 비율로(길이에 반비례) 조정된다.
- norm = 'l1' : 맨해튼 (각 샘플의 합을 '1')
- norm = 'l2' : 유클리드 노름
- norm = 'max' : max, 단순히 행의 최댓값으로 행을 나눈다

In [9]:
import numpy as np
from sklearn.preprocessing import Normalizer

# 특성 행렬을 만듭니다.
features = np.array([[0.5, 0.5],
                     [1.1, 3.4],
                     [1.5, 20.2],
                     [1.63, 34.4],
                     [10.9, 3.3]])

# 변환기 객체를 만듭니다.
normalizer = Normalizer(norm="l2")
# 특성 행렬을 변환합니다.
normalizer.transform(features)

array([[0.70710678, 0.70710678],
       [0.30782029, 0.95144452],
       [0.07405353, 0.99725427],
       [0.04733062, 0.99887928],
       [0.95709822, 0.28976368]])

In [16]:
# 특성 행렬을 변환합니다.
features_l2_norm = Normalizer(norm="l2").transform(features)
# 특성 행렬을 출력합니다.
features_l2_norm

array([[0.70710678, 0.70710678],
       [0.30782029, 0.95144452],
       [0.07405353, 0.99725427],
       [0.04733062, 0.99887928],
       [0.95709822, 0.28976368]])

In [17]:
# 특성 행렬을 변환합니다.
features_l1_norm = Normalizer(norm="l1").transform(features)
# 특성 행렬을 출력합니다.
features_l1_norm

array([[0.5       , 0.5       ],
       [0.24444444, 0.75555556],
       [0.06912442, 0.93087558],
       [0.04524008, 0.95475992],
       [0.76760563, 0.23239437]])

In [18]:
# 합을 출력합니다.
print("첫 번째 샘플 값의 합:", features_l1_norm[0, 0] + features_l1_norm[0, 1])

첫 번째 샘플 값의 합: 1.0


In [19]:
# L1 노름을 사용한 변환.
# 각 행(axis=1)을 합한 결과가 2차원 배열로 유지되도록 keepdims를 True로 설정합니다.
features / np.sum(np.abs(features), axis=1, keepdims=True)

array([[0.5       , 0.5       ],
       [0.24444444, 0.75555556],
       [0.06912442, 0.93087558],
       [0.04524008, 0.95475992],
       [0.76760563, 0.23239437]])

In [20]:
# L2 노름을 사용한 변환.
features / np.sqrt(np.sum(np.square(features), axis=1, keepdims=True))

array([[0.70710678, 0.70710678],
       [0.30782029, 0.95144452],
       [0.07405353, 0.99725427],
       [0.04733062, 0.99887928],
       [0.95709822, 0.28976368]])

In [21]:
# 각 행에서 최댓값으로 나눕니다.
Normalizer(norm="max").transform(features)

array([[1.        , 1.        ],
       [0.32352941, 1.        ],
       [0.07425743, 1.        ],
       [0.04738372, 1.        ],
       [1.        , 0.30275229]])

### 다항 특성 (polynominal)과 교차항 특성(interaction) 생성

In [22]:
import numpy as np
# 다항특성 제공 library
from sklearn.preprocessing import PolynomialFeatures

# 특성 행렬을 만듭니다.
features = np.array([[2, 3],
                     [2, 3],
                     [2, 3]])

# PolynomialFeatures 객체를 만듭니다.(2차원)
polynomial_interaction = PolynomialFeatures(degree=2, include_bias=False)
# 다항 특성을 만듭니다.
polynomial_interaction.fit_transform(features)

array([[2., 3., 4., 6., 9.],
       [2., 3., 4., 6., 9.],
       [2., 3., 4., 6., 9.]])

In [23]:
# PolynomialFeatures 객체를 만듭니다.(2차원)
# interaction_only : 교차항만 나오게 x1*x2
# include_bias ='True' : True의 경우 상수항 1 을추가, default = True 
polynomial_interaction = PolynomialFeatures(degree=2, interaction_only =True, include_bias=False)
# 다항 특성을 만듭니다.
polynomial_interaction.fit_transform(features)

array([[2., 3., 6.],
       [2., 3., 6.],
       [2., 3., 6.]])

In [24]:
polynomial_interaction = PolynomialFeatures(degree=2, interaction_only =True)
polynomial_interaction.fit_transform(features)

array([[1., 2., 3., 6.],
       [1., 2., 3., 6.],
       [1., 2., 3., 6.]])

In [26]:
# 상수항 1을 추가합니다.
# get_feature_names() : 특성 변환 식을 이름으로 변환
polynomial_bias = PolynomialFeatures(degree=2, include_bias=True).fit(features)
polynomial_bias.transform(features)
polynomial_bias.get_feature_names()

['1', 'x0', 'x1', 'x0^2', 'x0 x1', 'x1^2']

### 특성 변환하기 - 사용자 정의 변환 (FunctionTransformer)

In [28]:
import numpy as np
from sklearn.preprocessing import FunctionTransformer

# 특성 행렬을 만듭니다.
features = np.array([[2, 3],
                     [2, 3],
                     [2, 3]])

# 간단한 함수를 정의합니다.
def add_ten(x):
    return x + 10

# 변환기 객체를 만듭니다.
ten_transformer = FunctionTransformer(add_ten)
# 특성 행렬을 변환합니다.
ten_transformer.transform(features)

array([[12, 13],
       [12, 13],
       [12, 13]])

In [29]:
### apply를 이용하여 동일하게 변환 가능
import pandas as pd
# 데이터프레임을 만듭니다.
df = pd.DataFrame(features, columns=["feature_1", "feature_2"])

# 함수를 적용합니다.
df.apply(add_ten)

Unnamed: 0,feature_1,feature_2
0,12,13
1,12,13
2,12,13


In [31]:
### validate 매개변수가 True 이면 입력값이 2차원 배열인지 확인하고 아닐 경우 예외(에러)발생 
### Default 값은 false 로 일차원 배열에서도 적용가능
FunctionTransformer(add_ten, validate=False).transform(np.array([1, 2, 3]))

array([11, 12, 13])

### ColumnsTransformer : 열마다 다르게 변환 적용

In [33]:
from sklearn.compose import ColumnTransformer

# 100을 더하는 함수를 만듭니다.
def add_hundred(x):
    return x + 100

def add_ten(x):
    return x + 10

# (이름, 변환기, 열 리스트)로 구성된 튜플의 리스트를 ColumnTransformer에 전달합니다.
# validate = True ? 이면 입력값이 2차원이어야 하는거 아닌지 ? 
ct = ColumnTransformer(
    [("add_ten", FunctionTransformer(add_ten, validate=False), ['feature_1']),
     ("add_hundred", FunctionTransformer(add_hundred, validate=True), ['feature_2'])])
ct.fit_transform(df)

array([[ 12, 103],
       [ 12, 103],
       [ 12, 103]])

### 이상치
- 정규분포이외의 값을 이상치로 감지

In [34]:
import numpy as np
from sklearn.covariance import EllipticEnvelope
from sklearn.datasets import make_blobs

# 모의 데이터를 만듭니다.
features, _ = make_blobs(n_samples = 10,
                         n_features = 2,
                         centers = 1,
                         random_state = 1)

# 첫 번째 샘플을 극단적인 값으로 바꿉니다.
features[0,0] = 10000
features[0,1] = 10000

In [35]:
# EllipticEnvelope
# 이상치 감지 객체를 만듭니다.
# contamination : 이상치의 비율 (정확하게 알지 못하므로 감으로 이상치가 적다고 생각다는 경우 작게) 0~ 0.5
outlier_detector = EllipticEnvelope(contamination=.1)

# 감지 객체를 훈련합니다.
outlier_detector.fit(features)

# 이상치를 예측합니다.
outlier_detector.predict(features)

array([-1,  1,  1,  1,  1,  1,  1,  1,  1,  1])

In [36]:
# IQR 이용하여 감지하기
# 하나의 특성을 만듭니다.
feature = features[:,0]

# 이상치의 인덱스를 반환하는 함수를 만듭니다.
def indicies_of_outliers(x):
    q1, q3 = np.percentile(x, [25, 75])
    iqr = q3 - q1
    lower_bound = q1 - (iqr * 1.5)
    upper_bound = q3 + (iqr * 1.5)
    return np.where((x > upper_bound) | (x < lower_bound))

# 함수를 실행합니다.
indicies_of_outliers(feature)

(array([0], dtype=int64),)

In [37]:
### 그 외 방법
# Z Score : The Z-score, or standard score,is a way of describing a data point in terms of its relationship to the mean and standard deviation of a group of points.

import numpy as np

def outliers_z_score(ys):
    threshold = 3

    mean_y = np.mean(ys)
    stdev_y = np.std(ys)
    z_scores = [(y - mean_y) / stdev_y for y in ys]
    return np.where(np.abs(z_scores) > threshold)

In [38]:
# Modify Z Score (작은 sample 에서 사용)
import numpy as np

def outliers_modified_z_score(ys):
    threshold = 3.5

    median_y = np.median(ys)
    median_absolute_deviation_y = np.median([np.abs(y - median_y) for y in ys])
    modified_z_scores = [0.6745 * (y - median_y) / median_absolute_deviation_y
                         for y in ys]
    return np.where(np.abs(modified_z_scores) > threshold)

### 이상치 Handling
#### 1. 이상치 삭제
#### 2. 이상치로 Tag 하고 하나의 특성으로 포함
#### 3. 이상치 변환

In [39]:
import pandas as pd

# 데이터프레임을 만듭니다.
houses = pd.DataFrame()
houses['Price'] = [534433, 392333, 293222, 4322032]
houses['Bathrooms'] = [2, 3.5, 2, 116]
houses['Square_Feet'] = [1500, 2500, 1500, 48000]

# 샘플을 필터링합니다.- 삭제
houses[houses['Bathrooms'] < 20]

Unnamed: 0,Price,Bathrooms,Square_Feet
0,534433,2.0,1500
1,392333,3.5,2500
2,293222,2.0,1500


In [40]:
import numpy as np
# 불리언 조건을 기반으로 특성을 만듭니다. - Tag
houses["Outlier"] = np.where(houses["Bathrooms"] < 20, 0, 1)
# 데이터를 확인합니다.
houses

Unnamed: 0,Price,Bathrooms,Square_Feet,Outlier
0,534433,2.0,1500,0
1,392333,3.5,2500,0
2,293222,2.0,1500,0
3,4322032,116.0,48000,1


In [41]:
# 로그 특성 (변환)
houses["Log_Of_Square_Feet"] = [np.log(x) for x in houses["Square_Feet"]]
# 데이터를 확인합니다.
houses

Unnamed: 0,Price,Bathrooms,Square_Feet,Outlier,Log_Of_Square_Feet
0,534433,2.0,1500,0,7.31322
1,392333,3.5,2500,0,7.824046
2,293222,2.0,1500,0,7.31322
3,4322032,116.0,48000,1,10.778956


### 특성 이산화 (Feature Grouping)

In [44]:
import numpy as np
from sklearn.preprocessing import Binarizer

# 특성을 만듭니다.
age = np.array([[6],
                [12],
                [18],
                [36],
                [65]])
age

array([[ 6],
       [12],
       [18],
       [36],
       [65]])

In [45]:
# Binarizer 객체를 만듭니다. - threshold 를 기준으로 임계값 보다 크면(초과하면) '1'
binarizer = Binarizer(threshold=18)
# 특성을 변환합니다.
binarizer.fit_transform(age)

array([[0],
       [0],
       [0],
       [1],
       [1]])

In [49]:
### 여러 임게값을 가질 때 - a 미만, a 이상 b 미만, b 이상 c 미만, c 이상 (기본설정)
# 특성을 나눕니다.
np.digitize(age, bins=[18,36,64])

array([[0],
       [0],
       [1],
       [2],
       [3]], dtype=int64)

In [50]:
# right option : 오른쪽 포함
np.digitize(age, bins=[20,30,64], right=True)

array([[0],
       [0],
       [0],
       [2],
       [3]], dtype=int64)

In [51]:
# 1개 기준으로 나눔 = binarizer = Binarizer(threshold=18), binarizer.fit_transform(age)
np.digitize(age, bins=[18])

array([[0],
       [0],
       [1],
       [1],
       [1]], dtype=int64)

In [53]:
### 연속적인 특성값을 여러 구간으로 나누어즌 KBinsDiscretizer
from sklearn.preprocessing import KBinsDiscretizer
# encode : 기본 값은 onehot, onehot-dense는 원핫 인코딩된 밀집 배열을 변환 
# strategy : quantile - 각 구간에 포함된 샘플의 갯수가 비슷하게, uniform - 각 구간의 폭이 동일하게   

# 네 개의 구간으로 나눕니다.
kb = KBinsDiscretizer(4, encode='ordinal', strategy='quantile')
kb.fit_transform(age)

array([[0.],
       [1.],
       [2.],
       [3.],
       [3.]])

In [57]:
kb = KBinsDiscretizer(4, encode='onehot-dense', strategy='quantile')
kb.fit_transform(age)

array([[1., 0., 0., 0.],
       [0., 1., 0., 0.],
       [0., 0., 1., 0.],
       [0., 0., 0., 1.],
       [0., 0., 0., 1.]])

In [61]:
# 원-핫 인코딩을 반환합니다.
kb = KBinsDiscretizer(4, encode='onehot-dense', strategy='quantile')
kb.fit_transform(age)

array([[1., 0., 0., 0.],
       [0., 1., 0., 0.],
       [0., 0., 1., 0.],
       [0., 0., 0., 1.],
       [0., 0., 0., 1.]])

In [62]:
# 동일한 길이의 구간을 만듭니다.
kb2 = KBinsDiscretizer(4, encode='onehot-dense', strategy='uniform')
kb2.fit_transform(age)

array([[1., 0., 0., 0.],
       [1., 0., 0., 0.],
       [1., 0., 0., 0.],
       [0., 0., 1., 0.],
       [0., 0., 0., 1.]])

In [64]:
print('startegy - quantile :', kb.bin_edges_)
print('startegy - uniform :',kb2.bin_edges_)

startegy - quantile : [array([ 6., 12., 18., 36., 65.])]
startegy - uniform : [array([ 6.  , 20.75, 35.5 , 50.25, 65.  ])]


### 군집으로 샘플을 그룹으로 묶기 - K clustering

In [65]:
import pandas as pd
from sklearn.datasets import make_blobs
from sklearn.cluster import KMeans

# 모의 특성 행렬을 만듭니다.
features, _ = make_blobs(n_samples = 50,
                         n_features = 2,
                         centers = 3,
                         random_state = 1)

# 데이터프레임을 만듭니다.
dataframe = pd.DataFrame(features, columns=["feature_1", "feature_2"])
print(dataframe.head(3))

   feature_1  feature_2
0  -9.877554  -3.336145
1  -7.287210  -8.353986
2  -6.943061  -7.023744


In [66]:
# k-평균 군집 모델을 만듭니다.
clusterer = KMeans(3, random_state=0)
# 모델을 훈련합니다.
clusterer.fit(features)
# 그룹 소속을 예측합니다.
dataframe["group"] = clusterer.predict(features)
# 처음 몇 개의 샘플을 조회합니다.
dataframe.head(5)

Unnamed: 0,feature_1,feature_2,group
0,-9.877554,-3.336145,2
1,-7.28721,-8.353986,0
2,-6.943061,-7.023744,0
3,-7.440167,-8.791959,0
4,-6.641388,-8.075888,0


### Null Value 처리 - 삭제
- 무조건적인 삭제보다 Data Null 이 발생한 원인에 주목
- MCAR 완전히 랜던하게 누락 : 주사위 6이 나오면 질문 skip
- MAR 랜덤하게 누락 : 다른 특성에서 얻은 정보로 인한 누락, 예를들어 미혼의 경우 자녀 유무 Null
- MNAR 랜덤하지 않게 누락 : 특성에서 잡지 못한 정보에 의존, 결혼여부에 관한 특성이 포함되지 않은 경우 (무응답)

In [67]:
import numpy as np

# 특성 행렬을 만듭니다.
features = np.array([[1.1, 11.1],
                     [2.2, 22.2],
                     [3.3, 33.3],
                     [4.4, 44.4],
                     [np.nan, 55]])

In [68]:
#########  (~ 연산자를 사용하여) 누락된 값이 없는 샘플만 남깁니다.
features[~np.isnan(features).any(axis=1)]

array([[ 1.1, 11.1],
       [ 2.2, 22.2],
       [ 3.3, 33.3],
       [ 4.4, 44.4]])

In [69]:
import pandas as pd
# 데이터를 적재합니다.
dataframe = pd.DataFrame(features, columns=["feature_1", "feature_2"])
# 누락된 값이 있는 샘플을 제거합니다.
dataframe.dropna()

Unnamed: 0,feature_1,feature_2
0,1.1,11.1
1,2.2,22.2
2,3.3,33.3
3,4.4,44.4


### Null Value 처리 - 치환

#####  K means로 Null value 예측

In [70]:
########################## K means로 Null value 예측
import numpy as np
from fancyimpute import KNN
from sklearn.preprocessing import StandardScaler
from sklearn.datasets import make_blobs

# 모의 특성 행렬을 만듭니다.
features, _ = make_blobs(n_samples = 1000,
                         n_features = 2,
                         random_state = 1)

# 특성을 표준화합니다.
scaler = StandardScaler()
standardized_features = scaler.fit_transform(features)

# 첫 번째 샘플의 첫 번째 특성을 삭제합니다.
true_value = standardized_features[0,0]
standardized_features[0,0] = np.nan

ModuleNotFoundError: No module named 'fancyimpute'

In [None]:
! pip install fancyimpute

In [None]:
# KNN 이용해서 특성 행렬에 있는 누락된 값을 예측합니다.
features_knn_imputed = KNN(k=5, verbose=0).fit_transform(standardized_features)

# 실제 값과 대체된 값을 비교합니다.
print("실제 값:", true_value)
print("대체된 값:", features_knn_imputed[0,0])

In [None]:
# KNN 보다는 성능이 좋지 못하지만 Imputer 모듈을 사용하여 평균, 중간값, 최빈값으로 치환
# # 라이브러리를 임포트합니다.
# from sklearn.preprocessing import Imputer

# # Imputer 객체를 만듭니다.
# mean_imputer = Imputer(strategy="mean", axis=0)

# # 누락된 값을 채웁니다.
# features_mean_imputed = mean_imputer.fit_transform(features)

# # 실제 값과 대체된 값을 비교합니다.
# print("실제 값 True Value:", true_value)
# print("대체된 값 Imputed Value:", features_mean_imputed[0,0])

- KNN : 머신러닝을 이용하여 예측, 단점은 데이터 sample 수가 많으면 과부하가 발생
- Data sample 이 많을때는 Imputer를 이용하여 치환
- sklearn 0.20 버전에서 추가된 SimpleImputer로 사용

####  SimpleImpter 이용

In [None]:
# mean : 평균, medain : 중간값, most_frequent : 최빈값, constant : 고정값 
# constant의 경우 fill_Value 매개 변수에 지정된 값으로 누락된 값을 대체
from sklearn.impute import SimpleImputer

simple_imputer = SimpleImputer()
#simple_imputer = SimpleImputer(strategy = "median")
features_simple_imputed = simple_imputer.fit_transform(features)

# 실제 값과 대체된 값을 비교합니다.
print("실제 값 True Value:", true_value)
print("대체된 값 Imputed Value:", features_simple_imputed[0,0])

In [None]:
# 모의 특성 행렬을 만듭니다.
features, _ = make_blobs(n_samples = 1000,
                         n_features = 2,
                         random_state = 1)