# Sikit-Learn의 전처리 기능 

## 1. 스케일링 

스케일링은 자료 집합에 적용되는 전처리 과정으로 모든 자료에 선형 변환을 적용하여 전체 자료의 분포를 <span style="color:red">평균 0, 분산 1</span>이 되도록 만드는 과정이다.스케일링은 자료의 오버플로우(overflow)나 언더플로우(underflow)를 방지하고 독립 변수의 공분산 행렬의 조건수(condition number)를 감소시켜 최적화 과정에서의 안정성 및 수렴 속도를 향상시킨다.

Scikit-Learn에서는 스케일링을 위한 함수와 클래스를 각각 제공한다. 스케일링 함수는 다음과 같다.

- scale(X): 기본 스케일. 평균과 표준편차 사용
- robust_scale(X): 중앙값(median)과 IQR(interquartile range) 사용. 아웃라이어의 영향을 최소화
- minmax_scale(X): 최대/최소값이 각각 1, 0이 되도록 스케일링
- maxabs_scale(X): 최대절대값과 0이 각각 1, 0이 되도록 스케일링

In [4]:
import numpy as np
import pandas as pd

from sklearn.preprocessing import scale, robust_scale, minmax_scale, maxabs_scale

In [4]:
x = (np.arange(9, dtype=np.float) - 3).reshape(-1, 1)
x = np.vstack([x, [20]])  # outlier
df = pd.DataFrame(np.hstack([x, scale(x), robust_scale(x), minmax_scale(x), maxabs_scale(x)]), 
                  columns=["x", "scale(x)", "robust_scale(x)", "minmax_scale(x)", "maxabs_scale(x)"])
df

Unnamed: 0,x,scale(x),robust_scale(x),minmax_scale(x),maxabs_scale(x)
0,-3.0,-0.950995,-1.0,0.0,-0.15
1,-2.0,-0.789809,-0.777778,0.043478,-0.1
2,-1.0,-0.628624,-0.555556,0.086957,-0.05
3,0.0,-0.467438,-0.333333,0.130435,0.0
4,1.0,-0.306253,-0.111111,0.173913,0.05
5,2.0,-0.145067,0.111111,0.217391,0.1
6,3.0,0.016119,0.333333,0.26087,0.15
7,4.0,0.177304,0.555556,0.304348,0.2
8,5.0,0.33849,0.777778,0.347826,0.25
9,20.0,2.756273,4.111111,1.0,1.0


#### iris 데이터 예제

In [5]:
from sklearn.datasets import load_iris
iris = load_iris()

data1 = iris.data
data2 = scale(iris.data) # scale 적용

print("old mean:", np.mean(data1, axis=0))
print("old std: ", np.std(data1, axis=0))
print("new mean:", np.mean(data2, axis=0))
print("new std: ", np.std(data2, axis=0))

old mean: [5.84333333 3.05733333 3.758      1.19933333]
old std:  [0.82530129 0.43441097 1.75940407 0.75969263]
new mean: [-1.69031455e-15 -1.84297022e-15 -1.69864123e-15 -1.40924309e-15]
new std:  [1. 1. 1. 1.]


### StandardScaler 클래스

만약 파이프라인을 이용하면 스케일링을 함수가 아닌 Scaler 클래스로 구현해야 한다. scale 함수에 대응하는 클래스는 StandardScaler 클래스이다.

Scaler 클래스의 사용 방법은 다음과 같다.

1. 클래스 객체 생성
2. fit() 메서드와 트레이닝 데이터를 사용하여 변환 계수 추정
3. transform() 메서드를 사용하여 실제로 자료를 변환
또는 fit_transform() 메서드를 사용하여 계수 추정과 자료 변환을 동시에 실행할 수도 있다.

In [6]:
from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
scaler.fit(data1)
data2 = scaler.transform(data1)

data1.std(), data2.std()

(1.9738430577598278, 1.0)

# 2. 정규화 (Normalization)

정규화(Normarlization)는 스케일링과 달리 개별 <span style="color:red">데이터의 크기를 모두 같게</span> 만들기 위한 변환이다. 따라서 개별 데이터에 대해 서로 다른 변환 계수가 적용된다.

정규화는 다차원 독립 변수 벡터가 있을 때 각 벡터 원소들의 상대적 크기만 중요한 경우에 사용된다.

In [2]:
from sklearn.preprocessing import normalize

In [5]:
x = np.vstack([np.arange(5, dtype=float) - 20, np.arange(5, dtype=float) - 2]).T
y1 = scale(x)
y2 = normalize(x)

print("original x:\n", x)
print("scale:\n", y1)
print("norms (scale)\n", np.linalg.norm(y1, axis=1))
print("normlize:\n", y2)
print("norms (normalize)\n", np.linalg.norm(y2, axis=1))

original x:
 [[-20.  -2.]
 [-19.  -1.]
 [-18.   0.]
 [-17.   1.]
 [-16.   2.]]
scale:
 [[-1.41421356 -1.41421356]
 [-0.70710678 -0.70710678]
 [ 0.          0.        ]
 [ 0.70710678  0.70710678]
 [ 1.41421356  1.41421356]]
norms (scale)
 [2. 1. 0. 1. 2.]
normlize:
 [[-0.99503719 -0.09950372]
 [-0.99861783 -0.05255883]
 [-1.          0.        ]
 [-0.99827437  0.05872202]
 [-0.99227788  0.12403473]]
norms (normalize)
 [1. 1. 1. 1. 1.]


# 3. 인코딩(Encoding)¶

### 1) Label Encoder

종속 변수(라벨) 값을 인코딩

In [53]:
from sklearn.preprocessing import LabelEncoder
le = LabelEncoder()
y = ['A', 'B', 'A', 'A', 'B', 'C', 'C', 'A', 'C', 'B']
le.fit(y)
le.classes_

array(['A', 'B', 'C'], dtype='<U1')

In [54]:
# 변환하기
y2 = le.transform(y) 
y2

array([0, 1, 0, 0, 1, 2, 2, 0, 2, 1], dtype=int64)

In [55]:
# 역변환하기
le.inverse_transform(y2)

array(['A', 'B', 'A', 'A', 'B', 'C', 'C', 'A', 'C', 'B'], dtype='<U1')

### 2) One-Hot Encoder

In [99]:
from sklearn.preprocessing import OneHotEncoder
ohe = OneHotEncoder(categories='auto')

#### a) 3 x 1 열

In [82]:
X = np.array([[0], [1], [2]])
X

array([[0],
       [1],
       [2]])

In [91]:
ohe.fit(X)

OneHotEncoder(categorical_features=None, categories='auto', drop=None,
              dtype=<class 'numpy.float64'>, handle_unknown='error',
              n_values=None, sparse=True)

In [80]:
ohe.transform(X).toarray()

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

#### b) 4x3 행렬

In [85]:
X = np.array([[0, 0, 4], [1, 1, 0], [0, 2, 1], [1, 0, 2]]) 
X

array([[0, 0, 4],
       [1, 1, 0],
       [0, 2, 1],
       [1, 0, 2]])

In [92]:
ohe.fit(X)

OneHotEncoder(categorical_features=None, categories='auto', drop=None,
              dtype=<class 'numpy.float64'>, handle_unknown='error',
              n_values=None, sparse=True)

In [93]:
ohe.transform(X).toarray()

array([[1., 0., 1., 0., 0., 0., 0., 0., 1.],
       [0., 1., 0., 1., 0., 1., 0., 0., 0.],
       [1., 0., 0., 0., 1., 0., 1., 0., 0.],
       [0., 1., 1., 0., 0., 0., 0., 1., 0.]])

### 3) Inputer 

출처 : https://scikit-learn.org/stable/modules/generated/sklearn.impute.SimpleImputer.html

Imputer는 누락된 정보를 채우는 변환이다. 다음과 같은 인수를 제공한다.

- missing_values : 누락 정보
- strategy : 채우는 방법. 디폴트는 "mean"

"mean": 평균

"median": 중앙값

"most_frequent": 최빈값

"constant" : then replace missing values with fill_value. Can be used with strings or numeric data.

In [112]:
from sklearn.impute import SimpleImputer
imp = SimpleImputer(missing_values=np.nan, strategy='mean')
imp.fit([[7, 2, 3], [4, np.nan, 6], [10, 5, 9]])

SimpleImputer(add_indicator=False, copy=True, fill_value=None,
              missing_values=nan, strategy='mean', verbose=0)

### 4) Binarizer

기준값(threshold)값을 기준으로 결과를 0, 1로 구분한다. 디폴트 기준값은 0 이다.

In [113]:
from sklearn.preprocessing import Binarizer
X = [[ 1., -1.,  2.],
     [ 2.,  0.,  0.],
     [ 0.,  1., -1.]]
binarizer = Binarizer().fit(X) 
binarizer.transform(X)

array([[1., 0., 1.],
       [1., 0., 0.],
       [0., 1., 0.]])

In [114]:
binarizer = Binarizer(threshold=1.1)
binarizer.transform(X)

array([[0., 0., 1.],
       [1., 0., 0.],
       [0., 0., 0.]])