## 4. sklearn.preprocessing

sklearn.preprocessing은 데이터를 분석에 적합한 형태로 바꿔주는 변환기나 여러 함수들을 포함하고 있는 패키지입니다. 

우리의 교재에서는 표준화를 위한 StandardScaler, 결측치 대체를 위한 SimpleImputer, string feature들을 숫자형으로 변환해주는 CategoricalEncoder, OneHotEncoder 등등이 사용되었습니다. Scaler부터 보겠습니다

#### Scaler

In [14]:
from sklearn import preprocessing
import numpy as np
X_train = np.array([[ 1., -1.,  2.],
                    [ 2.,  0.,  0.],
                    [ 0.,  1., -1.]])

std_scaler = preprocessing.StandardScaler()
print(std_scaler.fit_transform(X_train)) 
print(X_train)

[[ 0.         -1.22474487  1.33630621]
 [ 1.22474487  0.         -0.26726124]
 [-1.22474487  1.22474487 -1.06904497]]
[[ 1. -1.  2.]
 [ 2.  0.  0.]
 [ 0.  1. -1.]]


sklearn에서 preprocessing을 import하고, array데이터 생성을 위해서 넘파이도 불러와 줍니다. 

그리고 우리가 하고 싶은 scaling을 위해서 StandardScaler를 불러 서 std_scaler에 할당해 주었습니다.StandardScaler는 Mean = 0, var = 1으로 맞춰 주기 위해서 전체 데이터에서 평균을 빼고 그걸 표준 편차로 나눠주는 형태의 scaling을 해 줍니다. 

이후에는 fit_transform을 통해 적용을 해 주면 되지요.

In [15]:
min_max_scaler = preprocessing.MinMaxScaler()
print(min_max_scaler.fit_transform(X_train)) 
print(X_train)

[[0.5        0.         1.        ]
 [1.         0.5        0.33333333]
 [0.         1.         0.        ]]
[[ 1. -1.  2.]
 [ 2.  0.  0.]
 [ 0.  1. -1.]]


다른 방식의 scaler는 MinMaxScaler가 있습니다. 이건 최소값을 0으로, 최대값을 1으로 scaling하는 방식입니다. 위의 행렬을 보시면 아시겠지만, 원래 데이터의 최대값인 2가 1로, 최소값인 -1이 0으로 변환되고, 이에 비례해서 데이터가 변환됨을 알 수 있습니다. 세부 문법은 동일합니다. 

In [17]:
X_normalized = preprocessing.normalize(X_train)
print(X_normalized)

[[ 0.40824829 -0.40824829  0.81649658]
 [ 1.          0.          0.        ]
 [ 0.          0.70710678 -0.70710678]]


그냥 .normalize()를 통해 정규화를 하는 것도 가능합니다. 

그 외에 다른 scaler들은 
https://scikit-learn.org/stable/modules/preprocessing.html
이 링크를 참조하세요. 이후에 나올 Encoder 역시 이곳에서 보다 세세한 설명을 보실 수 있습니다. 

#### Encoder

In [31]:
Ordinal_Encoder = preprocessing.OrdinalEncoder()
X = [['male', 'from US', 'uses Safari'], ['female', 'from Europe', 'uses Firefox']]
print(Ordinal_Encoder.fit_transform(X))
print(Ordinal_Encoder.transform([['female', 'from US', 'uses Safari']]))

[[1. 1. 1.]
 [0. 0. 0.]]
[[0. 1. 1.]]


OrdinalEncoder로 단순히 categorical 변수를 숫자로 바꿔줄 수 있습니다. 위의 예시에서 male, US, safari가 1, 나머지가 0으로 인코딩되었음을 확인할 수 있습니다. 

그러나 이런 식의 인코딩은 마치 순서가 의미 있는 듯한 뉘앙스를 줍니다. 책 103쪽의 factorize와 같은 결과를 도출하기 때문입니다. 

따라서 이 문제를 해결하기 위해 OneHotEncoder를 사용합니다. 

In [54]:
Onehot_Encoder = preprocessing.OneHotEncoder()
X = [['male', 'from US', 'uses Safari'], ['female', 'from Europe', 'uses Firefox']]
print("============== Sparse = True ===============")
print(Onehot_Encoder.fit_transform(X))
print("============== Sparse = False ===============")
print(Onehot_Encoder.fit_transform(X).toarray())
print("============== Appliance ===============")
print((Onehot_Encoder.transform([['female', 'from US', 'uses Safari']])))

Onehot_Encoder = preprocessing.OneHotEncoder(sparse=False)
X = [['male', 'from US', 'uses Safari'], ['female', 'from Europe', 'uses Firefox']]
print("============== Sparse = False ===============")
print(Onehot_Encoder.fit_transform(X))
print("============== appliance ===============")
print(Onehot_Encoder.transform([['female', 'from US', 'uses Safari']]))

  (0, 1)	1.0
  (0, 3)	1.0
  (0, 5)	1.0
  (1, 0)	1.0
  (1, 2)	1.0
  (1, 4)	1.0
[[0. 1. 0. 1. 0. 1.]
 [1. 0. 1. 0. 1. 0.]]
  (0, 0)	1.0
  (0, 3)	1.0
  (0, 5)	1.0
[[0. 1. 0. 1. 0. 1.]
 [1. 0. 1. 0. 1. 0.]]
[[1. 0. 0. 1. 0. 1.]]


Onehot이란, 해당하는 값에만 1이, 나머지는 전부 0이 들어가게 되는 코딩 방식을 말합니다. onehot encoder를 적용한 X를 프린트한 위의 값은, 1의 좌표를 출력합니다. 이러한 형식을 희소행렬이라 합니다. 즉 male은 0행 1열이 1이고 나머지는 0인 방식으로, US는 0행 3열이 1인 방식으로 인코딩이 되었음을 나타냅니다. 마찬가지로 다음 행의 female은 0열이 1, Europe은 2열이 1인 형식으로 인코딩을 했음을 드러냅니다. 이는 특정 열을 제외하면 모두 0이 들어가게 되어 행렬이 가로로 너무 길어짐을 막는 방법입니다. 넘파이의 toarray()함수를 통해 해당 희소행렬을 onehot형태로 출력할 수도 있습니다. 

기본적으로 따라서 마지막 Female, US, Safari데이터의 경우 0열, 3열, 5열에 1이 들어가고 나머지는 모두 0으로 출력하게 됩니다. 

OneHotEncoder를 불러올 때, sparse = False옵션을 별도로 지정해주면, 처음부터 onehot의 형태로 출력할 수도 있습니다. 

#### sklearn.impute.SimpleImputer

결측치를 어떻게 처리할지에 대한 패키지입니다. 사실 원래 이게 sklearn.preprocessing에 있었지만, 이제는 sklearn.imputer로 떨어져 나갔답니다. 왜인지는 저도 모르겠네요.

In [67]:
from sklearn.impute import SimpleImputer
imp = SimpleImputer(strategy='mean')
imp.fit([[1, 2], [np.nan, 3], [7, 6]])  
X = [[np.nan, 2], [6, np.nan], [7, 6]]
print(imp.transform(X))

[[4.         2.        ]
 [6.         3.66666667]
 [7.         6.        ]]


SimpleImputer는 결측치를 대체하는 가장 단순한 방식입니다. 특정한 상수나, 통계량들 (평균, 중앙값, 최빈값 등) 을 통해 대체할 수 있습니다. 이러한 대체 전략은 ,strategy = '' 옵션을 통해 지정됩니다. 'mean'외에도 'median', 'most_frequent', 'constant'등을 사용할 수 있습니다. 각각 중앙값, 최빈값, 0을 통해 결측치를 대체합니다. 

통계량들의 연산은 모두 열방향으로 이뤄집니다. 사실 이는 당연한 것이 tidy한 데이터는 행에는 개체, 열에 변수가 들어갑니다. 따라서 열 안에서는 단위도 같고, 비슷한 경향성을 띄지만, 행 간에는 그런게 없습니다. 행에 우리 스터디원을, 열에 몸무게(kg)와 신장(m)를 넣은 데이터가 있다고 생각해보시면 쉬울 거 같네요. 

In [70]:
from sklearn.experimental import enable_iterative_imputer
from sklearn.impute import IterativeImputer

imp = IterativeImputer(max_iter=10, random_state=0)

imp.fit([[1, 2], [3, 6], [4, 8], [np.nan, 3], [7, np.nan]])  
X_test = [[np.nan, 2], [6, np.nan], [np.nan, 6]]
print(np.round(imp.transform(X_test)))

[[ 1.  2.]
 [ 6. 12.]
 [ 3.  6.]]


혹은 multivariate을 통해 일종의 함수를 만드는 연산을 반복해서 결측치인 y를 대체하는 IterativeImputer를 사용할 수도 있습니다. 단 아직 시험단계라 experimental에서 enable해 주어야 합니다(0.21.3 최신버전 기준입니다.)

max_iter를 통해 최대 반복 횟수를, random_state를 통해 시드넘버를 고정해줄 수 있습니다. 

이 경우, fit에서 iteration을 통해 2열이 1열의 2배라는 규칙을 학습했고, 이를 통해 X_test의 결측을 대채한 것을 확인할 수 있습니다. 