### Scikit-learn API training #3

#### Data preprocessing  

   * 데이터 클린징 (데이터 오류 수정)  
   
   * 결손값 처리 (Null / NaN 처리)
   * 데이터 인코딩 (데이터가 명목형인 경우.. 레이블, 원-핫 인코딩)
   * 데이터 스케일링 (각 컬럼의 단위가 다른경우.. 정규화,표준화)
   * 이상치 제거 (터무니없는 값 포함된 것)
   * Feature 선택, 추출 및 가공

#### Data encoding 

   * __Label encoding__ : 명목형 값을 단순히 숫자로 매칭  
    
   * __One-hot encoding__ : feature 값의 유형에 따라 새로운 feature를 추가해서 고유 값에 해당하는 컬럼에만 1을 표시하고 나머지 컬럼에는 0을 표시하는 방법  
   
   Example)  
   [청소기, 냉장고, TV]의 컬럼을 갖는 경우 청소기는 [1,0,0], 냉장고는 [0,1,0], TV는 [0,0,1]  
     
       - __One-hot encoding usin Pandas__ :
               pandas.get_dummies(DataFrame)

#### Feature Scaling

   * __표준화(standardization)__ : 데이터 각각이 평균이 0, 분산이 1인 가우시안 정규 분포를 가진 값으로 변환하는 것  
   
        - Standardization formula :
        
             ### $z_i = {x_i - mean(x) \over std(x)}$  
          <br>
        - __StandardScaler__ : 평균 0, 분산 1 인 정규분포 값을 따르도록 변환
          <br>
   * __정규화(normalization)__ : 서로 다른 feature의 크기를 통일하기 위해 크기를 변환해주는 것 
   
        - Normalization formula
       
           ### $z_i = {x_i - min(x) \over max(x)-min(x)}$  
           <br>
        - __MinMaxScaler__ : 데이터 값을 0과 1 사이의 범위값으로 변환 (음수 ㄱ밧은 -1에서 1값으로 변환)

###   

* 레이블 인코딩(Label encoding)

In [1]:
from sklearn.preprocessing import LabelEncoder

items = ['COVID-19','MERS','SAS','Dengue','Influenza']

encoder = LabelEncoder()
encoder.fit(items)
labels = encoder.transform(items)
# encoder.fit_transform(item) 은 fit과 transform 한번에 가능
print('Label encoding result : ',labels)
print('Label encoding class : ',encoder.classes_)
print('decoding result : ',encoder.inverse_transform(labels))

Label encoding result :  [0 3 4 1 2]
Label encoding class :  ['COVID-19' 'Dengue' 'Influenza' 'MERS' 'SAS']
decoding result :  ['COVID-19' 'MERS' 'SAS' 'Dengue' 'Influenza']


* 원-핫 인코딩(One-Hot encoding)

In [2]:
## Scikit-learn 의 인코딩 방식 이용
from sklearn.preprocessing import OneHotEncoder
import numpy as np

# 숫자값으로 변환을 먼저 한 후에 원-핫 인코딩 가능
items = ['COVID-19','MERS','SAS','Dengue','Influenza']

encoder = LabelEncoder()
encoder.fit(items)
labels = encoder.transform(items)

# 2차원 배열로 변환
labels = labels.reshape(-1,1)
print('Label data: \n',labels)

oh_encoder = OneHotEncoder()
oh_labels = oh_encoder.fit_transform(labels)

print('\nOne-Hot Encoding result')
print(oh_labels.toarray())
print('\nOne-Hot Encoding shape')
print(oh_labels.shape)

Label data: 
 [[0]
 [3]
 [4]
 [1]
 [2]]

One-Hot Encoding result
[[1. 0. 0. 0. 0.]
 [0. 0. 0. 1. 0.]
 [0. 0. 0. 0. 1.]
 [0. 1. 0. 0. 0.]
 [0. 0. 1. 0. 0.]]

One-Hot Encoding shape
(5, 5)


In case you used a LabelEncoder before this OneHotEncoder to convert the categories to integers, then you can now use the OneHotEncoder directly.


In [3]:
## Pandas 의 인코딩 방식 이용
import pandas as pd

df = pd.DataFrame({'item':items})
df

Unnamed: 0,item
0,COVID-19
1,MERS
2,SAS
3,Dengue
4,Influenza


In [4]:
pd.get_dummies(df) # One-Hot Encoding

Unnamed: 0,item_COVID-19,item_Dengue,item_Influenza,item_MERS,item_SAS
0,1,0,0,0,0
1,0,0,0,1,0
2,0,0,0,0,1
3,0,1,0,0,0
4,0,0,1,0,0


* Feature Scaling and Normalization

In [5]:
from sklearn.datasets import load_iris
import pandas as pd

iris = load_iris()
iris_data = iris.data
iris_df = pd.DataFrame(data = iris_data, columns = iris.feature_names)

print(iris_df.mean())
print(iris_df.var())

sepal length (cm)    5.843333
sepal width (cm)     3.057333
petal length (cm)    3.758000
petal width (cm)     1.199333
dtype: float64
sepal length (cm)    0.685694
sepal width (cm)     0.189979
petal length (cm)    3.116278
petal width (cm)     0.581006
dtype: float64


In [6]:
from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
scaled_data = scaler.fit_transform(iris_df)

data_new = pd.DataFrame(scaled_data,columns = iris.feature_names)
print(data_new)
print('-'*80)
print(data_new.mean())
print(data_new.var())

     sepal length (cm)  sepal width (cm)  petal length (cm)  petal width (cm)
0            -0.900681          1.019004          -1.340227         -1.315444
1            -1.143017         -0.131979          -1.340227         -1.315444
2            -1.385353          0.328414          -1.397064         -1.315444
3            -1.506521          0.098217          -1.283389         -1.315444
4            -1.021849          1.249201          -1.340227         -1.315444
..                 ...               ...                ...               ...
145           1.038005         -0.131979           0.819596          1.448832
146           0.553333         -1.282963           0.705921          0.922303
147           0.795669         -0.131979           0.819596          1.053935
148           0.432165          0.788808           0.933271          1.448832
149           0.068662         -0.131979           0.762758          0.790671

[150 rows x 4 columns]
----------------------------------------

In [7]:
from sklearn.preprocessing import MinMaxScaler

scaler = MinMaxScaler()
scaled_data = scaler.fit_transform(iris_df)

data_new = pd.DataFrame(scaled_data,columns = iris.feature_names)
print(data_new)
print('-'*80)
print(data_new.mean())
print(data_new.var())

     sepal length (cm)  sepal width (cm)  petal length (cm)  petal width (cm)
0             0.222222          0.625000           0.067797          0.041667
1             0.166667          0.416667           0.067797          0.041667
2             0.111111          0.500000           0.050847          0.041667
3             0.083333          0.458333           0.084746          0.041667
4             0.194444          0.666667           0.067797          0.041667
..                 ...               ...                ...               ...
145           0.666667          0.416667           0.711864          0.916667
146           0.555556          0.208333           0.677966          0.750000
147           0.611111          0.416667           0.711864          0.791667
148           0.527778          0.583333           0.745763          0.916667
149           0.444444          0.416667           0.694915          0.708333

[150 rows x 4 columns]
----------------------------------------