### 데이터 인코딩
* 레이블 인코딩(Label encoding)
    * 수치형 데이터가 아닌 범주형(문자) 데이터들을 머신러닝이나 분석에 적합한 데이터로 변경 및 변형을 하는데 이를 인코딩이라고 합니다
    * 파이썬은 인코딩을 위한 여러가지 라이브러리를 제공하고 있으며, 간단한 임포트와 호출로 사용가능합니다
    * 조금더 성능과 정확성을 높이기 위한 작업

In [1]:
items=['TV','냉장고','전자렌지','컴퓨터','선풍기','선풍기','믹서','믹서']
# 단순 인코딩 (0,1,2,3,4... 로 변환)을 위한 labelEncoding
from sklearn.preprocessing import LabelEncoder
# LabelEncoder 객체 생성 후 fit()와 transform()으로 label 인코딩을 수행합니다
encoder = LabelEncoder()
encoder.fit(items)
labels = encoder.transform(items)
print('인코딩 변환값:', labels)
# 텍스트의 종류를 범주형으로 바인딩하고 숫자를 매칭하여 fit합니다
# fit된 결과로 해당 데이터들에 대해 매칭된 숫자로 표현합니다

인코딩 변환값: [0 1 4 5 3 3 2 2]


In [2]:
print('인코딩 클래스(fit결과 범주):', encoder.classes_)
print('디코딩 원본으로 표현:', encoder.inverse_transform([4,5,2,0,1,1,3,3,]))

인코딩 클래스(fit결과 범주): ['TV' '냉장고' '믹서' '선풍기' '전자렌지' '컴퓨터']
디코딩 원본으로 표현: ['전자렌지' '컴퓨터' '믹서' 'TV' '냉장고' '냉장고' '선풍기' '선풍기']


** 원-핫 인코딩(One-Hot encoding)

In [4]:
from sklearn.preprocessing import OneHotEncoder
import numpy as np

In [5]:
items=['TV','냉장고','전자렌지','컴퓨터','선풍기','선풍기','믹서','믹서']
# 먼저 숫자값으로 변환을 위해 LabbelEncoder로 변환합니다
encoder = LabelEncoder()
encoder.fit(items)
labels = encoder.transform(items)
labels

array([0, 1, 4, 5, 3, 3, 2, 2], dtype=int64)

In [6]:
# 2차원 데이터로 변환합니다
labels = labels.reshape(-1,1)
print(labels)

[[0]
 [1]
 [4]
 [5]
 [3]
 [3]
 [2]
 [2]]


In [7]:
# 원-핫 인코딩을 적용합니다
oh_encoder = OneHotEncoder()
oh_encoder.fit(labels)
oh_labels = oh_encoder.transform(labels)
print('원-핫 인코딩 데이터')
print(oh_labels.toarray())

원-핫 인코딩 데이터
[[1. 0. 0. 0. 0. 0.]
 [0. 1. 0. 0. 0. 0.]
 [0. 0. 0. 0. 1. 0.]
 [0. 0. 0. 0. 0. 1.]
 [0. 0. 0. 1. 0. 0.]
 [0. 0. 0. 1. 0. 0.]
 [0. 0. 1. 0. 0. 0.]
 [0. 0. 1. 0. 0. 0.]]


In [15]:
# 데이터프레임에서 특정 칼럼을 대상으로 원핫인코딩을 하려고 할 때
import pandas as pd
df = pd.DataFrame({'item':['TV','냉장고','전자렌지','컴퓨터','선풍기','선풍기','믹서','믹서'],\
                  'num':[9,8,7,6,5,4,3,2] })
df

Unnamed: 0,item,num
0,TV,9
1,냉장고,8
2,전자렌지,7
3,컴퓨터,6
4,선풍기,5
5,선풍기,4
6,믹서,3
7,믹서,2


In [16]:
df_dum = pd.get_dummies(df)
df_dum

Unnamed: 0,num,item_TV,item_냉장고,item_믹서,item_선풍기,item_전자렌지,item_컴퓨터
0,9,1,0,0,0,0,0
1,8,0,1,0,0,0,0
2,7,0,0,0,0,1,0
3,6,0,0,0,0,0,1
4,5,0,0,0,1,0,0
5,4,0,0,0,1,0,0
6,3,0,0,1,0,0,0
7,2,0,0,1,0,0,0


### 피처 스케일링의 정규화
* 주로 수치데이터를 대상으로 하는 작업입니다
* 데이터의 분포가 고른분포가 있는 반면, 한쪽 값으로 치우치거나 최소값과 최대값의 차가 큰 값을 이루는 경우가 있는데 이는 한 쪽으로 치우친 값들을 변형하여, 각 값들의 이전 간격은 유지하되 각 값들이 서로 구분되도록 변형하는 것을 말합니다
* 예를 들어 -10000, 0, 10000 과 같은 값을 스케일링하여 0, 5, 10 의 값으로 변형하는 것을 말합니다 
* 비교할 값들의 범주를 비슷한 정도로 압축시키는 작업

** StandardScaler **

In [18]:
from sklearn.datasets import load_iris
import pandas as pd
# 붓꽃 데이터 셋을 로딩하고 DataFrame으로 변환합니다
iris = load_iris()
iris_data = iris.data
iris_df = pd.DataFrame(data=iris_data, columns=iris.feature_names)
print(iris_df.head(10))
print('feature 들의 평균 값')
print(iris_df.mean())
print('\nfeature들의 분산 값')
print(iris_df.var())

   sepal length (cm)  sepal width (cm)  petal length (cm)  petal width (cm)
0                5.1               3.5                1.4               0.2
1                4.9               3.0                1.4               0.2
2                4.7               3.2                1.3               0.2
3                4.6               3.1                1.5               0.2
4                5.0               3.6                1.4               0.2
5                5.4               3.9                1.7               0.4
6                4.6               3.4                1.4               0.3
7                5.0               3.4                1.5               0.2
8                4.4               2.9                1.4               0.2
9                4.9               3.1                1.5               0.1
feature 들의 평균 값
sepal length (cm)    5.843333
sepal width (cm)     3.057333
petal length (cm)    3.758000
petal width (cm)     1.199333
dtype: float64

feature들의 분산

In [19]:
from sklearn.preprocessing import StandardScaler
# StandardScaler 객체 생성
scaler = StandardScaler()

In [20]:
# StandardScaler가 데이터셋을 fit하고 transform 하는 과정을 거칩니다
scaler.fit(iris_df)
iris_scaled = scaler.transform(iris_df)
iris_scaled

array([[-9.00681170e-01,  1.01900435e+00, -1.34022653e+00,
        -1.31544430e+00],
       [-1.14301691e+00, -1.31979479e-01, -1.34022653e+00,
        -1.31544430e+00],
       [-1.38535265e+00,  3.28414053e-01, -1.39706395e+00,
        -1.31544430e+00],
       [-1.50652052e+00,  9.82172869e-02, -1.28338910e+00,
        -1.31544430e+00],
       [-1.02184904e+00,  1.24920112e+00, -1.34022653e+00,
        -1.31544430e+00],
       [-5.37177559e-01,  1.93979142e+00, -1.16971425e+00,
        -1.05217993e+00],
       [-1.50652052e+00,  7.88807586e-01, -1.34022653e+00,
        -1.18381211e+00],
       [-1.02184904e+00,  7.88807586e-01, -1.28338910e+00,
        -1.31544430e+00],
       [-1.74885626e+00, -3.62176246e-01, -1.34022653e+00,
        -1.31544430e+00],
       [-1.14301691e+00,  9.82172869e-02, -1.28338910e+00,
        -1.44707648e+00],
       [-5.37177559e-01,  1.47939788e+00, -1.28338910e+00,
        -1.31544430e+00],
       [-1.26418478e+00,  7.88807586e-01, -1.22655167e+00,
      

In [22]:
# transform()시 scale로 변환된 데이터 셋이 numpy ndarry로 반환되었으므로
# 이를 DataFrame으로 변환
iris_df_scaled = pd.DataFrame(data=iris_scaled, columns=iris.feature_names)
print(iris_df_scaled)

     sepal length (cm)  sepal width (cm)  petal length (cm)  petal width (cm)
0            -0.900681          1.019004          -1.340227         -1.315444
1            -1.143017         -0.131979          -1.340227         -1.315444
2            -1.385353          0.328414          -1.397064         -1.315444
3            -1.506521          0.098217          -1.283389         -1.315444
4            -1.021849          1.249201          -1.340227         -1.315444
..                 ...               ...                ...               ...
145           1.038005         -0.131979           0.819596          1.448832
146           0.553333         -1.282963           0.705921          0.922303
147           0.795669         -0.131979           0.819596          1.053935
148           0.432165          0.788808           0.933271          1.448832
149           0.068662         -0.131979           0.762758          0.790671

[150 rows x 4 columns]


** MinMaxScaler **

In [23]:
from sklearn.preprocessing import MinMaxScaler
# MinMaxScaler 객체 생성
scaler = MinMaxScaler()

In [25]:
# MinMaxScaler로 데이터 셋 변환. fit()과 transform()호출
scaler.fit(iris_df)
iris_scaled = scaler.transform(iris_df)
iris_df_scaled = pd.DataFrame(data=iris_scaled, columns=iris.feature_names)
print(iris_df_scaled)
print('feature들의 최소값')
print(iris_df_scaled.min())
print('\nfeature 들의 최대값')
print(iris_df_scaled.max())

     sepal length (cm)  sepal width (cm)  petal length (cm)  petal width (cm)
0             0.222222          0.625000           0.067797          0.041667
1             0.166667          0.416667           0.067797          0.041667
2             0.111111          0.500000           0.050847          0.041667
3             0.083333          0.458333           0.084746          0.041667
4             0.194444          0.666667           0.067797          0.041667
..                 ...               ...                ...               ...
145           0.666667          0.416667           0.711864          0.916667
146           0.555556          0.208333           0.677966          0.750000
147           0.611111          0.416667           0.711864          0.791667
148           0.527778          0.583333           0.745763          0.916667
149           0.444444          0.416667           0.694915          0.708333

[150 rows x 4 columns]
feature들의 최소값
sepal length (cm)    0.0
s