# 데이터 인코딩

## 레이블 인코딩(Label encoding)
- 회귀 ML알고리즘에 사용시 숫자의 크고 작음에 대한 특성 때문에 예측 성능 저하가 발생 가능
- 분류 ML알고리즘은 숫자의 크기가 의미가 없기 때문에 영향X
- 결과 : 벡터
<br><br>
- [방법 1] scikit-learn

In [14]:
from sklearn.preprocessing import LabelEncoder, OneHotEncoder
import pandas as pd
import numpy as np

In [2]:
items = ['강아지', '사자', '사자', '호랑이', '고양이', '사슴', '고양이', '고양이']

# LabelEncoder
encoder = LabelEncoder()

# fit(데이터 파악)
encoder.fit(items)

# transform(유일값(중복을 제거)을 오름차순으로 정렬 후 번호 지정)
label = encoder.transform(items)
label

array([0, 3, 3, 4, 1, 2, 1, 1])

In [3]:
# 인코딩 클래스
encoder.classes_

array(['강아지', '고양이', '사슴', '사자', '호랑이'], dtype='<U3')

In [4]:
# inverse_transform(지정한 번호를 다시 문자로 변환)
encoder.inverse_transform(label)

array(['강아지', '사자', '사자', '호랑이', '고양이', '사슴', '고양이', '고양이'], dtype='<U3')

In [5]:
# fit과 transform을 같이
# 데이터에 따라 fit_transform을 같이 못 하는 상황이 생길 수 있음
encoder.fit_transform(items)

array([0, 3, 3, 4, 1, 2, 1, 1], dtype=int64)

## 원-핫 인코딩
- feature 유형에 따라 새로운 피처를 추가하여 고유 값에 1 표시하고 나머지는 0 표시
- 희소행렬(sparse matrix) : 유효데이터보다 0의 개수가 많은 행렬
- 결과 : matrix(희소행렬)
<br><br>

- [방법 1] scikit-learn

### sklearn

In [12]:
items = ['강아지', '사자', '사자', '호랑이', '고양이', '사슴', '고양이', '고양이']

# 1차원 -> 2차원
r_items = np.array(items).reshape(-1, 1)

In [13]:
r_items

array([['강아지'],
       ['사자'],
       ['사자'],
       ['호랑이'],
       ['고양이'],
       ['사슴'],
       ['고양이'],
       ['고양이']], dtype='<U3')

In [30]:
# 원-핫 인코딩
oh_encoder = OneHotEncoder()

# fit
oh_encoder.fit(r_items)

# transform
# sparse matrix(희소 행렬) : 유효값이 0보다 적은 행렬
# dense matrix(밀집 행렬) : 유효값이 0보다 많은 행렬
oh_labels = oh_encoder.transform(r_items)
oh_labels

<8x5 sparse matrix of type '<class 'numpy.float64'>'
	with 8 stored elements in Compressed Sparse Row format>

In [29]:
# 원-핫 인코딩(희소행렬) 출력
# ['강아지', '고양이', '사슴', '사자', '호랑이']
# [0, 1, 2, 3, 4]
# items = ['강아지', '사자', '사자', '호랑이', '고양이', '사슴', '고양이', '고양이']
# 행 : 8 -> 총 데이터 수
# 열 : 5 -> 데이터의 종류 수 
oh_labels.toarray()

array([[1., 0., 0., 0., 0.],
       [0., 0., 0., 1., 0.],
       [0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 1.],
       [0., 1., 0., 0., 0.],
       [0., 0., 1., 0., 0.],
       [0., 1., 0., 0., 0.],
       [0., 1., 0., 0., 0.]])

In [31]:
# 원-핫 인코딩 차원 
oh_labels.shape

(8, 5)

In [32]:
# 원-핫 인코딩 타입
type(oh_labels)

scipy.sparse._csr.csr_matrix

### pandas

In [33]:
df = pd.DataFrame({
    'items' : items
})
df

Unnamed: 0,items
0,강아지
1,사자
2,사자
3,호랑이
4,고양이
5,사슴
6,고양이
7,고양이


In [37]:
series = pd.Series(items)
series

0    강아지
1     사자
2     사자
3    호랑이
4    고양이
5     사슴
6    고양이
7    고양이
dtype: object

In [35]:
# 희소행렬 생성
pd.get_dummies(df)

Unnamed: 0,items_강아지,items_고양이,items_사슴,items_사자,items_호랑이
0,True,False,False,False,False
1,False,False,False,True,False
2,False,False,False,True,False
3,False,False,False,False,True
4,False,True,False,False,False
5,False,False,True,False,False
6,False,True,False,False,False
7,False,True,False,False,False


In [38]:
# 희소행렬 생성
pd.get_dummies(series)

Unnamed: 0,강아지,고양이,사슴,사자,호랑이
0,True,False,False,False,False
1,False,False,False,True,False
2,False,False,False,True,False
3,False,False,False,False,True
4,False,True,False,False,False
5,False,False,True,False,False
6,False,True,False,False,False
7,False,True,False,False,False


# 피처 스케일링
- 스케일링 : 속성들 사이의 값 차이를 특정 범위에 들어올 수 있도록 값의 크기를 조절
<BR><BR>
- StandardScaler(표준 스케일러) :  평균이 0이고, 분산이 1인 정규 분포 형태로 변환
- MinMaxScaler : 데이터값을 0 ~ 1 범위 값으로 변환

In [39]:
from sklearn.datasets import load_iris

In [44]:
# 붓꽃 데이터 셋 로딩
iris = load_iris()
iris_data = iris.data
iris_df = pd.DataFrame(iris_data, columns=iris.feature_names)
iris_df[:2]

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2


In [47]:
# feature들의 평균값
iris_df.mean()

sepal length (cm)    5.843333
sepal width (cm)     3.057333
petal length (cm)    3.758000
petal width (cm)     1.199333
dtype: float64

In [48]:
# feature들의 분산값
iris_df.var()

sepal length (cm)    0.685694
sepal width (cm)     0.189979
petal length (cm)    3.116278
petal width (cm)     0.581006
dtype: float64

## StandardScaler

In [49]:
from sklearn.preprocessing import StandardScaler

In [63]:
# StandardScaler 객체 생성
std_scaler = StandardScaler()

# [방법 1] fit()과 transform() 개별 실행
# fit
std_scaler.fit(iris_df)

# transform
iris_std_scaler = std_scaler.transform(iris_df)

# [방법 2] fit()과 transform() 동시 실행
iris_std_scaler = std_scaler.fit_transform(iris_df)
iris_std_scaler

array([[-9.00681170e-01,  1.01900435e+00, -1.34022653e+00,
        -1.31544430e+00],
       [-1.14301691e+00, -1.31979479e-01, -1.34022653e+00,
        -1.31544430e+00],
       [-1.38535265e+00,  3.28414053e-01, -1.39706395e+00,
        -1.31544430e+00],
       [-1.50652052e+00,  9.82172869e-02, -1.28338910e+00,
        -1.31544430e+00],
       [-1.02184904e+00,  1.24920112e+00, -1.34022653e+00,
        -1.31544430e+00],
       [-5.37177559e-01,  1.93979142e+00, -1.16971425e+00,
        -1.05217993e+00],
       [-1.50652052e+00,  7.88807586e-01, -1.34022653e+00,
        -1.18381211e+00],
       [-1.02184904e+00,  7.88807586e-01, -1.28338910e+00,
        -1.31544430e+00],
       [-1.74885626e+00, -3.62176246e-01, -1.34022653e+00,
        -1.31544430e+00],
       [-1.14301691e+00,  9.82172869e-02, -1.28338910e+00,
        -1.44707648e+00],
       [-5.37177559e-01,  1.47939788e+00, -1.28338910e+00,
        -1.31544430e+00],
       [-1.26418478e+00,  7.88807586e-01, -1.22655167e+00,
      

In [55]:
# [iris_std_scaler] array -> dataframe
std_scaler_df = pd.DataFrame(iris_std_scaler, columns=iris.feature_names)
std_scaler_df[:2]

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,-0.900681,1.019004,-1.340227,-1.315444
1,-1.143017,-0.131979,-1.340227,-1.315444


In [56]:
# feature들의 평균값
std_scaler_df.mean()

sepal length (cm)   -1.690315e-15
sepal width (cm)    -1.842970e-15
petal length (cm)   -1.698641e-15
petal width (cm)    -1.409243e-15
dtype: float64

In [57]:
# feature들의 분산값
std_scaler_df.var()

sepal length (cm)    1.006711
sepal width (cm)     1.006711
petal length (cm)    1.006711
petal width (cm)     1.006711
dtype: float64

## MinMaxScaler
- default : 최소값 0, 최대값 1

In [58]:
from sklearn.preprocessing import MinMaxScaler

In [64]:
# MinMaxScaler 객체 생성
mm_scaler = MinMaxScaler()

# [방법 1] fit()과 transform() 개별 실행
# fit
mm_scaler.fit(iris_df)

# transform
iris_mm_scaler = mm_scaler.transform(iris_df)

# [방법 2] fit()과 transform() 동시 실행
iris_mm_scaler = mm_scaler.fit_transform(iris_df)
iris_mm_scaler

array([[0.22222222, 0.625     , 0.06779661, 0.04166667],
       [0.16666667, 0.41666667, 0.06779661, 0.04166667],
       [0.11111111, 0.5       , 0.05084746, 0.04166667],
       [0.08333333, 0.45833333, 0.08474576, 0.04166667],
       [0.19444444, 0.66666667, 0.06779661, 0.04166667],
       [0.30555556, 0.79166667, 0.11864407, 0.125     ],
       [0.08333333, 0.58333333, 0.06779661, 0.08333333],
       [0.19444444, 0.58333333, 0.08474576, 0.04166667],
       [0.02777778, 0.375     , 0.06779661, 0.04166667],
       [0.16666667, 0.45833333, 0.08474576, 0.        ],
       [0.30555556, 0.70833333, 0.08474576, 0.04166667],
       [0.13888889, 0.58333333, 0.10169492, 0.04166667],
       [0.13888889, 0.41666667, 0.06779661, 0.        ],
       [0.        , 0.41666667, 0.01694915, 0.        ],
       [0.41666667, 0.83333333, 0.03389831, 0.04166667],
       [0.38888889, 1.        , 0.08474576, 0.125     ],
       [0.30555556, 0.79166667, 0.05084746, 0.125     ],
       [0.22222222, 0.625     ,

In [66]:
mm_scaler_df = pd.DataFrame(iris_mm_scaler, columns=iris.feature_names)
mm_scaler_df[:2]

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,0.222222,0.625,0.067797,0.041667
1,0.166667,0.416667,0.067797,0.041667


In [68]:
# feature들의 평균값
mm_scaler_df.mean()

sepal length (cm)    0.428704
sepal width (cm)     0.440556
petal length (cm)    0.467458
petal width (cm)     0.458056
dtype: float64

In [69]:
# feature들의 분산값
mm_scaler_df.var()

sepal length (cm)    0.052908
sepal width (cm)     0.032983
petal length (cm)    0.089522
petal width (cm)     0.100869
dtype: float64

## scaler를 이용한 fit, transform, fit_transform 사용 시 주의사항

In [70]:
# 학습 데이터와 테스트 데이터가 분리된 상태
# 학습 데이터 : 0 ~ 10
# 테스트 데이터 : 0 ~ 5
train_data = np.arange(11).reshape(-1, 1)
test_data = np.arange(6).reshape(-1, 1)

In [71]:
train_data

array([[ 0],
       [ 1],
       [ 2],
       [ 3],
       [ 4],
       [ 5],
       [ 6],
       [ 7],
       [ 8],
       [ 9],
       [10]])

### 훈련 데이터 스케일링

In [76]:
# MinMaxScaler 객체 생성
# default : 최소값 0, 최대값 1로 변환
mm_scaler = MinMaxScaler()

# [방법 1] fit()과 transform() 개별 실행
# fit
mm_scaler.fit(train_data)

# transform
train_scale = mm_scaler.transform(train_data)

# [방법 2] fit()과 transform() 동시 실행
train_scale = mm_scaler.fit_transform(train_data)

# scale된 train_data
train_scale.reshape(-1)

array([0. , 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, 1. ])

In [75]:
# 원본 train_data
train_data.reshape(-1)

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10])

### 잘못된 테스트 데이터 스케일링
- scale된 test_data가 원본 데이터와 다른 결과가 나올 수 있음

In [84]:
# MinMaxScaler 객체 생성
# default : 최소값 0, 최대값 1로 변환
mm_scaler = MinMaxScaler()

# [방법 1] fit()과 transform() 개별 실행
# fit
mm_scaler.fit(test_data)

# transform
test_scale = mm_scaler.transform(test_data)

# [방법 2] fit()과 transform() 동시 실행
test_scale = mm_scaler.fit_transform(test_data)

# scale된 test_data
test_scale.reshape(-1)

array([0. , 0.2, 0.4, 0.6, 0.8, 1. ])

In [80]:
test_data.reshape(-1)

array([0, 1, 2, 3, 4, 5])

### 잘된 테스트 데이터 스케일링
- 학습 데이터를 기준으로 스케일링 기준을 설정하고 테스트 데이터를 스케일링

In [82]:
# fit : 학습 데이터
mm_scaler.fit(train_data)

# transform : 데스트 데이터
test_scale = mm_scaler.transform(test_data)
test_scale.reshape(-1)

array([0. , 0.1, 0.2, 0.3, 0.4, 0.5])

In [83]:
test_data.reshape(-1)

array([0, 1, 2, 3, 4, 5])