# 데이터 인코딩

In [1]:
items=['TV','냉장고','전자렌지','컴퓨터','선풍기','선풍기','믹서','믹서']

## 레이블 인코딩

In [2]:
from sklearn.preprocessing import LabelEncoder

encoder = LabelEncoder()
encoder.fit(items)

labels = encoder.transform(items)

In [3]:
# 변환결과 확인

print('인코딩 변환 값 : {}'.format(labels))
print('인코딩 클래스 : {}'.format(encoder.classes_))
print('디코딩 값 : {}'.format(encoder.inverse_transform([1, 5, 2, 3, 0, 4])))


인코딩 변환 값 : [0 1 4 5 3 3 2 2]
인코딩 클래스 : ['TV' '냉장고' '믹서' '선풍기' '전자렌지' '컴퓨터']
디코딩 값 : ['냉장고' '컴퓨터' '믹서' '선풍기' 'TV' '전자렌지']


## 원-핫 인코딩 (One-Hot Encoding)
- 2차원 배열 사용
- 원핫 인코딩은 보통 Feature(x)에 활용

In [5]:
from sklearn.preprocessing import OneHotEncoder
import numpy as np

# 2차원 ndarray로 변환
items=['TV','냉장고','전자렌지','컴퓨터','선풍기','선풍기','믹서','믹서']
items_arr = np.array(items).reshape(-1, 1)  # (N, 1)로 변환
items_arr

array([['TV'],
       ['냉장고'],
       ['전자렌지'],
       ['컴퓨터'],
       ['선풍기'],
       ['선풍기'],
       ['믹서'],
       ['믹서']], dtype='<U4')

In [6]:
encoder = OneHotEncoder()

ohe_labels = encoder.fit_transform(items_arr)
ohe_labels

<8x6 sparse matrix of type '<class 'numpy.float64'>'
	with 8 stored elements in Compressed Sparse Row format>

In [7]:
# 1의 위치를 압축해서 표현
print(ohe_labels)

  (0, 0)	1.0
  (1, 1)	1.0
  (2, 4)	1.0
  (3, 5)	1.0
  (4, 3)	1.0
  (5, 3)	1.0
  (6, 2)	1.0
  (7, 2)	1.0


In [8]:
# 압축된 형식 풀기
print(ohe_labels.toarray())

[[1. 0. 0. 0. 0. 0.]
 [0. 1. 0. 0. 0. 0.]
 [0. 0. 0. 0. 1. 0.]
 [0. 0. 0. 0. 0. 1.]
 [0. 0. 0. 1. 0. 0.]
 [0. 0. 0. 1. 0. 0.]
 [0. 0. 1. 0. 0. 0.]
 [0. 0. 1. 0. 0. 0.]]


## Feature 스케일링

#### Min-Max Scaling(정규화)
column 간 다른 **min, max**값을 가지는 경우, **정규화**를 통해서 최대/최소의 척도를 하나로 맞춰 주는 작업
* 최소를 0으로, 최대를 1로 설정
------
* 네이버 영화 평점 ( 0 ~ 10 ) : [2, 4, 6, 8, 10]
* 넷플릭스 영화 평점 ( 0 ~ 5 ) : [1, 2, 3, 4, 5]

In [9]:
import pandas as pd
movie_score = pd.DataFrame({
  'naver':[0, 2, 4, 6, 8],
  'netflix':[1, 2, 3, 4, 5]
})

movie_score

Unnamed: 0,naver,netflix
0,0,1
1,2,2
2,4,3
3,6,4
4,8,5


In [10]:
from sklearn.preprocessing import MinMaxScaler

mm_scaler = MinMaxScaler()
movie_score_scaled = mm_scaler.fit_transform(movie_score)
movie_score_scaled

array([[0.  , 0.  ],
       [0.25, 0.25],
       [0.5 , 0.5 ],
       [0.75, 0.75],
       [1.  , 1.  ]])

### StandardScaling (표준화)
- 평균이 0, 표준편차가 1이 되도록 변환

In [11]:
data1 = np.array([100, 110, 120, 130, 140])
data2 = np.array([0, 1, 2, 3, 4])

In [12]:
data1.mean(), data1.std(), data1.var()

(120.0, 14.142135623730951, 200.0)

In [13]:
data2.mean(), data2.std(), data2.var()

(2.0, 1.4142135623730951, 2.0)

In [14]:
from sklearn.preprocessing import StandardScaler

std_scaler = StandardScaler()

In [15]:
data1_scaled = std_scaler.fit_transform(data1.reshape(-1, 1))
data2_scaled = std_scaler.fit_transform(data1.reshape(-1, 1))

In [16]:
print(data1_scaled)
print()
print(data2_scaled)

[[-1.41421356]
 [-0.70710678]
 [ 0.        ]
 [ 0.70710678]
 [ 1.41421356]]

[[-1.41421356]
 [-0.70710678]
 [ 0.        ]
 [ 0.70710678]
 [ 1.41421356]]


In [17]:
data1_scaled.mean(), data1_scaled.std()

(0.0, 0.9999999999999999)

In [18]:
data2_scaled.mean(), data2_scaled.std()

(0.0, 0.9999999999999999)