# 데이터 인코딩

## 레이블 인코딩(Lavel Encoding)

In [1]:
# target에만 적용해야 한다.
from sklearn.preprocessing import LabelEncoder

items = ["청바지", "치마", "청바지", "원피스", "청바지", "치마", "치마", "청바지", "원피스"]

lbl_encoder = LabelEncoder()
lbl_encoder.fit(items)

LabelEncoder()

In [2]:
# 문자열을 숫자로 변환(Transform)
labels = lbl_encoder.transform(items)
labels

array([1, 2, 1, 0, 1, 2, 2, 1, 0])

In [3]:
# 숫자를 다시 문자열로 돌려주는 과정(Decoding)
lbl_encoder.inverse_transform([2, 1, 0, 0, 1, 2, 0, 0, 1])

array(['치마', '청바지', '원피스', '원피스', '청바지', '치마', '원피스', '원피스', '청바지'],
      dtype='<U3')

In [4]:
# 클래스 확인
lbl_encoder.classes_

array(['원피스', '청바지', '치마'], dtype='<U3')

## 원 - 핫 인코딩(One-Hot Encoding)


In [5]:
from sklearn.preprocessing import OneHotEncoder

ohe_encoder = OneHotEncoder()

In [6]:
# ohe_encoder.fit(items) 
# 벡터 형식으로 넣으면 오류 발생

In [24]:
import numpy as np

# 1차원 배열을 2차원 배열로 바꾸기
# vector -> matrix 화
# N -> N x 1

item_arr = np.array(items).reshape(-1,1)
item_arr

array([['청바지'],
       ['치마'],
       ['청바지'],
       ['원피스'],
       ['청바지'],
       ['치마'],
       ['치마'],
       ['청바지'],
       ['원피스']], dtype='<U3')

In [8]:
# ohe_encoder.fit(item_arr)
# ohe_labels = ohe_encoder.transform(item_arr)

# fit과 transform을 한꺼번에 하기
ohe_labels = ohe_encoder.fit_transform(item_arr)
ohe_labels

<9x3 sparse matrix of type '<class 'numpy.float64'>'
	with 9 stored elements in Compressed Sparse Row format>

In [9]:
# 희소 행렬의 압축된 표현(Sparse Matrix)(Dummy)
# (행의 인덱스, 열 번호) 1.0
# 어느 위치에 1이 있는지 알려준다.
# 원핫인코딩이 메모리를 많이 잡아먹기 때문에 이렇게 표현
print(ohe_labels)

  (0, 1)	1.0
  (1, 2)	1.0
  (2, 1)	1.0
  (3, 0)	1.0
  (4, 1)	1.0
  (5, 2)	1.0
  (6, 2)	1.0
  (7, 1)	1.0
  (8, 0)	1.0


In [10]:
# 압축된 희소 행렬 형태를 풀어서 표현
ohe_labels.toarray()

array([[0., 1., 0.],
       [0., 0., 1.],
       [0., 1., 0.],
       [1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.],
       [0., 0., 1.],
       [0., 1., 0.],
       [1., 0., 0.]])

## Feature 스케일링

## MinMax Scaling(정규화)

In [11]:
# 네이버와 넷플릭스 평점 정규화
import pandas as pd
movie_score = pd.DataFrame({
    "naver":[0, 2, 4, 6, 8],
    "netflix":[1, 2, 3, 4, 5]
})

movie_score
# 네이버와 넷플릭스의 단위가 다른 상황
# 이대로 머신러닝을 하면 네이버를 더 중요하게 생각할 수 있다.

Unnamed: 0,naver,netflix
0,0,1
1,2,2
2,4,3
3,6,4
4,8,5


In [12]:
from sklearn.preprocessing import MinMaxScaler

min_max_scaler = MinMaxScaler()

In [13]:
movie_score_scaled = min_max_scaler.fit_transform(movie_score)
movie_score_scaled

array([[0.  , 0.  ],
       [0.25, 0.25],
       [0.5 , 0.5 ],
       [0.75, 0.75],
       [1.  , 1.  ]])

In [14]:
pd.DataFrame(movie_score_scaled, columns = ["Naver Scaled", "Netflix Scaled"])

Unnamed: 0,Naver Scaled,Netflix Scaled
0,0.0,0.0
1,0.25,0.25
2,0.5,0.5
3,0.75,0.75
4,1.0,1.0


## StandardScaling(표준화)
- 데이터를 정리한다는 개념
- 흩트러진 데이터를 원점 기준으로 정리
- 평균을 0, 표준편차를 1로 변환

In [15]:
data1 = np.array([100, 110, 120, 130, 140])
data2 = np.array([0, 1, 2, 3, 4])

In [16]:
# 각 데이터의 평균, 표준편차
data1.mean(), data1.std()

(120.0, 14.142135623730951)

In [17]:
data2.mean(), data2.std()

(2.0, 1.4142135623730951)

In [18]:
from sklearn.preprocessing import StandardScaler

std_scaler = StandardScaler()

In [19]:
data1_scaled = std_scaler.fit_transform(data1.reshape(-1, 1))
data2_scaled = std_scaler.fit_transform(data2.reshape(-1, 1))

In [20]:
# 표준화 되었는지 확인
print(data1_scaled)
print()
print(data2_scaled)

[[-1.41421356]
 [-0.70710678]
 [ 0.        ]
 [ 0.70710678]
 [ 1.41421356]]

[[-1.41421356]
 [-0.70710678]
 [ 0.        ]
 [ 0.70710678]
 [ 1.41421356]]


In [21]:
data1_scaled.mean(), data1_scaled.std()

(0.0, 0.9999999999999999)

In [22]:
data2_scaled.mean(), data2_scaled.std()

(0.0, 0.9999999999999999)