## 레이블 인코딩(Label Encoding)
- 분류 문제에서, 레이블이 문자열 형식으로 되어있는 경우 이를 숫자 형식으로 바꿔 머신러닝에 입력해야 할 때 사용

In [4]:
# Target(Label)에만 적용해야 한다.
targets = ["청바지", "치마", "청바지", "원피스", "청바지", "치마", "치마", "청바지", "원피스"]

In [5]:
from sklearn.preprocessing import LabelEncoder

lbl_encoder = LabelEncoder()

In [6]:
lbl_encoder.fit(targets)

In [8]:
# fit에 의해 LabelEncoding이 될 근간 정보 확인
#  근간 정보가 : 청바지는 몇번인지, 치마는 몇번인지, 원피스는 몇 번인지
lbl_encoder.classes_

array(['원피스', '청바지', '치마'], dtype='<U3')

In [11]:
targets

['청바지', '치마', '청바지', '원피스', '청바지', '치마', '치마', '청바지', '원피스']

In [10]:
encoded_targets = lbl_encoder.transform(targets)
encoded_targets

array([1, 2, 1, 0, 1, 2, 2, 1, 0])

One Hot Encoding

In [14]:
from sklearn.preprocessing import OneHotEncoder
import numpy as np
one_encoder = OneHotEncoder()

In [13]:
one_encoder.fit(targets)

ValueError: Expected 2D array, got 1D array instead:
array=['청바지' '치마' '청바지' '원피스' '청바지' '치마' '치마' '청바지' '원피스'].
Reshape your data either using array.reshape(-1, 1) if your data has a single feature or array.reshape(1, -1) if it contains a single sample.

In [15]:
# LabelEncoder는 target을 바꿔주는 역할을 하기 떄문에 1차원 배열로 데이터가 들어가면 됨.
# OneHotEncoder는 Feature에 적용된다. Feature는 항상 2차원 배열의 형식으로 들어간다.

# 1차원 배열을 2차원 배열로 변형
# Vector를 Matrix로 변환
# R^N -> R^Nx1

import numpy as np

items_arr = np.array(targets).reshape(-1, 1)
items_arr

array([['청바지'],
       ['치마'],
       ['청바지'],
       ['원피스'],
       ['청바지'],
       ['치마'],
       ['치마'],
       ['청바지'],
       ['원피스']], dtype='<U3')

In [21]:
one_encoder.fit(items_arr)
ohe_datas = one_encoder.transform(items_arr)

ohe_datas # sparse matrix = 희소행렬 ( 거의 대부분의 행렬이 0 으로 차있는 케이스)

<9x3 sparse matrix of type '<class 'numpy.float64'>'
	with 9 stored elements in Compressed Sparse Row format>

In [22]:
print(ohe_datas)

  (0, 1)	1.0
  (1, 2)	1.0
  (2, 1)	1.0
  (3, 0)	1.0
  (4, 1)	1.0
  (5, 2)	1.0
  (6, 2)	1.0
  (7, 1)	1.0
  (8, 0)	1.0


In [23]:
# 압축된 희소행렬 형태를 풀어서 표현
ohe_datas.toarray()

array([[0., 1., 0.],
       [0., 0., 1.],
       [0., 1., 0.],
       [1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.],
       [0., 0., 1.],
       [0., 1., 0.],
       [1., 0., 0.]])

# MinMaxScaling(정규화)
- 0~1 사이로 데이터를 정규화 시키기

In [24]:
import pandas as pd

movie_score = pd.DataFrame({
    "naver":[0, 2, 4, 6, 8],
    "netflix":[1, 2, 3, 4, 5]
})

movie_score

Unnamed: 0,naver,netflix
0,0,1
1,2,2
2,4,3
3,6,4
4,8,5


In [25]:
from sklearn.preprocessing import MinMaxScaler

min_max_sclar = MinMaxScaler()

In [26]:
min_max_sclar.fit_transform(movie_score)

array([[0.  , 0.  ],
       [0.25, 0.25],
       [0.5 , 0.5 ],
       [0.75, 0.75],
       [1.  , 1.  ]])

# StandardScaling(표준화)
- 데이터를 정리한다는 개념
- 흐트러진 데이터를 원점 기준으로 정리
- 평균을 0, 표준편차를 1로 변환

In [27]:
data1 = np.array([100, 110, 120, 130, 140])
data2 = np.array([0, 1, 2, 3, 4])

In [29]:
# 각 데이터의 평균
data1.mean(), data2.mean()

(120.0, 2.0)

In [30]:
# 각 데이터의 표준편차
data1.std(), data2.std()

(14.142135623730951, 1.4142135623730951)

In [31]:
from sklearn.preprocessing import StandardScaler

std_scaler1 = StandardScaler()
std_scaler2 = StandardScaler()

In [32]:
data1_scaled = std_scaler1.fit_transform(data1.reshape(-1, 1))
data2_scaled = std_scaler2.fit_transform(data2.reshape(-1, 1))

In [33]:
data1_scaled

array([[-1.41421356],
       [-0.70710678],
       [ 0.        ],
       [ 0.70710678],
       [ 1.41421356]])

In [34]:
data2_scaled

array([[-1.41421356],
       [-0.70710678],
       [ 0.        ],
       [ 0.70710678],
       [ 1.41421356]])

In [35]:
data1_scaled.mean(), data2_scaled.mean()

(0.0, 0.0)

In [36]:
data1_scaled.std(), data2_scaled.mean()

(0.9999999999999999, 0.0)