# 데이터 전처리

## 레이블 인코딩 (Label Encoding)

In [1]:
# Target(Label)에만 적용해야 한다.
targets = ["청바지", "치마", "청바지", "원피스", "청바지", "치마", "치마", "청바지", "원피스"]

In [2]:
from sklearn.preprocessing import LabelEncoder

lbl_encoder = LabelEncoder()

전처리라는 것은 데이터를 변형(Transformation)시키는 작업. 데이터의 변형을 일으키는 클래스를 Transformer(알고리즘이 아님!!)



In [6]:
lbl_encoder.fit(targets)


In [7]:
lbl_encoder.classes_

array(['원피스', '청바지', '치마'], dtype='<U3')

In [9]:
encoded_targets = lbl_encoder.transform(targets)
encoded_targets

array([1, 2, 1, 0, 1, 2, 2, 1, 0])

## One Hot Encoding ⭐

In [10]:
from sklearn.preprocessing import OneHotEncoder

one_encoder = OneHotEncoder()

In [16]:
# LableEncoder 는 target을 바꿔주는 역활을 하기 때문에 1차원 배열로 데이터가 들어가면 됩니다.
# OneHotEncoder 는 Feature 에 적용된다. Feature는 항상 2차원 배열의 형식으로 들어가야 한다.

# 1차원 배열을 2차원 배열로 변형
# Vetor를 Matrix롤 변환
# R^n -> R^nx1로 변환

import numpy as np

items_arr = np.array(targets).reshape(-1, 1)
items_arr

array([['청바지'],
       ['치마'],
       ['청바지'],
       ['원피스'],
       ['청바지'],
       ['치마'],
       ['치마'],
       ['청바지'],
       ['원피스']], dtype='<U3')

In [17]:
one_encoder.fit(items_arr)
one_datas = one_encoder.transform(items_arr)

one_datas

<Compressed Sparse Row sparse matrix of dtype 'float64'
	with 9 stored elements and shape (9, 3)>

In [18]:
# 압축된 희소행렬 포맷
print(one_datas)

<Compressed Sparse Row sparse matrix of dtype 'float64'
	with 9 stored elements and shape (9, 3)>
  Coords	Values
  (0, 1)	1.0
  (1, 2)	1.0
  (2, 1)	1.0
  (3, 0)	1.0
  (4, 1)	1.0
  (5, 2)	1.0
  (6, 2)	1.0
  (7, 1)	1.0
  (8, 0)	1.0


In [19]:
# 압축된 희소행렬 형태를 풀어서 표현
one_datas.toarray()

array([[0., 1., 0.],
       [0., 0., 1.],
       [0., 1., 0.],
       [1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.],
       [0., 0., 1.],
       [0., 1., 0.],
       [1., 0., 0.]])

# Feature Scaling

## MinMax Scaling(정규화)
- 0~1 사이로 정규화 시켜주는 Transformer

In [22]:
import pandas as pd

movie_score = pd.DataFrame({
    "naver":[0, 2, 4, 6, 8],
    "netflix":[1, 2, 3, 4, 5]
})

movie_score

Unnamed: 0,naver,netflix
0,0,1
1,2,2
2,4,3
3,6,4
4,8,5


In [25]:
from sklearn.preprocessing import MinMaxScaler

min_max_scaler = MinMaxScaler()

In [26]:
min_max_scaler.fit(movie_score) # 데이터의 최댓값과 최솟값을 찾는다.

In [27]:
movie_score_scaled = min_max_scaler.transform(movie_score)
movie_score_scaled

array([[0.  , 0.  ],
       [0.25, 0.25],
       [0.5 , 0.5 ],
       [0.75, 0.75],
       [1.  , 1.  ]])

## StandardScaling (표준화)
- 데이터를 정리한다는 개념
- 흩트러진 데이터를 원점 기준으로 정리
- 평균을 0, 표준편차를 1로 변환

In [30]:
data1 = np.array([100, 110, 120, 130, 140])
data2 = np.array([0, 1, 2, 3, 4])

In [31]:
# 각 데이터의 평균
data1.mean(), data2.mean()

(np.float64(120.0), np.float64(2.0))

In [32]:
# 각 데이터의 표준편차
data1.std(), data2.std()

(np.float64(14.142135623730951), np.float64(1.4142135623730951))

In [34]:
from sklearn.preprocessing import StandardScaler

std_scaler1 = StandardScaler()
std_scaler2 = StandardScaler()


In [35]:
std_scaler1.fit(data1.reshape(-1, 1))
std_scaler2.fit(data2.reshape(-1, 1))

In [36]:
data1_scaled = std_scaler1.transform(data1.reshape(-1, 1))
data2_scaled = std_scaler2.transform(data2.reshape(-1, 1))



In [37]:
print(data1_scaled)
print()
print(data2_scaled)

[[-1.41421356]
 [-0.70710678]
 [ 0.        ]
 [ 0.70710678]
 [ 1.41421356]]

[[-1.41421356]
 [-0.70710678]
 [ 0.        ]
 [ 0.70710678]
 [ 1.41421356]]


In [38]:
data1_scaled.mean(), data2_scaled.mean()

(np.float64(0.0), np.float64(0.0))

In [None]:
data1_scaled