# 전처리

-----
### - 데이터 인코딩
   + 라벨 인코딩
   + 원핫 인코딩
   + pd.get_dummies

### - 피처 스케일링
   + 표준화
   + 정규화

### 라벨 인코딩

In [1]:
# 라벨 인코딩

from sklearn.preprocessing import LabelEncoder

food=['치킨','피자','햄버거','탕수육','쌀국수','쌀국수','치킨','피자','피자']

In [2]:
encoder=LabelEncoder()

encoder.fit(food)

labels=encoder.transform(food)

print('인코딩 변환값 : ', labels)

인코딩 변환값 :  [1 3 4 2 0 0 1 3 3]


인코딩이 어떻게 수행되었는지 확인하기 위해서

LabelEncoder 객체의 classes_ 속성값을 사용한다.

In [3]:
print('인코딩 클래스 : ',encoder.classes_)

인코딩 클래스 :  ['쌀국수' '치킨' '탕수육' '피자' '햄버거']


In [4]:
dict(zip(range(len(set(food))), encoder.classes_))

{0: '쌀국수', 1: '치킨', 2: '탕수육', 3: '피자', 4: '햄버거'}

inverse_transform()을 통해 인코딩된 값을 다시 디코딩 할 수 있다.

In [5]:
print('디코딩 원본 값 : ', encoder.inverse_transform(labels))

디코딩 원본 값 :  ['치킨' '피자' '햄버거' '탕수육' '쌀국수' '쌀국수' '치킨' '피자' '피자']


#### 라벨 인코딩 주의할점

라벨 인코딩은 일괄적으로 문자열 값을 숫자 값으로 바꾸기 때문에,

숫자값의 크고 작음에 대해 가중치를 부여하는 ML에서는 예측 성능이 떨어지는 경우가 있다.

따라서, 선형회귀와 같은 ML에는 라벨 인코딩을 적용해서는 안된다.

### 원핫 인코딩

In [6]:
# 원핫 인코딩

from sklearn.preprocessing import OneHotEncoder
import numpy as np

food=['치킨','피자','햄버거','탕수육','쌀국수','쌀국수','치킨','피자','피자']

# 먼저 숫자값으로 변환하기 위해 label encoding 실행

encoder=LabelEncoder()
encoder.fit(food)

labels=encoder.transform(food)

In [9]:
# 2차원 데이터로 변환

labels=labels.reshape(-1,1)
labels

array([[1],
       [3],
       [4],
       [2],
       [0],
       [0],
       [1],
       [3],
       [3]], dtype=int64)

In [17]:
# 원핫 인코딩 적용

oh_encoder=OneHotEncoder()
oh_encoder.fit(labels)
oh_labels=oh_encoder.transform(labels)

print('원핫 인코딩 데이터')
print(oh_labels.toarray())
print('\n원핫 인코딩 데이터 차원')
print(oh_labels.shape)

원핫 인코딩 데이터
[[0. 1. 0. 0. 0.]
 [0. 0. 0. 1. 0.]
 [0. 0. 0. 0. 1.]
 [0. 0. 1. 0. 0.]
 [1. 0. 0. 0. 0.]
 [1. 0. 0. 0. 0.]
 [0. 1. 0. 0. 0.]
 [0. 0. 0. 1. 0.]
 [0. 0. 0. 1. 0.]]

원핫 인코딩 데이터 차원
(9, 5)


#### 원핫 인코딩 주의할점

1. OneHotEncoder로 변환하기 전에는 모든 문자열 데이터가 숫자혀 값으로 변환되어야 한다. (Label Encoder 를 먼저 시행)

2. 입력값으로 2차원 데이터가 필요하다. (reshape 을 통해 차원을 변환함)

### pd.get_dummies

In [23]:
import pandas as pd

# pd_get_dummies

food=['치킨','피자','햄버거','탕수육','쌀국수','쌀국수','치킨','피자','피자']

df_food=pd.DataFrame({'food':food})

In [24]:
pd.get_dummies(df_food)

Unnamed: 0,food_쌀국수,food_치킨,food_탕수육,food_피자,food_햄버거
0,0,1,0,0,0
1,0,0,0,1,0
2,0,0,0,0,1
3,0,0,1,0,0
4,1,0,0,0,0
5,1,0,0,0,0
6,0,1,0,0,0
7,0,0,0,1,0
8,0,0,0,1,0


OneHotEncoder와 다르게, 문자열 카테고리 값을 숫자형 값으로 변환하는 과정이 필요하지 않다.

### 표준화

- StandardScaler

데이터를 평균이 0, 표준편차가 1인 가우시안 정규분포를 따르는 특성으로 변환시킨다.

In [25]:
# StandardScaler

from sklearn.datasets import load_iris
import pandas as pd

iris=load_iris()

iris_df=pd.DataFrame(data=iris.data, columns=iris.feature_names)

print('feature 들의 평균 값')
print(iris_df.mean())
print('\n feature 들의 분산 값')
print(iris_df.var())

feature 들의 평균 값
sepal length (cm)    5.843333
sepal width (cm)     3.057333
petal length (cm)    3.758000
petal width (cm)     1.199333
dtype: float64

 feature 들의 분산 값
sepal length (cm)    0.685694
sepal width (cm)     0.189979
petal length (cm)    3.116278
petal width (cm)     0.581006
dtype: float64


In [26]:
from sklearn.preprocessing import StandardScaler

scaler=StandardScaler()
scaler.fit(iris_df)

iris_scaled=scaler.transform(iris_df) # ndarray 로 반환됨

In [31]:
iris_df_scaled=pd.DataFrame(data=iris_scaled, columns=iris.feature_names)

print('feature 들의 평균 값')
print(iris_df_scaled.mean())
print('\n feature 들의 분산 값')
print(iris_df_scaled.var())

feature 들의 평균 값
sepal length (cm)   -1.690315e-15
sepal width (cm)    -1.842970e-15
petal length (cm)   -1.698641e-15
petal width (cm)    -1.409243e-15
dtype: float64

 feature 들의 분산 값
sepal length (cm)    1.006711
sepal width (cm)     1.006711
petal length (cm)    1.006711
petal width (cm)     1.006711
dtype: float64


### 정규화
- MinMaxScaler

서로 다른 피처의 크기를 통일하기 위해 크기를 변환해주는 방법 (개별 데이터의 크기를 모두 똑같은 단위로 변환)

In [32]:
# MinMaxScaler

from sklearn.preprocessing import MinMaxScaler

scaler=MinMaxScaler()
scaler.fit(iris_df)

iris_scaled=scaler.transform(iris_df)

iris_df_scaled=pd.DataFrame(data=iris_scaled, columns=iris.feature_names)

print('feature들의 최솟값')
print(iris_df_scaled.min())
print('\n feature들의 최대값')
print(iris_df_scaled.max())

feature들의 최솟값
sepal length (cm)    0.0
sepal width (cm)     0.0
petal length (cm)    0.0
petal width (cm)     0.0
dtype: float64

 feature들의 최대값
sepal length (cm)    1.0
sepal width (cm)     1.0
petal length (cm)    1.0
petal width (cm)     1.0
dtype: float64


0과 1사이의 값으로 scaling 되었음을 볼 수 있다.