# Data encoding

## Label encoding
- 카테고리 피쳐를 코드형 숫자 값으로 변환
- 숫자의 크기와 순서는 의미 없지만, 의미를 부여하는 regression 모델에서는 조심해야됨
- tree모델에서는 상관없음

In [1]:
from sklearn.preprocessing import LabelEncoder

In [2]:
items = ['TV', '냉장고','전자레인지','컴퓨터','선풍기','선풍기','믹서','믹서']

### encoding

In [3]:
encoder = LabelEncoder()
encoder.fit(items)
labels = encoder.transform(items)

print('인코딩 변환값 : ', labels)

인코딩 변환값 :  [0 1 4 5 3 3 2 2]


In [5]:
#어떤 숫자값으로 인코딩됐는지 알기 위함. 0번부터 차례로
print(encoder.classes_)

['TV' '냉장고' '믹서' '선풍기' '전자레인지' '컴퓨터']


### decoding

In [6]:
encoder.inverse_transform([4,5,2,0,1,1,])

array(['전자레인지', '컴퓨터', '믹서', 'TV', '냉장고', '냉장고'], dtype='<U5')

## One-Hot Encoding
- 고유 값(unique value)에 해당하는 칼럼에만 1을 표시하고 나머지는 0
- 모든 문자열이 숫자로 변환돼야 한다
- 입력 값으로 2차원 데이터가 필요

In [7]:
from sklearn.preprocessing import OneHotEncoder

In [10]:
#labels 는 이미 LabelEncoding을 통해 문자열이 숫자로 바뀌어진 상태
print(labels)
print('labels shape : ', labels.shape)


[0 1 4 5 3 3 2 2]
labels shape :  (8,)


In [11]:
labels = labels.reshape(-1,1)
print('labels shape : ', labels.shape)

labels shape :  (8, 1)


In [12]:
#문자열을 다 숫자로 바꾸었고,
#2차원데이터가 준비되었으므로

one_hot = OneHotEncoder()
one_hot.fit(labels)

one_hot_labels = one_hot.transform(labels)

print('one-hot data : ', one_hot_labels.toarray())
print('one-hot data shape: ', one_hot_labels.shape)

one-hot data :  [[1. 0. 0. 0. 0. 0.]
 [0. 1. 0. 0. 0. 0.]
 [0. 0. 0. 0. 1. 0.]
 [0. 0. 0. 0. 0. 1.]
 [0. 0. 0. 1. 0. 0.]
 [0. 0. 0. 1. 0. 0.]
 [0. 0. 1. 0. 0. 0.]
 [0. 0. 1. 0. 0. 0.]]
one-hot data shape:  (8, 6)


In case you used a LabelEncoder before this OneHotEncoder to convert the categories to integers, then you can now use the OneHotEncoder directly.


## get_dummies()
- 숫자형 값으로 변환 없이 바로 가능

In [16]:
import pandas as pd

In [22]:
df = pd.DataFrame({'items' : items})
df

Unnamed: 0,items
0,TV
1,냉장고
2,전자레인지
3,컴퓨터
4,선풍기
5,선풍기
6,믹서
7,믹서


In [23]:
pd.get_dummies(df)

Unnamed: 0,items_TV,items_냉장고,items_믹서,items_선풍기,items_전자레인지,items_컴퓨터
0,1,0,0,0,0,0
1,0,1,0,0,0,0
2,0,0,0,0,1,0
3,0,0,0,0,0,1
4,0,0,0,1,0,0
5,0,0,0,1,0,0
6,0,0,1,0,0,0
7,0,0,1,0,0,0


# Feature Scaling
- feature scaling : 서로 다른 변수의 값 범위를 일정한 수준으로 맞추는 작업
- Standardization(표준화) , Normalization(정규화), vector Normaliztion(벡터 정규화)

## Standardization(표준화)
- 평균이 0이고, 분산이 1인 정규분포로 변환화는 것
- SVM, linear Regression, Logisic Regression들은 가우시안 분포를 가정하고 구현.!!!
- StandardScaler 이용

In [24]:
from sklearn.datasets import load_iris
import pandas as pd

iris = load_iris()
iris_data = iris.data
iris_df = pd.DataFrame(data = iris_data, columns = iris.feature_names)

In [26]:
iris_df.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2


In [29]:
print('feature 평균 \n ', iris_df.mean())
print('\n')
print('feature 분산 \n ', iris_df.var())

feature 평균 
  sepal length (cm)    5.843333
sepal width (cm)     3.057333
petal length (cm)    3.758000
petal width (cm)     1.199333
dtype: float64


feature 분산 
  sepal length (cm)    0.685694
sepal width (cm)     0.189979
petal length (cm)    3.116278
petal width (cm)     0.581006
dtype: float64


In [30]:
from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
scaler.fit(iris_df)
iris_scaled = scaler.transform(iris_df)
iris_scaled_df = pd.DataFrame(data = iris_scaled, columns = iris.feature_names)

In [31]:
print('feature 평균 \n ', iris_scaled_df.mean())
print('\n')
print('feature 분산 \n ', iris_scaled_df.var())

feature 평균 
  sepal length (cm)   -1.690315e-15
sepal width (cm)    -1.842970e-15
petal length (cm)   -1.698641e-15
petal width (cm)    -1.409243e-15
dtype: float64


feature 분산 
  sepal length (cm)    1.006711
sepal width (cm)     1.006711
petal length (cm)    1.006711
petal width (cm)     1.006711
dtype: float64


## Normalization(정규화)
- MinMaxScaler 사용
- 서로 다른 피쳐의 크기를 통일하기 위해 크기를 변환해주는 개념.
- 개별 데이터의 크기를 모두 똑같은 단위로 변경
- 최소를 0으로 최대를 1로
- 음수 값이 있으면 -1에서 1로

In [32]:
from sklearn.preprocessing import MinMaxScaler

In [33]:
scaler = MinMaxScaler()
scaler.fit(iris_df)
iris_scaled = scaler.transform(iris_df)
iris_scaled_df = pd.DataFrame(data = iris_scaled, columns = iris.feature_names)

In [35]:
print('feature 최소 \n ', iris_scaled_df.min())
print('\n')
print('feature 최대 \n ', iris_scaled_df.max())

feature 최소 
  sepal length (cm)    0.0
sepal width (cm)     0.0
petal length (cm)    0.0
petal width (cm)     0.0
dtype: float64


feature 최대 
  sepal length (cm)    1.0
sepal width (cm)     1.0
petal length (cm)    1.0
petal width (cm)     1.0
dtype: float64
