### 데이터 인코딩

#### 레이블 인코딩
- 문자열 값을 숫자형 카테고리 값으로 변환

In [1]:
from sklearn.preprocessing import LabelEncoder

items=['TV','냉장고','전자렌지','컴퓨터','선풍기','선풍기','믹서','믹서']

# LabelEncoder를 객체로 생성
encoder = LabelEncoder()  

# fit과 transform으로 레이블 인코딩 수행 
encoder.fit(items)                 # 구조를 맞춰주는 작업
labels = encoder.transform(items)  # 변환
print('인코딩 변환값:',labels)

# items별로 숫자값으로 변환됨

인코딩 변환값: [0 1 4 5 3 3 2 2]


In [2]:
# 숫자값별 items 확인
print('인코딩 클래스:',encoder.classes_)

인코딩 클래스: ['TV' '냉장고' '믹서' '선풍기' '전자렌지' '컴퓨터']


In [3]:
# inverse_transform으로 원본값 확인
print('디코딩 원본 값:',encoder.inverse_transform([4, 5, 2, 0, 1, 1, 3, 3]))

디코딩 원본 값: ['전자렌지' '컴퓨터' '믹서' 'TV' '냉장고' '냉장고' '선풍기' '선풍기']


  if diff:


#### 원-핫 인코딩(One-Hot encoding)
- 피처 값의 유형에 따라 새로운 피처를 추가해 해당 값에 해당하는 칼럼에만 1, 나머지 칼럼은 0으로 표시
- 사이킷런에서는 한번에 원핫인코딩이 안되므로 단계를 거처야 함
  - LabelEncoder로 문자열 값을 숫자형 값으로 변환
  - 입력값으로 2차원 데이터가 필요
  - OneHotEncoder로 원-핫 인코딩

In [4]:
from sklearn.preprocessing import OneHotEncoder
import numpy as np

items=['TV','냉장고','전자렌지','컴퓨터','선풍기','선풍기','믹서','믹서']

# LabelEncoder로 숫자값으로 변환
encoder = LabelEncoder()

# fit, transform
encoder.fit(items)
labels = encoder.transform(items)

# 1차원 label을 2차원 데이터로 변환
labels = labels.reshape(-1,1)

# 원-핫 인코딩
oh_encoder = OneHotEncoder()

# fit, transform
oh_encoder.fit(labels)
oh_labels = oh_encoder.transform(labels)

print('원-핫 인코딩 데이터')
print(oh_labels.toarray())
print('원-핫 인코딩 데이터 차원')
print(oh_labels.shape)

원-핫 인코딩 데이터
[[1. 0. 0. 0. 0. 0.]
 [0. 1. 0. 0. 0. 0.]
 [0. 0. 0. 0. 1. 0.]
 [0. 0. 0. 0. 0. 1.]
 [0. 0. 0. 1. 0. 0.]
 [0. 0. 0. 1. 0. 0.]
 [0. 0. 1. 0. 0. 0.]
 [0. 0. 1. 0. 0. 0.]]
원-핫 인코딩 데이터 차원
(8, 6)


판다스에서는 한번에 원-핫 인코딩 가능

In [1]:
import pandas as pd
df = pd.DataFrame({'item':['TV','냉장고','전자렌지','컴퓨터','선풍기','선풍기','믹서','믹서'] })
df

Unnamed: 0,item
0,TV
1,냉장고
2,전자렌지
3,컴퓨터
4,선풍기
5,선풍기
6,믹서
7,믹서


In [2]:
pd.get_dummies(df)
# 6개 items별로 item_의 레벨이 생김

Unnamed: 0,item_TV,item_냉장고,item_믹서,item_선풍기,item_전자렌지,item_컴퓨터
0,1,0,0,0,0,0
1,0,1,0,0,0,0
2,0,0,0,0,1,0
3,0,0,0,0,0,1
4,0,0,0,1,0,0
5,0,0,0,1,0,0
6,0,0,1,0,0,0
7,0,0,1,0,0,0


### 피처 스케일링과 정규화

#### StandardScaler
- 평균이 0이고, 분산이 1인 정규 분포 형태로 변환

In [6]:
from sklearn.datasets import load_iris
import pandas as pd

# 붓꽃 데이터 셋을 로딩
iris = load_iris()
iris_data = iris.data

# 보기쉽게 DataFrame으로 변환
iris_df = pd.DataFrame(data=iris_data, columns=iris.feature_names)

# standardscaler하기 전 각 피쳐들의 평균과 분산 값을 알아봄
print('feature 들의 평균 값')
print(iris_df.mean())
print('\nfeature 들의 분산 값')
print(iris_df.var())

feature 들의 평균 값
sepal length (cm)    5.843333
sepal width (cm)     3.054000
petal length (cm)    3.758667
petal width (cm)     1.198667
dtype: float64

feature 들의 분산 값
sepal length (cm)    0.685694
sepal width (cm)     0.188004
petal length (cm)    3.113179
petal width (cm)     0.582414
dtype: float64


In [7]:
from sklearn.preprocessing import StandardScaler

# StandardScaler객체 생성
scaler = StandardScaler()

# fit, transform  
scaler.fit(iris_df)
iris_scaled = scaler.transform(iris_df)

# 보기좋게 DataFrame으로 변환
iris_df_scaled = pd.DataFrame(data=iris_scaled, columns=iris.feature_names)

print('feature 들의 평균 값')
print(iris_df_scaled.mean())
print('\nfeature 들의 분산 값')
print(iris_df_scaled.var())

feature 들의 평균 값
sepal length (cm)   -1.690315e-15
sepal width (cm)    -1.637024e-15
petal length (cm)   -1.482518e-15
petal width (cm)    -1.623146e-15
dtype: float64

feature 들의 분산 값
sepal length (cm)    1.006711
sepal width (cm)     1.006711
petal length (cm)    1.006711
petal width (cm)     1.006711
dtype: float64


#### MinMaxScaler
- 데이터 값을 0과 1사이의 범위 값으로 변환해 줌
- 음수 값이 있으면 -1에서 1값으로 변환

In [None]:
from sklearn.preprocessing import MinMaxScaler

# MinMaxScaler객체 생성
scaler = MinMaxScaler()

# fit, transform 
scaler.fit(iris_df)
iris_scaled = scaler.transform(iris_df)

# 보기좋게 DataFrame으로 변환
iris_df_scaled = pd.DataFrame(data=iris_scaled, columns=iris.feature_names)

print('feature들의 최소 값')
print(iris_df_scaled.min())
print('\nfeature들의 최대 값')
print(iris_df_scaled.max())

#### 학습 데이터와 테스트 데이터의 스케일링 변환 시 유의점

In [45]:
from sklearn.preprocessing import MinMaxScaler
import numpy as np

# Scaler클래스의 fit, transform은 2차원 이상 데이터만 가능하므로 reshape(-1, 1)로 차원 변경
train_array = np.arange(0, 11).reshape(-1, 1)  # 학습 데이터는 0~10,
test_array =  np.arange(0, 6).reshape(-1, 1)   # 테스트 데이터는 0~5

학습 데이터 변환

In [41]:
# 최소값 0, 최대값 1로 변환하는 MinMaxScaler객체 생성
scaler = MinMaxScaler()

# 학습 데이터인 train_array에 fit하면 최소값이 0, 최대값이 10으로 설정되어 1/10 scale 적용됨
scaler.fit(train_array)

# transform하면 1/10 scale로 학습 데이터 변환 (원본 데이터 1은 0.1로, 5는 0.5로, 10은 1로 변환)
train_scaled = scaler.transform(train_array)
 
print('원본 train_array 데이터:', np.round(train_array.reshape(-1), 2))
print('Scale된 train_array 데이터:', np.round(train_scaled.reshape(-1), 2))

원본 train_array 데이터: [ 0  1  2  3  4  5  6  7  8  9 10]
Scale된 train_array 데이터: [0.  0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1. ]


테스트 데이터 변환

In [38]:
# 테스트 데이터인 test_array에 fit하면 최소값이 0, 최대값이 5으로 설정되어 1/5 scale 적용됨
scaler.fit(test_array)

# transform하면 1/5 scale로 테스트 데이터 변환 (원본 데이터 1은 0.2로, 5 1로 변환)
test_scaled = scaler.transform(test_array)

print('원본 test_array 데이터:', np.round(test_array.reshape(-1), 2))
print('Scale된 test_array 데이터:', np.round(test_scaled.reshape(-1), 2))

# 출력 결과를 보면 학습 데이터 2는 0.2로, 테스트 데이터 1은 0.2로 변화해 서로 다른 값이 동일한 값으로 변환됨
# 머신러닝은 학습 데이터를 기반으로 하므로 학습 데이터 스케일링을 따라야 함
# 따라서, 테스트 데이터에는 fit을 적용하면 안되고 학습 데이터로 fit한 값을 transform으로 변환해야 함

원본 test_array 데이터: [0 1 2 3 4 5]
Scale된 test_array 데이터: [0.  0.2 0.4 0.6 0.8 1. ]


학습 데이터로 fit한 값으로 테스트 데이터 transform 수행

In [46]:
scaler = MinMaxScaler()

# 학습 데이터 fit, transform 수행
scaler.fit(train_array)                      
train_scaled = scaler.transform(train_array) 

print('원본 train_array 데이터:', np.round(train_array.reshape(-1), 2))
print('Scale된 train_array 데이터:', np.round(train_scaled.reshape(-1), 2))

# 테스트 데이터는 fit을 하지않고, transform만으로 변환해야 함 
test_scaled = scaler.transform(test_array)

print('\n원본 test_array 데이터:', np.round(test_array.reshape(-1), 2))
print('Scale된 test_array 데이터:', np.round(test_scaled.reshape(-1), 2))

원본 train_array 데이터: [ 0  1  2  3  4  5  6  7  8  9 10]
Scale된 train_array 데이터: [0.  0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1. ]

원본 test_array 데이터: [0 1 2 3 4 5]
Scale된 test_array 데이터: [0.  0.1 0.2 0.3 0.4 0.5]
