### 데이터 인코딩

* 레이블 인코딩(Label encoding)

In [1]:
from sklearn.preprocessing import LabelEncoder

items = ['TV','냉장고','전자레인지','컴퓨터','선풍기','선풍기','믹서','믹서']

encoder = LabelEncoder()
encoder.fit(items)
labels = encoder.transform(items)
print('인코딩 변환값:',labels)

인코딩 변환값: [0 1 4 5 3 3 2 2]


In [2]:
print('인코딩 클래스:',encoder.classes_)

인코딩 클래스: ['TV' '냉장고' '믹서' '선풍기' '전자레인지' '컴퓨터']


In [3]:
print('디코딩 원본 값:',encoder.inverse_transform([4,5,2,0,1,1,3,3]))

디코딩 원본 값: ['전자레인지' '컴퓨터' '믹서' 'TV' '냉장고' '냉장고' '선풍기' '선풍기']


* 원-핫 인코딩(one-hot encoding)

In [4]:
from sklearn.preprocessing import OneHotEncoder
import numpy as np

items = ['TV','냉장고','전자레인지','컴퓨터','선풍기','선풍기','믹서','믹서']

encoder = LabelEncoder()
encoder.fit(items)
labels = encoder.transform(items)
labels

array([0, 1, 4, 5, 3, 3, 2, 2])

In [5]:
# 2차원 데이터로 변환

labels = labels.reshape(-1,1)
labels

array([[0],
       [1],
       [4],
       [5],
       [3],
       [3],
       [2],
       [2]])

In [6]:
# 원-핫 인코딩을 적용

oh_encoder = OneHotEncoder()

oh_encoder.fit(labels)

oh_labels = oh_encoder.transform(labels)

print(oh_labels)

print(oh_labels.toarray())
print(oh_labels.shape)

  (0, 0)	1.0
  (1, 1)	1.0
  (2, 4)	1.0
  (3, 5)	1.0
  (4, 3)	1.0
  (5, 3)	1.0
  (6, 2)	1.0
  (7, 2)	1.0
[[1. 0. 0. 0. 0. 0.]
 [0. 1. 0. 0. 0. 0.]
 [0. 0. 0. 0. 1. 0.]
 [0. 0. 0. 0. 0. 1.]
 [0. 0. 0. 1. 0. 0.]
 [0. 0. 0. 1. 0. 0.]
 [0. 0. 1. 0. 0. 0.]
 [0. 0. 1. 0. 0. 0.]]
(8, 6)


In [7]:
import pandas as pd

df = pd.DataFrame({'item':['TV','냉장고','전자레인지','컴퓨터','선풍기','선풍기','믹서','믹서']})
pd.get_dummies(df)

Unnamed: 0,item_TV,item_냉장고,item_믹서,item_선풍기,item_전자레인지,item_컴퓨터
0,True,False,False,False,False,False
1,False,True,False,False,False,False
2,False,False,False,False,True,False
3,False,False,False,False,False,True
4,False,False,False,True,False,False
5,False,False,False,True,False,False
6,False,False,True,False,False,False
7,False,False,True,False,False,False


### 피처 스케일링과 정규화

* StandardScaler(표준화)

In [8]:
from sklearn.datasets import load_iris

iris = load_iris()
iris_data = iris.data
iris_df = pd.DataFrame(data=iris_data,columns=iris.feature_names)

print('feature들의 평균 값')
print(iris_df.mean())
print('\nfeature 들의 분산 값')
print(iris_df.var())

feature들의 평균 값
sepal length (cm)    5.843333
sepal width (cm)     3.057333
petal length (cm)    3.758000
petal width (cm)     1.199333
dtype: float64

feature 들의 분산 값
sepal length (cm)    0.685694
sepal width (cm)     0.189979
petal length (cm)    3.116278
petal width (cm)     0.581006
dtype: float64


In [9]:
# 데이터 표준화 : 데이터의 각 특성(feature)을 평균이 0이고 표준편차가 1이 되도록 변환하는 과정

from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
scaler.fit(iris_df)
iris_scaled = scaler.transform(iris_df)


iris_df_scaled = pd.DataFrame(data=iris_scaled,columns=iris.feature_names)
print('feature 들의 평균 값')
print(iris_df_scaled.mean())
print('\nfeature 들의 분산 값')
print(iris_df_scaled.var())

feature 들의 평균 값
sepal length (cm)   -1.690315e-15
sepal width (cm)    -1.842970e-15
petal length (cm)   -1.698641e-15
petal width (cm)    -1.409243e-15
dtype: float64

feature 들의 분산 값
sepal length (cm)    1.006711
sepal width (cm)     1.006711
petal length (cm)    1.006711
petal width (cm)     1.006711
dtype: float64


* MinMaxScaler(정규화)

In [10]:
# 데이터의 스케일을 0과 1 사이로 조정하는 작업
from sklearn.preprocessing import MinMaxScaler

scaler = MinMaxScaler()
scaler.fit(iris_df)
iris_scaled = scaler.transform(iris_df)

iris_df_scaled = pd.DataFrame(data=iris_scaled,columns=iris.feature_names)
print('feature들의 최소 값')
print(iris_df_scaled.min())
print('\nfeature들의 최대 값')
print(iris_df_scaled.max())

feature들의 최소 값
sepal length (cm)    0.0
sepal width (cm)     0.0
petal length (cm)    0.0
petal width (cm)     0.0
dtype: float64

feature들의 최대 값
sepal length (cm)    1.0
sepal width (cm)     1.0
petal length (cm)    1.0
petal width (cm)     1.0
dtype: float64


* 주의사항                                   

In [11]:
from sklearn.preprocessing import MinMaxScaler
import numpy as np

train_array = np.arange(0,11).reshape(-1,1)
test_array = np.arange(0,6).reshape(-1,1)

In [12]:
scaler = MinMaxScaler()

scaler.fit(train_array)
train_scaled = scaler.transform(train_array)


print('원본 train_array 데이터:',np.round(train_array.reshape(-1),2))
print('scale된 train_array 데이터:',np.round(train_scaled.reshape(-1),2))

원본 train_array 데이터: [ 0  1  2  3  4  5  6  7  8  9 10]
scale된 train_array 데이터: [0.  0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1. ]


In [13]:
scaler.fit(test_array)
test_scaled = scaler.transform(test_array)

print('원본 train_array 데이터:',np.round(test_array.reshape(-1),2))
print('scale된 test_array 데이터:',np.round(test_scaled.reshape(-1),2))

원본 train_array 데이터: [0 1 2 3 4 5]
scale된 test_array 데이터: [0.  0.2 0.4 0.6 0.8 1. ]


In [14]:
# test_array에 scale 변환을 할때는 반드시 fit()을 호출하지않고 transform()만으로 변환해야함
scaler = MinMaxScaler()

scaler.fit(train_array)
train_scaled = scaler.transform(train_array)


print('원본 train_array 데이터:',np.round(train_array.reshape(-1),2))
print('scale된 train_array 데이터:',np.round(train_scaled.reshape(-1),2))

test_scaled = scaler.transform(test_array)

print('원본 train_array 데이터:',np.round(test_array.reshape(-1),2))
print('scale된 test_array 데이터:',np.round(test_scaled.reshape(-1),2))

원본 train_array 데이터: [ 0  1  2  3  4  5  6  7  8  9 10]
scale된 train_array 데이터: [0.  0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1. ]
원본 train_array 데이터: [0 1 2 3 4 5]
scale된 test_array 데이터: [0.  0.1 0.2 0.3 0.4 0.5]


In [15]:
from sklearn.preprocessing import MinMaxScaler
import numpy as np

# 훈련 데이터 생성
train_array = np.arange(0, 11).reshape(-1, 1)

# 테스트 데이터 생성
test_array = np.arange(0, 6).reshape(-1, 1)

# MinMaxScaler 객체 생성
scaler = MinMaxScaler()

# 훈련 데이터에 대한 정규화 계산 및 적용
scaler.fit(train_array)
train_scaled = scaler.transform(train_array)

# 테스트 데이터에 대한 정규화 적용
test_scaled = scaler.transform(test_array)

# 결과 출력
print("원본 train_array 데이터:")
print(np.round(train_array.reshape(-1), 2))

print("\nScale된 train_array 데이터:")
print(np.round(train_scaled.reshape(-1), 2))

print("\n원본 test_array 데이터:")
print(np.round(test_array.reshape(-1), 2))

print("\nScale된 test_array 데이터:")
print(np.round(test_scaled.reshape(-1), 2))


원본 train_array 데이터:
[ 0  1  2  3  4  5  6  7  8  9 10]

Scale된 train_array 데이터:
[0.  0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1. ]

원본 test_array 데이터:
[0 1 2 3 4 5]

Scale된 test_array 데이터:
[0.  0.1 0.2 0.3 0.4 0.5]
