## 데이터 인코딩

- label encoding

In [3]:
from sklearn.preprocessing import LabelEncoder

items = ['TV', 'refrigerator', 'microwave', 'computer', 'pan', 'pan', 'mixer', 'mixer']

# LabelEncoder를 객체로 생성한 후, fit()과 transform()으로 label 인코딩 수행
encoder = LabelEncoder() # 1. LabelEncoder를 객체로 생성
encoder.fit(items) # 2. 해당 객체에 fit()
labels = encoder.transform(items) # 해당 객체에 trnsform()
print('fit: ', encoder.fit(items))
print('인코딩 변환값: ', labels)

fit:  LabelEncoder()
인코딩 변환값:  [0 5 2 1 4 4 3 3]


In [None]:
# 한번에 fit, transfrom  수행
labels = encoder.fit_transform(items)

In [9]:
print('인코딩 클래스: ', encoder.classes_)

인코딩 클래스:  ['TV' 'computer' 'microwave' 'mixer' 'pan' 'refrigerator']


In [12]:
print('디코딩 원본 값: ', encoder.inverse_transform([0, 5, 2, 1, 4, 4, 3, 3]))

디코딩 원본 값:  ['TV' 'refrigerator' 'microwave' 'computer' 'pan' 'pan' 'mixer' 'mixer']


- One-Hot encoding

In [16]:
from sklearn.preprocessing import OneHotEncoder
import numpy as np

items = ['TV', 'refrigerator', 'microwave', 'computer', 'pan', 'pan', 'mixer', 'mixer']

# transform 2-dimension ndarray
items = np.array(items).reshape(-1, 1)

# 원핫 인코딩 적용
oh_encoder = OneHotEncoder()
oh_encoder.fit(items)
oh_labels = oh_encoder.transform(items)

# OneHotEncoder로 변환한 결과는 희소행렬(Spare Matrix)이므로 toarray()를 이용하여 밀집 행렬(Dense Matrix)로 변환
# 인코딩 변환값:  [0 5 2 1 4 4 3 3]
print('원핫 인코딩 데이터 \n')
print(oh_labels.toarray())
print('원핫 인코딩 데이터 차원')
print(oh_labels.shape)

원핫 인코딩 데이터 

[[1. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 1.]
 [0. 0. 1. 0. 0. 0.]
 [0. 1. 0. 0. 0. 0.]
 [0. 0. 0. 0. 1. 0.]
 [0. 0. 0. 0. 1. 0.]
 [0. 0. 0. 1. 0. 0.]
 [0. 0. 0. 1. 0. 0.]]
원핫 인코딩 데이터 차원
(8, 6)


In [17]:
import pandas as pd

df = pd.DataFrame({'Item': ['TV', 'refrigerator', 'microwave', 'computer', 'pan', 'pan', 'mixer', 'mixer']})
pd.get_dummies(df)

Unnamed: 0,Item_TV,Item_computer,Item_microwave,Item_mixer,Item_pan,Item_refrigerator
0,1,0,0,0,0,0
1,0,0,0,0,0,1
2,0,0,1,0,0,0
3,0,1,0,0,0,0
4,0,0,0,0,1,0
5,0,0,0,0,1,0
6,0,0,0,1,0,0
7,0,0,0,1,0,0


## 피처 스케일링과 정규화

- StandardScaler

In [25]:
from sklearn.datasets import load_iris
import pandas as pd
# iris 데이터셋을 로딩하고 DataFrame로 변환
iris = load_iris()
iris_data = iris.data
print(type(iris_data))
iris_df = pd.DataFrame(data=iris_data, columns=iris.feature_names)
print(display(iris_df))


<class 'numpy.ndarray'>


Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2
...,...,...,...,...
145,6.7,3.0,5.2,2.3
146,6.3,2.5,5.0,1.9
147,6.5,3.0,5.2,2.0
148,6.2,3.4,5.4,2.3


None


In [26]:
print('feature 평균값')
print(iris_df.mean())
print('\nfeature 분산값')
print(iris_df.std())

feature 평균값
sepal length (cm)    5.843333
sepal width (cm)     3.057333
petal length (cm)    3.758000
petal width (cm)     1.199333
dtype: float64

feature 분산값
sepal length (cm)    0.828066
sepal width (cm)     0.435866
petal length (cm)    1.765298
petal width (cm)     0.762238
dtype: float64


In [29]:
from sklearn.preprocessing import StandardScaler

# StandardScaler 객체 생성
scaler = StandardScaler()
# StandardScaler 로 데이터 셋 변환, fit()과 fransform() 호출
scaler.fit(iris_df)
iris_scaled = scaler.transform(iris_df)

print(display(iris_scaled))

array([[-9.00681170e-01,  1.01900435e+00, -1.34022653e+00,
        -1.31544430e+00],
       [-1.14301691e+00, -1.31979479e-01, -1.34022653e+00,
        -1.31544430e+00],
       [-1.38535265e+00,  3.28414053e-01, -1.39706395e+00,
        -1.31544430e+00],
       [-1.50652052e+00,  9.82172869e-02, -1.28338910e+00,
        -1.31544430e+00],
       [-1.02184904e+00,  1.24920112e+00, -1.34022653e+00,
        -1.31544430e+00],
       [-5.37177559e-01,  1.93979142e+00, -1.16971425e+00,
        -1.05217993e+00],
       [-1.50652052e+00,  7.88807586e-01, -1.34022653e+00,
        -1.18381211e+00],
       [-1.02184904e+00,  7.88807586e-01, -1.28338910e+00,
        -1.31544430e+00],
       [-1.74885626e+00, -3.62176246e-01, -1.34022653e+00,
        -1.31544430e+00],
       [-1.14301691e+00,  9.82172869e-02, -1.28338910e+00,
        -1.44707648e+00],
       [-5.37177559e-01,  1.47939788e+00, -1.28338910e+00,
        -1.31544430e+00],
       [-1.26418478e+00,  7.88807586e-01, -1.22655167e+00,
      

None


In [32]:
# transform() 시 scale 변환된 데이터 셋이 numpy ndarray로 반환되어 이를 DataFrame으로 변환
iris_df_scaled = pd.DataFrame(data = iris_scaled, columns = iris.feature_names)
print(iris_df_scaled)
print('\n feature 평균값')
print(iris_df_scaled.mean())
print('\n feature 분산값')
print(iris_df_scaled.std())

     sepal length (cm)  sepal width (cm)  petal length (cm)  petal width (cm)
0            -0.900681          1.019004          -1.340227         -1.315444
1            -1.143017         -0.131979          -1.340227         -1.315444
2            -1.385353          0.328414          -1.397064         -1.315444
3            -1.506521          0.098217          -1.283389         -1.315444
4            -1.021849          1.249201          -1.340227         -1.315444
..                 ...               ...                ...               ...
145           1.038005         -0.131979           0.819596          1.448832
146           0.553333         -1.282963           0.705921          0.922303
147           0.795669         -0.131979           0.819596          1.053935
148           0.432165          0.788808           0.933271          1.448832
149           0.068662         -0.131979           0.762758          0.790671

[150 rows x 4 columns]

 feature 평균값
sepal length (cm)   -1.690

- MinMaxScaler

In [37]:
from sklearn.preprocessing import MinMaxScaler

# MinMaxScaler 객체 생성
scaler = MinMaxScaler()
# MinMaxSclaer 로 데이터 셋 변환, fit()과 transform() 호출
scaler.fit(iris_df)
iris_scaled = scaler.transform(iris_df)

# transform() 시 scale 변환된 데이터 셋이 numpy ndarray로 반환되어 이를 DataFrame으로 변환
iris_df_scaled = pd.DataFrame(data=iris_scaled, columns=iris.feature_names)
print(iris_df_scaled)
print('\n feature 평균값')
print(iris_df_scaled.mean())
print('\n feature 분산값')
print(iris_df_scaled.std())

     sepal length (cm)  sepal width (cm)  petal length (cm)  petal width (cm)
0             0.222222          0.625000           0.067797          0.041667
1             0.166667          0.416667           0.067797          0.041667
2             0.111111          0.500000           0.050847          0.041667
3             0.083333          0.458333           0.084746          0.041667
4             0.194444          0.666667           0.067797          0.041667
..                 ...               ...                ...               ...
145           0.666667          0.416667           0.711864          0.916667
146           0.555556          0.208333           0.677966          0.750000
147           0.611111          0.416667           0.711864          0.791667
148           0.527778          0.583333           0.745763          0.916667
149           0.444444          0.416667           0.694915          0.708333

[150 rows x 4 columns]

 feature 평균값
sepal length (cm)    0.428

- Scaler를 이용하여 학습 데이터와 테스트데이터에
- fit(), transform(), fit_transform() 적용 시 유의사항

In [40]:
from sklearn.preprocessing import MinMaxScaler
import numpy as np

# 학습 데이터는 0 부터 10까지, 테스트 데이터는 0부터 4까지 값을 가지는 데이터 세트로 생성
# Scaler 클래스의 fit, trainsform()은 2차원 이상 데이터만 가능하므로 reshape(-1, 1)로 차원 변경
train_array = np.arange(0, 11).reshape(-1, 1)
test_array = np.arange(0, 6).reshape(-1, 1)

In [43]:
# 1-1. train data > MinMaxScaler

#최소값 0, 최대값 1로 변환하는 MinMaxScaler 객체 생성
scaler = MinMaxScaler()
# fit() 하게 되면 train_array 데이터의 최소값이 0, 최대값이 10으로 설정
scaler.fit(train_array)
# 1/10 scaler 로 train_array 데이터 변환함, 원본 10 -> 1로 변환됨.
train_scaled = scaler.transform(train_array)

print('원본 train_array 데이터: ', np.round(train_array.reshape(-1), 2)) # 1차원 ndarray로 변환 .reshape(-1)
print('Scale 된 train_array 데이터: ', np.round(train_scaled.reshape(-1), 2))

원본 train_array 데이터:  [ 0  1  2  3  4  5  6  7  8  9 10]
Scale 된 train_array 데이터:  [0.  0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1. ]


In [47]:
# 1-2. test data > MinMaxScaler

# 앞에서 생성한 MinMaxScaler에 test_array를 fit()하게 되면 원본 데이터의 최소값이 0, 최대값이 5로 설정됨
scaler.fit(test_array)
# 1/5 scaler로 test_array 데이터 변환함, 원본 5->1로 변환.
test_scaled = scaler.transform(test_array)
# train_array 변환 출력
print('원본 test_array 데이터: ', np.round(test_array.reshape(-1), 2)) # 1차원 ndarray로 변환 .reshape(-1)
print('scale 된 test_array 데이터: ', np.round(test_scaled.reshape(-1), 2))

원본 test_array 데이터:  [0 1 2 3 4 5]
scale 된 test_array 데이터:  [0.  0.2 0.4 0.6 0.8 1. ]


In [48]:
# 2. train data & test data > MinMaxScaler

scaler = MinMaxScaler()
scaler.fit(train_array) # train 데이터 척도 기준
train_scaled = scaler.transform(train_array)
print('원본 train_array 데이터: ', np.round(train_array.reshape(-1), 2))
print('Scale 된 train_array 데이터: ', np.round(train_scaled.reshape(-1), 2))

# test_array에 Scale 변환을 할 때는 반드시 fit()을 호출하지 않고 transform 만으로 변환해야 함
test_scaled = scaler.transform(test_array) # train 데이터 척도 기준
print('원본 test_array 데이터: ', np.round(test_array.reshape(-1), 2)) # 1차원 ndarray로 변환 .reshape(-1)
print('scale 된 test_array 데이터: ', np.round(test_scaled.reshape(-1), 2))

원본 train_array 데이터:  [ 0  1  2  3  4  5  6  7  8  9 10]
Scale 된 train_array 데이터:  [0.  0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1. ]
원본 test_array 데이터:  [0 1 2 3 4 5]
scale 된 test_array 데이터:  [0.  0.1 0.2 0.3 0.4 0.5]
