### 2-5 데이터 전처리

- 레이블(label) 인코딩

In [None]:
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split
import pandas as pd

In [16]:
from sklearn.preprocessing import LabelEncoder

In [17]:
items = ['TV', 'Telephone', 'Mixer', 'computer', 'aircon', 'aircon', 'Mixer']

In [18]:
# LabelEncoder를 객체로 생성한 후, fit()과 transform()으로 레이블 인코딩 수행.
encoder = LabelEncoder()

In [19]:
encoder.fit(items)

In [20]:
labels = encoder.transform(items)

In [21]:
print('인코딩 변환값:', labels)

인코딩 변환값: [1 2 0 4 3 3 0]


In [22]:
print('인코딩 클래스:', encoder.classes_)

인코딩 클래스: ['Mixer' 'TV' 'Telephone' 'aircon' 'computer']


In [23]:
print('디코딩 원본값:', encoder.inverse_transform([1, 2, 0, 4, 3, 3, 0]))

디코딩 원본값: ['TV' 'Telephone' 'Mixer' 'computer' 'aircon' 'aircon' 'Mixer']


- 원-핫 인코딩 (One-Hot Encoding)

In [25]:
from sklearn.preprocessing import OneHotEncoder
import numpy as np

In [26]:
items = ['TV', 'Telephone', 'Mixer', 'computer', 'aircon', 'aircon', 'Mixer']

In [27]:
# 2차원 ndarray로 변환.
items = np.array(items).reshape(-1, 1)

In [29]:
# 원-핫 인코딩 적용
oh_encoder = OneHotEncoder()

In [30]:
oh_encoder.fit(items)

In [31]:
oh_labels = oh_encoder.transform(items)

In [32]:
# OneHotEncoder로 변환한 결과는 희소행렬이므로 toarray()를 이용해 밀집 행렬로 변환.
print(oh_labels.toarray())
print(oh_labels.shape)

[[0. 1. 0. 0. 0.]
 [0. 0. 1. 0. 0.]
 [1. 0. 0. 0. 0.]
 [0. 0. 0. 0. 1.]
 [0. 0. 0. 1. 0.]
 [0. 0. 0. 1. 0.]
 [1. 0. 0. 0. 0.]]
(7, 5)


- 판다스 => get_dummies()

In [34]:
df = pd.DataFrame(items)
pd.get_dummies(df)

Unnamed: 0,0_Mixer,0_TV,0_Telephone,0_aircon,0_computer
0,False,True,False,False,False
1,False,False,True,False,False
2,True,False,False,False,False
3,False,False,False,False,True
4,False,False,False,True,False
5,False,False,False,True,False
6,True,False,False,False,False


- StandardScaler

In [38]:
iris = load_iris()
iris_data = iris.data

In [39]:
iris_df = pd.DataFrame(data=iris_data, columns=iris.feature_names)

In [41]:
print('feature 들의 평균 값')
print(iris_df.mean())
print('\n feature 들의 분산 값')
print(iris_df.var())

feature 들의 평균 값
sepal length (cm)    5.843333
sepal width (cm)     3.057333
petal length (cm)    3.758000
petal width (cm)     1.199333
dtype: float64

 feature 들의 분산 값
sepal length (cm)    0.685694
sepal width (cm)     0.189979
petal length (cm)    3.116278
petal width (cm)     0.581006
dtype: float64


In [42]:
from sklearn.preprocessing import StandardScaler

In [43]:
# StandardScaler 객체 생성
ssScaler = StandardScaler()

In [44]:
# StandardScaler로 데이터 세트 변환
# fit() 호출
ssScaler.fit(iris_df)

In [45]:
# transform() 호출
iris_scaled = ssScaler.transform(iris_df)

In [46]:
iris_df_scaled = pd.DataFrame(data=iris_scaled, columns=iris.feature_names)

In [47]:
print('스케일링된 feature 들의 평균 값')
print(iris_df_scaled.mean())
print('\n스케일링된 feature 들의 분산 값')
print(iris_df_scaled.var())

스케일링된 feature 들의 평균 값
sepal length (cm)   -1.690315e-15
sepal width (cm)    -1.842970e-15
petal length (cm)   -1.698641e-15
petal width (cm)    -1.409243e-15
dtype: float64

스케일링된 feature 들의 분산 값
sepal length (cm)    1.006711
sepal width (cm)     1.006711
petal length (cm)    1.006711
petal width (cm)     1.006711
dtype: float64


In [48]:
from sklearn.preprocessing import MinMaxScaler

In [49]:
# MinMaxScaler 객체 생성
mmScaler = MinMaxScaler()

In [50]:
# MinMaxScaler로 데이터 세트 변환
# fit() 호출
mmScaler.fit(iris_df)
# transform() 호출
iris_mmscaled = mmScaler.transform(iris_df)

In [52]:
iris_df_mmscaled = pd.DataFrame(data=iris_mmscaled, columns=iris.feature_names)
print('minmax 스케일링된 feature 들의 최소값')
print(iris_df_mmscaled.min())
print('\nminmax 스케일링된 feature 들의 최댓값')
print(iris_df_mmscaled.max())

minmax 스케일링된 feature 들의 최소값
sepal length (cm)    0.0
sepal width (cm)     0.0
petal length (cm)    0.0
petal width (cm)     0.0
dtype: float64

minmax 스케일링된 feature 들의 최댓값
sepal length (cm)    1.0
sepal width (cm)     1.0
petal length (cm)    1.0
petal width (cm)     1.0
dtype: float64


- 학습 데이터와 테스트 데이터의 스케일링 변환 시 유의점

In [53]:
# 학습데이터는 0부터 10까지, 테스트데이터는 0부터 5까지 값을 가지는 데이터셋
train_array = np.arange(0, 11).reshape(-1, 1)
test_array = np.arange(0, 6).reshape(-1, 1)

In [54]:
# MinMaxScaler 객체에 별도의 feature_range 파라미터 값을 지정하지 않으면 0~1 값으로 변환
mmScaler = MinMaxScaler()

In [55]:
# fit()하게 되면 train_array() 데이터의 최솟값이 0, 최댓값이 10으로 설정.
mmScaler.fit(train_array)

In [56]:
# 1/10 scale로 train_array 데이터 변환함. 원본 10->1로 변환됨.
train_scaled = mmScaler.transform(train_array)

In [57]:
print('원본 train_array 데이터:', np.round(train_array.reshape(-1), 2))
print('Scale된 train_array 데이터:', np.round(train_scaled.reshape(-1), 2))

원본 train_array 데이터: [ 0  1  2  3  4  5  6  7  8  9 10]
Scale된 train_array 데이터: [0.  0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1. ]


In [58]:
# MinMaxScaler에 test_array를 fit()하게 되면 원본 데이터의 최솟값이 0, 최댓값이 5로 설정됨
mmScaler.fit(test_array)

In [59]:
# 1/5 scale로 test_array 데이터 변환함. 원본 5->1로 변환.
test_scaled = mmScaler.transform(test_array)

In [61]:
print('원본 test_array 데이터:', np.round(test_array.reshape(-1), 2))
print('Scale된 test_array 데이터:', np.round(test_scaled.reshape(-1), 2))

원본 test_array 데이터: [0 1 2 3 4 5]
Scale된 test_array 데이터: [0.  0.2 0.4 0.6 0.8 1. ]


In [62]:
mmScaler = MinMaxScaler()
mmScaler.fit(train_array)
train_scaled = mmScaler.transform(train_array)
print('원본 train_array 데이터:', np.round(train_array.reshape(-1), 2))
print('Scale된 train_array 데이터:', np.round(train_scaled.reshape(-1), 2))

원본 train_array 데이터: [ 0  1  2  3  4  5  6  7  8  9 10]
Scale된 train_array 데이터: [0.  0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1. ]


In [63]:
# test_array에 Scale 변환을 할 때는 반드시 fit()을 호출하지 않고 transform()만으로 변환해야 함.
test_scaled = mmScaler.transform(test_array)
print('원본 test_array 데이터:', np.round(test_array.reshape(-1), 2))
print('Scale된 test_array 데이터:', np.round(test_scaled.reshape(-1), 2))

원본 test_array 데이터: [0 1 2 3 4 5]
Scale된 test_array 데이터: [0.  0.1 0.2 0.3 0.4 0.5]
