In [1]:
#데이터 전처리를 해야하는 이유는 nan, null값은 허용되지 않고, 문자열 값을 입력값으로 허용하지 않기 때문에 벡터화를 하던가 삭제를 해야한다.
#레이블 인코딩
from sklearn.preprocessing import LabelEncoder

items = ['TV','냉장고','전자레인지', '컴퓨터', '선풍기', '선풍기', '믹서', '믹서']

# LabelEncoder를 객체로 생성한후, fit(), transfrom()으로 레이블 인코딩 수행.

encoder = LabelEncoder()
encoder.fit(items)
labels = encoder.transform(items)
print('인코딩 변환값:', labels)

인코딩 변환값: [0 1 4 5 3 3 2 2]


In [4]:
print('인코딩 클래스:', encoder.classes_)
#속성값 확인

인코딩 클래스: ['TV' '냉장고' '믹서' '선풍기' '전자레인지' '컴퓨터']


In [7]:
print('디코딩 원본값 :', encoder.inverse_transform([4,5,2,0,1,1,3,3]))

디코딩 원본값 : ['전자레인지' '컴퓨터' '믹서' 'TV' '냉장고' '냉장고' '선풍기' '선풍기']


In [11]:
#특정 알고리즘에서는 숫자값의 크고 작음에 따라 가중치가 더 부여되거나 중요하게 인식할 가능성이 있음.
# 이런 특성 때문에 선형회귀와 같은 ML알고리즘에서는 적용하지 않아야 한다.
#one-hot encoding
#원핫 인코딩은 피처값의 유형에 따라 새로운 피처를 추가해 고유값에 해당하는 칼럼에만 1을 표시하고 나머지엔 0을 표시함.
#원핫 인코딩은 라벨과 달리 입력값이 2차원데이터이고, 변환값이 희소행렬(sparse matrix) 형태이므로 이를 다시 toarray()로 밀집(dense matrix)로 바꿔야함
from sklearn.preprocessing import OneHotEncoder
import numpy as np

items = ['TV','냉장고','전자레인지', '컴퓨터', '선풍기', '선풍기', '믹서', '믹서']

#2차원으로 ndarray로 변환
items = np.array(items).reshape(-1,1)

#원핫인코딩 적용
oh_encoder = OneHotEncoder()
oh_encoder.fit(items)
oh_labels = oh_encoder.transform(items)

#원핫인코더로 변환한 결과는 희소행렬 이므로 toarray()를 사용해 밀집 행렬로 변환.
print(oh_labels.toarray())
print(oh_labels.shape)
print(oh_labels)

[[1. 0. 0. 0. 0. 0.]
 [0. 1. 0. 0. 0. 0.]
 [0. 0. 0. 0. 1. 0.]
 [0. 0. 0. 0. 0. 1.]
 [0. 0. 0. 1. 0. 0.]
 [0. 0. 0. 1. 0. 0.]
 [0. 0. 1. 0. 0. 0.]
 [0. 0. 1. 0. 0. 0.]]
(8, 6)
<Compressed Sparse Row sparse matrix of dtype 'float64'
	with 8 stored elements and shape (8, 6)>
  Coords	Values
  (0, 0)	1.0
  (1, 1)	1.0
  (2, 4)	1.0
  (3, 5)	1.0
  (4, 3)	1.0
  (5, 3)	1.0
  (6, 2)	1.0
  (7, 2)	1.0


In [13]:
#get_dummies()을 이용하면, 원핫인코딩을 더 쉽게 적용할수 있다. 원핫인토더와 다르게 문자열 카테고리 값을 숫자형으로 변환할 필요가 없다.
import pandas as pd

df = pd.DataFrame({'items' : ['TV','냉장고','전자레인지', '컴퓨터', '선풍기', '선풍기', '믹서', '믹서']})
pd.get_dummies(df)

Unnamed: 0,items_TV,items_냉장고,items_믹서,items_선풍기,items_전자레인지,items_컴퓨터
0,True,False,False,False,False,False
1,False,True,False,False,False,False
2,False,False,False,False,True,False
3,False,False,False,False,False,True
4,False,False,False,True,False,False
5,False,False,False,True,False,False
6,False,False,True,False,False,False
7,False,False,True,False,False,False


In [14]:
one_hot = pd.get_dummies(df)
print(one_hot.dtypes)

items_TV       bool
items_냉장고      bool
items_믹서       bool
items_선풍기      bool
items_전자레인지    bool
items_컴퓨터      bool
dtype: object


In [16]:
import pandas as pd

df = pd.DataFrame({'items' : ['TV','냉장고','전자레인지', '컴퓨터', '선풍기', '선풍기', '믹서', '믹서']})
pd.get_dummies(df, dtype = 'uint8')

Unnamed: 0,items_TV,items_냉장고,items_믹서,items_선풍기,items_전자레인지,items_컴퓨터
0,1,0,0,0,0,0
1,0,1,0,0,0,0
2,0,0,0,0,1,0
3,0,0,0,0,0,1
4,0,0,0,1,0,0
5,0,0,0,1,0,0
6,0,0,1,0,0,0
7,0,0,1,0,0,0


In [19]:
#피처 스케일링과 정규화
#standardSclaer
# 개별 피처를 평균이 0, 분산이 1인 값으로 변환함.
# 서포트 벡터 머신, 선형회귀, 로지스틱 회귀는 데이터가 가우시안 분포를 가지고 있다고 가정하고 구현하기 때문에 표준화 적용 필수
from sklearn.datasets import load_iris
import pandas as pd
#붖꽃 데이터 세트를 로딩하고 DataFrame으로 변환함
iris = load_iris()
iris_data = iris.data
iris_df = pd.DataFrame(data = iris.data, columns = iris.feature_names)

print('feature 들의 평균값')
print(iris_df.mean())
print('\nfeature 들의 분산값')
print(iris_df.var())

feature 들의 평균값
sepal length (cm)    5.843333
sepal width (cm)     3.057333
petal length (cm)    3.758000
petal width (cm)     1.199333
dtype: float64

feature 들의 분산값
sepal length (cm)    0.685694
sepal width (cm)     0.189979
petal length (cm)    3.116278
petal width (cm)     0.581006
dtype: float64


In [22]:
#표준화
from sklearn.preprocessing import StandardScaler

#StandardScaler 객체 생성
scaler = StandardScaler()

#StandardScaler로 데이터 세트 변환. fit()과 transform() 호출
scaler.fit(iris_df)
iris_scaled = scaler.transform(iris_df)

#transform() 시 스케일 변환된 데이터 세트가 Numpy ndarray로 반환돼 이를 dataframe으로 변환
iris_df_scaled = pd.DataFrame(data = iris_scaled , columns = iris.feature_names)
print('feature들의 평균값')
print(iris_df_scaled.mean())
print('feature들의 분산값')
print(iris_df_scaled.var())

feature들의 평균값
sepal length (cm)   -1.690315e-15
sepal width (cm)    -1.842970e-15
petal length (cm)   -1.698641e-15
petal width (cm)    -1.409243e-15
dtype: float64
feature들의 분산값
sepal length (cm)    1.006711
sepal width (cm)     1.006711
petal length (cm)    1.006711
petal width (cm)     1.006711
dtype: float64


In [24]:
#minmaxscaler
# 데이터 값을 0과 1 사이의 범위 값으로 변환
from sklearn.preprocessing import MinMaxScaler

#MinMaxScaler 객체 생성
scaler = MinMaxScaler()
#MinMaxScaler로 데이터 세트 변환. fit(), transform() 호출
scaler.fit(iris_df)
iris_scaled = scaler.transform(iris_df)

#transform 시 스케일 변환된 데이터 세트가 Numpy ndarray로 반환돼 이를 dataframe으로 변환
iris_df_scaled = pd.DataFrame(data = iris_scaled, columns = iris.feature_names)
print('feature들의 최솟값')
print(iris_df_scaled.min())
print('feature들의 최댓값')
print(iris_df_scaled.max())

feature들의 최솟값
sepal length (cm)    0.0
sepal width (cm)     0.0
petal length (cm)    0.0
petal width (cm)     0.0
dtype: float64
feature들의 최댓값
sepal length (cm)    1.0
sepal width (cm)     1.0
petal length (cm)    1.0
petal width (cm)     1.0
dtype: float64


In [25]:
#fit(), transform()을 적용할때 주의 할점
#학습데이터로 fit()이 적용된 스케일링 기준 정보를 그대로 테스트 데이터에 적용해야 하며, 그렇지 않고 테스트 데이터로 다시 새로운 스케일링 시준 정보를 만들게 되면
#학습데이터와 테스트 데이터의 스케일링 기준 정보가 달라지기 떄문에 올바른 예측결과를 도출하지 못할수도 있다.
from sklearn.preprocessing import MinMaxScaler
import numpy as np

#학습 데이터는 0부터 10까지, 테스트 데이터는 0부터 5까지 값을 가지는 데이터 세트로 생성
#Scaler 클래스의 fit(), transform은 2차원 이상 데이터만 가능하므로 reshape(-1,1)로 차원 변경
train_array = np.arange(0,11).reshape(-1,1)
test_array = np.arange(0,6).reshape(-1,1)

#MinMaxScaler 객테에 별도의 feature_range파라미터 값을 지정하지 않으면 0~1 값으로 변환
scaler = MinMaxScaler()

#fit()하게되면 train_array 데이터의 최솟값이 0, 최댓값이 10으로 설정.
scaler.fit(train_array)

#1/10 scale로 train_array 데이터 변환. 원본 10->1로 변환됨.
train_scaled = scaler.transform(train_array)

print('원본 train_array 데이터 :', np.round(train_array.reshape(-1),2))
print('Scale된 train_array데이터 :',np.round(train_scaled.reshape(-1),2))

원본 train_array 데이터 : [ 0  1  2  3  4  5  6  7  8  9 10]
Scale된 train_array데이터 : [0.  0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1. ]


In [26]:
#MinMaxScaler에 test_array를 fit()하게 되면 원본 데이터의 최솟값이 0, 최댓값이 5로 설정됨.
scaler.fit(test_array)

#1/5 scale로 test_array데이터 변환함. 원본 5->1로 변환.
test_scaled = scaler.transform(test_array)

#test_array의 scale변환 출력.
print('원본 test_array의 데이터:', np.round(test_array.reshape(-1),2))
print('Scale된 test_array의 데이터:', np.round(test_scaled.reshape(-1),2))

원본 test_array의 데이터: [0 1 2 3 4 5]
Scale된 test_array의 데이터: [0.  0.2 0.4 0.6 0.8 1. ]


In [33]:
#머신러닝 모델은 학습 데이터를 기반으로 학습되기 때문에 반드시 테스트 데이터는 학습 데이터의 스케일링 기준에 따라야하며,
#테스트 데이터의 1값은 학습 데이터와 도일하게 0.1값으로 변환돼야한다.
#따라서 테스트 데이터에 다시 fit()을 적용해서는 안되며, 학습 데이터로 이미 fit()이 적용된 Scaler객체를 이용해 transform()으로 변환해야함.

scaler = MinMaxScaler()
scaler.fit(train_array)
train_scaled = scaler.transform(train_array)
print('원본 train_array 데이터:', np.round(train_array.reshape(-1),2))
print('Scale 된 train_array 데이터:', np.round(train_scaled.reshape(-1),2))

#test_array에 Scale 변환을 할 때는 반드시 fit()을 호출하지 않고 transform()만으로 변환해야함.
test_scaled = scaler.transform(test_array)
print('원본 test_array 데이터:', np.round(test_array.reshape(-1),2))
print('Scale 된 test_array 데이터:', np.round(test_scaled.reshape(-1),2))

원본 train_array 데이터: [ 0  1  2  3  4  5  6  7  8  9 10]
Scale 된 train_array 데이터: [0.  0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1. ]
원본 test_array 데이터: [0 1 2 3 4 5]
Scale 된 test_array 데이터: [0.  0.1 0.2 0.3 0.4 0.5]


In [None]:
#가능하다면 전체 데이터의 스케일링 변환을 적용한 뒤 학습과 테스트 데이터로 분리
#1이 여의치 않다면 테스트 데이터 변환시에는 fit()이나 fit_transform()을 적용하지 않고 학습 데이터로 이미fit()된 Scaler객체를 이용해 transform()으로 변환
