# 데이터 인코딩

- 머신러닝 알고리즘은 문자열 데이터 속성 입력X
- 모든 데이터는 숫자형으로 표현
- 문자/카테고리형 속성은 모두 숫자형으로 인코딩 되어야 함

## 레이블 인코딩

- ex. TV:0, 냉장고:1, 전자렌지:4 등등
- 이렇게 숫자 값으로 변환할때 어떤 알고리즘은 숫자에 영향받을 수 있음(해결:원핫인코딩)

In [4]:
from sklearn.preprocessing import LabelEncoder

items=['TV','냉장고','전자렌지','컴퓨터','선풍기','선풍기','믹서','믹서']

#LabelEncoder를 객체로 생성한 후, fit()과 transform()으로 label인코딩 수행
encoder=LabelEncoder() #LabelEncoder는 1차원 학습해도 상관X
encoder.fit(items)#fit하는 이유: 변환할때도 fit함(학습도 하지만)/데이터전처리 모듈들도 fit가짐
labels=encoder.transform(items)

print('인코딩 변환값:',labels)

인코딩 변환값: [0 1 4 5 3 3 2 2]


In [5]:
#fit과 transform 한번에 하기
labels=encoder.fit_transform(items)
labels

array([0, 1, 4, 5, 3, 3, 2, 2], dtype=int64)

In [6]:
#원본에 어떤게 있는지 알 수 있음
print('인코딩 클래스:',encoder.classes_)

인코딩 클래스: ['TV' '냉장고' '믹서' '선풍기' '전자렌지' '컴퓨터']


In [7]:
#디코딩 원본값(원래 값으로 바꿔보기)
print('디코딩 원본값:',encoder.inverse_transform([4, 5, 2, 0, 1, 1, 3, 3]))

디코딩 원본값: ['전자렌지' '컴퓨터' '믹서' 'TV' '냉장고' '냉장고' '선풍기' '선풍기']


## 원-핫 인코딩

- 더미변수화 하는것

### array, fit, transform 사용

In [16]:
from sklearn.preprocessing import OneHotEncoder
import numpy as np

items=['TV','냉장고','전자렌지','컴퓨터','선풍기','선풍기','믹서','믹서']

# 1. 2차원 ndarray로 변환(필수)
items=np.array(items).reshape(-1,1)

# 2. 원-핫 인코딩 적용
oh_encoder=OneHotEncoder()
oh_encoder.fit(items)
oh_labels=oh_encoder.transform(items)

# 3. toarray() 이용하여 Dense Matrix로 변환
#OneHotEncoder로 변환한 결과는 희소행렬(<8x6 sparse matrix of type '<class 'numpy.float64'>'이렇게뜸)
   #이므로 toarray()이용하여 밀집행렬로 변환
print('원-핫 인코딩 데이터')
print(oh_labels.toarray())
print('원-핫 인코딩 데이터 차원')
print(oh_labels.shape)

원-핫 인코딩 데이터
[[1. 0. 0. 0. 0. 0.]
 [0. 1. 0. 0. 0. 0.]
 [0. 0. 0. 0. 1. 0.]
 [0. 0. 0. 0. 0. 1.]
 [0. 0. 0. 1. 0. 0.]
 [0. 0. 0. 1. 0. 0.]
 [0. 0. 1. 0. 0. 0.]
 [0. 0. 1. 0. 0. 0.]]
원-핫 인코딩 데이터 차원
(8, 6)


### get_dummies 사용

- 위 과정을 짧게 하는 방법

In [18]:
import pandas as pd

df=pd.DataFrame({'item':['TV','냉장고','전자렌지','컴퓨터','선풍기','선풍기','믹서','믹서']})
pd.get_dummies(df)

Unnamed: 0,item_TV,item_냉장고,item_믹서,item_선풍기,item_전자렌지,item_컴퓨터
0,1,0,0,0,0,0
1,0,1,0,0,0,0
2,0,0,0,0,1,0
3,0,0,0,0,0,1
4,0,0,0,1,0,0
5,0,0,0,1,0,0
6,0,0,1,0,0,0
7,0,0,1,0,0,0


# feature(독립변수) 스케일링과 정규화

- 서로 다른 척도를 공통된 척도로 통일시켜주는 것
- 표준화(Standardization):데이터의 독립변수 각각이 평균이 0이고, 분산이 1인 가우시안 정규분포를 가진 "값"으로 변환
- 정규화(Normalization):서로 다른 독립변수 크기를 통일하기 위해 "크기"변환(0~1사이값)

- 로지스틱 회귀, svm같은 선형계열은 스케일링 해주는게 좋음(안했을때 영향O)
- tree는 스케일링 안해줘도 됨

## StandardScaler

- 평균이 0이고 분산이 1인 정규분포 형태로 변환

In [21]:
from sklearn.datasets import load_iris
import pandas as pd
# 1. 붓꽃데이터 셋을 로딩하고 DataFrame으로 변환
iris=load_iris()
iris_data=iris.data
iris_df=pd.DataFrame(data=iris_data,columns=iris.feature_names)

print('feature 들의 평균 값')
print(iris_df.mean())
print('\nfeature 들의 분산 값')
print(iris_df.var())

feature 들의 평균 값
sepal length (cm)    5.843333
sepal width (cm)     3.057333
petal length (cm)    3.758000
petal width (cm)     1.199333
dtype: float64

feature 들의 분산 값
sepal length (cm)    0.685694
sepal width (cm)     0.189979
petal length (cm)    3.116278
petal width (cm)     0.581006
dtype: float64


In [24]:
# 2. 스케일링 하기
from sklearn.preprocessing import StandardScaler

#1) StandardScaler 객체 생성
scaler=StandardScaler()
#2) StandardScaler로 데이터 셋 변환, fit()과 transform() 호출
scaler.fit(iris_df)#fit에서 각 값들에 대한 평균, 표준편차 계산
iris_scaled=scaler.transform(iris_df) #앞서 계산된 값으로 전체 feature들에 대해서 다 변환

#3) DataFrame으로 변환
#transform()시, scale변환된 데이터 셋이 numpy ndarray로 반환되어 데이터프레임으로 바꿔줘야됨
iris_df_scaled=pd.DataFrame(data=iris_scaled,columns=iris.feature_names)
print('feature 들의 평균 값')
print(iris_df_scaled.mean())
print('\nfeature 들의 분산 값')
print(iris_df_scaled.var())

feature 들의 평균 값
sepal length (cm)   -1.690315e-15
sepal width (cm)    -1.842970e-15
petal length (cm)   -1.698641e-15
petal width (cm)    -1.409243e-15
dtype: float64

feature 들의 분산 값
sepal length (cm)    1.006711
sepal width (cm)     1.006711
petal length (cm)    1.006711
petal width (cm)     1.006711
dtype: float64


## MinMaxScaler

- 데이터 값을 0과 1 사이 범위값으로 변환(음수 값이 있으면 -1에서 1값으로 변환)

In [26]:
from sklearn.preprocessing import MinMaxScaler

# 2. 정규화 하기
#1) MinMaxScaler 객체 생성
scaler=MinMaxScaler() #최소 0, 최대 1

#2) MinMaxScaler로 데이터 셋 변환, fit()과 transform() 호출
scaler.fit(iris_df)
iris_scaled=scaler.transform(iris_df)

#3) DataFrame으로 변환
#transform()시, scale변환된 데이터 셋이 numpy ndarray로 반환되어 데이터프레임으로 바꿔줘야됨
iris_df_scaled=pd.DataFrame(data=iris_scaled,columns=iris.feature_names)
print('feature 들의 최소 값')
print(iris_df_scaled.min())
print('\nfeature 들의 최대 값')
print(iris_df_scaled.max())

feature 들의 최소 값
sepal length (cm)    0.0
sepal width (cm)     0.0
petal length (cm)    0.0
petal width (cm)     0.0
dtype: float64

feature 들의 최대 값
sepal length (cm)    1.0
sepal width (cm)     1.0
petal length (cm)    1.0
petal width (cm)     1.0
dtype: float64


## Scaler이용시 유의사항

- 학습, 테스트 데이터에 fit(), transform(), fit_transform() 적용시 유의사항

In [28]:
from sklearn.preprocessing import MinMaxScaler
import numpy as np

# <예시>
# 1. 학습 데이터는 0~10까지, 테스트는 0~5까지 값 가지는 데이터 세트로 생성
#Scaler클래스의 fit(), transform()은 2차원 이상 데이터만 가능-> reshape(-1,1)로 변환
train_array=np.arange(0,11).reshape(-1,1)
test_array=np.arange(0,6).reshape(-1,1)

In [29]:
#<train데이터 학습>
# 2. 최소값 0, 최대값 1로 변환하는 MinMaxScaler 객체생성
scaler=MinMaxScaler()
# 3. fit()하게 되면 train_array 데이터의 최소값이 0, 최대값이 10으로 설정
scaler.fit(train_array)
# 4. 1/10 scale로 train_array 데이터 변환. 원본 10->1로 변환
train_scaled=scaler.transform(train_array)

print('원본 train_array 데이터:', np.round(train_array.reshape(-1), 2))
print('Scale된 train_array 데이터:', np.round(train_scaled.reshape(-1), 2))

원본 train_array 데이터: [ 0  1  2  3  4  5  6  7  8  9 10]
Scale된 train_array 데이터: [0.  0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1. ]


In [30]:
#<test데이터 검증>
# 1. fit()하기
#앞서 생성한 MinMaxScaler에 test_array를 fit()하게 되면 원본 데이터의 최소값이 0, 최대값 5설정
scaler.fit(test_array)
# 2. transform 변환
# 1/5 scale로 test_array데이터 변환, 원본 5->1로 변환
test_scaled=scaler.transform(test_array)

# test_array 변환 출력
print('원본 test_array 데이터:', np.round(test_array.reshape(-1), 2))
print('Scale된 test_array 데이터:', np.round(test_scaled.reshape(-1), 2))

#**문제점**
# : 학습할때의 척도와 예측할 때의 척도가 다름
# (위에서 학습할때는 9면 0.9, 5면 0.5 였는데, 예측할때 5가 1.0 이됨

원본 test_array 데이터: [0 1 2 3 4 5]
Scale된 test_array 데이터: [0.  0.2 0.4 0.6 0.8 1. ]


In [31]:
scaler = MinMaxScaler()
scaler.fit(train_array)
train_scaled = scaler.transform(train_array)
print('원본 train_array 데이터:', np.round(train_array.reshape(-1), 2))
print('Scale된 train_array 데이터:', np.round(train_scaled.reshape(-1), 2))

#**해결책**
# : test_array에 scale변환할때 반드시 "fit()호출하지 않고, transform()만"으로 변환
test_scaled=scaler.transform(test_array)
print('\n원본 test_array 데이터:', np.round(test_array.reshape(-1), 2))
print('Scale된 test_array 데이터:', np.round(test_scaled.reshape(-1), 2))

#해결법 정리
# : fit을 2번하면 안됨, 맨 처음에 fit한 걸 가지고 다시 transform한 것
# (fit을 다시 하면, test_array가지고 다시 최대 최소 구하겠단 의미)
# 결론: 학습데이터의 척도를 따라가야 됨

원본 train_array 데이터: [ 0  1  2  3  4  5  6  7  8  9 10]
Scale된 train_array 데이터: [0.  0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1. ]

원본 test_array 데이터: [0 1 2 3 4 5]
Scale된 test_array 데이터: [0.  0.1 0.2 0.3 0.4 0.5]
