# 데이터 전처리

## 데이터 인코딩

### 레이블 인코딩

In [2]:
from sklearn.preprocessing import LabelEncoder # sklearn의 preprocessing 모듈에서 LabelEncoder 클래스를 가져옴

In [3]:
items = ['TV', '냉장고', '전자레인지', '컴퓨터', '선풍기', '믹서', '믹서'] # 데이터 lable 예시

# LabelEncoder를 객체로 생성한 후, fit()과 transform()으로 레이블 인코딩 수행
encoder = LabelEncoder() # LabelEncoder를 객체로 만듬
encoder.fit(items) # label을 encoding 함
labels = encoder.transform(items) # 레이블을 encoding한 결과를 저장
print('인코딩 변환값:' , labels)

인코딩 변환값: [0 1 4 5 3 2 2]


In [4]:
encoder.classes_ # encoding 변환된 index가 어떤 클래스인지 보여줌 

array(['TV', '냉장고', '믹서', '선풍기', '전자레인지', '컴퓨터'], dtype='<U5')

In [5]:
# inverse_transform을 통해 encoding된 값을 다시 decoding 할 수 있음
print('디코딩 원본 값:', encoder.inverse_transform([4, 5, 2, 0, 1, 1, 3, 3]))

디코딩 원본 값: ['전자레인지' '컴퓨터' '믹서' 'TV' '냉장고' '냉장고' '선풍기' '선풍기']


### 원-핫 인코딩(One-Hot Encoding)

Label Encoding은 텍스트 데이터를 수치로 변환한다. 이때 주의 해야 할 점은 클래스를 구별하는 이 숫자가 학습에 영향을 받아선 안된다는 점이다.  
숫자의 크기가 계산에 적용되면 값으 차이로 인한 성능에 영향을 줄 수 있다. 따라서 회귀 분석에는 이러한 Label Encoding을 사용하지 않는다. 

이런 문제를 보완한 Encoding 방법이 바로 One-Hot Encoding이다.

In [6]:
# 원-핫 엔코딩을 하기 전에 주의해야 할 것
# 1. 모든 값이 숫자형으로 변환돼 있어야 함.
# 2. 입력값은 2차원 데이터여야 함.

from sklearn.preprocessing import OneHotEncoder # preprosessing 모듈에서 OneHotEncoder 클래스를 가져옴
import numpy as np

In [7]:
items = ['TV', '냉장고', '전자레인지', '컴퓨터', '선풍기', '선풍기', '믹서', '믹서'] # 데이터 셈플

In [13]:
# 먼저 숫자 값으로 변환을 위해 LabelEncoder로 변환함
encoder = LabelEncoder() # LabelEncoder 객체를 선언
encoder.fit(items) # items에 LabelEncoder를 적용함
labels = encoder.transform(items) # items를 LabelEncoder 결과로 변환함

In [14]:
labels, labels.shape

(array([0, 1, 4, 5, 3, 3, 2, 2]), (8,))

In [15]:
# 2차원 데이터로 만듬
labels = labels.reshape(-1, 1)
labels, labels.shape

(array([[0],
        [1],
        [4],
        [5],
        [3],
        [3],
        [2],
        [2]]),
 (8, 1))

In [16]:
# 원-핫 인코딩을 적용
oh_encoder = OneHotEncoder() # OneHotEncoder 객체를 선언
oh_encoder.fit(labels) # labels를 OneHotEncoder로 encoding함

oh_labels = oh_encoder.transform(labels) # labels를 oh_encoder로 변환함


In [17]:
print('원핫 인코딩 데이터')
print(oh_labels.toarray())
print('원핫 인코딩 데이터 차원')
print(oh_labels.shape)

원핫 인코딩 데이터
[[1. 0. 0. 0. 0. 0.]
 [0. 1. 0. 0. 0. 0.]
 [0. 0. 0. 0. 1. 0.]
 [0. 0. 0. 0. 0. 1.]
 [0. 0. 0. 1. 0. 0.]
 [0. 0. 0. 1. 0. 0.]
 [0. 0. 1. 0. 0. 0.]
 [0. 0. 1. 0. 0. 0.]]
원핫 인코딩 데이터 차원
(8, 6)


In [18]:
# 그런데 위의 번거로운 작업을 할 필요가 없음. pandas에 매우 편한 get_dummies()가 있기 때문
import pandas as pd

df = pd.DataFrame({'item' : ['TV', '냉장고', '전자레인지', '컴퓨터', '선풍기', '선풍기', '믹서', '믹서']}) # 1차원 데이터 생성
pd.get_dummies(df) # df에 One-Hot Encoding을 수행

Unnamed: 0,item_TV,item_냉장고,item_믹서,item_선풍기,item_전자레인지,item_컴퓨터
0,1,0,0,0,0,0
1,0,1,0,0,0,0
2,0,0,0,0,1,0
3,0,0,0,0,0,1
4,0,0,0,1,0,0
5,0,0,0,1,0,0
6,0,0,1,0,0,0
7,0,0,1,0,0,0


In [19]:
df

Unnamed: 0,item
0,TV
1,냉장고
2,전자레인지
3,컴퓨터
4,선풍기
5,선풍기
6,믹서
7,믹서


## 피처 스케일링과 정규화

사이킷런의 정규화는 모든 피처벡터를 고려한 정규화다.

### StandardScaler

In [1]:
from sklearn.datasets import load_iris # sklearn에 있는 datasets 모듈에서 load_iris 클래스를 가져옴
import pandas as pd



In [2]:
# 붓꽃 데이터 세트를 로딩하고 DataFrame으로 변환함
iris = load_iris() # iris_data 로딩함
iris_data = iris.data # iris 데이터에서 data 값만 가져옴
iris_df = pd.DataFrame(data=iris_data, columns=iris.feature_names) # iris_data를 df로 변환하고 columns명은 iris.feature_names로 한다

In [3]:
print('feature들의 평균 값')
print(iris_df.mean())
print('\nfeature들의 분산 값')
print(iris_df.var())

feature들의 평균 값
sepal length (cm)    5.843333
sepal width (cm)     3.057333
petal length (cm)    3.758000
petal width (cm)     1.199333
dtype: float64

feature들의 분산 값
sepal length (cm)    0.685694
sepal width (cm)     0.189979
petal length (cm)    3.116278
petal width (cm)     0.581006
dtype: float64


In [4]:
from sklearn.preprocessing import StandardScaler # preprocessing 모듈에서 StandardScaler 클래스 가져옴

# StandardScaler 객체 생성
scaler = StandardScaler() 
# StandardScaler로 데이터 세트 변환. fit()과 transform() 호출.
scaler.fit(iris_df) # iris_df에 대해 scaler 학습
iris_scaled = scaler.transform(iris_df) # iris_df를 학습한 scaler로 변환

# transform() 시 스케일 변환된 데이터 세트가 Numpy ndarray로 반환돼 이를 DataFrame으로 변환
iris_df_scaled = pd.DataFrame(data=iris_scaled, columns=iris.feature_names) # iris_scaled는 numpy 타입이므로 df로 바꿔주고 columns명은 iris의 features_names 사용

                              

In [5]:
print('feature들의 평균 값')
print(iris_df_scaled.mean())
print('\nfeature들의 분산 값')
print(iris_df_scaled.var())

feature들의 평균 값
sepal length (cm)   -1.690315e-15
sepal width (cm)    -1.842970e-15
petal length (cm)   -1.698641e-15
petal width (cm)    -1.409243e-15
dtype: float64

feature들의 분산 값
sepal length (cm)    1.006711
sepal width (cm)     1.006711
petal length (cm)    1.006711
petal width (cm)     1.006711
dtype: float64


### MinMaxScaler

데이터 분포가 가우시안 분포(정규분포)를 따르지 않을 경우 사용해 볼 수 있다.  
보통 0\~1 범위로 하지만 음수가 있으면 -1\~1 사이로 변환한다.

In [6]:
from  sklearn.preprocessing import MinMaxScaler # preprocessing 모듈에서 MinMaxScaler 클래스 가져옴

In [7]:
# MinMaxScaler 객체 생성
scaler = MinMaxScaler()

# MinMaxScaler로 데이터 세트 변환. fit()과 transform() 호출
scaler.fit(iris_df)
iris_scaled = scaler.transform(iris_df)



In [8]:
# transform() 시 스캐일 변환된 데이터 세트가 Numpy 타입으로 반환되므로 이를 DataFrame으로 변환함
iris_df_scaled = pd.DataFrame(data=iris_scaled, columns=iris.feature_names) 

In [10]:
print('feature들의 평균 값')
print(iris_df_scaled.min())
print('\nfeature들의 분산 값')
print(iris_df_scaled.max())

feature들의 평균 값
sepal length (cm)    0.0
sepal width (cm)     0.0
petal length (cm)    0.0
petal width (cm)     0.0
dtype: float64

feature들의 분산 값
sepal length (cm)    1.0
sepal width (cm)     1.0
petal length (cm)    1.0
petal width (cm)     1.0
dtype: float64
