# 05 데이터 전처리
ML 알고리즘은 데이터에 기반하고 있기 때문에 어떤 데이터를 입력으로 가지느냐에 따라 결과도 크게 달라질 수 있다. 사이킷런의 ML 알고리즘을 적용하기 전에 데이터에 대해 미리 처리해야 할 기본 사항이 있다.  
**결손값, 즉 NaN, Null 값은 허용되지 않는다.** 고정된 다른 값으로 변환해야 한다. 처리방법은 경우에 따라 다르다. 
피처값 중 Null 값이 얼마 되지 않는다면 피처의 평균값 등으로 대체.
Null 값이 대부분이라면 해당 피처를 드롭하는 것이 더 좋다.
Null 값이 일정 수준 이상 되는 경우는 결정하기 힘들다. 중요도가 높은 피처이고 Null을 단순히 피처의 평균값으로 대체할 경우 예측 왜곡이 심할 수 있다면 업무 로직 등을 상세히 검토해 더 정밀한 대체 값을 선정해야 한다.  
사이킷런의 머신러닝 알고리즘은 **문자열 값을 입력 값으로 허용하지 않는다.** 모든 문자열 값은 인코딩해서 숫자형으로 변환해야 한다. 문자열 피처는 일반적으로 카테고리형 피처와 텍스트형 피처를 의미한다. 카테고리형 피처는 코드값으로 표현. 텍스트형 피처는 피처 벡터화 등으로 벡터화하거나 불필요하다고 판단되면 삭제. 식별자 피처(주민번호, 단순 문자열 아이디)는 단순히 데이터 로우를 식별하는 용도로 사용되기 때문에 예측에 중요한 요소가 될 수 없으며 알고리즘을 오히려 복잡하게 만들고, 예측 성능을 떨어트린다.

## 데이터 인코딩
머신러닝을 위한 대표적인 인코딩 방식 - 레이블 인코딩(Lable encoding), 원-핫 인코딩(One Hot encoding)  
### 레이블 인코딩
카테고리 피처를 코드형 숫자 값으로 변환하는 것. '01', '02'와 같은 코드 값 역시 문자열이므로 1, 2와 같은 숫자형 값으로 변환해야 한다.  
사이킷런의 레이블 인코딩(Lable encoding)은 LabelEncoder 클래스로 구현한다.

In [2]:
from sklearn.preprocessing import LabelEncoder

items = ['TV', '냉장고', '전자레인지', '컴퓨터', 
         '선풍기', '선풍기', '믹서', '믹서']

# LabelEncoder를 객체로 생성한 후, fit()과 transform()으로 레이블 인코딩

encoder = LabelEncoder()
encoder.fit(items)
labels = encoder.transform(items)

print('인코딩 변환 값: ', labels)

인코딩 변환 값:  [0 1 4 5 3 3 2 2]


In [3]:
print('인코딩 클래스: ', encoder.classes_)

인코딩 클래스:  ['TV' '냉장고' '믹서' '선풍기' '전자레인지' '컴퓨터']


classes_ 속성은 0번부터 순서대로 변환된 인코딩 값에 대한 원본 값을 가지고 있다.  
`inverse_transform()`을 통해 인코딩된 값을 다시 디코딩할 수 있다.

In [4]:
print('디코딩 원본값: ', encoder.inverse_transform([0, 1, 4, 5, 3, 3, 2, 2]))

디코딩 원본값:  ['TV' '냉장고' '전자레인지' '컴퓨터' '선풍기' '선풍기' '믹서' '믹서']


레이블 인코딩은 간단하게 문자열 값을 숫자형 카테고리 값으로 변환. 하지만 레이블 인코딩이 일괄적인 숫자 값으로 변환이 되면서 몇몇 ML 알고리즘에는 이를 적용할 경우 예측성능이 떨어진다. 숫자 값의 경우 크고 작음에 대한 특성이 작용하기 때문. (큰 숫자에 가중치가 더 부여되거나 더 중요하다고 인식하는 가능성이 발생) 이러한 특성 때문에 레이블 인코딩은 선형회귀와 같은 ML 알고리즘에는 적용하지 않아야 한다. 트리계열의 ML 알고리즘은 이러한 특성을 반영하지 않으므로 레이블 인코딩도 별 문제 없다.

### 원-핫 인코딩(One-Hot Encoding)
피처 값의 유형에 따라 새로운 피처를 추가해 고유 값에 해당하는 컬럼에만 1을 표시하고 나머지 컬럼에는 0을 표시하는 방식. 즉, 행 형태로 되어있는 피처의 고유 값을 열 형태로 차원을 변환한 뒤, 고유 값에 해당하는 컬럼에만 1을 표시하고 나머지 컬럼에는 0을 표시한다.  
원-핫 인코딩은 사이킷런에서 OneHotEncoder 클래스로 쉽게 변환 가능하다. 단, LabelEncoder와 다르게 주의할 점이 있다.
1. OneHotEncoder로 변환하기 전에 모든 문자열 값이 숫자형 값으로 변환돼야 한다.
2. 입력값으로 2차원 데이터가 필요하다.

In [10]:
from sklearn.preprocessing import OneHotEncoder
import numpy as np

items = ['TV', '냉장고', '전자레인지', '컴퓨터', 
         '선풍기', '선풍기', '믹서', '믹서']

# 숫자 값으로 변환하기 위해 LabelEncoder로 변환

encoder = LabelEncoder()
encoder.fit(items)
labels = encoder.transform(items)

# 2차원 데이터로 변환
labels = labels.reshape(-1, 1)

# 원-핫 인코딩 적용
oh_encoder = OneHotEncoder()
oh_encoder.fit(labels)
oh_labels = oh_encoder.transform(labels)

print('원-핫 인코딩 데이터')
print(oh_labels.toarray())

print('원-핫 인코딩 데이터차원')
print(oh_labels.shape)

원-핫 인코딩 데이터
[[1. 0. 0. 0. 0. 0.]
 [0. 1. 0. 0. 0. 0.]
 [0. 0. 0. 0. 1. 0.]
 [0. 0. 0. 0. 0. 1.]
 [0. 0. 0. 1. 0. 0.]
 [0. 0. 0. 1. 0. 0.]
 [0. 0. 1. 0. 0. 0.]
 [0. 0. 1. 0. 0. 0.]]
원-핫 인코딩 데이터차원
(8, 6)


원-핫 인코딩을 더 쉽게 지원하는 판다스 API - `get_dummies()`

In [11]:
import pandas as pd

df = pd.DataFrame({
    'item': ['TV', '냉장고', '전자레인지', '컴퓨터', 
         '선풍기', '선풍기', '믹서', '믹서']
})
pd.get_dummies(df)

Unnamed: 0,item_TV,item_냉장고,item_믹서,item_선풍기,item_전자레인지,item_컴퓨터
0,1,0,0,0,0,0
1,0,1,0,0,0,0
2,0,0,0,0,1,0
3,0,0,0,0,0,1
4,0,0,0,1,0,0
5,0,0,0,1,0,0
6,0,0,1,0,0,0
7,0,0,1,0,0,0


숫자형 값으로 변환 없이도 바로 변환이 가능

## 피처 스케일링과 정규화
피처 스케일링(feature scaling) - 서로 다른 변수의 값 범위를 일정한 수준으로 맞추는 작업. 대표적인 방법으로 표준화(Standardization)와 정규화(Normalization)가 있다.

**표준화 (Standardization)**  
- 데이터의 피처 각각이 평균이 0이고 분산이 1인 가우시안 정규 분포를 가진 값으로 변환하는 것
- (x - x의 평균) / 표준편차

**정규화 (Noramalization)**
- 서로 다른 피처의 크기를 통일하기 위해 크기를 변환해주는 개념
- 변수를 모두 동일한 크기 단위로 비교하기 위해 값을 모두 0 ~ 1의 값으로 변환하는 것 -> 개별 데이터의 크기를 모두 똑같은 단위로 변경
- (x - x의 최소값) / (x의 최대값 - x의 최소값)

**사이킷런의 전처리에서 제공하는 Normalizaer**
- 선형대수에서의 정규화 개념이 적용. 개별 벡터의 크기를 맞추기 위해 변환하는 것.
- 개별 벡터를 모든 피처 벡터의 크기로 나눈다.

## StandardScaler
표준화를 쉽게 지원하기 위한 클래스. 즉 개별 피처를 평균이 0이고 분산이 1인 값으로 변환.
가우시안 정규 분포를 가질 수 있도록 데이터를 변환.

In [16]:
from sklearn.datasets import load_iris
import pandas as pd

# 붓꽃 데이터 세트를 로딩하고 DataFrame으로 변환
iris = load_iris()
iris_data = iris.data
iris_df = pd.DataFrame(iris.data, columns =  iris.feature_names)

print('feature들의 평균값')
print(iris_df.mean())

print('\nfeature들의 분산 값')
print(iris_df.var())

feature들의 평균값
sepal length (cm)    5.843333
sepal width (cm)     3.057333
petal length (cm)    3.758000
petal width (cm)     1.199333
dtype: float64

feature들의 분산 값
sepal length (cm)    0.685694
sepal width (cm)     0.189979
petal length (cm)    3.116278
petal width (cm)     0.581006
dtype: float64


In [15]:
from sklearn.preprocessing import StandardScaler

# StandardScaler 객체 생성
scaler = StandardScaler()

# StandardScaler로 데이터 세트 변환. fit()과 transform() 호출
scaler.fit(iris_df)
iris_scaled = scaler.transform(iris_df)

# transform() 시 스케일 변환된 데이터가 Numpy ndarray로 반환돼 이를 DataFrame으로 변환
iris_df_scaled = pd.DataFrame(data = iris_scaled, columns = iris.feature_names)
print('feature들의 평균 값')
print(iris_df_scaled.mean())

print('\nfeature들의 분산 값')
print(iris_df_scaled.var())

feature들의 평균 값
sepal length (cm)   -1.690315e-15
sepal width (cm)    -1.842970e-15
petal length (cm)   -1.698641e-15
petal width (cm)    -1.409243e-15
dtype: float64

feature들의 분산 값
sepal length (cm)    1.006711
sepal width (cm)     1.006711
petal length (cm)    1.006711
petal width (cm)     1.006711
dtype: float64


## MinMaxScaler
데이터를 0과 1사이의 범위 값으로 변환. (음수 값이 있으면 -1~1 값으로 변환)  
데이터의 분포가 가우시안 분포가 아닐 경우에 Min, Max Scale을 적용

In [21]:
from sklearn.preprocessing import MinMaxScaler

# MinMaxScaler 객체 생성
scaler = MinMaxScaler()

# MinMaxScaler로 데이터 세트 변환. fit()과 transform() 호출
scaler.fit(iris_df)
iris_scaled = scaler.transform(iris_df)

# transform() 시 스케일 변환된 데이터 세트가 Numpy ndarray로 반환돼 이를 DataFrame으로 변환
iris_df_scaled = pd.DataFrame(data = iris_scaled, columns = iris.feature_names)

print('피처들의 최솟값')
print(iris_df_scaled.min())
print('\nfeature들의 최댓값')
print(iris_df_scaled.max())

피처들의 최솟값
sepal length (cm)    0.0
sepal width (cm)     0.0
petal length (cm)    0.0
petal width (cm)     0.0
dtype: float64

feature들의 최댓값
sepal length (cm)    1.0
sepal width (cm)     1.0
petal length (cm)    1.0
petal width (cm)     1.0
dtype: float64


## 학습 데이터와 테스트 데이터의 스케일링 변환 시 유의점
StandardScaler나 MinMaxScaler와 같은 Scaler 객체를 이용해 데이터의 스케일링 변환 시 fit(), transform(), fit_transform() 메소드를 이용한다.  
- fit(): 데이터 변환을 위한 기준 정보 설정 적용
- transform(): 설정된 정보를 이용해 데이터를 변환
- fit_transform(): fit(), transform()을 한번에 적용

학습 데이터 세트와 테스트 데이터 세트에 fit(), transform()을 적용할 때 유의점
Scaler 객체를 이용해 학습 데이터 세트로 fit()과 transform()을 적용하면 **테스트 데이터 세트로는 다시 fit()을 수행하지 않고 학습 데이터 세트로 fit()을 수행한 결과를 이용해 transform()변환을 적용해야 한다.** 즉, 학습 데이터로 fit()이 적용된 스케일링 기준 정보를 그대로 테스트 데이터에 적용해야 하며, 그렇지 않고 테스트 데이터로 다시 새로운 스케일링 기준을 만들게 되면 학습 데이터와 테스트 데이터의 스케일링 기준 정보가 서로 달라지기 때문에 올바른 예측 결과를 도출하지 못한다.

In [23]:
from sklearn.preprocessing import MinMaxScaler
import numpy as np

# 학습 데이터는 0부터 10까지, 테스트 데이터는 0부터 5까지 값을 가지는 데이터 세트 생성
# Scaler 클래스의 fit(), transform()은 2차원 이상 데이터만 가능하므로 reshape(-1, 1)로 차원 변경

train_array = np.arange(0, 11).reshape(-1,1)
test_array = np.arange(0, 6).reshape(-1, 1)

In [27]:
# MinMaxScaler 객체에 별도의 feature_range 파라미터 값을 지정하지 않으면 0~1 값으로 변환
scaler = MinMaxScaler()

# fit() 하게 되면 train_array 데이터의 최솟값이 0, 최댓값이 10으로 설정
scaler.fit(train_array)

# 1/10 scale로 train_array 데이터 변환함. 원본 10 -> 1 로 변환됨
train_scaled = scaler.transform(train_array)

print('원본 train_array 데이터: ', np.round(train_array.reshape(-1), 2))
print('scale된 train_array 데이터: ', np.round(train_scaled.reshape(-1), 2))

원본 train_array 데이터:  [ 0  1  2  3  4  5  6  7  8  9 10]
scale된 train_array 데이터:  [0.  0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1. ]


In [28]:
# MinMaxScaler에 test_array를 fit()하게 되면 원본 데이터의 최솟값이 0, 최댓값이 5로 설정됨
scaler.fit(test_array)

# 1/5 scale로 test_array 데이터 변환함. 원본 5 -> 1로 변환.
test_scaled = scaler.transform(test_array)

# test_array의 scale 변환 출력
print('원본 test_array 데이터: ', np.round(test_array.reshape(-1), 2))
print('scale된 test_array 데이터: ', np.round(test_scaled.reshape(-1), 2))

원본 test_array 데이터:  [0 1 2 3 4 5]
scale된 test_array 데이터:  [0.  0.2 0.4 0.6 0.8 1. ]


학습 데이터와 테스트 데이터의 스케일링이 맞지 않다. 학습 데이터와 테스트 데이터의 서로 다른 원본값이 동일한 값으로 반환되는 결과를 초래한다. 머신러닝 모델은 학습 데이터를 기반으로 학습되기 때문에 반드시 테스트 데이터는 학습 데이터의 스케일링 기준에 따라야 하며, 테스트 데이터의 1 값은 학습 데이터와 동일하게 0.1 값으로 변환돼야 한다.

In [29]:
scaler = MinMaxScaler()
scaler.fit(train_array)
train_scaled = scaler.transform(train_array)

print('원본 train_array 데이터: ', np.round(train_array.reshape(-1), 2))
print('scale된 train_array 데이터: ', np.round(train_scaled.reshape(-1), 2))

# test_array에 Scale 변환을 할 때는 반드시 fit()을 호출하지 않고 transform()만으로 변환해야 함
test_scaled = scaler.transform(test_array)
print('원본 test_array 데이터: ', np.round(test_array.reshape(-1), 2))
print('scale된 test_array 데이터: ', np.round(test_scaled.reshape(-1), 2))

원본 train_array 데이터:  [ 0  1  2  3  4  5  6  7  8  9 10]
scale된 train_array 데이터:  [0.  0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1. ]
원본 test_array 데이터:  [0 1 2 3 4 5]
scale된 test_array 데이터:  [0.  0.1 0.2 0.3 0.4 0.5]


fit_transform()을 적용할 때도 마찬가지. fit_transform()은 fit()과 transform()을 순차적으로 수행하는 메소드이므로 학습 데이터에서는 상관없지만 테스트 데이터에서는 절대 사용해서는 안된다.  
이렇게 학습과 테스트 데이터에 fit()과 transform()을 적용할 때 주의사항이 발생하므로 학습과 테스트 데이터 세트로 분리하기 전에 먼저 전체 데이터 세트에 스케일링을 적용한 뒤 학습과 테스트 데이터 세트로 분리하는 것이 더 바람직하다.  
유의할 점 요약  
1. 가능하다면 전체 데이터의 스케일링 변환을 적용한 뒤 학습과 테스트 데이터로 분리
2. 1이 여의치 않다면 테스트 데이터 변환 시에는 fit()이나 fit_transform()을 적용하지 않고 학습 데이터로 이미 fit()된 Scaler 객체를 이용해 transform()으로 변환