<a href="https://colab.research.google.com/github/ouguro3/Study/blob/main/ML_Guide/chapter_2/02_Data_preprocessing.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 데이터 전처리

데이터 전처리는 ML 알고리즘만큼 중요하다  

ML 알고리즘은 데이터에 기반하고 있기 때문에 어떤 데이터를 입력으로 가지느냐에 따라 결과도 달라질 수 있다  

사이킷런의 ML 알고리즘을 적용하기 전에 데이터에 미리 처리해야 할 기본사항이 있다

결손값, 즉 NaN, Null 값은 허용되지 않고, 이러한 Null 값은 고정된 다른 값으로 변환해야 한다  

Null 값을 어떻게 처리해야 할지는 경우에 따라 다르다  

Null 값이 얼마 되지 않는 경우,  피처의 평균값 등으로 간단하게 대체할 수 있고  
대부분이 Null 값이라면 해당 피처는 drop 하는게 더 좋다  

가장 힘든경우가 Null 값이 일정 수준 이상 되는 경우인데  
해당 피처가 중요도가 높은 피처이고 Null을 단순히 피처의 평균값으로 대체할 경우  
예측 왜곡이 심할 수 있다면 업무 로직 등을 상세하게 검토해 더 정밀한 대체 값을 선정해야 한다  

사이킷런의 ML 알고리즘은 문자열 값을 입력 값으로 허용하지 않고, 그래서 모든 문자열 값은  
인코딩돼서 숫자 형으로 변환해야 한다

### 데이터 인코딩

ML을 위한 데이터 인코딩 방식은 두가지가 있다  
- 레이블 인코딩 (Label encoding)
- 원-핫 인코딩 (One Hot encoding)



#### 레이블 인코딩
카테고리 피처를 코드형 숫자 값으로 변환하는 것

주의점 : '01', '02' 와 같은 코드 값 역시 문자열이므로 1, 2 와 같은 숫자형 값으로 변환돼야 한다



In [1]:
# 레이블 인코딩의 예

from sklearn.preprocessing import LabelEncoder

items = ['TV','냉장고','전자레인지','컴퓨터','선풍기','선풍기','믹서','믹서']

# LabelEncoder를 객체로 생성한 후, fit()과 transform()으로 레이블 인코딩 수행
encoder = LabelEncoder()
encoder.fit(items)
labels = encoder.transform(items)
print('인코딩 변환값 :', labels)

인코딩 변환값 : [0 1 4 5 3 3 2 2]


데이터가 너무 많아 문자열 값이 어떤 숫자 값으로 인코딩됐는지 모를 때,  
확인하는 방법
LabelEncoder 객체의 `classes_` 속성 값으로 확인

In [2]:
print('인코딩 클래스 :', encoder.classes_)

인코딩 클래스 : ['TV' '냉장고' '믹서' '선풍기' '전자레인지' '컴퓨터']


0부터 순서대로 변환된 인코딩 값에 대한 원본값이 출력된다

또한 `inverse_transform()` 을 통해 인코딩된 값을 다시 디코딩할 수 있다

In [3]:
print('디코딩 원본값 :',encoder.inverse_transform([4,5,2,0,1,1,3,3]))

디코딩 원본값 : ['전자레인지' '컴퓨터' '믹서' 'TV' '냉장고' '냉장고' '선풍기' '선풍기']


문제점은 몇몇 ML 알고리즘에서는 예측 성능이 떨어지는 경우가 발생할 수 있다  

왜냐하면 숫자 값의 경우 크고 작음에 대한 특성이 작용하기 때문이다  

즉, 냉장고가 1, 믹서가 2로 변환되면 1보다 2가 큰 값이므로  
가중치가 더 부여되거나 더 중요하게 인식할 가능성이 생긴다  

이런 가능성 때문에 선형회귀와 같은 ML 알고리즘에는 적용하지 말아야 한다  

트리계열은 숫자의 이런 특성을 반영하지 않기 때문에 문제없이 사용가능하다

#### 원-핫 인코딩

원-핫 인코딩은 피처 값의 유형에 따라 새로운 피처를 추가해 고유 값에 해당하는 칼럼에만  
1을 표시하고 나머지 칼럼에는 0을 표시하는 방식이다  

즉, 행 형태로 돼 있는 피처의 고유 값을 열 형태로 차원을 변환한 뒤,  
고유 값에 해당하는 칼럼에만 1을 표시하고 나머지 칼럼에는 0을 표시한다

In [5]:
# 원핫 인코딩의 예
from sklearn.preprocessing import OneHotEncoder
import numpy as np

items = ['TV','냉장고','전자레인지','컴퓨터','선풍기','선풍기','믹서','믹서']

# 먼저 숫자 값으로 변환을 위해 LabelEncoder로 변환
encoder = LabelEncoder()
encoder.fit(items)
labels = encoder.transform(items)

# 2차원 데이터로 변환
labels = labels.reshape(-1,1)

# 원-핫 인코딩 적용
oh_encoder = OneHotEncoder()
oh_encoder.fit(labels)
oh_labels = oh_encoder.transform(labels)
print('원-핫 인코딩 데이터')
print(oh_labels.toarray())
print('원-핫 인코딩 데이터 차원')
print(oh_labels.shape)

원-핫 인코딩 데이터
[[1. 0. 0. 0. 0. 0.]
 [0. 1. 0. 0. 0. 0.]
 [0. 0. 0. 0. 1. 0.]
 [0. 0. 0. 0. 0. 1.]
 [0. 0. 0. 1. 0. 0.]
 [0. 0. 0. 1. 0. 0.]
 [0. 0. 1. 0. 0. 0.]
 [0. 0. 1. 0. 0. 0.]]
원-핫 인코딩 데이터 차원
(8, 6)


판다스에 원-핫 인코딩을 더 쉽게 지원하는 API가 있다  
`get_dummies()`를 이용하면 된다  

사이킷런의 OneHotEncoder과 다르게 문자열 카테고리 값을 숫자 형으로 변환할 필요 없이  
바로 변환할 수 있다  

In [6]:
import pandas as pd

df = pd.DataFrame({'item':['TV','냉장고','전자레인지','컴퓨터','선풍기','선풍기','믹서','믹서']})
pd.get_dummies(df)

Unnamed: 0,item_TV,item_냉장고,item_믹서,item_선풍기,item_전자레인지,item_컴퓨터
0,1,0,0,0,0,0
1,0,1,0,0,0,0
2,0,0,0,0,1,0
3,0,0,0,0,0,1
4,0,0,0,1,0,0
5,0,0,0,1,0,0
6,0,0,1,0,0,0
7,0,0,1,0,0,0


### 피처 스케일링과 정규화

서로 다른 변수의 값 범위를 일정한 수준으로 맞추는 작업을 피처 스케일링 이라고 한다  

대표적으로 **표준화(Standardization)**와 **정규화(Normalization)**가 있다

**표준화**는 데이터의 피처 각각이 평균이 0이고 분산이 1인 가우시안 정규 분포를 가진 값으로  
변환하는것을 의미한다  

일반적으로 **정규화**는  서로 다른 피처의 크기를 통일하기 위해 크기를  
0 ~ 1 사이의 값으로 변환해주는 개념이다  

그런데 사이킷런의 전처리에서 제공하는 Normalizer 모듈과 일반적인 정규화는 차이가 있다  

사이킷런에서의 Normalizer 모듈은 선형대수에서의 정규화 개념이 적용됬으며,  
개별 벡터의 크기를 맞추기 위해 변환하는 것을 의미한다  

즉, 개별 벡터를 모든 피처 벡터의 크기로 나누어준다  

#### StandardScaler

표준화를 쉽게 지원하기 위한 클래스  

개별 피처를 평균이 0이고, 분산이 1인 값으로 변환해준다  

이렇게 가우시안 정규 분포를 가질 수 있도록 데이터를 변환하는 것은  
몇몇 알고리즘에서 매우 중요하다  

특히 RBF 커널을 이용하는 **서포트 벡터 머신**, **선형 회귀**, **로지스틱 회귀**는  
데이터가 가우시안 분포를 가지고 있다고 가정하고 구현됐기 때문에  
사전에 표준화를 적용하는 것은 예측 성능 향상에 중요한 요소가 될 수 있다

In [7]:
# StandardScaler 적용 예
from sklearn.datasets import load_iris
import pandas as pd

# 붓꽃 데이터 세트를 로딩하고 DataFrame으로 변환한다
iris = load_iris()
iris_data = iris.data
iris_df = pd.DataFrame(data=iris_data, columns=iris.feature_names)

print('feature 들의 평균 값')
print(iris_df.mean())
print('\nfeature 들의 분산 값')
print(iris_df.var())

feature 들의 평균 값
sepal length (cm)    5.843333
sepal width (cm)     3.057333
petal length (cm)    3.758000
petal width (cm)     1.199333
dtype: float64

feature 들의 분산 값
sepal length (cm)    0.685694
sepal width (cm)     0.189979
petal length (cm)    3.116278
petal width (cm)     0.581006
dtype: float64


In [8]:
# StandardScaler를 이용해 각 피처를 한 번에 표준화해 변환
from sklearn.preprocessing import StandardScaler

# StandardScaler 객체 생성
scaler = StandardScaler()
# StandardScaler로 데이터 세트 변환. fit()와 transform() 호출
scaler.fit(iris_df)
iris_scaled = scaler.transform(iris_df)

# transform() 시 스케일 변환된 데이터 세트가 Numpy ndarray로 반환돼 이를 DataFrame으로 변환
iris_df_scaled = pd.DataFrame(data=iris_scaled, columns=iris.feature_names)
print('feature 들의 평균 값')
print(iris_df_scaled.mean())
print('feature 들의 분산 값')
print(iris_df_scaled.var())

feature 들의 평균 값
sepal length (cm)   -1.690315e-15
sepal width (cm)    -1.842970e-15
petal length (cm)   -1.698641e-15
petal width (cm)    -1.409243e-15
dtype: float64
feature 들의 분산 값
sepal length (cm)    1.006711
sepal width (cm)     1.006711
petal length (cm)    1.006711
petal width (cm)     1.006711
dtype: float64


모든 칼럼 값의 평균이 0에 아주 가까운 값으로, 분산은 1에 아주 가까운 값으로 변환되었다

#### MinMaxScaler

MinMaxScaler는 데이터값을 0과 1사이의 범위 갑으로 변환한다  
(음수 값이 있으면 -1에서 1로 변환)

데이터의 분포가 가우시안 분포가 아닐 경우, MinMaxScaler를 적용해 볼 수 있다

In [11]:
# MinMaxScaler 적용 예
from sklearn.preprocessing import MinMaxScaler

# MinMaxScaler 객체 생성
scaler = MinMaxScaler()
# MinMaxScaler로 데이터 세트 변환,  fit()과 transform() 호출
scaler.fit(iris_df)
iris_scaled = scaler.transform(iris_df)

# transform() 시 스케일 변환된 데이터 세트가 Numpy ndarray로 반환돼 이를 DataFrame으로 변환
iris_df_scaled = pd.DataFrame(data=iris_scaled, columns=iris.feature_names)
print('feature들의 최소값')
print(iris_df_scaled.min())
print('feature들의 최대값')
print(iris_df_scaled.max())

feature들의 최소값
sepal length (cm)    0.0
sepal width (cm)     0.0
petal length (cm)    0.0
petal width (cm)     0.0
dtype: float64
feature들의 최대값
sepal length (cm)    1.0
sepal width (cm)     1.0
petal length (cm)    1.0
petal width (cm)     1.0
dtype: float64


#### 학습/테스트 데이터 스케일링 변환 시 유의점

데이터의 스케일링 변환 시, fit(), transform(), fit_transform() 메소드를 이용하는데  
학습/테스트 데이터 세트에 적용할 때 주의가 필요하다  

Scaler 객체를 이용해 학습 데이터 세트로 fit()과 transform()을 적용하면  
테스트 데이터 세트로는 다시 fit()을 수행하지 않고  
학습 데이터 세트로 fit()을 수행한 결과를 이용해 transform() 변환을 적용해야 한다는 것이다  

테스트 데이터로 다시 새로운 스케일링 기준 정보를 만들게 되면  
학습 데이터와 테스트 데이터의 스케일링 기준이 달라지기 때문에 올바른 예측 결과를   
도출하지 못할 수 있다