<a href="https://colab.research.google.com/github/moonlight-t1/42Seoul/blob/master/Machine_Learning_Notebook/tree/master/Machine_Learning/Perfect_Guide/02-3_Data_Preprocessing.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 데이터 전처리(Data Preprocessing)

- 사이킷런의 머신러닝 알고리즘은 문자열 값을 입력값으로 허용하지 않는다.
- 그래서 모든 문자열 값은 인코딩돼서 숫자 형으로 변환해야 한다.


## 데이터 인코딩

### 레이블 인코딩

In [None]:
from sklearn.preprocessing import LabelEncoder

items = ['TV', '냉장고', '전자레인지', '컴퓨터', '선풍기', '믹서', '복사기']

# LabelEncorder를 객체로 생성한 후, fit()과 transfor()으로 레이블 인코딩 수행
encoder = LabelEncoder()

encoder.fit(items)
labels = encoder.transform(items)

print("인코딩 변환값: ", labels)

In [None]:
print("인코딩 클래스: ", encoder.classes_)

In [None]:
print("디코딩 원본값: ", encoder.inverse_transform([4, 5, 2, 0, 1, 1, 3, 3]))

- 레이블 인코딩은 간단하게 문자열 값을 숫자형 카테고리 값으로 변환한다. 하지만 레이블 인코딩이 일괄적인 숫자 값으로 변환이 되면서 몇몇 ML 알고리즘에는 이를 적용할 경우 예측 성능이 떨어지는 경우가 발생할 수 있다.
- 이는 숫자 값의 크고 작음에 대한 특성이 작용하기 때문이다.
- 이러한 특성 때문에 레이블 인코딩은 선형 회귀와 같은 ML 알고리즘에는 적용하지 않아야 한다.

### 원-핫 인코딩(One-Hot Encoding)
- 원-핫 인코딩은 피처 값의 유형에 따라 새로운 피처를 추가해 고유 값에 해당하는 칼럼에만 1을 표시하고 나머지 칼럼에는 0을 표시하는 방법이다.


- 사이컷런의 `OneHotEncoder`로 변환하기 전에 모든 문자열이 숫자형 값으로 변환돼야 한다.
- 입력 값으로 2차원 데이터가 필요하다.

In [None]:
from sklearn.preprocessing import OneHotEncoder
import numpy as np

items = ['TV', '냉장고', '전자레인지', '컴퓨터', '선풍기', '믹서', '믹서']

In [None]:
# 먼저 숫자 값으로 변환을 위해 LabelEncoder로 변환한다.
encoder = LabelEncoder()

encoder.fit(items)
labels = encoder.transform(items)

In [None]:
# 2차원 데이터로 변환한다
labels = labels.reshape(-1, 1)

In [None]:
# 원-핫 인코딩을 적용한다
oh_encoder = OneHotEncoder()
oh_encoder.fit(labels)
oh_labels = oh_encoder.transform(labels)

In [None]:
print('원-핫 인코딩 데이터')
print(oh_labels.toarray())

In [None]:
print('원-핫 인코딩 데이터 차원')
print(oh_labels.shape)

In [None]:
print("원-핫 인코딩 데이터 차원")
print(oh_labels.shape)

- 위의 과정을 한 번에 처리할 수 있도록 scikit-learn에서는 `get_dummies()` 함수르르 지원한다.

In [None]:
import pandas as pd

df = pd.DataFrame({'item' :['TV', '냉장고', '전자레인지', '컴퓨터', '선풍기', '선풍기', '믹서', '믹서']})
pd.get_dummies(df)

## 피처 스케일링과 정규화

- 서로 다른 변수의 값 범위를 일정한 수준으로 맞추는 작업을 피처 스케일링(feature scaling)이라 한다.


- 표준화(Standardization)은 데이터의 피처 각각이 평균이 0이고 분산이 1인 가우시안 정규 분포를 가진 값으로 변환하는 것을 의미한다.
- 정규화(Normailzation)은 서로 다른 피처의 크기를 통일하기 위해 크기를 변환해주는 개념이다. 즉, 개별 데이터의 크기를 모두 똑같은 단위로 변경하는 것이다.

## StandardScaler
- StandardScaler는 표준화를 지원하는 클래스이다.

In [None]:
from sklearn.datasets import load_iris
import pandas as pd

# 붓꽃 데이터 세트를 로딩하고 DataFrame을 변환한다
iris = load_iris()
iris_data = iris.data
iris_df = pd.DataFrame(data=iris_data, columns=iris.feature_names)

print("features 들의 평균 값")
print(iris_df.mean())

print("\nfeature 들의 분산 값")
print(iris_df.var())

In [None]:
# StandardScaler를 이용한 각 피처들을 표준화
from sklearn.preprocessing import StandardScaler

# StandardScaler 객체 생성
scaler = StandardScaler()

# StandardScaler로 데이터 세트 변환
scaler.fit(iris_df)
iris_scaled = scaler.transform(iris_df)

In [None]:
# transform()시 스케일 변환된 데이터 세트가 numpy ndarry로 변환돼 이를 dataframe으로 변환
iris_df_scaled = pd.DataFrame(data=iris_scaled, columns=iris.feature_names)

print("feature 들의 평균 값")
print(iris_df_scaled.mean())

print("\nfeature 들의 분산 값")
print(iris_df_scaled.var())

## MinMaxScaler
- MinMaxScaler는 데이터값을 0과 1사이의 범위 값으로 변환한다. (음수 값이 있으면 -1에서 1 값으로 변환한다)

In [None]:
from sklearn.preprocessing import MinMaxScaler

# MinMaxSclaer 객체 생성
scaler = MinMaxScaler()

# MinMaxScaler로 데이터 세트 변환. fit()과 transform() 호출
scaler.fit(iris_df)
iris_scaled = scaler.transform(iris_df)

In [None]:
# transform()시 스케일 변환된 데이터 세트가 numpy ndarry로 변환돼 이를 dataframe으로 변환
iris_df_scaled = pd.DataFrame(data=iris_scaled, columns=iris.feature_names)

print("feature 들의 평균 값")
print(iris_df_scaled.mean())

print("\nfeature 들의 분산 값")
print(iris_df_scaled.var())

## 학습 데이터와 테스트 데이터의 스케일링 변환 시 유의점
- 학습 데이터로 `fit()`이 적용된 스케일링 기준 정보를 그대로 테스트 데이터에 적용해야 하며, 그렇지 않고 테스트 데이터로 다시 새로운 스케일링 기준 정보를 만들게 되면 학습 데이터와 테스트 데이터의 스케일링 기준 정보가 서로 다랄지기 때문에 올바른 예측 결과를 도출하지 못할 수도 있다.