# 데이터 전처리

사이킷 런의 ML알고리즘을 적용하기 전에 데이터에 대해 미리 처리해야할 기본 사항
* 결손값, 즉 NaN, Null값 처리. ex) 평균값, 최빈값 등등 대체, 및 드랍
* 문자열 값을 입력값으로 허용X (모든 문자열 값은 인코딩돼서 숫자 형으로 변환)

## 데이터 인코딩
머신러닝을 위한 대표적인 인코딩 방식
1. 레이블 인코딩 : 카테고리 피처를 코드형 숫자 값으로 변환하는 것
2. 원-핫 인코딩 : 피처 값의 유형에 따라 새로운 피처를 추가해 고유 값에 해당하는 칼럼에만 1을 표시하고, 나머지 칼럼에는 0을 표시하는 방식

### 레이블 인코딩(Label encoding)
* LabelEncoder

In [1]:
from sklearn.preprocessing import LabelEncoder

items = ['TV', '냉장고', '전자레인지', '컴퓨터', '선풍기', '믹서', '믹서']

# LabelEncoder를 객체로 생성한 후, fit()과 transform()으로 레이블 인코딩 수행
encoder = LabelEncoder()
encoder.fit(items)
labels = encoder.transform(items)
print('인코딩 변환값 : ', labels)

인코딩 변환값 :  [0 1 4 5 3 2 2]


* TV는 0, 냉장고는 1, 전자레인지는 4, 컴퓨터는 5, 선풍기는 3, 믹서는 2로 변환

In [2]:
# LabelEncoder 객체의 classes_ 속성값으로 확인 
print('인코딩 클래스 : ', encoder.classes_)

인코딩 클래스 :  ['TV' '냉장고' '믹서' '선풍기' '전자레인지' '컴퓨터']


* classes_ 속성은 0번부터 순서대로 변환된 인코딩 값에 대한 원본값을 가짐
* TV는 0, 냉장고는 1, 믹서는 2, 선풍기는 3, 전자레인지는 4, 컴퓨터는 5

In [3]:
# inverse_transform()을 통해 인코딩된 값을 다시 디코딩
print('디코딩 원본값 : ', encoder.inverse_transform([4, 5, 2, 0, 1, 1, 3, 3]))

디코딩 원본값 :  ['전자레인지' '컴퓨터' '믹서' 'TV' '냉장고' '냉장고' '선풍기' '선풍기']


레이블 인코딩은 간단하게 문자열 값을 숫자형 카테고리 값으로 변환.
하지만, 레이블 인코딩이 일괄적인 숫자 값으로 변환이 되면서 몇몇 ML알고리즘에는 이를 적용할 경우 예측 성능이 떨어지는 경우 발생.
> * 이는 숫자 값의 경우 크고 작음에 대한 특성이 작용하기 때문. 
> * 1 보다 2가 더 큰 값이므로 특정 ML 알고리즘에서 가중치가 더 부여되거나 더 중요하게 인식할 가능성 발생.

##### 레이블 인코딩은 선형 회귀와 같은 ML알고리즘에는 적용하지 않아야 함
##### 트리 계열의 ML알고리즘은 숫자의 이러한 특성을 반영하지 않으므로 레이블 인코딩도 별 문제 없음.

##### 원-핫 인코딩은 레이블 인코딩의 이러한 문제점을 해결하기 위한 인코딩 방식

### 원-핫 인코딩(One-Hot Encoding)(여러 개의 속성 중 단 한 개의 속성만 1로 표시)
* OneHotEncoder

##### LabelEncoder와 다르게 주의할 점으로, 입력값으로 2차원 데이터가 필요. 
OneHotEncoder를 이용해 변환한 값이 희소 행렬(Sparse Matrix)형태이므로 이를 다시 toarray() 메서드를 이용해 밀집 행렬(Dense Matrix)로 변환해야 한다는 것.

In [4]:
from sklearn.preprocessing import OneHotEncoder
import numpy as np 

items = ['TV', '냉장고', '전자레인지', '컴퓨터', '선풍기', '선풍기', '믹서', '믹서']

# 2차원 ndarray로 변환
items = np.array(items).reshape(-1,1)
print('2차원 items : \n', items)

# 원-핫 인코딩을 적용
oh_encoder = OneHotEncoder()
oh_encoder.fit(items)
oh_labels = oh_encoder.transform(items)

# OneHotEncoder로 변환한 결과는 희소행렬이므로 toarray()를 이용해 밀집 행렬로 변환

print('원-핫 인코딩 희소행렬 확인')
print(oh_labels)

print('원-핫 인코딩 데이터')
print(oh_labels.toarray())
print('원-핫 인코딩 데이터 차원')
print(oh_labels.shape)

2차원 items : 
 [['TV']
 ['냉장고']
 ['전자레인지']
 ['컴퓨터']
 ['선풍기']
 ['선풍기']
 ['믹서']
 ['믹서']]
원-핫 인코딩 희소행렬 확인
  (0, 0)	1.0
  (1, 1)	1.0
  (2, 4)	1.0
  (3, 5)	1.0
  (4, 3)	1.0
  (5, 3)	1.0
  (6, 2)	1.0
  (7, 2)	1.0
원-핫 인코딩 데이터
[[1. 0. 0. 0. 0. 0.]
 [0. 1. 0. 0. 0. 0.]
 [0. 0. 0. 0. 1. 0.]
 [0. 0. 0. 0. 0. 1.]
 [0. 0. 0. 1. 0. 0.]
 [0. 0. 0. 1. 0. 0.]
 [0. 0. 1. 0. 0. 0.]
 [0. 0. 1. 0. 0. 0.]]
원-핫 인코딩 데이터 차원
(8, 6)


* TV 0, 냉장고 1, 믹서 2, 선풍기 3, 전자레인지 4, 컴퓨터가 5로 인코딩 

##### 판다스-원핫인코딩-API-pd.get_dummies()

In [5]:
import pandas as pd

df = pd.DataFrame({'item':['TV', '냉장고', '전자레인지', '컴퓨터', '선풍기', '선풍기', '믹서', '믹서']})

pd.get_dummies(df)

Unnamed: 0,item_TV,item_냉장고,item_믹서,item_선풍기,item_전자레인지,item_컴퓨터
0,1,0,0,0,0,0
1,0,1,0,0,0,0
2,0,0,0,0,1,0
3,0,0,0,0,0,1
4,0,0,0,1,0,0
5,0,0,0,1,0,0
6,0,0,1,0,0,0
7,0,0,1,0,0,0


### 피처 스케일링 정규화

#### 피처 스케일링(feature scaling) = 서로 다른 변수의 값 범위를 일정한 수준으로 맞추는 작업 
대표적인 방법
1. 표준화(Standardization)
> 표준화란 데이터의 피처 각각이 평균이 0이고 분산이 1인 가우시안 정규 분포를 가진 값으로 변환하는 것을 의미한다. 

2. 정규화(Normalization)
> 정규화는 서로 다른 피처의 크기를 통일하기 위해 크기를 변환해주는 개념
ex) 피처 A는 거리를 나타내는 변수로서 값이 0~100km로 주어지고 피처 B는 금액을 나타내는 속성으로 값이 0 ~ 1,000,000원으로 주어진다면 이 변수를 모두 동일한 크기 단위로 비교하기 위해 값을 모두 최소 0 ~ 최대 의 값으로 변환하는 것.즉. 개별 데이터의 크기를 모두 똑같은 단위로 변경하는 것.

사이킷런의 전처리에서 제공하는 (정규화)Normalizer 모듈과 일반적인 정규화는 약간의 차이가 있다.
* 사이킷런의 (정규화)Normalizer 모듈은 선형대수에서의 정규화 개념이 적용됐으며, 개별 벡터의 크기를 맞추기 위해 변환하는 것을 의미. 즉, 개별 벡터를 모든 피처 벡터의 크기로 나눠준다.

### StandardScaler 

StandardScaler는 표준화를 쉽게 지원하기 위한 클래스
##### 개별 피처를 평균이 0이고, 분산이 1인 값으로 변환

가우시안 정규 분포를 가질 수 있도록 데이터를 변환하는 것은 몇몇 알고리즘에서 매우 중요
> 사이킷런에서 구현한
> * RBF 커널을 이용하는 서포트 벡터 머신(Support Vector Machine)
> * 선형 회귀(Linear Regression)
> * 로지스틱 회귀(Logistic Regression)
> 
> 은 데이터가 가우시안 분포를 가지고 있다고 가정하고 구현됐기 때문에 사전에 표준화를 적용하는 것은 예측 성능 향상에 중요한 요소가 될 수 있다.

In [6]:
from sklearn.datasets import load_iris
import pandas as pd 

#붓꽃 데이터 세트를 로딩하고 DataFrame으로 변홚
iris = load_iris()
iris_data = iris.data
iris_df = pd.DataFrame(iris.data, columns = iris.feature_names)

print('feature 들의 평균 값')
print(iris_df.mean())
print('\nfeature 들의 분산 값')
print(iris_df.var())

feature 들의 평균 값
sepal length (cm)    5.843333
sepal width (cm)     3.057333
petal length (cm)    3.758000
petal width (cm)     1.199333
dtype: float64

feature 들의 분산 값
sepal length (cm)    0.685694
sepal width (cm)     0.189979
petal length (cm)    3.116278
petal width (cm)     0.581006
dtype: float64


In [7]:
from sklearn.preprocessing import StandardScaler

# StandardScaler 객체 생성
scaler = StandardScaler()
# StandardScaler로 데이터 세트 변환. fit()과 transform() 호출
scaler.fit(iris_df)
iris_scaled =scaler.transform(iris_df)

# transform()시 스케일 변환된 데ㅔ이터 세트가 Numpy ndaaray로 반환돼 이를 DataFrame으로 변환
iris_df_scaled = pd.DataFrame(iris_scaled, columns = iris.feature_names)
print('feature 들의 평균 값')
print(iris_df_scaled.mean())
print('\nfeature 들의 분산 값')
print(iris_df_scaled.var())

feature 들의 평균 값
sepal length (cm)   -1.690315e-15
sepal width (cm)    -1.842970e-15
petal length (cm)   -1.698641e-15
petal width (cm)    -1.409243e-15
dtype: float64

feature 들의 분산 값
sepal length (cm)    1.006711
sepal width (cm)     1.006711
petal length (cm)    1.006711
petal width (cm)     1.006711
dtype: float64


* 모든 칼럼 값의 평균이 0에 아주 가까운 값으로, 그리고 분산은 1에 아주 가까운 값으로 변환됐음을 알 수 있다.

### MinMaxScaler 
MinMaxScaler는 데이터 값을 0과 1사이의 범위 값으로 변환(음수 값이 있으면 -1에서 1값으로 변환)
* 데이터의 분포가 가우시안 분포가 아닐 경우에 Min, Max Scale을 적용해 볼 수 있다.

In [8]:
from sklearn.preprocessing import MinMaxScaler

# MinMaxScaler 객체 생성
scaler = MinMaxScaler()
# MinMaxScaler로 데이터 세트 변환 fit()과 transform() 호출
scaler.fit(iris_df)
iris_scaled = scaler.transform(iris_df)

# transform() 시 스케일 변환된 데이터 세트가 Numpy ndarray로 반환돼 이를 DataFrame으로 변환
iris_df_scaled = pd.DataFrame(iris_scaled, columns = iris.feature_names)
print('feature 들의 최솟값')
print(iris_df_scaled.min())
print('\nfeature 들의 최댓값')
print(iris_df_scaled.max())

feature 들의 최솟값
sepal length (cm)    0.0
sepal width (cm)     0.0
petal length (cm)    0.0
petal width (cm)     0.0
dtype: float64

feature 들의 최댓값
sepal length (cm)    1.0
sepal width (cm)     1.0
petal length (cm)    1.0
petal width (cm)     1.0
dtype: float64


* 모든 피처에 -에서 1사이의 값으로 변환되는 스케일링이 적용됐음을 알 수 있다.

### 학습 데이터와 테스트 데이터의 스케일링 변환 시 유의점

StandardScaler나 MinMaxScaler와 같은 Scaler객체를 이용해 데이터의 스케일링 변환시 fit(), transform(), fit_transform() 메서드를 이용한다.

* 일반적으로 fit()은 데이터 변환을 위한 기준 정보 설정(예를 들어 데이터 세트의 최댓값/최솟값 설정 등)을 적용
* transform()은 이렇게 설정된 정보를 이용해 데이터를 변환
* fit_transform()은 fit()과 transform()을 한 번에 적용하는 기능을 수행

학습 데이터 세트와 테스트 데이터 세트에 이 fit()과 transform()을 적용할 때 주의가 필요
> Scaler 객체를 이용해 학습 데이터 세트로 fit()과 transform()을 적용하면 테스트 데이터 세트로는 다시 fit()을 수행하지 않고 학습 데이터 세트로 fit()을 수행한 결과를 이용해 transform()변환을 적용해야 한다는 것
##### 학습 데이터 세트로 fit()이 적용된 스케일링 기준 정보를 그대로 테스트 데이터에 적용해야 하며, 그렇지 않고 테스트 데이터로 다시 새로운 스케일링 기준 정보를 만들게 되면 학습 데이터와 테스트 데이터의 스케일링 기준 정보가 서로 달라지기 때문에 올바른 예측 결과를 도출하지 못할 수 있다.

In [9]:
"""
테스트 데이터에 fit()을 적용할 때 어떠한 문제가 발생하는지 알아보기
"""

from sklearn.preprocessing import MinMaxScaler
import numpy as np

# 학습 데이터는 0부터 10까지, 테스트 데이터는 0부터 5까지 값을 가지는 데이터 세트로 생성
# Scaler 클래스의 fit(), transform()은 2차원 이상 데이터만 가능하므로 reshape(-1, 1)로 차원 변경
train_array = np.arange(0, 11).reshape(-1, 1)
test_array = np.arange(0, 6).reshape(-1, 1)

* 학습 데이터인 train_array부터 MinMaxScaler 이용해 변환

학습 데이터는 0부터 10까지 값을 가지는데, 이 데이터에 MinMaxScaler 객체의 fit()을 적용하면 최솟값 0, 최댓값 10이 설정되며 1/10 Scale이 적용된다. 이제 transform()을 호출하면 1/10 scale로 학습 데이터를 변환하게 되며 원본 데이터 1은 0.1로 2는 0.2, 그리고 5는 0.5, 10은 1로 변환

In [10]:
# MinMaxScaler 객체의 별도의 featrue_range 파라미터 값을 지정하지 않으면 0~1 값으로 변환
scaler = MinMaxScaler()

# fit()하게 되면 train_array 데이터의 최솟값이 0, 최댓값이 10으로 설정
scaler.fit(train_array)

# 1/10 scale로 train_array 데이터 변환. 원본 10 -> 1로 변환
train_scaled = scaler.transform(train_array)

print('원본 train_array 데이터 :', np.round(train_array.reshape(-1), 2))
print('Scale된 train_array 데이터 :', np.round(train_scaled.reshape(-1), 2))


원본 train_array 데이터 : [ 0  1  2  3  4  5  6  7  8  9 10]
Scale된 train_array 데이터 : [0.  0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1. ]


출력 결과를 통해 학습 데이터와 테스트 데이터의 스케일링이 맞지 않음을 알 수 있다.
> * 테스트 데이터의 경우는 최솟값 0, 최댓값 5이므로 1/5로 스케일링 됨. 따라서 1은 0.2로 , 원본값 5는 1로 변환
> * 학습 데이터는 스케일링 변환으로 원본값 2가 0.2로 변환, 원본값 10이 1로 변환됨.
##### 학습 데이터와 테스트 데이터의 서로 다른 원본값이 동일한 값으로 변환되는 결과를 초래

##### 따라서 테스트 데이터에 다시 fit()을 적용해서는 안 되며 학습 데이터로 이미 fit()이 적용된 Scaler 객체를 이용해 transform()으로 변환해야 함.


In [11]:
"""
테스트 데이터에 fit()을 호출하지 않고 학습 데이터로 fit()을 호출하지 않고
학습 데이터로 fit()을 수행한 MinMaxScaler 객체의 transform()을 이용해 데이터를 변환
"""

scaler = MinMaxScaler()
scaler.fit(train_array)
train_scaled = scaler.transform(train_array)
print('원본 train_array 데이터 :', np.round(train_array.reshape(-1), 2))
print('Scale된 train_array 데이터 :', np.round(train_scaled.reshape(-1), 2))

# test_array에 Scale 변환을 할 때는 반드시 fit()을 호출하지 않고 transform()만으로 변환해야 함.
test_scaled = scaler.transform(test_array)
print('\n원본 test_array 데이터 :', np.round(test_array.reshape(-1), 2))
print('\nScale된 test_array 데이터 :', np.round(test_scaled.reshape(-1), 2))

원본 train_array 데이터 : [ 0  1  2  3  4  5  6  7  8  9 10]
Scale된 train_array 데이터 : [0.  0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1. ]

원본 test_array 데이터 : [0 1 2 3 4 5]

Scale된 test_array 데이터 : [0.  0.1 0.2 0.3 0.4 0.5]


fit_transform()을 적용할 때도 마찬가지.
fit_transform()은 fit()과 transform()을 순차적으로 수행하는 메서드이므로 학습 데이터에서는 상관없지만 테스트 데이터에서는 절대 사용해서는 안된다.

학습과 테스트 데이터 세트로 분리하기 전에 먼저 전체 데이터 세트에 스케일링을 적용한 뒤 학습과 테스트 데이터 세트로 분리하는 것이 더 바람직하다.

##### Summary
> 1. 가능핟면 전체 데이터의 스케일링 변환을 적용한 뒤 학습과 테스트 데이터로 분리
> 2. 1이 여의치 않다면 테스트 데이터 변환 시에는 fit()이나 fit_transform()을 적용하지 않고 학습 데이터로 이미 fit()된 Scaler 객체를 이용해 transform()으로 변환

이 유의 사항은 사이킷런 기반의 PGA와 같은 차원 축소 변환이나 텍스트의 피처 벡터화 변환 작업 시에도 동일하게 적용