# 데이터 전처리
## 데이터 인코딩
### 데이터 전처리 종류
* 데이터 클린징: 결측, 이상, 중복 데이터 확인을 통한 처리
* 데이터 인코딩
* 데이터 스케일링
* feature 선택, 추출, 가공
### 필요성
* 데이터는 문자열을 입력값으로 허용하지 않음. 숫자 변환 필수
* 서로 다른 변수 사이에 범위가 너무 차이가 크면 분석 과정에서 왜곡이 발생 할 수 있다.
### 인코딩 방식
#### 레이블 인코딩(LabelEncoding)
##### 의미
* 레이블(종속변수)을 각각 1개의 숫자(스칼라)로 변환하여 알고리즘에 적용할 수 있도록 전환하는 방식

#### 원-핫 인코딩(OneHotEncoding)
##### 의미
* 레이블(종속변수)을 각각 칼럼으로 하는 행렬을 만들고 개별 레이블에 대해서 해당하는 칼럼에 1, 아닌 칼럼에 0을 표시하는 방식으로 1차 행렬로 변환하여 알고리즘에 적용할 수 있도록 전환하는 방식

#### 인코딩 예시

In [6]:
#레이블 인코딩
from sklearn.preprocessing import LabelEncoder
import pandas as pd
items = ['TV','냉장고','전자렌지','컴퓨터','선풍기','선풍기','믹서','믹서']

#LabelEncoder()로 클래스 생성 후 fit(), transform()으로 label 인코딩 수행
encoder = LabelEncoder()
encoder.fit(items)
#인코딩 데이터를 items로 지정
labels = encoder.transform(items)
#labels 변수에 encoder에 지정된 items를 인코딩한 데이터 저장
#굳이 fit으로 지정한 데이터를 transform에서 다시 지정하는 이유
#->별 이유 없고 그냥 코드를 짤 때, 그렇게 하래요....

print(labels)
print(encoder.classes_)

[0 1 4 5 3 3 2 2]
['TV' '냉장고' '믹서' '선풍기' '전자렌지' '컴퓨터']
[[0]
 [1]
 [4]
 [5]
 [3]
 [3]
 [2]
 [2]]


In [11]:
#원 핫 인코딩
from sklearn.preprocessing import OneHotEncoder
import numpy as np

items = ['TV','냉장고','전자렌지','컴퓨터','선풍기','선풍기','믹서','믹서']

#레이블 인코딩
encoder = LabelEncoder()
encoder.fit(items)
labels =encoder.transform(items)

labels = labels.reshape(-1,1)
print(labels)

#원핫 인코딩
oh_encoder = OneHotEncoder()
oh_encoder.fit(labels)
oh_labels = oh_encoder.transform(labels)

print(oh_labels.toarray())
oh_labels.shape

[[0]
 [1]
 [4]
 [5]
 [3]
 [3]
 [2]
 [2]]
[[1. 0. 0. 0. 0. 0.]
 [0. 1. 0. 0. 0. 0.]
 [0. 0. 0. 0. 1. 0.]
 [0. 0. 0. 0. 0. 1.]
 [0. 0. 0. 1. 0. 0.]
 [0. 0. 0. 1. 0. 0.]
 [0. 0. 1. 0. 0. 0.]
 [0. 0. 1. 0. 0. 0.]]


(8, 6)

## 피처 스케일링과 정규화
### 필요성
* 서로 다른 변수의 값의 범위를 일정하게 조정하여 분석 과정에서 데이터의 왜곡이 나타나지 않게 하기 위해서이다.

### 피처 스케일링의 방식
#### 표준화(Standardization)
* 평균이 0이고 분산이 1인 표준 정규 분포로 변환

#### 정규화(Normalization)
* 서로 다른 피처의 크기를 통일하기 위해 크기를 0~1 사이의 숫자로 변환하는 개념
* 데이터 내에 음수가 존재하는 경우 -1~1 까지의 값으로 변환

#### sklearn.Normalizer
* 선형대수의 정규화 개념을 활용한 개별 벡터의 크기를 맞추기 위한 변환(참고)

#### 피처 스케일링의 예시


In [13]:
# standardScaler
from sklearn.datasets import load_iris

iris = load_iris()
iris_data = iris.data
iris_df = pd.DataFrame(data = iris_data, columns=iris.feature_names)


from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()

scaler.fit(iris_df)
iris_scaled = scaler.transform(iris_df)

iris_df_scaled = pd.DataFrame(data=iris_scaled, columns=iris.feature_names)
iris_df_scaled.mean()
iris_df_scaled.var()


####주의사항: 데이터 검증에서 학습데이터를 기반으로 정규화를 진행하게 될 것인데 
#### 이후 정규화에 대해 test데이터로 다시한번 fit을 하면 안된다
# why? -> 이미 학습 데이터를 기반으로 데이터 분포에 대한 기준을 만든 것이고 
#         여기서 추가적으로 test 데이터를 fit 하게되면 이 기준이 무너지게 된다.

sepal length (cm)    1.006711
sepal width (cm)     1.006711
petal length (cm)    1.006711
petal width (cm)     1.006711
dtype: float64

In [16]:
#MinMaxScaler
from sklearn.preprocessing import MinMaxScaler

# MinMaxScaler 객체 생성
scaler = MinMaxScaler()
scaler.fit(iris_df)
iris_scaled =scaler.transform(iris_df)

iris_df_scaled = pd.DataFrame(data=iris_scaled, columns=iris.feature_names)
print(iris_df_scaled.min())
print(iris_df_scaled.max())

sepal length (cm)    0.0
sepal width (cm)     0.0
petal length (cm)    0.0
petal width (cm)     0.0
dtype: float64
sepal length (cm)    1.0
sepal width (cm)     1.0
petal length (cm)    1.0
petal width (cm)     1.0
dtype: float64
