# 2022/01/02/SUN

> ### ***`데이터 전처리`***

- 데이터 인코딩
      - 레이블 인코딩 

In [10]:
from sklearn.preprocessing import LabelEncoder
items=['TV','냉장고','전자레인지','컴퓨터','선풍기','선풍기','믹서','믹서']
# LabelEncoder를 객체로 생성한 후, fit()과 transform()으로 레이블 인코딩 수행
encoder = LabelEncoder() # 객체 생성
encoder.fit(items)
labels=encoder.transform(items)
print('인코딩 변환값: ', labels)
print('----------------------------------------')
print('인코딩 클래스: ', encoder.classes_)
print('차례대로 0부터 5까지 부여됨')
print('----------------------------------------')
print('디코딩 원본값: ',encoder.inverse_transform([0,4,5,5,1,1,2,0]))
print('이렇게 원하는 인코딩 값의 리스트를 통해 디코딩 할 수 있다')

인코딩 변환값:  [0 1 4 5 3 3 2 2]
----------------------------------------
인코딩 클래스:  ['TV' '냉장고' '믹서' '선풍기' '전자레인지' '컴퓨터']
차례대로 0부터 5까지 부여됨
----------------------------------------
디코딩 원본값:  ['TV' '전자레인지' '컴퓨터' '컴퓨터' '냉장고' '냉장고' '믹서' 'TV']
이렇게 원하는 인코딩 값의 리스트를 통해 디코딩 할 수 있다


`***주의***`
 
레이블 인코딩이 1,2일때 특정 ML알고리즘에서 가중치가 더 부여되거나 더 중요하게 인식할 가능성이 발생함. 하지만 단순 인코딩 숫자이기에 이러한 현상은 피해야함. 따라서 이러한 레이블 인코딩은 선형 회귀와 같은 ML 알고리즘에는 적용 X, 트리 계열의 알고리즘은 숫자의 이러한 특성을 반영하지 않으므로 레이블 인코딩도 별 문제 X, 원-핫 인코딩은 레이블 인코딩의 이러한 문제점을 해결하기 위한 인코딩 방식임

----

- 데이터 인코딩
      - 원-핫 인코딩 

In [14]:
from sklearn.preprocessing import OneHotEncoder
import numpy as np
items=['TV','냉장고','전자레인지','컴퓨터','선풍기','선풍기','믹서','믹서']
# 먼저 숫자 값으로 변환하기 위해 LabelEncoder로 변환해야함
encoder=LabelEncoder() # 객체 생성
encoder.fit(items)
labels=encoder.transform(items)
# 꼭 2차원 데이터로 변경해야 함
labels=labels.reshape(-1,1)
# 이제 원-핫 인코딩
oh_encoder= OneHotEncoder() # 객체 생성
oh_encoder.fit(labels)
oh_labels=oh_encoder.transform(labels)
print('원-핫 인코딩 데이터')
print(oh_labels.toarray()) # array 형태로
print('원-핫 인코딩 데이터 차원')
print(oh_labels.shape) # 8행 6열의 행렬 형태

원-핫 인코딩 데이터
[[1. 0. 0. 0. 0. 0.]
 [0. 1. 0. 0. 0. 0.]
 [0. 0. 0. 0. 1. 0.]
 [0. 0. 0. 0. 0. 1.]
 [0. 0. 0. 1. 0. 0.]
 [0. 0. 0. 1. 0. 0.]
 [0. 0. 1. 0. 0. 0.]
 [0. 0. 1. 0. 0. 0.]]
원-핫 인코딩 데이터 차원
(8, 6)


> ***`이러한 과정을 pandas를 통해 한 번에? = get_dummies`***

In [15]:
import pandas as pd
df=pd.DataFrame({'item':['TV','냉장고','전자레인지','컴퓨터','선풍기','선풍기','믹서','믹서']})
pd.get_dummies(df)

Unnamed: 0,item_TV,item_냉장고,item_믹서,item_선풍기,item_전자레인지,item_컴퓨터
0,1,0,0,0,0,0
1,0,1,0,0,0,0
2,0,0,0,0,1,0
3,0,0,0,0,0,1
4,0,0,0,1,0,0
5,0,0,0,1,0,0
6,0,0,1,0,0,0
7,0,0,1,0,0,0


- get_dummies()를 이용하면 숫자형 값으로 변환 없이도 바로 변환이 가능함

----

> ### ***`feature 스케일링과 정규화`***

feature scaling에는 표준화와 정규화가 있으며, 표준화는 feature각각이 평균0, 분산1인 가우시안 정규 분포를 가진 값으로 변환하는 것을 의미

$x_i\_new$ = $\frac{x_i-mean(x)}{stdev(x)}$ 이며 $stdev(x)$는 표준편차를 의미함.

일반적으로 정규화는 서로 다른 feature의 크기를 통일하기 위해 크기는 변환해주는 개념. 0~1값으로 변환한다. 즉 개별 데이터의 크기를 모두 똑같은 단위로 변경하는 것.

$x_i\_new$ = $\frac{x_i-min(x)}{max(x)-min(x)}$

***주의***

사이킷런의 전처리에서 제공하는 Normalizer 모듈과 일반적인 정규화는 약간의 차이가 있음. 사이킷런의 Normalizer 모듈은 선형 대수에서의 정규화 개념이 적용 됐으며, 개별 벡터의 크기를 맞추기 위해 변환하는 것을 의미함.

$x_i\_new$ = $\frac{x_i}{\sqrt(x_i^2+y_i^2+z_i^2)}$

이를 벡터 정규화로 지칭하자

----

> ***`StandardScaler` : 표준화***

In [20]:
from sklearn.datasets import load_iris
iris=load_iris()
iris_data=iris.data
iris_df=pd.DataFrame(data=iris_data,columns=iris.feature_names)

print('feature들의 평균값')
print(iris_df.mean())
print('\nfeature들의 분산값')
print(iris_df.var())

feature들의 평균값
sepal length (cm)    5.843333
sepal width (cm)     3.057333
petal length (cm)    3.758000
petal width (cm)     1.199333
dtype: float64

feature들의 분산값
sepal length (cm)    0.685694
sepal width (cm)     0.189979
petal length (cm)    3.116278
petal width (cm)     0.581006
dtype: float64


In [21]:
from sklearn.preprocessing import StandardScaler

scaler=StandardScaler() # 객체 생성
scaler.fit(iris_df)
iris_scaled=scaler.transform(iris_df)

# transform()시 스케일 변환된 데이터 세트가 ndarray로 반환돼 이를 DataFrame으로 변환
iris_df_scaled = pd.DataFrame(data=iris_scaled,columns=iris.feature_names)
print('feature들의 평균값')
print(iris_df_scaled.mean())
print('\nfeature들의 분산값')
print(iris_df_scaled.var())

feature들의 평균값
sepal length (cm)   -1.690315e-15
sepal width (cm)    -1.842970e-15
petal length (cm)   -1.698641e-15
petal width (cm)    -1.409243e-15
dtype: float64

feature들의 분산값
sepal length (cm)    1.006711
sepal width (cm)     1.006711
petal length (cm)    1.006711
petal width (cm)     1.006711
dtype: float64


- 두 셀을 비교해보면 위 셀 $\to$ 아래 셀, 모든 칼럼 값의 평균이 0에 아주 가까운 값으로, 그리고 분산은 1에 아주 가까운 값으로 변환됐음을 알 수 있다.

> ***`MinMaxScaler` : 정규화***

- 데이터 값을 0과 1사이의 범위 값으로 변환한다. (음수 값이 있으면 -1에서 1값으로 변환)
- 데이터의 분포가 가우시안 분포가 아닐 경우에 적용 가능

In [23]:
from sklearn.preprocessing import MinMaxScaler
scaler=MinMaxScaler()
scaler.fit(iris_df)
iris_scaled=scaler.transform(iris_df)
# transform()시 스케일 변환된 데이터 세트가 ndarray로 반환돼 이를 DF으로 변환
iris_df_scaled = pd.DataFrame(data=iris_scaled,columns=iris.feature_names)
print('feature들의 최솟값')
print(iris_df_scaled.min())
print('\nfeature들의 최댓값')
print(iris_df_scaled.max())

feature들의 최솟값
sepal length (cm)    0.0
sepal width (cm)     0.0
petal length (cm)    0.0
petal width (cm)     0.0
dtype: float64

feature들의 최댓값
sepal length (cm)    1.0
sepal width (cm)     1.0
petal length (cm)    1.0
petal width (cm)     1.0
dtype: float64


- 모든 feature가 0에서 1사이의 값으로 변환되는 스케일링이 적용됐음을 알 수 있다.

----

***`유의점`*** 128p 참고

학습 데이터로 fit()이 적용된 스케일링 기준 정보를 그대로 테스트 데이터에 적용해야 하며, 그렇지 않으면 학습 데이터와 테스트 데이터의 스케일링 기준 정보가 서로 달라지기 때문에 올바른 예측 결과를 도출하지 못할 수 있다.


test_array에 Scale 변환을 할 때는 반드시 fit()을 호출하지 않고 transform()만으로 변환해야한다.

- 즉 가능하다면 전체 데이터의 스케일링 변환을 적용한 뒤 학습과 테스트 데이터로 분리하던가 이것이 여의치 않다면 테스트 데이터 변환 시에는 fit()이나 fit_transform()을 적용하지 않고 학습 데이터로 이미 fit()된 scaler 객체를 이용해 transform()으로 변환

----

***`131p 사이킷런으로 수행하는 타이타닉 생존자 예측, 꼭 한 번 실습해보기`***