### 데이터 인코딩
- 머신러닝 알고리즘은 문자열 데이터 속성을 입력 받지 않으며, 모든 데이터는 숫자형으로 표현되어야 합니다. <br>
문자형 카테고리형 속성은 모두 숫자값으로 변환/인코딩 되어야 합니다.

![image.png](attachment:image.png)

![image.png](attachment:image.png)

#### 레이블 인코딩(Label encoding)
* sklearn에서 지도학습, 비지도학습 등등 모두 fit하고 predict하거나, transform하는 workflow를 갖는다.<br>
preprocessing중 인코딩역시 fit하고 transform하는 과정을 갖는다.

In [11]:
from sklearn.preprocessing import LabelEncoder

items=['TV','냉장고','전자렌지','컴퓨터','선풍기','선풍기','믹서','믹서']

# LabelEncoder를 객체로 생성한 후, fit( )과 transform( )으로 label 인코딩 수행.
# fit 역할 : 카테고리컬 값을 숫자값으로 바꾸는 역할.
encoder = LabelEncoder()
# fit & transform
encoder.fit(items) # items에 대해 유니크 값으로 숫자 라벨링
encoder.transform(items)
print(f"인코딩 변환값: {labels}")

인코딩 변환값: [0 1 4 5 3 3 2 2]


In [14]:
labels = encoder.fit_transform(items)
print(f"인코딩 변환값: {labels}")

인코딩 변환값: [0 1 4 5 3 3 2 2]


In [16]:
## .classes_: 원래 무슨값인지 알고 싶을떄
print(f"인코딩 클래스: {encoder.classes_}")

인코딩 클래스: ['TV' '냉장고' '믹서' '선풍기' '전자렌지' '컴퓨터']


In [19]:
## inverse_transform : 숫자->문자
print(f"디코딩 원본 값: {encoder.inverse_transform([0,1,2,3,4,5])}")

디코딩 원본 값: ['TV' '냉장고' '믹서' '선풍기' '전자렌지' '컴퓨터']


#### 원-핫 인코딩(One-Hot encoding)

In [20]:
from sklearn.preprocessing import OneHotEncoder
import numpy as np
import pandas as pd

items=['TV','냉장고','전자렌지','컴퓨터','선풍기','선풍기','믹서','믹서']

# 원-핫 인코딩 하려면 2차원으로 바꿔야 한다. -> 8행 1열
items = np.array(items).reshape(-1,1)
print(f"2차원 배열 변환 결과\n{items}\n")

# 원-핫 인코딩 생성
oh_encoder = OneHotEncoder()
## fit & transform
oh_encoder.fit(items)
oh_labels = oh_encoder.transform(items)

print(f"원-핫 인코딩 결과 array\n{oh_labels.toarray()}")
print(f"원-핫 인코딩 shape: {oh_labels.shape}")

In [33]:
## fit_transform 한번에 적용하기
oh_encoder = OneHotEncoder()
oh_encoder.fit_transform(items).toarray()

array([[1., 0., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0., 0.],
       [0., 0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 0., 1.],
       [0., 0., 0., 1., 0., 0.],
       [0., 0., 0., 1., 0., 0.],
       [0., 0., 1., 0., 0., 0.],
       [0., 0., 1., 0., 0., 0.]])

In [34]:
## pd.get_dummies를 이용하면 바로 one-hot 인코딩 가능
df = pd.DataFrame({'item':['TV','냉장고','전자렌지','컴퓨터','선풍기','선풍기','믹서','믹서']})
df

Unnamed: 0,item
0,TV
1,냉장고
2,전자렌지
3,컴퓨터
4,선풍기
5,선풍기
6,믹서
7,믹서


In [113]:
# df에서 object형을 모두 찾아 one hot encoding을 해서 데이터프레임으로 만든다.
pd.get_dummies(df)

Unnamed: 0,item_TV,item_냉장고,item_믹서,item_선풍기,item_전자렌지,item_컴퓨터
0,1,0,0,0,0,0
1,0,1,0,0,0,0
2,0,0,0,0,1,0
3,0,0,0,0,0,1
4,0,0,0,1,0,0
5,0,0,0,1,0,0
6,0,0,1,0,0,0
7,0,0,1,0,0,0


### 피처 스케일링과 정규화

![image.png](attachment:image.png)

- 피처 스케일링: 서로 다른 피처간의 크기에 대한 척도를 균일하게 통일시키는 작업.
    - 1) 표준화: 데이터의 피처 각각이 평균이 0이고, 분산이 1인 가우시안 정규 분포를 가진 값으로 변환하는 것.<br>
        z-score 변환: 데이터 분포의 중심을 0으로(Zero-Centered )
    - 2) 정규화: <br>
        -1 ~ 1 or 0 ~ 1 사이값으로 변환할 수 있는데, 보통 0~1사이 값으로 변환한다.

In [51]:
from sklearn.datasets import load_iris
import pandas as pd

## 붓꽃 데이터셋을 로딩하고 DataFrame으로 변환
iris = load_iris()
iris_df = pd.DataFrame(data=iris.data, columns=iris.feature_names)

display(iris_df.head(2))
print(f"feature들의 평균 값\n{iris_df.mean()}")
print(f"\nfeature들의 분산 값\n{iris_df.var()}")

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2


feature들의 평균 값
sepal length (cm)    5.843333
sepal width (cm)     3.057333
petal length (cm)    3.758000
petal width (cm)     1.199333
dtype: float64

feature들의 분산 값
sepal length (cm)    0.685694
sepal width (cm)     0.189979
petal length (cm)    3.116278
petal width (cm)     0.581006
dtype: float64


#### StandardScaler
**평균이 0이고, 분산이 1인 정규 분포 형태로 변환**

In [114]:
from sklearn.preprocessing import StandardScaler

# StandardScaler객체 생성
scaler = StandardScaler()
# StandardScaler로 데이터 셋 변환. fit()과 transform() 사용
scaler.fit(iris_df) # fit(): 각 컬럼에 대해, stdev와 mean값 계산
iris_scaled = scaler.transform(iris_df) # 각 Row에 공식 계산

# transform() 반환값인 nd.array를 DataFrame으로 변환
iris_scaled = pd.DataFrame(data=iris_scaled, columns=iris.feature_names)
display(iris_scaled.head(3))
## 부동소수점 때문
print(f"feature들의 평균 값\n{iris_scaled.mean()}") # 모든 컬럼에서 평균이 0에 매우 가깝다 -> 거의 0 이다.
print(f"feature들의 분산 값\n{iris_scaled.var()}") # 모든 컬럼에서 분산이 1에 매우 가깝다 -> 거의 1 이다.

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,-0.900681,1.019004,-1.340227,-1.315444
1,-1.143017,-0.131979,-1.340227,-1.315444
2,-1.385353,0.328414,-1.397064,-1.315444


feature들의 평균 값
sepal length (cm)   -1.690315e-15
sepal width (cm)    -1.842970e-15
petal length (cm)   -1.698641e-15
petal width (cm)    -1.409243e-15
dtype: float64
feature들의 분산 값
sepal length (cm)    1.006711
sepal width (cm)     1.006711
petal length (cm)    1.006711
petal width (cm)     1.006711
dtype: float64


In [115]:
scaler.scale_

array([0.82530129, 0.43441097, 1.75940407, 0.75969263])

#### MinMaxScaler
**데이터값을 0과 1사이의 범위 값으로 변환. (음수 값이 있으면 -1에서 1값으로 변환)**

In [62]:
from sklearn.preprocessing import MinMaxScaler

In [65]:
# MinMaxScaler 객체 생성
scaler = MinMaxScaler()
# MinMaxScaler로 데이터 셋 변환. fit()과 transform() 사용
scaler.fit(iris_df) # 각 컬럼에 대해, min, max값 계산
iris_scaled = scaler.transform(iris_df) # 각 행에 공식 적용

# transform() 반환값인 ndarray를 DataFrame으로 변환
iris_scaled = pd.DataFrame(data=iris_scaled, columns=iris.feature_names)
display(iris_scaled.head(3))
print(f"feature들의 최소 값\n{iris_scaled.min()}\n") # min값은 각 컬럼별로 모두 0이다.
print(f"featire들의 최대 값\n{iris_scaled.max()}") # max값은 각 컬럼별로 모두 1이다.

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,0.222222,0.625,0.067797,0.041667
1,0.166667,0.416667,0.067797,0.041667
2,0.111111,0.5,0.050847,0.041667


feature들의 최소 값
sepal length (cm)    0.0
sepal width (cm)     0.0
petal length (cm)    0.0
petal width (cm)     0.0
dtype: float64

featire들의 최대 값
sepal length (cm)    1.0
sepal width (cm)     1.0
petal length (cm)    1.0
petal width (cm)     1.0
dtype: float64


#### Standard, MinMax Scaler모두 fit_transform으로 한번에 구할 수 있다.

In [88]:
scaler = StandardScaler()
arr = scaler.fit_transform(iris_df)
pd.DataFrame(arr,columns=iris.feature_names).sample(5,random_state=11).sort_index()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
56,0.553333,0.558611,0.535409,0.527406
111,0.674501,-0.82257,0.876433,0.922303
112,1.159173,-0.131979,0.990108,1.185567
133,0.553333,-0.592373,0.762758,0.395774
145,1.038005,-0.131979,0.819596,1.448832


In [85]:
scaler = MinMaxScaler()
arr = scaler.fit_transform(iris_df)
pd.DataFrame(arr, columns=iris.feature_names).sample(5,random_state=11).sort_index()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
56,0.555556,0.541667,0.627119,0.625
111,0.583333,0.291667,0.728814,0.75
112,0.694444,0.416667,0.762712,0.833333
133,0.555556,0.333333,0.694915,0.583333
145,0.666667,0.416667,0.711864,0.916667


#### Scaler를 이용하여 학습 데이터와 테스트 데이터에 fit(), transform(), fit_transform() 적용 시 유의사항. 
  - 학습데이터가 **0 ~ 10** 까지이고, 테스트데이터가 **0~5** 까지인 경우<br>
  - 학습데이터에 scaler를 fit시키고, 테스트데이터에 scaler를 또 fit 하면 척도가 서로 달라진다.<br>
   -> 아래 예시에선 학습데이터가 0,0.1, 0.2 ... 0.9, 1.0의 스케일인데, 테스트 데이터는 0, 0.2, 0.4 ... 0.8, 1.0이다<br>
  * 이렇게 되면 같은 5의 값에대해 학습데이터는 0.5라고하고, 테스트데이터는 1.0이라고 해서 서로 값이 달라지게된다.

**즉, 학습데이터로 fit한 스케일을 test데이터에서 그대로 사용해야 같은 스케일상에서 학습과 테스트가 이루어지는 것이다.<br>
테스트데이터에 대해 fit을 다시하면, 학습데이터와 테스트데이터간 스케일이 달라질 수 있다는 것을 주의!**

In [98]:
from sklearn.preprocessing import MinMaxScaler
import numpy as np

# 학습 데이터는 0~10까지, 테스트 데이터는 0~5까지
# Scaler에서 fit(), transform()은 2차원 이상 데이터만 가능하므로, reshape(-1,1)이용
train_array = np.arange(0,11).reshape(-1,1)
test_array = np.arange(0,6).reshape(-1,1)
print(f"train_array: {train_array.tolist()}")
print(f"test_array:  {test_array.tolist()}")

train_array: [[0], [1], [2], [3], [4], [5], [6], [7], [8], [9], [10]]
test_array:  [[0], [1], [2], [3], [4], [5]]


In [105]:
# 최소값 0, 최대값 1로 변환하는 MinMaxScaler 객체 생성
scaler = MinMaxScaler()
## fit & transform
scaler.fit(train_array)
train_scaled = scaler.transform(train_array) # 원본 10->1로 변환

print(f"원본 train_array: {train_array.tolist()}")
print(f"Scale된 train_array: {np.round(train_scaled,2).tolist()}")

원본 train_array: [[0], [1], [2], [3], [4], [5], [6], [7], [8], [9], [10]]
Scale된 train_array: [[0.0], [0.1], [0.2], [0.3], [0.4], [0.5], [0.6], [0.7], [0.8], [0.9], [1.0]]


**test데이터를 다시 fit하면, train과 스케일이 달라진다. -> 잘못된 결과**

In [107]:
# 앞에서 생성한 MinMaxScaler에 test_array를 fit()하게 되면 원본 데이터의 최소값이 0, 최대값이 5로 설정됨
scaler.fit(test_array)
# 1/5 scale로 test_array 데이터 변환.
test_scaled = scaler.transform(test_array) # 원본 5->1로 변환
# train_array 변환 출력
print(f"원본 test_array 데이터: {np.round(test_array,2).tolist()}")
print(f"Scale된 test_array 데이터: {np.round(test_scaled,2).tolist()}")

원본 test_array 데이터: [[0], [1], [2], [3], [4], [5]]
Scale된 test_array 데이터: [[0.0], [0.2], [0.4], [0.6], [0.8], [1.0]]


**train_array에 fit한 scaler를 테스트데이터에 그대로 사용해야 스케일이 유지가 된다.**

In [112]:
scaler = MinMaxScaler()
scaler.fit(train_array)
train_scaled = scaler.transform(train_array)
print(f"원본 train_array:{np.round(train_array,2).tolist()}")
print(f"Scaled train_array:{np.round(train_scaled,2).tolist()}\n")

test_scaled = scaler.transform(test_array)
print(f"원본 test_array: {np.round(test_array,2).tolist()}")
print(f"Scaled test_array: {np.round(test_scaled,2).tolist()}")

원본 train_array:[[0], [1], [2], [3], [4], [5], [6], [7], [8], [9], [10]]
Scaled train_array:[[0.0], [0.1], [0.2], [0.3], [0.4], [0.5], [0.6], [0.7], [0.8], [0.9], [1.0]]

원본 test_array: [[0], [1], [2], [3], [4], [5]]
Scaled test_array: [[0.0], [0.1], [0.2], [0.3], [0.4], [0.5]]
