# 숙제
* 데이터 전처리 코드 사용법 부분 정리  
* 피쳐 스케일링과 정규화 개념에 대한 정리  

# 데이터 전처리
  
> 목적  
> 머신러닝은 데이터의 질에 따라서 큰 성능 차이를 보일 수 있음  
> 이에 양질의 데이터를 만들기 위한 전처리가 필요  
  
> 행위  
> * 결손값 (NAN, Null) 을 삭제하거나  
> * 결손값 (NAN, Null) 을 다른 값으로 대체 : 평균값 대치, 중앙값 대치 등  


## 데이터 인코딩
  
> 목적  
> * 머신러닝 알고리즘은 문자열을 입력값으로 허용하지 않음 -> 숫자형으로 변환해줘야 함  
> 

### 레이블 인코딩  
  
> 목적  
> 카테고리 피쳐 (카테고리형 변수) 들을 코드(숫자) 값으로 변환하는 것  
> TV, 냉장고, 전자레인지 와 같은 item을 각각 TV:1, 냉장고:2, 전자레인지:3 과 같이 변환  
> 변환한 값들은 array 형태와 같이 저장된다    

> 사용법  
> encoder.fit(학습시킬 레이블) : 레이블을 인코더에 학습시킨다. 다른 아이템을 돌리면 추가가 아닌 덮어쓰기가 되므로 주의!  
  
> 주의사항  
> * 일괄적인 인코딩을 하게 되면, 각각의 코드는 숫자로 표현되기 때문에,  
> * 머신러닝 모델이 이 숫자의 크고 작음에 대해 의미를 부여해버릴 수 있다. (원래는 의미 없음)  
> * 이 때문에, 숫자의 대소에 의미를 두는 <strong><u>회귀에서는 사용해서는 안된다.</u></strong>  
> * 다만, 분류모델에서는 숫자의 대소에 영향을 받지 않으므로, 사용해도 상관 없음  

In [1]:
from sklearn.preprocessing import LabelEncoder

In [39]:
# 인코딩할 아이템
items = ['TV', '냉장고', '전자레인지', '컴퓨터', '선풍기', '믹서', '믹서']

# 인코더 선언
encoder = LabelEncoder()

# 인코더에 item 학습시키기
encoder.fit(items)

# 학습한 item 을 숫자형으로 transform 
# labels = items를 인코딩한 코드값
labels = encoder.transform(items)

In [18]:
print(labels) # item 을 숫자코드로 transform 한 값을 반환
print(encoder.transform(['냉장고'])) # 냉장고를 transform 한 코드값을 반환
print(encoder.classes_) # 인코딩된 대상들을 보여준다.
print(encoder.inverse_transform([1])) #1번으로 인코딩된 대상을 원상복구(원래값)으로 반환한다.
print(encoder.inverse_transform(labels)) # 인코딩된 items 를 원상복구(원래값)으로 반환한다.

[0 1 4 5 3 2 2]
[1]
['TV' '냉장고' '믹서' '선풍기' '전자레인지' '컴퓨터']
['냉장고']
['TV' '냉장고' '전자레인지' '컴퓨터' '선풍기' '믹서' '믹서']


### 원 핫 인코딩  
  
> 목적 & 설명  
> 회귀식이, 인코딩된 코드값의 대소에 의해 영향을 받지 않도록 인코딩  
> 피쳐 - 코드값에 대한 데이터프레임이 만들어지고, 각 피쳐는 칼럼에 배치된다.  
> 그리고, 

![image.png](attachment:4a7c1ac6-da4a-4855-accb-15590cb63fa5.png)  
  
> 사용법  
> 인코딩할 대상은 array 형태여야만 한다. (reshape 등의 조치 필요)  
> `from sklearn.preprocessing import OneHotEncoder` : 인코더 import  
> `OneHotEncoder().fit(아이템)` : 인코더에 아이템 학습  
> `OneHotEncoder().(아이템)

In [21]:
from sklearn.preprocessing import OneHotEncoder
import numpy as np

In [27]:
# 인코딩할 아이템
items = ['TV', '냉장고', '전자레인지', '컴퓨터', '선풍기', '믹서', '믹서']

# items를 array 형태로 변환
array_items = np.array(items).reshape(-1, 1)
array_items

array([['TV'],
       ['냉장고'],
       ['전자레인지'],
       ['컴퓨터'],
       ['선풍기'],
       ['믹서'],
       ['믹서']], dtype='<U5')

In [44]:
# 인코더 선언
oh_encoder = OneHotEncoder()

# 인코더에 items 학습시키기
oh_encoder.fit(array_items)

# 학습한 items 를 transform
oh_labels = oh_encoder.transform(array_items)
print(oh_labels)

# 결과를 행렬 형태로 바꾸어보자
print(oh_labels.toarray())

# 결과물을 DF 형태로 바꾸어보자
import pandas as pd
df_labels = pd.DataFrame(oh_labels.toarray())
print(df_labels)

# items 원래 이름과 인코딩값 매칭
df = pd.DataFrame({'item' : ['TV', '냉장고', '전자레인지', '컴퓨터', '선풍기', '믹서', '믹서']})
pd.get_dummies(df['item'])

  (0, 0)	1.0
  (1, 1)	1.0
  (2, 4)	1.0
  (3, 5)	1.0
  (4, 3)	1.0
  (5, 2)	1.0
  (6, 2)	1.0
[[1. 0. 0. 0. 0. 0.]
 [0. 1. 0. 0. 0. 0.]
 [0. 0. 0. 0. 1. 0.]
 [0. 0. 0. 0. 0. 1.]
 [0. 0. 0. 1. 0. 0.]
 [0. 0. 1. 0. 0. 0.]
 [0. 0. 1. 0. 0. 0.]]
     0    1    2    3    4    5
0  1.0  0.0  0.0  0.0  0.0  0.0
1  0.0  1.0  0.0  0.0  0.0  0.0
2  0.0  0.0  0.0  0.0  1.0  0.0
3  0.0  0.0  0.0  0.0  0.0  1.0
4  0.0  0.0  0.0  1.0  0.0  0.0
5  0.0  0.0  1.0  0.0  0.0  0.0
6  0.0  0.0  1.0  0.0  0.0  0.0


Unnamed: 0,TV,냉장고,믹서,선풍기,전자레인지,컴퓨터
0,1,0,0,0,0,0
1,0,1,0,0,0,0
2,0,0,0,0,1,0
3,0,0,0,0,0,1
4,0,0,0,1,0,0
5,0,0,1,0,0,0
6,0,0,1,0,0,0


In [41]:
# 인코딩된 items 이 무엇들인지 반환
print(oh_encoder.categories_)

# 인코딩된 items 특정 값을 원래 형태로 반환
print(oh_encoder.inverse_transform([[1., 0., 0., 0., 0., 0.]]))

[array(['TV', '냉장고', '믹서', '선풍기', '전자레인지', '컴퓨터'], dtype='<U5')]
[['TV']]


## 피처 스케일링과 정규화  
  
* 표준화 : 피처들의 평균이 0 이고 분산이 1인 가우시안 정규 분포를 띄게끔 변환해주는 것  
* 정규화 : 서로 다른 피처의 크기를 통일하기 위해 변환하는 개념  

### StandardScaler  
  
* 평균이 0 , 분산이 1에 가까운 값으로 변환하는 것  

In [50]:
# 데이터셋 : iris
from sklearn.datasets import load_iris

iris = load_iris(as_frame=True)

print(iris.data.mean()) # 평균 살펴보기
print(iris.data.var()) # 분산 살펴보기

sepal length (cm)    5.843333
sepal width (cm)     3.057333
petal length (cm)    3.758000
petal width (cm)     1.199333
dtype: float64
sepal length (cm)    0.685694
sepal width (cm)     0.189979
petal length (cm)    3.116278
petal width (cm)     0.581006
dtype: float64


In [52]:
# iris 데이터 스케일링
from sklearn.preprocessing import StandardScaler

scaler
scaler = StandardScaler()
scaler.fit(iris.data)
iris_scaled = scaler.transform(iris.data)

iris_scaled # array 형식

array([[-9.00681170e-01,  1.01900435e+00, -1.34022653e+00,
        -1.31544430e+00],
       [-1.14301691e+00, -1.31979479e-01, -1.34022653e+00,
        -1.31544430e+00],
       [-1.38535265e+00,  3.28414053e-01, -1.39706395e+00,
        -1.31544430e+00],
       [-1.50652052e+00,  9.82172869e-02, -1.28338910e+00,
        -1.31544430e+00],
       [-1.02184904e+00,  1.24920112e+00, -1.34022653e+00,
        -1.31544430e+00],
       [-5.37177559e-01,  1.93979142e+00, -1.16971425e+00,
        -1.05217993e+00],
       [-1.50652052e+00,  7.88807586e-01, -1.34022653e+00,
        -1.18381211e+00],
       [-1.02184904e+00,  7.88807586e-01, -1.28338910e+00,
        -1.31544430e+00],
       [-1.74885626e+00, -3.62176246e-01, -1.34022653e+00,
        -1.31544430e+00],
       [-1.14301691e+00,  9.82172869e-02, -1.28338910e+00,
        -1.44707648e+00],
       [-5.37177559e-01,  1.47939788e+00, -1.28338910e+00,
        -1.31544430e+00],
       [-1.26418478e+00,  7.88807586e-01, -1.22655167e+00,
      

In [57]:
# 스케일링 된 값 DataFrame으로 좀 더 편하게 보기
iris_df = pd.DataFrame(iris_scaled)
print(iris_df)

# 평균과 분산 살펴보기
print(iris_df.mean()) # 평균이 0 에 가까운 값으로 스케일링 됨
print(iris_df.var()) # 분산이 1에 가까운 값으로 스케일링 됨

            0         1         2         3
0   -0.900681  1.019004 -1.340227 -1.315444
1   -1.143017 -0.131979 -1.340227 -1.315444
2   -1.385353  0.328414 -1.397064 -1.315444
3   -1.506521  0.098217 -1.283389 -1.315444
4   -1.021849  1.249201 -1.340227 -1.315444
..        ...       ...       ...       ...
145  1.038005 -0.131979  0.819596  1.448832
146  0.553333 -1.282963  0.705921  0.922303
147  0.795669 -0.131979  0.819596  1.053935
148  0.432165  0.788808  0.933271  1.448832
149  0.068662 -0.131979  0.762758  0.790671

[150 rows x 4 columns]
0   -2.775558e-16
1   -9.695948e-16
2   -8.652338e-16
3   -4.662937e-16
dtype: float64
0    1.006711
1    1.006711
2    1.006711
3    1.006711
dtype: float64


### MIN - MAX Scaler
  
* 

In [58]:
# 스케일러 임포트, 데이터 학습 및 변환 진행
from sklearn.preprocessing import MinMaxScaler

scaler = MinMaxScaler()
scaler.fit(iris.data)
iris_scaled = scaler.transform(iris.data)

iris_scaled

array([[0.22222222, 0.625     , 0.06779661, 0.04166667],
       [0.16666667, 0.41666667, 0.06779661, 0.04166667],
       [0.11111111, 0.5       , 0.05084746, 0.04166667],
       [0.08333333, 0.45833333, 0.08474576, 0.04166667],
       [0.19444444, 0.66666667, 0.06779661, 0.04166667],
       [0.30555556, 0.79166667, 0.11864407, 0.125     ],
       [0.08333333, 0.58333333, 0.06779661, 0.08333333],
       [0.19444444, 0.58333333, 0.08474576, 0.04166667],
       [0.02777778, 0.375     , 0.06779661, 0.04166667],
       [0.16666667, 0.45833333, 0.08474576, 0.        ],
       [0.30555556, 0.70833333, 0.08474576, 0.04166667],
       [0.13888889, 0.58333333, 0.10169492, 0.04166667],
       [0.13888889, 0.41666667, 0.06779661, 0.        ],
       [0.        , 0.41666667, 0.01694915, 0.        ],
       [0.41666667, 0.83333333, 0.03389831, 0.04166667],
       [0.38888889, 1.        , 0.08474576, 0.125     ],
       [0.30555556, 0.79166667, 0.05084746, 0.125     ],
       [0.22222222, 0.625     ,

In [61]:
# 스케일링 된 값 DataFrame으로 좀 더 편하게 보기
iris_df = pd.DataFrame(iris_scaled)
print(iris_df)

# 평균과 분산 살펴보기
print(iris_df.min()) # 최소값이 0 이 되도록 변환된 것을 볼 수 있음  
print(iris_df.max()) # 최대값이 1 이 되도록 변환된 것을 볼 수 있음  


            0         1         2         3
0    0.222222  0.625000  0.067797  0.041667
1    0.166667  0.416667  0.067797  0.041667
2    0.111111  0.500000  0.050847  0.041667
3    0.083333  0.458333  0.084746  0.041667
4    0.194444  0.666667  0.067797  0.041667
..        ...       ...       ...       ...
145  0.666667  0.416667  0.711864  0.916667
146  0.555556  0.208333  0.677966  0.750000
147  0.611111  0.416667  0.711864  0.791667
148  0.527778  0.583333  0.745763  0.916667
149  0.444444  0.416667  0.694915  0.708333

[150 rows x 4 columns]
0    0.0
1    0.0
2    0.0
3    0.0
dtype: float64
0    1.0
1    1.0
2    1.0
3    1.0
dtype: float64


sepal length (cm)    7.9
sepal width (cm)     4.4
petal length (cm)    6.9
petal width (cm)     2.5
dtype: float64

In [73]:
# MINMAX SCALER 더 직관적으로 살펴보기 1
train_array = np.arange(0,11).reshape(-1,1)
print(train_array, "\n")

test_array = np.arange(0,6).reshape(-1,1)
print(test_array, "\n")

scaler = MinMaxScaler()
scaler.fit(train_array)
train_array = scaler.transform(train_array)

print(train_array, "\n")

# MINMAX SCALER 더 직관적으로 살펴보기 2
scaler = MinMaxScaler()
scaler.fit(test_array)
test_array = scaler.transform(test_array)

print(test_array, "\n")

# MINMAX - test : fit 과 transform 다르게 해보기
# fit 과 test 가 다르면 -> 결과값이 원하는대로 나오지 않는다.
t1_array = np.arange(10,21).reshape(-1,1)
t2_array = np.arange(0,11).reshape(-1,1)
scaler = MinMaxScaler()
scaler.fit(t1_array)
t2_array = scaler.transform(t2_array)
print(t2_array, "\n")

[[ 0]
 [ 1]
 [ 2]
 [ 3]
 [ 4]
 [ 5]
 [ 6]
 [ 7]
 [ 8]
 [ 9]
 [10]] 

[[0]
 [1]
 [2]
 [3]
 [4]
 [5]] 

[[0. ]
 [0.1]
 [0.2]
 [0.3]
 [0.4]
 [0.5]
 [0.6]
 [0.7]
 [0.8]
 [0.9]
 [1. ]] 

[[0. ]
 [0.2]
 [0.4]
 [0.6]
 [0.8]
 [1. ]] 

[[-1. ]
 [-0.9]
 [-0.8]
 [-0.7]
 [-0.6]
 [-0.5]
 [-0.4]
 [-0.3]
 [-0.2]
 [-0.1]
 [ 0. ]] 

