# 데이터 전처리
ML 알고리즘에선 
- 결손값(NaN, Null) 을 허용하지 않는다.
- 문자형 데이터형은 사용하지 않는다. 따라서 숫자형 데이터로 인코딩해서 활용해야한다.
- 주민번호나 단순 아이디 문자열 처럼 식벽자 피처는 단순 데이터 로우 식별에 사용되므로 삭제하는게 좋다.

## 데이터 인코딩

### 레이블 인코딩
전체 데이터에서 유니크 값을 뽑아 낸 다음. 일련번호를 붙혀서 딕셔너리를 만든 후 수치화(인코딩 작업) 한다.
실제 적으론 리스트를 만든다.

- 인코딩으로 변환하여 ML 모델을 구성할 때 우리는 단순히 숫자값으로 데이터를 구분하기 위해 레이블 인코딩을 사용했지만, 
잘못되면 중요도의 점수가 매겨져 가중치가 생겨면 ML 모델에 성능을 떨어뜨릴 수 있다.
이런 문제점을 해결해줄 방법이 원-핫 인코딩

### 원-핫 인코딩
고유값의 개수만큼의 컬럼 형으로 데이터를 인코딩 해주어 분류하는 방법.

- 이것도 컬럼이 너무 많아 질 수 있어서 문제가 있다.

In [1]:
# 인코딩 모듈 활성화
from sklearn.preprocessing import LabelEncoder

In [38]:
items=['TV','냉장고','전자레인지','컴퓨터','선풍기','선풍기','믹서','믹서']
# `fit` 은 데이터를 학습할 모델 부분 지정하는 것.
# 이걸로 먼저 학습할 표본 데이터를 전체 저장해줘야 함.
# 새로운 들어올 데이터는 이 학습된 데이터에 맞춰서 transform 될 예정. (목표 딕셔너리 지정)

# `transform` 은 인코딩 변환해줄 데이터 숫자로 변경 해주는 명령.
encoder = LabelEncoder()
# 목록 생성
encoder.fit(items)
labels = encoder.transform(items)

In [3]:
labels

array([0, 1, 4, 5, 3, 3, 2, 2])

In [4]:
# 냉장고 인코딩 값 보여줌
encoder.transform(['냉장고'])

array([1])

In [5]:
# 사전에 학습할 정보 확인해줌
encoder.classes_

array(['TV', '냉장고', '믹서', '선풍기', '전자레인지', '컴퓨터'], dtype='<U5')

In [6]:
# 1번이 이 사전에서 뭘 의미하는지 알려줌.
encoder.inverse_transform([1])

array(['냉장고'], dtype='<U5')

In [7]:
# 인코딩 된 데이터들 인콛딩 전의 데이터로 원상 복구(변경)해줌.
# 사전 데이터 일일이 조회하기 힘들 때 사용?
# 그래서 원본 데이터나 인코딩 데이터를 따로 저장해서 둘이 같이 보면서 작업하는게 좋음.
encoder.inverse_transform(labels)

array(['TV', '냉장고', '전자레인지', '컴퓨터', '선풍기', '선풍기', '믹서', '믹서'], dtype='<U5')

In [8]:
from sklearn.preprocessing import OneHotEncoder
import numpy as np

In [9]:
items
# items=['TV','냉장고','전자레인지','컴퓨터','선풍기','선풍기','믹서','믹서'] 가 이런 모양이니까 `items_l`와 같은 모양으로 바꿔야 
# 한 행에 한 데이터가 들어가져서 모양 바꿔줘야됨
# 원-핫 인코딩 
# array.reshape(-1, 1) 해야줘야 함.
# 먼저 넘파이 어레이 형태로 변환 후 reshape
items_t = np.array(items).reshape(-1, 1)
items_t
items_l = [['TV'],
       ['냉장고'],
       ['전자레인지'],
       ['컴퓨터'],
       ['선풍기'],
       ['선풍기'],
       ['믹서'],
       ['믹서']]

In [10]:
# 원-핫 인코더 생성
oh_encoder = OneHotEncoder()
oh_encoder.fit(items_t)
result = oh_encoder.transform(items_t)
result.toarray()

array([[1., 0., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0., 0.],
       [0., 0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 0., 1.],
       [0., 0., 0., 1., 0., 0.],
       [0., 0., 0., 1., 0., 0.],
       [0., 0., 1., 0., 0., 0.],
       [0., 0., 1., 0., 0., 0.]])

In [11]:
# 카테고리 값들 조회
oh_encoder.categories_

[array(['TV', '냉장고', '믹서', '선풍기', '전자레인지', '컴퓨터'], dtype='<U5')]

In [12]:
# 데이터 투입해서 해당 데이터의 칼럼 값 확인
oh_encoder.inverse_transform([[1., 0., 0., 0., 0., 0.]])

array([['TV']], dtype='<U5')

In [13]:
oh_encoder.transform([['냉장고']]).toarray()

array([[0., 1., 0., 0., 0., 0.]])

In [14]:
import pandas as pd

In [15]:
# df 하나 생성
df = pd.DataFrame({'item':['TV', '냉장고', '전자레인지', '컴퓨터', '선풍기', '선풍기', '믹서', '믹서']})

In [16]:
# `get_dummies` 원-핫 인코딩 더 쉽게 지원하는 API
pd.get_dummies(df['item'])

Unnamed: 0,TV,냉장고,믹서,선풍기,전자레인지,컴퓨터
0,1,0,0,0,0,0
1,0,1,0,0,0,0
2,0,0,0,0,1,0
3,0,0,0,0,0,1
4,0,0,0,1,0,0
5,0,0,0,1,0,0
6,0,0,1,0,0,0
7,0,0,1,0,0,0


## 피처 스케일링과 정규화
서로 다른 변수 값의 범위를 일정한 수준으로 맞추는 작업

### 스케일링

>스케일링
>> 표준화
> 데이터의 피처 각각이 평균이 0, 분산이 1인 가우시안 정규 분포를 가진 값으로 변환하는 것.
> (표준편차는 각 측정값과 평균의 차이를 측정하여 해당 자료의 산포도를 나타내는 값)
>
>> 정규화
서로 다른 피처의 크기를 통일하기 위해 크기를 변환해주는 개념이다.



In [17]:
from sklearn.datasets import load_iris

In [18]:
iris = load_iris(as_frame= True)

In [19]:
# 평균값
iris.data.mean()

sepal length (cm)    5.843333
sepal width (cm)     3.057333
petal length (cm)    3.758000
petal width (cm)     1.199333
dtype: float64

In [20]:
# 분산 값
iris.data.var()

sepal length (cm)    0.685694
sepal width (cm)     0.189979
petal length (cm)    3.116278
petal width (cm)     0.581006
dtype: float64

In [21]:
from sklearn.preprocessing import StandardScaler

In [22]:
scaler = StandardScaler()
scaler.fit(iris.data)
iris_scaled = scaler.transform(iris.data)

In [23]:
iris_df = pd.DataFrame(iris_scaled)

In [24]:
# 평균값이 0에 아주 가까워짐
iris_df.mean().round(5)

0   -0.0
1   -0.0
2   -0.0
3   -0.0
dtype: float64

In [25]:
# 분산값이 1에 가까워짐
iris_df.var()

0    1.006711
1    1.006711
2    1.006711
3    1.006711
dtype: float64

In [26]:
from sklearn.preprocessing import MinMaxScaler

In [27]:
# 균등분포면 MinMax 사용.
scarler = MinMaxScaler()

In [28]:
scarler.fit(iris.data)
iris_scaled = scarler.transform(iris.data)

In [29]:
iris_df = pd.DataFrame(iris_scaled)
# 0으로 min값 맞춰짐.

iris_df.min(),iris.data.min()

(0    0.0
 1    0.0
 2    0.0
 3    0.0
 dtype: float64,
 sepal length (cm)    4.3
 sepal width (cm)     2.0
 petal length (cm)    1.0
 petal width (cm)     0.1
 dtype: float64)

In [30]:
# 1로 맥스값 맞춰짐
iris_df.max(),iris.data.max()

(0    1.0
 1    1.0
 2    1.0
 3    1.0
 dtype: float64,
 sepal length (cm)    7.9
 sepal width (cm)     4.4
 petal length (cm)    6.9
 petal width (cm)     2.5
 dtype: float64)

In [31]:
# 변환 테스트 해보기

train_array = np.arange(0,11).reshape(-1,1)
train_array

array([[ 0],
       [ 1],
       [ 2],
       [ 3],
       [ 4],
       [ 5],
       [ 6],
       [ 7],
       [ 8],
       [ 9],
       [10]])

In [32]:
test_array = np.arange(0,6).reshape(-1,1)
test_array

array([[0],
       [1],
       [2],
       [3],
       [4],
       [5]])

In [33]:
scaler = MinMaxScaler()
scaler.fit(train_array)
train_array = scaler.transform(train_array)

In [34]:
train_array

array([[0. ],
       [0.1],
       [0.2],
       [0.3],
       [0.4],
       [0.5],
       [0.6],
       [0.7],
       [0.8],
       [0.9],
       [1. ]])

In [35]:
# 잘못된 예를 시도해보자
# fit을 새롭게 하면 안된다!
# scaler.fit(test_array) 
# 위의 식 주석 안하면 데이터 잘못나옴 train_array 결과처럼 0.5까지 나와야함.
# array([[0. ],
#        [0.1],
#        [0.2],
#        [0.3],
#        [0.4],
#        [0.5]])
test_array = scaler.transform(test_array)

In [36]:
test_array

array([[0. ],
       [0.1],
       [0.2],
       [0.3],
       [0.4],
       [0.5]])

# 129p. 
1. 설명 참고
2. 