# **머신러닝 관련해서 필요한 데이터 전처리**

## 사이킷런의 ML 알고리즘을 쓰려면 다음과 같은 조건에 만족되는 데이터 셋이 필요하다.
## **(1) 결측치(nan, null)값이 허용되지 않는다**

### nan(null) 값이 얼마 없으면 중앙값이나 평균값으로 대체한다

### nana(null) 값이 대다수라면 해당 피쳐값은 드롭하는 것도 좋다

### 중요도가 높은 피처는 유지시킨다

## **(2) 문자열도 허용되지 않는다.**

### 문자열이 허용되지 않기때문에, 해당 피쳐값에 대한 인코딩(숫자로 변환)이 필요하다.

### 인코딩은 카테고리형(코드 값)으로 대부분 변환시킨다.

### 필요없는 피처는 드롭한다.


## **레이블 인코딩**
### 문자열로 구성되어 있는 items 데이터를 카테코리화(코드화) 하는 것이다.

In [5]:
from sklearn.preprocessing import LabelEncoder
items=['TV', '냉장고', '전자레인지', '컴퓨터', '선풍기', '선풍기', '믹서', '믹서']
encoder = LabelEncoder()
encoder.fit(items)


array([0, 1, 4, 5, 3, 3, 2, 2], dtype=int64)

In [None]:
labels = encoder.transform(items)
labels

In [6]:
encoder.classes_

array(['TV', '냉장고', '믹서', '선풍기', '전자레인지', '컴퓨터'], dtype='<U5')

In [None]:
encoder.inverse_transform([4, 5, 2, 0, 1, 1, 3, 3])

< 주의 >
하지만, 여기서의 숫자들은 숫자로서의 의미가 아닌 단순한 코드의 의미로 사용되는 것이다.
따라서 이 상태로 바로 ML에 적용하면 숫자로 변환된 변수가 가중치에 영향을 줄 수 있으니 별도의 조치를 취해주어야 한다.

## **원-핫 인코딩(One-Hot Encoding)**

### One-Hot Encoding은 dummy 변수 개념을 활용하여 새롭게 코드화 하는 방법이다.

In [10]:
from sklearn.preprocessing import OneHotEncoder
import numpy as np
items=['TV', '냉장고', '전자레인지', '컴퓨터', '선풍기', '선풍기', '믹서', '믹서']
encoder = LabelEncoder()
encoder.fit(items)
labels = encoder.transform(items)
labels = labels.reshape(-1,1)
print(labels)
oh_encoder = OneHotEncoder()
oh_encoder.fit(labels)
oh_labels = oh_encoder.transform(labels)
print(oh_labels.toarray())
print(oh_labels.shape)

[[0]
 [1]
 [4]
 [5]
 [3]
 [3]
 [2]
 [2]]
[[1. 0. 0. 0. 0. 0.]
 [0. 1. 0. 0. 0. 0.]
 [0. 0. 0. 0. 1. 0.]
 [0. 0. 0. 0. 0. 1.]
 [0. 0. 0. 1. 0. 0.]
 [0. 0. 0. 1. 0. 0.]
 [0. 0. 1. 0. 0. 0.]
 [0. 0. 1. 0. 0. 0.]]
(8, 6)


## **pandas의 get_dummies 기능을 활용한 인코딩**

### One-Hot Encoding으로도 인코딩이 가능하지만, pandas에서 get_dummies() 기능을 활용하면 쉽게 변환해준다.

In [11]:
import pandas as pd
df = pd.DataFrame({'item' : ['TV', '냉장고', '전자레인지', '컴퓨터', '선풍기', '선풍기', '믹서', '믹서']})
pd.get_dummies(df)

Unnamed: 0,item_TV,item_냉장고,item_믹서,item_선풍기,item_전자레인지,item_컴퓨터
0,1,0,0,0,0,0
1,0,1,0,0,0,0
2,0,0,0,0,1,0
3,0,0,0,0,0,1
4,0,0,0,1,0,0
5,0,0,0,1,0,0
6,0,0,1,0,0,0
7,0,0,1,0,0,0


# Normalization(정규화) / Standardization(표준화)

### 데이터 분석을 수행하면서 많이 겪는 문제중 하나가 데이터 단위의 불일치이다. 
### 이를 해결하는 방법으로 <span style="color:blue">Normalization(정규화)과 Standardization(표준화)</span>가 있다. 
### 이 방법들은 대표적으로 2개 이상의 대상이 단위가 다를 때 대상 데이터를 같은 
### 기준으로 볼 수 있게 해준다. 즉, 다른 데이터와 같이 분석을 할 때에도 
### 표준화 또는 정규화된 데이터를 이용하면 단위 차이 문제 등에서 벗어날 수 있다.

### **[ 정규화(normalization)]**는 다음과 같은 공식을 사용해서 특성 값의 범위를 [0, 1]로 옮긴다.
## 식 : <span style="color:red">(측정값 - 최소값) / (최대값 - 최소값)</span>

### **[표준화(Standardization)]**는 데이터를 0을 중심으로 양쪽으로 데이터를 분포시키는 방법이다. 
### 표준화를 하면 각 데이터이 평균을 기준으로 얼마나 떨여져 있는지를 나타내는 값으로 변환된다. 
## 식(Z-score 표준화) : <span style="color:red">(측정값 - 평균) / 표준편차</span>

![](data/test.jpg)