# 데이터 전처리(Preprocessing)
- 데이터 클린징
- 결손값 처리(Null, NaN 처리)
- 데이터 인코딩(레이블, 원-핫 인코딩) => 머신러닝은 문자열을 허용하지 않아서 숫자값으로 변경해야함
- 데이터 스케일링 => 방 갯수, 학교까지 거리, 지하철까지의 거리와 같이 다른 척도 값을 공통적인 척도로 변환
- 이상치 제거 => 평균에서 동떨어진 값 해결
- Feature 선택, 추출 및 가공

## 데이터 인코딩
머신러닝 알고리즘은 문자열 데이터 속성을 입력받지 않으며 모든 데이터는 숫자형으로 표현되어야한다.
문자형 카테고리의 속성은 모두 숫자값으로 변환/인코딩 되어야 합니다.

- 레이블(Label) 인코딩
- 원-핫(One-Hot) 인코딩

### 레이블 인코딩
[TV, 냉장고, 전자레인지, 컴퓨터, 선풍기, 믹서] => [0,1,4,5,3,2]

※숫자로 변경되어서 크고 작고 같다와 같은 고유의 숫자 특징이 영향이 감
=> 원-핫 인코딩

### 원-핫 인코딩
원-핫 인코딩은 피처 값의 유형에 따라 새로운 피처를 추가해 고유 값에 해당하는 칼럼에만 1을 표시하고 나머지 칼럼에는 0을 표시하는 방법입니다.

[TV, 냉장고, 전자레인지, 컴퓨터, 선풍기, 믹서] => [0,1,4,5,3,2]

6개의 고유값으로 구분되는 것이기에 6개의 칼럼(열)을 가지는데,

- 원본 데이터 상품분류가 TV면 해당하는 열, 행에 1이고 나머지는 0이다.
- 원본 데이터 상품분류가 믹서면 해당하는 열, 행에 1이고 나머지는 0이다.

## sklearn
### 레이블 인코딩
- LabelEncoder 클래스
- fit()과 transform()을 이용하여 변환

### 원-핫 인코딩
- OneHotEncoder 클래스
- fit()과 transform()을 이용하여 변환. 인자로 2차원 ndarray 입력 필요. Sparse 배열 형태로 변환되므로 toarray()를 적용하여 다시 Dense 형태로 변환되어야 함
- pd.get_dummies(DataFram)을 이용



<br>
<br>

# 데이터 인코딩
## 레이블 인코딩(Label encoding)

In [13]:
from sklearn.preprocessing import LabelEncoder

items=['TV','냉장고','전자렌지','컴퓨터','선풍기','선풍기','믹서','믹서']

#LabelEncoder를 객체로 생성한 후, fit()과 transform()으로 label 인코딩 수행
encoder = LabelEncoder()

labels = encoder.fit_transform(items)
#encoder.fit(items)
#labels = encoder.transform(items)

print('인코딩 변환값:',labels)
print('인코딩 클래스:', encoder.classes_)
print('디코딩 원본 값:', encoder.inverse_transform([4,5,2,0,1,1,3,3]))

인코딩 변환값: [0 1 4 5 3 3 2 2]
인코딩 클래스: ['TV' '냉장고' '믹서' '선풍기' '전자렌지' '컴퓨터']
디코딩 원본 값: ['전자렌지' '컴퓨터' '믹서' 'TV' '냉장고' '냉장고' '선풍기' '선풍기']


### 원-핫 인코딩(One-Hot encoding)

In [11]:
from sklearn.preprocessing import OneHotEncoder
import numpy as np

items=['TV','냉장고','전자렌지','컴퓨터','선풍기','선풍기','믹서','믹서']

#2차원 ndarray로 변환한다.
items = np.array(items).reshape(-1, 1)
print(items)

#원-핫 인코딩을 적용한다.
oh_encoder = OneHotEncoder()
oh_encoder.fit(items)
oh_labels = oh_encoder.transform(items)

#OneHotEncoder로 변환한 결과는 Sparse 행렬(희소 행렬)이므로 이를 Dense 행렬로 변환
print('원-핫 인코딩 데이터')
print(oh_labels.toarray())
print('원-핫 인코딩 데이터 차원')
print(oh_labels.shape)

[['TV']
 ['냉장고']
 ['전자렌지']
 ['컴퓨터']
 ['선풍기']
 ['선풍기']
 ['믹서']
 ['믹서']]
원-핫 인코딩 데이터
[[1. 0. 0. 0. 0. 0.]
 [0. 1. 0. 0. 0. 0.]
 [0. 0. 0. 0. 1. 0.]
 [0. 0. 0. 0. 0. 1.]
 [0. 0. 0. 1. 0. 0.]
 [0. 0. 0. 1. 0. 0.]
 [0. 0. 1. 0. 0. 0.]
 [0. 0. 1. 0. 0. 0.]]
원-핫 인코딩 데이터 차원
(8, 6)


In [15]:
#위의 코드를 짧게
import pandas as pd
df = pd.DataFrame({'item':['TV','냉장고','전자렌지','컴퓨터','선풍기','선풍기','믹서','믹서']})
df

Unnamed: 0,item
0,TV
1,냉장고
2,전자렌지
3,컴퓨터
4,선풍기
5,선풍기
6,믹서
7,믹서


In [17]:
pd.get_dummies(df)

Unnamed: 0,item_TV,item_냉장고,item_믹서,item_선풍기,item_전자렌지,item_컴퓨터
0,1,0,0,0,0,0
1,0,1,0,0,0,0
2,0,0,0,0,1,0
3,0,0,0,0,0,1
4,0,0,0,1,0,0
5,0,0,0,1,0,0
6,0,0,1,0,0,0
7,0,0,1,0,0,0


# 피처 스케일링
## 표준화
- 데이터의 피처 각각이 평균이 0이고 분산이 1인 가우시안 정규 분포를 가진 값으로 변환하는 것을 의미한다.<br>
EX) 온도, 습도...<br>
x_i_new = x_i - mean(x)/ stdeu(x)<br>
[20,30,40] => [-1.22, 0, 1.22]<br>
평균:30, 표준편차:8.16<br>
<p style="font-weight:bold">데이터 분포의 중심을 0으로(Zero-Centered)</p>


## 정규화
- 서로 다른 피처의 크기를 통일하기 위해 크기를 변환해주는 개념이다.<br>
- 0~1에서 변환하기도하고 -1~1에서 변환하는데 이것은 0~1<br>
EX) 
x_i_new = x_i - min(x)/ max(x) - min(x)<br>
[20,30,40] => [0, 0.5, 1]<br>
최소값:20, 최대값-최소값:20

## sklearn
- StandardScaler: 평균이 0이고, 분산이 1인 정규 분포 형태고 변환
- MinMaxScaler: 데이터 값을 0과 1 사이의 범위 값으로 변환(음수 값이 있으면 -1에서 1 값으로 변환)

※선형계열의 분류 알고리즘: LR, SUM은 값의 스케일링에 민감하고, 스케일링을 한다고해서 꼭 좋아지는 것은 아님<br>
- Tree는 스케일링이 큰 영향이 없음<br>
- 선형계열의 회귀 알고리즘 또한 그럼

<br>
<br>

# 피처 스케일링과 정규화
## StandardScaler

In [20]:
from sklearn.datasets import load_iris
import pandas as pd
#붓꽃 데이터 셋을 로딩하고 DataFrame으로 변환
iris = load_iris()
iris_data = iris.data
iris_df = pd.DataFrame(data=iris_data, columns=iris.feature_names)

print('feature들의 평균 값')
print(iris_df.mean())
print('\nfeature들의 분산 값')
print(iris_df.var())

feature들의 평균 값
sepal length (cm)    5.843333
sepal width (cm)     3.057333
petal length (cm)    3.758000
petal width (cm)     1.199333
dtype: float64

feature들의 분산 값
sepal length (cm)    0.685694
sepal width (cm)     0.189979
petal length (cm)    3.116278
petal width (cm)     0.581006
dtype: float64


In [23]:
from sklearn.preprocessing import StandardScaler


#StandardScaler 객체 생성
scaler = StandardScaler()
#StandardScaler로 데이터 셋 변환. fit()과 transform() 호출
scaler.fit(iris_df)
iris_scaled = scaler.transform(iris_df)

#transform()시 scale 변환된 데이터 셋이 numpy ndarray로 변환되어 이를 DataFrame으로 변환
iris_df_scaled = pd.DataFrame(data=iris_scaled, columns=iris.feature_names)
print('feature들의 평균 값')
print(iris_df_scaled.mean())
print('\nfeature들의 분산 값')
print(iris_df_scaled.var())

feature들의 평균 값
sepal length (cm)   -1.690315e-15
sepal width (cm)    -1.842970e-15
petal length (cm)   -1.698641e-15
petal width (cm)    -1.409243e-15
dtype: float64

feature들의 분산 값
sepal length (cm)    1.006711
sepal width (cm)     1.006711
petal length (cm)    1.006711
petal width (cm)     1.006711
dtype: float64


## MinMaxScaler

In [29]:
from sklearn.preprocessing import MinMaxScaler

#MinMaxScaler객체 생성
scaler = MinMaxScaler()
#MinMaxScaler로 데이터 셋 변환, fit()과 transform() 호출
iris_scaled = scaler.fit_transform(iris_df)

#transform()시에 scale 변환된 데이터 셋이 numpy ndarray로 변환되어 이를 DataFrame으로 변환
iris_df_scaled = pd.DataFrame(data=iris_scaled, columns=iris.feature_names)

print('feature들의 평균 값')
print(iris_df_scaled.min())
print('\nfeature들의 분산 값')
print(iris_df_scaled.max())

feature들의 평균 값
sepal length (cm)    0.0
sepal width (cm)     0.0
petal length (cm)    0.0
petal width (cm)     0.0
dtype: float64

feature들의 분산 값
sepal length (cm)    1.0
sepal width (cm)     1.0
petal length (cm)    1.0
petal width (cm)     1.0
dtype: float64


### Scaler를 이용하여 학습 데이터와 테스트 데이터에 fit(), transform(), fit_transform() 적용시 유의 사항
- 학습 시킬때는 test set은 train set의 척도를 따라간다

In [30]:
#잘못된 예시
from sklearn.preprocessing import MinMaxScaler
import numpy as np

# 학습 데이터는 0부터 10까지, 테스트 데이터는 0부터 5까지 값을 가지는 데이터 세트로 생성
# Scaler 클래스의 fit(), transform()은 2차원 이상 데이터만 가능,

train_array = np.arange(0, 11).reshape(-1, 1)
test_array = np.arange(0, 6).reshape(-1, 1)

# MinMaxScaler 객체에 별도의 feature_range 파라미터 값을 지정하지 않으면 0~1 반환
scaler = MinMaxScaler()

# fit() 적용, train_array 데이터 최솟값:0, 최댓값: 10 설정
scaler.fit(train_array)

# 1/10 scale로 train_array 데이터 변홤. 원본 10->1
train_scaled = scaler.transform(train_array)

print('원본 train_array :', np.round(train_array.reshape(-1),2))
print('Scale된 train_array :', np.round(train_scaled.reshape(-1),2))

# MinMaxScaler에 test_array를 fit(), 최솟값 0, 최댓값 5 설정
scaler.fit(test_array)

# 1/5 scale로 test_array 데이터 변환. 원본 5 -> 1
test_scaled = scaler.transform(test_array)

# test_array의 scale 변환 출력
print('원본 test_array :', np.round(test_array.reshape(-1),2))
print('Scale된 test_array :', np.round(test_scaled.reshape(-1),2))

원본 train_array : [ 0  1  2  3  4  5  6  7  8  9 10]
Scale된 train_array : [0.  0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1. ]
원본 test_array : [0 1 2 3 4 5]
Scale된 test_array : [0.  0.2 0.4 0.6 0.8 1. ]


In [31]:
#같은 스케일 기준으로 정규화
scaler = MinMaxScaler()

scaler.fit(train_array)
train_scaled = scaler.transform(train_array)
print('원본 train_array :', np.round(train_array.reshape(-1),2))
print('Scale된 train_array :', np.round(train_scaled.reshape(-1),2))

test_scaled = scaler.transform(test_array)
print('원본 test_array :', np.round(test_array.reshape(-1),2))
print('Scale된 test_array :', np.round(test_scaled.reshape(-1),2))

원본 train_array : [ 0  1  2  3  4  5  6  7  8  9 10]
Scale된 train_array : [0.  0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1. ]
원본 test_array : [0 1 2 3 4 5]
Scale된 test_array : [0.  0.1 0.2 0.3 0.4 0.5]
