#  ***데이터 전처리***

# Garbage In, Garbage Out.
### 좋은 알고리즘보다도 좋은 데이터를 사용하는 것이 중요하다

### 사이킷런의 ML 알고리즘 적용하기 전에, 
### 데이터에 대해 미리 처리해야할 기본사항

## 1) 결측치. = NaN, Null 값은 허용되지 않는다.
### - Drop
### - 대체값 넣기

## 2) 사이킷런 머신러닝 알고리즘은 문자열을 입력값으로 허용하지 않는다.
### * 문자열이 들어온 경우 : 
### - Drop 
### - Encoding을 통해 알아먹을 수 있게 만들기.

## 데이터 인코딩
### - 레이블 인코딩(Label Encoding) : 카테고리 피처를 숫자값으로 변환하는 방식

In [3]:
items = ['TV', '냉장고', '전자렌지', '컴퓨터', '선풍기', '선풍기', '믹서', '믹서']

In [4]:
from sklearn.preprocessing import LabelEncoder

# LabelEncoder를 객체로 생성 한 후 fit() -> transform()으로 인코딩 
encoder = LabelEncoder()
encoder.fit(items)
labels = encoder.transform(items)
print('인코딩 변환값 : ', labels)

# print결과값을 보면, items 리스트의 요소들에 번호가 부여된 것을 알 수 있다.
# 카테고리 피처 -> 숫자값으로 변환됨
# 주의 - 인덱스 번호를 부여한 것이 아니라 그냥 요소끼리 번호를 매칭시킨 것뿐

인코딩 변환값 :  [0 1 4 5 3 3 2 2]


In [None]:
print('인코딩 클래스 : ', encoder.classes_)

# classes_ 함수로 확인해보면, 숫자의 순서대로 요소들이 출력된다.

인코딩 클래스 :  ['TV' '냉장고' '믹서' '선풍기' '전자렌지' '컴퓨터']


In [None]:
# 원본이 있으므로 디코딩 가능
print('디코딩 클래스 : ', encoder.inverse_transform([4, 5, 2, 0, 1, 3]))

디코딩 클래스 :  ['전자렌지' '컴퓨터' '믹서' 'TV' '냉장고' '선풍기']


In [None]:
'''
# 주의
# 레이블 인코딩은 레이블이 숫자가 증가하는 형태로 변환하는 특성

# 이 숫자 특성에 영향을 받은 ML 알고리즘일 경우
 - 2는 1보다 큰 값이라고 인식하는 경우
 특정 알고리즘은 가중치가 더 부여되거나
 더 중요하다고 인식할 수 있음
 (대표적 선형회귀알고리즘)
 
 단순히 숫자로 카테고리를 분류한 결과, 1값을 갖는 피처와, 5값을 갖는 피처가 있을 경우
 5값을 갖는 피처에 대해서 가중치를 더 부여하거나, 중요하다고 인식하게 될 수 있다는 뜻.
 
 ==> 선형회귀 알고리즘 계열에는 레이블 인코딩 후, 그 객체를 원-핫 인코딩으로 다시 변환
 - 트리 계열 알고리즘에는 별 문제 없음. 
'''

## 원-핫 인코딩(One-Hot Encoding)
### : 고윳값에 해당하는 컬럼에만 1을 표시하고,
### 나머지는 0을 표시하는 방식

### 1) 모든 문열 값이 숫자형(고윳값)이어야 함
### 2) 입력값으로 2차원 데이터여야 함

In [5]:
from sklearn.preprocessing import OneHotEncoder
import numpy as np

# OneHotEncoder 객체 : {Label Encoding -> fit() -> transform()} -> OneHot Encoding -> fit() -> transform()
# 고윳값이 없는 데이터의 경우,
# 피처가 고윳값을 갖게 해야하므로, Label Encoding을 선행함

encoder = LabelEncoder()
encoder.fit(items)
labels = encoder.transform(items)

# 입력값이 2차원 데이터여야 하므로, 2차원 데이터로 변환
labels = labels.reshape(-1, 1)

print('labels : ', labels)

labels :  [[0]
 [1]
 [4]
 [5]
 [3]
 [3]
 [2]
 [2]]


In [None]:
# OneHot Encoding
oh_encoder = OneHotEncoder()
oh_encoder.fit(labels)
oh_labels = oh_encoder.transform(labels)

print('oh_labels : ', oh_labels)

oh_labels :    (0, 0)	1.0
  (1, 1)	1.0
  (2, 4)	1.0
  (3, 5)	1.0
  (4, 3)	1.0
  (5, 3)	1.0
  (6, 2)	1.0
  (7, 2)	1.0


In [None]:
print(oh_labels.toarray())

[[1. 0. 0. 0. 0. 0.]
 [0. 1. 0. 0. 0. 0.]
 [0. 0. 0. 0. 1. 0.]
 [0. 0. 0. 0. 0. 1.]
 [0. 0. 0. 1. 0. 0.]
 [0. 0. 0. 1. 0. 0.]
 [0. 0. 1. 0. 0. 0.]
 [0. 0. 1. 0. 0. 0.]]


In [None]:
print('데이터 차원 : ', oh_labels.shape)

데이터 차원 :  (8, 6)


In [6]:
import pandas as pd
df = pd.DataFrame({'items': items})
pd.get_dummies(df)

Unnamed: 0,items_TV,items_냉장고,items_믹서,items_선풍기,items_전자렌지,items_컴퓨터
0,1,0,0,0,0,0
1,0,1,0,0,0,0
2,0,0,0,0,1,0
3,0,0,0,0,0,1
4,0,0,0,1,0,0
5,0,0,0,1,0,0
6,0,0,1,0,0,0
7,0,0,1,0,0,0


## 피처 스케일링

- 피처 스케일링 : 서로 다른 변수의 값 범위를 일정한 수준으로 맞추는 작업
- 피처 스케일링의 대표적 방법 : 표준화(Standardization), 정규화(Normalization)

In [None]:
'''
# 수학적 개념 
# 표준화 : 데이터 피처 각각이 평균이 0이고 분산이 1인 가우시안 정규 분포를 가진 값으로 변환하는 것
# 정규화 : 서로 다른 피처의 크기를 통일하기 위해서 크기를 변환하는 것

# 약간의 차이는 있지만, 사이킷런 정규화는 큰 틀에서 수학적 정규화와 같다. 

# 일반적인 의미의 표준화와 정규화는 피처 스케일링으로 통칭
  선형대수 개념의 정규화는 벡터 정규화로 지칭함
'''

## 표준화

In [7]:
from sklearn.datasets import load_iris
import pandas as pd

iris = load_iris()
iris_data = iris.data
iris_df = pd.DataFrame(data=iris_data, columns=iris.feature_names)
iris_df

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2
...,...,...,...,...
145,6.7,3.0,5.2,2.3
146,6.3,2.5,5.0,1.9
147,6.5,3.0,5.2,2.0
148,6.2,3.4,5.4,2.3


In [None]:
print('feature들의 평균값 : \n', iris_df.mean(), 'feature들의 분산값 : \n', iris_df.var())

feature들의 평균값 : 
 sepal length (cm)    5.843333
sepal width (cm)     3.057333
petal length (cm)    3.758000
petal width (cm)     1.199333
dtype: float64 
 feature들의 분산값 : 
 sepal length (cm)    0.685694
sepal width (cm)     0.189979
petal length (cm)    3.116278
petal width (cm)     0.581006
dtype: float64


In [None]:
'''
# SVM, 선형회귀, 로지스틱 회귀 알고리즘 등은 
# 데이터가 가우시안 분포를 가지고 있다고 가정하고 구현된 알고리즘.
# 사전에 표준화를 적용하는 작업은 예측 성능 향상에 중요한 요소로 작용할 수 있음.
'''

### 표준화를 쉽게 구현하도록 지원되는 객체 : StandardScalar

In [None]:
from sklearn.preprocessing import StandardScaler

# 객체 생성 -> fit() -> transform() 

scalar = StandardScaler()
scalar.fit(iris_df)
iris_scaled = scalar.transform(iris_df)

# transform으로 변환시킨 데이터셋은 numpy ndarray로 반환된다.
iris_scaled

array([[-9.00681170e-01,  1.01900435e+00, -1.34022653e+00,
        -1.31544430e+00],
       [-1.14301691e+00, -1.31979479e-01, -1.34022653e+00,
        -1.31544430e+00],
       [-1.38535265e+00,  3.28414053e-01, -1.39706395e+00,
        -1.31544430e+00],
       [-1.50652052e+00,  9.82172869e-02, -1.28338910e+00,
        -1.31544430e+00],
       [-1.02184904e+00,  1.24920112e+00, -1.34022653e+00,
        -1.31544430e+00],
       [-5.37177559e-01,  1.93979142e+00, -1.16971425e+00,
        -1.05217993e+00],
       [-1.50652052e+00,  7.88807586e-01, -1.34022653e+00,
        -1.18381211e+00],
       [-1.02184904e+00,  7.88807586e-01, -1.28338910e+00,
        -1.31544430e+00],
       [-1.74885626e+00, -3.62176246e-01, -1.34022653e+00,
        -1.31544430e+00],
       [-1.14301691e+00,  9.82172869e-02, -1.28338910e+00,
        -1.44707648e+00],
       [-5.37177559e-01,  1.47939788e+00, -1.28338910e+00,
        -1.31544430e+00],
       [-1.26418478e+00,  7.88807586e-01, -1.22655167e+00,
      

In [None]:
print(type(iris_scaled))

<class 'numpy.ndarray'>


In [None]:
iris_scaled_df = pd.DataFrame(data=iris_scaled, columns=iris.feature_names)
print('feature들의 평균값 : \n', iris_scaled_df.mean(), 'feature들의 분산값 : \n', iris_scaled_df.var())

feature들의 평균값 : 
 sepal length (cm)   -1.690315e-15
sepal width (cm)    -1.842970e-15
petal length (cm)   -1.698641e-15
petal width (cm)    -1.409243e-15
dtype: float64 feature들의 분산값 : 
 sepal length (cm)    1.006711
sepal width (cm)     1.006711
petal length (cm)    1.006711
petal width (cm)     1.006711
dtype: float64


In [None]:
# 위 표준화 결과는 피처들의 평균값이 0에 아주 가깝고,
# 분산도 1에 가까운 값으로 잘 변환됐음을 확인. 

# [추가 공부]
# 위 표준화시킨 데이터를 가지고 SVM을 적용하여, iris 분류 학습을 시켜보세요.


## 정규화
### 데이터 분포가 가우시안 분포가 아닐 경우 : MinMaxScalar
- 데이터 값을 0과 1사이의 범위값으로 변환
- 음수값이 있으면 -1에서 1값으로 변환

In [8]:
from sklearn.preprocessing import MinMaxScaler

scalar = MinMaxScaler()
scalar.fit(iris_df)
scalared_iris = scalar.transform(iris_df)

scalared_iris

array([[0.22222222, 0.625     , 0.06779661, 0.04166667],
       [0.16666667, 0.41666667, 0.06779661, 0.04166667],
       [0.11111111, 0.5       , 0.05084746, 0.04166667],
       [0.08333333, 0.45833333, 0.08474576, 0.04166667],
       [0.19444444, 0.66666667, 0.06779661, 0.04166667],
       [0.30555556, 0.79166667, 0.11864407, 0.125     ],
       [0.08333333, 0.58333333, 0.06779661, 0.08333333],
       [0.19444444, 0.58333333, 0.08474576, 0.04166667],
       [0.02777778, 0.375     , 0.06779661, 0.04166667],
       [0.16666667, 0.45833333, 0.08474576, 0.        ],
       [0.30555556, 0.70833333, 0.08474576, 0.04166667],
       [0.13888889, 0.58333333, 0.10169492, 0.04166667],
       [0.13888889, 0.41666667, 0.06779661, 0.        ],
       [0.        , 0.41666667, 0.01694915, 0.        ],
       [0.41666667, 0.83333333, 0.03389831, 0.04166667],
       [0.38888889, 1.        , 0.08474576, 0.125     ],
       [0.30555556, 0.79166667, 0.05084746, 0.125     ],
       [0.22222222, 0.625     ,

In [9]:
iris_df_scaled = pd.DataFrame(data=scalared_iris, columns=iris.feature_names)
iris_df_scaled

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,0.222222,0.625000,0.067797,0.041667
1,0.166667,0.416667,0.067797,0.041667
2,0.111111,0.500000,0.050847,0.041667
3,0.083333,0.458333,0.084746,0.041667
4,0.194444,0.666667,0.067797,0.041667
...,...,...,...,...
145,0.666667,0.416667,0.711864,0.916667
146,0.555556,0.208333,0.677966,0.750000
147,0.611111,0.416667,0.711864,0.791667
148,0.527778,0.583333,0.745763,0.916667


In [None]:
'''
# 유의사항
1) 가능하다면 전체 데이터를 스케일링 변환을 적용하고 학습과 테스트 데이터로 분리(권장)
2) 위의 분리가 여의치 않은 상황일 경우, 테스트 데이터 변환시에는 fit(), fit_fransform()을 적용하지 않고,
   학습 데이터에 이미 fit()된 scalar 객체를 이용하여 transform()으로 변환
'''