### ★ 전처리(Preprocessing)
* 원본 raw 데이터의 품질이 좋지 않아서 가공하여 데이터의 품질을 향상시키는 과정

#### 피처 스케일링
#### (1) 표준화(Standardization) : 데이터가 평균으로 부터 얼마나 떨어져 있는지를 나타내 값으로, 특정 범위를 벗어난 데이터를 이상치(outlier)로 간주하여 제거 한다.StandardScaler 사용, Z = (X - mean())/std()  = (X - 평균)/표준편차  , 정규분포, 가우시안분포(평균=0,분산=1)

#### (2) 정규화(Normalization) : 데이터의 범위를 일치시키거나 분포를 유사하게 만들어 주는 기능, 데이터의 범위를 0 ~ 1사이의 값으로 변환, MinMaxScaler, Z = (X-min())/(max()-min())  =  (X-최소값)/(최대-최소)  or  X/최대값

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

### 표준화 (Standardization)

In [2]:
# (1) numpy를 이용한 표준화
# Z = (X - mean())/std()
data = np.random.randint(1000,size=(3,4))
print('raw_data:\n', data)

data_stand_np = (data - np.mean(data,axis=0))/np.std(data,axis=0)
print('numpy standardized data:\n', data_stand_np)

raw_data:
 [[163 597 439 247]
 [569 597 883 970]
 [215 221 802 167]]
numpy standardized data:
 [[-0.84632743  0.70710678 -1.39331489 -0.59345582]
 [ 1.40438612  0.70710678  0.90643162  1.40841925]
 [-0.5580587  -1.41421356  0.48688327 -0.81496343]]


In [3]:
# (2) sklearn.preprocessing을 이용한 표준화
# StandardScaler().fit_transform()  (fit() --> transform())

from sklearn.preprocessing import StandardScaler

data_stand_skl = StandardScaler().fit_transform(data)
print('sklearn standardized data:\n', data_stand_skl)

# 동일한 구현
sc = StandardScaler()   # 클래스의 인스턴스를 생성
sc.fit(data)
data_stand_skl = sc.transform(data)
print('sklearn standardized data:\n', data_stand_skl)

sklearn standardized data:
 [[-0.84632743  0.70710678 -1.39331489 -0.59345582]
 [ 1.40438612  0.70710678  0.90643162  1.40841925]
 [-0.5580587  -1.41421356  0.48688327 -0.81496343]]
sklearn standardized data:
 [[-0.84632743  0.70710678 -1.39331489 -0.59345582]
 [ 1.40438612  0.70710678  0.90643162  1.40841925]
 [-0.5580587  -1.41421356  0.48688327 -0.81496343]]


In [4]:
 # fit_transform() 메서드  : 참고용
from sklearn.base import TransformerMixin

class A(TransformerMixin):
    def fit(self,X):
        print('fit:',X)
        return self
    
    def transform(self,X):
        print('transform:',X)
        return X

inst = A()  # 클래스의 인스턴스 생성
# inst.fit('x_data')
# inst.transform('y_data')
inst.fit_transform('my_data')

fit: my_data
transform: my_data


'my_data'

### 정규화 (Normalization)

In [8]:
# (1) numpy를 이용한 정규화 : 0 ~ 1 범위
# Z = (X-min())/(max()-min())
data_minmax_np = (data - np.min(data,axis=0))/(np.max(data,axis=0)
                                               -np.min(data,axis=0))
print('numpy minmax data:\n', data_minmax_np)

numpy minmax data:
 [[0.         1.         0.         0.0996264 ]
 [1.         1.         1.         1.        ]
 [0.12807882 0.         0.81756757 0.        ]]


In [6]:
# (2) sklearn.preprocessing 를  이용한 정규화
# MinMaxScaler 클래스 : fit_transform() (fit() -> transform())
from sklearn.preprocessing import MinMaxScaler

data_minmax_skl = MinMaxScaler().fit_transform(data)
print('sklearn minmax data:\n',data_minmax_skl)

# 동일한 구현
sc = MinMaxScaler()   # 클래스의 인스턴스를 생성
sc.fit(data)
data_minmax_skl = sc.transform(data)
print('sklearn minmax data:\n',data_minmax_skl)

sklearn minmax data:
 [[0.         1.         0.         0.0996264 ]
 [1.         1.         1.         1.        ]
 [0.12807882 0.         0.81756757 0.        ]]
sklearn minmax data:
 [[0.         1.         0.         0.0996264 ]
 [1.         1.         1.         1.        ]
 [0.12807882 0.         0.81756757 0.        ]]


# 로그 변환

In [9]:
data2 = data * 123456
data2         # 로그변환 필요 : 데이터 값이 너무 큰 경우, 로그변환을 사용하여 값을 작게 만들어준다.

array([[ 20123328,  73703232,  54197184,  30493632],
       [ 70246464,  73703232, 109011648, 119752320],
       [ 26543040,  27283776,  99011712,  20617152]])

In [12]:
np.log1p(data2)    # 자연로그, x값에 1을 더한후 log값을 취함
                   # df['TAX2'] = np.log1p(df['TAX']) : 한 개의 컬럼만 로그변환 한 것.

array([[16.81739035, 18.11555722, 17.80813953, 17.23302847],
       [18.06752054, 18.11555722, 18.50696531, 18.60093618],
       [17.09427816, 17.12180283, 18.41074871, 16.84163396]])

In [14]:
print(np.log(0))      # -inf , 무한대
print(np.log1p(0))    # 0.0 , np.log(0 + 1)

-inf
0.0


  print(np.log(0))


### 레이블 인코딩 (Label Encoding)

In [28]:
from sklearn.preprocessing import LabelEncoder

items = ['TV', '냉장고', '전자레인지', '컴퓨터', '선풍기', '믹서', '선풍기','믹서']
encoder = LabelEncoder()            # 클래스의 인스턴스 객체를 생성  
encoder.fit(items)                  
labels = encorder.transform(items)  # labels = LabelEncoder().fit_transform(items)
print('encoding 변환 값:',labels)

encoding 변환 값: [0 1 4 5 3 2 3 2]


In [22]:
print('encoding 클래스:', encoder.classes_)

encoding 클래스: ['TV' '냉장고' '믹서' '선풍기' '전자레인지' '컴퓨터']


In [27]:
print('decoding 원본값:', encoder.inverse_transform([0,1,3,5,4,2,4,5]))

decoding 원본값: ['TV' '냉장고' '선풍기' '컴퓨터' '전자레인지' '믹서' '전자레인지' '컴퓨터']
