### 1 특징 엔지니어링의 이해
+ 모든 학습 알고리즘에는 장점과 단점이 있지만, 성능 차이는 종종 데이터를 준비하거나 표현하는 방식에 달려 있다.
+ 특징 엔지니어링은 질문에 대한 해결책을 배우기 위해 샘플 데이터를 잘 나타내는 방법을 찾는 것이다.
+ 특징 엔지니어링은 전처리 단계에 속하며, 주어진 __훈련 데이터__에서 __특징 추출__과정을 거쳐(여기까지 전처리) 머신 러닝 알고리즘 __학습__ 단계 순서로 진행된다.
  + __특징 선택__ : 데이터에서 중요한 attribute(특징)를 식별하는 프로세스다. 이미지에서 사용 가능한 특징은 edge, corner, ridge의 위치가 될 수 있다. 이 장에서는 SIFT(Scale-Invariant Feature Transform)와 SURF(Speeded Up Robust Features)같은 OpenCV가 제공하는 고급 feature descriptor를 살펴본다.
  + __특징 추출__ : feature space로 원시 데이터를 변환하는 프로세스. 이미지의 코너(선택된 특징)를 추출할 수 있는 Harris(해리스) 연산자가 그 예이다.
  
### 2 전처리 데이터
+ 좋은 결과를 얻기 위한 첫 번째 단계는 __data preprocessing__이다. 
  1. __Data formatting(형식)__ : 데이터가 작업하기에 적당한 형식이어야 한다. 
  2. __Data cleaning(정제)__ : 데이터에 유효하지 않거나 누락된 항목이 포함될 수 있으니 정제하거나 제거해야 한다.
  3. __Data Sampling(샘플링)__ : 데이터가 너무 방대하면 현명한 방식으로 샘플링 한다.
+ 데이터가 전처리 단계를 거치면 __머신 러닝 알고리즘에 맞게 변형__되어야 한다.
  1. __Scaling(확장)__ : 종종 데이터가 평균 범위 및 단위 분산을 가지고 일반적인 범위 내에 있어야 한다. 확장은 모든 기능을 일반적인 값 범위로 변경해서 가져오는 프로세스다.
  2. __Decomposition(분해)__ : 데이터 세트에는 처리할 수 있는 것보다 더 많은 기능들이 포함되는 경우가 많다. 분해는 좀 더 적은 수의 유익한 데이터 컴포넌트로 데이터를 압축하는 과정이다.
  3. __Aggregation(집계)__ : 여러 기능을 하나의 의미 있는 그룹으로 그룹화할 수 있다. 

  
위 프로세스 중 일부 내용에 대해 살펴보도록 하면,
  
    
  1) __Standardizing features(특징 표준화)__ : __standardization__이란 __평균 및 단위 분산이 0__이 되도록 데이터를 확장하는 프로세스를 의미한다.
    + 모든 데이터 포인트에서 모든 데이터의 평균값(μ)을 빼고, 이를 데이터 분산(σ)으로 나눔으로써 데이터를 수동으로 표준화 할 수 있다. 
    
    + 즉, 모든 특징 x에 대해 (x - μ) / σ로 계산할 수 있다.

In [5]:
# scikit-learn에서 preprocessing 프로세스 구현을 지원함.
from sklearn import preprocessing 
import numpy as np

X = np.array([[1., -2., 2.], [3., 0., 0.], [0., 1., -1.]])

#표준화를 위해서 scale 함수를 사용한다.

X_scaled = preprocessing.scale(X)
print(X_scaled)

# 확장된 데이터 행렬 X_scaled의 평균과 분산을 두 번 검사해 실제로 표준화 됐는지 확인 할 수 있다.

print(X_scaled.mean(axis=0))

[[-0.26726124 -1.33630621  1.33630621]
 [ 1.33630621  0.26726124 -0.26726124]
 [-1.06904497  1.06904497 -1.06904497]]
[  7.40148683e-17   0.00000000e+00   0.00000000e+00]


###  
  
   
2) __Normalizing features(특징 정규화)__ : __Normalization__은 개별 샘플을 __unit norm(단위 표준)__으로 __확장__하는 프로세스다. __norm(정규화)__은 __length of a vector(벡터의 길이)__를 의미하고 다른 방법으로 정의될 수 있다. L1 norm(맨해튼 거리)과 L2 norm(유클리드 거리) 두 가지를 사용한다.

In [8]:
# normalize 함수를 사용해 정규화 할 수 있다.
# L1은 norm='l1'으로, L2는 norm='l2'로 지정할 수 있다.

X_normalized_l1 = preprocessing.normalize(X, norm='l1')
print(X_normalized_l1)

X_normalized_l2 = preprocessing.normalize(X, norm='l2')
print("\n", X_normalized_l2)

[[ 0.2 -0.4  0.4]
 [ 1.   0.   0. ]
 [ 0.   0.5 -0.5]]

 [[ 0.33333333 -0.66666667  0.66666667]
 [ 1.          0.          0.        ]
 [ 0.          0.70710678 -0.70710678]]


####  

3) __Scaling features to a range(특징의 범위 확장)__ : zero mean이나 unit variance(각각 제로 평균, 단위 분산)으로 기능을 확장하는 대신에 특정 최솟값과 최댓값 사이에 특징을 배치하는 방법이 있다. 종종 이 값은 [0, 1] 혹은 [-1, 1]의 값으로 조정되고, 각각 Sigmoid 함수, Tanh 함수의 출력과 비교할 수 있게된다.
  + MinMaxScaler를 사용한다.
  + 이런 과정을 __min-max scaling(최소-최대 크기 보정)__이라고 한다.
  + zero centering(zero mean)과 일반적으로 같이 사용하지 않는다.

In [9]:
min_max_scaler = preprocessing.MinMaxScaler()
X_min_max = min_max_scaler.fit_transform(X)
print(X_min_max)

[[ 0.33333333  0.          1.        ]
 [ 1.          0.66666667  0.33333333]
 [ 0.          1.          0.        ]]


기본적으로 데이터는 0과 1사이의 크기로 조정된다. feature_range 키워드 인수를 MinMaxScaler constructor에 전달해 다른 범위로 지정할 수도 있다.

In [11]:
min_max_scaler = preprocessing.MinMaxScaler(feature_range = (-1, 1))
X_min_max2 = min_max_scaler.fit_transform(X)
print(X_min_max2)

[[-0.33333333 -1.          1.        ]
 [ 1.          0.33333333 -0.33333333]
 [-1.          1.         -1.        ]]


####  
4) __Binarizing features(특징 이진화)__ : 데이터가 실제로 어떤 값을 가지고 있는지에 대해 특별히 관심이 없고, 어떤 기능을 하고 있는지 아닌지에만 관심이 있다면 Threshold 설정으로 데이터 특징을 이진화 할 수 있다.

In [13]:
#threshold를 원하는 값으로 설정하자.
binarizer = preprocessing.Binarizer(threshold = 0.5)
X_binarized = binarizer.transform(X)
print(X_binarized)

[[ 1.  0.  1.]
 [ 1.  0.  0.]
 [ 0.  1.  0.]]


0.5 이상의 값은 1로 바뀌고, 나머진 0으로 바뀐 것을 확인할 수 있다.

####  
5) __Handling missing data(누락된 데이터 처리)__ : 특징 엔지니어링에서 또 다른 공통점은 누락된 데이터를 처리하는 것이다. 예를 들어 다음과 같은 데이터 세트를 살펴보자.
  + nan은 파이썬에서의 NAN(Not a Number)을 나타낸다. 또한, 대부분의 머신 러닝 알고리즘에서는 이 값을 처리할 수 없기에, 적절한 값으로 대체해야 한다.
    + 이를 누락된 값에 대한 imputation(대체)라고 한다.

In [16]:
from numpy import nan
X = np.array([[nan, 0, 3], 
             [2, 9, -8],
             [1, nan, 1],
             [5, 2, 4],
              [7, -6, 3]])

누락된 값을 대체하기 위한 세 가지 방법은 scikit-learn에서 제공한다.
  + 'mean' : 모든 nan 값을 행렬의 지정된 축을 따라 mean value(평균 값)로 바꾼다. 기본 axis = 0.
    + The mean = add up all the numbers and then divide by the number of numbers.
  + 'median' : 모든 nan 값을 행렬의 지정된 축을 따라 median value(중앙 값)로 바꾼다. 기본 axis = 0.
    + The median = the middle value in a list of numbers. To find the median, you need to list the numbers in numerical order, so you may have to rewrite your list first.
  + 'most_frequent' : 모든 nan 값을 행렬의 지정된 축을 따라 the most frequent value(가장 빈번한 값)로 바꾼다. 기본 axis = 0.

  
+ 영어로 적은 부분의 출처. https://www.answerminer.com/blog/use-median-instead-of-mean
+ mean 값은 특정 데이터가 극단적으로 한쪽으로 치우쳐져 있는 경우 왜곡될 수 있기 때문에, 작은 수 에서 큰 수로 정렬해 정 가운데 값을 선택하는 median 방식이 존재하는 것이다.

In [18]:
#mean을 사용한 Imputation
from sklearn.preprocessing import Imputer
imp = Imputer(strategy = 'mean')
X2 = imp.fit_transform(X)
print(X2)

[[ 3.75  0.    3.  ]
 [ 2.    9.   -8.  ]
 [ 1.    1.25  1.  ]
 [ 5.    2.    4.  ]
 [ 7.   -6.    3.  ]]


두 개의 nan 값이 해당 열을 따라 계산된 평균값과 동일한 채우기 값으로 바뀐다.
  
   
위에서 확인한 X2의 X2[0, 0]인 3.75는 X의 첫 번째 element인 X[0, 0]에 대한 계산을 생략한 채(nan 이니까) 첫 번째 열의 평균을 계산한 값과 동일하다. 아래에서 확인해보자.

In [20]:
print(np.mean(X[1:, 0]), X2[0, 0])

3.75 3.75


####   
'median'을 적용해보면 아래와 같다.

In [21]:
imp = Imputer(strategy='median')
X3 = imp.fit_transform(X)
print(X3)

[[ 3.5  0.   3. ]
 [ 2.   9.  -8. ]
 [ 1.   1.   1. ]
 [ 5.   2.   4. ]
 [ 7.  -6.   3. ]]


X3의 X3[0, 0]은 다음과 같다.

  
mean에서 했던 방식과 마찬가지로 X[0, 0]에 대한 계산을 생략한 채 중간 값을 계산한다.

In [22]:
print(np.median(X[1:, 0]), X3[0, 0])

3.5 3.5
