# Fundamental Techniques of Feature Engineering for Machine Learning
### (source : https://towardsdatascience.com/feature-engineering-for-machine-learning-3a5e293a5114)

# 0. Introduction 

모든 머신러닝 알고리즘은 output을 생성하기 위해서 몇 개의 input data를 사용한다. 이 input data들은 feature를 구성하는데, 흔히 구조화된 열들이 feature에 해당한다. 

알고리즘은 제대로 동작하기 위해서는 특별한 특징을 가지는 feature를 필요로 하는데, feature engineering이 필요한 이유가 여기에 있다.

feature engineering의 2가지 주요 목적은 다음과 같다.

    1) 머신러닝 알고리즘의 필요에 부합하는 적절한 input 데이터셋을 준비하기 위해서 
    2) 머신러닝 모델의 성능을 향상시키기 위해서

Forbes의 설문에 따르면, Data scientist는 그들의 시간의 80%를 data preparation에 쓴다고 한다.


![title](Fobes_Survey.jpg)

Feature Engineering을 위한 python scripts를 작성하기 위해서 기본적인 library를 import한다.

In [1]:
import pandas as pd
import numpy as np

## 0.1. List of Techniques

    1.Imputation
    2.Handling Outliers
    3.Binning
    4.Log Transform
    5.One-Hot Encoding
    6.Grouping Operations
    7.Feature Split
    8.Scaling
    9.Extracting Date

# 1. Imputation

결측치는 머신러닝을 위한 데이터를 준비할 때 가장 흔하게 경험하는 문제이다. 결측치가 발생하는 이유는 human error, 개인정보의 보호 이유, 데이터 흐름에 있어서의 끊어짐 등에 의해서 발생할 수 있다. 이유가 무엇이든 결측치는 머신러닝의 성능에 영향을 준다.

어떤 머신러닝 플랫폼에서는 자동으로 결측치를 포함하는 행을 지우기도 하는데 이것은 훈련할 수 있는 train 데이터의 규모를 줄이는 효과가 있기 때문에 모델의 성능이 나빠지는 결과를 가져오기도 한다. 반면에 대부분의 알고리즘은 결측치가 있는 데이터셋을 받아들이지 않고, 에러를 발생시키기도 한다.

결측치에 대한 가장 단순한 해결법은 행을 지우는 거나 전체 컬럼을 지우는 것이다. 

## 1.1. Numerical Imputation

## 1.2. Categorical Imputation

# 2. Handling Outliers

## 2.1. Outlier Detection with Standard Deviation

## 2.2. Outlier Detection with Percentiles

## 2.3. An Outlier Dilemma: Drop or Cap

# 3. Binning

# 4. Log Transform

# 5. One-hot encoding

# 6. Grouping Operations

## 6.1. Categorical Column Grouping

## 6.2. Numerical Column Grouping

# 7. Feature Split

# 8. Scaling

## 8.1. Normalization

## 8.2. Standardization

# 9. Extracting Date

# 10. Conclusion