## Feature Selection for Machine Learning

### 1. Univariate Selection 
- Univariate : 단변량
  - 단변량은 단 하나의 변수의 표현식, 방정식, 함수 또는 다항식을 나타냄. 하나의 변수
  - Chi-sqd, t검정, 분산분석(ANOVA), 회귀분석(Regression) 등에 의한 자료분석은 단변량분석에 해당
- multivariate : 다변량
  - 여러 개의 독립변수에 대한 여러 개의 종속변수를 동시에 분석해 보는 통계적 방법을 다변량분석
  - 통계적으로는 종속변수의 관계성(relationships)을 고려한 상태에서 여러 개의 단변량분석을 동시에 수행하는 것

In [1]:
# Feature Extraction with Univariate Statistical Tests (Chi-squared for classification)
import pandas
import numpy
from sklearn.feature_selection import SelectKBest
from sklearn.feature_selection import chi2

In [2]:
# load data
url = "https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.data.csv"
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
dataframe = pandas.read_csv(url, names=names)
# url에 있는 data는 Feature가 없어서 names가 필요함.

array = dataframe.values
array2 = dataframe
# print("어레이")
# print(array)
# array2는 coulumn명이 들어가있는 데이터 프레임 형태이다.

X = array[:,0:8]
Y = array[:,8]
# X로 칭한 8개의 Column의 조합이 Y를 설명할 수 있다.
print(X)
# print(Y)

[[   6.     148.      72.    ...,   33.6      0.627   50.   ]
 [   1.      85.      66.    ...,   26.6      0.351   31.   ]
 [   8.     183.      64.    ...,   23.3      0.672   32.   ]
 ..., 
 [   5.     121.      72.    ...,   26.2      0.245   30.   ]
 [   1.     126.      60.    ...,   30.1      0.349   47.   ]
 [   1.      93.      70.    ...,   30.4      0.315   23.   ]]


In [3]:
# feature extraction
# SelectKBest는 고정된 k개의 특성을 선택
test = SelectKBest(score_func=chi2, k=4)
# 위 내용은 카이스퀘어 검정으로 검정하여 4개의 피쳐를 뽑는다는 뜻

fit = test.fit(X, Y)
# X must contain only non-negative features such as booleans or frequencies
# 카이스퀘어 분포는 항상 양수값만을 갖는 특징

In [4]:
# summarize scores
numpy.set_printoptions(precision=3)
print(fit.scores_)
features = fit.transform(X)
print(features)

[  111.52   1411.887    17.605    53.108  2175.565   127.669     5.393
   181.304]
[[ 148.     0.    33.6   50. ]
 [  85.     0.    26.6   31. ]
 [ 183.     0.    23.3   32. ]
 ..., 
 [ 121.   112.    26.2   30. ]
 [ 126.     0.    30.1   47. ]
 [  93.     0.    30.4   23. ]]


In [5]:
# summarize selected features
print(features[0:5,:])

[[ 148.     0.    33.6   50. ]
 [  85.     0.    26.6   31. ]
 [ 183.     0.    23.3   32. ]
 [  89.    94.    28.1   21. ]
 [ 137.   168.    43.1   33. ]]
