## Feature Selection for Machine Learning

### 아래 예제들을 실습해보면 같은 데이터를 사용하는데도 Select하는 피쳐들이 다른데 fit을 어떤함수에 하느냐에 따라서<br>Select하는 피쳐가 다르다.

### 1. Univariate Selection 
- Univariate : 단변량
  - 단변량은 단 하나의 변수의 표현식, 방정식, 함수 또는 다항식을 나타냄. 하나의 변수
  - Chi-sqd, t검정, 분산분석(ANOVA), 회귀분석(Regression) 등에 의한 자료분석은 단변량분석에 해당
- Multivariate : 다변량
  - 여러 개의 독립변수에 대한 여러 개의 종속변수를 동시에 분석해 보는 통계적 방법을 다변량분석
  - 통계적으로는 종속변수의 관계성(relationships)을 고려한 상태에서 여러 개의 단변량분석을 동시에 수행하는 것

In [1]:
# Feature Extraction with Univariate Statistical Tests (Chi-squared for classification)
import pandas
import numpy
from sklearn.feature_selection import SelectKBest
from sklearn.feature_selection import chi2

In [2]:
# load data
url = "https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.data.csv"
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
dataframe = pandas.read_csv(url, names=names)
# url에 있는 data는 Feature가 없어서 names가 필요함.

array = dataframe.values
array2 = dataframe
# print("어레이")
# print(array)
# array2는 coulumn명이 들어가있는 데이터 프레임 형태이다.

X = array[:,0:8]
Y = array[:,8]
# X로 칭한 8개의 Column의 조합이 Y를 설명할 수 있다.
print(X)
# print(Y)

[[  6.    148.     72.    ...  33.6     0.627  50.   ]
 [  1.     85.     66.    ...  26.6     0.351  31.   ]
 [  8.    183.     64.    ...  23.3     0.672  32.   ]
 ...
 [  5.    121.     72.    ...  26.2     0.245  30.   ]
 [  1.    126.     60.    ...  30.1     0.349  47.   ]
 [  1.     93.     70.    ...  30.4     0.315  23.   ]]


In [3]:
# feature extraction
# SelectKBest는 고정된 k개의 특성을 선택
test = SelectKBest(score_func=chi2, k=4)
# 위 내용은 카이스퀘어 검정으로 검정하여 4개의 피쳐를 뽑는다는 뜻

fit = test.fit(X, Y)
# X must contain only non-negative features such as booleans or frequencies
# 카이스퀘어 분포는 항상 양수값만을 갖는 특징
print(fit)

SelectKBest(k=4, score_func=<function chi2 at 0x0000023AEF02BC80>)


In [6]:
# summarize scores / 여기서 set_printoptions는 말그대로 print할 때 옵션을 설정해주는 것이고 precision이 3이라는 것은 소수 셋째자리까지 임.
numpy.set_printoptions(precision=3)

print(fit.scores_)
#  [  111.52   @@1411.887@@    17.605    53.108  @@2175.565@@   @@127.669@@     5.393   @@181.304@@]
#  2번째, 5번째, 6번째, 8번째 피쳐가 socre가 크니깐 선택됨을 알 수 있음.

# fit.transform(X)해야 영향력이 큰 피쳐 4개를 뽑아줌
features = fit.transform(X)
print(features)

[ 111.52  1411.887   17.605   53.108 2175.565  127.669    5.393  181.304]
[[148.    0.   33.6  50. ]
 [ 85.    0.   26.6  31. ]
 [183.    0.   23.3  32. ]
 ...
 [121.  112.   26.2  30. ]
 [126.    0.   30.1  47. ]
 [ 93.    0.   30.4  23. ]]


In [7]:
# summarize selected features
print(features[0:5,:])

[[148.    0.   33.6  50. ]
 [ 85.    0.   26.6  31. ]
 [183.    0.   23.3  32. ]
 [ 89.   94.   28.1  21. ]
 [137.  168.   43.1  33. ]]


### 2. RFE(Recursive Feature Elimination) -> 재귀적 피쳐 소거
- 재귀적으로 feature를 삭제해가면서 남아있는 feature들로 Model을 만든다.
- 모델의 정확도로 target 피쳐를 예측하는데 가장 기여한 피쳐(혹은 피쳐들의 조합)을 식별함
- 다음 예제는 RFE with the logistic regression algorithm to select the top 3 features. 이다.

In [8]:
# Feature Extraction with RFE
from pandas import read_csv
from sklearn.feature_selection import RFE
from sklearn.linear_model import LogisticRegression

In [12]:
# load data
url = "https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.data.csv"
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
dataframe = read_csv(url, names=names)
array = dataframe.values
X = array[:,0:8]
Y = array[:,8]

In [22]:
# feature extraction
model = LogisticRegression()
# RFE(model, 3)에서 3은 피쳐 3개 고른다는 뜻
rfe = RFE(model, 3)
fit = rfe.fit(X, Y)
print("Num Features: " +str(fit.n_features_)) 
print("Selected Features: " + str(fit.support_))
print("Feature Ranking: " +str(fit.ranking_))

Num Features: 3
Selected Features: [ True False False False False  True  True False]
Feature Ranking: [1 2 3 5 6 1 1 4]


In [23]:
# feature extraction2
model = LogisticRegression()

# SelectKBest한거랑 같은 결과가 나오는지 확인하기위해 뽑을 Feature를 4로 설정함
rfe = RFE(model, 4)

fit = rfe.fit(X, Y)
print("Num Features: " +str(fit.n_features_)) 
print("Selected Features: " + str(fit.support_))
print("Feature Ranking: " +str(fit.ranking_))

# SelectKBest한거와 결과는 같지않음.

Num Features: 4
Selected Features: [ True  True False False False  True  True False]
Feature Ranking: [1 1 2 4 5 1 1 3]


### 3. PCA(Principal Component Analysis) -> 주성분 분석
- 주성분 분석 (또는 PCA)은 선형 대수를 사용하여 데이터 집합을 압축 된 형식으로 변환합니다.
- 데이터 축소 기술 / 차원 축소 기술 이라고 불림.
- PCA는 변환된 형태에서 차원 수 or 주성분 갯수 를 선택할 수 있음.
- 아래 예제는 PCA and select 3 principal components이다.

In [31]:
# Feature Extraction with PCA
import numpy
from pandas import read_csv
from sklearn.decomposition import PCA

In [24]:
# load data
url = "https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.data.csv"
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
dataframe = read_csv(url, names=names)
array = dataframe.values
X = array[:,0:8]
Y = array[:,8]

In [26]:
# feature extraction
pca = PCA(n_components=3)
fit = pca.fit(X)

#### You can see that the transformed dataset (3 principal components) bare little resemblance to the source data.<br><br>해석 : 변환된 데이터 형태가 원래 데이터와 유사하지 않음을 알 수 있다.

In [30]:
# summarize components, 아래내용은 Explained Variance들의 합이 변수갯수를 3개로 줄였을때 몇%정확도로 설명할 수 있는지를 설명해주는 것.
# 여기서 말하는 Explained Variance가 R^2인지 확실치않으니 다음 줄은 참고할 것.
# Explained Variance는 결정계수(R^2) 이고 결정계수는 1에 가까울 수록 회귀식의 적합도가 높은 것임(잘 회귀 한다는 뜻.)
print("Explained Variance: " + str(fit.explained_variance_ratio_))

# 이거는 왜 해야하는 건지 잘 모르겠다.
print(fit.components_)

Explained Variance: [0.889 0.062 0.026]
[[-2.022e-03  9.781e-02  1.609e-02  6.076e-02  9.931e-01  1.401e-02
   5.372e-04 -3.565e-03]
 [-2.265e-02 -9.722e-01 -1.419e-01  5.786e-02  9.463e-02 -4.697e-02
  -8.168e-04 -1.402e-01]
 [-2.246e-02  1.434e-01 -9.225e-01 -3.070e-01  2.098e-02 -1.324e-01
  -6.400e-04 -1.255e-01]]


### 4. Feature Importance
- RandomForest 나 Extra Trees에서 피쳐의 중요도를 평가할때 사용됨.

In [32]:
# Feature Importance with Extra Trees Classifier
from pandas import read_csv
from sklearn.ensemble import ExtraTreesClassifier

In [33]:
# load data
url = "https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.data.csv"
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
dataframe = read_csv(url, names=names)
array = dataframe.values
X = array[:,0:8]
Y = array[:,8]

In [35]:
# feature extraction
model = ExtraTreesClassifier()
model.fit(X, Y)

print(model.feature_importances_)
# print된 결과를 보고 2번째, 6번째, 8번째 feature가 중요도가 높음을 알 수 있다.

[0.096 0.218 0.095 0.08  0.078 0.167 0.125 0.142]
