# Chapter 8

# Feature Selection For Machine Learning

## Univariate Selection

In [1]:
from pandas import read_csv
from numpy import set_printoptions
from sklearn.feature_selection import SelectKBest, chi2
filename = 'diabetes.csv'
data = read_csv(filename)
array = data.values # convert to numpy array
X = array[:,0:8] # first 8 column
Y = array[:,8] # last column
test = SelectKBest(score_func=chi2, k=4) # Chọn 4 thuộc tính tốt nhất
fit = test.fit(X, Y) # Tính toán
set_printoptions(precision=3) # In ra 3 chữ số dau dấu phẩy
print(fit.scores_) # In ra điểm của các thuộc tính
features = fit.transform(X) # Chọn thuộc tính tốt nhất
print(features[0:5,:]) # In ra 5 dòng đầu tiên của thuộc tính tốt nhất

[ 111.52  1411.887   17.605   53.108 2175.565  127.669    5.393  181.304]
[[148.    0.   33.6  50. ]
 [ 85.    0.   26.6  31. ]
 [183.    0.   23.3  32. ]
 [ 89.   94.   28.1  21. ]
 [137.  168.   43.1  33. ]]


## Recursive Feature Elimination

In [4]:
from pandas import read_csv
from sklearn.feature_selection import RFE
from sklearn.linear_model import LogisticRegression

filename = 'diabetes.csv'
data = read_csv(filename)
array = data.values
X = array[:, 0:8]
Y = array[:, 8]

model = LogisticRegression(solver='liblinear')  # nên chỉ định solver cho dữ liệu nhỏ
rfe = RFE(estimator=model, n_features_to_select=3)
fit = rfe.fit(X, Y)

print("Num Features: %s" % fit.n_features_)
print("Selected Features (True = chọn): %s" % fit.support_)
print("Feature Ranking (1 = tốt nhất): %s" % fit.ranking_)


Num Features: 3
Selected Features (True = chọn): [ True False False False False  True  True False]
Feature Ranking (1 = tốt nhất): [1 2 3 5 6 1 1 4]


## Principal Component Analysis

In [5]:
from pandas import read_csv
from sklearn.decomposition import PCA
filename = 'diabetes.csv'
data = read_csv(filename)
array = data.values # convert to numpy array
X = array[:,0:8] # first 8 column
Y = array[:,8] # last column
pca = PCA(n_components=3) # Chọn 3 thuộc tính tốt nhất
fit = pca.fit(X) # Tính toán
print("Explained Variance: %s" % fit.explained_variance_ratio_) # In ra độ biến thiên
print(fit.components_) # In ra các thuộc tính tốt nhất

Explained Variance: [0.889 0.062 0.026]
[[-2.022e-03  9.781e-02  1.609e-02  6.076e-02  9.931e-01  1.401e-02
   5.372e-04 -3.565e-03]
 [ 2.265e-02  9.722e-01  1.419e-01 -5.786e-02 -9.463e-02  4.697e-02
   8.168e-04  1.402e-01]
 [ 2.246e-02 -1.434e-01  9.225e-01  3.070e-01 -2.098e-02  1.324e-01
   6.400e-04  1.255e-01]]


## Feature Importance

In [6]:
from pandas import read_csv
from sklearn.ensemble import ExtraTreesClassifier
filename = 'diabetes.csv'
data = read_csv(filename)
array = data.values # convert to numpy array
X = array[:,0:8] # first 8 column
Y = array[:,8] # last column
model = ExtraTreesClassifier() # Chọn mô hình
model.fit(X, Y) # Tính toán
print(model.feature_importances_) # In ra độ quan trọng của các thuộc tính

[0.11  0.229 0.1   0.08  0.075 0.144 0.119 0.143]
