# Feature Selection For Machine Learning


Các đặc trưng dữ liệu bạn sử dụng để huấn luyện mô hình học máy có ảnh hưởng lớn đến hiệu suất bạn có thể đạt được. Các đặc trưng không liên quan hoặc liên quan một phần có thể tác động tiêu cực đến hiệu suất mô hình. Chương này trình bày các kỹ thuật lựa chọn đặc trưng tự động trong Python với scikit-learn.

## 8.1 Feature Selection

Lựa chọn đặc trưng là quá trình tự động chọn những đặc trưng trong dữ liệu đóng góp nhiều nhất vào biến dự đoán. Việc có các đặc trưng không liên quan có thể làm giảm độ chính xác của nhiều mô hình.
Ba lợi ích của việc lựa chọn đặc trưng:
* **Giảm Overfitting:** Ít dữ liệu dư thừa hơn.
* **Cải thiện Độ chính xác:** Ít dữ liệu gây hiểu lầm hơn.
* **Giảm Thời gian Huấn luyện:** Ít dữ liệu hơn.
Các công thức sau sử dụng bộ dữ liệu Pima Indians.

## 8.2 Univariate Selection

Các kiểm định thống kê có thể được sử dụng để chọn những đặc trưng có mối quan hệ mạnh nhất với biến đầu ra. Lớp `SelectKBest` của scikit-learn có thể được sử dụng với một bộ kiểm định thống kê khác nhau để chọn một số lượng đặc trưng cụ thể. Ví dụ dưới đây sử dụng kiểm định chi-bình phương (`chi2`) để chọn 4 đặc trưng tốt nhất.


In [None]:
# Trích xuất đặc trưng với Kiểm định Thống kê Đơn biến (Chi-bình phương cho phân loại)
# (Feature Extraction with Univariate Statistical Tests (Chi-squared for classification))
from pandas import read_csv
from numpy import set_printoptions
from sklearn.feature_selection import SelectKBest
from sklearn.feature_selection import chi2

# load data
filename = 'pima-indians-diabetes.data.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
dataframe = read_csv(filename, names=names)
array = dataframe.values
X = array[:,0:8]
Y = array[:,8]
# feature extraction
test = SelectKBest(score_func=chi2, k=4)
fit = test.fit(X, Y)
# summarize scores
set_printoptions(precision=3)
print("Scores for each feature:")
print(fit.scores_)
features = fit.transform(X)
# summarize selected features
print("\nSelected features data (first 5 rows):")
print(features[0:5,:])

* Kết quả hiển thị điểm số cho từng thuộc tính.
* 4 thuộc tính được chọn (có điểm cao nhất) là: `plas`, `test`, `mass` và `age`

## 8.3 Recursive Feature Elimination - RFE

In [None]:
# Trích xuất đặc trưng với RFE (Feature Extraction with RFE)
from pandas import read_csv
from sklearn.feature_selection import RFE
from sklearn.linear_model import LogisticRegression

# load data
filename = 'pima-indians-diabetes.data.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
dataframe = read_csv(filename, names=names)
array = dataframe.values
X = array[:,0:8]
Y = array[:,8]
# feature extraction
# Tăng max_iter để tránh cảnh báo hội tụ
model = LogisticRegression(solver='liblinear') # Có thể thay solver nếu cần
# Sử dụng n_features_to_select thay vì số nguyên trực tiếp cho các phiên bản mới hơn
rfe = RFE(model, n_features_to_select=3)
fit = rfe.fit(X, Y)
print("Num Features: %d" % fit.n_features_)
print("Selected Features: %s" % fit.support_)
print("Feature Ranking: %s" % fit.ranking_)

## 8.4 Principal Component Analysis - PCA

In [None]:
# Trích xuất đặc trưng với PCA (Feature Extraction with PCA)
from pandas import read_csv
from sklearn.decomposition import PCA

# load data
filename = 'pima-indians-diabetes.data.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
dataframe = read_csv(filename, names=names)
array = dataframe.values
X = array[:,0:8]
Y = array[:,8]
# feature extraction
pca = PCA(n_components=3)
fit = pca.fit(X)
# summarize components
print("Explained Variance: %s" % fit.explained_variance_ratio_)
print("Principal Components:")
print(fit.components_)

## 8.5 Feature Importance

In [None]:
# Tầm quan trọng của Đặc trưng với Extra Trees Classifier
# (Feature Importance with Extra Trees Classifier)
from pandas import read_csv
from sklearn.ensemble import ExtraTreesClassifier

# load data
filename = 'pima-indians-diabetes.data.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
dataframe = read_csv(filename, names=names)
array = dataframe.values
X = array[:,0:8]
Y = array[:,8]
# feature extraction
model = ExtraTreesClassifier(n_estimators=100, random_state=7) # Thêm n_estimators và random_state
model.fit(X, Y)
print("Feature Importances:")
print(model.feature_importances_)