# Chương 8: Lựa Chọn Đặc Trưng Cho Học Máy

Các đặc trưng dữ liệu sử dụng để huấn luyện mô hình học máy có ảnh hưởng rất lớn đến hiệu suất có thể đạt được. Các đặc trưng không liên quan hoặc liên quan một phần có thể ảnh hưởng tiêu cực đến hiệu suất mô hình. Trong chương này, bạn sẽ khám phá các kỹ thuật lựa chọn đặc trưng tự động mà bạn có thể sử dụng để chuẩn bị dữ liệu học máy của mình trong Python với scikit-learn.

## 8.1 Lựa Chọn Đặc Trưng

**Lựa Chọn Đặc Trưng** là quá trình tự động chọn những đặc trưng trong dữ liệu của bạn có đóng góp nhiều nhất cho biến dự đoán hoặc đầu ra mà bạn quan tâm. Việc có các đặc trưng không liên quan trong dữ liệu có thể làm giảm độ chính xác của nhiều mô hình, đặc biệt là các thuật toán tuyến tính như hồi quy tuyến tính và hồi quy logistic.

**Lợi ích của Lựa Chọn Đặc Trưng:**
- **Giảm Overfitting**: Dữ liệu ít dư thừa đồng nghĩa với ít cơ hội đưa ra quyết định dựa trên nhiễu.
- **Cải Thiện Độ Chính Xác**: Dữ liệu ít gây hiểu lầm đồng nghĩa với độ chính xác mô hình được cải thiện.
- **Giảm Thời Gian Huấn Luyện**: Dữ liệu ít hơn đồng nghĩa với thuật toán huấn luyện nhanh hơn.

## 8.2 Lựa Chọn Đơn Biến

**Lựa Chọn Đơn Biến** sử dụng các kiểm định thống kê để chọn những đặc trưng có mối quan hệ mạnh nhất với biến đầu ra. Thư viện scikit-learn cung cấp lớp `SelectKBest` có thể được sử dụng với một loạt các kiểm định thống kê khác nhau để chọn một số lượng đặc trưng cụ thể.

In [None]:
from pandas import read_csv
from numpy import set_printoptions
from sklearn.feature_selection import SelectKBest
from sklearn.feature_selection import chi2

filename = 'pima-indians-diabetes.data.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
dataframe = read_csv(filename, names=names)
array = dataframe.values
X = array[:,0:8]
Y = array[:,8]
# feature extraction
test = SelectKBest(score_func=chi2, k=4)
fit = test.fit(X, Y)
# summarize scores
set_printoptions(precision=3)
print(fit.scores_)
features = fit.transform(X)
# summarize selected features
print(features[0:5,:])

## 8.3 Loại Bỏ Đặc Trưng Đệ Quy (RFE)

**Loại Bỏ Đặc Trưng Đệ Quy (RFE)** hoạt động bằng cách loại bỏ đệ quy các thuộc tính và xây dựng mô hình trên những thuộc tính còn lại. Nó sử dụng độ chính xác của mô hình để xác định thuộc tính nào (và tổ hợp thuộc tính nào) đóng góp nhiều nhất vào việc dự đoán thuộc tính mục tiêu.

In [None]:
from pandas import read_csv
from sklearn.feature_selection import RFE
from sklearn.linear_model import LogisticRegression

filename = 'pima-indians-diabetes.data.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
dataframe = read_csv(filename, names=names)
array = dataframe.values
X = array[:,0:8]
Y = array[:,8]
# feature extraction
model = LogisticRegression()
rfe = RFE(model, 3)
fit = rfe.fit(X, Y)
print("Num Features: %d" % fit.n_features_)
print("Selected Features: %s" % fit.support_)
print("Feature Ranking: %s" % fit.ranking_)

## 8.4 Phân Tích Thành Phần Chính (PCA)

**Phân Tích Thành Phần Chính (PCA)** là một kỹ thuật giảm dữ liệu sử dụng đại số tuyến tính để chuyển đổi tập dữ liệu thành dạng nén. PCA cho phép bạn chọn số lượng thành phần chính trong kết quả chuyển đổi.

In [None]:
from pandas import read_csv
from sklearn.decomposition import PCA

filename = 'pima-indians-diabetes.data.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
dataframe = read_csv(filename, names=names)
array = dataframe.values
X = array[:,0:8]
Y = array[:,8]
# feature extraction
pca = PCA(n_components=3)
fit = pca.fit(X)
# summarize components
print("Explained Variance: %s" % fit.explained_variance_ratio_)
print(fit.components_)

## 8.5 Độ Quan Trọng Của Đặc Trưng

**Độ Quan Trọng Của Đặc Trưng** là một kỹ thuật được sử dụng để ước tính tầm quan trọng của các đặc trưng bằng cách sử dụng các mô hình như **Random Forest** và **Extra Trees**. Các mô hình này có thể cung cấp một điểm số cho mỗi đặc trưng, chỉ ra tầm quan trọng của nó trong việc dự đoán thuộc tính mục tiêu.

In [None]:
from pandas import read_csv
from sklearn.ensemble import ExtraTreesClassifier

filename = 'pima-indians-diabetes.data.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
dataframe = read_csv(filename, names=names)
array = dataframe.values
X = array[:,0:8]
Y = array[:,8]
# feature extraction
model = ExtraTreesClassifier()
model.fit(X, Y)
print(model.feature_importances_)

## 8.6 Tóm Tắt

Trong chương này, bạn đã học về bốn kỹ thuật lựa chọn đặc trưng tự động khác nhau để chuẩn bị dữ liệu học máy trong Python với scikit-learn:

- **Lựa Chọn Đơn Biến**
- **Loại Bỏ Đặc Trưng Đệ Quy (RFE)**
- **Phân Tích Thành Phần Chính (PCA)**
- **Độ Quan Trọng Của Đặc Trưng**