In [None]:
# chương 8: lựa chọn đặc trưng cho machine learning

# cell 1: imports
import pandas as pd
import numpy as np
from sklearn.feature_selection import SelectKBest, chi2, RFE
from sklearn.linear_model import LogisticRegression
from sklearn.decomposition import PCA
from sklearn.ensemble import ExtraTreesClassifier

In [None]:
# cell 2: load data và tách features 'x', target 'y' (ví dụ)
filename = 'pima-indians-diabetes.data.csv' # đảm bảo file này tồn tại
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
dataframe = pd.read_csv(filename, names=names)
array = dataframe.values
x = array[:,0:8] 
y = array[:,8] 

print("--- chương 8: lựa chọn đặc trưng (thực hiện trên 'x' và 'y') ---")

In [None]:
# cell 3: univariate selection (chi2)
print("univariate selection (chi2, k=4):")
# chọn 4 features tốt nhất
selector_kbest = SelectKBest(score_func=chi2, k=4)
fit_kbest = selector_kbest.fit(x, y)
# np.set_printoptions(precision=3) # đặt độ chính xác hiển thị nếu muốn
print("điểm số chi2:\n", fit_kbest.scores_)
# lấy ra các features được chọn
features_selected_indices = selector_kbest.get_support(indices=True)
print("chỉ số các features được chọn:", features_selected_indices)
# features_kbest = x[:,features_selected_indices] # dữ liệu chỉ gồm features đã chọn


In [None]:
# cell 4: recursive feature elimination (rfe)
print("\nrecursive feature elimination (rfe, k=3):")
# chọn 3 features dùng logistic regression
model_for_rfe = LogisticRegression(solver='liblinear', max_iter=1000) 
selector_rfe = RFE(model_for_rfe, n_features_to_select=3)
fit_rfe = selector_rfe.fit(x, y)
print("mask features được chọn:", fit_rfe.support_)
print("thứ hạng features:", fit_rfe.ranking_)

In [None]:
# cell 5: principal component analysis (pca)
print("\nprincipal component analysis (pca, n=3):")
# giảm chiều xuống 3 components
pca_transformer = PCA(n_components=3)
fit_pca = pca_transformer.fit(x)
print("tỷ lệ phương sai giải thích được:", fit_pca.explained_variance_ratio_)
print("tổng phương sai giải thích được:", sum(fit_pca.explained_variance_ratio_))
# features_pca = pca_transformer.transform(x) # dữ liệu sau giảm chiều

In [None]:
# cell 6: feature importance (extra trees)
print("\nfeature importance (extra trees):")
# dùng extra trees để đánh giá
importance_model = ExtraTreesClassifier(n_estimators=100, random_state=42)
importance_model.fit(x, y)
print("mức độ quan trọng của từng feature:\n", importance_model.feature_importances_)
# tạo dataframe để xem tên cột và độ quan trọng nếu muốn
# importance_df = pd.DataFrame({'feature': names[:8], 'importance': importance_model.feature_importances_})
# print(importance_df.sort_values(by='importance', ascending=False))

print("\n--- hết chương 8 ---")