In [1]:
import pandas as pd
from sklearn.feature_selection import RFE
from sklearn.linear_model import LogisticRegression

# Đọc và xử lý dữ liệu
filename = 'pima-indians-diabetes.data.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']

# Đọc file, chuyển '?' thành NaN, ép kiểu số
data = pd.read_csv(filename, names=names, na_values='?')
data = data.apply(pd.to_numeric, errors='coerce')

# Thay NaN bằng giá trị trung bình
data.fillna(data.mean(), inplace=True)

# Tách X, Y
array = data.values
X = array[:, 0:8]
Y = array[:, 8].astype(int)   # ép kiểu integer cho biến đích

# Feature extraction bằng RFE (Recursive Feature Elimination)
model = LogisticRegression(max_iter=1000)  # tăng max_iter để tránh cảnh báo hội tụ
rfe = RFE(model, n_features_to_select=3)
fit = rfe.fit(X, Y)

# In kết quả
print("Num Features:", fit.n_features_)
print("Selected Features:", fit.support_)
print("Feature Ranking:", fit.ranking_)

# In tên các cột được chọn
selected_features = [names[i] for i in range(len(fit.support_)) if fit.support_[i]]
print("\nSelected Feature Names:", selected_features)


Num Features: 3
Selected Features: [ True False False False False  True  True False]
Feature Ranking: [1 2 4 6 5 1 1 3]

Selected Feature Names: ['preg', 'mass', 'pedi']
