In [7]:
import pandas as pd
from numpy import set_printoptions
from sklearn.feature_selection import SelectKBest, chi2

# Đọc và xử lý dữ liệu
filename = 'pima-indians-diabetes.data.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']

data = pd.read_csv(filename, names=names, na_values='?')
data = data.apply(pd.to_numeric, errors='coerce')
data.fillna(data.mean(), inplace=True)
data = data.clip(lower=0)

# Tách X và Y
array = data.values
X = array[:, 0:8]
Y = array[:, 8].astype(int)   # 🔥 ép kiểu integer cho biến mục tiêu

# Feature selection với Chi-square
test = SelectKBest(score_func=chi2, k=4)
fit = test.fit(X, Y)

# Hiển thị kết quả
set_printoptions(precision=3)
print("\nChi2 scores:")
print(fit.scores_)

features = fit.transform(X)
print("\nTop 4 selected features:")
print(features[0:5, :])

# Hiển thị tên cột được chọn
mask = fit.get_support()
selected_features = [col for col, flag in zip(names[:-1], mask) if flag]
print("\nSelected feature names:", selected_features)



Chi2 scores:
[ 111.442 1410.904   17.593   53.071 2174.05   127.58     5.389  181.177]

Top 4 selected features:
[[120.895  79.799  31.993  33.241]
 [148.      0.     33.6    50.   ]
 [ 85.      0.     26.6    31.   ]
 [183.      0.     23.3    32.   ]
 [ 89.     94.     28.1    21.   ]]

Selected feature names: ['plas', 'test', 'mass', 'age']
