# Chương 7: Prepare Your Data For Machine Learning

- Cần tiền xử lý dữ liệu để giúp thuật toán học tốt hơn, nhanh hơn.
- Các phương pháp phổ biến:
  + Rescale
  + Standardize
  + Normalize
  + Binarize

In [15]:
# Rescale dữ liệu về khoảng [0,1]
from pandas import read_csv
from numpy import set_printoptions
from sklearn.preprocessing import MinMaxScaler
# Đường dẫn đến file CSV
filename = 'pima-indians-diabetes.data.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
# Tải dữ liệu từ file CSV mà không đưa tiêu đề vào
dataframe = read_csv(filename, names=names, header=0)
# Chuyển đổi DataFrame thành mảng numpy
array = dataframe.values
# Tách mảng thành các thành phần đầu vào và đầu ra
X = array[:, 0:8]  # Các thuộc tính đầu vào
Y = array[:, 8]     # Thuộc tính đầu ra
# Khởi tạo bộ chuyển đổi MinMaxScaler
scaler = MinMaxScaler(feature_range=(0, 1))
# Chuyển đổi dữ liệu về khoảng [0, 1]
rescaledX = scaler.fit_transform(X)
# Tóm tắt dữ liệu đã chuyển đổi
set_printoptions(precision=3)
print(rescaledX[0:5,:])  # In ra dữ liệu đã chuyển đổi

[[0.353 0.744 0.59  0.354 0.    0.501 0.234 0.483]
 [0.059 0.427 0.541 0.293 0.    0.396 0.117 0.167]
 [0.471 0.92  0.525 0.    0.    0.347 0.254 0.183]
 [0.059 0.447 0.541 0.232 0.111 0.419 0.038 0.   ]
 [0.    0.688 0.328 0.354 0.199 0.642 0.944 0.2  ]]


In [31]:
# Standardize dữ liệu: mean = 0, std = 1
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler().fit(X)
rescaledX = scaler.transform(X)
# Tóm tắt dữ liệu đã chuyển đổi
set_printoptions(precision=3)
print(rescaledX[0:5,:])

[[ 0.64   0.848  0.15   0.907 -0.693  0.204  0.468  1.426]
 [-0.845 -1.123 -0.161  0.531 -0.693 -0.684 -0.365 -0.191]
 [ 1.234  1.944 -0.264 -1.288 -0.693 -1.103  0.604 -0.106]
 [-0.845 -0.998 -0.161  0.155  0.123 -0.494 -0.921 -1.042]
 [-1.142  0.504 -1.505  0.907  0.766  1.41   5.485 -0.02 ]]


In [33]:
# Normalize từng sample (vector có norm = 1)
from sklearn.preprocessing import Normalizer
scaler = Normalizer().fit(X)
normalizedX = scaler.transform(X)
# Tóm tắt dữ liệu đã chuyển đổi
set_printoptions(precision=3)
print(normalizedX[0:5,:])

[[0.034 0.828 0.403 0.196 0.    0.188 0.004 0.28 ]
 [0.008 0.716 0.556 0.244 0.    0.224 0.003 0.261]
 [0.04  0.924 0.323 0.    0.    0.118 0.003 0.162]
 [0.007 0.588 0.436 0.152 0.622 0.186 0.001 0.139]
 [0.    0.596 0.174 0.152 0.731 0.188 0.01  0.144]]


In [35]:
# Binarize dữ liệu với threshold = 0.0 (có thể thay đổi ngưỡng)
from sklearn.preprocessing import Binarizer
binarizer = Binarizer(threshold=0.0).fit(X)
binaryX = binarizer.transform(X)
# summarize transformed data
set_printoptions(precision=3)
print(binaryX[0:5,:])

[[1. 1. 1. 1. 0. 1. 1. 1.]
 [1. 1. 1. 1. 0. 1. 1. 1.]
 [1. 1. 1. 0. 0. 1. 1. 1.]
 [1. 1. 1. 1. 1. 1. 1. 1.]
 [0. 1. 1. 1. 1. 1. 1. 1.]]


# Chương 8: Feature Selection For Machine Learning

- Lựa chọn đặc trưng quan trọng giúp tăng tốc và nâng cao độ chính xác mô hình.
- Các phương pháp phổ biến:
  + Univariate Selection
  + Recursive Feature Elimination (RFE)
  + Principal Component Analysis (PCA)
  + Feature Importance

In [43]:
from pandas import read_csv
from numpy import set_printoptions
from sklearn.feature_selection import SelectKBest
from sklearn.feature_selection import chi2
# Tải dữ liệu
filename = 'pima-indians-diabetes.data.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
dataframe = read_csv(filename, names=names, header=0)
array = dataframe.values
X = array[:, 0:8]  # Các thuộc tính đầu vào
Y = array[:, 8]     # Thuộc tính đầu ra
# Trích xuất đặc trưng
test = SelectKBest(score_func=chi2, k=4)
fit = test.fit(X, Y)
# Tóm tắt điểm số
set_printoptions(precision=3)
print(fit.scores_)  # In ra điểm số của các đặc trưng
features = fit.transform(X)  # Chọn các đặc trưng
# Tóm tắt các đặc trưng đã chọn
print(features[0:5, :])  # In ra 5 mẫu đầu tiên của các đặc trưng đã chọn

[ 111.52  1411.887   17.605   53.108 2175.565  127.669    5.393  181.304]
[[148.    0.   33.6  50. ]
 [ 85.    0.   26.6  31. ]
 [183.    0.   23.3  32. ]
 [ 89.   94.   28.1  21. ]
 [137.  168.   43.1  33. ]]


In [91]:
from pandas import read_csv
from sklearn.feature_selection import RFE
from sklearn.linear_model import LogisticRegression
# load data
filename = 'pima-indians-diabetes.data.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
dataframe = read_csv(filename, names=names, header=0)
array = dataframe.values
X = array[:,0:8]
Y = array[:,8]
# Trích xuất đặc trưng bằng RFE
model = LogisticRegression(solver='liblinear', max_iter=200)  # Thêm max_iter để tránh cảnh báo hội tụ
rfe = RFE(estimator=model, n_features_to_select=3)  # Phải dùng tham số rõ tên
fit = rfe.fit(X, Y)
# Hiển thị kết quả
print("Số lượng đặc trưng được chọn: %d" % fit.n_features_)
print("Đặc trưng được chọn (True/False): %s" % fit.support_)
print("Xếp hạng của các đặc trưng: %s" % fit.ranking_)

Số lượng đặc trưng được chọn: 3
Đặc trưng được chọn (True/False): [ True False False False False  True  True False]
Xếp hạng của các đặc trưng: [1 2 3 5 6 1 1 4]


In [97]:
# Biến đổi toàn bộ features thành tập feature mới bằng PCA.
from sklearn.decomposition import PCA
# Trích xuất đặc trưng
pca = PCA(n_components=3)
fit = pca.fit(X)
# Tóm tắt các thành phần
print("Phương sai giải thích: %s" % fit.explained_variance_ratio_)
print(fit.components_)

Phương sai giải thích: [0.889 0.062 0.026]
[[-2.022e-03  9.781e-02  1.609e-02  6.076e-02  9.931e-01  1.401e-02
   5.372e-04 -3.565e-03]
 [ 2.265e-02  9.722e-01  1.419e-01 -5.786e-02 -9.463e-02  4.697e-02
   8.168e-04  1.402e-01]
 [ 2.246e-02 -1.434e-01  9.225e-01  3.070e-01 -2.098e-02  1.324e-01
   6.400e-04  1.255e-01]]


In [158]:
# Dùng mô hình cây (tree model) để đánh giá độ quan trọng của các đặc trưng.
from sklearn.ensemble import ExtraTreesClassifier
# Trích xuất đặc trưng
model = ExtraTreesClassifier()
model.fit(X, Y)
print(model.feature_importances_)

[0.108 0.228 0.099 0.08  0.077 0.138 0.121 0.148]
