In [1]:
# Chương 10: Iterative Imputer - Điền dữ liệu thiếu theo nhiều thứ tự khác nhau

import numpy as np
import pandas as pd
from sklearn.experimental import enable_iterative_imputer
from sklearn.impute import IterativeImputer

# Tạo dataset giả lập có giá trị thiếu
data = np.array([
    [1, 2, np.nan],
    [3, np.nan, 6],
    [np.nan, 8, 9],
    [10, 11, 12]
])
df = pd.DataFrame(data, columns=['Feature1', 'Feature2', 'Feature3'])

print("📌 Dữ liệu gốc (có giá trị thiếu):")
print(df)

# Khởi tạo IterativeImputer với thứ tự descending
imputer_desc = IterativeImputer(imputation_order='descending', max_iter=10, random_state=42)
df_desc = imputer_desc.fit_transform(df)

print("\n📌 Kết quả điền thiếu (Descending order):")
print(pd.DataFrame(df_desc, columns=df.columns))

# Khởi tạo IterativeImputer với thứ tự random
imputer_rand = IterativeImputer(imputation_order='random', max_iter=10, random_state=42)
df_rand = imputer_rand.fit_transform(df)

print("\n📌 Kết quả điền thiếu (Random order):")
print(pd.DataFrame(df_rand, columns=df.columns))


📌 Dữ liệu gốc (có giá trị thiếu):
   Feature1  Feature2  Feature3
0       1.0       2.0       NaN
1       3.0       NaN       6.0
2       NaN       8.0       9.0
3      10.0      11.0      12.0

📌 Kết quả điền thiếu (Descending order):
    Feature1   Feature2   Feature3
0   1.000000   2.000000   4.217125
1   3.000000   3.963304   6.000000
2   6.824942   8.000000   9.000000
3  10.000000  11.000000  12.000000

📌 Kết quả điền thiếu (Random order):
    Feature1  Feature2  Feature3
0   1.000000   2.00000       9.0
1   3.000000  10.99999       6.0
2   4.666668   8.00000       9.0
3  10.000000  11.00000      12.0


In [2]:
# Chương 12: Feature selection với dữ liệu danh mục
from sklearn.datasets import load_iris
from sklearn.feature_selection import SelectKBest, chi2, mutual_info_classif
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score

# Load dữ liệu iris
X, y = load_iris(return_X_y=True)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Trích chọn 2 đặc trưng tốt nhất bằng Chi2
chi_selector = SelectKBest(score_func=chi2, k=2)
X_train_chi = chi_selector.fit_transform(X_train, y_train)
X_test_chi = chi_selector.transform(X_test)

# Huấn luyện và đánh giá
model_chi = LogisticRegression(max_iter=1000)
model_chi.fit(X_train_chi, y_train)
y_pred_chi = model_chi.predict(X_test_chi)
print("\n📌 Độ chính xác sau Chi2:", accuracy_score(y_test, y_pred_chi))

# Trích chọn 2 đặc trưng tốt nhất bằng Mutual Information
mi_selector = SelectKBest(score_func=mutual_info_classif, k=2)
X_train_mi = mi_selector.fit_transform(X_train, y_train)
X_test_mi = mi_selector.transform(X_test)

model_mi = LogisticRegression(max_iter=1000)
model_mi.fit(X_train_mi, y_train)
y_pred_mi = model_mi.predict(X_test_mi)
print("📌 Độ chính xác sau Mutual Information:", accuracy_score(y_test, y_pred_mi))



📌 Độ chính xác sau Chi2: 1.0
📌 Độ chính xác sau Mutual Information: 1.0


In [3]:
# Chương 13: Trích chọn đặc trưng số cho phân loại
from sklearn.feature_selection import f_classif

# ANOVA F-test
anova_selector = SelectKBest(score_func=f_classif, k=2)
X_train_anova = anova_selector.fit_transform(X_train, y_train)
X_test_anova = anova_selector.transform(X_test)

model_anova = LogisticRegression(max_iter=1000)
model_anova.fit(X_train_anova, y_train)
y_pred_anova = model_anova.predict(X_test_anova)
print("\n📌 Độ chính xác sau ANOVA F-test:", accuracy_score(y_test, y_pred_anova))



📌 Độ chính xác sau ANOVA F-test: 1.0


In [4]:
# Chương 14: Feature selection cho hồi quy
from sklearn.datasets import make_regression
from sklearn.feature_selection import f_regression, mutual_info_regression
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score

# Tạo dữ liệu hồi quy
X_reg, y_reg = make_regression(n_samples=100, n_features=5, noise=0.1, random_state=42)
X_train_r, X_test_r, y_train_r, y_test_r = train_test_split(X_reg, y_reg, test_size=0.3, random_state=42)

# f_regression
f_selector = SelectKBest(score_func=f_regression, k=3)
X_train_f = f_selector.fit_transform(X_train_r, y_train_r)
X_test_f = f_selector.transform(X_test_r)

model_f = LinearRegression()
model_f.fit(X_train_f, y_train_r)
y_pred_f = model_f.predict(X_test_f)
print("\n📌 R2 score sau f_regression:", r2_score(y_test_r, y_pred_f))

# mutual_info_regression
mi_selector = SelectKBest(score_func=mutual_info_regression, k=3)
X_train_mi = mi_selector.fit_transform(X_train_r, y_train_r)
X_test_mi = mi_selector.transform(X_test_r)

model_mi = LinearRegression()
model_mi.fit(X_train_mi, y_train_r)
y_pred_mi = model_mi.predict(X_test_mi)
print("📌 R2 score sau mutual_info_regression:", r2_score(y_test_r, y_pred_mi))



📌 R2 score sau f_regression: 0.6717809218035365
📌 R2 score sau mutual_info_regression: 0.6796120997608025


In [5]:
# Chương 15: RFE
from sklearn.feature_selection import RFE

# RFE với phân loại
model_log = LogisticRegression(max_iter=1000)
rfe_cls = RFE(estimator=model_log, n_features_to_select=2)
rfe_cls.fit(X_train, y_train)
print("\n📌 Đặc trưng được chọn (classification):", rfe_cls.support_)

# RFE với hồi quy
model_lin = LinearRegression()
rfe_reg = RFE(estimator=model_lin, n_features_to_select=3)
rfe_reg.fit(X_train_r, y_train_r)
print("📌 Đặc trưng được chọn (regression):", rfe_reg.support_)



📌 Đặc trưng được chọn (classification): [False False  True  True]
📌 Đặc trưng được chọn (regression): [ True  True  True False False]


In [6]:
# Chương 16: Feature Importance
from sklearn.ensemble import RandomForestClassifier
from sklearn.inspection import permutation_importance

# Huấn luyện cây
forest = RandomForestClassifier(random_state=42)
forest.fit(X_train, y_train)

# Importance từ cây
print("\n📌 Feature Importance (Decision Tree):", forest.feature_importances_)

# Permutation Importance
perm_importance = permutation_importance(forest, X_test, y_test, random_state=42)
print("📌 Permutation Importance:", perm_importance.importances_mean)



📌 Feature Importance (Decision Tree): [0.10410501 0.04460499 0.41730813 0.43398187]
📌 Permutation Importance: [0.         0.         0.13333333 0.16888889]


In [7]:
# Chương 17: Scale dữ liệu
from sklearn.preprocessing import MinMaxScaler, StandardScaler

# MinMaxScaler
minmax = MinMaxScaler()
X_minmax = minmax.fit_transform(X_train)
print("\n📌 MinMaxScaler:\n", X_minmax[:5])

# StandardScaler
std = StandardScaler()
X_std = std.fit_transform(X_train)
print("\n📌 StandardScaler:\n", X_std[:5])



📌 MinMaxScaler:
 [[0.35294118 0.18181818 0.46428571 0.375     ]
 [0.58823529 0.36363636 0.71428571 0.58333333]
 [0.61764706 0.5        0.78571429 0.70833333]
 [0.67647059 0.45454545 0.58928571 0.54166667]
 [0.85294118 0.72727273 0.89285714 1.        ]]

📌 StandardScaler:
 [[-0.4134164  -1.46200287 -0.09951105 -0.32339776]
 [ 0.55122187 -0.50256349  0.71770262  0.35303182]
 [ 0.67180165  0.21701605  0.95119225  0.75888956]
 [ 0.91296121 -0.02284379  0.30909579  0.2177459 ]
 [ 1.63643991  1.41631528  1.30142668  1.70589097]]


In [8]:
# Chương 18: RobustScaler
from sklearn.preprocessing import RobustScaler

robust = RobustScaler()
X_robust = robust.fit_transform(X_train)
print("\n📌 RobustScaler:\n", X_robust[:5])



📌 RobustScaler:
 [[-0.23076923 -1.2        -0.17647059 -0.21428571]
 [ 0.38461538 -0.4         0.23529412  0.14285714]
 [ 0.46153846  0.2         0.35294118  0.35714286]
 [ 0.61538462  0.          0.02941176  0.07142857]
 [ 1.07692308  1.2         0.52941176  0.85714286]]
