#Feature Selection

In [None]:
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score

# Load tập dữ liệu "Breast Cancer Wisconsin"
data = load_breast_cancer()
X = data.data
y = data.target
print('X', X.shape)
print('y', y.shape)

# Chia tập dữ liệu thành tập huấn luyện và tập kiểm tra
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Tạo mô hình hồi quy logistic và huấn luyện trên tập huấn luyện (overfitting)
model_overfit = LogisticRegression(max_iter=10000)
model_overfit.fit(X_train, y_train)

# Đánh giá mô hình trên tập kiểm tra
y_pred = model_overfit.predict(X_test)
accuracy_overfit = accuracy_score(y_test, y_pred)
print("Accuracy trên tập test:", accuracy_overfit)

X (569, 30)
y (569,)
Accuracy trên tập test: 0.956140350877193


In [None]:
from sklearn.feature_selection import SelectKBest, f_classif

# Sử dụng SelectKBest để chọn ra 10 đặc trưng tốt nhất
k_best = SelectKBest(score_func=f_classif, k=10)
X_train_selected = k_best.fit_transform(X_train, y_train)
X_test_selected = k_best.transform(X_test)

# Tạo và huấn luyện mô hình hồi quy logistic trên tập dữ liệu đã được chọn đặc trưng
model_selected = LogisticRegression(max_iter=10000)
model_selected.fit(X_train_selected, y_train)

# Đánh giá mô hình đã chọn đặc trưng trên tập kiểm tra
y_pred_selected = model_selected.predict(X_test_selected)
accuracy_selected = accuracy_score(y_test, y_pred_selected)
print("Accuracy trên tập test (mô hình đã chọn đặc trưng):", accuracy_selected)

Accuracy trên tập kiểm tra (mô hình đã chọn đặc trưng): 0.9912280701754386


## Using Chi-square

![Chi-Square](https://cdn1.byjus.com/wp-content/uploads/2020/10/Chi-Square-Test.png)

In [None]:
import numpy as np
from scipy.stats import chi2_contingency
# Tạo một danh sách để lưu giá trị Chi-square cho từng đặc trưng
chi_square_values = []

# Tính toán giá trị Chi-square cho từng đặc trưng
for feature_idx in range(X.shape[1]):
    observed_values = np.column_stack((X[:, feature_idx], y))
    chi2, _, _, _ = chi2_contingency(observed_values)
    chi_square_values.append(chi2)

# Sắp xếp các đặc trưng theo giá trị Chi-square giảm dần
sorted_feature_indices = np.argsort(chi_square_values)[::-1]

# Chọn ra một số lượng đặc trưng cần giữ lại (ví dụ: 2 đặc trưng)
num_selected_features = 10
selected_feature_indices = sorted_feature_indices[:num_selected_features]

# In ra danh sách các đặc trưng đã chọn
selected_feature_names = np.array(data.feature_names)[selected_feature_indices]
selected_feature_names.sort()
print("Các đặc trưng đã chọn:")
print(selected_feature_names)


# Training
X_train_selected = X_train[:, selected_feature_indices]
X_test_selected = X_test[:, selected_feature_indices]

model_selected = LogisticRegression(max_iter=10000)
model_selected.fit(X_train_selected, y_train)

y_pred_selected = model_selected.predict(X_test_selected)
accuracy_selected = accuracy_score(y_test, y_pred_selected)
print("Accuracy trên tập kiểm tra (mô hình đã chọn đặc trưng):", accuracy_selected)

Các đặc trưng đã chọn:
['area error' 'mean area' 'mean perimeter' 'mean radius' 'perimeter error'
 'worst area' 'worst concavity' 'worst perimeter' 'worst radius'
 'worst texture']
Accuracy trên tập kiểm tra (mô hình đã chọn đặc trưng): 0.9649122807017544


## Using F-score (F-value)

In [None]:
import numpy as np
from sklearn.datasets import load_breast_cancer
from scipy.stats import f_oneway

# Load tập dữ liệu "Breast Cancer Wisconsin"
data = load_breast_cancer()
X = data.data  # Ma trận đặc trưng
y = data.target  # Biến mục tiêu

# Chia dữ liệu thành hai lớp tương ứng với biến mục tiêu (lớp 0 và lớp 1)
X_class0 = X[y == 0]
X_class1 = X[y == 1]

# Tính toán giá trị F-score cho từng đặc trưng
num_features = X.shape[1]
f_scores = np.zeros(num_features)

for feature_idx in range(num_features):
    f_score, _ = f_oneway(X_class0[:, feature_idx], X_class1[:, feature_idx])
    f_scores[feature_idx] = f_score

# Sắp xếp các đặc trưng theo thứ tự giảm dần của F-score
sorted_feature_indices = np.argsort(f_scores)[::-1]

# Chọn ra một số lượng đặc trưng cần giữ lại (ví dụ: 10 đặc trưng)
num_selected_features = 10
selected_feature_indices = sorted_feature_indices[:num_selected_features]

# Tạo một ma trận mới chỉ chứa các đặc trưng đã chọn
X_selected = X[:, selected_feature_indices]

# In ra danh sách các đặc trưng đã chọn
selected_feature_names = data.feature_names[selected_feature_indices]
selected_feature_names.sort()
print("Các đặc trưng đã chọn:")
print(selected_feature_names)


# Training
X_train_selected = X_train[:, selected_feature_indices]
X_test_selected = X_test[:, selected_feature_indices]

model_selected = LogisticRegression(max_iter=10000)
model_selected.fit(X_train_selected, y_train)

y_pred_selected = model_selected.predict(X_test_selected)
accuracy_selected = accuracy_score(y_test, y_pred_selected)
print("Accuracy trên tập kiểm tra (mô hình đã chọn đặc trưng):", accuracy_selected)

Các đặc trưng đã chọn:
['mean area' 'mean concave points' 'mean concavity' 'mean perimeter'
 'mean radius' 'worst area' 'worst concave points' 'worst concavity'
 'worst perimeter' 'worst radius']
Accuracy trên tập kiểm tra (mô hình đã chọn đặc trưng): 0.9912280701754386


# Ensemble

## Library and data

In [None]:
import numpy as np
from sklearn.datasets import load_iris, load_breast_cancer
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score

# Load bộ dữ liệu breast_cancer
data = load_breast_cancer()
X = data.data  # Ma trận đặc trưng
y = data.target  # Biến mục tiêu

# Chia dữ liệu thành tập huấn luyện và tập kiểm tra
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [None]:
# Tạo mô hình Decision Tree Classifier
model = DecisionTreeClassifier(max_depth=1, random_state=42)

# Huấn luyện mô hình trên tập huấn luyện
model.fit(X_train, y_train)

# Dự đoán trên tập kiểm tra
y_pred = model.predict(X_test)

# Đánh giá mô hình sử dụng accuracy score
accuracy = accuracy_score(y_test, y_pred)
print("Accuracy trên tập kiểm tra:", accuracy)


Accuracy trên tập kiểm tra: 0.8947368421052632


![Bagging&Boosting](https://cdn.educba.com/academy/wp-content/uploads/2019/11/bagging-and-boosting.png)

## Bagging Ensemble

In [None]:
# Số lượng mô hình (KNN) trong ensemble và số lượng mẫu con trong mỗi bootstrap sample
n_estimators = 100
bootstrap_samples = 50

# Khởi tạo danh sách các mô hình KNN yếu
weak_models = []

# Huấn luyện các mô hình KNN yếu và thêm vào danh sách
for _ in range(n_estimators):
    # Lấy ngẫu nhiên mẫu con từ tập huấn luyện dựa trên bootstrap sampling
    bootstrap_indices = np.random.choice(X_train.shape[0], bootstrap_samples, replace=True)
    X_bootstrap = X_train[bootstrap_indices]
    y_bootstrap = y_train[bootstrap_indices]

    # Huấn luyện mô hình KNN yếu
    knn = KNeighborsClassifier(n_neighbors=3)  # Chọn số lân cận (neighbors) tùy chọn
    knn.fit(X_bootstrap, y_bootstrap)
    weak_models.append(knn)

# Dự đoán trên tập kiểm tra bằng cách bầu cử đa số
predictions = np.zeros((X_test.shape[0], n_estimators))
for i, knn in enumerate(weak_models):
    predictions[:, i] = knn.predict(X_test)

# Bầu cử đa số để chọn lớp cuối cùng
ensemble_predictions = np.round(np.mean(predictions, axis=1))

# Đánh giá mô hình bằng độ chính xác
accuracy = accuracy_score(y_test, ensemble_predictions)
print(f"Độ chính xác của mô hình Bagging (KNN): {accuracy:.2f}")


Độ chính xác của mô hình Bagging (KNN): 0.95


## Boosting Ensemble

In [None]:
# Số lượng cây trong ensemble (đây là hyperparameter của AdaBoost)
num_estimators = 50

# Tạo một mảng để lưu trữ các cây quyết định
estimators = []

# Khởi tạo một mảng để lưu trữ trọng số của từng cây
weights = np.ones(len(X_train)) / len(X_train)

for _ in range(num_estimators):
    # Tạo mô hình cây quyết định dựa trên dữ liệu và trọng số hiện tại
    tree = DecisionTreeClassifier(max_depth=1)
    tree.fit(X_train, y_train, sample_weight=weights)

    # Dự đoán trên tập huấn luyện
    y_pred = tree.predict(X_train)

    # Tính lỗi
    error = np.sum(weights * (y_pred != y_train)) / np.sum(weights)

    # Tính trọng số mới cho cây
    tree_weight = 0.5 * np.log((1 - error) / error)

    # Cập nhật trọng số
    weights = weights * np.exp(-tree_weight * y_train * y_pred)

    # Chuẩn hóa trọng số
    weights /= np.sum(weights)

    # Lưu cây và trọng số vào ensemble
    estimators.append((tree, tree_weight))

# Dự đoán trên tập kiểm tra
y_pred_ensemble = np.zeros_like(y_test, dtype=float)
for tree, tree_weight in estimators:
    y_pred_tree = tree.predict(X_test)
    y_pred_ensemble += tree_weight * y_pred_tree

# Tính toán kết quả dự đoán của ensemble
y_pred_ensemble = np.sign(y_pred_ensemble)

# Đánh giá mô hình sử dụng accuracy score
accuracy = accuracy_score(y_test, y_pred_ensemble)
print("Độ chính xác của mô hình Boosting (KNN)", accuracy)

Độ chính xác của mô hình Boosting (KNN) 0.9210526315789473


## Stacking Ensemble

In [None]:
# Các mô hình cơ sở (base models)
rf_model = RandomForestClassifier(n_estimators=100, random_state=42)
knn_model = KNeighborsClassifier(n_neighbors=3)
lr_model = LogisticRegression()

# Huấn luyện các mô hình cơ sở trên tập huấn luyện
rf_model.fit(X_train, y_train)
knn_model.fit(X_train, y_train)
lr_model.fit(X_train, y_train)

# Dự đoán trên tập kiểm tra bằng các mô hình cơ sở
rf_pred = rf_model.predict(X_test)
knn_pred = knn_model.predict(X_test)
lr_pred = lr_model.predict(X_test)

# Tạo ma trận dự đoán từ các mô hình cơ sở
stacked_predictions = np.column_stack((rf_pred, knn_pred, lr_pred))

# Mô hình tổ hợp (meta-learner) - Ở đây chúng ta sử dụng Logistic Regression
meta_learner = LogisticRegression()
meta_learner.fit(stacked_predictions, y_test)

# Dự đoán cuối cùng bằng cách sử dụng mô hình tổ hợp
stacked_predictions_test = np.column_stack((rf_model.predict(X_test), knn_model.predict(X_test), lr_model.predict(X_test)))
final_predictions = meta_learner.predict(stacked_predictions_test)

# Đánh giá mô hình tổ hợp bằng độ chính xác
accuracy = accuracy_score(y_test, final_predictions)
print(f"Độ chính xác của mô hình Stacking Ensemble: {accuracy:.2f}")


Độ chính xác của mô hình Stacking Ensemble: 0.96


STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(
