In [11]:
# Import các thư viện cần thiết
import pandas as pd
import numpy as np
from sklearn.datasets import load_iris, load_breast_cancer
from sklearn.model_selection import train_test_split, GridSearchCV, cross_val_score
from sklearn.preprocessing import StandardScaler
from sklearn.ensemble import RandomForestClassifier, AdaBoostClassifier, GradientBoostingClassifier
from sklearn.metrics import accuracy_score, classification_report
from sklearn.neighbors import KNeighborsClassifier
from sklearn.naive_bayes import GaussianNB
from sklearn.svm import SVC
from sklearn.linear_model import LogisticRegression


In [13]:
# Load dataset
#data = load_iris()
data = load_breast_cancer()
X = data.data
y = data.target

# Chia dữ liệu thành tập huấn luyện và tập kiểm tra
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Chuẩn hóa dữ liệu
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)


* Để giải quyết vấn đề overfitting trong các mô hình, chúng ta có thể áp dụng một số kỹ thuật như sau:

**Cross-Validation:** Sử dụng kỹ thuật k-fold cross-validation để đánh giá hiệu suất của mô hình và chọn các siêu tham số tối ưu.

**Regularization:** Áp dụng các phương pháp regularization cho các mô hình có thể. Logistic Regression sử dụng **`penalty='l2'`** để áp dụng regularization. SVM cũng có tham số **`C`** để điều chỉnh regularization.

**Tuning Hyperparameters:** Điều chỉnh các siêu tham số của mô hình, chẳng hạn như **`n_estimators`, `max_depth`, `min_samples_split`, `min_samples_leaf`** cho Random Forest, **`n_estimators`** và learning_rate cho Adaboost và Gradient Boosting, **`C`, `gamma`, `kernel`** cho SVM, và **`C`, `penalty`** cho Logistic Regression được điều chỉnh thông qua GridSearchCV.

In [14]:
# Tuning Hyperparameters và Cross-Validation
def tune_and_evaluate(model, param_grid):
    grid_search = GridSearchCV(estimator=model, param_grid=param_grid, cv=5, scoring='accuracy')
    grid_search.fit(X_train, y_train)
    best_model = grid_search.best_estimator_
    y_pred = best_model.predict(X_test)
    print(f"Best Parameters: {grid_search.best_params_}")
    print(f"Accuracy: {accuracy_score(y_test, y_pred)}")
    print(f"Classification Report:\n {classification_report(y_test, y_pred)}")
    return best_model

In [15]:
# Random Forest với Cross-Validation và Hyperparameter Tuning
rf_param_grid = {
    'n_estimators': [50, 100, 200],
    'max_depth': [None, 10, 20, 30],
    'min_samples_split': [2, 5, 10],
    'min_samples_leaf': [1, 2, 4]
}
print("Random Forest:")
best_rf_model = tune_and_evaluate(RandomForestClassifier(random_state=42), rf_param_grid)


Random Forest:
Best Parameters: {'max_depth': None, 'min_samples_leaf': 2, 'min_samples_split': 2, 'n_estimators': 200}
Accuracy: 0.9707602339181286
Classification Report:
               precision    recall  f1-score   support

           0       0.98      0.94      0.96        63
           1       0.96      0.99      0.98       108

    accuracy                           0.97       171
   macro avg       0.97      0.96      0.97       171
weighted avg       0.97      0.97      0.97       171



In [16]:
# Adaboost với Cross-Validation và Hyperparameter Tuning
adaboost_param_grid = {
    'n_estimators': [50, 100, 200],
    'learning_rate': [0.01, 0.1, 1]
}
print("Adaboost:")
best_adaboost_model = tune_and_evaluate(AdaBoostClassifier(random_state=42), adaboost_param_grid)


Adaboost:
Best Parameters: {'learning_rate': 1, 'n_estimators': 200}
Accuracy: 0.9824561403508771
Classification Report:
               precision    recall  f1-score   support

           0       0.97      0.98      0.98        63
           1       0.99      0.98      0.99       108

    accuracy                           0.98       171
   macro avg       0.98      0.98      0.98       171
weighted avg       0.98      0.98      0.98       171



In [17]:
# Gradient Boosting với Cross-Validation và Hyperparameter Tuning
gb_param_grid = {
    'n_estimators': [50, 100, 200],
    'learning_rate': [0.01, 0.1, 0.2],
    'max_depth': [3, 5, 7]
}
print("Gradient Boosting:")
best_gb_model = tune_and_evaluate(GradientBoostingClassifier(random_state=42), gb_param_grid)


Gradient Boosting:
Best Parameters: {'learning_rate': 0.1, 'max_depth': 3, 'n_estimators': 100}
Accuracy: 0.9590643274853801
Classification Report:
               precision    recall  f1-score   support

           0       0.95      0.94      0.94        63
           1       0.96      0.97      0.97       108

    accuracy                           0.96       171
   macro avg       0.96      0.95      0.96       171
weighted avg       0.96      0.96      0.96       171



In [18]:
# Mô hình đơn giản khác để so sánh
# K-Nearest Neighbors
knn_model = KNeighborsClassifier(n_neighbors=5)
knn_model.fit(X_train, y_train)
y_pred_knn = knn_model.predict(X_test)
print("KNN Accuracy:", accuracy_score(y_test, y_pred_knn))
print("KNN Classification Report:\n", classification_report(y_test, y_pred_knn))


KNN Accuracy: 0.9590643274853801
KNN Classification Report:
               precision    recall  f1-score   support

           0       0.95      0.94      0.94        63
           1       0.96      0.97      0.97       108

    accuracy                           0.96       171
   macro avg       0.96      0.95      0.96       171
weighted avg       0.96      0.96      0.96       171



In [19]:
# Naive Bayes
nb_model = GaussianNB()
nb_model.fit(X_train, y_train)
y_pred_nb = nb_model.predict(X_test)
print("Naive Bayes Accuracy:", accuracy_score(y_test, y_pred_nb))
print("Naive Bayes Classification Report:\n", classification_report(y_test, y_pred_nb))


Naive Bayes Accuracy: 0.935672514619883
Naive Bayes Classification Report:
               precision    recall  f1-score   support

           0       0.92      0.90      0.91        63
           1       0.94      0.95      0.95       108

    accuracy                           0.94       171
   macro avg       0.93      0.93      0.93       171
weighted avg       0.94      0.94      0.94       171



In [20]:
# Support Vector Machine
svm_param_grid = {
    'C': [0.1, 1, 10],
    'gamma': [1, 0.1, 0.01],
    'kernel': ['rbf', 'linear']
}
print("SVM:")
best_svm_model = tune_and_evaluate(SVC(random_state=42), svm_param_grid)


SVM:
Best Parameters: {'C': 0.1, 'gamma': 1, 'kernel': 'linear'}
Accuracy: 0.9824561403508771
Classification Report:
               precision    recall  f1-score   support

           0       0.98      0.97      0.98        63
           1       0.98      0.99      0.99       108

    accuracy                           0.98       171
   macro avg       0.98      0.98      0.98       171
weighted avg       0.98      0.98      0.98       171



In [21]:
# Logistic Regression
lr_param_grid = {
    'C': [0.01, 0.1, 1, 10],
    'penalty': ['l2']
}
print("Logistic Regression:")
best_lr_model = tune_and_evaluate(LogisticRegression(random_state=42, max_iter=200), lr_param_grid)


Logistic Regression:
Best Parameters: {'C': 1, 'penalty': 'l2'}
Accuracy: 0.9824561403508771
Classification Report:
               precision    recall  f1-score   support

           0       0.97      0.98      0.98        63
           1       0.99      0.98      0.99       108

    accuracy                           0.98       171
   macro avg       0.98      0.98      0.98       171
weighted avg       0.98      0.98      0.98       171

