In [2]:
import pandas as pd
df = pd.read_csv('bank-full.csv', delimiter=';')
print(df.head())

   age           job  marital  education default  balance housing loan  \
0   58    management  married   tertiary      no     2143     yes   no   
1   44    technician   single  secondary      no       29     yes   no   
2   33  entrepreneur  married  secondary      no        2     yes  yes   
3   47   blue-collar  married    unknown      no     1506     yes   no   
4   33       unknown   single    unknown      no        1      no   no   

   contact  day month  duration  campaign  pdays  previous poutcome   y  
0  unknown    5   may       261         1     -1         0  unknown  no  
1  unknown    5   may       151         1     -1         0  unknown  no  
2  unknown    5   may        76         1     -1         0  unknown  no  
3  unknown    5   may        92         1     -1         0  unknown  no  
4  unknown    5   may       198         1     -1         0  unknown  no  


age: Tuổi của khách hàng.
job: Nghề nghiệp của khách hàng.
marital: Tình trạng hôn nhân của khách hàng.
education: Trình độ học vấn của khách hàng.
default: Có vay mặc định không (có/không).
balance: Số dư trong tài khoản.
housing: Có vay mua nhà không (có/không).
loan: Có vay cá nhân không (có/không).
contact: Phương tiện liên lạc.
day: Ngày cuộc gọi được thực hiện trong tháng.
month: Tháng cuộc gọi được thực hiện.
duration: Thời lượng cuộc gọi trong giây.
campaign: Số lượng lần liên lạc trong chiến dịch này.
pdays: Số ngày trôi qua từ cuộc gọi trước đó trong chiến dịch trước đó (-1 nếu không có mối quan hệ trước đó).
previous: Số lần liên lạc trước đó trong chiến dịch này.
poutcome: Kết quả của chiến dịch trước đó.
y: Kết quả cuối cùng của chiến dịch tiếp thị (có/không).

* Naive Bayes Đa Thức (Multinomial Naive Bayes):
Phù hợp với các đặc trưng mà có thể được biểu diễn dưới dạng tần suất xuất hiện của các sự kiện. Ví dụ: "education", "contact", "month".
Điều này phù hợp với dữ liệu như "tertiary", "secondary" trong cột "education", hoặc "may", "unknown" trong cột "month".

* Naive Bayes Bernoulli:
Phù hợp với các đặc trưng nhị phân (binary) - tức là các đặc trưng chỉ nhận giá trị true hoặc false. Ví dụ: "default", "housing", "loan".
Điều này phù hợp với các cột như "default", "housing", "loan" trong dữ liệu, vì chúng chỉ nhận giá trị "yes" hoặc "no".

* Naive Bayes Gaussian:
Phù hợp với các đặc trưng có phân phối Gaussian, tức là dữ liệu liên tục. Trong dữ liệu, "age", "balance", "duration", "campaign", "pdays", "previous" có thể phù hợp với mô hình này.
Tuy nhiên, dữ liệu như "job", "marital", "education", "contact", "month" không phải dạng số và không phải phân phối Gaussian, nên không thích hợp cho mô hình Naive Bayes Gaussian

=> Việc kết hợp các mô hình lại sẽ khiến mô hình phức tạp, khó hiểu, mất nhiều thời gian huấn luyện. Tuy nhiên việc hiệu suất có được cải thiện hay không thì cũng không chắc chắn.

=> Theo kinh nghiệm, các trường dữ liệu như số dư, tuổi tác, cũng như các thông tin về dữ liệu thời gian cuộc gọi rất quan trọng trong việc quyết định có thực hiện tiếp thị hay không, những biến này đều là những đặc trưng phân phối liên tục, ngoài ra các thông tin như vay mặc định, vay mua nhà, vay cá nhân (các đặc trưng nhị phân cũng khá quan trọng). Các thông tin thứ yếu tiếp theo là phương tiện liên lạc, trình độ giáo dục.

=> Chọn mô hình theo những đặc trưng quan trọng nhất. Những đặc trưng này được phân phối liên tục nên ta chọn mô hình Gaussian Naive Bayes. Các dữ liệu còn lại hoàn toàn có thể tiền xử lý để phù hợp với mô hình Gaussian Naive Bayes

Thực hiện tiền xử lý dữ liệu cho phân lớp Gaussian Naive Bayes, tất cả các cột có kiểu dữ liệu là String sẽ chuyển sang dữ liệu số.

In [3]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder

data = pd.read_csv("bank-full.csv", delimiter=";")

print(data.head())

label_encoder = LabelEncoder()
categorical_columns = ['job', 'marital', 'education', 'default', 'housing', 'loan', 'contact', 'month', 'poutcome']
for col in categorical_columns:
    data[col] = label_encoder.fit_transform(data[col])

print(data.head())

X = data.drop('y', axis=1)
y = data['y'] 

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

print("Dữ liệu huấn luyện:")
print(X_train.head())
print("\nNhãn dữ liệu huấn luyện:")
print(y_train.head())

   age           job  marital  education default  balance housing loan  \
0   58    management  married   tertiary      no     2143     yes   no   
1   44    technician   single  secondary      no       29     yes   no   
2   33  entrepreneur  married  secondary      no        2     yes  yes   
3   47   blue-collar  married    unknown      no     1506     yes   no   
4   33       unknown   single    unknown      no        1      no   no   

   contact  day month  duration  campaign  pdays  previous poutcome   y  
0  unknown    5   may       261         1     -1         0  unknown  no  
1  unknown    5   may       151         1     -1         0  unknown  no  
2  unknown    5   may        76         1     -1         0  unknown  no  
3  unknown    5   may        92         1     -1         0  unknown  no  
4  unknown    5   may       198         1     -1         0  unknown  no  
   age  job  marital  education  default  balance  housing  loan  contact  \
0   58    4        1          2   

Huấn luyện mô hình 

In [4]:
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import GaussianNB
from sklearn.metrics import accuracy_score, classification_report

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

model = GaussianNB()
model.fit(X_train, y_train)

y_pred = model.predict(X_test)

accuracy = accuracy_score(y_test, y_pred)
print("Accuracy:", accuracy)
print(classification_report(y_test, y_pred))


Accuracy: 0.8289284529470309
              precision    recall  f1-score   support

          no       0.92      0.88      0.90      7952
         yes       0.34      0.46      0.39      1091

    accuracy                           0.83      9043
   macro avg       0.63      0.67      0.65      9043
weighted avg       0.85      0.83      0.84      9043



=> Nhận xét: độ chính xác 82.89% là khá cao nhưng vẫn có thể cải thiện bằng những phương pháp sau:

Tinh chỉnh siêu tham số cho mô hình, ở đây là tham số var-smoothing

In [5]:
from sklearn.metrics import classification_report
from sklearn.model_selection import GridSearchCV
from sklearn.naive_bayes import GaussianNB

model = GaussianNB()

param_grid = {
    'var_smoothing': [1e-9, 1e-8, 1e-7, 1e-6, 1e-5]
}

grid_search = GridSearchCV(model, param_grid, cv=5, scoring='accuracy')
grid_search.fit(X_train, y_train)

print("Best parameters:", grid_search.best_params_)
print("Best accuracy:", grid_search.best_score_)

best_model = grid_search.best_estimator_
y_pred = best_model.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)
print("Accuracy on test set:", accuracy)
print(classification_report(y_test, y_pred))

Best parameters: {'var_smoothing': 1e-05}
Best accuracy: 0.8814146723532869
Accuracy on test set: 0.8760367134800399
              precision    recall  f1-score   support

          no       0.91      0.96      0.93      7952
         yes       0.48      0.30      0.37      1091

    accuracy                           0.88      9043
   macro avg       0.69      0.63      0.65      9043
weighted avg       0.86      0.88      0.86      9043



Kiểm tra và loại bỏ nhiễu

In [6]:
from sklearn.ensemble import IsolationForest
from sklearn.metrics import classification_report

outlier_detector = IsolationForest(random_state=42)
outlier_detector.fit(X_train)
noisy_samples = outlier_detector.predict(X_train)
clean_X_train = X_train[noisy_samples == 1]
clean_y_train = y_train[noisy_samples == 1]

best_model.fit(clean_X_train, clean_y_train)
y_pred = best_model.predict(X_test)

print(classification_report(y_test, y_pred))


              precision    recall  f1-score   support

          no       0.91      0.96      0.93      7952
         yes       0.51      0.33      0.40      1091

    accuracy                           0.88      9043
   macro avg       0.71      0.64      0.67      9043
weighted avg       0.86      0.88      0.87      9043



In [7]:
import joblib
joblib.dump(best_model, 'naive_bayes.joblib')

['naive_bayes.joblib']

=> Độ chính xác tổng thể đã có cải thiện hơn so với mô hình sau khi tinh chỉnh siêu tham số, cụ thể là 88%. Tuy độ chính xác tổng thể (accuracy) đã tăng lên và f1-score cho nhãn "yes" cũng cao hơn, nhưng vẫn còn sự mất cân bằng giữa precision và recall cho nhãn "yes". Điều này cho thấy rằng mô hình vẫn gặp khó khăn trong việc phân loại các trường hợp của nhãn "yes".

Kiểm tra cân bằng dữ liệu bằng kĩ thuật Undersampling

In [8]:
from imblearn.under_sampling import RandomUnderSampler
from sklearn.metrics import classification_report

# Undersampling
undersampler = RandomUnderSampler(random_state=42)
X_resampled, y_resampled = undersampler.fit_resample(clean_X_train, clean_y_train)

best_model.fit(X_resampled, y_resampled)

y_pred = best_model.predict(X_test)

print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

          no       0.93      0.87      0.90      7952
         yes       0.37      0.55      0.44      1091

    accuracy                           0.83      9043
   macro avg       0.65      0.71      0.67      9043
weighted avg       0.87      0.83      0.85      9043



Sau khi thực hiện cân bằng dữ liệu bằng kỹ thuật undersampling, tuy có cải thiện về f1-score từ 0.40 lên 0.44 tuy nhiên độ chính xác đã giảm đi đáng kể làm ảnh hưởng đến hiệu suất của mô hình.Ta sẽ sử dụng mô hình đã huấn luyện ở bước trước đó (sau khi đã tinh chỉnh siêu tham số và loại bỏ nhiễu).