# Naive Bayes Practices

## I. Phân loại Naive Bayes sử dụng thư viện sklearn trên dataset nhỏ 

### Bài toán dự đoán rủi ro tín dụng
- Cho danh sách những người vay tiền với các đặc trưng được quan sát bao gồm: Người vay có sở hữu nhà ở hay không (Home Owner); Tình trạng hôn nhân (Marital Status); Thu nhập hàng năm (Annual Income); và Nhận định người vay có bị vỡ nợ hay không (Defaulted Borrower). Trong đó Defaulted Borrower là nhãn lớp cho biết người vay có trả được khoản tiền đã vay hay không? Dữ liệu được lưu trong file credit_data.txt.
- Yêu cầu: Sử dụng thuật toán Naïve Bayes để dự đoán xác suất một người có vỡ nợ hay không dựa vào các đặc trưng Home Owner, Marital Status và Annual Income.

### 1. Import các thư viện cần thiết

In [23]:
import pandas as pd
from sklearn.preprocessing import OneHotEncoder, LabelEncoder
from sklearn.compose import ColumnTransformer
from sklearn.naive_bayes import GaussianNB, MultinomialNB, BernoulliNB, CategoricalNB, ComplementNB
import tensorflow as tf
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, classification_report

### 2. Cấu hình dữ liệu

In [3]:
data = pd.DataFrame([
    ["Yes", "Single", "High", "No"],
    ["No", "Married", "High", "No"],
    ["No", "Single", "Low", "No"],
    ["Yes", "Married", "High", "No"],
    ["No", "Divorced", "Low", "Yes"],
    ["No", "Married", "Low", "No"],
    ["Yes", "Divorced", "High", "No"],
    ["No", "Single", "Low", "Yes"],
    ["No", "Married", "Low", "No"],
    ["No", "Single", "Low", "Yes"]
], columns=["Home Owner", "Marital Status", "Annual Income", "Defaulted Borrower"])

In [40]:
# Yêu cầu 1: Chuẩn bị dữ liệu cho mô hình học máy (X: lưu giá trị của các cột đặc trưng; y: lưu giá trị cột nhãn)
######
# Code
X = data.iloc[:, :-1]
y = data.iloc[:, -1]

In [41]:
# Yêu cầu 2: Chuẩn hóa dữ liệu từ dạng phân loại sang dạng số học.
# Gợi ý: Có thể sử dụng các kỹ thuật Label Encoding, One-Hot Encoding,...
######
# Code

# home_owner = tf.feature_column.categorical_column_with_vocabulary_list('Home Owner', ['Yes', 'No'])
# marital_status = tf.feature_column.categorical_column_with_vocabulary_list('Marital Status', ['Single', 'Married', 'Divorced'])
# annual_income = tf.feature_column.categorical_column_with_vocabulary_list('Annual Income', ['High', 'Low'])

# feature_columns = [
#     tf.feature_column.indicator_column(home_owner),
#     tf.feature_column.indicator_column(marital_status),
#     tf.feature_column.indicator_column(annual_income)
# ]

# feature_layer = tf.keras.layers.DenseFeatures(feature_columns)

# X_transformed = feature_layer(dict(X))
# print(X_transformed)

label_encoder = LabelEncoder()

X_transformed = data.apply(label_encoder.fit_transform).values
y = y.map({'No': 0, 'Yes': 1})
print(X_transformed)
######

[[1 2 0 0]
 [0 1 0 0]
 [0 2 1 0]
 [1 1 0 0]
 [0 0 1 1]
 [0 1 1 0]
 [1 0 0 0]
 [0 2 1 1]
 [0 1 1 0]
 [0 2 1 1]]


### 3. Training và Testing mô hình Naive Bayes với các phân phối xác suất khác nhau

In [43]:
# Yêu cầu 3: Chuẩn bị một mẫu dữ liệu mới và chuẩn hóa về giá trị số để kiểm tra kết quả phân lớp của mô hình
######
# Code
X_train, X_test, y_train, y_test = train_test_split(X_transformed, y, test_size=0.2, random_state=0)
######

In [45]:
# Yêu cầu 4: Huấn luyện và kiểm tra mô hình Gaussian Naive Bayes (sử dụng phân phối chuẩn Gauss)
######
# Code
gnb = GaussianNB()
gnb.fit(X_train, y_train)
y_pred = gnb.predict(X_test)

# Kiểm tra kết quả phân lớp
print(classification_report(y_test, y_pred))
######

              precision    recall  f1-score   support

           0       1.00      1.00      1.00         2

    accuracy                           1.00         2
   macro avg       1.00      1.00      1.00         2
weighted avg       1.00      1.00      1.00         2



In [46]:
# Yêu cầu 5: Huấn luyện và kiểm tra mô hình Multinomial Naive Bayes (sử dụng phân phối đa thức)
######
# Code
m_nb = MultinomialNB()
m_nb.fit(X_train, y_train)
multi_y_pred = m_nb.predict(X_test)

print(classification_report(y_test, multi_y_pred))

######

              precision    recall  f1-score   support

           0       1.00      1.00      1.00         2

    accuracy                           1.00         2
   macro avg       1.00      1.00      1.00         2
weighted avg       1.00      1.00      1.00         2



In [None]:
# Yêu cầu 6: Huấn luyện và kiểm tra mô hình mô hình Bernoulli Naive Bayes (sử dụng phân phối Bernoulli)
######
# Code
B_nb = BernoulliNB()
B_nb.fit(X_train, y_train)
Ber_y_pred = B_nb.predict(X_test)

print(classification_report(y_test, Ber_y_pred))

######

              precision    recall  f1-score   support

           0       1.00      1.00      1.00         2

    accuracy                           1.00         2
   macro avg       1.00      1.00      1.00         2
weighted avg       1.00      1.00      1.00         2



In [49]:
# Yêu cầu 7: Huấn luyện và kiểm tra mô hình Categorical Naive Bayes (Categorical distribution - mở rộng của phân phối Bernoulli)
######
# Code
C_nb = CategoricalNB()
C_nb.fit(X_train, y_train)
Cate_y_pred = C_nb.predict(X_test)

print(classification_report(y_test, Cate_y_pred))

######

              precision    recall  f1-score   support

           0       1.00      0.50      0.67         2
           1       0.00      0.00      0.00         0

    accuracy                           0.50         2
   macro avg       0.50      0.25      0.33         2
weighted avg       1.00      0.50      0.67         2



  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))


In [50]:
# Yêu cầu 8: Huấn luyện và kiểm tra mô hình Complement Naive Bayes (điều chỉnh của phân phối đa thức)
######
# Code
Com_nb = BernoulliNB()
Com_nb.fit(X_train, y_train)
Com_y_pred = Com_nb.predict(X_test)

print(classification_report(y_test, Com_y_pred))

######

              precision    recall  f1-score   support

           0       1.00      1.00      1.00         2

    accuracy                           1.00         2
   macro avg       1.00      1.00      1.00         2
weighted avg       1.00      1.00      1.00         2



## II. Phân loại Naive Bayes sử dụng thư viện sklearn trên dataset lớn (Dữ liệu: credit_data.csv)

- Bài toán: Dự đoán điểm tín dụng của khách hàng khi vay vốn sử dụng Naïve Bayes.
- Mục tiêu:
	- Xây dựng được mô hình Naïve Bayes sử dụng thư viện sklearn.
	- Ứng dụng và hiểu cách áp dụng mô hình Naïve Bayes vào giải quyết bài toán thực tế (ví dụ: dự đoán điểm tín dụng).
	- Sử dụng độ đo Accuracy để đánh giá chất lượng mô hình.
	- Thay đổi các phân bố xác suất (phân phối chuẩn, phân phối đa thức, phân phối Bernoulli) để chọn ra bộ phận lớp Naive Bayes phù hợp với dữ liệu.
- Dữ liệu:
	- Tập các đặc trưng của khách hàng và điểm tín dụng tương ứng trong một khoảng thời gian nhất định.
	- Tập các nhãn (Cột “Risk”): Gồm 2 loại nhãn “Good” và “Bad”. Trong đó “Good” biểu thị khách hàng có khả năng trả nợ đúng hạn, “Bad” biểu thị khách hàng có khả năng vỡ nợ.
- Loại bài toán: Phân loại
	- Input: n vector đã mã hóa của các khách hàng.
	- Output: nhãn y là một trong 2 nhãn trên.


### 1. Import các thư  viện cần thiết

In [51]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler, MinMaxScaler
from sklearn.naive_bayes import GaussianNB, MultinomialNB, BernoulliNB
from sklearn.metrics import accuracy_score

### 2. Load dữ liệu

In [150]:
# Yêu cầu 1: Đọc dữ liệu từ file csv, hiển thị 5 dòng đầu tiên trong dataset
######
# Code
df = pd.read_csv("../data/naive_bayes/credit_data.csv")
df

######

Unnamed: 0,#,Age,Sex,Job,Housing,Saving accounts,Checking account,Credit amount,Duration,Purpose,Risk
0,0,67,male,2,own,,little,1169,6,radio/TV,good
1,1,22,female,2,own,little,moderate,5951,48,radio/TV,bad
2,2,49,male,1,own,little,,2096,12,education,good
3,3,45,male,2,free,little,little,7882,42,furniture/equipment,good
4,4,53,male,2,free,little,little,4870,24,car,bad
...,...,...,...,...,...,...,...,...,...,...,...
995,995,31,female,1,own,little,,1736,12,furniture/equipment,good
996,996,40,male,3,own,little,little,3857,30,car,good
997,997,38,male,2,own,little,,804,12,radio/TV,good
998,998,23,male,2,free,little,little,1845,45,radio/TV,bad


### 3. Tiền xử lý dữ liệu

#### 3.1. Hiểu dữ liệu

In [71]:
# Yêu cầu 2: Hiển thị thông tin tổng quan của dataset (số dòng, số cột, tên các cột, kiểu dữ liệu)
# Viết nhận xét về kết quả thu được
######
# Code
print(df.shape)
print("Ten cot: ", df.columns)
print("Kieu du lieu: \n", df.dtypes)
######

(1000, 11)
Ten cot:  Index(['#', 'Age', 'Sex', 'Job', 'Housing', 'Saving accounts',
       'Checking account', 'Credit amount', 'Duration', 'Purpose', 'Risk'],
      dtype='object')
Kieu du lieu: 
 #                    int64
Age                  int64
Sex                 object
Job                  int64
Housing             object
Saving accounts     object
Checking account    object
Credit amount        int64
Duration             int64
Purpose             object
Risk                object
dtype: object


In [151]:
# Yêu cầu 3: Hiển thị thông tin các thống kê mô tả cơ bản của các đặc trưng
# Gợi ý: Sử dụng hàm describe()
######
# Code
df.describe()

######

Unnamed: 0,#,Age,Job,Credit amount,Duration
count,1000.0,1000.0,1000.0,1000.0,1000.0
mean,499.5,35.546,1.904,3271.258,20.903
std,288.819436,11.375469,0.653614,2822.736876,12.058814
min,0.0,19.0,0.0,250.0,4.0
25%,249.75,27.0,2.0,1365.5,12.0
50%,499.5,33.0,2.0,2319.5,18.0
75%,749.25,42.0,2.0,3972.25,24.0
max,999.0,75.0,3.0,18424.0,72.0


#### 3.2. Kiểm tra missing values

In [152]:
# Yêu cầu 4: Thống kê tổng số giá trị bị thiếu trong dataset, liệt kê giá trị bị thiếu trong mỗi cột.
# Viết nhận xét cho kết quả thu được
######
# Code
print(df.info())
# df[df.isnull().any(axis=1)]
df.loc[:, df.isnull().any()]
######

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 11 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   #                 1000 non-null   int64 
 1   Age               1000 non-null   int64 
 2   Sex               1000 non-null   object
 3   Job               1000 non-null   int64 
 4   Housing           1000 non-null   object
 5   Saving accounts   817 non-null    object
 6   Checking account  606 non-null    object
 7   Credit amount     1000 non-null   int64 
 8   Duration          1000 non-null   int64 
 9   Purpose           1000 non-null   object
 10  Risk              1000 non-null   object
dtypes: int64(5), object(6)
memory usage: 86.1+ KB
None


Unnamed: 0,Saving accounts,Checking account
0,,little
1,little,moderate
2,little,
3,little,little
4,little,little
...,...,...
995,little,
996,little,little
997,little,
998,little,little


#### 3.3. Xử lý missing values

In [158]:
# Yêu cầu 5: Lựa chọn và áp dụng phương pháp xử lý các giá trị bị thiếu
######
# Code
df = df.fillna(method='ffill', axis=1)
df.info()

######

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 11 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   #                 1000 non-null   object
 1   Age               1000 non-null   object
 2   Sex               1000 non-null   object
 3   Job               1000 non-null   object
 4   Housing           1000 non-null   object
 5   Saving accounts   1000 non-null   object
 6   Checking account  1000 non-null   object
 7   Credit amount     1000 non-null   object
 8   Duration          1000 non-null   object
 9   Purpose           1000 non-null   object
 10  Risk              1000 non-null   object
dtypes: object(11)
memory usage: 86.1+ KB


#### 3.4. Mã hóa các đặc trưng rời rạc

In [None]:
# Yêu cầu 6: Chuyển đổi các giá trị rời rạc về giá trị số
# Gợi ý: Có thể áp dụng một trong các kỹ thuật: Label Encoding, One-Hot Encoding, Ordinal Encoding, Target Encoding
######
# Code

df_encoded = df.apply(label_encoder.fit_transform)
df_transform = df_encoded.values
X = df_transform[:, :-1]
y = df_transform[:, -1]
y
######

### 4. Chia dữ liệu thành 2 phần: Training và Testing

In [None]:
# Yêu cầu 7: Chia dữ liệu thành 80% dùng để test và 20% dùng để train.
######
# Code
X_train, X_test, y_train, y_test = train_test_split(df_transform, y, test_size=0.2)
######

### 5. Training and Testing Naive Bayes model

In [None]:
# Yêu cầu 8: Chuẩn hóa toàn bộ dữ liệu về một phạm vi nhất định (Data Scaling)
# Gợi ý: Có thể sử dụng StandardScaler, MinMaxScaler, Robust Scaling
######
# Code
scaler = StandardScaler()

X_train = scaler.fit_transform(X_train)
X_test = scaler.fit_transform(X_test)
######

In [None]:
# Training & Testing
# Yêu cầu 9: Sử dụng thư viện sklearn để xây dựng một mô hình Naive Bayes và kiểm tra kết quả phân lớp dựa trên độ đo Accuracy.
######
# Code
gauNB = GaussianNB()
gauNB.fit(X_train, y_train)
y_pred = gauNB.predict(X_test)

print(classification_report(y_test, y_pred))
print("Accuracy: ", accuracy_score(y_test, y_pred))

######

              precision    recall  f1-score   support

           0       1.00      1.00      1.00        51
           1       1.00      1.00      1.00       149

    accuracy                           1.00       200
   macro avg       1.00      1.00      1.00       200
weighted avg       1.00      1.00      1.00       200

Accuracy:  1.0


### 6. Thay đổi phân bố xác suất để chọn được bộ phân lớp phù hợp với dữ liệu

In [178]:
# Gợi ý: Khảo sát các phân bố xác suất như phân phối chuẩn (Gauss), phân phối đa thức, phân phối Bernoulli và chọn ra bộ phân lớp tương ứng với phân phối cho accuracy cao nhất.
# Mở rộng (Tùy chọn): Điều chỉnh các tham số để cho kết quả tốt hơn (VD: giá trị làm mịn alpha trong phân phối đa thức, var_smoothing trong Gauss,...)
######
# Code
from sklearn.model_selection import GridSearchCV

param_grid_gau = {'var_smoothing': [1e-9, 1e-8,1e-7,1e-6,1e-5]}
grid_gau = GridSearchCV(GaussianNB(), param_grid_gau, cv=5, scoring='accuracy')
grid_gau.fit(X_train, y_train)
print(f"Tham so tot nhat: {grid_gau.best_params_}")
print(f"Accuracy tot nhat: {grid_gau.best_score_}")


param_grid_multinomial = {'alpha': [0.1, 0.5, 1.0, 2.0, 5.0]}
grid_multinomial = GridSearchCV(MultinomialNB(), param_grid_multinomial, cv=5, scoring='accuracy')
grid_multinomial.fit(X_train, y_train)
print(f"Tham so tot nhat: {grid_multinomial.best_params_}")
print(f"Accuracy tot nhat: {grid_multinomial.best_score_}")


param_grid_bernoulli = {'alpha': [0.1, 0.5, 1.0, 2.0, 5.0]}
grid_bernoulli = GridSearchCV(BernoulliNB(), param_grid_bernoulli, cv=5, scoring='accuracy')
grid_bernoulli.fit(X_train, y_train)
print(f"Tham so tot nhat: {grid_bernoulli.best_params_}")
print(f"Accuracy tot nhat: {grid_bernoulli.best_score_}")
######

Tham so tot nhat: {'var_smoothing': 1e-09}
Accuracy tot nhat: 1.0
Tham so tot nhat: {'alpha': 0.1}
Accuracy tot nhat: 0.6425
Tham so tot nhat: {'alpha': 0.1}
Accuracy tot nhat: 1.0
