Gaussian Naive Bayes: Phù hợp với dữ liệu liên tục và phân phối chuẩn.

Multinomial Naive Bayes: Phù hợp với dữ liệu đếm, đặc biệt là trong phân loại văn bản.

Bernoulli Naive Bayes: Phù hợp với dữ liệu nhị phân.

Complement Naive Bayes: Phù hợp với dữ liệu không cân bằng.

Categorical Naive Bayes: Phù hợp với dữ liệu phân loại (categorical).

Multivariate Naive Bayes: Áp dụng trong các tình huống có nhiều loại đặc trưng phân phối khác nhau.

Regularized Naive Bayes: Áp dụng khi có quá nhiều đặc trưng và cần giảm overfitting.

---

# Gaussian Naive Bayes (GNB)

Gaussian Naive Bayes giả định rằng các đặc trưng trong dữ liệu phân phối theo phân phối chuẩn (Gaussian). Đối với mỗi lớp, mô hình ước lượng các tham số của phân phối chuẩn: trung bình và phương sai của mỗi đặc trưng trong lớp đó.

Phù hợp cho:

    Dữ liệu liên tục, và các đặc trưng có phân phối gần chuẩn.

    Ví dụ: Dự đoán bệnh tật dựa trên các chỉ số sinh học như huyết áp, nhịp tim, v.v.

In [25]:
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import GaussianNB
from sklearn.datasets import load_iris
from sklearn.metrics import accuracy_score

# Tải dữ liệu Iris từ sklearn
data = load_iris()
X = data.data
y = data.target

# Chia dữ liệu thành tập huấn luyện và kiểm tra
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Khởi tạo mô hình Gaussian Naive Bayes
gnb = GaussianNB()

# Huấn luyện mô hình
gnb.fit(X_train, y_train)

# Dự đoán
y_pred = gnb.predict(X_test)

# Đánh giá độ chính xác
print("Accuracy:", accuracy_score(y_test, y_pred))


Accuracy: 0.9777777777777777


---

# Multinomial Naive Bayes (MNB)

Multinomial Naive Bayes được sử dụng cho dữ liệu đếm, ví dụ như tần suất xuất hiện của các từ trong bài toán phân loại văn bản. MNB giả định rằng dữ liệu của mỗi lớp có phân phối đa thức (multinomial distribution).

Phù hợp cho:

    Dữ liệu đếm (ví dụ: số lần từ xuất hiện trong văn bản).

    Phân loại văn bản (spam hay không spam).

In [26]:
from sklearn.naive_bayes import MultinomialNB
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

# Dữ liệu mẫu
documents = ["I love programming", "Python is great", "I hate bugs", "Programming is fun", "Bugs are annoying"]
labels = [1, 1, 0, 1, 0]  # 1: tích cực, 0: tiêu cực

# Chuyển đổi văn bản thành ma trận đặc trưng (số lần từ xuất hiện)
vectorizer = CountVectorizer()
X = vectorizer.fit_transform(documents)
y = labels

# Chia dữ liệu thành tập huấn luyện và kiểm tra
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Khởi tạo mô hình Multinomial Naive Bayes
mnb = MultinomialNB()

# Huấn luyện mô hình
mnb.fit(X_train, y_train)

# Dự đoán
y_pred = mnb.predict(X_test)

# Đánh giá độ chính xác
print("Accuracy:", accuracy_score(y_test, y_pred))

Accuracy: 1.0


---

# Bernoulli Naive Bayes (BNB)

Bernoulli Naive Bayes khác với Multinomial ở chỗ nó làm việc với dữ liệu nhị phân, nơi mỗi đặc trưng có giá trị là 0 hoặc 1 (sự xuất hiện hoặc không xuất hiện của từ trong tài liệu).

Phù hợp cho:

    Các bài toán với dữ liệu nhị phân (ví dụ: sự có mặt hoặc không có mặt của một từ khóa trong văn bản).

    Phân loại văn bản với dữ liệu nhị phân.

In [27]:
from sklearn.naive_bayes import BernoulliNB
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

# Dữ liệu mẫu
documents = ["I love programming", "Python is great", "I hate bugs", "Programming is fun", "Bugs are annoying"]
labels = [1, 1, 0, 1, 0]  # 1: tích cực, 0: tiêu cực

# Chuyển đổi văn bản thành ma trận đặc trưng (sự xuất hiện của từ)
vectorizer = CountVectorizer(binary=True)
X = vectorizer.fit_transform(documents)
y = labels

# Chia dữ liệu thành tập huấn luyện và kiểm tra
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Khởi tạo mô hình Bernoulli Naive Bayes
bnb = BernoulliNB()

# Huấn luyện mô hình
bnb.fit(X_train, y_train)

# Dự đoán
y_pred = bnb.predict(X_test)

# Đánh giá độ chính xác
print("Accuracy:", accuracy_score(y_test, y_pred))

Accuracy: 1.0


---

# Complement Naive Bayes (CNB)

Complement Naive Bayes (CNB) là một biến thể của Multinomial Naive Bayes, được thiết kế để cải thiện độ chính xác khi dữ liệu bị mất cân đối. Thay vì tính toán xác suất của mỗi lớp trực tiếp, CNB sử dụng xác suất bổ sung của các lớp, giúp giảm độ lệch trong trường hợp các lớp không cân bằng.

Phù hợp cho:

    Dữ liệu không cân bằng, nơi một lớp có số lượng ví dụ nhiều hơn rất nhiều so với lớp còn lại.

In [28]:
from sklearn.naive_bayes import ComplementNB
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

# Dữ liệu mẫu
documents = ["I love programming", "Python is great", "I hate bugs", "Programming is fun", "Bugs are annoying"]
labels = [1, 1, 0, 1, 0]  # 1: tích cực, 0: tiêu cực

# Chuyển đổi văn bản thành ma trận đặc trưng
vectorizer = CountVectorizer()
X = vectorizer.fit_transform(documents)
y = labels

# Chia dữ liệu thành tập huấn luyện và kiểm tra
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Khởi tạo mô hình Complement Naive Bayes
cnb = ComplementNB()

# Huấn luyện mô hình
cnb.fit(X_train, y_train)

# Dự đoán
y_pred = cnb.predict(X_test)

# Đánh giá độ chính xác
print("Accuracy:", accuracy_score(y_test, y_pred))


Accuracy: 1.0


---

# Categorical Naive Bayes (CNB)

Categorical Naive Bayes là một biến thể của Naive Bayes được thiết kế cho dữ liệu phân loại, nơi các đặc trưng là các giá trị rời rạc (categorical) thay vì dữ liệu liên tục hoặc nhị phân. Mỗi đặc trưng trong mô hình này là một biến phân loại, với các lớp có các giá trị riêng biệt.

Phù hợp cho:

    Dữ liệu phân loại, nơi các đặc trưng có giá trị từ một tập hợp các hạng mục rời rạc.

    Các bài toán phân loại với dữ liệu dạng bảng hoặc dữ liệu phân loại không có tính trật tự.

In [29]:
from sklearn.naive_bayes import CategoricalNB
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

# Dữ liệu mẫu (categorical features) đơn giản hơn
X = [[0, 1], [1, 0], [0, 0], [1, 1], [0, 1], [1, 0]]  # Dữ liệu đơn giản hơn
y = [0, 1, 0, 1, 0, 1]  # Các lớp phân loại (0, 1)

# Chia dữ liệu thành tập huấn luyện và kiểm tra
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Khởi tạo mô hình Categorical Naive Bayes
cnb = CategoricalNB()

# Huấn luyện mô hình
cnb.fit(X_train, y_train)

# Dự đoán
y_pred = cnb.predict(X_test)

# Đánh giá độ chính xác
print("Accuracy:", accuracy_score(y_test, y_pred))


Accuracy: 1.0


---

# Bernoulli Naive Bayes and Complement Naive Bayes Tweaks

Trong một số trường hợp đặc biệt, Bernoulli Naive Bayes và Complement Naive Bayes có thể được điều chỉnh thêm để xử lý các bài toán phân loại với nhiều đặc trưng nhị phân hoặc khi dữ liệu rất mất cân đối. Một số điều chỉnh có thể bao gồm việc thay đổi tỉ lệ các trọng số (weights) cho các lớp không cân bằng hoặc sử dụng các tham số tùy chỉnh để tối ưu mô hình.

Phù hợp cho:

    Dữ liệu nhị phân với các đặc trưng chỉ có 2 giá trị.

    Dữ liệu không cân bằng (class imbalance).

In [30]:
from sklearn.naive_bayes import BernoulliNB, ComplementNB
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

# Dữ liệu mẫu
documents = ["I love programming", "Python is great", "I hate bugs", "Programming is fun", "Bugs are annoying"]
labels = [1, 1, 0, 1, 0]  # 1: tích cực, 0: tiêu cực

# Chuyển đổi văn bản thành ma trận đặc trưng (sự xuất hiện của từ)
vectorizer = CountVectorizer(binary=True)
X = vectorizer.fit_transform(documents)
y = labels

# Chia dữ liệu thành tập huấn luyện và kiểm tra
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Điều chỉnh tham số alpha trong Bernoulli Naive Bayes
bnb = BernoulliNB(alpha=1.0)  # Thử nghiệm với giá trị alpha khác nhau

# Huấn luyện mô hình
bnb.fit(X_train, y_train)

# Dự đoán
y_pred = bnb.predict(X_test)

# Đánh giá độ chính xác
print("Bernoulli Naive Bayes Accuracy:", accuracy_score(y_test, y_pred))

# Điều chỉnh tham số alpha trong Complement Naive Bayes
cnb = ComplementNB(alpha=1.0)  # Thử nghiệm với giá trị alpha khác nhau

# Huấn luyện mô hình
cnb.fit(X_train, y_train)

# Dự đoán
y_pred = cnb.predict(X_test)

# Đánh giá độ chính xác
print("Complement Naive Bayes Accuracy:", accuracy_score(y_test, y_pred))


Bernoulli Naive Bayes Accuracy: 1.0
Complement Naive Bayes Accuracy: 1.0


---

# Multivariate Naive Bayes

Mặc dù Multivariate Naive Bayes không phải là một mô hình riêng biệt, nhưng khái niệm này có thể liên quan đến các bài toán mà các đặc trưng có thể được coi là kết hợp của nhiều biến (mỗi đặc trưng có thể là một phân phối riêng biệt). Điều này có thể áp dụng trong các trường hợp có nhiều nguồn dữ liệu khác nhau.

Phù hợp cho:

    Bài toán phân loại phức tạp khi có nhiều đặc trưng đa dạng (mỗi đặc trưng có thể có phân phối khác nhau).

In [31]:
from sklearn.naive_bayes import GaussianNB, MultinomialNB
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
import numpy as np

# Dữ liệu mẫu: 2 đặc trưng liên tục và 1 đặc trưng phân loại
X_continuous = np.array([[2.5, 3.1], [1.2, 0.5], [3.3, 4.5], [1.7, 2.2], [2.8, 3.9], [1.9, 2.5]])
X_categorical = np.array([[0, 1], [1, 0], [1, 1], [0, 0], [1, 0], [0, 1]])

# Kết hợp cả 2 loại đặc trưng thành một bộ dữ liệu (dễ dàng hơn nếu bạn chuẩn hóa các đặc trưng liên tục)
X = np.hstack((X_continuous, X_categorical))
y = [1, 0, 1, 0, 1, 0]  # Các lớp phân loại

# Chia dữ liệu thành tập huấn luyện và kiểm tra
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Sử dụng Gaussian Naive Bayes cho các đặc trưng liên tục
gnb = GaussianNB()
gnb.fit(X_train[:, :2], y_train)  # Chỉ dùng 2 đặc trưng liên tục
y_pred_gnb = gnb.predict(X_test[:, :2])

# Sử dụng Multinomial Naive Bayes cho các đặc trưng phân loại
mnb = MultinomialNB()
mnb.fit(X_train[:, 2:], y_train)  # Chỉ dùng 2 đặc trưng phân loại
y_pred_mnb = mnb.predict(X_test[:, 2:])

# Kết hợp kết quả từ 2 mô hình
final_pred = [max(g, m) for g, m in zip(y_pred_gnb, y_pred_mnb)]

# Đánh giá độ chính xác
print("Multivariate Naive Bayes Accuracy:", accuracy_score(y_test, final_pred))

Multivariate Naive Bayes Accuracy: 0.5


---

# Naive Bayes với Regularization

Một số mô hình Naive Bayes có thể được cải thiện bằng cách áp dụng các kỹ thuật regularization (ví dụ: L1/L2 regularization) để giảm overfitting, đặc biệt là trong các bài toán có quá nhiều đặc trưng hoặc khi dữ liệu có noise cao. Mặc dù Naive Bayes không có regularization mạnh mẽ như các mô hình khác (như SVM hay Logistic Regression), một số cải tiến có thể giúp điều chỉnh mô hình tốt hơn.

Phù hợp cho:

    Dữ liệu có nhiều đặc trưng nhưng không có đủ số lượng mẫu để huấn luyện mô hình.

    Dữ liệu có thể có noise cao.

In [32]:
from sklearn.naive_bayes import MultinomialNB
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

# Dữ liệu mẫu: văn bản và nhãn
documents = ["I love programming", "Python is great", "I hate bugs", "Programming is fun", "Bugs are annoying"]
labels = [1, 1, 0, 1, 0]  # 1: tích cực, 0: tiêu cực

# Chuyển văn bản thành ma trận đặc trưng (sự xuất hiện của từ)
vectorizer = CountVectorizer()
X = vectorizer.fit_transform(documents)
y = labels

# Chia dữ liệu thành tập huấn luyện và kiểm tra
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Khởi tạo Multinomial Naive Bayes với regularization (alpha = 1.0)
mnb = MultinomialNB(alpha=1.0)  # alpha=1.0 là một giá trị phổ biến, có thể điều chỉnh

# Huấn luyện mô hình
mnb.fit(X_train, y_train)

# Dự đoán trên dữ liệu kiểm tra
y_pred = mnb.predict(X_test)

# Đánh giá độ chính xác của mô hình
print("Accuracy with alpha=1.0:", accuracy_score(y_test, y_pred))

# Thử nghiệm với alpha nhỏ hơn (alpha=0.1, regularization yếu hơn)
mnb_small_alpha = MultinomialNB(alpha=0.1)
mnb_small_alpha.fit(X_train, y_train)
y_pred_small_alpha = mnb_small_alpha.predict(X_test)
print("Accuracy with alpha=0.1:", accuracy_score(y_test, y_pred_small_alpha))

# Thử nghiệm với alpha lớn hơn (alpha=10, regularization mạnh hơn)
mnb_large_alpha = MultinomialNB(alpha=10)
mnb_large_alpha.fit(X_train, y_train)
y_pred_large_alpha = mnb_large_alpha.predict(X_test)
print("Accuracy with alpha=10:", accuracy_score(y_test, y_pred_large_alpha))

Accuracy with alpha=1.0: 1.0
Accuracy with alpha=0.1: 1.0
Accuracy with alpha=10: 0.5
