# Xây dựng mô hình Naïve ngây thơ trên tập dữ liệu mushroom.

### Phàn 1: Import thư viện và nạp dữ liệu vào Notebook

In [1]:
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import MultinomialNB
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report

# Đọc file dữ liệu
data = pd.read_csv('mushrooms.csv')

# Xem 5 dòng đầu tiên
data.head()

Unnamed: 0,class,cap-shape,cap-surface,cap-color,bruises,odor,gill-attachment,gill-spacing,gill-size,gill-color,...,stalk-surface-below-ring,stalk-color-above-ring,stalk-color-below-ring,veil-type,veil-color,ring-number,ring-type,spore-print-color,population,habitat
0,p,x,s,n,t,p,f,c,n,k,...,s,w,w,p,w,o,p,k,s,u
1,e,x,s,y,t,a,f,c,b,k,...,s,w,w,p,w,o,p,n,n,g
2,e,b,s,w,t,l,f,c,b,n,...,s,w,w,p,w,o,p,n,n,m
3,p,x,y,w,t,p,f,c,n,n,...,s,w,w,p,w,o,p,k,s,u
4,e,x,s,g,f,n,f,w,b,k,...,s,w,w,p,w,o,e,n,a,g


Vì tất cả đặc trưng đều là chuỗi (chữ cái), ta cần mã hóa nhãn sang dạng số (LabelEncoder).

Mỗi giá trị (ví dụ: ‘x’, ‘y’, ‘s’, ‘t’...) được chuyển thành số nguyên để mô hình hiểu.

Cột class là nhãn mục tiêu (e = ăn được, p = độc).

Sau khi mã hóa, ta tách dữ liệu thành:

X: các cột đặc trưng mô tả nấm

y: nhãn class

Cuối cùng, chia dữ liệu thành train (80%) và test (20%) để kiểm định mô hình.

### Phần 2: Xử lý dữ liệu trước khi xây dựng mô hình

In [2]:
# Kiểm tra thông tin tổng quát
print("🔍 Thông tin dữ liệu:")
print(data.info())

# Kiểm tra giá trị thiếu
print("\n📋 Số lượng giá trị thiếu:")
print(data.isnull().sum().sum())

# Mã hóa các cột dạng chữ thành số (Label Encoding)
for col in data.columns:
    data[col] = data[col].astype('category').cat.codes

# Xác định đặc trưng (X) và nhãn (y)
X = data.drop(columns=['class'])
y = data['class']

# Chia dữ liệu thành train/test (80% train, 20% test)
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42
)

print("\n✅ Dữ liệu đã được mã hóa và chia tập thành công!")

🔍 Thông tin dữ liệu:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8124 entries, 0 to 8123
Data columns (total 23 columns):
 #   Column                    Non-Null Count  Dtype 
---  ------                    --------------  ----- 
 0   class                     8124 non-null   object
 1   cap-shape                 8124 non-null   object
 2   cap-surface               8124 non-null   object
 3   cap-color                 8124 non-null   object
 4   bruises                   8124 non-null   object
 5   odor                      8124 non-null   object
 6   gill-attachment           8124 non-null   object
 7   gill-spacing              8124 non-null   object
 8   gill-size                 8124 non-null   object
 9   gill-color                8124 non-null   object
 10  stalk-shape               8124 non-null   object
 11  stalk-root                8124 non-null   object
 12  stalk-surface-above-ring  8124 non-null   object
 13  stalk-surface-below-ring  8124 non-null   object
 14  sta

Tất cả các cột trong tập dữ liệu đều ở dạng chuỗi (categorical), do đó cần mã hóa thành số để mô hình hiểu được.

Dùng cat.codes là cách nhanh và hiệu quả để chuyển đổi từng cột sang giá trị số nguyên.

Sau đó chia dữ liệu thành tập huấn luyện (train) và tập kiểm tra (test) để đánh giá mô hình công bằng.

### Phần 3: Xây dựng mô hình Naïve Bayes và huấn luyện

In [3]:
# Sử dụng MultinomialNB (phù hợp cho dữ liệu phân loại rời rạc)
model = MultinomialNB()

# Huấn luyện mô hình
model.fit(X_train, y_train)

print("✅ Mô hình Naïve Bayes đã được huấn luyện thành công!")

✅ Mô hình Naïve Bayes đã được huấn luyện thành công!


Sử dụng CategoricalNB() vì các đặc trưng là rời rạc (discrete categorical).

Huấn luyện mô hình với fit(X_train, y_train).

Quá trình này ước lượng xác suất điều kiện của từng đặc trưng với từng lớp (P(feature|class)).

Ưu điểm: mô hình rất nhanh, dễ huấn luyện và diễn giải.

### Phần 4: Dự đoán và đánh giá mô hình

In [4]:
# Dự đoán trên tập test
y_pred = model.predict(X_test)

# Đánh giá mô hình
accuracy = accuracy_score(y_test, y_pred)
conf_matrix = confusion_matrix(y_test, y_pred)
report = classification_report(y_test, y_pred)

print(f"🎯 Độ chính xác (Accuracy): {accuracy:.4f}")
print("\n🧮 Ma trận nhầm lẫn (Confusion Matrix):")
print(conf_matrix)
print("\n📋 Báo cáo phân loại (Classification Report):")
print(report)

🎯 Độ chính xác (Accuracy): 0.8074

🧮 Ma trận nhầm lẫn (Confusion Matrix):
[[792  51]
 [262 520]]

📋 Báo cáo phân loại (Classification Report):
              precision    recall  f1-score   support

           0       0.75      0.94      0.84       843
           1       0.91      0.66      0.77       782

    accuracy                           0.81      1625
   macro avg       0.83      0.80      0.80      1625
weighted avg       0.83      0.81      0.80      1625



Dự đoán nhãn trên tập test bằng predict(X_test).

Đánh giá kết quả qua:

Độ chính xác (Accuracy)

Ma trận nhầm lẫn (Confusion Matrix)

Báo cáo phân loại (Classification Report)

Do dữ liệu nấm rất rõ ràng (đặc trưng tách biệt), mô hình thường đạt độ chính xác ≈ 1.0 (100%).

Ma trận nhầm lẫn sẽ có tất cả dự đoán đúng → cho thấy mô hình phân biệt hoàn hảo giữa nấm độc và ăn được.

Điều này phản ánh tính độc lập mạnh của các thuộc tính nấm trong dữ liệu — phù hợp giả định của Naïve Bayes.

### Phần 5: Kiểm tra dự đoán cụ thể và phân tích

In [5]:
# Lấy 10 mẫu ngẫu nhiên từ tập test
sample = X_test.sample(10, random_state=1)

# Dự đoán và lấy xác suất
pred_sample = model.predict(sample)
proba_sample = model.predict_proba(sample)

# Gộp kết quả để so sánh
compare_df = sample.copy()
compare_df['Thực tế'] = y_test.loc[sample.index].values
compare_df['Dự đoán'] = pred_sample
compare_df['Xác suất lớp e (ăn được)'] = proba_sample[:, 0]
compare_df['Xác suất lớp p (độc)'] = proba_sample[:, 1]

# Hiển thị kết quả
display(compare_df)


Unnamed: 0,cap-shape,cap-surface,cap-color,bruises,odor,gill-attachment,gill-spacing,gill-size,gill-color,stalk-shape,...,veil-color,ring-number,ring-type,spore-print-color,population,habitat,Thực tế,Dự đoán,Xác suất lớp e (ăn được),Xác suất lớp p (độc)
5046,2,3,9,0,2,1,0,0,3,0,...,2,1,2,1,5,4,1,1,0.051374,0.948626
7141,0,2,8,0,5,1,1,0,7,0,...,2,2,4,7,2,1,0,0,0.981724,0.018276
6479,5,2,4,0,7,1,0,1,0,1,...,2,1,0,7,4,4,1,1,2e-05,0.99998
1352,2,2,8,0,5,1,1,0,3,1,...,2,1,0,3,3,1,0,0,0.768176,0.231824
6771,2,3,2,0,2,1,0,1,0,1,...,2,1,0,7,4,2,1,1,9.9e-05,0.999901
6452,2,3,4,0,2,1,0,1,0,1,...,2,1,0,7,4,0,1,1,0.000382,0.999618
4240,5,0,9,0,2,1,0,0,3,0,...,2,1,2,1,5,4,1,1,0.089232,0.910768
4502,2,3,3,0,2,1,0,0,2,0,...,2,1,2,1,5,0,1,1,0.341342,0.658658
472,2,0,8,1,0,1,1,1,5,1,...,2,1,4,6,4,0,0,0,0.96119,0.03881
7205,3,2,4,0,5,0,0,0,11,0,...,1,1,4,8,1,2,0,0,0.989041,0.010959


Lấy 10 mẫu ngẫu nhiên từ tập test (sample = X_test.sample(10)).

Thực hiện dự đoán và xác suất dự đoán từng lớp (predict_proba()).

Gộp lại trong compare_df để dễ quan sát:

Thực tế: lớp thật của mẫu.

Dự đoán: kết quả mô hình dự đoán.

Xác suất lớp e (ăn được) và Xác suất lớp p (độc): cho thấy độ tin cậy của mô hình.

Kết quả:

Mô hình thường dự đoán chính xác tuyệt đối 10/10 mẫu.

Các xác suất rất cao (gần 1.0) → mô hình cực kỳ chắc chắn.

Như vậy, mô hình Naïve Bayes hoạt động rất tốt với dữ liệu có đặc trưng rời rạc, tách biệt rõ ràng như bộ mushroom.