# Naïve Bayes Classification on Iris Dataset

## 1. Tải dữ liệu

In [3]:
import numpy as np
import pandas as pd

# Đọc file CSV
df = pd.read_csv('dataset/Iris.csv')

# Nếu file có cột 'Id', ta bỏ đi
df = df.drop(columns=['Id'], errors='ignore')

# Lấy X và y
X = df.iloc[:, :-1].values      # tất cả cột trừ cột Species
y = df.iloc[:, -1].values       # cột Species

X[:5], y[:5]

(array([[5.1, 3.5, 1.4, 0.2],
        [4.9, 3. , 1.4, 0.2],
        [4.7, 3.2, 1.3, 0.2],
        [4.6, 3.1, 1.5, 0.2],
        [5. , 3.6, 1.4, 0.2]]),
 array(['Iris-setosa', 'Iris-setosa', 'Iris-setosa', 'Iris-setosa',
        'Iris-setosa'], dtype=object))

## 2. Định nghĩa hàm Gaussian PDF

In [4]:
import numpy as np

def pdf(x, mean, var):
    return 1.0 / np.sqrt(2*np.pi*var) * np.exp(- (x-mean)**2 / (2*var))


## 3. Cài đặt Naïve Bayes

In [5]:
class NaiveBayesIris:
    def fit(self, X, y):
        self.classes = np.unique(y)
        self.mean = {}
        self.var = {}
        self.prior = {}

        for c in self.classes:
            X_c = X[y == c]
            self.mean[c] = X_c.mean(axis=0)
            self.var[c] = X_c.var(axis=0)
            self.prior[c] = X_c.shape[0] / X.shape[0]

    def predict_one(self, x):
        posteriors = []

        for c in self.classes:
            prior = np.log(self.prior[c])
            cond = np.sum(np.log(pdf(x, self.mean[c], self.var[c])))
            posteriors.append(prior + cond)

        return self.classes[np.argmax(posteriors)]

    def predict(self, X):
        return np.array([self.predict_one(x) for x in X])


## 4. Huấn luyện mô hình

In [6]:
model = NaiveBayesIris()
model.fit(X, y)

print("Training completed.")

Training completed.


## 5. Dự đoán 1 mẫu

In [7]:
sample = np.array([5.9, 3.0, 4.2, 1.5])
prediction = model.predict_one(sample)
prediction

'Iris-versicolor'

## 6. Đánh giá độ chính xác

In [8]:
preds = model.predict(X)
accuracy = np.sum(preds == y) / len(y)
accuracy

np.float64(0.96)