#### 1️⃣ Chuẩn bị dữ liệu

In [2]:
import pandas as pd

# Tải dữ liệu Iris từ UCI
url = "https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data"
columns = ['sepal_length', 'sepal_width', 'petal_length', 'petal_width', 'class']
df = pd.read_csv(url, names=columns)

print(df.head())


   sepal_length  sepal_width  petal_length  petal_width        class
0           5.1          3.5           1.4          0.2  Iris-setosa
1           4.9          3.0           1.4          0.2  Iris-setosa
2           4.7          3.2           1.3          0.2  Iris-setosa
3           4.6          3.1           1.5          0.2  Iris-setosa
4           5.0          3.6           1.4          0.2  Iris-setosa


#### 2️⃣ Chia dữ liệu thành train/test

In [3]:
from sklearn.model_selection import train_test_split

X = df[['sepal_length', 'sepal_width', 'petal_length', 'petal_width']].values
y = df['class'].values

# Chia 70% train, 30% test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)


#### 3️⃣ Cài đặt Naive Bayes (Gaussian)

In [4]:
import numpy as np

class GaussianNB:
    def fit(self, X, y):
        self.classes = np.unique(y)
        self.mean = {}
        self.var = {}
        self.priors = {}

        for c in self.classes:
            X_c = X[y == c]
            self.mean[c] = X_c.mean(axis=0)
            self.var[c] = X_c.var(axis=0)
            self.priors[c] = X_c.shape[0] / X.shape[0]

    def _pdf(self, class_idx, x):
        mean = self.mean[class_idx]
        var = self.var[class_idx]
        numerator = np.exp(- (x - mean)**2 / (2 * var))
        denominator = np.sqrt(2 * np.pi * var)
        return numerator / denominator

    def predict(self, X):
        y_pred = []
        for x in X:
            posteriors = []
            for c in self.classes:
                prior = np.log(self.priors[c])
                conditional = np.sum(np.log(self._pdf(c, x)))
                posterior = prior + conditional
                posteriors.append(posterior)
            y_pred.append(self.classes[np.argmax(posteriors)])
        return np.array(y_pred)


#### 4️⃣ Huấn luyện và dự đoán

In [5]:
model = GaussianNB()
model.fit(X_train, y_train)
y_pred = model.predict(X_test)

# Đánh giá độ chính xác
accuracy = np.mean(y_pred == y_test)
print(f"Accuracy: {accuracy:.2f}")


Accuracy: 0.98


#### 5 Hiển thị một số dự đoán mẫu

In [11]:
# Hiển thị một số dự đoán mẫu 
for i in range(5):
    print(f"Sample: {X_test[i]}, True: {y_test[i]}, Predicted: {y_pred[i]}")

Sample: [6.1 2.8 4.7 1.2], True: Iris-versicolor, Predicted: Iris-versicolor
Sample: [5.7 3.8 1.7 0.3], True: Iris-setosa, Predicted: Iris-setosa
Sample: [7.7 2.6 6.9 2.3], True: Iris-virginica, Predicted: Iris-virginica
Sample: [6.  2.9 4.5 1.5], True: Iris-versicolor, Predicted: Iris-versicolor
Sample: [6.8 2.8 4.8 1.4], True: Iris-versicolor, Predicted: Iris-versicolor
