In [1]:
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import GaussianNB
from sklearn.metrics import classification_report, confusion_matrix


In [2]:
df = pd.read_csv('C:/Users/phuoc/Desktop/Traffic_Prediction_Dataset/data/TrafficTwoMonth.csv')
df.head()

Unnamed: 0,Time,Date,Day of the week,CarCount,BikeCount,BusCount,TruckCount,Total,Traffic Situation
0,12:00:00 AM,10,Tuesday,13,2,2,24,41,normal
1,12:15:00 AM,10,Tuesday,14,1,1,36,52,normal
2,12:30:00 AM,10,Tuesday,10,2,2,32,46,normal
3,12:45:00 AM,10,Tuesday,10,2,2,36,50,normal
4,1:00:00 AM,10,Tuesday,11,2,1,34,48,normal


In [3]:
#chọn các cột đặc trưng và nhãn
X = df[['CarCount', 'BikeCount', 'BusCount', 'TruckCount', 'Total',]]
Y = df[['Traffic Situation']]

In [4]:
#phân chia dữ liệu
X_train, X_test, Y_train, Y_test = train_test_split(X,Y, test_size=0.3, random_state=42)
#kiểm tra kích thước dữ liệu
print(f"Kích thước tập huấn luyện:{X_train.shape}")
print(f"Kích thước tập kiểm tra: {X_test.shape}")

Kích thước tập huấn luyện:(4166, 5)
Kích thước tập kiểm tra: (1786, 5)


In [5]:
# Khởi tạo mô hình Naive Bayes (GaussianNB)
nb_model = GaussianNB()

# Huấn luyện mô hình trên tập huấn luyện
nb_model.fit(X_train, Y_train.values.ravel())


In [6]:
# Độ chính xác trên tập huấn luyện
train_accuracy = nb_model.score(X_train, Y_train)
print(f"Độ chính xác trên tập huấn luyện: {train_accuracy*100:.2f}%")

# Độ chính xác trên tập kiểm tra
test_accuracy = nb_model.score(X_test, Y_test)
print(f"Độ chính xác trên tập kiểm tra: {test_accuracy*100:.2f}%")


Độ chính xác trên tập huấn luyện: 82.60%
Độ chính xác trên tập kiểm tra: 81.91%


In [7]:
# Dự đoán trên tập kiểm tra
y_pred = nb_model.predict(X_test)

# Báo cáo hiệu năng
print("Classification Report:")
print(classification_report(Y_test, y_pred))

# Confusion Matrix
print("Confusion Matrix:")
cm = confusion_matrix(Y_test, y_pred)
print(cm)


Classification Report:
              precision    recall  f1-score   support

       heavy       0.83      0.98      0.90       333
        high       0.30      0.52      0.38       122
         low       1.00      0.70      0.82       217
      normal       0.90      0.82      0.86      1114

    accuracy                           0.82      1786
   macro avg       0.76      0.76      0.74      1786
weighted avg       0.86      0.82      0.83      1786

Confusion Matrix:
[[328   4   0   1]
 [ 17  64   0  41]
 [  2   0 152  63]
 [ 49 146   0 919]]


In [8]:
# Dự đoán kết quả trên tập kiểm tra
y_pred = nb_model.predict(X_test)

# In ra các kết quả dự đoán
print("Kết quả dự đoán:")
print(y_pred[:100])

# So sánh với giá trị thực tế (tập kiểm tra)
print("\nGiá trị thực tế:")
print(Y_test.values.ravel()[:100])

Kết quả dự đoán:
['low' 'normal' 'normal' 'high' 'high' 'normal' 'heavy' 'low' 'normal'
 'normal' 'high' 'normal' 'normal' 'heavy' 'normal' 'normal' 'heavy'
 'normal' 'normal' 'normal' 'high' 'normal' 'normal' 'low' 'normal'
 'heavy' 'low' 'normal' 'heavy' 'heavy' 'normal' 'normal' 'high' 'normal'
 'normal' 'heavy' 'low' 'normal' 'normal' 'normal' 'heavy' 'normal'
 'heavy' 'low' 'high' 'normal' 'normal' 'heavy' 'normal' 'normal' 'normal'
 'normal' 'normal' 'normal' 'high' 'low' 'heavy' 'normal' 'normal' 'high'
 'normal' 'normal' 'heavy' 'heavy' 'normal' 'heavy' 'high' 'normal' 'high'
 'heavy' 'normal' 'high' 'heavy' 'normal' 'heavy' 'normal' 'normal'
 'heavy' 'normal' 'normal' 'normal' 'heavy' 'normal' 'low' 'normal'
 'normal' 'high' 'normal' 'high' 'normal' 'heavy' 'low' 'normal' 'normal'
 'normal' 'heavy' 'normal' 'low' 'normal' 'normal']

Giá trị thực tế:
['low' 'normal' 'normal' 'high' 'normal' 'normal' 'heavy' 'low' 'normal'
 'normal' 'high' 'normal' 'normal' 'heavy' 'low' 'normal

In [9]:
# Tạo DataFrame cho cả dự đoán và nhãn thực tế
result_df = pd.DataFrame({
    "Actual": Y_test.values.ravel()[:100],
    "Predicted": y_pred[:100]
})
# Thống kê tần suất của các dự đoán và nhãn thực tế
actual_counts = result_df['Actual'].value_counts()
predicted_counts = result_df['Predicted'].value_counts()
# In kết quả thống kê
print("\nThống kê nhãn thực tế:")
print(actual_counts)

print("\nThống kê dự đoán:")
print(predicted_counts)


Thống kê nhãn thực tế:
Actual
normal    62
heavy     18
low       12
high       8
Name: count, dtype: int64

Thống kê dự đoán:
Predicted
normal    56
heavy     21
high      13
low       10
Name: count, dtype: int64
