In [1]:
import underthesea
import re
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn import naive_bayes
from sklearn import preprocessing
from sklearn.metrics import accuracy_score,precision_score, recall_score, f1_score
import joblib


In [2]:
def lower_tokenize(text):
    text = text.lower()
    text = re.sub(r'[^\w\s]', '', text)
    text = re.sub(r'\d+', '', text)
    tokens = underthesea.word_tokenize(text)
    # print("Lower",tokens)
    return tokens

In [3]:
def remove_stopword(tokens):
    with open("vietnamese-stopwords.txt","r",encoding="utf-8") as file:
        stopwords = file.readlines()
    stopwords = [word.strip() for word in stopwords]
    final_tokens = [token for token in tokens if token not in stopwords]
    final_text = ' '.join(final_tokens)
    # print("Stopword",final_text)
    return final_text


In [4]:
df = pd.read_csv('../Crawl/Data.csv')

In [5]:
# df = df.head(1000)

In [6]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4314 entries, 0 to 4313
Data columns (total 2 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   Danh mục  4314 non-null   object
 1   Nội dung  4314 non-null   object
dtypes: object(2)
memory usage: 67.5+ KB


In [7]:
df['Danh mục'].value_counts()

Danh mục
Xe          680
Giới trẻ    562
Văn hóa     548
Thế giới    510
Thời sự     380
Kinh tế     295
Sức khỏe    283
Giáo dục    271
Đời sống    250
Thể thao    250
Giải trí    147
Du lịch     138
Name: count, dtype: int64

In [8]:
df = df.dropna()
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4314 entries, 0 to 4313
Data columns (total 2 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   Danh mục  4314 non-null   object
 1   Nội dung  4314 non-null   object
dtypes: object(2)
memory usage: 67.5+ KB


In [9]:
content=df['Nội dung'].apply(lambda x: lower_tokenize(x))
content=content.apply(lambda x: remove_stopword(x))
label=df['Danh mục']

In [10]:
content

0       chiều thành ủy tphcm tổ chức phiên họp ban chỉ...
1       xe tăng t nga khai hỏa ukraine khu vực công bố...
2       pv thanh niên cơ quan chức năng hvĩnh thạnh xá...
3       hội nghị thiếu tướng đào văn nhận phó tư lệnh ...
4       afp đô đốc pierre vandier tổng tư lệnh quân đồ...
                              ...                        
4309    nhắc tuyên quang du khách du lịch khu di tích ...
4310    trump hai thảo luận đồng thuận đàm phán thiết ...
4311    bìa sách truyện thúy kiều tranh cãi thúy kiều ...
4312    chàng trai quen biết hành động đẹp phụ nữ vn c...
4313    messi khótheo báo tây ban nha marca đoạn clip ...
Name: Nội dung, Length: 4314, dtype: object

In [11]:
label

0        Thời sự
1       Thế giới
2        Thời sự
3        Thời sự
4       Thế giới
          ...   
4309     Du lịch
4310    Thế giới
4311     Văn hóa
4312    Giới trẻ
4313    Thể thao
Name: Danh mục, Length: 4314, dtype: object

In [12]:
# Chia dữ liệu thành tập huấn luyện và tập kiểm tra
X_train, X_test, y_train, y_test = train_test_split(content, label, test_size=0.3, random_state=10)
tfidf_vectorizer = TfidfVectorizer(max_features=5000, ngram_range=(1, 2))
X_train_tfidf = tfidf_vectorizer.fit_transform(X_train)
X_test_tfidf = tfidf_vectorizer.transform(X_test)
# Mã hóa nhãn mục tiêu
encoder = preprocessing.LabelEncoder()
y_train = encoder.fit_transform(y_train)
y_test = encoder.transform(y_test)

In [13]:
X_train_tfidf.shape

(3019, 5000)

In [14]:
X_test_tfidf.shape

(1295, 5000)

In [15]:
#Huấn luyện mô hình Naive Bayes
MultiNB = naive_bayes.MultinomialNB(alpha=0.2)
# fit the training dataset on the classifier
MultiNB.fit(X_train_tfidf, y_train)
# Dự đoán nhãn
predictions_nb = MultiNB.predict(X_test_tfidf)

In [16]:
# Accuracy
accuracy = accuracy_score(predictions_nb, y_test)
print(f"Đánh giá bằng: Accuracy: {accuracy}")

# Precision
precision = precision_score(predictions_nb, y_test, average='weighted')
print(f"Đánh giá bằng: Precision: {precision}")

# Recall
recall = recall_score(predictions_nb, y_test, average='weighted')
print(f"Đánh giá bằng: Recall: {recall}")

# F1 Score
f1 = f1_score(predictions_nb, y_test, average='weighted')
print(f"Đánh giá bằng: F1 Score: {f1}")

Đánh giá bằng: Accuracy: 0.833976833976834
Đánh giá bằng: Precision: 0.8493902827007022
Đánh giá bằng: Recall: 0.833976833976834
Đánh giá bằng: F1 Score: 0.8367126811828665


In [17]:
# Chuẩn bị dữ liệu kiểm thử mới
new_data = ["Tôi thích học Toán",
            "VIệt Nam ra sân thắng Lào với tỉ số 10-0",
            "Bạo lực học đường là vấn đề được quan tâm nhất hiện nay",
            "Xe Ariblade 165CC có ngoại hình siêu đẹp"]

# Tiền xử lý dữ liệu kiểm thử mới
new_data= [lower_tokenize(text) for text in new_data]
new_data = [remove_stopword(tokens) for tokens in new_data] # Loại bỏ stop words
# Chuyển đổi dữ liệu kiểm thử mới thành đặc trưng TF-IDF
new_data_tfidf = tfidf_vectorizer.transform(new_data)

# Dự đoán nhãn với dữ liệu kiểm thử mới
new_predictions = MultiNB.predict(new_data_tfidf)

# Chuyển đổi nhãn được dự đoán về dạng ban đầu
new_predictions_labels = encoder.inverse_transform(new_predictions)
# In ra các dự đoán
for i, text in enumerate(new_data):
    print(f"Nội dung: ",text)
    print(f"Dự đoán danh mục: ",new_predictions_labels[i])
    print("-" * 40)

Nội dung:  học toán
Dự đoán danh mục:  Giáo dục
----------------------------------------
Nội dung:  việt nam sân thắng lào tỉ số
Dự đoán danh mục:  Thể thao
----------------------------------------
Nội dung:  bạo lực học đường
Dự đoán danh mục:  Giới trẻ
----------------------------------------
Nội dung:  xe ariblade cc ngoại hình siêu đẹp
Dự đoán danh mục:  Xe
----------------------------------------


In [18]:
joblib.dump((tfidf_vectorizer,MultiNB,encoder), "model.joblib")

['model.joblib']