# Machine Learning-based for Vietnamese Topic Modeling

## TF-IDF (Term Frequency - Inverse Document Frequency) + SVM (Support Vector Machine)

In [1]:
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.svm import SVC
from sklearn.metrics import classification_report

In [2]:
train_df = pd.read_csv("./csv/train.csv", encoding='utf-16')
test_df = pd.read_csv("./csv/test.csv", encoding='utf-16')
train_df.shape, test_df.shape

((33759, 2), (50373, 2))

In [3]:
train_df.tail()

Unnamed: 0,text,label
33754,Điện thoại di động tương lai trông như thế nào...,Vi tinh
33755,Internet sẽ tăng tốc 1.000 lần \nTrong tương l...,Vi tinh
33756,Phần lớn thế giới thứ 3 thất bại với chính phủ...,Vi tinh
33757,'Doom 3' giành chiến thắng kép \nTrò chơi hành...,Vi tinh
33758,Lỗi về Window Media Player (1)\nTôi đang dùng ...,Vi tinh


In [4]:
train_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 33759 entries, 0 to 33758
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   text    33759 non-null  object
 1   label   33759 non-null  object
dtypes: object(2)
memory usage: 527.6+ KB


In [5]:
test_df.tail()

Unnamed: 0,text,label
50368,Phần mềm chống tải nhạc bất hợp pháp\nNhóm ngh...,Vi tinh
50369,Linux tăng ảnh hưởng trên thị trường máy chủ\n...,Vi tinh
50370,Napster phát không máy nghe nhạc\nCông ty phát...,Vi tinh
50371,Intel giới thiệu chip và chipset chuyên biệt h...,Vi tinh
50372,Yahoo lại bị trì trệ\nLần thứ 2 trong chưa đầy...,Vi tinh


In [6]:
test_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 50373 entries, 0 to 50372
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   text    50373 non-null  object
 1   label   50373 non-null  object
dtypes: object(2)
memory usage: 787.2+ KB


In [7]:
train_df["label"].unique()

array(['Chinh tri Xa hoi', 'Doi song', 'Khoa hoc', 'Kinh doanh',
       'Phap luat', 'Suc khoe', 'The gioi', 'The thao', 'Van hoa',
       'Vi tinh'], dtype=object)

In [8]:
train_df["label"].nunique()

10

In [9]:
X_train = train_df["text"]
y_train = train_df["label"]
X_test = test_df["text"]
y_test = test_df["label"]

In [10]:
# Applied max_df parameter as an alternative way to remove corpus-specific stopwords
vect_shortened = TfidfVectorizer(
    min_df=2,
    max_df=0.3,
    max_features=20000,
    ngram_range=(1, 3),
    encoding='utf-16'
)

In [11]:
X_train_vect = vect_shortened.fit_transform(X_train)
X_test_vect = vect_shortened.transform(X_test)

In [12]:
len(vect_shortened.vocabulary_)

20000

In [13]:
len(vect_shortened.stop_words_)

8862531

In [14]:
X_train_vect.shape

(33759, 20000)

In [15]:
model = SVC()
model.fit(X_train_vect, y_train)

SVC()

In [16]:
y_pred = model.predict(X_test_vect)

In [17]:
print(y_test[::3000].tolist())
print(y_pred[::3000])

['Chinh tri Xa hoi', 'Chinh tri Xa hoi', 'Chinh tri Xa hoi', 'Doi song', 'Kinh doanh', 'Kinh doanh', 'Phap luat', 'Suc khoe', 'Suc khoe', 'The gioi', 'The gioi', 'The thao', 'The thao', 'The thao', 'Van hoa', 'Van hoa', 'Vi tinh']
['Chinh tri Xa hoi' 'Chinh tri Xa hoi' 'Chinh tri Xa hoi' 'Doi song'
 'Kinh doanh' 'Kinh doanh' 'Phap luat' 'Suc khoe' 'Suc khoe' 'The gioi'
 'The gioi' 'The thao' 'The thao' 'The thao' 'Van hoa' 'Van hoa' 'Vi tinh']


In [18]:
print(classification_report(y_test, y_pred, digits=4))

                  precision    recall  f1-score   support

Chinh tri Xa hoi     0.8506    0.9260    0.8867      7567
        Doi song     0.8140    0.7200    0.7641      2036
        Khoa hoc     0.8843    0.8025    0.8414      2096
      Kinh doanh     0.9493    0.8846    0.9158      5276
       Phap luat     0.9340    0.9153    0.9245      3788
        Suc khoe     0.9273    0.9559    0.9414      5417
        The gioi     0.9635    0.9306    0.9468      6716
        The thao     0.9817    0.9822    0.9819      6667
         Van hoa     0.9334    0.9510    0.9421      6250
         Vi tinh     0.9310    0.9586    0.9446      4560

        accuracy                         0.9247     50373
       macro avg     0.9169    0.9027    0.9089     50373
    weighted avg     0.9253    0.9247    0.9244     50373

