### Dữ liệu được download tại: https://github.com/duyvuleo/VNTC

Tiền xử lý dữ liệu - Các file sau khi xử lý sẽ được lưu lại dưới dạng *.pkl

In [None]:
from pyvi import ViTokenizer, ViPosTagger
from tqdm import tqdm
import numpy as np
import gensim
import numpy as np

In [None]:
import os 
dir_path = os.path.dirname(os.path.realpath(os.getcwd()))
dir_path = os.path.join(dir_path, 'Data')

In [None]:
def get_data(folder_path):
    X = []
    y = []
    dirs = os.listdir(folder_path)
    for path in dirs:
        file_paths = os.listdir(os.path.join(folder_path, path))
        for file_path in tqdm(file_paths):
            with open(os.path.join(folder_path, path, file_path), 'r', encoding="utf-16") as f:
                lines = f.readlines()
                lines = ' '.join(lines)
                lines = gensim.utils.simple_preprocess(lines)
                lines = ' '.join(lines)
                lines = ViTokenizer.tokenize(lines)
#                 sentence = ' '.join(words)
#                 print(lines)
                X.append(lines)
                y.append(path)
#             break
#         break
    return X, y

train_path = os.path.join(dir_path, 'VNTC/Data/10Topics/Ver1.1/Train_Full')
print(train_path)

In [None]:
X_data, y_data = get_data(train_path)

In [None]:
import pickle

pickle.dump(X_data, open('data/X_data.pkl', 'wb'))
pickle.dump(y_data, open('data/y_data.pkl', 'wb'))

In [None]:
test_path = os.path.join(dir_path, 'VNTC/Data/10Topics/Ver1.1/Test_Full')
X_test, y_test = get_data(test_path)

In [None]:
pickle.dump(X_test, open('data/X_test.pkl', 'wb'))
pickle.dump(y_test, open('data/y_test.pkl', 'wb'))

##  Test CNN

In [8]:
from sklearn import model_selection, preprocessing, linear_model, naive_bayes, metrics, svm
from sklearn.feature_extraction.text import TfidfVectorizer, CountVectorizer
from sklearn import decomposition, ensemble

from tensorflow.python.keras.models import Sequential, load_model

import pandas, xgboost, numpy, textblob, string
from keras.preprocessing import text, sequence
from keras import layers, models, optimizers
from keras.layers import *

Using TensorFlow backend.


In [9]:
from pyvi import ViTokenizer, ViPosTagger
from tqdm import tqdm
import numpy as np
import gensim
import numpy as np

# Tiền sử lý dữ liệu

In [10]:
def preprocessing_doc(doc):
    lines = gensim.utils.simple_preprocess(doc)
    lines = ' '.join(lines)
    lines = ViTokenizer.tokenize(lines)

    return lines

In [11]:
import pickle

X_data = pickle.load(open('data/X_data.pkl', 'rb'))
y_data = pickle.load(open('data/y_data.pkl', 'rb'))

X_test = pickle.load(open('data/X_test.pkl', 'rb'))
y_test = pickle.load(open('data/y_test.pkl', 'rb'))

In [12]:
# word level - we choose max number of words equal to 30000 except all words (100k+ words)
tfidf_vect = TfidfVectorizer(analyzer='word', max_features=30000)
tfidf_vect.fit(X_data) # learn vocabulary and idf from training set
X_data_tfidf =  tfidf_vect.transform(X_data)
# assume that we don't have test set before
X_test_tfidf =  tfidf_vect.transform(X_test)

#### Transform by SVD to decrease number of dimensions

#### Word Level

In [13]:
from sklearn.decomposition import TruncatedSVD

In [14]:
svd = TruncatedSVD(n_components=300, random_state=42)
svd.fit(X_data_tfidf)

TruncatedSVD(algorithm='randomized', n_components=300, n_iter=5,
             random_state=42, tol=0.0)

In [15]:
X_data_tfidf_svd = svd.transform(X_data_tfidf)
X_test_tfidf_svd = svd.transform(X_test_tfidf)

In [16]:
encoder = preprocessing.LabelEncoder()
y_data_n = encoder.fit_transform(y_data)
y_test_n = encoder.fit_transform(y_test)

In [17]:
number_to_class = encoder.classes_

In [18]:
number_to_class

array(['Chinh tri Xa hoi', 'Doi song', 'Khoa hoc', 'Kinh doanh',
       'Phap luat', 'Suc khoe', 'The gioi', 'The thao', 'Van hoa',
       'Vi tinh'], dtype='<U16')

### Huấn luyện mô hình

In [19]:
from sklearn.model_selection import train_test_split

In [31]:
def train_model(classifier, X_data, y_data,  X_test=None, y_test=None, is_neuralnet=False, n_epochs=3):       
    X_train, X_val, y_train, y_val = train_test_split(X_data, y_data, test_size=0.1, random_state=42)
    
    if is_neuralnet:
        classifier.fit(X_train, y_train, validation_data=(X_val, y_val), epochs=n_epochs, batch_size=512)
        
        val_predictions = classifier.predict(X_val)
        test_predictions = classifier.predict(X_test)
        val_predictions = val_predictions.argmax(axis=-1)
        test_predictions = test_predictions.argmax(axis=-1)
    else:
        classifier.fit(X_train, y_train)
    
        train_predictions = classifier.predict(X_train)
        val_predictions = classifier.predict(X_val)
        test_predictions = classifier.predict(X_test)
        
    print("Validation accuracy: ", metrics.accuracy_score(val_predictions, y_val))
    print("Test accuracy: ", metrics.accuracy_score(test_predictions, y_test))

In [21]:
from keras.layers import *

### Training with Bayes

In [39]:
model = naive_bayes.MultinomialNB()
train_model(naive_bayes.MultinomialNB(), X_data_tfidf, y_data, X_test_tfidf, y_test, n_epochs=20, is_neuralnet=False)

Validation accuracy:  0.8640402843601895
Test accuracy:  0.864292378853751


### Training with simple Deep Neural Network

In [35]:
def create_dnn_model():
    input_layer = Input(shape=(300,))
    layer = Dense(1024, activation='relu')(input_layer)
    layer = Dense(1024, activation='relu')(layer)
    layer = Dense(512, activation='relu')(layer)
    output_layer = Dense(10, activation='softmax')(layer)
    
    classifier = models.Model(input_layer, output_layer)
    classifier.compile(optimizer=optimizers.Adam(), loss='sparse_categorical_crossentropy', metrics=['accuracy'])
    
    return classifier

In [36]:
dnn = create_dnn_model()

In [38]:
train_model(classifier=dnn, X_data=X_data_tfidf_svd, y_data=y_data_n, X_test=X_test_tfidf_svd, y_test=y_test_n, n_epochs=20, is_neuralnet=True)

Train on 30383 samples, validate on 3376 samples
Epoch 1/20
Epoch 2/20
Epoch 3/20
Epoch 4/20
Epoch 5/20
Epoch 6/20
Epoch 7/20
Epoch 8/20
Epoch 9/20
Epoch 10/20
Epoch 11/20
Epoch 12/20
Epoch 13/20
Epoch 14/20
Epoch 15/20
Epoch 16/20
Epoch 17/20
Epoch 18/20
Epoch 19/20
Epoch 20/20
Validation accuracy:  0.9093601895734598
Test accuracy:  0.9072519008198837


### Traning with CNN

In [22]:
def create_cnn_model():
    input_layer = Input(shape=(300,))
    
    layer = Reshape((10, 30))(input_layer)
    layer = Bidirectional(GRU(128, activation='relu', return_sequences=True))(layer)    
    layer = Convolution1D(100, 3, activation="relu")(layer)
    layer = Flatten()(layer)
    layer = Dense(512, activation='relu')(layer)
    layer = Dense(512, activation='relu')(layer)
    layer = Dense(128, activation='relu')(layer)
    
    output_layer = Dense(10, activation='softmax')(layer)
    
    classifier = models.Model(input_layer, output_layer)
    classifier.summary()
    classifier.compile(optimizer=optimizers.Adam(), loss='sparse_categorical_crossentropy', metrics=['accuracy'])
    
    return classifier

In [23]:
classifier = create_cnn_model()
train_model(classifier=classifier, X_data=X_data_tfidf_svd, y_data=y_data_n, X_test=X_test_tfidf_svd, y_test=y_test_n, is_neuralnet=True, n_epochs=20)

Model: "model_1"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
input_1 (InputLayer)         (None, 300)               0         
_________________________________________________________________
reshape_1 (Reshape)          (None, 10, 30)            0         
_________________________________________________________________
bidirectional_1 (Bidirection (None, 10, 256)           122112    
_________________________________________________________________
conv1d_1 (Conv1D)            (None, 8, 100)            76900     
_________________________________________________________________
flatten_1 (Flatten)          (None, 800)               0         
_________________________________________________________________
dense_1 (Dense)              (None, 512)               410112    
_________________________________________________________________
dense_2 (Dense)              (None, 512)               2626

### Testing with real world document

In [64]:
test_doc = '''
Không được tiếp cận thông tin dự án, vai trò mờ nhạt, từ chối thanh toán… là những lý do 6 cựu lãnh đạo MobiFone trình bày để xin hưởng án treo.

Chiều 23/4, khi bị xét hỏi ở phiên phúc thẩm vụ án xảy ra tại Tổng công ty Viễn thông (MobiFone), sáu cựu phó tổng giám đốc doanh nghiệp này gồm: Phan Thị Hoa Mai, Hồ Tuấn, Phạm Thị Phương Anh, Nguyễn Mạnh Hùng, Nguyễn Bảo Long, Nguyễn Đăng Nguyên đều kháng cáo xin giảm nhẹ hình phạt, hưởng án treo hoặc miễn hình phạt.

Bản án sơ thẩm của TAND Hà Nội tuyên phạt 6 người từ 2 năm đến 2 năm 6 tháng tù cùng về tội Vi phạm các quy định về quản lý đầu tư công gây hậu quả nghiêm trọng, theo điều 220 Bộ luật Hình sự 2015

Sáu người bị TAND Hà Nội kết tội trong quá trình thực hiện dự án đầu tư dịch vụ truyền hình của MobiFone bằng cách mua cổ phần của Công ty Nghe nhìn Toàn cầu (AVG) đã đồng phạm cùng ông Nguyễn Bắc Son, Trương Minh Tuấn (cựu bộ trưởng Thông tin và Truyền thông), Lê Nam Trà (cựu chủ tịch MobiFone), Cao Duy Hải (cựu tổng giám đốc MobiFone) gây thiệt hại cho nhà nước gần 6.600 tỷ đồng.

Như phiên sơ thẩm, chiều nay 6 người đều khẳng định "có vai trò mờ nhạt" trong dự án. Họ không có đủ thông tin, không đủ chuyên môn hoặc thiếu hiểu biết nên vô tình sai phạm. Họ không tư lợi.'''

In [65]:
test_doc = preprocessing_doc(test_doc)

In [66]:
test_doc_tfidf = tfidf_vect.transform([test_doc])
print(np.shape(test_doc_tfidf))
test_doc_svd = svd.transform(test_doc_tfidf)

(1, 30000)


In [67]:
probabilities = classifier.predict(test_doc_svd)

In [68]:
index = np.argsort(probabilities[0,:])

In [69]:
print("Most likely class:", number_to_class[index[9]], "-- Probability:", probabilities[0,index[9]])
print("Second most likely class:", number_to_class[index[8]], "-- Probability:", probabilities[0,index[8]])
print("Third most likely class:", number_to_class[index[7]], "-- Probability:", probabilities[0,index[7]])
print("Fourth most likely class:", number_to_class[index[6]], "-- Probability:", probabilities[0,index[6]])
print("Fifth most likely class:", number_to_class[index[5]], "-- Probability:", probabilities[0,index[5]])

Most likely class: Phap luat -- Probability: 0.9971052
Second most likely class: Chinh tri Xa hoi -- Probability: 0.002439355
Third most likely class: Vi tinh -- Probability: 0.00040336724
Fourth most likely class: Doi song -- Probability: 4.0381543e-05
Fifth most likely class: Kinh doanh -- Probability: 4.9036325e-06
