In [1]:
import numpy as np 
import pandas as pd 
import matplotlib.pyplot as plt 
from sklearn.model_selection import train_test_split
from nltk import RegexpParser, Tree
import pandas as pd
import numpy as np
import ast
from sklearn.metrics import classification_report

In [2]:
from vncorenlp import VnCoreNLP
annotator = VnCoreNLP("./VnCoreNLP-master/VnCoreNLP-1.1.1.jar", annotators="wseg,pos", max_heap_size='-Xmx500m')

def word_segment(text):
    annotated_text = annotator.annotate(text)['sentences'][0]
    return [dic['form'].replace('_',' ').lower() for dic in annotated_text]

In [3]:
def get_y(text):
    return [word[1] for word in text]

In [4]:
def convertBoolArr(arr):
    return [0 if x.lstrip() == 'False' else 1 for x in arr[1:-1].split(',')]

In [5]:
def get_postag(x):
    pos = []
    for dic in x['sentences'][0]:
        pos.append(dic['posTag'])
    return pos

In [6]:
def get_form(x):
    pos = []
    for dic in x['sentences'][0]:
        pos.append(dic['form'])
    print(pos)
    return pos

In [7]:
def flatten(A):
    rt = []
    for i in A:
        if isinstance(i,list): rt.extend(flatten(i))
        else: rt.append(i)
    return rt

In [8]:
def data_process(path):
    X = pd.read_csv(path).drop('Unnamed: 0', axis=1)
    X['list_label'] = X['label'].apply(lambda x: ast.literal_eval(x))
    X_t = X.drop('label', axis=1)
    y_t = X['list_label'].apply(lambda x: get_y(x)).to_list()   
    X_t_process = X_t['NewsFullContent'].apply(lambda x: annotator.annotate(str(x)))
    X_t['form'] = X_t_process.apply(lambda x: get_form(x))
    X_t['pos_tag'] = X_t_process.apply(lambda x: get_postag(x))
    X_t['form_text'] = X_t['form'].apply(lambda x: (" ").join(x))
    return X_t, y_t


In [9]:
def ner_title_feature(path):
    X = pd.read_csv(path).drop('Unnamed: 0', axis=1)
    X['name_entity'] = X['name_entity'].apply(convertBoolArr)
    X['title_tag'] = X['title_tag'].apply(convertBoolArr)
    return X

In [10]:
X_train, y_train = data_process('./data/train_data.csv')
X_test, y_test = data_process('./data/test_data.csv')

c', 'phí', 'để', 'mua', 'quyền', '"', 'Đầu_tư', 'chứng_khoán', 'cơ_sở', 'thì', 'dù', 'biết', 'phải', 'cắt', 'lỗ', 'tuy_nhiên', 'tính', 'kỷ_luật', 'mỗi', 'nhà_đầu_tư', 'khác', 'nhau', 'và', 'điều', 'này', 'định_hình', 'trader', 'thành_công', 'trên', 'thị_trường', 'khác', 'với', 'CW', 'là', 'mức', 'lỗ', 'tối_đa', 'được', 'định', 'trước', 'và', 'nhà_đầu_tư', 'chỉ', 'coi', 'đây', 'là', 'phí', 'bảo_hiểm', 'giao_dịch', '"', 'ông', 'Nguyễn_Duy_Linh', '–', 'Phó', 'Giám_đốc', 'Khối_Dịch', 'vụ', 'Chứng_khoán', 'Khách_hàng', 'Cá_nhân', 'phân_trần', 'Song', 'ngược_lại', 'đòn_bẩy', 'càng', 'cao', 'thì', 'đi', 'kèm', 'với', 'rủi_ro', 'càng', 'cao', 'tức', 'CW', 'biến_động', 'theo', 'chứng_khoán', 'cơ_sở', 'trong', 'trường_hợp', 'cổ_phiếu', 'giảm_giá', 'thì', 'tỷ_lệ', 'thua_lỗ', 'của', 'CW', 'sẽ', 'cao', 'hơn', 'dĩ_nhiên', 'trong', 'trường_hợp', 'nhà_đầu_tư', 'quyết_định', 'thực_hiện', 'quyền', 'Lấy', 'ví_dụ', 'cổ_phiếu', 'MBB', 'với', 'chứng_khoán', 'cơ_sở', 'nhà_đầu_tư', 'sẽ', 'bỏ', 'ra', 'chi_phí'

In [11]:
ner_title_train = ner_title_feature('./data/training_feature.csv')
ner_title_test = ner_title_feature('./data/testing_feature.csv')
X_train = pd.concat([X_train, ner_title_train], axis=1)
X_test = pd.concat([X_test, ner_title_test], axis=1)

In [12]:
X_test_new, y_test_new = data_process('./data/newtest.csv')
ner_title_testnew = ner_title_feature('./data/newtest_feature.csv')
X_test_new = pd.concat([X_test_new, ner_title_testnew], axis=1)

, 'tấn', 'năm']
['Công_ty', 'cũng', 'lấy', 'ý_kiến', 'bằng', 'văn_bản', 'việc', 'nộp', 'vào', 'Ngân_sách', 'Nhà_nước', 'khoản', 'chênh_lệch', 'giá', 'khí', 'đối_với', 'lượng', 'khí', 'trong', 'bao_tiêu', 'Tổng_công_ty', 'Khí', 'Việt_Nam_PV', 'Gas_HoSE_GAS', 'thông_báo', 'kế_hoạch', 'chi_trả', 'cổ_tức', 'còn', 'lại', 'của', 'năm', '2019', 'với', 'tỷ_lệ', '35', 'tương_đương', 'với', 'số', 'tiền', 'gần', '6', '700', 'tỷ', 'đồng', 'Ngày', 'bắt_đầu', 'chi_trả', 'dự_kiến', 'từ', '1', '10', 'đến', '5', '11', 'Trước', 'đó', 'tại', 'Đại_hội', 'cổ_đông', 'mới_đây', 'PV', 'Gas', 'đã', 'quyết_định', 'nâng', 'mức', 'cổ_tức', 'cho', 'năm', '2019', 'từ', '30', 'lên', '45', 'tương_đương', 'tổng_số', 'tiền', '8', '613', 'tỷ', 'đồng', 'Trong', 'đó', 'công_ty', 'đã', 'tạm_ứng', 'cổ_tức', 'đợt', '1', 'với', 'tỷ_lệ', '10', 'hồi', 'tháng', '8', '2019', 'Xây_dựng', 'kế_hoạch', 'cho', 'năm', '2019', 'công_ty', 'ngành', 'khí', 'đặt', 'mục_tiêu', 'đạt', '66', '163', 'tỷ', 'đồng', 'doanh_thu', 'lợi_nhuận', 'trướ

In [13]:
from sklearn.feature_extraction.text import TfidfVectorizer

tfidf = TfidfVectorizer()
tfidf_matrix = tfidf.fit_transform(X_train['form_text'])
feature_names = tfidf.get_feature_names()

def get_ifidf_for_words(text):
    tfidf_matrix= tfidf.transform([text]).todense()
    feature_index = tfidf_matrix[0,:].nonzero()[1]
    tfidf_scores = zip([feature_names[i] for i in feature_index], [tfidf_matrix[0, x] 
for x in feature_index])
    return dict(tfidf_scores)

In [14]:
X_train['ifidf_for_words'] = X_train['form_text'].apply(lambda x : get_ifidf_for_words(x))

In [15]:
def get_tfidf_for_word(word, dic):
    if word in dic.keys():
        return dic[word]
    else:
        return 0

def get_tfidf_for_docs(text, dic):
    text_df = pd.DataFrame(text)
    text_df.columns = ['word']
    tfidf_words = text_df['word'].apply(lambda x: get_tfidf_for_word(x, dic))
    return tfidf_words

In [16]:
tfidf_docs = []
for i,row in X_train[['form','ifidf_for_words']].iterrows():
    tfidf_docs.append(get_tfidf_for_docs(row['form'],row['ifidf_for_words']))
X_train['tfidf_docs'] = tfidf_docs

In [17]:
X_train.head()

Unnamed: 0,NewsTitle,NewsFullContent,list_label,form,pos_tag,form_text,name_entity,title_tag,ifidf_for_words,tfidf_docs
0,VCB - Chủ tịch HĐQT đăng ký mua 10.000 CP,Tên người thực hiện giao dịch Nghiêm Xuân Th...,"[(tên, 1), (người, 0), (thực hiện, 1), (giao d...","[Tên, người, thực_hiện, giao_dịch, Nghiêm_Xuân...","[N, N, V, V, Np, V, Ny, N, N, E, N, V, N, Ny, ...",Tên người thực_hiện giao_dịch Nghiêm_Xuân_Thàn...,"[0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ...","[0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 1, 1, 0, ...","{'000': 0.06685812238906645, '10': 0.064727929...",0 0.000000 1 0.081471 2 0.381808 3...
1,"Sau 10 năm gắn bó, CEO Mekong Capital tiết lộ ...",Sau 10 năm gắn bó CEO Mekong Capital ông Chris...,"[(sau, 0), (10, 0), (năm, 1), (gắn bó, 1), (ce...","[Sau, 10, năm, gắn_bó, CEO, Mekong_Capital, ôn...","[E, M, N, V, Ny, Np, Nc, Np, R, A, V, N, Ny, N...",Sau 10 năm gắn_bó CEO Mekong_Capital ông Chris...,"[0, 0, 0, 0, 0, 1, 0, 1, 0, 0, 0, 0, 1, 1, 1, ...","[1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 1, 1, ...","{'10': 0.04171856896711965, '16': 0.0563790679...",0 0.000000 1 0.041719 2 0.11272...
2,"4 tháng đầu năm, FPT báo lãi 1.113 tỷ đồng, tă...",Thông tin mới từ CTCP FPT cho biết sau 4 tháng...,"[(thông tin, 1), (mới, 0), (từ, 1), (ctcp, 1),...","[Thông_tin, mới, từ, CTCP, FPT, cho, biết, sau...","[N, A, E, Ny, Np, V, V, E, M, N, N, N, M, N, C...",Thông_tin mới từ CTCP FPT cho biết sau 4 tháng...,"[0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ...","[0, 0, 0, 0, 1, 0, 0, 0, 1, 1, 1, 1, 0, 0, 0, ...","{'025': 0.07691351045593753, '10': 0.025198740...",0 0.000000 1 0.027940 2 0.01812...
3,Đại hội cổ đông năm 2013: Dự kiến trước tháng ...,Sáng ngày 6/4/2013 Đại hội cổ đông thườn...,"[(sáng, 1), (ngày, 1), (6/4/2013, 0), (đại hội...","[Sáng, ngày, 6/4/2013, Đại_hội, cổ_đông, thườn...","[N, N, M, N, N, A, N, M, E, Ny, Ny, R, V, R, V...",Sáng ngày 6/4/2013 Đại_hội cổ_đông thường_niên...,"[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, ...","[0, 0, 0, 1, 1, 0, 1, 1, 0, 0, 1, 0, 0, 0, 0, ...","{'10': 0.02408314235801127, '150': 0.060900194...",0 0.000000 1 0.025390 2 0.00000...
4,VIC- Phó TGĐ đăng ký bán 11.000 CP từ 7/8,Tên cá nhân thực hiện giao dịch Đặng Thanh T...,"[(tên, 1), (cá nhân, 1), (thực hiện, 1), (giao...","[Tên, cá_nhân, thực_hiện, giao_dịch, Đặng_Than...","[N, N, V, V, Np, V, Ny, N, N, E, N, V, N, Ny, ...",Tên cá_nhân thực_hiện giao_dịch Đặng_Thanh_Thu...,"[0, 0, 0, 0, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, ...","[0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 1, 1, 0, ...","{'000': 0.06174087593382586, '01': 0.151152681...",0 0.000000 1 0.184373 2 0.235056 3...


In [18]:
def combine_feature(X):
    features = []
    for i in range(len(X)):
        form = pd.DataFrame(X['form'][i])
        
        pos_tag = pd.DataFrame(X['pos_tag'][i])
        tfidf_docs = pd.DataFrame(X['tfidf_docs'][i])
        name_entity = pd.DataFrame(X['name_entity'][i])
        title_tag = pd.DataFrame(X['title_tag'][i])
        df_col_merged = pd.concat([form, pos_tag,tfidf_docs,name_entity,title_tag], axis=1)
        feature = df_col_merged.values.tolist()
        features.append(feature)
    X['features'] = features 

In [19]:
combine_feature(X_train)

In [20]:
tfidf_matrix = tfidf.transform(X_test['form_text'])
feature_names = tfidf.get_feature_names()

def get_ifidf_for_words(text):
    tfidf_matrix= tfidf.transform([text]).todense()
    feature_index = tfidf_matrix[0,:].nonzero()[1]
    tfidf_scores = zip([feature_names[i] for i in feature_index], [tfidf_matrix[0, x] for x in feature_index])
    return dict(tfidf_scores)

X_test['ifidf_for_words'] = X_test['form_text'].apply(lambda x : get_ifidf_for_words(x))

tfidf_docs = []
for i,row in X_test[['form','ifidf_for_words']].iterrows():
    tfidf_docs.append(get_tfidf_for_docs(row['form'],row['ifidf_for_words']))
X_test['tfidf_docs'] = tfidf_docs
X_test = X_test.reset_index()
combine_feature(X_test)


In [21]:
def test_feature(X):
    tfidf_matrix = tfidf.transform(X['form_text'])
    feature_names = tfidf.get_feature_names()
    X['ifidf_for_words'] = X['form_text'].apply(lambda x : get_ifidf_for_words(x))
    tfidf_docs = []
    for i,row in X[['form','ifidf_for_words']].iterrows():
        tfidf_docs.append(get_tfidf_for_docs(row['form'],row['ifidf_for_words']))
    X['tfidf_docs'] = tfidf_docs
    X = X.reset_index()
    combine_feature(X)
    return X


In [22]:
X_test_new = test_feature(X_test_new)

In [23]:
X_train['y'] = y_train
X_test['y'] = y_test
X_test_new['y']= y_test_new
X_train[['features','y']].to_csv('training.csv')
X_test[['features','y']].to_csv('testing.csv')
X_test_new[['features','y']].to_csv('newtest.csv')

In [24]:
X_test.columns

Index(['index', 'NewsTitle', 'NewsFullContent', 'list_label', 'form',
       'pos_tag', 'form_text', 'name_entity', 'title_tag', 'ifidf_for_words',
       'tfidf_docs', 'features', 'y'],
      dtype='object')

In [25]:
def word2features(doc, i):
    word = doc[i][0]
    postag = doc[i][1]
    tfidf = doc[i][2]
    ner = doc[i][3]
    title = doc[i][4]
    # Common features for all words
    features = [
        'bias',
        'word.lower=' + word.lower(),
        'word.isner=%s' % ner,
        'tfidf=%f' % tfidf,
        'word.istitle=%s' % title,
        'postag=' + postag
    ]

    # Features for words that are not
    # at the beginning of a document
    if i > 0:
        word1 = doc[i-1][0]
        postag1 = doc[i-1][1]
        tfidf1 = doc[i-1][2]
        ner1 = doc[i-1][3]
        title1 = doc[i-1][4]
        features.extend([
            '-1:word.lower=' + word1.lower(),
            '-1:word.isner=%s' % ner1,
            '-1:tfidf=%f'  % tfidf1,
            '-1:word.istitle=%s' % title1,
            '-1:postag=' + postag1
        ])
    else:
        # Indicate that it is the 'beginning of a document'
        features.append('BOS')

    # Features for words that are not
    # at the end of a document
    if i < len(doc)-1:
        word1 = doc[i+1][0]
        postag1 = doc[i+1][1]
        tfidf1 = doc[i+1][2]
        ner1 = doc[i+1][3]
        title1 = doc[i+1][4]
        features.extend([
            '+1:word.lower=' + word1.lower(),
            '+1:word.isner=%s' % ner1,
            '+1:tfidf=%f'  % tfidf1,
            '+1:word.istitle=%s' % title1,
            '+1:postag=' + postag1
        ])
    else:
        # Indicate that it is the 'end of a document'
        features.append('EOS')

    return features

In [26]:
def extract_features(doc):
    return [word2features(doc, i) for i in range(len(doc))]


X_train1 = [extract_features(doc) for doc in X_train['features']]
X_test1 = [extract_features(doc) for doc in X_test['features']]
X_test_new1 = [extract_features(doc) for doc in X_test_new['features']]

In [27]:
def convert(y):
    y_ = y.copy()
    for i in range(len(y)):
        if y_[i] == 0:
            y_[i] = 'N'
        else:
            y_[i] = 'I'
    return y_

In [28]:
for i in range(len(y_train)):
    y_train[i] = convert(y_train[i])
for i in range(len(y_test)):
    y_test[i] = convert(y_test[i])
for i in range(len(y_test_new)):
    y_test_new[i] = convert(y_test_new[i])

In [29]:
from sklearn_crfsuite import CRF

In [30]:
crf = CRF(
    algorithm='lbfgs',
    c1=0.1,
    c2=0.1,
    max_iterations=200,
    all_possible_transitions=True
)
crf.fit(X_train1, y_train)

CRF(algorithm='lbfgs', all_possible_transitions=True, c1=0.1, c2=0.1,
    keep_tempfiles=None, max_iterations=200)

In [35]:
y_pred = crf.predict(X_test1)
print("Accuracy:", crf.score(X_test1, y_test))

Accuracy: 0.9911981159846924


In [37]:
import numpy as np
from sklearn.metrics import classification_report

# Create a mapping of labels to indices
labels = {"N": 0, "I": 1}

# Convert the sequences of tags into a 1-dimensional array
predictions = np.array([labels[tag] for row in y_pred for tag in row])
truths = np.array([labels[tag] for row in y_test for tag in row])

# Print out the classification report
print(classification_report(
    truths, predictions,
    target_names=["N", "I"]))


              precision    recall  f1-score   support

           N       0.99      0.98      0.99     12860
           I       0.99      1.00      0.99     21110

    accuracy                           0.99     33970
   macro avg       0.99      0.99      0.99     33970
weighted avg       0.99      0.99      0.99     33970



In [40]:
y_pred_1 = crf.predict(X_test_new1)
print("Accuaracy: ",crf.score(X_test_new1, y_test_new))

Accuaracy:  0.9863709992738647


In [38]:
# Create a mapping of labels to indices
labels = {"N": 0, "I": 1}

# Convert the sequences of tags into a 1-dimensional array
predictions = np.array([labels[tag] for row in y_pred_1 for tag in row])
truths = np.array([labels[tag] for row in y_test_new for tag in row])

# Print out the classification report
print(classification_report(
    truths, predictions,
    target_names=["N", "I"]))

              precision    recall  f1-score   support

           N       0.98      0.98      0.98      7222
           I       0.99      0.99      0.99     10681

    accuracy                           0.99     17903
   macro avg       0.99      0.99      0.99     17903
weighted avg       0.99      0.99      0.99     17903



In [41]:
def test_result(X_test, X_test1, y_pred, row_to_check = 0):
    x_ = X_test1[row_to_check]
    y_ = y_pred[row_to_check]
    x_word = []
    for i in range(len(x_)):
        x_word.append(x_[i][1].split(sep='=')[-1])
    df = pd.DataFrame({'X_test': x_word, 'y_pred': y_})
    df = df[df['y_pred'] == 'I']
    key_extract = df['X_test'].values
    full_content = X_test['NewsFullContent'].loc[row_to_check]
    title = X_test['NewsTitle'].loc[row_to_check]
    return title, full_content, key_extract

test_result(X_test, X_test1, y_pred,row_to_check = 1)

('6 tháng, PNJ báo lãi hợp nhất đạt hơn 146 tỷ đồng',
 '  Theo đó doanh thu thuần trong quý 2 của PNJ đạt 2 471 tỷ tăng 21% so với cùng kỳ  Trong đó doanh thu từ vàng bạc đá quý đạt 1 760 tỷ doanh thu bán xăng dầu đạt gần 700 tỷ; doanh thu từ bán đồng hồ phụ kiện đạt hơn 2 tỷ và doanh thu từ cung cấp dịch vụ đạt 9 6 tỷ     Lợi nhuận gộp trong quý 2 của PNJ tăng 47 2% đạt 201 tỷ; doanh thu tài chính tăng hơn 1 633% đạt 12 3 tỷ; chi phí bán hàng tăng 23 8% lên hơn 80 tỷ chi phí quản lý tăng gần 34% lên 30 5 tỷ     Trong quý này công ty ghi nhận lỗ từ công ty liên doanh liên kết là hơn 616 triệu  cùng kỳ lãi 2 8 tỷ ; lợi nhuận sau thuế trong quý 2 tăng 170% so với cùng kỳ đạt 63 8 tỷ đồng; lợi nhuận sau thuế của cổ đông công ty mẹ tăng 150 8% so với cùng kỳ đạt 59 2 tỷ     Lũy kế 6 tháng đầu năm 2014 doanh thu thuần của PNJ đạt 4 924 6 tỷ tăng 29% so với cùng kỳ; lợi nhuận sau thuế đạt 146 4 tỷ tăng 63 5% so với cùng kỳ  EPS đạt 1 822 đồng riêng EPS quý 2 đạt 783 đồng     Theo PNJ có bốn 

In [42]:
test_result(X_test, X_test1, y_pred,row_to_check = 3)

('BIDV rao bán tàu Ocean Queen với giá khởi điểm hơn 300 tỷ đồng',
 'Giá khởi điểm hơn 300 tỷ đồng nói trên không bao gồm các chi phí liên quan đến việc chuyển quyền sở hữu/sử dụng tài sản phí đăng ký và các phí khác  nếu có  khi thực hiện mua khoản nợ  Các chi phí này do người trúng đấu giá chịu  Các đơn vị tham gia đấu giá phải đặt cọc hơn 15 tỷ đồng     Tàu Ocean Queen có giấy chứng nhận đăng ký tàu biển số HP BUI 001190 4 cấp tại Hải Phòng ngày 9/8/2017     Trước đó hồi năm 2011 Tổng Công ty Công nghiệp Tàu thuỷ Nam Triệu đã hạ thuỷ tàu chở hàng rời 53 000 tấn mang tên Ocean Queen  Tàu được đóng mới cho chủ tàu là Công ty Vận tải biển Hoa Ngọc Lan     Ocean Queen do công ty Carl Bro  Đan Mạch  thiết kế với chiều dài 190m rộng 32 26m trọng tải 53 000 tấn  Tàu được Tổng Công ty Công nghiệp Tàu thuỷ Nam Triệu đóng và hạ thuỷ từ năm 2007 nhưng chủ tàu Graig  Vương quốc Anh  không nhận tàu     Được biết năm 2010 Hoa Ngọc Lan đã đàm phán với Nam Triệu mua Ocean Queen với giá 33 triệu USD

In [43]:
test_result(X_test, X_test1, y_pred,row_to_check = 18)

('STB - Lãi ròng quý I chỉ bằng 25,44% so với cùng kỳ',
 '  Trong quý I ngoài thu nhập thuần từ lãi của STB đạt 1 238 72 tỷ đồng giảm trên 36% so với cùng kỳ còn lại các mảng khác đều có mức tăng trưởng     Cụ thể như lãi thuần từ hoạt động dịch vụ đạt 312 93 tỷ đồng tăng gần 27%; lãi thuần từ hoạt động khác đạt 90 53 tỷ đồng trong khi cùng kỳ đạt có trên 9 tỷ đồng     Mảng kinh doanh ngoại hối đạt 63 25 tỷ đồng tăng 45 8%     Quý này STB phải chi 1 464 55 tỷ đồng cho chi phí hoạt động tăng gần 33% đã làm cho lợi nhuận thuần của các cổ đông giảm mạnh so với cùng kỳ còn 161 95 tỷ đồng     Tải file gốc        ',
 array(['trong', 'quý', 'ngoài', 'thu_nhập', 'từ', 'của', 'stb', 'tỷ',
        'đồng', 'giảm', 'trên', 'với', 'mảng', 'khác', 'đều', 'có',
        'tăng_trưởng', 'cụ_thể', 'từ', 'hoạt_động', 'tỷ', 'đồng', 'tăng',
        'gần', 'từ', 'hoạt_động', 'khác', 'tỷ', 'đồng', 'trong', 'có',
        'trên', 'tỷ', 'đồng', 'mảng', 'kinh_doanh', 'tỷ', 'đồng', 'tăng',
        'quý', 'stb', 't