In [1]:
import random
from underthesea import pos_tag, word_tokenize
from pyvi import ViTokenizer, ViPosTagger

In [2]:
def pprint(tokens: list, tags: list, width=25) -> None:
    for token in tokens:
        print(token.ljust(width), end='|')
    print()
    for tag in tags:
        print(tag.ljust(width), end='|')
    print()
    print("="*width*(len(tokens) + 1))
    print('\n')

# 1. Khảo sát

In [3]:
with open('./data.txt', 'r') as fp:
    data = [r.strip() for r in fp.readlines()]

random.shuffle(data)

In [4]:
for i in range(10):
    tokens, tags = ViPosTagger.postagging(ViTokenizer.tokenize(data[i]))
    pprint(tokens, tags, width=12)
    print()

Bữa         |sáng        |tại         |khách_sạn   |rất         |đa_dạng     |và          |ngon_miệng  |,           |nhưng       |đồ          |uống        |không       |phong_phú   |.           |
N           |A           |E           |N           |R           |A           |C           |N           |F           |C           |N           |V           |R           |A           |F           |



Cafe        |ở           |đây         |rất         |ngon        |,           |nhưng       |món         |ăn          |kèm         |không       |được        |tươi        |.           |
Np          |E           |P           |R           |A           |F           |C           |N           |V           |V           |R           |V           |A           |F           |



Nhân_viên   |phục_vụ     |nhanh_nhẹn  |,           |nhưng       |không       |niềm_nở     |.           |
N           |V           |A           |F           |C           |R           |A           |F           |



Không_gian  |nhà_hàng  

In [5]:
inp = "Món ăn ngon và trình bày đẹp, nhưng khẩu phần không đồng đều"
tkn = word_tokenize(inp, format='text')

data = [inp, tkn]
print('\n'.join(data))
print('*'*140)
print()

for d in data:
    output = pos_tag(d)
    tokens = [item[0] for item in output]
    tags = [item[1] for item in output]

    # PyVi
    pprint(tokens, tags, width=10)
    tokens, tags = ViPosTagger.postagging(ViTokenizer.tokenize(d))
    pprint(tokens, tags, width=12)

    print('*'*140)


Món ăn ngon và trình bày đẹp, nhưng khẩu phần không đồng đều
Món ăn ngon và trình_bày đẹp , nhưng khẩu_phần không đồng_đều
********************************************************************************************************************************************

Món       |ăn        |ngon      |và        |trình bày |đẹp       |,         |nhưng     |khẩu phần |không     |đồng đều  |
N         |V         |A         |C         |V         |A         |CH        |C         |V         |R         |V         |


Món         |ăn          |ngon        |và          |trình_bày   |đẹp         |,           |nhưng       |khẩu_phần   |không       |đồng_đều    |
N           |V           |A           |C           |V           |A           |F           |C           |N           |R           |A           |


********************************************************************************************************************************************
Món       |ăn        |ngon      |và        |trình_bày |đẹp

<h3 style="color: red">Đọc kết quả -> PyVi cho kết quả tốt hơn, sẽ sử dụng gói này cho các công việc kế tiếp</h3>

In [6]:
adj = {}
verb = {}

with open('./adj.txt', 'r') as fp:
    data = [r.strip() for r in fp.readlines()]
    for row in data:
        part = row.split(',')
        adj[part[0]] = float(part[1])

with open('./verb.txt', 'r') as fp:
    data = [r.strip() for r in fp.readlines()]
    for row in data:
        part = row.split(',')
        adj[part[0]] = float(part[1])

print(adj)

{'an_toàn': 1.0, 'bình_thường': -1.0, 'cao': -1.0, 'chu_đáo': 1.0, 'chung': 1.0, 'chuyên_nghiệp': 1.0, 'chậm': -1.0, 'chật_chội': -1.0, 'công_phu': 1.0, 'cứng': 1.0, 'dễ': 1.0, 'đẹp': 1.0, 'gần': 1.0, 'hay': 1.0, 'hiện_đại': 1.0, 'hợp_lý': 1.0, 'khác': 1.0, 'khó_chịu': -1.0, 'kém': -1.0, 'lâu': -1.0, 'lãng_mạn': 1.0, 'lịch_sự': 1.0, 'lớn': 1.0, 'mặn': -1.0, 'mới': 1.0, 'ngon': 1.0, 'ngoài_trời': 1.0, 'ngắn': -1.0, 'ngọt': 1.0, 'nhanh': 1.0, 'nhanh_nhẹn': 1.0, 'nhiều': 1.0, 'nhiệt_tình': 1.0, 'nhỏ': -1.0, 'niềm_nở': 1.0, 'no': 1.0, 'nóng': 1.0, 'nổi_tiếng': 1.0, 'phong_phú': 1.0, 'rộng_rãi': 1.0, 'sang_trọng': 1.0, 'sáng': 1.0, 'sạch_sẽ': 1.0, 'sẵn_sàng': 1.0, 'thoáng_đãng': 1.0, 'thoải_mái': 1.0, 'thuận_lợi': 1.0, 'thuận_tiện': 1.0, 'thân_thiện': 1.0, 'thơm': 1.0, 'thư_giãn': 1.0, 'thật_sự': 1.0, 'tiện_lợi': 1.0, 'tươi': 1.0, 'tận_tình': 1.0, 'tối': -1.0, 'tốt': 1.0, 'xa': -1.0, 'xanh_mát': 1.0, 'yên_tĩnh': 2.0, 'yếu': 1.0, 'âm_nhạc': 1.0, 'ít': -1.0, 'đa_dạng': 1.0, 'đầy_đủ': 1.0, 'đậ

# 2. Xây dựng các luật để phân tích

In [11]:
from abc import ABC, abstractmethod
from typing import Tuple


noun = ['N', 'Nc', 'Ny', 'Np', 'Nu']


class BaseRule(ABC):
    @classmethod
    @abstractmethod
    def parse(cls, tokens: list, tags: list)-> list:
        """
            Tìm tất cả các mẫu phù hợp với các luật được định sẵn
        """

"""
    Định nghĩa các luật của ứng dụng
"""
class NARule(BaseRule):
    """
        Tìm cấu trúc N - A. Ví dụ: cafe ngon, nhạc hay...
    """
    def parse(cls, tokens: list, tags: list)-> list:
        results = []
        for i in range(len(tags) - 1):
            if tags[i] in noun and tags[i+1] == 'A':
                label = 'UNK'
                if tokens[i+1] in adj.keys():
                    if adj[tokens[i+1]] < 0:
                        label = 'NEG'
                    else:
                        label = 'POS'
                results.append((tokens[i], tokens[i+1], label, 'NA'))
        return results


class NCARule(BaseRule):
    """
        Tìm cấu trúc N - C - A. Ví dụ: Cơm thì dẻo, nhưng mặn quá
    """
    def parse(cls, tokens: list, tags: list)-> list:
        results = []
        for i in range(len(tags) - 2):
            if tags[i] in noun and tags[i+1] == 'C' and tags[i+2] == 'A':
                label = 'UNK'
                if tokens[i+1] in adj.keys():
                    if adj[tokens[i+1]] < 0:
                        label = 'POS'
                    else:
                        label = 'NEG'
                results.append((tokens[i], f"{tokens[i+1]} {tokens[i+2]}" , label, 'NCA'))
        return results


class NRARule(BaseRule):
    """
        Tìm cấu trúc N - R - A. Ví dụ: phòng không sạch lắm, cafe không ngon
    """
    def parse(cls, tokens: list, tags: list)-> list:
        results = []
        for i in range(len(tags) - 2):
            if tags[i] in noun and tags[i+1] == 'R' and tags[i+2] == 'A':
                label = 'UNK'
                if tokens[i+1] in adj.keys():
                    if adj[tokens[i+1]] < 0:
                        label = 'POS'
                    else:
                        label = 'NEG'
                results.append((tokens[i], f"{tokens[i+1]} {tokens[i+2]}" , label, 'NRA'))
        return results


##############################################################################

class RuleParser(object):
    """
        Gộp và thử từng luật đã định nghĩa.
    """
    def __init__(self):
        self._rules = []

    def add_rule(self, rule: BaseRule) -> None:
        self._rules.append(rule)

    def execute(self, tokens: list, tags: list) -> list:
        matches = []
        
        for rule in self._rules:
            result = rule.parse(tokens, tags)
            if result:
                matches += result

        return matches


"""
cafe bình thường, nhạc hay
cafe ngon, nhưng khách ồn ào quá
cafe không ngon, nhưng nhạc hay
Macbook thì đẹp, pin lâu, nhưng mà giá cao quá

"""

test_doc = """
Máy rửa chén Bosch SMS46MI05E rửa sạch, 
tiết kiệm nước và hoạt động êm ái, 
nhưng giá thành cao và kích thước lớn không phù hợp với căn bếp nhỏ.
"""
tokens, tags = ViPosTagger.postagging(ViTokenizer.tokenize(test_doc))
pprint(tokens, tags, width=8)
print('*'*100)

parser = RuleParser()
parser.add_rule(NARule())
parser.add_rule(NCARule())
parser.add_rule(NRARule())

matches = parser.execute(tokens, tags)
for m in matches:
    print(m)

Máy     |rửa     |chén    |Bosch   |SMS46MI05E|rửa     |sạch    |,       |tiết_kiệm|nước    |và      |hoạt_động|êm_ái   |,       |nhưng   |giá_thành|cao     |và      |kích_thước|lớn     |không   |phù_hợp |với     |căn     |bếp     |nhỏ     |.       |
N       |V       |N       |Np      |Ny      |V       |A       |F       |V       |N       |C       |V       |A       |F       |C       |N       |A       |C       |N       |A       |R       |V       |E       |Nc      |N       |A       |F       |


****************************************************************************************************
('giá_thành', 'cao', 'NEG', 'NA')
('kích_thước', 'lớn', 'POS', 'NA')
('bếp', 'nhỏ', 'NEG', 'NA')


# 3. Thực nghiệm

In [8]:
with open('./data.txt', 'r') as fp:
    corpus = [r.strip() for r in fp.readlines()]


parser = RuleParser()
parser.add_rule(NARule())

for doc in corpus:
    tokens, tags = ViPosTagger.postagging(ViTokenizer.tokenize(doc))
    matches = parser.execute(tokens, tags)
    if matches:
        print(doc)
        for m in matches:
            print(m)
        print("*"*100)

Không gian nhà hàng ấm cúng và thoải mái, nhưng thời gian chờ đợi món ăn khá lâu.
('nhà_hàng', 'ấm_cúng', 'POS', 'NA')
****************************************************************************************************
Nhà hàng luôn giữ vệ sinh sạch sẽ, nhưng đôi khi âm nhạc quá lớn, gây khó chịu.
('vệ_sinh', 'sạch_sẽ', 'POS', 'NA')
****************************************************************************************************
Phòng ở rất thoải mái và rộng rãi, nhưng giá phòng lại hơi cao so với những khách sạn khác trong khu vực.
('khách_sạn', 'khác', 'POS', 'NA')
****************************************************************************************************
Nhân viên lễ tân nhiệt tình và luôn sẵn sàng giúp đỡ, nhưng thời gian check-in và check-out hơi chậm.
('thời_gian', 'check', 'UNK', 'NA')
****************************************************************************************************
Khách sạn có vị trí thuận lợi, gần nhiều điểm tham quan nổi tiếng, nhưng lại khá x