In [1]:
import stanza
from stanza.models.common.doc import Document
from stanza.models.constituency.parse_tree import Tree
from tqdm import tqdm
from underthesea import word_tokenize, sent_tokenize

In [2]:
PARSER = stanza.Pipeline(
    lang="vi",
    allow_unknown_language=True,
    processors="tokenize, pos, ner, constituency",
    verbose=False,
)
POS = stanza.Pipeline(
    lang="vi",
    allow_unknown_language=True,
    processors="tokenize, pos, lemma",
    verbose=False,
)

In [3]:
st = PARSER(
    " ".join(
        word_tokenize(
            "Kính gửi luật sư, Tôi xin hỏi luật sư 1 số vấn đề như sau về công ty nước ngoài 1/Công ty nước ngoài (chưa thành lập công ty cũng như Văn phòng đại diện tại Việt Nam) khi muốn thi công xây dựng tại Việt Nam với thời gian ngắn 1-2 năm trong các dự án xây dựng, ODA thì có xin được giấy phép xây dựng đó không?  Có được phép không? 2/ Công ty nước ngoài( chưa có văn phòng đại diện cũng như pháp nhân tại Việt Nam) có được phép mở tài khoản tại ngân hàng tại Việt Nam để giao dich với các khách hàng Việt Nam hay không? 3/ Khi xin được giấy phép xây dựng 1 dự án rồi, có cần thiết phải mở 1 tài khoản riêng cho dự án này không ? Hay là sử dụng chung tài khoản mà văn phòng đại diện tại Việt Nam đang có cũng được? 4/ Khi kết thúc dự án sau ngày 12/5 mà trong tài khoản còn tiền, có được phép chuyển tiền ra nước ngoài hay không? (về công ty mẹ bên Nhật) Xin cảm ơn Luật sư đã quan tâm  Phương"
        )
    )
)

In [4]:
input_data = [
    {
        "url": "10055-hd-cong-ty-nuoc-ngoai-co-duoc-phep-thi-cong-xay-dung",
        "title": "Công ty nước ngoài có được phép thi công xây dựng?",
        "summary": [
            "Kính gửi luật sư, Tôi xin hỏi luật sư 1 số vấn đề như sau về công ty nước ngoài 1/Công ty nước ngoài (chưa thành lập công ty cũng như Văn phòng đại diện tại Việt Nam) khi muốn thi công xây dựng tại Việt Nam với thời gian ngắn 1-2 năm trong các dự án xây dựng, ODA thì có xin được giấy phép xây dựng đó không?  Có được phép không? 2/ Công ty nước ngoài( chưa có văn phòng đại diện cũng như pháp nhân tại Việt Nam) có được phép mở tài khoản tại ngân hàng tại Việt Nam để giao dich với các khách hàng Việt Nam hay không? 3/ Khi xin được giấy phép xây dựng 1 dự án rồi, có cần thiết phải mở 1 tài khoản riêng cho dự án này không ? Hay là sử dụng chung tài khoản mà văn phòng đại diện tại Việt Nam đang có cũng được? 4/ Khi kết thúc dự án mà trong tài khoản còn tiền, có được phép chuyển tiền ra nước ngoài hay không? (về công ty mẹ bên Nhật) Xin cảm ơn Luật sư đã quan tâm  Phương",
            "Hợp đồng ký kết với nhà thầu nước ngoài có hiệu lực trong vòng 15 ngày, kể từ ngày có hiệu lực. Các gói thầu trên lãnh thổ Việt Nam phải tuân thủ các quy định của pháp luật Việt Nam, không được chuyển tiền cho công ty nước ngoài khác theo quy định. Văn phòng đại diện có trách nhiệm gửi báo cáo bằng văn bản và bằng thư điện tử về Bộ Kế hoạch và Đầu tư ở địa phương và thực hiện các thủ tục quản lý tài chính.",
        ],
        "document": [
            "Chào bạn!",
            "Công ty nước ngoài vẫn có quyền tham gia đấu thầu các dự án xây dựng tại Việt nam (nếu dự án đó cho phép).",
            "Sau khi được lựa chọn để thực hiện các gói thầu trên lãnh thổ Việt Nam, nhà thầu nước ngoài phải tuân thủ các quy định của pháp luật Việt Nam về nhập cảnh, xuất cảnh, nhập khẩu, xuất khẩu hàng hóa, đăng ký tạm trú, chế độ kế toán, thuế và các quy định khác của pháp luật Việt Nam liên quan, trừ trường hợp có quy định khác trong điều ước quốc tế mà Cộng hòa xã hội chủ nghĩa Việt Nam là thành viên hoặc thoả thuận quốc tế mà cơ quan, tổ chức có thẩm quyền của Cộng hòa xã hội chủ nghĩa Việt Nam đã ký kết.",
            "Trong vòng 15 ngày, kể từ ngày hợp đồng ký kết với nhà thầu nước ngoài có hiệu lực, chủ đầu tư các dự án có trách nhiệm gửi báo cáo bằng văn bản, bằng thư điện tử  về Bộ Kế hoạch và Đầu tư đồng thời gửi Bộ quản lý ngành (đối với dự án thuộc phạm vi quản lý của Bộ hoặc do Bộ trưởng quyết định đầu tư), Bộ Xây dựng (đối với các gói thầu trong hoạt động xây dựng) và gửi cho Sở Kế hoạch và Đầu tư ở địa phương (đối với dự án thuộc phạm vi quản lý của địa phương) để tổng hợp và theo dõi.",
            "Khi có giấy phép, bạn vẫn có thể sử dụng tài khoản của văn phòng đại diện và thực hiện đúng các quy định về kế toán tài chính.",
            "Các nguồn tiền sử dụng cho dự án sau khi kết toán thì số dư hoặc lợi nhuận sẽ được chuyển về cho đơn vị sở hữu theo các thủ tục chung về quản lý tài chính.",
        ],
    }
]

In [5]:
entity_category = {
    "PERSONNORPORG": "PERSON, NORP, ORG".replace(" ", "").split(","),
    "PLACE": "GPE, LOCATION, FAC".replace(" ", "").split(","),
    "THING": "PRODUCT, EVENT, WORK_OF_ART, LAW, LANGUAGE".replace(" ", "").split(","),
    "TEMPORAL": "TIME, DATE".replace(" ", "").split(","),
    "NUMERIC": "PERCENT, MONEY, QUANTITY, ORDINAL, CARDINAL".replace(" ", "").split(
        ","
    ),
}
entity_type_map = {}
for cate in entity_category:
    for item in entity_category[cate]:
        entity_type_map[item] = cate

In [6]:
with open("./data/vietnamese-stopwords.txt", "r") as file:
    STOPWORDS = file.read().splitlines()


def is_stop(word):
    if word.text in STOPWORDS:
        return True
    else:
        return False

In [7]:
def extract_s_clauses(node: Tree, threshold: int == 3) -> list:
    if node.is_leaf():
        return []
    clauses = []

    for leaf in node.children:
        clauses += extract_s_clauses(leaf)

    if node.label == "S" and len(node.leaf_labels()) > threshold:
        clauses.append(" ".join(node.leaf_labels()).strip())

    print(clauses)

    return clauses

In [8]:
def extract_comma_clauses(tree: Tree) -> list:
    clauses = []
    comma_clauses = " ".join(tree.leaf_labels()).split(",")

    if len(comma_clauses) > 1:
        idx = 0
        for clause in comma_clauses:
            idx += 1

            while len(clause) < 10 and idx < len(comma_clauses):
                clause = ", ".join([clause.strip(), comma_clauses[idx]].strip())
                idx += 1

            clauses.append(clause)
    return clauses

In [9]:
def extract_clauses(nlp: Document) -> list:
    clauses = []

    for sent in nlp.sentences:
        try:
            clauses += extract_s_clauses(sent.constituency, 3)
        except Exception as e:
            pass

        try:
            clauses += extract_comma_clauses(sent.constituency)
        except Exception as e:
            pass

    clauses = sorted(clauses, key=lambda clause: len(clause))
    return clauses

In [10]:
def extract_pos(node: Tree, pos_tag: str) -> list:
    if node.is_leaf():
        return []

    spans = []
    # children = list(tree_node.children)
    for child in node.children:
        spans += extract_pos(child, pos_tag)
    if pos_tag == node.label.upper():
        spans.append(" ".join(node.leaf_labels()))

    return spans

In [11]:
def extract_pos_answers(nlp: Document, pos_tag: str) -> list:
    spans = []
    try:
        for sent in nlp.sentences:
            spans += extract_pos(sent.constituency, pos_tag)
    except Exception as e:
        return []

    return spans

In [12]:
def get_summary(doc: str) -> tuple:
    # doc = " ".join(word_tokenize(doc))
    nlp = PARSER(doc)
    doc = ""
    for sent in nlp.sentences:
        doc += " ".join(sent.constituency.leaf_labels()) + " "
    doc = doc.strip()

    return doc, nlp

In [13]:
def get_answer_start(answer: str, question: str, context: list[str]) -> int:
    q_tokens = []
    for word in POS(question).sentences[0].words:
        if not is_stop(word):
            q_tokens.append(word.lemma)

    answer_rank = []
    for ctx in context:
        if ctx.find(answer) != -1:
            score = 0
            for words in POS(ctx).sentences[0].words:
                if not is_stop(words) and words.lemma in q_tokens:
                    score += 1
            answer_rank.append({"score": score, "context": ctx})

    answer_start = -1

    if len(answer_rank) != 0:
        answer_rank = sorted(answer_rank, key=lambda x: x["score"])
        refined_answer = answer_rank[0]["context"]
        answer_start = " ".join(context).find(refined_answer) + refined_answer.find(
            answer
        )

    return answer_start

In [14]:
def extract_answer_pos(input_data, span_type):
    cloze = []
    q_count = 0

    for item in tqdm(input_data, desc="Answer Extraction"):
        summaries = []
        qas = []

        for idx, summary in enumerate(item["summary"]):
            summary, summary_doc = get_summary(summary)
            summaries.append(summary)

            try:
                spans = extract_pos_answers(summary_doc, span_type)
                if len(spans) <= 0:
                    continue
            except Exception as e:
                continue

            try:
                clauses = extract_clauses(summary_doc)
            except Exception as e:
                continue

            for answer in spans:
                question = None
                for clause in clauses:
                    if len(answer) != 0 and clause.find(answer) != -1:
                        question = clause.replace(answer, "PLACEHOLDER", 1)
                        break
                if not question:
                    continue

                answer_start = get_answer_start(answer, question, item["document"])
                if answer_start == -1:
                    continue

                qas.append(
                    {
                        "id": f'{item["url"]}_{q_count}',
                        "is_impossible": False,
                        "question": question,
                        "answers": [
                            {
                                "text": answer,
                                "type": span_type,
                                "start": answer_start,
                                "id": idx,
                            }
                        ],
                    }
                )
                q_count += 1

        cloze.append(
            {
                "title": item["title"],
                "summary": summaries,
                "context": " ".join(item["document"]),
                "QA": qas,
            }
        )

    print(f"QA found: {q_count}")
    return cloze

In [17]:
def extract_answer_ne(input_data):
    cloze = []
    q_count = 0

    for item in tqdm(input_data, desc="Answers Extraction"):
        summaries = []
        qas = []

        for idx, summary in enumerate(item["summary"]):
            summary, summary_doc = get_summary(summary)
            summaries.append(summary)

            try:
                clauses = extract_clauses(summary_doc)
            except Exception as e:
                continue

            for answer in summary_doc.ents:
                question = None
                for sent in summary_doc.sentences:
                    if answer.end_char <= sent.tokens[-1].end_char:
                        question = " ".join(sent.constituency.leaf_labels()).replace(
                            answer.text,
                            answer.type,
                            1,
                        )
                        break
                if not question:
                    continue

                answer_start = get_answer_start(answer.text, question, item["document"])
                if answer_start == -1:
                    continue

                qas.append(
                    {
                        "id": f'{item["url"]}_{q_count}',
                        "is_impossible": False,
                        "question": question,
                        "answers": [
                            {
                                "text": answer.text,
                                "type": answer.type,
                                "start": answer_start,
                                "id": idx,
                            }
                        ],
                    }
                )
                q_count += 1

        cloze.append(
            {
                "title": item["title"],
                "summary": summaries,
                "context": " ".join(item["document"]),
                "QA": qas,
            }
        )

    print("Questions Number", q_count)
    return cloze

In [18]:
cloze_ne = extract_answer_ne(input_data)

Answers Extraction: 100%|██████████| 1/1 [00:02<00:00,  2.62s/it]

Questions Number 7





In [19]:
cloze = extract_answer_pos(input_data, span_type="NP")

Answer Extraction: 100%|██████████| 1/1 [00:04<00:00,  4.73s/it]

QA found: 14





In [22]:
cloze_ne

[{'title': 'Công ty nước ngoài có được phép thi công xây dựng?',
  'summary': ['Kính gửi luật sư, Tôi xin hỏi luật sư 1 số vấn đề như sau về công ty nước ngoài 1 /Công ty nước ngoài ( chưa thành lập công ty cũng như Văn phòng đại diện tại Việt Na m) khi muốn thi công xây dựng tại Việt Nam với thời gian ngắn 1 -2 năm trong các dự án xây dựn g, ODA thì có xin được giấy phép xây dựng đó không? Có được phép không? 2/ Công ty nước ngoà i( chưa có văn phòng đại diện cũng như pháp nhân tại Việt Nam) có được phép mở tài khoản tại ngân hàng tại Việt Nam để giao dich với các khách hàng Việt Nam hay không? 3/ Khi xin được giấy phép xây dựng 1 dự án rồi, có cần thiết phải mở 1 tài khoản riêng cho dự án này không ? Hay là sử dụng chung tài khoản mà văn phòng đại diện tại Việt Nam đang có cũng được? 4/ Khi kết thúc dự án mà trong tài khoản còn tiền, có được phép chuyển tiền ra nước ngoài hay không? ( về công ty mẹ bên Nhậ t) Xin cảm ơn Luật sư đã quan tâm Phương',
   'Hợp đồng ký kết với nhà thầu nư