In [1]:
from __future__ import annotations

from typing import Text

import regex as re

vowel = [
    ['a', 'à', 'á', 'ả', 'ã', 'ạ', 'a'],
    ['ă', 'ằ', 'ắ', 'ẳ', 'ẵ', 'ặ', 'aw'],
    ['â', 'ầ', 'ấ', 'ẩ', 'ẫ', 'ậ', 'aa'],
    ['e', 'è', 'é', 'ẻ', 'ẽ', 'ẹ', 'e'],
    ['ê', 'ề', 'ế', 'ể', 'ễ', 'ệ', 'ee'],
    ['i', 'ì', 'í', 'ỉ', 'ĩ', 'ị', 'i'],
    ['o', 'ò', 'ó', 'ỏ', 'õ', 'ọ', 'o'],
    ['ô', 'ồ', 'ố', 'ổ', 'ỗ', 'ộ', 'oo'],
    ['ơ', 'ờ', 'ớ', 'ở', 'ỡ', 'ợ', 'ow'],
    ['u', 'ù', 'ú', 'ủ', 'ũ', 'ụ', 'u'],
    ['ư', 'ừ', 'ứ', 'ử', 'ữ', 'ự', 'uw'],
    ['y', 'ỳ', 'ý', 'ỷ', 'ỹ', 'ỵ', 'y'],
]

vowel_to_idx = {}
for i in range(len(vowel)):
    for j in range(len(vowel[i]) - 1):
        vowel_to_idx[vowel[i][j]] = (i, j)


def is_valid_vietnam_word(word):
    chars = list(word)
    vowel_index = -1
    for index, char in enumerate(chars):
        x, _ = vowel_to_idx.get(char, (-1, -1))
        if x != -1:
            if vowel_index == -1:
                vowel_index = index
            else:
                if index - vowel_index != 1:
                    return False
                vowel_index = index
    return True

def normalize_encode(text: str) -> str:
    """
    normalize unicode encoding
    params:
        raw text
    return:
        normalization text
    """
    dicchar = {}
    char1252 = 'à|á|ả|ã|ạ|ầ|ấ|ẩ|ẫ|ậ|ằ|ắ|ẳ|ẵ|ặ|è|é|ẻ|ẽ|ẹ|ề|ế|ể|ễ|ệ|ì|í|ỉ|ĩ|ị|ò|ó|ỏ|õ|ọ|ồ|ố|ổ|ỗ|ộ|ờ|ớ|ở|ỡ|ợ|ù|ú|ủ|ũ|ụ|ừ|ứ|ử|ữ|ự|ỳ|ý|ỷ|ỹ|ỵ|À|Á|Ả|Ã|Ạ|Ầ|Ấ|Ẩ|Ẫ|Ậ|Ằ|Ắ|Ẳ|Ẵ|Ặ|È|É|Ẻ|Ẽ|Ẹ|Ề|Ế|Ể|Ễ|Ệ|Ì|Í|Ỉ|Ĩ|Ị|Ò|Ó|Ỏ|Õ|Ọ|Ồ|Ố|Ổ|Ỗ|Ộ|Ờ|Ớ|Ở|Ỡ|Ợ|Ù|Ú|Ủ|Ũ|Ụ|Ừ|Ứ|Ử|Ữ|Ự|Ỳ|Ý|Ỷ|Ỹ|Ỵ'.split(
        '|',
    )
    charutf8 = 'à|á|ả|ã|ạ|ầ|ấ|ẩ|ẫ|ậ|ằ|ắ|ẳ|ẵ|ặ|è|é|ẻ|ẽ|ẹ|ề|ế|ể|ễ|ệ|ì|í|ỉ|ĩ|ị|ò|ó|ỏ|õ|ọ|ồ|ố|ổ|ỗ|ộ|ờ|ớ|ở|ỡ|ợ|ù|ú|ủ|ũ|ụ|ừ|ứ|ử|ữ|ự|ỳ|ý|ỷ|ỹ|ỵ|À|Á|Ả|Ã|Ạ|Ầ|Ấ|Ẩ|Ẫ|Ậ|Ằ|Ắ|Ẳ|Ẵ|Ặ|È|É|Ẻ|Ẽ|Ẹ|Ề|Ế|Ể|Ễ|Ệ|Ì|Í|Ỉ|Ĩ|Ị|Ò|Ó|Ỏ|Õ|Ọ|Ồ|Ố|Ổ|Ỗ|Ộ|Ờ|Ớ|Ở|Ỡ|Ợ|Ù|Ú|Ủ|Ũ|Ụ|Ừ|Ứ|Ử|Ữ|Ự|Ỳ|Ý|Ỷ|Ỹ|Ỵ'.split(
        '|',
    )
    for i in range(len(char1252)):
        dicchar[char1252[i]] = charutf8[i]

    return re.sub(
        r'à|á|ả|ã|ạ|ầ|ấ|ẩ|ẫ|ậ|ằ|ắ|ẳ|ẵ|ặ|è|é|ẻ|ẽ|ẹ|ề|ế|ể|ễ|ệ|ì|í|ỉ|ĩ|ị|ò|ó|ỏ|õ|ọ|ồ|ố|ổ|ỗ|ộ|ờ|ớ|ở|ỡ|ợ|ù|ú|ủ|ũ|ụ|ừ|ứ|ử|ữ|ự|ỳ|ý|ỷ|ỹ|ỵ|À|Á|Ả|Ã|Ạ|Ầ|Ấ|Ẩ|Ẫ|Ậ|Ằ|Ắ|Ẳ|Ẵ|Ặ|È|É|Ẻ|Ẽ|Ẹ|Ề|Ế|Ể|Ễ|Ệ|Ì|Í|Ỉ|Ĩ|Ị|Ò|Ó|Ỏ|Õ|Ọ|Ồ|Ố|Ổ|Ỗ|Ộ|Ờ|Ớ|Ở|Ỡ|Ợ|Ù|Ú|Ủ|Ũ|Ụ|Ừ|Ứ|Ử|Ữ|Ự|Ỳ|Ý|Ỷ|Ỹ|Ỵ',
        lambda x: dicchar[x.group()],
        text,
    )


def normalize_word_diacritic(word: str) -> str:
    """
    diacritic: á, à, ạ, ả, ã
    params:
        raw word
    return:
        word normalize
    """
    if not is_valid_vietnam_word(word):
        return word

    chars = list(word)
    diacritic = 0
    vowel_index = []
    qu_or_gi = False
    for index, char in enumerate(chars):
        x, y = vowel_to_idx.get(char, (-1, -1))
        if x == -1:
            continue
        elif x == 9:  # check qu
            if index != 0 and chars[index - 1] == 'q':
                chars[index] = 'u'
                qu_or_gi = True
        elif x == 5:  # check gi
            if index != 0 and chars[index - 1] == 'g':
                chars[index] = 'i'
                qu_or_gi = True
        if y != 0:
            diacritic = y
            chars[index] = vowel[x][0]
        if not qu_or_gi or index != 1:
            vowel_index.append(index)
    if len(vowel_index) < 2:
        if qu_or_gi:
            if len(chars) == 2:
                x, y = vowel_to_idx.get(chars[1])
                chars[1] = vowel[x][diacritic]
            else:
                x, y = vowel_to_idx.get(chars[2], (-1, -1))
                if x != -1:
                    chars[2] = vowel[x][diacritic]
                else:
                    chars[1] = vowel[5][diacritic] if chars[1] == 'i' else vowel[9][diacritic]
            return ''.join(chars)
        return word

    for index in vowel_index:
        x, y = vowel_to_idx[chars[index]]
        if x == 4 or x == 8:  # ê, ơ
            chars[index] = vowel[x][diacritic]
            # for index2 in vowel_index:
            #     if index2 != index:
            #         x, y = vowel_to_idx[chars[index]]
            #         chars[index2] = vowel[x][0]
            return ''.join(chars)

    if len(vowel_index) == 2:
        if vowel_index[-1] == len(chars) - 1:
            x, y = vowel_to_idx[chars[vowel_index[0]]]
            chars[vowel_index[0]] = vowel[x][diacritic]
            # x, y = vowel_to_idx[chars[vowel_index[1]]]
            # chars[vowel_index[1]] = vowel[x][0]
        else:
            # x, y = vowel_to_idx[chars[vowel_index[0]]]
            # chars[vowel_index[0]] = vowel[x][0]
            x, y = vowel_to_idx[chars[vowel_index[1]]]
            chars[vowel_index[1]] = vowel[x][diacritic]
    else:
        # x, y = vowel_to_idx[chars[vowel_index[0]]]
        # chars[vowel_index[0]] = vowel[x][0]
        x, y = vowel_to_idx[chars[vowel_index[1]]]
        chars[vowel_index[1]] = vowel[x][diacritic]
        # x, y = vowel_to_idx[chars[vowel_index[2]]]
        # chars[vowel_index[2]] = vowel[x][0]
    return ''.join(chars)


def normalize_diacritic(text: str) -> str:
    """
    normalize diacritic
    params:
        crawl text
    return:
        text normalize
    """
    sentence = text.lower()
    sentence = text
    words = sentence.split()
    for index, word in enumerate(words):
        cw = re.sub(
            r'(^\p{P}*)([p{L}.]*\p{L}+)(\p{P}*$)',
            r'\1/\2/\3', word,
        ).split('/')
        # print(cw)
        if len(cw) == 3:
            cw[1] = normalize_word_diacritic(cw[1])
        words[index] = ''.join(cw)
    return ' '.join(words)


def remove_punctuation(text: str) -> str:
    text = re.sub("[\"#$%&'()*+,-/:;<=>@[\\]^`{|}~]", '', text)
    return text


def preprocessing(text: str) -> str:
    # lowercase
    text = text.lower()

    # remove punctuation
    text = remove_punctuation(text)

    # remove duplicate space
    text = re.sub(r'\s+', ' ', text)

    return text

In [2]:
import json
import re
from datasets import load_dataset

  from .autonotebook import tqdm as notebook_tqdm


In [None]:
dummy_data = load_dataset(
    'json', data_files='/home/link/spaces/kd_semantic/data/train/data.jsonl')
dummy_data['train'][0]

In [4]:
with open('/home/link/spaces/chunking/LinhCSE/data/database/corpus.json') as f:
    corpus = json.load(f)
corpus[0]

{'document_id': '01/2009/tt-bnn',
 'sections': [{'section_index': 0,
   'title': 'Điều 1. Phạm vi áp dụng',
   'content': 'Điều 1. Phạm vi áp dụng. Thông tư này hướng dẫn tuần tra, canh gác bảo vệ đê Điều trong mùa lũ đối với các tuyến đê sông được phân loại, phân cấp theo quy định tại Điều 4 của Luật Đê Điều.',
   'section_id': '8673efe1316b4e32b108f5e5de6d0b50'},
  {'section_index': 1,
   'title': 'Điều 2. Tổ chức lực lượng',
   'content': 'Điều 2. Tổ chức lực lượng. 1. Hàng năm trước mùa mưa, lũ, Ủy ban nhân dân cấp xã nơi có đê phải tổ chức lực lượng lao động tại địa phương để tuần tra, canh gác đê và thường trực trên các điếm canh đê hoặc nhà dân khu vực gần đê (đối với những khu vực chưa có điếm canh đê), khi có báo động lũ từ cấp I trở lên đối với tuyến sông có đê (sau đây gọi tắt là lực lượng tuần tra, canh gác đê).. 2. Lực lượng tuần tra, canh gác đê được tổ chức thành các đội, do Ủy ban nhân dân cấp xã ra quyết định thành lập; từ 01 đến 02 kilômét đê thành lập 01 đội; mỗi đội

In [5]:
from pyvi import ViTokenizer
from tqdm import tqdm

In [6]:
article_texts = []
for item in tqdm(corpus):
    for article in item['sections']:
        text = ViTokenizer.tokenize(article['content'])
        text = normalize_encode(normalize_word_diacritic(text))
        text = text.lower()
        # text = remove_punctuation(text)
        article_texts.append(text)
len(article_texts)

100%|██████████| 3271/3271 [04:00<00:00, 13.59it/s]


61425

In [7]:
article_texts = [item.replace("  ", " ") for item in article_texts]
article_texts = [item.replace(" . ", ". ") for item in article_texts]
article_texts = [item.replace(" , ", ", ") for item in article_texts]
article_texts = [item.replace(".. ", ". ") for item in article_texts]
article_texts = [item.replace("“ ", "\"") for item in article_texts]
article_texts = [item.replace("” ", "\"") for item in article_texts]
article_texts = [item.replace("-", "") for item in article_texts]
article_texts = [item.replace(":", "") for item in article_texts]
article_texts = [item.replace(" )", ")") for item in article_texts]
article_texts = [item.replace("( ", "(") for item in article_texts]
article_texts = [item.replace(";.", ".") for item in article_texts]
article_texts = [item.replace("  ", " ") for item in article_texts]
article_texts = [item.replace(" .", ".") for item in article_texts]
article_texts = [item.replace("..", ".") for item in article_texts]
article_texts = [item.strip() for item in article_texts]

In [8]:
article_texts[5:10]

['điều 6. trang_bị dụng_cụ, sổ_sách. 1. lực_lượng tuần_tra, canh_gác đê được trang_bị. dụng_cụ thông_tin, liên_lạc, phương_tiện phục_vụ công_tác tuần_tra, canh_gác đê ; dụng_cụ ứng_cứu như đèn, đuốc, mai, cuốc, xẻng, đầm, vồ … và các dụng_cụ cần_thiết khác phù_hợp với từng địa_phương. sổ_sách để ghi_chép tình_hình diễn_biến của đê, kè bảo_vệ đê, cống qua đê, công_trình quản_lý khác ; tiếp_nhận chỉ_thị, nhận_xét của cấp trên, phân_công, bố_trí người tuần_tra, canh_gác hàng ngày. 2. số_lượng dụng_cụ, sổ_sách tối_thiểu được trang_bị cho mỗi đội tuần_tra, canh_gác đê như sau. a) về dụng_cụ. áo_phao 06 cái. áo đi mưa 18 cái. xe cải_tiến 02 chiếc. quang_gánh 10 đôi. xẻng 06 cái. cuốc 06 cái. mai đào đất 02 cái. xè beng 01 cái. dao 10 con. vồ 05 cái. đèn_bão 05 cái. đèn ắc_quy hoặc đèn_pin 05 cái. trống hoặc kẻng 01 cái. biển tín_hiệu báo_động lũ 01 bộ. đèn tín_hiệu báo_động lũ 01 bộ. tiêu, bảng báo_hiệu hư_hỏng 20 cái. dầu_hỏa 10 lít. b) về sổ_sách. sổ ghi_danh_sách, phân_công người tuần_tra

In [9]:
sentences = re.split(
    r'(?<!\w\.\w.)(?<![A-Z][a-z]\.)(?<=\.|\?)\s', article_texts[1238])

sentences

['điều 4.',
 'hồ_sơ đề_nghị xác_định, xác_định lại mức_độ khuyết_tật ; cấp, cấp đổi, cấp lại giấy xác_nhận khuyết_tật.',
 '1.',
 'đơn đề_nghị xác_định, xác_định lại mức_độ khuyết_tật và cấp, cấp đổi, cấp lại giấy xác_nhận khuyết_tật theo mẫu_số 01 ban_hành kèm theo thông_tư này.',
 '2.',
 'bản_sao các giấy_tờ liên_quan đến khuyết_tật (nếu có) như bệnh_án, giấy_tờ khám, điều_trị, phẫu_thuật, giấy xác_nhận khuyết_tật cũ và các giấy_tờ có liên_quan khác.',
 '3.',
 'bản_sao kết_luận của hội_đồng giám_định y_khoa về khả_năng tự phục_vụ, mức_độ suy_giảm khả_năng lao_động đối_với trường_hợp người khuyết_tật đã có kết_luận của hội_đồng giám_định y_khoa trước ngày nghị_định số 28 / 2012 / nđ cp có hiệu_lực hoặc các giấy_tờ liên_quan khác (nếu có).',
 '4.',
 'trường_hợp quy_định tại khoản 1 điều 8 và điểm b, khoản 2 điều 8 thì không phải nộp các giấy_tờ quy_định tại khoản 2 và khoản 3 điều này.']

In [10]:
import random
final = []
for item in tqdm(article_texts):
    sentences = re.split(
        r'(?<!\w\.\w.)(?<![A-Z][a-z]\.)(?<=\.|\?)\s', item)
    if len(sentences) < 4:
        continue
    
    for index, query in enumerate(sentences):
        if len(query.split()) < 10:
            continue
        doc = sentences[:index] + sentences[index + 1:]
        doc = [d.strip() for d in doc]
        doc = " ".join(doc)
        final.append({
            "query": query,
            "document": doc
        })
    # random_idx = random.choice([i for i in range(len(sentences))])
    # query = sentences[random_idx]
    
    # trial = 0
    # while len(query.split()) < 10:
    #     if trial == 5:
    #         break
    #     random_idx = random.choice([i for i in range(len(sentences))])
    #     query = sentences[random_idx]
    #     trial +=1
    # if trial == 5:
    #     continue
    # doc = sentences[:random_idx] + sentences[random_idx + 1:]
    # doc = [d.strip() for d in doc]
    # doc = " ".join(doc)

    # final.append({
    #     "query": query,
    #     "document": doc
    # })

    

  0%|          | 0/61425 [00:00<?, ?it/s]

100%|██████████| 61425/61425 [00:10<00:00, 5943.21it/s]


In [11]:
len(final)

412073

In [12]:
import jsonlines
with jsonlines.open('/home/link/spaces/chunking/LinhCSE_training/data/train/data.jsonl', mode='w') as writer:
    for item in final:
        writer.write(item)

In [13]:
from datasets import load_dataset
data = load_dataset('json', data_files='/home/link/spaces/chunking/LinhCSE_training/data/train/data.jsonl')

Downloading data files: 100%|██████████| 1/1 [00:00<00:00, 9776.93it/s]
Extracting data files: 100%|██████████| 1/1 [00:00<00:00, 348.13it/s]
Generating train split: 412073 examples [00:11, 36142.00 examples/s]


In [14]:
data['train'][0]

{'query': 'hàng năm trước mùa mưa, lũ, ủy_ban nhân_dân cấp xã nơi có đê phải tổ_chức lực_lượng lao_động tại địa_phương để tuần_tra, canh_gác đê và thường_trực trên các điếm_canh đê hoặc nhà dân khu_vực gần đê (đối_với những khu_vực chưa có điếm_canh đê), khi có báo_động lũ từ cấp i trở lên đối_với tuyến sông có đê (sau đây gọi tắt là lực_lượng tuần_tra, canh_gác đê).',
 'document': 'điều 2. tổ_chức lực_lượng. 1. 2. lực_lượng tuần_tra, canh_gác đê được tổ_chức thành các đội, do ủy_ban nhân_dân cấp xã ra quyết_định thành_lập ; từ 01 đến 02 kilômét đê thành_lập 01 đội ; mỗi đội có từ 12 đến 18 người, trong đó có 01 đội_trưởng và 01 hoặc 02 đội phó. danh_sách thành_viên đội tuần_tra, canh_gác đê được niêm_yết tại điếm_canh đê thuộc địa_bàn được phân_công. 3. khi lũ, bão có diễn_biến phức_tạp, kéo_dài ngày, uỷ_ban nhân_dân cấp xã có_thể quyết_định việc bổ_sung thêm thành_viên cho đội tuần_tra, canh_gác đê.'}