In [1]:
import torch
import numpy as np
import json
import pickle
from transformers import AutoModelForMaskedLM, AutoTokenizer
from utils import *
from vncorenlp import VnCoreNLP

In [2]:
data = load_json("./zalo_datasets/legal_corpus.json")

In [3]:
corpus = [clean_text(article["title"] + " " + article["text"]) for doc in data for article in doc["articles"]]

In [4]:
print(f"Total of articles: {len(corpus)}")

Total of articles: 61425


In [5]:
print(f"Total of documents: {len(data)}")

Total of documents: 3271


In [6]:
article_lengths = [len(article.split()) for article in corpus]

In [7]:
annotator = VnCoreNLP(
        "./VnCoreNLP/VnCoreNLP-1.1.1.jar", 
        annotators="wseg,pos,ner,parse", 
        max_heap_size="-Xmx2g"
    )

In [8]:
from tqdm import tqdm


segmented_corpus = []
for article in tqdm(corpus, desc="Processing"):
    try:
        segmented_article = " ".join(annotator.tokenize(article)[0])
    except:
        segmented_article = article
    
    segmented_corpus.append(segmented_article)

Processing: 100%|██████████████████████████████████| 61425/61425 [20:55<00:00, 48.92it/s]


In [9]:
len(segmented_corpus)

61425

In [10]:
save_parameter(segmented_corpus, './segmented_corpus.pickle')

In [12]:
segmented_corpus[5]

'điều 6 trang_bị dụng_cụ sổ_sách 1 lực_lượng tuần_tra canh_gác đê được trang_bị dụng_cụ thông_tin liên_lạc phương_tiện phục_vụ công_tác tuần_tra canh_gác đê dụng_cụ ứng_cứu như đèn_đuốc mai cuốc xẻng đầm vồ và các dụng_cụ cần_thiết khác phù_hợp với từng địa_phương sổ_sách để ghi_chép tình_hình diễn_biến của đê_kè bảo_vệ đê cống qua đê công_trình quản_lý khác tiếp_nhận chỉ_thị nhận_xét của cấp trên phân công_bố_trí người tuần_tra canh_gác hàng ngày 2 số_lượng dụng_cụ sổ_sách tối_thiểu được trang_bị cho mỗi đội tuần_tra canh_gác đê như sau a về dụng_cụ áo_phao 06 cái áo đi mưa 18 cái xe_cải_tiến 02 chiếc quang_gánh 10 đôi xẻng 06 cái cuốc 06 cái mai đào đất 02 cái xè beng 01 cái dao 10 con vồ 05 cái đèn_bão 05 cái đèn ắc quy hoặc đèn_pin 05 cái trống hoặc kẻng 01 cái biển tín_hiệu báo_động lũ 01 bộ đèn tín_hiệu báo_động lũ 01 bộ tiêu bảng báo_hiệu hư_hỏng 20 cái dầu_hoả 10 lít b về sổ_sách sổ ghi_danh sách phân_công người tuần_tra canh_gác theo từng ca kíp trong ngày ghi chỉ_thị ý_kiến c