In [1]:
import json
import numpy as np
import pandas as pd
import re

In [14]:
from transformers import AutoTokenizer, AutoModel
import torch
import os

In [20]:
import ast
from sklearn.metrics.pairwise import cosine_similarity

In [2]:
with open('../VLSP2023-LTER-Data/train.json') as f:
    train_data = json.load(f)

In [118]:
with open('../VLSP2023-LTER-Data/test.json') as f:
    test_data = json.load(f)

In [10]:
from vncorenlp import VnCoreNLP

rdrsegmenter = VnCoreNLP(address="http://172.26.33.174", port=2311)
print('Vncorenlp loaded')

def segment_text(sen):
    ##Segment
    seg = rdrsegmenter.tokenize(sen)
    if len(seg) == 0:
        sen = ' '
    else: 
        seg = [item for sublist in seg for item in sublist]
        sen = ' '.join(seg)
    return sen

Vncorenlp loaded


In [3]:
train_data[0]

{'example_id': 'q9zjh7Uw7Q',
 'label': 'No',
 'statement': 'Người xem dưới 16 tuổi được xem phim có nội dung thuộc phân loại T18',
 'legal_passages': [{'law_id': 'Luật Điện ảnh 2022', 'article_id': '32'}]}

In [123]:
len(test_data)

140

In [121]:
def convert_json_to_df(json_data):
    new_list = []
    for data in json_data:
        new_dict = {}
        for k in data.keys():
            if k == 'legal_passages':
                if len(data['legal_passages']) > 1:
                    print(data['legal_passages'])
                new_dict['law_id'] = data['legal_passages'][0]['law_id']
                new_dict['article_id'] = data['legal_passages'][0]['article_id']
            else:
                new_dict[k] = data[k]
        new_list.append(new_dict)
    new_df = pd.DataFrame(new_list)
    return new_df

In [124]:
test_df = convert_json_to_df(test_data)
test_df.to_csv('../processed_data/test_df.csv', index=False)

[{'law_id': 'Luật Hôn nhân và gia đình 2014', 'article_id': '3'}, {'law_id': 'Luật Hôn nhân và gia đình 2014', 'article_id': '8'}]
[{'law_id': 'Luật Hôn nhân và gia đình 2014', 'article_id': '3'}, {'law_id': 'Luật Hôn nhân và gia đình 2014', 'article_id': '8'}]
[{'law_id': 'Luật Phòng, chống ma túy 2021', 'article_id': '5'}, {'law_id': 'Luật Phòng, chống ma túy 2021', 'article_id': '2'}]
[{'law_id': 'Luật An ninh mạng 2018', 'article_id': '26'}, {'law_id': 'Luật An ninh mạng 2018', 'article_id': '16'}]
[{'law_id': 'Hiến pháp 2013', 'article_id': '44'}, {'law_id': 'Hiến pháp 2013', 'article_id': '45'}]
[{'law_id': 'Hiến pháp 2013', 'article_id': '19'}, {'law_id': 'Hiến pháp 2013', 'article_id': '22'}, {'law_id': 'Hiến pháp 2013', 'article_id': '24'}]
[{'law_id': 'Luật Hôn nhân và gia đình 2014', 'article_id': '3'}, {'law_id': 'Luật Hôn nhân và gia đình 2014', 'article_id': '8'}]
[{'law_id': 'Luật An ninh mạng 2018', 'article_id': '26'}, {'law_id': 'Luật An ninh mạng 2018', 'article_id':

In [8]:
train_df = pd.DataFrame(new_list)
train_df.head()

Unnamed: 0,example_id,label,statement,law_id,article_id
0,q9zjh7Uw7Q,No,Người xem dưới 16 tuổi được xem phim có nội du...,Luật Điện ảnh 2022,32
1,ckQFn8y202,No,"Trong vòng 03 ngày làm việc, kể từ ngày người ...","Luật Phòng, chống ma túy 2021",30
2,3ROu621ZEO,Yes,Viên chức có 02 năm liên tiếp bị phân loại đán...,Luật Viên chức 2010,29
3,VT1QuVmhCc,Yes,Các biện pháp cai nghiện ma túy là những biện ...,"Luật Phòng, chống ma túy 2021",28
4,0MwITLtbmg,No,Viên chức thuộc một đơn vị sự nghiệp công lập ...,Luật Viên chức 2010,14


In [115]:
train_df.to_csv('../processed_data/train_df.csv', index=False)

In [11]:
train_df['segment'] = train_df['statement'].apply(segment_text)
train_df.head()

Unnamed: 0,example_id,label,statement,law_id,article_id,segment
0,q9zjh7Uw7Q,No,Người xem dưới 16 tuổi được xem phim có nội du...,Luật Điện ảnh 2022,32,Người xem dưới 16 tuổi được xem phim có nội_du...
1,ckQFn8y202,No,"Trong vòng 03 ngày làm việc, kể từ ngày người ...","Luật Phòng, chống ma túy 2021",30,"Trong vòng 03 ngày làm_việc , kể từ ngày người..."
2,3ROu621ZEO,Yes,Viên chức có 02 năm liên tiếp bị phân loại đán...,Luật Viên chức 2010,29,Viên_chức có 02 năm liên_tiếp bị phân_loại đán...
3,VT1QuVmhCc,Yes,Các biện pháp cai nghiện ma túy là những biện ...,"Luật Phòng, chống ma túy 2021",28,Các biện_pháp cai_nghiện ma_tuý là những biện_...
4,0MwITLtbmg,No,Viên chức thuộc một đơn vị sự nghiệp công lập ...,Luật Viên chức 2010,14,Viên_chức thuộc một đơn_vị sự_nghiệp công_lập ...


In [114]:
train_df.iloc[0]['segment']

'Người xem dưới 16 tuổi được xem phim có nội_dung thuộc phân_loại T18'

In [15]:
auth_token = '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'
tokenizer = AutoTokenizer.from_pretrained('bkai-foundation-models/vietnamese-bi-encoder', use_auth_token=auth_token)
model = AutoModel.from_pretrained('bkai-foundation-models/vietnamese-bi-encoder', use_auth_token=auth_token)

In [13]:
def batched(input_id_chunks, mask_chunk, n):
    """Batch data into tuples of length n. The last batch may be shorter."""
    # batched('ABCDEFG', 3) --> ABC DEF G
    input_id_chunks = list(input_id_chunks)
    mask_chunk = list(mask_chunk)
    
    if n < 1:
        raise ValueError('n must be at least one')
    
    for i in range(len(input_id_chunks)):
        input_id_chunks[i] = torch.cat([torch.Tensor([0]), input_id_chunks[i], torch.Tensor([2])])
        mask_chunk[i] = torch.cat([torch.Tensor([1]), mask_chunk[i], torch.Tensor([1])])
        pad_len = n - input_id_chunks[i].shape[0]
        if pad_len > 0:
            input_id_chunks[i] = torch.cat([
                input_id_chunks[i], torch.Tensor([1] * pad_len)
            ])
            mask_chunk[i] = torch.cat([
                mask_chunk[i], torch.Tensor([0] * pad_len)
            ])
    input_ids = torch.stack(input_id_chunks)
    attention_mask = torch.stack(mask_chunk)
    input_dict = {
        'input_ids': input_ids.long(),
        'attention_mask': attention_mask.int()
    }
    return input_dict
    
def chunked_tokens(text, encoding_name, chunk_length):
    tokens = tokenizer(text, add_special_tokens=False, return_tensors='pt')
    
    input_id_chunks = tokens['input_ids'][0].split(chunk_length - 2)
    mask_chunk = tokens['attention_mask'][0].split(chunk_length - 2)
    input_dict = batched(input_id_chunks, mask_chunk, chunk_length)
    return input_dict

def mean_pooling(model_output, attention_mask):
    token_embeddings = model_output[0] #First element of model_output contains all token embeddings
    input_mask_expanded = attention_mask.unsqueeze(-1).expand(token_embeddings.size()).float()
    return torch.sum(token_embeddings * input_mask_expanded, 1) / torch.clamp(input_mask_expanded.sum(1), min=1e-9)

def get_embedding(sen, model, max_length, device='cpu'):  
    encoded_input = chunked_tokens(sen, 'bkai-foundation-models/vietnamese-bi-encoder', max_length)
    
    model.to(device)
    for k, v in encoded_input.items():
        encoded_input[k] = v.to(device)
    # Compute token embeddings
    with torch.no_grad():
        model_output = model(**encoded_input)
    if model_output[0].shape[0] > 1:
        print(sen)
    # Perform pooling. In this case, mean pooling.
    sentence_embeddings = mean_pooling(model_output, encoded_input['attention_mask'])
    return sentence_embeddings

In [46]:
def search_related(df, query, n=3, pprint=True):
    product_embedding = get_embedding(
        query, model, 256, 'cuda:1'
    )
    print(product_embedding.shape)
    df["similarity"] = df.embedding.apply(lambda x: cosine_similarity(x, product_embedding.to('cpu')))

    results = (
        df.sort_values("similarity", ascending=False)
        .head(n)
    )
    if pprint:
        print(results.head())
    return results

In [16]:
s_e = get_embedding(train_df.iloc[0]['segment'], model, 256, 'cuda:1')   

In [107]:
embeddings_path = '../processed_data/legal_df_embedding_numpy.csv'
context_df =  pd.read_csv(embeddings_path)
context_df['embedding'] = context_df['embedding'].apply(ast.literal_eval)

In [110]:
context_df['embedding'] = context_df['embedding'].apply(lambda x: np.array([x]))
context_df

Unnamed: 0,law_id,article_id,text,segment,embedding,bm25_text
0,Luật Viên chức 2010,1,Phạm vi điều chỉnh\n\nLuật này quy định về viê...,Phạm_vi điều_chỉnh Luật này quy_định về viên_c...,"[[0.16507713496685028, 0.08745536208152771, 0....",phạm vi điều chỉnh luật này quy định về viên c...
1,Luật Viên chức 2010,2,Viên chức\n\nViên chức là công dân Việt Nam đư...,Viên_chức_Viên_chức là công_dân Việt_Nam được ...,"[[0.29940927028656006, 0.03183652088046074, -0...",viên chức viên chức là công dân việt nam được ...
2,Luật Viên chức 2010,3,"Giải thích từ ngữ\n\nTrong Luật này, các từ ng...","Giải_thích từ_ngữ Trong Luật này , các từ_ngữ ...","[[0.1526578664779663, -0.04446101933717728, -0...",giải thích từ ngữ trong luật này các từ ngữ dư...
3,Luật Viên chức 2010,3,"Giải thích từ ngữ\n\nTrong Luật này, các từ ng...","có phẩm_chất , trình_độ và năng_lực vào làm vi...","[[0.14661511778831482, -0.006432163529098034, ...",có phẩm chất trình độ và năng lực vào làm viên...
4,Luật Viên chức 2010,4,Hoạt động nghề nghiệp của viên chức\n\nHoạt độ...,Hoạt_động nghề_nghiệp của viên_chức Hoạt_động ...,"[[0.14538682997226715, -0.12979193031787872, 0...",hoạt động nghề nghiệp của viên chức hoạt động ...
...,...,...,...,...,...,...
3468,Luật Thanh niên 2020,39,"Trách nhiệm của các Bộ, cơ quan ngang Bộ\n\nCá...","pháp_luật đối_với thanh_niên theo ngành , lĩnh...","[[0.3031163513660431, -0.2225814312696457, 0.3...",pháp luật đối với thanh niên theo ngành lĩnh v...
3469,Luật Thanh niên 2020,40,"Trách nhiệm của Hội đồng nhân dân, Ủy ban nhân...","Trách_nhiệm của Hội_đồng_nhân_dân , Uỷ_ban_nhâ...","[[-0.26759663224220276, 0.055772919207811356, ...",trách nhiệm của hội đồng nhân dân uỷ ban nhân ...
3470,Luật Thanh niên 2020,40,"Trách nhiệm của Hội đồng nhân dân, Ủy ban nhân...","mình , thực_hiện quản_lý_nhà_nước về thanh_niê...","[[0.08777713030576706, -0.07565575838088989, 0...",mình thực hiện quản lý nhà nước về thanh niên ...
3471,Luật Thanh niên 2020,40,"Trách nhiệm của Hội đồng nhân dân, Ủy ban nhân...","thực_hiện chính_sách , pháp_luật về thanh_niên...","[[0.12399047613143921, -0.05082567781209946, 0...",thực hiện chính sách pháp luật về thanh niên g...


In [111]:
res = search_related(context_df, train_df.iloc[1]['segment'], 3, False)

torch.Size([1, 768])


In [112]:
print(train_df.iloc[1]['segment'])
res

Trong vòng 03 ngày làm_việc , kể từ ngày người cai_nghiện ma_tuý sử_dụng dịch_vụ hoặc tự_ý chấm_dứt việc sử_dụng dịch_vụ hoặc hoàn_thành dịch_vụ phải thông_báo cho Uỷ_ban_nhân_dân cấp xã nơi người đó đăng_ký cai_nghiện ma_tuý tự_nguyện tại gia_đình , cộng_đồng .


Unnamed: 0,law_id,article_id,text,segment,embedding,bm25_text,similarity
1819,"Luật Phòng, chống ma túy 2021",36,Cơ sở cai nghiện ma túy tự nguyện\n\n1. Cơ sở ...,học_viên ; g ) Trong thời_hạn 05 ngày làm_việc...,"[[0.46948277950286865, 0.25103214383125305, 0....",học viên g trong thời hạn 05 ngày làm việc kể ...,[[0.9400822991359616]]
1800,"Luật Phòng, chống ma túy 2021",30,"Cai nghiện ma túy tự nguyện tại gia đình, cộng...",c ) Trong thời_hạn 05 ngày làm_việc kể từ ngày...,"[[0.28901442885398865, 0.16021449863910675, 0....",c trong thời hạn 05 ngày làm việc kể từ ngày n...,[[0.9249977473684876]]
1815,"Luật Phòng, chống ma túy 2021",35,Cơ sở cai nghiện ma túy công lập\n\n1. Cơ sở c...,hồ_sơ đề_nghị đưa vào cơ_sở cai_nghiện bắt_buộ...,"[[0.33056125044822693, 0.11432947218418121, 0....",hồ sơ đề nghị đưa vào cơ sở cai nghiện bắt buộ...,[[0.7090224113029859]]


In [116]:
res.iloc[0]['segment']

'học_viên ; g ) Trong thời_hạn 05 ngày làm_việc kể từ ngày người cai_nghiện ma_tuý được tiếp_nhận hoặc tự_ý chấm_dứt việc sử_dụng dịch_vụ hoặc hoàn_thành quy_trình cai_nghiện ma_tuý phải thông_báo cho Uỷ_ban_nhân_dân cấp xã nơi người đó đăng_ký cai_nghiện ma_tuý tự_nguyện .'

In [75]:
context_df[(context_df['law_id'] == 'Luật Viên chức 2010') & (context_df['article_id'] == 29)].iloc[0]['segment']

'Đơn_phương chấm_dứt hợp_đồng làm_việc 1 . Đơn_vị sự_nghiệp công_lập được đơn_phương chấm_dứt hợp_đồng làm_việc với viên_chức trong các trường_hợp sau : a ) Viên_chức có 02 năm liên_tiếp bị phân_loại đánh_giá ở mức_độ không hoàn_thành nhiệm_vụ ; b ) Viên_chức bị buộc thôi_việc theo quy_định tại điểm d khoản 1 Điều 52 và khoản 1 Điều 57 của Luật này ; c ) Viên_chức làm_việc theo hợp_đồng làm_việc không xác_định thời_hạn bị ốm_đau đã điều_trị 12 tháng liên_tục , viên_chức làm_việc theo hợp_đồng làm_việc xác_định thời_hạn bị ốm_đau đã điều_trị 06 tháng liên_tục mà khả_năng làm_việc chưa hồi_phục . Khi sức_khoẻ của viên_chức bình_phục thì được xem_xét để ký_kết tiếp hợp_đồng làm_việc ; d ) Do thiên_tai , hoả_hoạn hoặc những lý_do bất_khả_kháng khác theo quy_định của Chính_phủ làm cho đơn_vị sự_nghiệp công_lập buộc phải thu_hẹp quy_mô , khiến vị_trí việc_làm mà viên_chức đang đảm_nhận không còn ; đ )'