In [1]:
import json
from openai import OpenAI
from groq import Groq
import os
from sentence_transformers import SentenceTransformer
from tqdm.auto import tqdm
import pickle
from requests.exceptions import HTTPError
import time
# from groq.exceptions import RateLimitError
from concurrent.futures import ThreadPoolExecutor

  from .autonotebook import tqdm as notebook_tqdm


In [2]:
client =  Groq(api_key = os.environ['GROQ_API_KEY'])

In [3]:
model = SentenceTransformer("paraphrase-multilingual-MiniLM-L12-v2")



In [4]:
with open('../data/vietnamese_rag/documents-with-ids1.json', 'rt') as f_in:
    documents1 = json.load(f_in)

In [30]:
len(documents1)

1217

In [14]:
documents1[0].keys()

dict_keys(['group', 'context', 'question', 'answer', 'id'])

In [5]:
prompt_template = """
You emulate my assistant who works with me in a Q and A project .
Formulate 5 questions people might ask based on the record. The record
should contain the answer to the questions, and the questions should be complete and not too short.
If possible, use as fewer words as possible from the record. Make sure the questions should be in Vietnamese

The record:

question: {question}
answer: {answer}

Provide the output in parsable JSON without using code blocks:

["question1", "question2", ..., "question5"]
""".strip()

In [6]:
def generate_questions(doc):
    # Create a new dictionary excluding the first key-value pair
    doc_items = list(doc.items())[1:]  # Skip the first item
    doc_filtered = dict(doc_items)

    prompt = prompt_template.format(**doc_filtered)

    retries = 5
    for i in range(retries):
        try:
            response = client.chat.completions.create(
                model='Gemma2-9b-It',
                messages=[{"role": "user", "content": prompt}]
            )
            json_response = response.choices[0].message.content
            return json_response
        except HTTPError as e:
            if e.response.status_code == 429:  # Rate limit error
                retry_after = float(e.response.json()['error']['message'].split('in ')[-1].split('s')[0])
                time.sleep(retry_after)
            else:
                raise
        except Exception as e:
            if i < retries - 1:
                time.sleep(2 ** i)  # Exponential backoff
            else:
                raise

In [7]:
def map_progress(pool, seq, f):
    results = []

    with tqdm(total=len(seq)) as progress:
        futures = []

        for el in seq:
            future = pool.submit(f, el)
            future.add_done_callback(lambda p: progress.update())
            futures.append(future)

        for future in futures:
            result = future.result()
            results.append(result)

    return results

In [8]:

# Initialize ThreadPoolExecutor
pool = ThreadPoolExecutor(max_workers=6)

# Process documents in parallel
results = {}

In [9]:
def process_document(doc):
    doc_id = doc['id']
    if doc_id in results:
        return None

    questions = generate_questions(doc)
    return (doc_id, questions)

In [20]:
# Use map_progress to process documents
processed_results = map_progress(pool, documents1[:30], process_document)

# Store the results
for result in processed_results:
    if result is not None:
        doc_id, questions = result
        results[doc_id] = questions


100%|█████████████████████████| 30/30 [00:36<00:00,  1.21s/it]
  2%|█▏                                               | 28/1127 [00:20<35:37,  1.94s/it]████████████████████████████████████████████████████████████████▍          | 28/30 [00:02<00:00, 10.40it/s]

In [21]:

# Print or save the results as needed
print(results)

{'75fafd29': '[\n"Minh Tú đã gặp khó khăn gì trong thử thách đi catwalk tại Asia\'s Next Top Model mùa 5?",\n"Điểm đến nào là thử thách khó khăn nhất đối với Minh Tú trong buổi thử thách đi catwalk?",\n"Vị trí của Minh Tú trong đêm chung kết Asia\'s Next Top Model mùa 5 là gì?",\n"Minh Tú đã thể hiện kỹ năng gì khi thực hiện thử thách đi catwalk trên tòa nhà cao tầng?",\n"Những thử thách nào đã giúp Minh Tú gặt hái thành công trong Asia\'s Next Top Model mùa 5?"\n] \n', '7adda7d7': '["Tại sao TP HCM có sương mù dày đặc vào sáng hôm nay?",\n"Những yếu tố nào dẫn đến sương mù dày đặc ở TP HCM?",\n"Tại sao sương mù lại xuất hiện vào ban đêm?",\n"Có sự liên quan giữa mưa lớn và hiện tượng sương mù\xa0không?",\n"Mức độ ô nhiễm không khí có ảnh hưởng đến sương mù\xa0không?"] \n\n\n', 'de6e7aa5': '{"question1":"Vụ nổ tại nhà máy hóa dầu xảy ra ở tỉnh nào ở Trung Quốc?" , "question2":"Ảnh hưởng ban đầu của vụ nổ là bao nhiêu người bị thương?" , "question3":"Vụ nổ xảy ra vào thời gian nào theo 

In [22]:
len(processed_results)

30

In [23]:

# from collections import defaultdict

# hashes = defaultdict(list)

# for doc in documents1:
#     doc_id = doc['id']
#     hashes[doc_id].append(doc)
# # hashes['75fafd29']

In [24]:
# len = 0
# for hash in hashes:
#     print(hash)
#     len += 1
#     if len == 30:
#         break
    

In [25]:
# for result in results:
#     print(result)

In [26]:
with open('../data/vietnamese_rag/ground_truth_data/ground_truth1.pkl', 'wb') as file:
    pickle.dump(results, file)

In [27]:
with open('../data/vietnamese_rag/ground_truth_data/ground_truth1.pkl', 'rb') as file:
    test = pickle.load(file)

In [29]:
type(test)

dict

In [31]:
# Use map_progress to process documents
processed_results = map_progress(pool, documents1[30:30*2], process_document)

# Store the results
for result in processed_results:
    if result is not None:
        doc_id, questions = result
        results[doc_id] = questions


100%|█████████████████████████| 30/30 [00:03<00:00,  9.56it/s]


In [35]:
def get_last_n_items(d, n):
    # Convert dictionary items to a list
    items = list(d.items())
    # Slice the list to get the last n items
    last_n_items = items[-n:]
    # Convert the sliced list back to a dictionary
    return dict(last_n_items)

In [36]:
last_30_items = get_last_n_items(results, 30)
len(last_30_items)

30

In [37]:
with open('../data/vietnamese_rag/ground_truth_data/ground_truth2.pkl', 'wb') as file:
    pickle.dump(last_30_items, file)

In [43]:
with open('../data/vietnamese_rag/ground_truth_data/ground_truth2.pkl', 'rb') as file:
    test = pickle.load(file)

In [44]:
test

{'1549e29b': '{"questions":["Lexus NX mới có lưới tản nhiệt dạng nào?","Lexus NX mới được trang bị màn hình thông tin và giải trí có kích thước bao nhiêu inch?","NX 300h và NX 300 F Sport có điểm khác biệt nào về phần đầu xe?","Có những thay đổi ở phần đuôi xe Lexus NX mới?","Lexus NX mới sử dụng động cơ loại nào?"]}  \n',
 'f55ad056': '["Huỳnh Thị Thuỳ Dung đại diện nước nào tham dự cuộc thi nào?", "Huỳnh Thị Thuỳ Dung đạt giải gì ở cuộc thi Hoa hậu Việt Nam 2016?", "Ngoài vị trí Á hậu 2, Huỳnh Thị Thuỳ Dung còn nhận giải gì?", "Năm Huỳnh Thị Thuỳ Dung đại diện Việt Nam tham dự Miss International?", "Huỳnh Thị Thuỳ Dung là người đẹp tài năng trong cuộc thi Hoa hậu Việt Nam nào?"] \n\n\n',
 '326bd715': '["Sở dĩ Tuấn Anh không thể tham gia buổi tập đội tuyển U22 Việt Nam là do lý do gì?", "Trường hợp Đức Huy không góp mặt trong buổi tập là do chấn thương gì?", "Chuyên gia vật lý trị liệu nào đang điều trị cho Tuấn Anh?", "Cầu thủ Tuấn Anh bị chấn thương gì?", "Được biết Đức Huy bị chấn 

In [45]:
results = {}
# Use map_progress to process documents
processed_results = map_progress(pool, documents1[30*2:30*3], process_document)

# Store the results
for result in processed_results:
    if result is not None:
        doc_id, questions = result
        results[doc_id] = questions

100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 30/30 [00:02<00:00, 10.34it/s]


In [50]:
len(results)

30

In [51]:
with open('../data/vietnamese_rag/ground_truth_data/ground_truth3.pkl', 'wb') as file:
    pickle.dump(results, file)

In [10]:
results = {}
# Use map_progress to process documents
processed_results = map_progress(pool, documents1[30*3:30*4], process_document)

# Store the results
for result in processed_results:
    if result is not None:
        doc_id, questions = result
        results[doc_id] = questions

100%|███████████████████████████████████████████████████| 30/30 [00:38<00:00,  1.29s/it]
 40%|████████████████████▍                              | 12/30 [00:12<00:27,  1.53s/it]

In [11]:
with open('../data/vietnamese_rag/ground_truth_data/ground_truth4.pkl', 'wb') as file:
    pickle.dump(results, file)

In [10]:
results = {}
# Use map_progress to process documents
processed_results = map_progress(pool, documents1[30*4:30*5], process_document)

# Store the results
for result in processed_results:
    if result is not None:
        doc_id, questions = result
        results[doc_id] = questions
with open('../data/vietnamese_rag/ground_truth_data/ground_truth5.pkl', 'wb') as file:
    pickle.dump(results, file)

100%|███████████████████████████████████████████████████| 30/30 [00:50<00:00,  1.68s/it]
 17%|████████▋                                           | 5/30 [00:04<00:30,  1.20s/it]

In [11]:
results = {}
# Use map_progress to process documents
processed_results = map_progress(pool, documents1[30*5:30*6], process_document)

# Store the results
for result in processed_results:
    if result is not None:
        doc_id, questions = result
        results[doc_id] = questions
with open('../data/vietnamese_rag/ground_truth_data/ground_truth6.pkl', 'wb') as file:
    pickle.dump(results, file)

100%|█████████████████████████| 30/30 [00:13<00:00,  2.16it/s]


In [10]:
results = {}
# Use map_progress to process documents
processed_results = map_progress(pool, documents1[30*6:30*7], process_document)

# Store the results
for result in processed_results:
    if result is not None:
        doc_id, questions = result
        results[doc_id] = questions
with open('../data/vietnamese_rag/ground_truth_data/ground_truth7.pkl', 'wb') as file:
    pickle.dump(results, file)

100%|███████████████████████████████████████████████████| 30/30 [00:52<00:00,  1.75s/it]
100%|███████████████████████████████████████████████████| 30/30 [00:03<00:00, 10.75it/s]

In [11]:
results = {}
# Use map_progress to process documents
processed_results = map_progress(pool, documents1[30*7:30*8], process_document)

# Store the results
for result in processed_results:
    if result is not None:
        doc_id, questions = result
        results[doc_id] = questions
with open('../data/vietnamese_rag/ground_truth_data/ground_truth8.pkl', 'wb') as file:
    pickle.dump(results, file)

100%|█████████████████████████| 30/30 [00:49<00:00,  1.66s/it]


In [12]:
results = {}
# Use map_progress to process documents
processed_results = map_progress(pool, documents1[30*8:30*9], process_document)

# Store the results
for result in processed_results:
    if result is not None:
        doc_id, questions = result
        results[doc_id] = questions
with open('../data/vietnamese_rag/ground_truth_data/ground_truth9.pkl', 'wb') as file:
    pickle.dump(results, file)

100%|█████████████████████████| 30/30 [00:44<00:00,  1.49s/it]


In [13]:
results = {}
# Use map_progress to process documents
processed_results = map_progress(pool, documents1[30*9:30*10], process_document)

# Store the results
for result in processed_results:
    if result is not None:
        doc_id, questions = result
        results[doc_id] = questions
with open('../data/vietnamese_rag/ground_truth_data/ground_truth10.pkl', 'wb') as file:
    pickle.dump(results, file)

100%|█████████████████████████| 30/30 [00:03<00:00,  7.54it/s]


In [14]:
results = {}
# Use map_progress to process documents
processed_results = map_progress(pool, documents1[30*10:30*11], process_document)

# Store the results
for result in processed_results:
    if result is not None:
        doc_id, questions = result
        results[doc_id] = questions
with open('../data/vietnamese_rag/ground_truth_data/ground_truth11.pkl', 'wb') as file:
    pickle.dump(results, file)

100%|███████████████████████████████████████████████████| 30/30 [00:11<00:00,  2.53it/s]


In [15]:
results = {}
# Use map_progress to process documents
processed_results = map_progress(pool, documents1[30*11:30*12], process_document)

# Store the results
for result in processed_results:
    if result is not None:
        doc_id, questions = result
        results[doc_id] = questions
with open('../data/vietnamese_rag/ground_truth_data/ground_truth12.pkl', 'wb') as file:
    pickle.dump(results, file)

100%|█████████████████████████| 30/30 [00:37<00:00,  1.25s/it]


In [16]:
results = {}
# Use map_progress to process documents
processed_results = map_progress(pool, documents1[30*12:30*13], process_document)

# Store the results
for result in processed_results:
    if result is not None:
        doc_id, questions = result
        results[doc_id] = questions
with open('../data/vietnamese_rag/ground_truth_data/ground_truth13.pkl', 'wb') as file:
    pickle.dump(results, file)

100%|█████████████████████████| 30/30 [00:23<00:00,  1.26it/s]


In [27]:
# Process documents in chunks of 30
chunk_size = 30
start_chunk = 13  # Starting chunk index
end_chunk = (len(documents1) // chunk_size)  # Ending chunk index
print(end_chunk)
for i in range(start_chunk, end_chunk):
    results = {}
    chunk_start = i * chunk_size
    chunk_end = chunk_start + chunk_size
    chunk = documents1[chunk_start:chunk_end]
    print(chunk_start, chunk_end)

#     # Use map_progress to process documents
#     processed_results = map_progress(pool, chunk, process_document)

#     # Store the results incrementally
#     for result in processed_results:
#         if result is not None:
#             doc_id, questions = result
#             results[doc_id] = questions

#     # Save the results to a file
#     file_name = f'../data/vietnamese_rag/ground_truth_data/ground_truth{i}.pkl'
#     with open(file_name, 'wb') as file:
#         pickle.dump(results, file)

#     # Print out the results
#     print(f"Chunk {i} processed and saved to {file_name}")
#     print(results)

#     # Wait for 1 minute to reset rate limit
#     time.sleep(120)

40
390 420
420 450
450 480
480 510
510 540
540 570
570 600
600 630
630 660
660 690
690 720
720 750
750 780
780 810
810 840
840 870
870 900
900 930
930 960
960 990
990 1020
1020 1050
1050 1080
1080 1110
1110 1140
1140 1170
1170 1200


In [30]:
# Process documents in chunks of 30
chunk_size = 30
start_chunk = 14  # Starting chunk index
end_chunk = (len(documents1) // chunk_size)  # Ending chunk index
print(end_chunk)
for i in range(start_chunk, end_chunk):
    results = {}
    chunk_start = i * chunk_size
    chunk_end = chunk_start + chunk_size
    chunk = documents1[chunk_start:chunk_end]

    # Use map_progress to process documents
    processed_results = map_progress(pool, chunk, process_document)

    # Store the results incrementally
    for result in processed_results:
        if result is not None:
            doc_id, questions = result
            results[doc_id] = questions

    # Save the results to a file
    file_name = f'../data/vietnamese_rag/ground_truth_data/ground_truth{i + 1}.pkl'
    with open(file_name, 'wb') as file:
        pickle.dump(results, file)

    # Print out the results
    print(f"Chunk {i} processed and saved to {file_name}")
    print(results)

    # Wait for 1 minute to reset rate limit
    time.sleep(60)

40


100%|█████████████████████████| 30/30 [00:03<00:00,  9.24it/s]


Chunk 14 processed and saved to ../data/vietnamese_rag/ground_truth_data/ground_truth15.pkl
{'96911e78': '[\n"Mũ bucket trở thành xu hướng thời trang đường phố vào những năm nào?",\n"Ai là nghệ sĩ  đã làm cho mũ bucket trở nên nổi tiếng?",\n"LL Cool J có liên quan gì đến mũ bucket?",\n"Năm 1980 ấn tượng với giới trẻ thế nào qua mũ bucket?",\n"Mũ bucket có một vai trò quan trọng trong phong cách thời trang như thế nào?" \n] \n', 'f3f96cd5': '["Renee hoạt động nghề nghiệp gì ở thành phố St Kilda?",\n"Renee được nổi tiếng như thế nào ở thành phố St Kilda?",\n"Theo ghi nhận, ai là người được xem là gái đẹp nhất tại St Kilda?",\n"Thành phố nào là nơi Renee làm việc?",\n"Nơi nào Renee được công nhận là gái đẹp nhất?"] \n', '11b044a1': '["Số bàn thắng MU ghi được trong trận đấu với Basel năm 2017/2018?", "Điểm số của trận đấu MU vs Basel vòng đấu đầu tiên Champions League 2017/2018?", "Tỷ số trận đấu đầu tiên MU gặp Basel tại Champions League  là bao nhiêu?", "Kết quả trận đấu giữa MU và Base

100%|█████████████████████████| 30/30 [00:03<00:00,  8.30it/s]


Chunk 15 processed and saved to ../data/vietnamese_rag/ground_truth_data/ground_truth16.pkl
{'4952f80b': '["M.U đã thi đấu với những đội bóng nào trong vòng bảng Champions League mùa 2017/18?", "M.U nằm ở bảng nào của vòng bảng Champions League mùa 2017/18?", "Quels sont les adversaires de M.U au cours de la phase de groupes de la Ligue des Champions 2017/18?", "M.U đã có những đối thủ nào ở Cúp C1 mùa 2017/18?",] \n', '57fcd2eb': '[\n"Chính sách \'ở nguyên tại chỗ\' trong trường hợp hỏa hoạn được xem xét lại sau vụ cháy nào?",\n"Theo ông Darren Baird, đối tượng nào cần được xem xét sát sao về chính sách \'ở nguyên tại chỗ\'?",\n"Tại sao lời khuyên \'ở yên tại chỗ\' có thể trở nên phản tác dụng trong trường hợp hỏa hoạn?",\n"Ông Darren Baird là ai?",\n"Vai trò của ông Darren Baird trong lĩnh vực an toàn cháy nổ là gì?"\n] \n', 'e0b32951': '["Thực chất một đối tượng đã làm gì khi bị cảnh sát áp phục ?", \n"Bagaimana cara seorang tersangka menghindari penangkapan dari polisi?", \n"¿Qué h

100%|█████████████████████████| 30/30 [00:03<00:00,  7.53it/s]


Chunk 16 processed and saved to ../data/vietnamese_rag/ground_truth_data/ground_truth17.pkl
{'c735ce83': '["Nằm ở đâu trang trại có bể bơi nước nóng miễn phí ?", \n"Các trang trại nào ở Mỹ có bể bơi nước nóng xanh tự nhiên ?",\n"Có trang trại nào ở nước ngoài có bể bơi nước nóng miễn phí không ?",\n"Trang trại ở đâu có bể bơi nước nóng tự nhiên đẹp?",\n"Vị trí của trang trại có bể bơi nước nóng xanh biếc là gì?"] \n', '224b8025': '["Chiếc vòng ngọc bị vỡ vào lúc nào?", "Sự việc xảy ra ở đâu?", "Ai làm rơi chiếc vòng ngọc?", "Tại sao chiếc vòng ngọc lại bị vỡ làm đôi?", "Chiếc vòng ngọc đắt tiền vỡ làm đôi là sự cố gì?"] \n\n\n', '601c770c': '["Trận đấu UCL cuối cùng ở Vicente Calderon diễn ra vào ngày tháng nào?", "CLub nào là đối thủ của Atletico Madrid trong trận đấu UCL cuối cùng ở Vicente Calderon?", "Trận đấu UCL cuối cùng ở Vicente Calderon thuộc giải đấu gì?", "Atletico Madrid có thi đấu giải La Liga cùng thời điểm với trận đấu UCL cuối cùng ở Vicente Calderon?", "Đối thủ của At

100%|█████████████████████████| 30/30 [00:03<00:00,  9.33it/s]


Chunk 17 processed and saved to ../data/vietnamese_rag/ground_truth_data/ground_truth18.pkl
{'a2b6ecc0': '["Đức, Ba Lan và Anh đã đứng đầu bảng nào để giành vé vào vòng chung kết World Cup 2018?", "Ngoài Đức, Ba Lan và Anh, những đội nào còn có cơ hội dự World Cup 2018?", "Ai là ba đội dẫn đầu bảng E, F và C?", "Các đội nào có khả năng dự play-off vòng loại World Cup 2018 khu vực châu Âu?", "World Cup 2018 diễn ra ở đâu?" ] \n', '172cba0c': '[\n"VMCS 2017 bao gồm những trò chơi nào?",\n"Người chơi có thể nhận được những phần quà gì khi tham gia VMCS 2017?",\n"Giải thưởng dành cho người chiến thắng trò chơi \'Chinh phục tầm cao\' là gì?",\n"Bên cạnh chiếc xe tay ga, còn có những phần quà nào khác được phát?",\n"Hãng Total tham gia tặng quà gì tại VMCS 2017?",\n] \n', 'da4fd699': '[\n"Tốc độ tăng trưởng kinh tế của Hải Phòng trong 8 tháng qua cao bao nhiêu?",\n"So với mức tăng trưởng trung bình cả nước, tốc độ tăng trưởng của Hải Phòng trong 8 tháng qua cao gấp mấy lần?",\n"Chỉ số sản xu

100%|█████████████████████████| 30/30 [00:03<00:00,  8.74it/s]


Chunk 18 processed and saved to ../data/vietnamese_rag/ground_truth_data/ground_truth19.pkl
{'38724820': '["Nguyễn Thị Ánh Viên giành được bao nhiêu huy chương vàng tại SEA Games 29?", "Bạn có thể kể tên tất cả các huy chương mà Nguyễn Thị Ánh Viên đã giành được tại SEA Games 29?", "Nguyễn Thị Ánh Viên đã lập bao nhiêu kỷ lục tại SEA Games 29?", "Vào SEA Games 29, Nguyễn Thị Ánh Viên đã giành bao nhiêu huy chương bạc?", "Ngoài huy chương vàng, Nguyễn Thị Ánh Viên còn giành được những hạng mục nào tại SEA Games 29?" ] \n', '1ea15be2': '["Từ ngày nào TP.HCM bắt đầu thực hiện tem kiểm soát xăng dầu?", "Ngày 1/8/2017 là ngày bắt đầu quy định gì ở TP.HCM?", "TP.HCM áp dụng tem chống gian lận xăng dầu từ năm nào?", "Quy định về tem kiểm soát xăng dầu chống gian lận xuất hiện ở TP.HCM vào thời gian nào?", "Lý do TP.HCM áp dụng tem kiểm soát xăng dầu chống gian lận là gì? "] \n', 'cadf023f': '["Tại sao phố lồng đèn Sài Gòn lại đông đúc vào đêm Trung thu ?", \n"Họp đông người tại phố lồng đèn S

100%|█████████████████████████| 30/30 [00:05<00:00,  5.63it/s]


Chunk 19 processed and saved to ../data/vietnamese_rag/ground_truth_data/ground_truth20.pkl
{'4ec81a3f': '{"question1":"Sanna Khánh Hòa đã có những thành tích nào tại giải futsal các CLB Đông Nam Á 2017?",\n"question2":"Điều gì đã đem lại ấn tượng mạnh cho Sanna Khánh Hòa tại giải đấu này?",\n"question3":"Sự tham gia của những cầu thủ từ đâu đã tác động đến Sanna Khánh Hòa?",\n"question4":"HLV Đặng Đình Khang có những lời tuyên bố gì trước khi tham dự giải đấu?",\n"question5":"Sanna Khánh Hòa muốn thể hiện điều gì qua giải đấu này?"}\n', 'cfed5815': '["Tàu cá QNa-94097 bị phá nước cách đảo Lý Sơn bao xa về phía Đông Bắc?", "Vị trí bị phá nước của tàu cá QNa-94097 là ở đâu?", "Tàu cá QNa-94097 gặp sự cố khi ở cách đảo Lý Sơn bao nhiêu hải lý?", "Xác định vị trí cụ thể của vụ việc xảy ra với tàu cá QNa-94097", "Khi nào tàu cá QNa-94097 bị phá nước?" ] \n', '8dea19d9': '[\n"Hyundai Tucson 2017 có thay đổi gì về ngoại thất so với phiên bản cũ?",\n"Nội thất của Hyundai Tucson 2017 được tran

100%|█████████████████████████| 30/30 [00:02<00:00, 10.23it/s]


Chunk 20 processed and saved to ../data/vietnamese_rag/ground_truth_data/ground_truth21.pkl
{'c7c272f0': '```json\n["Redmi 4X có màn hình kích thước bao nhiêu inch?", \n"Redmi 4X có độ dày là bao nhiêu?", \n"Redmi 4X được làm bằng vật liệu gì?", \n"Redmi 4X nặng khoảng bao nhiêu gram?",\n"Vị trí cảm biến vân tay trên Redmi 4X là ở đâu?"]\n```\n', 'd996d14a': '[\n"Bugatti Chiron \'Zero-400-Zero\' có thể tăng tốc từ 0 lên bao nhiêu km/h trong bao lâu?",\n"Xe sử dụng động cơ loại gì?",\n"Tốc độ tối đa của Bugatti Chiron \'Zero-400-Zero\' là bao nhiêu?",\n"Cabin của Bugatti Chiron \'Zero-400-Zero\' được bọc da màu gì?",\n"Bao nhiêu chiếc Bugatti Chiron \'Zero-400-Zero\' được sản xuất?"\n] \n', '5a1de402': '["Diễn viên hài nào đã qua đời ở tuổi 52?", "Khánh Nam đã bao nhiêu tuổi khi mất?", "Diễn viên hài Khánh Nam mất vì nguyên nhân gì?", "Diễn viên hài Khánh Nam được biết đến là ai?", "Thời gian Khánh Nam chống chọi bệnh tật kéo dài bao lâu?"] \n', '6d652393': '["Giải bóng đá Doanh nhân tr

100%|█████████████████████████| 30/30 [00:04<00:00,  6.38it/s]


Chunk 21 processed and saved to ../data/vietnamese_rag/ground_truth_data/ground_truth22.pkl
{'b4f67cd7': '[\n"Tìm hiểu về nguyên nhân tai nạn hi hữu xảy ra tại trường mầm non Nam Kim?",\n"Tại sao 3 trẻ mầm non ở trường Nam Kim đã ăn phải bột thông tắc bồn cầu?",\n"Có bao nhiêu gói bột thông tắc bồn cầu bị cho vào lớp học?",\n"Ngài nhà trường đã thực hiện giải pháp gì để tránh tai nạn tương tự?" ,\n"Cô giáo đã làm gì sau khi nhận được hai gói bột thông tắc bồn cầu?"\n] \n', 'aa6a8901': '[\n"Sau khi ăn trứng, không nên uống thứ gì?",\n"Người ta có nên ăn hồng sau khi ăn trứng không?",\n"Những loại thực phẩm nào không nên ăn kèm với trứng?",\n"Có nên ăn trứng đã chín để qua đêm không?",\n"Ngoài việc không nên ăn quá nhiều trứng, điều gì khác cũng nên tránh khi ăn trứng?"\n] \n', 'ea2e9ce4': '[\n"Tại Đà Nẵng, những người nào đã bị bắt quả tang liên quan đến hoạt động mua bán ma túy?",\n"Họ tên của những người bị bắt quả tang trong vụ mua bán ma túy ở Đà Nẵng là gì?",\n"Có bao nhiêu người b

100%|█████████████████████████| 30/30 [00:04<00:00,  6.44it/s]


Chunk 22 processed and saved to ../data/vietnamese_rag/ground_truth_data/ground_truth23.pkl
{'dbb19f68': '["Những thực phẩm nào có thể tạo ra độc tố nếu không được chế biến kỹ?","Mật ong thuộc loại thực phẩm nào chỉ an toàn khi được chế biến đúng cách?","Loại đậu nào có thể nguy hiểm nếu không được chế biến thỏa đáng?","Ngoài khoai tây và đậu đỏ, thực phẩm nào khác cần lưu ý về việc chế biến?","Sắn có thể gây độc hại nếu như thế nào?",] \n', '4a07937e': '["Thành phần nào là những ngôi sao tấn công của đội Hà Nội?", "Ai là những cầu thủ tấn công nổi tiếng của đội Hà Nội?", "Quang Hải, Văn Quyết, Thành Lương và ai là các ngôi sao tấn công của đội Hà Nội?", "Ngoài Quang Hải, Văn Quyết và Thành Lương, cầu thủ nào khác được coi là ngôi sao tấn công của đội Hà Nội?", "Ai là những sao tấn công hiện tại của đội Hà Nội?"] \n\n\n', 'f31723ca': '[\n"Công bố kết luận thanh tra bị hoãn lại, nguyên nhân là gì?",\n"Huyện Mù Cang Chải gặp phải khó khăn gì khiến việc công bố kết luận thanh tra phải lùi

100%|█████████████████████████| 30/30 [00:03<00:00,  8.84it/s]


Chunk 23 processed and saved to ../data/vietnamese_rag/ground_truth_data/ground_truth24.pkl
{'83eb5a17': '["Triều Tiên đã thu được bao nhiêu dữ liệu quân sự từ Mỹ và Hàn Quốc?", "Hàn Quốc và Mỹ đã mất bao nhiêu gigabyte dữ liệu cho Triều Tiên?", "Tỷ lệ dữ liệu quân sự được xác định nội dung là bao nhiêu?", "Triều Tiên đã lấy được bao nhiêu gigabyte dữ liệu quân sự?", "Nội dung của gần 80% dữ liệu quân sự mà Triều Tiên thu được là gì?"] \n', '3f25a870': '[\n"Triều Tiên có lý do gì tuyên bố sẽ tiếp tục phát triển vũ khí hạt nhân ?",\n"Triều Tiên muốn có khả năng tấn công như thế nào trên thế giới ?",\n"Theo Triều Tiên, trong những trường hợp nào họ sẽ tiến hành tấn công ?",\n"Triều Tiên đang trong tiến trình phát triển loại vũ khí nào ?",\n"Triều Tiên muốn đạt được mục tiêu gì với việc phát triển vũ khí hạt nhân ?"\n] \n', '5fe98d90': '[\n"SEA Games 29 diễn ra ở đâu?",\n"Thái Lan giành huy chương vàng bóng đá nữ ở SEA Games nào?",\n"Việt Nam thi đấu kém thế nào tại SEA Games 29?",\n"Mục 

100%|█████████████████████████| 30/30 [00:03<00:00,  7.68it/s]


Chunk 24 processed and saved to ../data/vietnamese_rag/ground_truth_data/ground_truth25.pkl
{'a7789225': '["Những loại khí tài quân sự nào đã được Mỹ triển khai đến khu vực bán đảo Triều Tiên?",\n"Mỹ đã tập trung quân sự ở khu vực bán đảo Triều Tiên như thế nào trước Olympic 2018?",\n"Máy bay ném bom tàng hình nào được Mỹ triển khai đến khu vực bán đảo Triều Tiên?",\n"Những loại tàu bao gồm trong lực lượng quân sự Mỹ được triển khai?",\n"Tàu sân bay nào của Mỹ được tung ra vùng biển gần Triều Tiên?"] \n', '30c430bc': '[\n"Hệ thống kiểm soát độ bám đường hoạt động như thế nào?",\n"Lợi ích chính của hệ thống kiểm soát độ bám đường đối với người lái là gì?",\n"Hệ thống kiểm soát độ bám đường khác biệt với hệ thống ổn định thân xe điện tử như thế nào?",\n"Tại sao hệ thống kiểm soát độ bám đường được cho là góp phần tăng an toàn cho người lái?",\n"Theo báo cáo năm 2015 của Cơ quan quản trị An toàn lưu thông đường bộ M, công nghệ nào đã được xác nhận cứu sống 6169 người?"\n] \n\n\n', '54eff2

100%|█████████████████████████| 30/30 [00:03<00:00,  8.27it/s]


Chunk 25 processed and saved to ../data/vietnamese_rag/ground_truth_data/ground_truth26.pkl
{'fb231567': '[\n"Real Madrid đã vượt qua đội nào trong trận bán kết FIFA Club World Cup 2017?",\n"Tỉ số trận bán kết FIFA Club World Cup 2017 giữa Real Madrid và đội chủ nhà là bao nhiêu?",\n"Real Madrid muốn giành danh hiệu gì ở FIFA Club World Cup 2017?",\n"Giành chiến thắng tại FIFA Club World Cup 2017 đem lại điều gì cho Real Madrid?",\n"Real Madrid có mục tiêu gì khi tham gia FIFA Club World Cup 2017 về mặt thành tích?"\n] \n', 'aa7f1e29': '["Lý do ban giám khảo Hoa hậu Hoàn vũ Việt Nam 2017 không thích sở thích shopping?", "Ban giám khảo cuộc thi Hoa hậu Hoàn vũ Việt Nam 2017 tìm kiếm những gì trong thí sinh?", "MC Phan Anh có bình luận gì về sở thích shopping của thí sinh?", "Theo Hoa hậu Hương Giang, ban giám khảo cuộc thi năm đó như thế nào?", "Ban giám khảo Hoa hậu Hoàn vũ Việt Nam 2017 đã đặt ra những câu hỏi gì cho các thí sinh có sở thích shopping?"] \n\n\n', '88a752ae': '["Nissan 

100%|█████████████████████████| 30/30 [00:04<00:00,  6.79it/s]


Chunk 26 processed and saved to ../data/vietnamese_rag/ground_truth_data/ground_truth27.pkl
{'c3a278ac': '["Triển lãm tranh của thiếu nhi nào được tổ chức tại Hà Nội vào tháng 8 năm 2017?", \n"Địa điểm diễn ra triển lãm trưng bày tranh thiếu nhi về chủ đề khoa học là gì?",\n"Tháng nào năm 2017, triển lãm sách và tranh về  "Chắp cánh ước mơ khoa học" diễn ra?",\n"Tại triển lãm "Chắp cánh ước mơ khoa học", bao nhiêu bức tranh của thiếu nhi được trưng bày?",\n"Chủ đề chính của các bức tranh được trưng bày tại triển lãm "Chắp cánh ước mơ khoa học" là gì?"] \n\n\n', '0be67b87': '[\n"Công nghệ UltraFlex trong dầu nhớt Petronas Sprinta có tác dụng như thế nào đối với động cơ?",\n"Dầu nhờn Petronas Sprinta có những lợi ích gì cho trải nghiệm lái xe của người dùng?",\n"Petronas Sprinta có khả năng cải thiện tuổi thọ xe như thế nào?",\n"Độ bền màng dầu của Petronas Sprinta so với các tiêu chuẩn ngành như thế nào?",\n"Petronas Sprinta với công nghệ UltraFlex giúp động cơ có khả năng chịu đựng tác

100%|█████████████████████████| 30/30 [00:03<00:00,  9.87it/s]


Chunk 27 processed and saved to ../data/vietnamese_rag/ground_truth_data/ground_truth28.pkl
{'ea6c0364': '[\n"Diplomatic relations between Turkey and Germany are strained due to what specific reasons?",\n"What incident involving a German journalist contributed to the tension between Ankara and Berlin?",\n"What action taken by the German government contributed to the worsening relations with Turkey?",\n"Besides the journalist\'s arrest, what other event caused friction between Turkey and Germany?",\n"What military event in Turkey led to the German government granting refugee status to some Turkish soldiers?"\n] \n', '06a38707': '["Ai là người được cho là kẻ đánh bom liều chết ở Manchester vào đêm 22/5?", "Năm bao nhiêu tuổi của kẻ đánh bom liều chết ở Manchester?", "Ngày tháng nào có vụ đánh bom liều chết ở Manchester?", "Tên gì được cho là kẻ đánh bom liều chết ở Manchester?", "Sự việc đánh bom liều chết ở Manchester diễn ra ở đâu?"] \n\n', '07686ecd': '[\n"Trong 6 tháng đầu năm 2017, 

100%|█████████████████████████| 30/30 [00:02<00:00, 10.23it/s]


Chunk 28 processed and saved to ../data/vietnamese_rag/ground_truth_data/ground_truth29.pkl
{'3ab77670': '["Vụ nổ xảy ra vào ngày nào ở Ninh Ba?", "Ninh Ba thuộc tỉnh nào?", "Nơi xảy ra vụ nổ ở Trung Quốc là ở đâu?", "Có vụ nổ ở Trung Quốc vào ngày 26.11 không?", "Sự kiện gì xảy ra ở Ninh Ba vào sáng 26.11?"] \n', '58e3f5af': '["LG sẽ ra mắt bộ đôi điện thoại nào tại Hàn Quốc?", "Ngày LG ra mắt bộ đôi điện thoại mới là khi nào?", "Địa điểm ra mắt bộ đôi G6 Pro và G6 Plus là?", "Mẫu điện thoại nào được LG lên kế hoạch trình làng?", "Lịch trình ra mắt của LG G6 Pro và G6 Plus có cập nhật mới không?"] \n', 'deb6c574': '["Tại sao nhiệm vụ cuối cùng của tàu vũ trụ Cassini được coi là đáng kinh ngạc?", "Tàu Cassini đã bay qua khu vực nào chưa từng có?", "Cuộc thám hiểm của Cassini giúp chúng ta hiểu gì về các hành tinh khổng lồ?", "Mục tiêu chính của nhiệm vụ cuối cùng của Cassini là gì?", "Tại sao nhiệm vụ cuối cùng của Cassini được gọi là \'đến phút chót\'?"] \n', 'f0f786a7': '["Bầu Đức đã

100%|█████████████████████████| 30/30 [00:03<00:00,  9.92it/s]


Chunk 29 processed and saved to ../data/vietnamese_rag/ground_truth_data/ground_truth30.pkl
{'5bc0f22b': '[\n"Câu hỏi:  Tiền vệ trẻ nào mới được gọi lên tuyển U22 Việt Nam?",\n"Câu hỏi:  Có bao nhiêu cầu thủ mới được triệu tập vào U22 Việt Nam?",\n"Câu hỏi:  Hậu vệ nào được HLV triệu tập vào U22 Việt Nam?",\n"Câu hỏi:  Ngoài tiền vệ, vị trí cầu thủ nào khác được bổ sung cho U22 Việt Nam?",\n"Câu hỏi:  Tên đầy đủ của cầu thủ Châu Ngọc Quang là gì?" \n] \n\n\n', '45f4558c': '["Buổi sinh hoạt Câu lạc bộ cán bộ nữ công kỳ thứ 14 đã trang bị cho cán bộ nữ công những kiến thức gì?", \n"Ngoài kiến thức về sức khỏe, buổi sinh hoạt của Câu lạc bộ cán bộ nữ công kỳ thứ 14 còn bao gồm các thông tin gì?",\n"Nội dung nào được quan tâm trong buổi sinh hoạt Câu lạc bộ cán bộ nữ công kỳ thứ 14?",\n"Cán bộ nữ công Công đoàn Viên chức Việt Nam đã học được những kiến thức về sức khỏe sinh sản trong buổi sinh hoạt Câu lạc bộ cán bộ nữ công kỳ thứ 14?",\n"Buổi sinh hoạt Câu lạc bộ cán bộ nữ công kỳ thứ 14 

100%|█████████████████████████| 30/30 [00:03<00:00,  9.42it/s]


Chunk 30 processed and saved to ../data/vietnamese_rag/ground_truth_data/ground_truth31.pkl
{'400dc67d': '["Dự án xây dựng tàu biển tự lái do Nhật Bản thực hiện nhằm mục đích gì? ","Dự án này sẽ giảm thiểu tai nạn trên biển trong những trường hợp nào?","Việc xây dựng tàu biển tự lái tại Nhật Bản nhằm mục tiêu gì trong bối cảnh an toàn hiện nay?","Tính khả thi của dự án xây dựng tàu tự lái trên biển ở Nhật Bản ra sao?","Các sự cố phổ biến trên biển mà dự án này muốn khắc phục là gì? "] \n', 'a8f2510c': '["Nguyễn Thiện Như đã sử dụng phương pháp nào để hỗ trợ người nước ngoài trong việc học tiếng Việt?", "Nguyễn Thiện Như có sử dụng những từ tiếng Anh nào trong phương pháp giảng dạy tiếng Việt của mình?", "Mục đích của việc Nguyễn Thiện Như sử dụng những từ tiếng Anh có âm gần với tên động vật là gì?", "Tài liệu nào của Nguyễn Thiện Như thể hiện việc sử dụng từ ngữ tiếng Anh để dạy tiếng Việt?", "Phương pháp của Nguyễn Thiện Như có hiệu quả trong việc giúp người nước ngoài học tiếng Việt

100%|█████████████████████████| 30/30 [00:04<00:00,  6.87it/s]


Chunk 31 processed and saved to ../data/vietnamese_rag/ground_truth_data/ground_truth32.pkl
{'36c58fee': '["Diệp Uyên làm gì?", "Kích thước thiệp Giáng sinh Diệp Uyên tạo ra là bao nhiêu?", "Chất liệu nào được sử dụng để tạo thiệp Giáng sinh?", "Bạc kim được sử dụng như thế nào trong công nghệ tạo thiệp Giáng sinh?", "Silicon nitric được sử dụng để làm gì trong quá trình tạo thiệp Giáng sinh? "] \n', 'c5d7d377': '[\n"Theo kết quả khảo sát, ai được kỳ vọng chiến thắng cách biệt trong vòng 2 bầu cử Tổng thống Pháp?", \n"Bà Le Pen và ông Macron đều tham gia vòng 2 bầu cử Tổng thống Pháp, đúng không?",\n"Ai là người được dự đoán sẽ thắng cuộc bầu cử Tổng thống Pháp?",\n"Kết quả khảo sát vòng 1 bầu cử Tổng thống Pháp cho thấy điều gì?",\n"Cuộc bầu cử Tổng thống Pháp diễn ra bao nhiêu vòng?" \n]\n\n\n\n\n\n', '6fb6c53a': '[\n"Lê Văn Thọ bị bắt ở tỉnh nào?",\n"Tình trạng hiện tại của Lê Văn Thọ là gì?",\n"Trại tạm giam nào đang tạm giữ Lê Văn Thọ?",\n"Tên tử tù nào cũng trốn khỏi trại tạm gia

100%|█████████████████████████| 30/30 [00:03<00:00,  9.50it/s]


Chunk 32 processed and saved to ../data/vietnamese_rag/ground_truth_data/ground_truth33.pkl
{'b9a9689f': '["Cơ sở kinh doanh Lê Quang Long có hoạt động trái pháp luật không?", \n"Cơ sở kinh doanh Lê Quang Long bị bắt cầm cố số lượng tạp chất arga bao nhiêu?",\n"Giai đoạn nào cơ sở kinh doanh Lê Quang Long bắt đầu bơm tạp chất vào tôm?",\n"Sản phẩm đầu ra của cơ sở kinh doanh Lê Quang Long là gì?", \n"Kế hoạch điều tra của cơ quan chức năng đối với Nguyễn Văn A là gì?" ] \n\n\n', '8525b0ac': '[\n"VPBank áp dụng hình thức gì đối với nhân viên phạm vi phạm nội bộ?",\n"Khi phát hiện trường hợp nhân viên sai phạm, VPBank  sử dụng kênh nào để triển khai xử lý?",\n"VPBank xử lý thông tin về nhân viên sai phạm như thế nào?",\n"VPBank có cách nào để phòng tránh việc nhân viên sai phạm trong tương lai?",\n"VPBank đưa những nhân viên vi phạm vào danh sách đen để làm gì?"\n] \n\n\n\n\n', '8687b41f': '["Các quan chức Đài Loan có thái độ như thế nào về việc Mỹ cung cấp vũ khí cho họ?", "Việc Mỹ bán 

100%|█████████████████████████| 30/30 [00:03<00:00,  9.18it/s]


Chunk 33 processed and saved to ../data/vietnamese_rag/ground_truth_data/ground_truth34.pkl
{'edbfb48f': '["HLV Ludovic Batelli nhận định thế nào về tiềm năng của U20 Việt Nam tại U20 World Cup 2017?", "U20 Việt Nam được đánh giá như thế nào so với các đối thủ khác trong bảng E?", "HLV Batelli có xem U20 Việt Nam là đối thủ khó chịu ?", "Theo HLV Batelli, U20 Việt Nam còn nhiều điểm yếu gì khiến chưa thể ngang hàng U20 Pháp?", "Tại sao HLV Batelli gọi U20 Việt Nam là ẩn số? "] \n', '0082b1da': '["Bảo Anh có phản ứng thế nào khi một khán giả nam lao lên ôm?", "Khi một fan nam chạm vào, Bảo Anh cảm thấy như thế nào?", "Bảo Anh đối xử với tình cảm của fan nam trên sân khấu như thế nào?", "Lần cuối Bảo Anh bị fan nam ôm ở đâu?", "Bảo Anh có tỏ ra khó chịu khi một fan nam lao lên không?"] \n\n\n\n\n\n', '38f0d4de': '[\n"Cao Ngân bị tấn công bởi hai thanh niên theo cách nào?",\n"Các thương tích mà Cao Ngân gặp phải là gì?",\n"Cơ quan nào được giao nhiệm vụ điều tra vụ việc?",\n"Sự việc xảy r

100%|█████████████████████████| 30/30 [00:03<00:00,  7.98it/s]


Chunk 34 processed and saved to ../data/vietnamese_rag/ground_truth_data/ground_truth35.pkl
{'39af4ebf': '["Tại sao fan thích thú với teaser MV What\'s My Name của T-ara?", \n "Teaser MV What\'s My Name có những hình ảnh gì đặc biệt?", \n "Trong teaser tiếng Hàn, sản phẩm nào liên quan đến Boram và Soyeon?", \n "Teaser tiếng Trung sử dụng sản phẩm nào để ám chỉ Boram và Soyeon?",\n "Teaser MV What\'s My Name gợi nhớ điều gì về Boram và Soyeon? "] \n', '39ec764a': '[\n"Theo Tổng thống Donald Trump, áp lực nào đang tác động lên các chương trình hạt nhân và tên lửa của Triều Tiên?", \n"Có điều gì khiến Tổng thống Donald Trump tin rằng các cuộc đàm phán giữa Triều Tiên và Hàn Quốc có tiềm năng?",\n"Ngoài áp lực kinh tế, Tổng thống Donald Trump còn nhận thấy điều gì cho thấy sự hòa giải giữa Triều Tiên và Hàn Quốc là khả thể?",\n"Tổng thống Donald Trump cho rằng những biện pháp nào đang bắt đầu gây áp lực lên Bình Nhưỡng?",\n"Dữ liệu nào cho thấy nhiều người lính Triều Tiên đang chạy sang H

100%|█████████████████████████| 30/30 [00:03<00:00,  9.60it/s]


Chunk 35 processed and saved to ../data/vietnamese_rag/ground_truth_data/ground_truth36.pkl
{'bb414fc3': '[\n"Cuộc gặp giữa Tổng thống Mỹ Donald Trump và Tổng thống Nga Vladimir Putin diễn ra vào dịp nào?",\n"Người phát ngôn Nhà Trắng có tiết lộ chi tiết về cuộc đối thoại thứ hai giữa hai Tổng thống không?",\n"Nga làm lãnh đạo trong Hội nghị G20?",\n"Hai nhà lãnh đạo bàn tới những vấn đề gì cụ thể trong cuộc đối thoại?",\n"Cuộc đối thoại giữa Tổng thống Mỹ Donald Trump và Tổng thống Nga Vladimir Putin diễn ra ở đâu?"\n] \n', '4f4d1967': '["Giá bán của Morning GT-Line 2018 cao cấp là bao nhiêu?", "Biến thể cao cấp Morning GT-Line 2018 có giá khoảng bao nhiêu tiền?", "Morning GT-Line 2018 có bao nhiêu AED?", "Giá niêm yết của Morning GT-Line 2018 theo đồng Việt là bao nhiêu?", "Giá xe Morning GT-Line 2018 cao cấp được niêm yết là bao nhiêu?"]  \t\n', '2c3c2983': '{"questions": ["Triều Tiên có kế hoạch tấn công Guam bằng loại vũ khí nào?", "Triều Tiên dự định phóng tên lửa vào tháng nào?"

100%|█████████████████████████| 30/30 [00:03<00:00,  9.58it/s]


Chunk 36 processed and saved to ../data/vietnamese_rag/ground_truth_data/ground_truth37.pkl
{'a8fb9198': '[\n"Tác giả \'Dạy trẻ bằng cả trái tim\' là ai?", \n"Sách \'Dạy trẻ bằng cả trái tim\' đề cập đến bao nhiêu cấp độ phát triển tư duy của trẻ?",\n"Sách \'Dạy trẻ bằng cả trái tim\' khuyên hỗ trợ trẻ như thế nào trong giáo dục?",\n"Sách \'Dạy trẻ bằng cả trái tim\' có ý nghĩa gì đối với trẻ em nghèo khó?",\n"Ngoài kiến thức, \'Dạy trẻ bằng cả trái tim\' còn nhấn mạnh điều gì trong việc dạy dỗ?"\n] \n', '8dbad53e': '{"questions":["Sư đoàn Không quân 372 đã tổ chức những hoạt động gì trong thời gian từ tháng 9 năm 2016 đến tháng 6 năm 2017?", "Kế hoạch huấn luyện bay của Sư đoàn Không quân 372 trong năm 2017 như thế nào?", "Ngoài huấn luyện bay, Sư đoàn Không quân 372 còn tập trung vào những công tác gì?", "Những điều kiện khí tượng nào được chú trọng trong quá trình huấn luyện bay của Sư đoàn?", "Sư đoàn Không quân 372 đã làm những việc gì để đảm bảo an toàn bay?", ]}\n', 'f4f0c08d': 

100%|█████████████████████████| 30/30 [00:03<00:00,  9.45it/s]


Chunk 37 processed and saved to ../data/vietnamese_rag/ground_truth_data/ground_truth38.pkl
{'bc84d744': '["Trận chung kết U23 châu Á diễn ra giữa U23 Việt Nam và đội tuyển nào?", \n"Bùi Tiến Dũng đã có màn trình diễn như thế nào trong trận chung kết U23 châu Á?",\n"Thành tích cụ thể nào mà Bùi Tiến Dũng đã giúp U23 Việt Nam đạt được?",\n"Tại sao U23 Việt Nam tiến thẳng vào vòng chung kết U23 châu Á?",\n"Những đóng góp quan trọng của Bùi Tiến Dũng bao gồm những gì?"] \n', 'c083b599': '["Những quyền lợi thể chế nào Anh quốc sẽ mất sau Brexite?", "EU có thể yêu cầu Anh tuân thủ luật pháp của EU như thế nào sau Brexit?", "Anh quốc sẽ có vai trò như thế nào trong các tổ chức EU sau Brexit?", "Liệu Anh quốc có được quyền biểu quyết khi EU ban hành luật mới cho các nước thành viên?", "EU có thể cung cấp những điều kiện tài chính thuận lợi nào cho Anh sau Brexit?"]  \n', 'ddeccc5b': '[\n"Trong 6 tháng đầu năm, nước nào có tổng vốn đầu tư vào Việt Nam cao nhất?",\n"Hàn Quốc đã đầu tư bao nhiêu

100%|█████████████████████████| 30/30 [00:03<00:00,  8.62it/s]


Chunk 38 processed and saved to ../data/vietnamese_rag/ground_truth_data/ground_truth39.pkl
{'4b124b46': '["Số lượng đối tượng bị bắt liên quan đến hoạt động kinh doanh cờ bạc trá hình trong trung tâm game bắn cá là bao nhiêu?", "Ngoài những người bị bắt, còn có bao nhiêu con bạc tham gia vào hoạt động này?", "Theo thông tin, đã có bao nhiêu người bị bắt vì tội kinh doanh cờ bạc trá hình trong lĩnh vực game bắn cá?", "Có bao nhiêu con bạc được xác định có liên quan đến vụ việc kinh doanh cờ bạc trá hình?", "Vụ việc kinh doanh cờ bạc trá hình tại trung tâm game bắn cá đã bắt giữ bao nhiêu người?"]   \n', '86471ba9': '{"questions": [\n"Vi phạm giao thông nào mà Công an xã được phép xử lý?",\n"Ngoài việc xử phạt không mang bằng lái, các hành vi giao thông nào Công an xã có thẩm quyền xử lý?",\n"Những trường hợp nào cho phép Công an xã xử phạt hành vi vi phạm an toàn giao thông?",\n"Công an xã có quyền xử phạt hành vi nào liên quan đến mó tô, xe gắn máy?",\n"Hành vi nào dưới lòng đường sẽ 

100%|█████████████████████████| 30/30 [00:03<00:00,  8.24it/s]


Chunk 39 processed and saved to ../data/vietnamese_rag/ground_truth_data/ground_truth40.pkl
{'3619358f': '["Vi phạm sử dụng vốn công ty nhà nước có thể bị phạt bao nhiêu?", "Linh vực phạt tiền đối với hành vi lãng phí  vốn công ty nhà nước là gì?", "Bộ luật nào quy định về phạt tiền cho hành vi lãng phí vốn công ty nhà nước?", "Hạn mức nào được áp dụng với hành vi lãng phí vốn công ty nhà nước?", "Mức phạt tiền tối đa cho hành vi lãng phí vốn công ty nhà nước là bao nhiêu?"] \n', '924427ec': '["Hội đồng đạo đức cấp cơ sở cần phải gửi hồ sơ đề nghị cập nhật thông tin đến cơ quan nào?", "Thời hạn gửi hồ sơ đề nghị cập nhật thông tin đến cơ quan liên quan là bao nhiêu ngày?", "Cục Khoa học Công nghệ và Đào tạo có trách nhiệm đối với hồ sơ đề nghị cập nhật thông tin của Hội đồng đạo đức trong thời hạn bao nhiêu ngày?", "Điều kiện để Cục Khoa học Công nghệ và Đào tạo cập nhật thông tin của Hội đồng đạo đức trên Trang thông tin điện tử của mình là gì?", "Hội đồng đạo đức cấp cơ sở cần làm gì

In [32]:
results = {}
# Use map_progress to process documents
processed_results = map_progress(pool, documents1[1200:], process_document)

# Store the results
for result in processed_results:
    if result is not None:
        doc_id, questions = result
        results[doc_id] = questions
with open('../data/vietnamese_rag/ground_truth_data/ground_truth41.pkl', 'wb') as file:
    pickle.dump(results, file)

100%|█████████████████████████| 17/17 [00:02<00:00,  7.63it/s]


In [33]:
with open('../data/vietnamese_rag/documents-with-ids2.json', 'rt') as f_in:
    documents2 = json.load(f_in)

In [34]:
len(documents2)

1217

In [39]:
chunk_size = 30
start_chunk = 0 # Starting chunk index
end_chunk = (len(documents2) // chunk_size)  # Ending chunk index
print(end_chunk)
for i in range(start_chunk, end_chunk):
    results = {}
    chunk_start = i * chunk_size
    chunk_end = chunk_start + chunk_size
    print(i + 42, chunk_start, chunk_end)
    # chunk = documents1[chunk_start:chunk_end]

40
42 0 30
43 30 60
44 60 90
45 90 120
46 120 150
47 150 180
48 180 210
49 210 240
50 240 270
51 270 300
52 300 330
53 330 360
54 360 390
55 390 420
56 420 450
57 450 480
58 480 510
59 510 540
60 540 570
61 570 600
62 600 630
63 630 660
64 660 690
65 690 720
66 720 750
67 750 780
68 780 810
69 810 840
70 840 870
71 870 900
72 900 930
73 930 960
74 960 990
75 990 1020
76 1020 1050
77 1050 1080
78 1080 1110
79 1110 1140
80 1140 1170
81 1170 1200


In [None]:
chunk_size = 30
start_chunk = 0 # Starting chunk index
end_chunk = (len(documents2) // chunk_size)  # Ending chunk index
print(end_chunk)
for i in range(start_chunk, end_chunk):
    results = {}
    chunk_start = i * chunk_size
    chunk_end = chunk_start + chunk_size
    # print(i + 42, chunk_start, chunk_end)
    chunk = documents2[chunk_start:chunk_end]

    # Use map_progress to process documents
    processed_results = map_progress(pool, chunk, process_document)

    # Store the results incrementally
    for result in processed_results:
        if result is not None:
            doc_id, questions = result
            results[doc_id] = questions

    # Save the results to a file
    file_name = f'../data/vietnamese_rag/ground_truth_data/ground_truth{i + 42}.pkl'
    with open(file_name, 'wb') as file:
        pickle.dump(results, file)

    # Print out the results
    print(f"Chunk {i} processed and saved to {file_name}")
    print(results)

    # Wait for 1 minute to reset rate limit
    time.sleep(60)

40


100%|███████████████████████████████████████████████████| 30/30 [00:03<00:00,  8.24it/s]


Chunk 0 processed and saved to ../data/vietnamese_rag/ground_truth_data/ground_truth42.pkl
{'a37a1821': '["Hành vi điều khiển xe ô tô với giấy đăng ký hết hạn, phạt bao nhiêu tiền?",\n"Tại sao lại bị phạt khi điều khiển ô tô với giấy đăng ký xe hết hạn?",\n"Có mức phạt cụ thể nào cho lỗi sử dụng giấy đăng ký xe hết hạn?",\n"Những trường hợp nào bị phạt tiền từ 2 đến 3 triệu đồng khi lái xe?",\n"Mức phạt tiền cho việc sử dụng giấy đăng ký xe hết hạn nhiều hơn bao nhiêu?"] \n', '3e81d992': '["Sau 18 tháng làm việc tại bệnh viện, ở đâu bác sĩ có thể hành nghề?", "Thời gian thực hành tại bệnh viện để được cấp chứng chỉ hành nghề bao nhiêu tháng?", "Yêu cầu về thời gian thực hành để được cấp chứng chỉ hành nghề cho bác sĩ là gì?", "Bác sĩ có thể nhận được giấy chứng nhận hành nghề khám chữa bệnh nếu thực hành tại phòng khám tư không?", "Đối với bác sĩ mới tốt nghiệp, điều kiện để được cấp chứng chỉ hành nghề là gì?"] \n', '981d0211': '["Hình thức kỷ luật nào được áp dụng đối với quân nhân v