# Dataset để đánh giá

In [1]:
!pip -q install rank_bm25
!pip -q install pyvi

[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m8.5/8.5 MB[0m [31m10.1 MB/s[0m eta [36m0:00:00[0m00:01[0m0:01[0mm
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.2/1.2 MB[0m [31m31.7 MB/s[0m eta [36m0:00:00[0m:00:01[0m
[?25h

In [2]:
import os
import json
import pandas as pd
from tqdm import tqdm
from rank_bm25 import BM25Okapi
from nltk.tokenize import word_tokenize
import nltk
from pyvi.ViTokenizer import tokenize

In [4]:
# Đường dẫn tới thư mục chứa các file JSON
qa_folder_path = '/kaggle/input/nlp-dataset/kaggle/all_dataset_qa_retrieve/'

# Danh sách để chứa dữ liệu
qa_data = []

# Lặp qua tất cả các file trong thư mục và sử dụng tqdm để theo dõi tiến trình
for file_name in tqdm(os.listdir(qa_folder_path), desc="Reading files"):
    if file_name.endswith('.json'):  # Kiểm tra nếu file là file JSON
        file_path = os.path.join(qa_folder_path, file_name)
        
        # Mở và đọc dữ liệu từ file JSON
        with open(file_path, 'r', encoding='utf-8') as f:
            qa_file_data = json.load(f)
            
            # Lặp qua các câu hỏi và câu trả lời trong dữ liệu
            for qa in qa_file_data['qa']:
                qa_data.append({
                    'question': qa['question'],
                    'answer': qa['answer'],
                    'id': qa['id']
                })

Reading files: 100%|██████████| 499/499 [00:02<00:00, 225.51it/s]


In [5]:
# Tạo DataFrame từ dữ liệu đã thu thập
qa_df = pd.DataFrame(qa_data)

In [6]:
qa_df['tokenized_question'] = qa_df['question'].apply(lambda x: tokenize(x.lower()).split())

In [10]:
len(qa_df)


4121

In [7]:
qa_df.head(5)

Unnamed: 0,question,answer,id,tokenized_question
0,Gây tê màng cứng là gì và tác dụng chính của n...,"Gây tê màng cứng, hay còn gọi là gây tê ngoài ...",longchau_baiviet_article_data14881_0,"[gây_tê, màng_cứng, là, gì, và, tác_dụng, chín..."
1,Gây tê màng cứng được ứng dụng trong những trư...,"Ngoài dùng cho bà bầu vượt cạn, gây tê màng cứ...",longchau_baiviet_article_data14881_0,"[gây_tê, màng_cứng, được, ứng_dụng, trong, nhữ..."
2,Quy trình gây tê màng cứng thường được thực hi...,"Thông thường, gây tê màng cứng được thực hiện ...",longchau_baiviet_article_data14881_1,"[quy_trình, gây_tê, màng_cứng, thường, được, t..."
3,Khi nào thì mẹ bầu có thể yêu cầu được tiêm th...,Mẹ bầu có thể chọn dùng gây tê màng cứng ngay ...,longchau_baiviet_article_data14881_1,"[khi, nào, thì, mẹ, bầu, có_thể, yêu_cầu, được..."
4,Những trường hợp nào chống chỉ định với gây tê...,Gây tê màng cứng chống chỉ định với những trườ...,longchau_baiviet_article_data14881_2,"[những, trường_hợp, nào, chống, chỉ_định, với,..."


# Chunking đầu

In [8]:
import os
import json
import pandas as pd
from tqdm import tqdm

# Đường dẫn tới thư mục chứa các file JSON
folder_path = '/kaggle/input/nlp-dataset/kaggle/chunked'

# Danh sách để chứa các dữ liệu
chunked_data = []

# Lặp qua tất cả các file trong thư mục với tqdm để hiển thị tiến trình
for file_name in tqdm(os.listdir(folder_path), desc="Processing files"):
    if file_name.endswith('.json'):  # Kiểm tra nếu file là file JSON
        file_path = os.path.join(folder_path, file_name)
        
        # Mở và đọc dữ liệu từ file JSON
        with open(file_path, 'r', encoding='utf-8') as f:
            file_data = json.load(f)
            id_baiviet = file_data['id_baiviet']
            # Lặp qua các chunk và thêm các content và id vào data
            for chunk in file_data['chunks']:
                chunked_data.append({
                    'content': chunk['content'],
                    'id': chunk['id'],
                    'id_baiviet': id_baiviet
                })

Processing files: 100%|██████████| 79037/79037 [10:14<00:00, 128.65it/s]


In [9]:
# Tạo DataFrame từ dữ liệu đã thu thập
chunked_df = pd.DataFrame(chunked_data)

In [10]:
len(chunked_df)

317023

In [11]:
chunked_df.head(5)

Unnamed: 0,content,id,id_baiviet
0,Ung thư thực quản là gì?\n\nTình trạng các tế ...,longchau_baiviet_article_data13460_0,longchau_baiviet_article_data13460
1,Các giai đoạn của bệnh ung thư thực quản\n\nDự...,longchau_baiviet_article_data13460_1,longchau_baiviet_article_data13460
2,Dấu hiệu ung thư thực quản\n\nCác dấu hiệu ung...,longchau_baiviet_article_data13460_2,longchau_baiviet_article_data13460
3,"Ngoài việc điều trị nội khoa, bạn cần biết rõ ...",longchau_baiviet_article_data28671_0,longchau_baiviet_article_data28671
4,1. Siêu âm cơ xương khớp là gì? Siêu âm cơ xư...,vinmec_article_data186_0,vinmec_article_data186


## Tạo bm25 nltk.tokenize

In [20]:
def preprocess_text(text):
    # Tokenize văn bản
    return word_tokenize(text.lower())  # Chuyển về chữ thường và tách từ

# Tiền xử lý tất cả các văn bản trong 'content'
tokenized_corpus = [preprocess_text(content) for content in chunked_df['content']]

# Khởi tạo BM25 với corpus đã được tiền xử lý
bm25 = BM25Okapi(tokenized_corpus)

# Hàm để thực hiện truy vấn
def query_bm25(query, bm25, top_n=5):
    # Tiền xử lý truy vấn
    tokenized_query = preprocess_text(query)
    
    # Tính điểm BM25 cho truy vấn
    scores = bm25.get_scores(tokenized_query)
    
    # Sắp xếp các tài liệu theo điểm và lấy top N kết quả
    top_doc_indices = sorted(range(len(scores)), key=lambda i: scores[i], reverse=True)[:top_n]
    
    # Trả về các tài liệu tương ứng với top N
    top_docs = df.iloc[top_doc_indices]
    return top_docs

## Đánh giá bm25

In [21]:
from tqdm import tqdm

# Hàm đánh giá BM25
def evaluate_bm25_on_questions(df, qa_df, bm25, top_k_values=[1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31,32,33,34,35,36,37,38,39,40,41,42,43,44,45,46,47,48,49,50,51,52,53,54,55,56,57,58,59,60,61,62,63,64,65,66,67,68,69,70,71,72,73,74,75,76,77,78,79,80,81,82,83,84,85,86,87,88,89,90,91,92,93,94,95,96,97,98,99,100]):
    results = {f"Top-{k}": 0 for k in top_k_values}  # Khởi tạo dictionary với các mức đánh giá Top-k
    total_queries = len(qa_df)

    for _, row in tqdm(qa_df.iterrows(), total=total_queries):
        query = row['tokenized_question']
        true_id = row['id']

        # Truy vấn BM25 trên `content`
        scores = bm25.get_scores(query)
        top_indices = scores.argsort()[::-1][:100]  # Lấy chỉ số của Top-20 kết quả

        # Lấy danh sách các id trả về
        top_ids = df.iloc[top_indices]['id'].tolist()

        # Đánh giá cho từng Top-k (Top-1, Top-3, Top-5, ...)
        for k in top_k_values:
            if true_id in top_ids[:k]:
                results[f"Top-{k}"] += 1

    # Tính độ chính xác cho mỗi Top-k
    for k in top_k_values:
        results[f"Top-{k}"] /= total_queries

    return results

In [22]:
evaluation_results = evaluate_bm25_on_questions(chunkded_df, qa_df, bm25)
print("BM25 Evaluation Results:", evaluation_results)

100%|██████████| 4121/4121 [2:27:14<00:00,  2.14s/it]  

BM25 Evaluation Results: {'Top-1': 0.3472458141227857, 'Top-2': 0.4552293132734773, 'Top-3': 0.514680902693521, 'Top-4': 0.5505945158942004, 'Top-5': 0.583596214511041, 'Top-6': 0.6042222761465663, 'Top-7': 0.6195098277117205, 'Top-8': 0.6343120601795681, 'Top-9': 0.6481436544528028, 'Top-10': 0.6619752487260374, 'Top-11': 0.6753215239019655, 'Top-12': 0.6857558844940549, 'Top-13': 0.6920650327590391, 'Top-14': 0.6988595001213298, 'Top-15': 0.7075952438728464, 'Top-16': 0.7170589662703227, 'Top-17': 0.7243387527299199, 'Top-18': 0.7289492841543315, 'Top-19': 0.7328318369327833, 'Top-20': 0.7381703470031545, 'Top-21': 0.7442368357194855, 'Top-22': 0.7498180053385101, 'Top-23': 0.7546711963115749, 'Top-24': 0.7607376850279058, 'Top-25': 0.7655908760009706, 'Top-26': 0.7697160883280757, 'Top-27': 0.7745692793011405, 'Top-28': 0.7767532152390196, 'Top-29': 0.7794224702742053, 'Top-30': 0.7828197039553506, 'Top-31': 0.786216937636496, 'Top-32': 0.7888861926716816, 'Top-33': 0.79034214996360


