In [1]:
from bm25_utils import BM25Gensim
import pandas as pd
import numpy as np
from tqdm.auto import tqdm
tqdm.pandas()

# device = 'cuda' if torch.cuda.is_available() else 'cpu'
device = 'cpu'

AUTH_TOKEN = "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"


## **1. Load data & model**

In [2]:
PROCESSED_PATH = "./processed"

In [3]:
df_windows = pd.read_csv(f"{PROCESSED_PATH}/corpus_clean.csv")
df_windows = df_windows.fillna("NaN")

## **2. Retriever **

In [4]:
# bm25 ranking
bm25_model = BM25Gensim(f"{PROCESSED_PATH}/outputs/bm25")

In [5]:
# cosine similarity
import torch
from sentence_transformers import util
from transformers import AutoTokenizer, AutoModel
from text_utils import preprocess

model_name = 'nguyenvulebinh/vi-mrc-base'
tokenizer = AutoTokenizer.from_pretrained(model_name, token=AUTH_TOKEN)
model = AutoModel.from_pretrained(model_name, token=AUTH_TOKEN)

def mean_pooling(model_output, attention_mask):
    token_embeddings = model_output[0]
    input_mask_expanded = attention_mask.unsqueeze(-1).expand(token_embeddings.size()).float()
    return torch.sum(token_embeddings * input_mask_expanded, 1) / torch.clamp(input_mask_expanded.sum(1), min=1e-9)

def embed_passage(passages, tokenizer, model, device='cpu'):
    # Tokenize sentences
    encoded_input = tokenizer(passages, padding=True, truncation=True, return_tensors='pt')

    model = model.to(device)
    encoded_input.to(device)
    # Compute token embeddings
    with torch.no_grad():
        model_output = model(**encoded_input)

    # Perform pooling
    passage_embeddings = mean_pooling(model_output, encoded_input['attention_mask'])

    return passage_embeddings

def similarity_score(question, all_passage, tokenizer, model, device='cpu'):
    process_paragraphs = [preprocess(doc) for doc in all_passage]
    passage_embeddings = embed_passage(process_paragraphs, tokenizer, model, device)

    question_embedding = embed_passage([question], tokenizer, model, device)

    cos_scores = util.cos_sim(question_embedding, passage_embeddings)[0]
    return cos_scores.to('cpu').numpy()

[nltk_data] Downloading package punkt to /home/dung/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
Some weights of RobertaModel were not initialized from the model checkpoint at nguyenvulebinh/vi-mrc-base and are newly initialized: ['roberta.pooler.dense.bias', 'roberta.pooler.dense.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.


In [15]:
from functools import partial

similarity_score_shorted = partial(similarity_score, tokenizer=tokenizer, model=model, device=device)

def get_corpus(question):
  #Bm25 retrieval for top200 candidates
  query = preprocess(question).lower()
  top_n, bm25_scores = bm25_model.get_topk(query, topk=200)
  titles = [preprocess(df_windows.title.values[i]) for i in top_n]
  print(titles)
  texts = [preprocess(df_windows.text.values[i]) for i in top_n]
  
  #Reranking with pairwise model for top3
  question = preprocess(question)
  ranking_texts = similarity_score_shorted(question, texts)
  ranking_titles = similarity_score_shorted(question, titles)
  # ranking_scores = ranking_texts * ranking_titles * bm25_scores
  ranking_scores = ranking_titles

  best_idxs = np.argsort(ranking_scores)[-10:]
  ranking_scores = np.array(ranking_scores)[best_idxs]
  texts = np.array(texts)[best_idxs]
  titles = np.array(titles)[best_idxs]
  print(titles)

  return texts

In [16]:
question = "Hương đang mang thai và lo lắng mình có thể gặp phải rau tiền đạo. Hương có thể kiểm tra phát hiện bệnh này từ tuần thứ mấy của thai kỳ?"
get_corpus(question)

['Rau bám mép có nguy hiểm không', 'Rau tiền đạo', 'Rau tiền đạo', 'Thai lưu là gì', 'Rau tiền đạo', 'Tăng huyết áp thai kỳ', 'Rối loạn tiền đình', 'Rau bám mép có nguy hiểm không', 'Rau tiền đạo', 'Tiền sản giật', 'Sa tử cung khi mang thai', 'Thai lưu là gì', 'Tiền sản giật', 'Rau tiền đạo', 'Nhau bám thấp', 'Rau tiền đạo', 'Nhau bám thấp', 'NaN', 'Rau bám mép có nguy hiểm không', 'Suy tim giai đoạn cuối', 'Thông liên thất', 'Nhau tiền đạo', 'Cứng khớp', 'Chuyển dạ kéo dài', 'Rối loạn lo âu lan tỏa GAD', 'Rối loạn nội tiết tố sau sinh', 'Còn ống động mạch', 'Bệnh Alzheimer', 'Đái tháo đường thai kỳ', 'Thai lưu là gì', 'Hội chứng Klinefelter', 'Hiếm muộn là gì', 'Tăng huyết áp thai kỳ', 'Chuyển dạ giả có nguy hiểm không', 'Tiết dịch núm vú trắng trong đục', 'Sùi mào gà ở nữ', 'Bệnh động kinh', 'Túi thừa niệu đạo', 'Đái tháo đường thai kỳ', 'Mang thai ngoài tử cung', 'Tăng áp phổi', 'Hội chứng HELLP', 'Tiền sản giật', 'Nhau cài răng lược', 'Virus HPV là gì', 'Rau bám mép có nguy hiểm kh

array(['Mang thai ngoài tử cung là gì Dấu hiệu thai ở ngoài tử cung Nguyên nhân gây có thai ngoài tử cung Phương pháp chẩn đoán mang thai ngoài tử cung Thai ngoài tử cung có nguy hiểm không Có thai ngoài tử cung phải làm sao Điều trị bằng thuốc Điều trị bằng phẫu thuật Chăm sóc sau phẫu thuật Phòng tránh mang thai ngoài tử cung Những câu hỏi thường gặp về tình trạng thai ngoài tử cung 1 Thai ngoài tử cung tự tiêu như thế nào 2 Thai ngoài tử cung thì niêm mạc tử cung có dày lên không 3 Phát hiện thai ngoài tử cung ở tuần thứ mấy 4 Thai ngoài tử cung bao lâu thì vỡ 5 Chửa ngoài tử cung có phải mổ không 6 Bị thai ngoài tử cung khi nào thì mang thai lại Mang thai ngoài tử cung là gì Mang thai ngoài tử cung hay chửa ngoài tử cung là tình trạng trứng sau khi thụ tinh lại làm tổ và phát triển ở một vị trí khác ở bên ngoài buồng tử cung không phải bên trong tử cung của người mẹ Tình trạng này có thể gây chảy máu ồ ạt trong ổ bụng thậm chí đe dọa tính mạng thai phụ nếu không được cấp cứu can th