In [180]:
from google.colab import drive
drive.mount('/content/drive')

%cd /content/drive/MyDrive/MedicalMCQA-dh22

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).
/content/drive/MyDrive/MedicalMCQA-dh22


In [181]:
!pip install -q transformers sentence_transformers pandarallel pandas numpy ipywidgets pyvi nltk rank_bm25

In [182]:
import numpy as np
from tqdm.auto import tqdm
import torch

tqdm.pandas()
from gensim.corpora import Dictionary
from gensim.models import TfidfModel
from gensim.similarities import SparseMatrixSimilarity

class BM25Gensim:
    def __init__(self, checkpoint_path):
        self.dictionary = Dictionary.load(checkpoint_path + "/dict")
        self.tfidf_model = SparseMatrixSimilarity.load(checkpoint_path + "/tfidf")
        self.bm25_index = TfidfModel.load(checkpoint_path + "/bm25_index")

    def get_topk(self, query, topk=100):
        tokenized_query = query.split()
        tfidf_query = self.tfidf_model[self.dictionary.doc2bow(tokenized_query)]
        scores = self.bm25_index[tfidf_query]
        top_n = np.argsort(scores)[::-1][:topk]
        return top_n, scores[top_n]

import pandas as pd
import numpy as np
from tqdm.auto import tqdm
tqdm.pandas()

device = 'cuda' if torch.cuda.is_available() else 'cpu'
# device = 'cpu'

AUTH_TOKEN = "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"


## **1. Load data & model**

In [183]:
PROCESSED_PATH = "./data/final/processed"
MODEL_PATH = "./fine_tuned_model/chieunq/xlm-r-base-uit-viquad"

In [184]:
df_windows = pd.read_csv(f"{PROCESSED_PATH}/corpus_clean.csv")
df_windows = df_windows.fillna("NaN")

## **2. Retriever **

In [185]:
# bm25 ranking
bm25_model = BM25Gensim(f"{PROCESSED_PATH}/outputs/bm25")

In [186]:
# text_utils.py
import re
import string
from nltk import word_tokenize as lib_tokenizer

import nltk
nltk.download('punkt')

dict_map = dict({})
def word_tokenize(text):
    words = text.split()
    words_norm = []
    for w in words:
        if dict_map.get(w, None) is None:
            dict_map[w] = ' '.join(lib_tokenizer(w)).replace('``', '"').replace("''", '"')
        words_norm.append(dict_map[w])
    return words_norm

def strip_context(text):
    text = text.replace('\n', ' ')
    text = re.sub(r'\s+', ' ', text)
    text = text.strip()
    return text

def post_process(x):
    x = " ".join(word_tokenize(strip_context(x))).strip()
    x = x.replace("\n"," ")
    x = "".join([i for i in x if i not in string.punctuation])
    return x

def preprocess(x, max_length=-1, remove_puncts=False):
    x = nltk_tokenize(x)
    x = x.replace("\n", " ")
    if remove_puncts:
        x = "".join([i for i in x if i not in string.punctuation])
    if max_length > 0:
        x = " ".join(x.split()[:max_length])
    return x

def nltk_tokenize(x):
    return " ".join(word_tokenize(strip_context(x))).strip()


[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


In [187]:
# cosine similarity
import torch
from sentence_transformers import util
from transformers import AutoTokenizer, AutoModel
# from text_utils import preprocess

model_name = 'nguyenvulebinh/vi-mrc-base'
tokenizer = AutoTokenizer.from_pretrained(model_name, token=AUTH_TOKEN)
model = AutoModel.from_pretrained(model_name, token=AUTH_TOKEN)

def mean_pooling(model_output, attention_mask):
    token_embeddings = model_output[0]
    input_mask_expanded = attention_mask.unsqueeze(-1).expand(token_embeddings.size()).float()
    return torch.sum(token_embeddings * input_mask_expanded, 1) / torch.clamp(input_mask_expanded.sum(1), min=1e-9)

def embed_passage(passages, tokenizer, model, device='cpu'):
    # Tokenize sentences
    encoded_input = tokenizer(passages, padding=True, truncation=True, return_tensors='pt')

    model = model.to(device)
    encoded_input.to(device)
    # Compute token embeddings
    with torch.no_grad():
        model_output = model(**encoded_input)

    # Perform pooling
    passage_embeddings = mean_pooling(model_output, encoded_input['attention_mask'])

    return passage_embeddings

def similarity_score(question, all_passage, tokenizer, model, device='cpu'):
    process_paragraphs = [preprocess(doc) for doc in all_passage]
    passage_embeddings = embed_passage(process_paragraphs, tokenizer, model, device)

    question_embedding = embed_passage([question], tokenizer, model, device)

    cos_scores = util.cos_sim(question_embedding, passage_embeddings)[0]
    return cos_scores.to('cpu').numpy()

Some weights of RobertaModel were not initialized from the model checkpoint at nguyenvulebinh/vi-mrc-base and are newly initialized: ['roberta.pooler.dense.bias', 'roberta.pooler.dense.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.


In [188]:
from rank_bm25 import BM25Okapi

titles = list(set([x for x in df_windows['title'].values]))
tokenized_titles = [preprocess(x).lower().split() for x in titles]
bm25_title = BM25Okapi(tokenized_titles)
title_indices = list(range(len(titles)))

In [221]:
question = "Hương đang mang thai và lo lắng mình có thể gặp phải rau tiền đạo. Hương có thể kiểm tra phát hiện bệnh này từ tuần thứ mấy của thai kỳ?"
# bm25_title.get_top_n(tokenized_question, titles, n=5)

def get_topk_titles_with_score(question):
  tokenized_question = preprocess(question).lower().split()
  indices = bm25_title.get_top_n(tokenized_question, title_indices, n=8)
  scores = bm25_title.get_batch_scores(tokenized_question, indices)
  results = [[titles[i], s] for i, s in zip(indices, scores)]
  return results

get_topk_titles_with_score(question)

[['Rau tiền đạo', 15.791215718696368],
 ['Đái tháo đường thai kỳ', 13.2726289616419],
 ['Tăng huyết áp thai kỳ', 13.2726289616419],
 ['Mang thai ngoài tử cung', 12.532570687265371],
 ['Rau bám mép có nguy hiểm không', 12.308922590612458],
 ['Sa tử cung khi mang thai', 11.42019776397315],
 ['Không có tinh trùng', 10.629650493958403],
 ['U xơ tử cung khi mang thai', 10.489192174367274]]

In [222]:
from functools import partial

similarity_score_shorted = partial(similarity_score, tokenizer=tokenizer, model=model, device=device)

def get_corpus(question):
  #Bm25 retrieval for top200 candidates
  query = preprocess(question).lower()
  top_n, bm25_scores = bm25_model.get_topk(query, topk=500)
  titles_with_scores = get_topk_titles_with_score(query)
  score_map = {k: v for k, v in titles_with_scores}

  filtered_indices = [i for i, v in enumerate(top_n) if str(df_windows.title.values[v]) in score_map]
  top_n, bm25_scores = top_n[filtered_indices], bm25_scores[filtered_indices]
  # print(score_map)

  titles = [preprocess(df_windows.title.values[i]) for i in top_n]
  texts = [preprocess(df_windows.text.values[i]).lower() for i in top_n]

  # Reranking with for top10
  # question = preprocess(question)
  ranking_texts = similarity_score_shorted(query, texts)
  ranking_titles = np.array([score_map[s] for s in titles])
  ranking_scores = ranking_texts**4 * bm25_scores * ranking_titles

  best_idxs = np.argsort(ranking_scores)[-50:]
  ranking_scores = np.array(ranking_scores)[best_idxs]
  texts = np.array(texts)[best_idxs]
  titles = np.array(titles)[best_idxs]

  return texts, ranking_scores

# get_corpus(question)

## ** 3. Predict**

In [223]:
import numpy as np
import torch
import torch.nn as nn
from transformers import AutoModelForSequenceClassification, AutoTokenizer

id2label = {
    0: 'False',
    1: 'True',
}

label2id = {
    'False': 0,
    'True': 1,
}

num_labels = len(id2label)

class QAEnsembleModel(nn.Module):
    def __init__(self, model_checkpoint, device="cpu"):
        super(QAEnsembleModel, self).__init__()
        self.device = device
        self.thr = 0.89

        self.tokenizer = AutoTokenizer.from_pretrained(
            model_checkpoint,
            num_labels=num_labels,
            label2id=label2id,
            id2label=id2label,
            use_fast=True,
            cls_token="<s>",
            sep_token="</s>"
        )

        self.model = AutoModelForSequenceClassification.from_pretrained(
            model_checkpoint,
            num_labels=num_labels
        ).to(device)

    def forward(self, question, choices, texts, ranking_scores=None):
        if ranking_scores is None:
            ranking_scores = np.ones((len(texts),))

        best_positive_index = 0
        best_positive_score = 0
        all_choices_answers = ["0"]*len(choices)
        all_choices_positive_scores = [0]*len(choices)
        for idx, c in enumerate(choices):
            if c.split('.', 1)[0] in ["A", "B", "C", "D", "E", "F"]:
                c = c[2:].strip()

            # answers = []
            # answer_scores = []
            for text, score in zip(texts, ranking_scores):
                prompt = f"<s>{text}</s>{question}</s>{c}</s>"
                model_inputs = self.tokenizer(
                    prompt,
                    # padding="max_length",
                    max_length=512,
                    truncation=True,
                    return_tensors="pt"
                ).to(self.device)
                outputs = self.model(**model_inputs)
                prediction = torch.argmax(outputs[0], axis=1).item()
                _l = outputs[0].cpu().detach().numpy()[0] * score
                # {0,1}, score
                # answers.append(str(prediction))
                # answer_scores.append(_l[prediction])
                confident_score = _l[1] - _l[0]
                if confident_score > best_positive_score:
                    best_positive_score = confident_score
                    best_positive_index = idx
                # prioritize positive answers
                if prediction == 1:
                    positive_score = _l[1]
                    all_choices_answers[idx] = str(prediction)
                    if positive_score > all_choices_positive_scores[idx]:
                        all_choices_positive_scores[idx] = positive_score
                    # print(idx, positive_score)
                    # break
            # find best choices
            # best_answers_idx = np.argmax(np.array(answer_scores))
            # choice_answer = answers[best_answers_idx]
            # all_choices_answers.append(choice_answer)

        # do some trick to correct answer, each question have atleast one correct choice :)))
        if '1' not in all_choices_answers:
            all_choices_answers[best_positive_index] = "1"
            print('trick', question)
        elif self.thr:
            # print(all_choices_positive_scores)
            max_score = max(all_choices_positive_scores)
            all_choices_answers = ["0" if all_choices_positive_scores[i] < self.thr*max_score else all_choices_answers[i] for i in range(len(choices))]
        answer = "".join(all_choices_answers)

        return answer


In [224]:
# from qa_model import QAEnsembleModel

qa_model = QAEnsembleModel(MODEL_PATH, device=device)

In [225]:
question = "Hương đang mang thai và lo lắng mình có thể gặp phải rau tiền đạo. Hương có thể kiểm tra phát hiện bệnh này từ tuần thứ mấy của thai kỳ?"

texts, ranking_scores = get_corpus(question)
choices = ["A. Tuần 10", "B.Tuần 20", "C. Tuần 30", "D. Tuần 40" ]
answer = qa_model(question, choices, texts, ranking_scores=ranking_scores)
print(answer)

0100


In [226]:
# Predict all
import pandas as pd

df = pd.read_csv("./data/public_test.csv")

answers = []
for _, row in tqdm(df.iterrows(), total=df.shape[0]):
    question = row["question"]
    # # pre process question
    # qs = question.split(".")
    # r = []
    # for q in qs[:-1]:
    #     ap = False
    #     for t in ["bị", "bệnh", "triệu chứng", "mang thai", "có thai", "lây", "nhiễm"]:
    #         if t in q:
    #             r.append(q)
    #             ap = True
    #             break
    #     if not ap:
    #         print(q)
    # r.append(qs[-1])
    # question = ". ".join(r)
    if not question.endswith("?"):
        question = question + "?"
    # end
    choices = [
        op for op in row[["option_1", "option_2", "option_3", "option_4", "option_5", "option_6"]].tolist()
        if isinstance(op, str)
    ]
    texts, ranking_scores = get_corpus(question)
    answer = qa_model(question, choices, texts, ranking_scores=ranking_scores)
    answers.append(answer)

df['answer'] = answers
result_df = df[["id", "answer"]]
result_df

  0%|          | 0/100 [00:00<?, ?it/s]

trick Ông Thận muốn kiểm tra hình ảnh tim và phổi của mình, ông có thể sử dụng các phương pháp nào dưới đây?
trick Quỳnh là một người mẫu nổi tiếng ở Việt Nam. Với nghề người mẫu việc chăm sóc tốt da là điều cực kỳ quan trọng. Đâu là giải pháp giúp Quỳnh chăm sóc da từ bên trong?
trick Bác sĩ có thể chỉ định người bệnh thực hiện một số chẩn đoán hình ảnh như:?.?
trick Các đối tượng có nguy cơ cao mắc bệnh cúm là ai?.?
trick Triệu chứng sùi mào gà có thể xuất hiện ở những vị trí nào ở nữ giới?.?
trick Làm thế nào để phân biệt viêm họng cấp tính và viêm họng mạn tính?
trick Thời gian ủ bệnh của bênh nào lâu nhất trong các bệnh sau?
trick Bệnh nào trong 3 bệnh sau xuất hiện hầu hết ở trẻ em?
trick Việc ăn sống các loại động vật có vỏ từ nguồn nước bị ô nhiễm là nguyên nhân gây ra căn bệnh nào?
trick Những bệnh nào dưới đây đã có vắc xin phòng ngừa?
trick Các nguyên nhân gây sốt?
trick Mai hiện mang thai tháng thứ 9. Có rất nhiều bệnh truyền nhiễm có thể lây từ mẹ sang con trong quá trình 

Unnamed: 0,id,answer
0,level3_1,0100
1,level3_2,1000
2,level3_5,0100
3,level3_13,01
4,level3_14,1001
...,...,...
95,level4_4,0110
96,level4_9,1000
97,level4_27,0001
98,level4_28,0010


In [227]:
import datetime

d = datetime.datetime.now().strftime("%Y%m%d_%H%M%S")

result_df.to_csv(f'./data/result_my_medmcqa_{d}.csv', index=False)