In [1]:
!pip install -U sentence-transformers

Collecting sentence-transformers
  Downloading sentence-transformers-2.2.2.tar.gz (85 kB)
[?25l     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/86.0 kB[0m [31m?[0m eta [36m-:--:--[0m[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m86.0/86.0 kB[0m [31m2.6 MB/s[0m eta [36m0:00:00[0m
[?25h  Preparing metadata (setup.py) ... [?25l[?25hdone
Collecting transformers<5.0.0,>=4.6.0 (from sentence-transformers)
  Downloading transformers-4.35.0-py3-none-any.whl (7.9 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m7.9/7.9 MB[0m [31m70.3 MB/s[0m eta [36m0:00:00[0m
Collecting sentencepiece (from sentence-transformers)
  Downloading sentencepiece-0.1.99-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (1.3 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.3/1.3 MB[0m [31m79.8 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting huggingface-hub>=0.4.0 (from sentence-transformers)
  Downloading huggingface_

In [2]:
import pandas as pd
import numpy as np

In [3]:
from transformers import AutoTokenizer, AutoModelForSequenceClassification
import torch
device = torch.device("cuda") if torch.cuda.is_available() else torch.device("cpu")

model_name = "MoritzLaurer/ernie-m-large-mnli-xnli"
tokenizer = AutoTokenizer.from_pretrained(model_name)
nli_model = AutoModelForSequenceClassification.from_pretrained(model_name)

Downloading (…)okenizer_config.json:   0%|          | 0.00/448 [00:00<?, ?B/s]

Downloading (…)solve/main/vocab.txt:   0%|          | 0.00/2.83M [00:00<?, ?B/s]

Downloading (…)tencepiece.bpe.model:   0%|          | 0.00/5.07M [00:00<?, ?B/s]

Downloading (…)cial_tokens_map.json:   0%|          | 0.00/125 [00:00<?, ?B/s]

Downloading (…)lve/main/config.json:   0%|          | 0.00/957 [00:00<?, ?B/s]

Downloading model.safetensors:   0%|          | 0.00/2.24G [00:00<?, ?B/s]

In [4]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [5]:
data = pd.read_csv('/content/drive/MyDrive/ColabNotebooks/private_test.csv')
data = data[4800:]
data.head(3)

Unnamed: 0,index,context,claim
4800,40776,"""Tôi chọn Greenland vì nhiều yếu tố. Thứ nhất ...",Những con chó rất hay ngửi và liếm những ai đi...
4801,43052,Nam sinh cũng cho biết bản thân yêu thích công...,"Cùng với đó, để được tiếp thêm động lực Nhân c..."
4802,40208,Thuật ngữ trên được Cơ quan Thời tiết Quốc gia...,Gió trên hồ giúp hạ nhiệt độ tháng 5 nhưng cũn...


In [6]:
 import nltk
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize, sent_tokenize

nltk.download('punkt')
nltk.download('stopwords')

def preprocess_text(text,max_words = 150):
    if isinstance(text, str):
        # Tách câu
        sentences = sent_tokenize(text)

        preprocessed_sentences = []

        for sentence in sentences:
            # Chuyển thành chữ thường
            preprocessed_sentence = sentence.lower()

            preprocessed_sentences.append(preprocessed_sentence) #list

        preprocessed_passages = []
        preprocessed_passage = ''
        count = 0
        for sentence in preprocessed_sentences:
            words = word_tokenize(sentence)
            count += len(words)
            if count > max_words: #sentence chuyen qua passage sau
                preprocessed_passages.append(preprocessed_passage)
                count = len(words)
                preprocessed_passage = sentence
            else:
                preprocessed_passage += sentence

        preprocessed_passages.append(preprocessed_passage)
        return preprocessed_passages

    else:
        return [text]

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.
[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


In [7]:
data['context_passage'] = data['context'].apply(preprocess_text)

In [8]:
def predict_verdict(list_passage, claim):

    predicted_verdict = np.zeros((1,3))
    for passage in list_passage:
        input_ids = tokenizer.encode(passage, claim, return_tensors='pt')
        logits = nli_model(input_ids)[0]

        #0: contradiction, 1: neutral, 2: entailment
        #0: "SUPPORTED"  , 1:"NEI"   , 2:"REFUTED"
        probs = logits.softmax(dim=1).detach().cpu().numpy()
        predicted_verdict = np.concatenate((predicted_verdict, probs*100), axis = 0)

    #print(predicted_verdict)
    verdict, maxVerPassage = "NEI",""
    mxSim = 50
    for ver in [0,2]:
      for i in range(len(predicted_verdict)):
          if (predicted_verdict[i,ver] >= mxSim):
            verdict = ver
            maxVerPassage = list_passage[i-1]
            mxSim = predicted_verdict[i,ver]

    if (verdict == 0):
      verdict = "SUPPORTED"
    elif verdict == 2:
      verdict = "REFUTED"

    return (verdict, maxVerPassage)


In [9]:
def apply_predict_verdict(row):
    verdict, maxVerdictPassage = predict_verdict(row['context_passage'], row['claim'])
    return pd.Series([verdict, maxVerdictPassage])

In [None]:
data[['verdict', 'maxVerdictPassage']] = data.apply(apply_predict_verdict, axis=1)

In [None]:
data.to_csv("/content/drive/MyDrive/ColabNotebooks/Quân/submit/private_testQuan1xxx.csv")

In [None]:
data= pd.read_csv('/content/drive/MyDrive/ColabNotebooks/Quân/submit/private_testQuan1xxx.csv')
data

Unnamed: 0.1,Unnamed: 0,index,context,claim,context_passage,verdict,maxVerdictPassage
0,4800,40776,"""Tôi chọn Greenland vì nhiều yếu tố. Thứ nhất ...",Những con chó rất hay ngửi và liếm những ai đi...,"['""tôi chọn greenland vì nhiều yếu tố.thứ nhất...",NEI,
1,4801,43052,Nam sinh cũng cho biết bản thân yêu thích công...,"Cùng với đó, để được tiếp thêm động lực Nhân c...",['nam sinh cũng cho biết bản thân yêu thích cô...,SUPPORTED,"ban ngày đi làm, đến tối, nam học viên mở máy ..."
2,4802,40208,Thuật ngữ trên được Cơ quan Thời tiết Quốc gia...,Gió trên hồ giúp hạ nhiệt độ tháng 5 nhưng cũn...,['thuật ngữ trên được cơ quan thời tiết quốc g...,NEI,
3,4803,40157,Việc theo dõi chặt chẽ trong phòng thí nghiệm ...,"Trong nghiên cứu mới, nhóm chuyên gia Trung Qu...",['việc theo dõi chặt chẽ trong phòng thí nghiệ...,NEI,
4,4804,38416,Tại hội thảo về chính sách học bổng và thị thự...,"Thời điểm đó, chính phủ Anh có chính sách ưu t...",['tại hội thảo về chính sách học bổng và thị t...,NEI,
...,...,...,...,...,...,...,...
591,5391,37369,"Mary Kate Keyes, Giám đốc dinh dưỡng của ứng d...","""Lúc đó, tôi đã quyết định về nhà vì tôi cảm t...","['mary kate keyes, giám đốc dinh dưỡng của ứng...",REFUTED,"mary kate keyes, giám đốc dinh dưỡng của ứng d..."
592,5392,37108,Cô gái Việt đang là nghiên cứu sinh tiến sĩ nă...,Ứng viên có thể thông qua mạng lưới bạn bè hoặ...,['cô gái việt đang là nghiên cứu sinh tiến sĩ ...,SUPPORTED,ứng viên có thể thông qua mạng lưới bạn bè hoặ...
593,5393,37834,Người bệnh cho biết khoảng một tháng nay ăn uố...,"Tuy nhiên, chỉ số đường huyết của bệnh nhân lú...",['người bệnh cho biết khoảng một tháng nay ăn ...,REFUTED,"tuy nhiên, chỉ số đường huyết của bệnh nhân lú..."
594,5394,43741,Cơ quan Giáo dục New Zealand (ENZ) hôm 5/1 cho...,Cơ quan Giáo dục New Zealand (ENZ) hôm 5/1 cho...,['cơ quan giáo dục new zealand (enz) hôm 5/1 c...,SUPPORTED,cơ quan giáo dục new zealand (enz) hôm 5/1 cho...


In [None]:
from transformers import AutoModelForQuestionAnswering
import torch
import pandas as pd
from transformers import AutoTokenizer

# Tải mô hình từ đường dẫn đã lưu
model_checkpoint =  "Fsoft-AIC/videberta-base"
tokenizer = AutoTokenizer.from_pretrained(model_checkpoint)
model_path = '/content/drive/MyDrive/ColabNotebooks/Quân/finetune MRC/videberta-base-finetuned 90.43 (max_len = 150)'
model = AutoModelForQuestionAnswering.from_pretrained(model_path)

# Chuyển model sang chế độ đánh giá (evaluation mode)
model.eval()
# data= pd.read_csv('/content/drive/MyDrive/Colab Notebooks/public_test_2.csv')
#data_warmup = pd.read_csv('/content/drive/MyDrive/Colab Notebooks/warmup.csv')
data.head(5)

Downloading (…)okenizer_config.json:   0%|          | 0.00/401 [00:00<?, ?B/s]

Downloading (…)/main/tokenizer.json:   0%|          | 0.00/8.49M [00:00<?, ?B/s]

Downloading (…)cial_tokens_map.json:   0%|          | 0.00/173 [00:00<?, ?B/s]

Unnamed: 0.1,Unnamed: 0,index,context,claim,context_passage,verdict,maxVerdictPassage
0,4800,40776,"""Tôi chọn Greenland vì nhiều yếu tố. Thứ nhất ...",Những con chó rất hay ngửi và liếm những ai đi...,"['""tôi chọn greenland vì nhiều yếu tố.thứ nhất...",NEI,
1,4801,43052,Nam sinh cũng cho biết bản thân yêu thích công...,"Cùng với đó, để được tiếp thêm động lực Nhân c...",['nam sinh cũng cho biết bản thân yêu thích cô...,SUPPORTED,"ban ngày đi làm, đến tối, nam học viên mở máy ..."
2,4802,40208,Thuật ngữ trên được Cơ quan Thời tiết Quốc gia...,Gió trên hồ giúp hạ nhiệt độ tháng 5 nhưng cũn...,['thuật ngữ trên được cơ quan thời tiết quốc g...,NEI,
3,4803,40157,Việc theo dõi chặt chẽ trong phòng thí nghiệm ...,"Trong nghiên cứu mới, nhóm chuyên gia Trung Qu...",['việc theo dõi chặt chẽ trong phòng thí nghiệ...,NEI,
4,4804,38416,Tại hội thảo về chính sách học bổng và thị thự...,"Thời điểm đó, chính phủ Anh có chính sách ưu t...",['tại hội thảo về chính sách học bổng và thị t...,NEI,


In [None]:
def getEvidence(question, context, verdict):
    if verdict == "NEI":
      return ''

    inputs = tokenizer(question, context, return_tensors="pt", padding=True, truncation=True)

        # Thực hiện dự đoán trả lời câu hỏi
    with torch.no_grad():
          outputs = model(**inputs)

        # Trích xuất kết quả từ outputs
    start_logits = outputs.start_logits
    end_logits = outputs.end_logits

      # Chuyển kết quả thành chỉ số câu trả lời tại vị trí có xác suất cao nhất
    start_index = torch.argmax(start_logits)
    end_index = torch.argmax(end_logits)

        # Lấy câu trả lời dựa trên chỉ số
    answer = tokenizer.convert_tokens_to_string(tokenizer.convert_ids_to_tokens(inputs["input_ids"][0][start_index:end_index+1]))

    #lấy câu đầu
    return answer
getEvidence(data['claim'][0], data['maxVerdictPassage'][0], data['verdict'][0])

''

In [None]:
def apply_predict_Evidence(row):
    evidence = getEvidence(row['claim'], row['maxVerdictPassage'], row['verdict'])
    return pd.Series([evidence])

In [None]:
data['Evidence'] = data.apply(apply_predict_Evidence, axis = 1)
data.to_csv("/content/drive/MyDrive/ColabNotebooks/Quân/submit/private_testQuan(4800:).csv")

Asking to truncate to max_length but no maximum length is provided and the model has no predefined maximum length. Default to no truncation.


In [None]:
data

Unnamed: 0.1,Unnamed: 0,index,context,claim,context_passage,verdict,maxVerdictPassage,Evidence
0,4800,40776,"""Tôi chọn Greenland vì nhiều yếu tố. Thứ nhất ...",Những con chó rất hay ngửi và liếm những ai đi...,"['""tôi chọn greenland vì nhiều yếu tố.thứ nhất...",NEI,,
1,4801,43052,Nam sinh cũng cho biết bản thân yêu thích công...,"Cùng với đó, để được tiếp thêm động lực Nhân c...",['nam sinh cũng cho biết bản thân yêu thích cô...,SUPPORTED,"ban ngày đi làm, đến tối, nam học viên mở máy ...","đồng thời, cậu chia sẻ với hannah của mình để ..."
2,4802,40208,Thuật ngữ trên được Cơ quan Thời tiết Quốc gia...,Gió trên hồ giúp hạ nhiệt độ tháng 5 nhưng cũn...,['thuật ngữ trên được cơ quan thời tiết quốc g...,NEI,,
3,4803,40157,Việc theo dõi chặt chẽ trong phòng thí nghiệm ...,"Trong nghiên cứu mới, nhóm chuyên gia Trung Qu...",['việc theo dõi chặt chẽ trong phòng thí nghiệ...,NEI,,
4,4804,38416,Tại hội thảo về chính sách học bổng và thị thự...,"Thời điểm đó, chính phủ Anh có chính sách ưu t...",['tại hội thảo về chính sách học bổng và thị t...,NEI,,
...,...,...,...,...,...,...,...,...
591,5391,37369,"Mary Kate Keyes, Giám đốc dinh dưỡng của ứng d...","""Lúc đó, tôi đã quyết định về nhà vì tôi cảm t...","['mary kate keyes, giám đốc dinh dưỡng của ứng...",REFUTED,"mary kate keyes, giám đốc dinh dưỡng của ứng d...","""lúc đó, tôi thậm chí còn toát mồ hôi khi tự đ..."
592,5392,37108,Cô gái Việt đang là nghiên cứu sinh tiến sĩ nă...,Ứng viên có thể thông qua mạng lưới bạn bè hoặ...,['cô gái việt đang là nghiên cứu sinh tiến sĩ ...,SUPPORTED,ứng viên có thể thông qua mạng lưới bạn bè hoặ...,ứng viên có thể thông qua mạng lưới bạn bè hoặ...
593,5393,37834,Người bệnh cho biết khoảng một tháng nay ăn uố...,"Tuy nhiên, chỉ số đường huyết của bệnh nhân lú...",['người bệnh cho biết khoảng một tháng nay ăn ...,REFUTED,"tuy nhiên, chỉ số đường huyết của bệnh nhân lú...","tuy nhiên, chỉ số đường huyết của bệnh nhân lú..."
594,5394,43741,Cơ quan Giáo dục New Zealand (ENZ) hôm 5/1 cho...,Cơ quan Giáo dục New Zealand (ENZ) hôm 5/1 cho...,['cơ quan giáo dục new zealand (enz) hôm 5/1 c...,SUPPORTED,cơ quan giáo dục new zealand (enz) hôm 5/1 cho...,cơ quan giáo dục new zealand (enz) hôm 5/1 cho...
