In [6]:
import pandas as pd
import numpy as np
import datasets
from datasets import load_dataset,DatasetDict

import torch
from torch.utils.data import Dataset

from transformers import AutoTokenizer,AutoModelForQuestionAnswering,TrainingArguments, Trainer,default_data_collator

from typing import Union

In [7]:
dataset=DatasetDict.load_from_disk("/azurestorage/data/sentence_aligmnet_dataset_filtered/")
train_dataset=dataset["train"]
eval_dataset=dataset["test"]

In [8]:
train_df=train_dataset.to_pandas()
train_df_under_30=train_df[train_df["selected_span"].str.len()<30].sample(frac=1).iloc[:100000]
train_df_over_30=train_df[train_df["selected_span"].str.len()>=30]

new_train_dataset=datasets.Dataset.from_pandas(pd.concat([train_df_under_30,train_df_over_30]).sample(frac=1).reset_index(drop=True))

In [9]:
eval_df=eval_dataset.to_pandas()
eval_df_under_30=eval_df[eval_df["selected_span"].str.len()<30].sample(frac=1).iloc[:10000]
eval_df_over_30=eval_df[eval_df["selected_span"].str.len()>=30]

new_eval_dataset=datasets.Dataset.from_pandas(pd.concat([eval_df_under_30,eval_df_over_30]).sample(frac=1).reset_index(drop=True))

In [10]:
# model=AutoModelForQuestionAnswering.from_pretrained("BAAI/bge-m3")

model=AutoModelForQuestionAnswering.from_pretrained("/azurestorage/models/trained/st_alignment/checkpoint-2000")
tokenizer=AutoTokenizer.from_pretrained("BAAI/bge-m3")

In [11]:
class SentenceAlignmentDataset(Dataset):
  def __init__(self,dataset:Union[datasets.arrow_dataset.Dataset,list[dict]],tokenizer,max_length):
    self.dataset=dataset
    self.tokenizer=tokenizer
    self.max_length=max_length

  def create_span_extraction_data(self,data,tokenizer,max_length:int):

    input_text=tokenizer.cls_token+" "+f"{tokenizer.sep_token} ".join([data['src_text'],data["context"],data["selected_span"]])+tokenizer.sep_token
    inputs = tokenizer(input_text, return_offsets_mapping=True,add_special_tokens=False,return_tensors="pt",max_length=max_length,padding="max_length",truncation=True)
    offset_mapping = inputs['offset_mapping'][0]

    # Get character offsets of the answer span
    start_char = input_text.find(data['answer_span'])
    end_char = start_char + len(data['answer_span'])

    # Find the subword tokens corresponding to the character span
    start_index = 1
    end_index = 1
    while start_index < len(offset_mapping) and offset_mapping[start_index][0] < start_char-1:
        start_index += 1

    while end_index < len(offset_mapping) and offset_mapping[end_index][1] <= end_char:
        end_index += 1

    del inputs['offset_mapping']

    inputs["input_ids"]=inputs["input_ids"].squeeze(0)
    inputs["attention_mask"]=inputs["attention_mask"].squeeze(0)
    inputs["start_positions"]=torch.tensor(start_index)
    inputs["end_positions"]=torch.tensor(end_index)

    return inputs

  def __len__(self):
    return len(self.dataset)

  def __getitem__(self,idx):

    return self.create_span_extraction_data(self.dataset[idx],tokenizer=tokenizer,max_length=self.max_length)



In [12]:
train_ds=SentenceAlignmentDataset(new_train_dataset,tokenizer,max_length=2048)
eval_ds=SentenceAlignmentDataset(new_eval_dataset,tokenizer,max_length=2048)

In [13]:
idx=49
sample=eval_ds.__getitem__(idx)
print("src_text : ",new_eval_dataset[idx]["src_text"])
print("selected_span : ",new_eval_dataset[idx]["selected_span"])
print("answer_span : ",new_eval_dataset[idx]["answer_span"])

src_text :  토르멘토시아의 세계태초부터 토르멘토시아의 왕국들과토르멘토시아의 사람들은 부, 영토 또는 단순히 권력을 위해부, 영토, 또는 단순히 권력을 위해 싸웠습니다. 분쟁과전쟁은 너무나 광범위하고 빈번하게 일어났기 때문에"영원한 전쟁"이라고 말할 수 있지만, 모든 것이25년 전, 새로운 위협이 등장하면서새로운 위협이 등장했습니다. 모든 것을 쓸어버릴 수 있을 정도로 위험한 위협이모든 것을 쓸어버릴 수 있을 정도로 위험한 위협이었죠.남쪽 하늘이 어두워지자 달이 지구에 떨어졌습니다.달이 떨어졌습니다. 충돌로 인해 생긴 불길에서나중에 "세계의 삼키는 자 소르고스"라고 불리게 된소르고스"로 불리게 됩니다. 달과 함께 등장한 고트킨은반쯤 소화된 생명체로 이루어진 군대가고트킨이 등장했습니다. 그 존재와 그 군대는 현존하는 36개의 현실 세계 중36개의 기존 왕국 중 대부분을 멸망시켰고, 나머지 왕국들은서서히 지는 전투를 벌였습니다.6개 왕국만 남았고, 이 왕국들은 공통의 목표에 집중하기 위해공동의 적에 집중하고 남은 세계를 보호하기 위해휴전에 합의했습니다. 그들은 코어국가를 건설하고 남은 영토의 중심에 위치한코어하임 도시를 건설했습니다. 이 도시는다른 모든 왕국의 중심지가 되었고한때 살았지만 지금은 파괴된 세계의피난처를 제공했습니다. 또 다른 이유도 있었습니다:바로 울트라코어의 건설이었습니다. 쉴드 펄스보호막을 생성할 수 있는 발전기로보호막을 만들 수 있는 쉴드 펄스 발생기로보호 에너지 벽을 만들 수 있습니다. 노스아크가노스메리안들이 다른 왕국들을 물리치고 승리하기 위해다른 왕국을 물리치고 영원한 전쟁에서 승리하기 위해영원한 전쟁에서 승리하기 위해. 그러나 그들은 결코완성하지 못했는데, 그 이유는 필수 구성 요소와 작업이단계가 여전히 누락되어 있었기 때문입니다. 다른 왕국의 도움으로다른 왕국의 도움으로 이 단계들을 마침내 완수할 수 있었습니다.따라서 모든 국가는 울트라코어의 완성을 위해울트라코어의 완성을 위해 각자의 역할을 다하고 있습니다.울트라코어의 완성을 

In [14]:
src_text='''기준서는 다음을 제외한 모든 리스(전대리스에서 사용권자산의 리스를 포함함)에 적용한다. 

⑴ 광물, 석유, 천연가스, 이와 비슷한 비재생 천연자원을 탐사하거나 사용하기 위한 리스 

⑵ 리스이용자가 보유하는, 기업회계기준서 제1041호 '농림어업'의 적용범위에 포함되는 생물자산 리스 

⑶ 기업회계기준해석서 제2112호 '민간투자사업'의 적용범위에 포함되는 민간투자사업 

⑷ 리스제공자가 부여하는, 기업회계기준서 제1115호 '고객과의 계약에서 생기는 수익'의 적용범위에 포함되는 지적재산 라이선스 

⑸ 기업회계기준서 제1038호 '무형자산'의 적용범위에 포함되는, 라이선싱 계약에 따라 영화필름, 비디오 녹화물, 희곡, 원고, 특허권, 저작권과 같은 항목에 대하여 리스이용자가 보유하는 권리'''

context='''An entity shall apply this Standard to all leases, including leases of right-of-use assets in a sublease, except for:
(a) leases to explore for or use minerals, oil, natural gas and similar nonregenerative resources;
(b) leases of biological assets within the scope of IAS 41 Agriculture held by a lessee;
(c) service concession arrangements within the scope of IFRIC 12 Service Concession Arrangements;
(d) licences of intellectual property granted by a lessor within the scope of IFRS 15 Revenue from Contracts with Customers; and
(e) rights held by a lessee under licensing agreements within the scope of IAS 38 Intangible Assets for such items as motion picture films, video recordings, plays, manuscripts, patents and copyrights.'''
selected_span="An entity shall apply this Standard to all leases, including leases of right-of-use assets in a sublease, except for"

In [15]:
def make_input_text(src_text,context,selected_span):

    input_text=tokenizer.cls_token+" "+f"{tokenizer.sep_token} ".join([src_text,context,selected_span])+tokenizer.sep_token
    inputs = tokenizer(input_text,add_special_tokens=False,return_tensors="pt")

    for k,v in inputs.items():
        inputs[k]=v.squeeze(0)

    return inputs

In [16]:
sample=make_input_text(src_text,context,selected_span)

In [17]:
tokenizer.decode(sample["input_ids"])

"<s> 기준서는 다음을 제외한 모든 리스(전대리스에서 사용권자산의 리스를 포함함)에 적용한다. (1) 광물, 석유, 천연가스, 이와 비슷한 비재생 천연자원을 탐사하거나 사용하기 위한 리스 (2) 리스이용자가 보유하는, 기업회계기준서 제1041호 '농림어업'의 적용범위에 포함되는 생물자산 리스 (3) 기업회계기준해석서 제2112호 '민간투자사업'의 적용범위에 포함되는 민간투자사업 (4) 리스제공자가 부여하는, 기업회계기준서 제1115호 '고객과의 계약에서 생기는 수익'의 적용범위에 포함되는 지적재산 라이선스 (5) 기업회계기준서 제1038호 '무형자산'의 적용범위에 포함되는, 라이선싱 계약에 따라 영화필름, 비디오 녹화물, 희곡, 원고, 특허권, 저작권과 같은 항목에 대하여 리스이용자가 보유하는 권리</s> An entity shall apply this Standard to all leases, including leases of right-of-use assets in a sublease, except for: (a) leases to explore for or use minerals, oil, natural gas and similar nonregenerative resources; (b) leases of biological assets within the scope of IAS 41 Agriculture held by a lessee; (c) service concession arrangements within the scope of IFRIC 12 Service Concession Arrangements; (d) licences of intellectual property granted by a lessor within the scope of IFRS 15 Revenue from Contracts with Customers; and (e) rights held by a lessee under licensing agreements within the 

In [18]:

with torch.no_grad():
    # outputs = model(sample["input_ids"].unsqueeze(0).to("cuda"),sample["attention_mask"].unsqueeze(0).to("cuda"))
    outputs = model(sample["input_ids"].unsqueeze(0),sample["attention_mask"].unsqueeze(0))

answer_start_index = min(outputs.start_logits.argmax(),outputs.end_logits.argmax())
answer_end_index = max(outputs.start_logits.argmax(),outputs.end_logits.argmax())
print("predicted_span : ",tokenizer.decode(sample["input_ids"][answer_start_index:answer_end_index]))

predicted_span :  다음을 제외한 모든 리스


In [27]:
idx=1032
sample=eval_ds.__getitem__(idx)
print("src_text : ",new_eval_dataset[idx]["src_text"])
print("--------------------------------")
print("context : ", new_eval_dataset[idx]["context"])
print("--------------------------------")
print("selected_span : ",new_eval_dataset[idx]["selected_span"])
print("--------------------------------")
print("answer_span : ",new_eval_dataset[idx]["answer_span"])

src_text :  서울시교육청은 2019학년도 국·공립 중고등학교 교사 임용후보자 선정경쟁시험 실시 결과 27개 과목 836명이 최종 합격했다고 8일 밝혔다.
--------------------------------
context :  According to the Seoul Metropolitan Office of Education on the 8th, 836 students in 27 subjects passed the final exam for selecting teachers for national and public middle schools and high schools in 2019.
--------------------------------
selected_span :  exam for selecting teachers for national and public middle schools and high schools
--------------------------------
answer_span :  국·공립 중고등학교 교사 임용후보자 선정경쟁시험


In [28]:

with torch.no_grad():
    # outputs = model(sample["input_ids"].unsqueeze(0).to("cuda"),sample["attention_mask"].unsqueeze(0).to("cuda"))
    outputs = model(sample["input_ids"].unsqueeze(0),sample["attention_mask"].unsqueeze(0))

answer_start_index = min(outputs.start_logits.argmax(),outputs.end_logits.argmax())
answer_end_index = max(outputs.start_logits.argmax(),outputs.end_logits.argmax())
print("predicted_span : ",tokenizer.decode(sample["input_ids"][answer_start_index:answer_end_index]))

predicted_span :  2019학년도 국·공립 중고등학교 교사 임용후보자 선정경쟁시험
