In [None]:
!pip install -U --user numpy

In [None]:
!pip install wget

In [29]:
import os
import re
import json
import string
import numpy as np
import tensorflow as tf
from tensorflow import keras
from tensorflow.keras import layers
from tokenizers import BertWordPieceTokenizer
from transformers import BertTokenizer, TFBertModel

from tensorflow.keras.callbacks import EarlyStopping, ModelCheckpoint
import matplotlib.pyplot as plt
import urllib
import wget

MAX_LEN = 512
EPOCHS = 3
VERBOSE = 2
BATCH_SIZE = 16

In [30]:
DATA_OUT_PATH = './data_out/KOR'

In [31]:
def plot_graphs(history, string, string_1, string_2):
    # loss 
    plt.plot(history.history[string])
    plt.plot(history.history[string_1])
    plt.plot(history.history[string_2])
    plt.xlabel("Epochs")
    plt.ylabel(string)
    plt.legend([string, string_1, string_2])
    plt.show()

In [32]:
SEED_NUM = 1234
tf.random.set_seed(SEED_NUM)
np.random.seed(SEED_NUM)

In [33]:
# Save the slow pretrained tokenizer
slow_tokenizer = BertTokenizer.from_pretrained("bert-base-multilingual-cased", lowercase=False)
save_path = "bert-base-multilingual-cased/"
if not os.path.exists(save_path):
    os.makedirs(save_path)
slow_tokenizer.save_pretrained(save_path)

# Load the fast tokenizer from saved file
tokenizer = BertWordPieceTokenizer("bert-base-multilingual-cased/vocab.txt", lowercase=False)

In [34]:
train_data_url = "https://korquad.github.io/dataset/KorQuAD_v1.0_train.json"
train_path = keras.utils.get_file("train.json", train_data_url)
eval_data_url = "https://korquad.github.io/dataset/KorQuAD_v1.0_dev.json"
eval_path = keras.utils.get_file("eval.json", eval_data_url)

In [None]:
wget.download('https://s3.amazonaws.com/models.huggingface.co/bert/bert-base-multilingual-cased-config.json', out='./bert-base-multilingual-cased/')

In [None]:
os.rename('./bert-base-multilingual-cased/bert-base-multilingual-cased-config.json', './bert-base-multilingual-cased/config.json')

In [None]:
wget.download('https://s3.amazonaws.com/models.huggingface.co/bert/bert-base-multilingual-cased-tf_model.h5', out='./bert-base-multilingual-cased/')

In [None]:
os.rename('./bert-base-multilingual-cased/bert-base-multilingual-cased-tf_model.h5', './bert-base-multilingual-cased/tf_model.h5')

In [66]:
a = """밑바닥 부터     시작하는 



딥러닝"""
print(str(a).split())
a = " ".join(str(a).split())
print(a)

['밑바닥', '부터', '시작하는', '딥러닝']
밑바닥 부터 시작하는 딥러닝


In [115]:
class SquadExample:
    def __init__(self, question, context, start_char_idx, answer_text):
        self.question = question
        self.context = context
        self.start_char_idx = start_char_idx
        self.answer_text = answer_text
        self.skip = False

    def preprocess(self):
        context = self.context
        question = self.question
        answer_text = self.answer_text
        start_char_idx = self.start_char_idx

#         print('context=',context)
#         print('question=',question)
#         print('answer_text=',answer_text)
#         print('start_char_idx=',start_char_idx)
        # Clean context, answer and question
        context = " ".join(str(context).split())
        question = " ".join(str(question).split())
        answer = " ".join(str(answer_text).split())

        # Find end character index of answer in context
        end_char_idx = start_char_idx + len(answer)
#         print('end_char_idx=',end_char_idx)
        if end_char_idx >= len(context):
            self.skip = True
            return

        # Mark the character indexes in context that are in answer
        is_char_in_ans = [0] * len(context)
        for idx in range(start_char_idx, end_char_idx):
            is_char_in_ans[idx] = 1
        
#         print("is_char_in_ans = ", is_char_in_ans)

        # Tokenize context
        tokenized_context = tokenizer.encode(context)

# [ids, type_ids, tokens, offsets, attention_mask, special_tokens_mask, overflowing]        
#         print("tokenized_context = ", tokenized_context)
#         print('tokenized_context.ids=', tokenized_context.ids)
#         print('tokenized_context.type_ids=', tokenized_context.type_ids)
#         print('tokenized_context.tokens=', tokenized_context.tokens)
#         print('tokenized_context.offsets=',tokenized_context.offsets)
#         print('tokenized_context.attention_mask=', tokenized_context.attention_mask)
#         print('tokenized_context.special_tokens_mask=', tokenized_context.special_tokens_mask)
        
        # Find tokens that were created from answer characters
        ans_token_idx = []
        for idx, (start, end) in enumerate(tokenized_context.offsets):
            if sum(is_char_in_ans[start:end]) > 0:
                ans_token_idx.append(idx)
                
#         print("ans_token_idx=", ans_token_idx)

        if len(ans_token_idx) == 0:
            self.skip = True
            return

        # Find start and end token index for tokens from answer
        start_token_idx = ans_token_idx[0]
        end_token_idx = ans_token_idx[-1]
        
#         print('start_token_idx=', start_token_idx)
#         print('end_token_idx=', end_token_idx)

        # Tokenize question
        tokenized_question = tokenizer.encode(question)

        # Create inputs

#         print('tokenized_question.ids=', tokenized_question.ids)
        input_ids = tokenized_context.ids + tokenized_question.ids[1:]
#         print('input_ids=', input_ids)
        token_type_ids = [0] * len(tokenized_context.ids) + [1] * len(
            tokenized_question.ids[1:]
        )
#         print('token_type_ids=', token_type_ids)
        attention_mask = [1] * len(input_ids)
#         print('attention_mask=', attention_mask)

#         print("len(input_ids)=", len(input_ids))
        # Pad and create attention masks.
        # Skip if truncation is needed
        padding_length = MAX_LEN - len(input_ids)
        if padding_length > 0:  # pad
            input_ids = input_ids + ([0] * padding_length)
            attention_mask = attention_mask + ([0] * padding_length)
            token_type_ids = token_type_ids + ([0] * padding_length)
        elif padding_length < 0:  # skip
            self.skip = True
            return

        self.input_ids = input_ids
        self.token_type_ids = token_type_ids
        self.attention_mask = attention_mask
        self.start_token_idx = start_token_idx
        self.end_token_idx = end_token_idx
        self.context_token_to_char = tokenized_context.offsets


def create_squad_examples(raw_data):
    squad_examples = []
    for item in raw_data["data"]:
        for para in item["paragraphs"]:
            context = para["context"]
#             print('context = ' , context)
            for qa in para["qas"]:
                question = qa["question"]
#                 print('question = ' , question)
                
                answer_text = qa["answers"][0]["text"]
#                 print('answer_text = ', answer_text)
                start_char_idx = qa["answers"][0]["answer_start"]
#                 print('start_char_idx = ', start_char_idx)
                squad_eg = SquadExample(
                    question, context, start_char_idx, answer_text
                )
                squad_eg.preprocess()
                squad_examples.append(squad_eg)
#                 break
#             break
#         break
    return squad_examples


def create_inputs_targets(squad_examples):
    dataset_dict = {
        "input_ids": [],
        "token_type_ids": [],
        "attention_mask": [],
        "start_token_idx": [],
        "end_token_idx": [],
    }
    for item in squad_examples:
        if item.skip == False:
            for key in dataset_dict:
                dataset_dict[key].append(getattr(item, key))
#             print(dataset_dict)
#             break
            
    for key in dataset_dict:
        dataset_dict[key] = np.array(dataset_dict[key])

    x = [
        dataset_dict["input_ids"],
        dataset_dict["token_type_ids"],
        dataset_dict["attention_mask"],
    ]
    y = [dataset_dict["start_token_idx"], dataset_dict["end_token_idx"]]
    return x, y


In [116]:
with open(train_path) as f:
    raw_train_data = json.load(f)

with open(eval_path) as f:
    raw_eval_data = json.load(f)

#         self.input_ids = input_ids
#         self.token_type_ids = token_type_ids
#         self.attention_mask = attention_mask
#         self.start_token_idx = start_token_idx
#         self.end_token_idx = end_token_idx
#         self.context_token_to_char = tokenized_context.offsets
train_squad_examples = create_squad_examples(raw_train_data)
print(len(train_squad_examples))
# print(train_squad_examples[0].input_ids)
# print(train_squad_examples[0].token_type_ids)
# print(train_squad_examples[0].attention_mask)
# print(train_squad_examples[0].start_token_idx)
# print(train_squad_examples[0].end_token_idx)
# print(train_squad_examples[0].context_token_to_char)


60407


In [122]:
x_train, y_train = create_inputs_targets(train_squad_examples)
print(f"{len(train_squad_examples)} training points created.")

eval_squad_examples = create_squad_examples(raw_eval_data)
x_eval, y_eval = create_inputs_targets(eval_squad_examples)
print(f"{len(eval_squad_examples)} evaluation points created.")

60407 training points created.
5774 evaluation points created.


In [130]:
idx = 50

# print(x_train[0][0])
context = tokenizer.decode(x_train[0][idx])
print(context)

tokenized_context = tokenizer.encode(context)
offset = tokenized_context.offsets

start = y_train[0][idx]
end = y_train[1][idx]
print(start, end)

start = offset[start][0]
end = offset[end][1]

print(start, end)
print(context[start:end])


대낮 시간대에는 덴노지 역 ~ 히네노 역 간에서 쾌속과 보통이 각각 시간당 6편씩 운전되고 있다. 히네노 역 이남 구간 ( ~ 와카야마 역 ) 의 운전 편수는 오사카 방면에서 온 대부분의 열차가 히네노 역에서 종착하기 때문에 히네노 역 이북 구간의 열차 편수에 비해 비교적 적은 편이다. 또 히네노 역 이남 지역의 특급의 우선도가 높기 때문에 히네노 역 · 이즈미스나가와 역에서 특급 열차와 보통 열차의 접속이 이루어지는 한편으로 쾌속 열차와의 접속 환경이 열악한 경우도 많기 때문에 쾌속 통과역과의 격차가 커지고 있다. 선내에서만 운전되는 열차 이외에 오사카 순환선, 간사이 공항선, 기세이 본선으로 직결 운행하는 열차도 설정되어 있다. 2008년 3월 15일 시간표 개정까지는 간사이 본선 JR 난바 역 발착의 열차도 존재했었다. 히네노 역 이남 구간과 이북 구간 중 열차 편수가 더 많은 곳은 어디인가?
77 79
132 137
이북 구간


In [149]:
class TFBERTQuestionAnswering(tf.keras.Model):
    def __init__(self, model_name, dir_path, num_class):
        super(TFBERTQuestionAnswering, self).__init__()
        
        self.encoder = TFBertModel.from_pretrained(model_name, cache_dir=dir_path)
        self.start_logit = tf.keras.layers.Dense(num_class, name="start_logit", use_bias=False) #(N,T,D)(D,1)=(N,T,1)
        self.end_logit = tf.keras.layers.Dense(num_class, name="end_logit", use_bias=False)
        self.flatten = tf.keras.layers.Flatten() 
        self.softmax = tf.keras.layers.Activation(tf.keras.activations.softmax)
        
    def call(self, inputs):
        input_ids, token_type_ids, attention_mask = inputs
        embedding = self.encoder(input_ids, token_type_ids=token_type_ids, attention_mask=attention_mask)
#         print(embedding.last_hidden_state)
#         print(embedding[0])
        embedding = embedding[0]
        print(embedding.shape)   # (1,512,768)
        start_logits = self.start_logit(embedding)
        print(start_logits.shape) # (1,512,1)
        start_logits = self.flatten(start_logits)
        print(start_logits.shape) # (1,512)
        
        end_logits = self.end_logit(embedding)
        end_logits = self.flatten(end_logits)
        
        start_probs = self.softmax(start_logits)
        end_probs = self.softmax(end_logits)
    
        return start_probs, end_probs

In [None]:
korquad_model = TFBERTQuestionAnswering(model_name='./bert-base-multilingual-cased/',dir_path='bert_ckpt', num_class=1)
inputs = [x_train[0][0:1] , x_train[1][0:1], x_train[2][0:1]]
print(inputs[0].shape)
start_probs, end_probs = korquad_model(inputs)
print(np.argmax(start_probs.numpy))
print(np.argmax(end_probs.numpy))

In [152]:
korquad_model = TFBERTQuestionAnswering(model_name='./bert-base-multilingual-cased/',dir_path='bert_ckpt', num_class=1)
optimizer = tf.keras.optimizers.Adam(learning_rate=5e-5)
loss = keras.losses.SparseCategoricalCrossentropy(from_logits=False)

Some layers from the model checkpoint at ./bert-base-multilingual-cased/ were not used when initializing TFBertModel: ['nsp___cls', 'mlm___cls']
- This IS expected if you are initializing TFBertModel from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing TFBertModel from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).
All the layers of TFBertModel were initialized from the model checkpoint at ./bert-base-multilingual-cased/.
If your task is similar to the task the model of the checkpoint was trained on, you can already use TFBertModel for predictions without further training.


In [153]:
def normalized_answer(s):    
    def remove_(text):
        ''' 불필요한 기호 제거 '''
        text = re.sub("'", " ", text)
        text = re.sub('"', " ", text)
        text = re.sub('《', " ", text)
        text = re.sub('》', " ", text)
        text = re.sub('<', " ", text)
        text = re.sub('>', " ", text) 
        text = re.sub('〈', " ", text)
        text = re.sub('〉', " ", text)   
        text = re.sub("\(", " ", text)
        text = re.sub("\)", " ", text)
        text = re.sub("‘", " ", text)
        text = re.sub("’", " ", text)      
        return text

    def white_space_fix(text):
        return ' '.join(text.split())

    def remove_punc(text):
        exclude = set(string.punctuation)
        return ''.join(ch for ch in text if ch not in exclude)

    def lower(text):
        return text.lower()

    return white_space_fix(remove_punc(lower(remove_(s))))

In [154]:
class ExactMatch(keras.callbacks.Callback):
    def __init__(self, x_eval, y_eval):
        self.x_eval = x_eval
        self.y_eval = y_eval

    def on_epoch_end(self, epoch, logs=None):
        pred_start, pred_end = self.model.predict(self.x_eval)
        count = 0
        eval_examples_no_skip = [_ for _ in eval_squad_examples if _.skip == False]
        for idx, (start, end) in enumerate(zip(pred_start, pred_end)):
            squad_eg = eval_examples_no_skip[idx]
            offsets = squad_eg.context_token_to_char
            start = np.argmax(start)
            end = np.argmax(end)
            if start >= len(offsets):
                continue
            pred_char_start = offsets[start][0]
            if end < len(offsets):
                pred_char_end = offsets[end][1]
                pred_ans = squad_eg.context[pred_char_start:pred_char_end]
            else:
                pred_ans = squad_eg.context[pred_char_start:]

            normalized_pred_ans = normalized_answer(pred_ans)
            normalized_true_ans = normalized_answer(squad_eg.answer_text)
            if normalized_pred_ans in normalized_true_ans:
                count += 1
        acc = count / len(self.y_eval[0])
        print(f"\nepoch={epoch+1}, exact match score={acc:.2f}")

In [155]:
exact_match_callback = ExactMatch(x_eval, y_eval)

In [156]:
korquad_model.compile(optimizer=optimizer, loss=[loss, loss])

In [157]:
model_name = "tf2_bert_korquad"

checkpoint_path = os.path.join(DATA_OUT_PATH, model_name, 'weights.h5')
checkpoint_dir = os.path.dirname(checkpoint_path)

# Create path if exists
if os.path.exists(checkpoint_dir):
    print("{} -- Folder already exists \n".format(checkpoint_dir))
else:
    os.makedirs(checkpoint_dir, exist_ok=True)
    print("{} -- Folder create complete \n".format(checkpoint_dir))
    
cp_callback = ModelCheckpoint(
    checkpoint_path, verbose=1, save_best_only=True, save_weights_only=True)

./data_out/KOR\tf2_bert_korquad -- Folder already exists 



In [158]:
history = korquad_model.fit(
    x_train,
    y_train,
    epochs=EPOCHS,  # For demonstration, 3 epochs are recommended
    verbose=VERBOSE,
    batch_size=BATCH_SIZE,
    callbacks=[exact_match_callback, cp_callback]
)

Epoch 1/3
(None, 512, 768)
(None, 512, 1)
(None, 512)
(None, 512, 768)
(None, 512, 1)
(None, 512)


KeyboardInterrupt: 

In [None]:
print(history.history)

In [None]:
plot_graphs(history, 'loss', 'output_1_loss', 'output_2_loss')

In [None]:
korquad_model.save_weights('data_out/KOR/tf2_bert_korquad/weights_KorQuAD.h5')

In [None]:
korquad_model.load_weights('data_out/KOR/tf2_bert_korquad/weights_KorQuAD.h5')

In [None]:
korquad_model.loss

In [None]:
plot_graphs(korquad_model.history,'loss', 'output_1_loss', 'output_2_loss')

### 모델 predict 구현

In [159]:
korquad_model.load_weights('data_out/KOR/tf2_bert_korquad/weights.h5')

#### 지문 찾아보기

In [160]:
idx = 10
print(tokenizer.decode(x_eval[0][idx]))

" 내각과 장관들이 소외되고 대통령비서실의 권한이 너무 크다 ", " 행보가 비서 본연의 역할을 벗어난다 " 는 의견이 제기되었다. 대표적인 예가 10차 개헌안 발표이다. 원로 헌법학자인 허영 경희대 석좌교수는 정부의 헌법개정안 준비 과정에 대해 " 청와대 비서실이 아닌 국무회의 중심으로 이뤄졌어야 했다 " 고 지적했다.'국무회의의 심의를 거쳐야 한다'( 제89조 ) 는 헌법 규정에 충실하지 않았다는 것이다. 그러면서 " 법무부 장관을 제쳐놓고 민정수석이 개정안을 설명하는 게 이해가 안 된다 " 고 지적했다. 민정수석은 국회의원에 대해 책임지는 법무부 장관도 아니고, 국민에 대해 책임지는 사람도 아니기 때문에 정당성이 없고, 단지 대통령의 신임이 있을 뿐이라는 것이다. 또한 국무총리 선출 방식에 대한 기자의 질문에 " 문 대통령도 취임 전에 국무총리에게 실질적 권한을 주겠다고 했지만 그러지 못하고 있다. 대통령비서실장만도 못한 권한을 행사하고 있다. " 고 답변했다. 법무부 장관을 제쳐놓고 민정수석이 개정안을 설명하는 게 이해가 안 된다고 지적한 경희대 석좌교수 이름은?


In [161]:
print(x_eval[0][idx])
print(x_eval[1][idx])
print(x_eval[2][idx])

[   101    107   8996  66540  11882   9657  20595  20173   9448  78705
  29208  70672  29455  12424  31503  10459   8917  11102  10739   9004
  32537   9834  11903    107    117    107   9966  30005  11287   9379
  12424   9358  25486  10459  69144   9342  54305  11903    107   9043
   9637 118634  10739   9672  12310  13628    119   9069  37824  15387
   9576  11287  10150  23466   8857 119426  34951   9323  37824  11925
    119   9612  11261   9969  33768 109522  12030   9968  30858   8885
  49515  14423   9426 119215  25242  93835   9670  43875   9969  33768
  21789  16605  34951   9691  29455   8898  77763  33378    107   9751
  12638  14423   9379  12424  31503  10739  63783   8909  32537  56356
  75109   9638 118895 119210  12965  21711  23622    107   8888   9706
  14801  12490    119    112   8909  32537  56356  10459   9491  78505
  69642  21711  16139    112    113   9672  11396  11373  20626    114
   9043   9969  33768   8922  77763   9770  31503  23665  49137  11018
  2419

In [162]:
tokenized_context= tokenizer.encode("법무부 장관을 제쳐놓고 민정수석이 개정안을 설명하는 게 이해가 안 된다고 지적한 경희대 석좌교수 이름은?")

In [163]:
context_token_to_char = tokenized_context.offsets
print(len(context_token_to_char))
print(context_token_to_char)

43
[(0, 0), (0, 1), (1, 2), (2, 3), (4, 5), (5, 6), (6, 7), (8, 9), (9, 10), (10, 11), (11, 12), (13, 14), (14, 15), (15, 16), (16, 17), (17, 18), (19, 20), (20, 21), (21, 22), (22, 23), (24, 25), (25, 26), (26, 28), (29, 30), (31, 32), (32, 33), (33, 34), (35, 36), (37, 39), (39, 40), (41, 42), (42, 43), (43, 44), (45, 46), (46, 47), (47, 48), (49, 50), (50, 51), (51, 52), (52, 53), (54, 57), (57, 58), (0, 0)]


In [164]:
for i in range(len(context_token_to_char)):
    print(tokenizer.decode([tokenized_context.ids[i]]), end=" ")

 법 ##무 ##부 장 ##관 ##을 제 ##쳐 ##놓 ##고 민 ##정 ##수 ##석 ##이 개 ##정 ##안 ##을 설 ##명 ##하는 게 이 ##해 ##가 안 된다 ##고 지 ##적 ##한 경 ##희 ##대 석 ##좌 ##교 ##수 이름은 ?  

In [165]:
class SquadExample_pred:
    def __init__(self, question, context):#, start_char_idx, answer_text):
        self.question = question
        self.context = context
        self.skip = False

    def preprocess(self):
        context = self.context
        question = self.question
        #answer_text = self.answer_text
        #start_char_idx = self.start_char_idx

#         print('context=',context)
#         print('question=',question)
        
        # Clean context, answer and question
        context = " ".join(str(context).split())
        question = " ".join(str(question).split())
        
#         print('context=',context)
#         print('question=',question)

        # Tokenize context
        tokenized_context = tokenizer.encode(context)
#         print("tokenized_context.ids=", tokenized_context.ids)
#         print("tokenized_context.ids.len=", len(tokenized_context.ids))

        # Tokenize question
        tokenized_question = tokenizer.encode(question)
#         print("tokenized_question.ids=", tokenized_question.ids)

        # Create inputs
        input_ids = tokenized_context.ids + tokenized_question.ids[1:]
#         print("input_ids=", input_ids)
        
        
        token_type_ids = [0] * len(tokenized_context.ids) + [1] * len(
            tokenized_question.ids[1:]
        )
#         print("token_type_ids=", token_type_ids)
        
        attention_mask = [1] * len(input_ids)
#         print("attention_mask=", attention_mask)
        

        # Pad and create attention masks.
        # Skip if truncation is needed
        
        padding_length = MAX_LEN - len(input_ids)
        print("padding_length=",padding_length)
        
        if padding_length > 0:  # pad
            input_ids = input_ids + ([0] * padding_length)
            attention_mask = attention_mask + ([0] * padding_length)
            token_type_ids = token_type_ids + ([0] * padding_length)
        elif padding_length < 0:  # skip
            self.skip = True
            return
        
#         print("input_ids=", input_ids)
#         print("token_type_ids=", token_type_ids)
#         print("attention_mask=", attention_mask)

        self.input_ids = input_ids
        self.token_type_ids = token_type_ids
        self.attention_mask = attention_mask
        self.context_token_to_char = tokenized_context.offsets
#         print(self.context_token_to_char)
        
    def get_input_target(self):
        dataset_dict = {
            "input_ids": [],
            "token_type_ids": [],
            "attention_mask": [],
        }
        if self.skip == False:
            for key in dataset_dict:
                dataset_dict[key].append(getattr(self, key))
        for key in dataset_dict:
            dataset_dict[key] = np.array(dataset_dict[key])

        x = [
            dataset_dict["input_ids"],
            dataset_dict["token_type_ids"],
            dataset_dict["attention_mask"],
        ]
#         print(x[0].shape)
        return x

def create_squad_examples_from_arg(question, context):#, start_char_idx, answer_text):
    squad_eg = SquadExample_pred(
        question, context#, start_char_idx, answer_text
    )
    squad_eg.preprocess()
    return squad_eg


def predict_test(model, pred_raw):
    x_pred = pred_raw.get_input_target()
    pred_start, pred_end = model.predict(x_pred)
#     print(pred_start.shape)
#     print(pred_end.shape)
#     print(pred_start)
    pred_start_offset_index = np.argmax(pred_start)
    pred_end_offset_index = np.argmax(pred_end)
    print(pred_start_offset_index, pred_end_offset_index)
#     print(pred_raw.context_token_to_char)
    pred_start_offset = pred_raw.context_token_to_char[pred_start_offset_index]
    pred_end_offset = pred_raw.context_token_to_char[pred_end_offset_index]
    print(pred_start_offset, pred_end_offset)

    answer = pred_context[pred_start_offset[0]:pred_end_offset[1]]
    
    normalized_pred_ans = normalized_answer(answer)
    
    return normalized_pred_ans


pred_context = '''정부가 이산화탄소 스트림의 수출을 가능하게 하는 런던의정서개정(2009년 개정) 수락서를 국제해사기구(IMO) 사무국에 기탁할 예정이라고 29일 밝혔다. 이산화탄소 스트림은 제철소나 발전소 등에서 포집한 이산화탄소다.
1996년 채택된 런던의정서는 자국 해역에서 이산화탄소 스트림 격리(저장)는 허용하는 반면, 이산화탄소 스트림 수출(국가 간 이동)은 금지했다. 
2009년 당사국총회에서 일정 절차에 따라 이산화탄소 스트림 수출을 허용하는 개정안이 채택됐다. '''
pred_question = "이산화탄소 스트림 수출(국가 간 이동)은 금지하는 협정서는?"

pred_data = create_squad_examples_from_arg(pred_question, pred_context)
pred_answer = predict_test(korquad_model, pred_data)
print(pred_answer)

padding_length= 310
(None, 512, 768)
(None, 512, 1)
(None, 512)
88 92
(132, 133) (136, 138)
런던의정서는


In [183]:
idx = 40
print(eval_squad_examples[idx].context)
print(eval_squad_examples[idx].question)
print(eval_squad_examples[idx].answer_text)   
print(eval_squad_examples[idx].start_char_idx, eval_squad_examples[idx].start_char_idx+len(eval_squad_examples[idx].answer_text))   

pred_context = eval_squad_examples[idx].context
pred_question = eval_squad_examples[idx].question

pred_data = create_squad_examples_from_arg(pred_question, pred_context)
pred_answer = predict_test(korquad_model, pred_data)
print(pred_answer)

노아는 하나님의 명령에 따라 배를 만들고 가족과 정결한 짐승 암수 일곱 마리씩, 부정한 짐승 암수 한 마리씩(혹은 두 마리씩; 사본에 따라 다름), 그리고 새 암수 일곱 마리씩을 싣고 밀어닥친 홍수를 피하였다. 모든 사람들이 타락한 생활에 빠져 있어 하나님이 홍수로 심판하려 할 때 홀로 바르게 살던 노아는 하나님의 특별한 계시로 홍수가 올 것을 미리 알게 된다. 그는 길이 300 규빗, 너비 50 규빗, 높이 30 규빗(고대의 1규빗은 팔꿈치에서 가운데 손가락끝까지의 길이로 약 45~46cm를 가리킴), 상 ·중 ·하 3층으로 된 방주를 만들어 8명의 가족과, 한 쌍씩의 여러 동물을 데리고 이 방주에 탄다. 대홍수를 만나 모든 생물(물고기 제외)이 전멸하고 말았지만, 이 방주에 탔던 노아의 가족과 동물들은 살아 남았다고 한다.〈창세기〉 6장 14~16절에 보면 길이 300규빗 (약 135m), 폭 50 규빗 (약 22.5m), 높이 30 규빗 (약 13.5m)인 이 배는 지붕과 문을 달고 배 안은 3층으로 만들어져 있었다. 선체(船體)는 고페르나무(잣나무)로 되고 안쪽에는 역청(아스팔트와 비슷한 성분)을 칠하여 굳혔다고 기록하고 있다.
하나님의 명령에 배를 만들고 가족과 짐승들을 배에 태워 홍수를 피한 사람은 누구인가?
노아
0 2
padding_length= 97
1 2
(0, 1) (1, 2)
노아


In [190]:
pred_context = """손흥민(토트넘 홋스퍼)으로부터 '세리머니 선물'을 받았던 토트넘 꼬마 팬이 '북런던 더비'에서 깜짝 페널티킥(PK)을 선보였다.
영국 매체 '풋볼 런던'은 12일(현지시간) 토트넘과 아스날 간의 잉글랜드 프리미어리그(EPL) 북런던 더비가 끝난 뒤 '어린 토트넘 팬 라일리 키스(Ryley Keys)가 PK를 기록했다'라는 제목의 기사를 보도했다.
이날 토트넘은 아스날과의 홈 경기에서 3대 0 승리를 거뒀다. 손흥민은 이번 경기에서 선발로 출전해 PK 유도, 상대 선수 퇴장 유도, 팀의 세 번째 득점 기록 등의 맹활약을 펼친 뒤 후반 72분 교체됐다.
토트넘의 꼬마 팬 라일리는 이날 토트넘이 2대 0으로 리드를 잡은 전반전이 끝난 뒤 하프 타임에 모습을 드러냈다."""
# pred_question = "라일리가 모습을 드러냈을때 스코어는?"
# pred_question = "토트넘과 아스널의 최종 스코어는?"
pred_question = "손흥민은 누구에게 깜짝 선물을 했는가?"
pred_data = create_squad_examples_from_arg(pred_question, pred_context)
pred_answer = predict_test(korquad_model, pred_data)
print(pred_answer)

padding_length= 249
26 18
(32, 33) (21, 22)

