In [5]:
from transformers import BertTokenizer, BertModel
import collections
import json
import math
import os
import random
import optimization
import six
import tensorflow as tf

In [6]:
PRETRAINED_MODEL_NAME = "bert-base-chinese"  # 指定繁簡中文 BERT-BASE 預訓練模型
model = BertModel.from_pretrained(PRETRAINED_MODEL_NAME, output_attentions=True)
tokenizer = BertTokenizer.from_pretrained(PRETRAINED_MODEL_NAME)


def main(_):
  tf.compat.v1.logging.set_verbosity(tf.compat.v1.logging.INFO)

  bert_config = model.config

  tf.io.gfile.makedirs(output_dir)
  
  
  
  tpu_cluster_resolver = None
  if  use_tpu and  tpu_name:
    tpu_cluster_resolver = tf.cluster_resolver.TPUClusterResolver(
         tpu_name, zone= tpu_zone, project= gcp_project)

  is_per_host = tf.compat.v1.estimator.tpu.InputPipelineConfig.PER_HOST_V2
  run_config = tf.compat.v1.estimator.tpu.RunConfig(
      cluster=tpu_cluster_resolver,
      master= master,
      model_dir= output_dir,
      save_checkpoints_steps= save_checkpoints_steps,
      tpu_config=tf.compat.v1.estimator.tpu.TPUConfig(
          iterations_per_loop= iterations_per_loop,
          num_shards= num_tpu_cores,
          per_host_input_for_training=is_per_host))

  train_examples = None
  num_train_steps = None
  num_warmup_steps = None
  if  do_train:
    train_examples = read_squad_examples(
        input_file= train_file, is_training=True)
    num_train_steps = int(
        len(train_examples) /  train_batch_size *  num_train_epochs)
    num_warmup_steps = int(num_train_steps *  warmup_proportion)

    # Pre-shuffle the input to avoid having to make a very large shuffle
    # buffer in in the `input_fn`.
    rng = random.Random(12345)
    rng.shuffle(train_examples)

  model_fn = model_fn_builder(
      init_checkpoint= init_checkpoint,
      learning_rate= learning_rate,
      num_train_steps=num_train_steps,
      num_warmup_steps=num_warmup_steps,
      use_tpu= use_tpu,
      use_one_hot_embeddings= use_tpu)

  # If TPU is not available, this will fall back to normal Estimator on CPU
  # or GPU.
  estimator = tf.compat.v1.estimator.tpu.TPUEstimator(
      use_tpu= use_tpu,
      model_fn=model_fn,
      config=run_config,
      train_batch_size= train_batch_size,
      predict_batch_size= predict_batch_size)

  if  do_train:
    # We write to a temporary file to avoid storing very large constant tensors
    # in memory.
    train_writer = FeatureWriter(
        filename=os.path.join( output_dir, "train.tf_record"),
        is_training=True)
    convert_examples_to_features(
        examples=train_examples,
        tokenizer=tokenizer,
        max_seq_length= max_seq_length,
        doc_stride= doc_stride,
        max_query_length= max_query_length,
        is_training=True,
        output_fn=train_writer.process_feature)
    train_writer.close()

    tf.compat.v1.logging.info("***** Running training *****")
    tf.compat.v1.logging.info("  Num orig examples = %d", len(train_examples))
    tf.compat.v1.logging.info("  Num split examples = %d", train_writer.num_features)
    tf.compat.v1.logging.info("  Batch size = %d",  train_batch_size)
    tf.compat.v1.logging.info("  Num steps = %d", num_train_steps)
    del train_examples

    train_input_fn = input_fn_builder(
        input_file=train_writer.filename,
        seq_length= max_seq_length,
        is_training=True,
        drop_remainder=True)
    estimator.train(input_fn=train_input_fn, max_steps=num_train_steps)

  if  do_predict:
    eval_examples = read_squad_examples(
        input_file= predict_file, is_training=False)

    eval_writer = FeatureWriter(
        filename=os.path.join( output_dir, "eval.tf_record"),
        is_training=False)
    eval_features = []

    def append_feature(feature):
      eval_features.append(feature)
      eval_writer.process_feature(feature)

    convert_examples_to_features(
        examples=eval_examples,
        tokenizer=tokenizer,
        max_seq_length= max_seq_length,
        doc_stride= doc_stride,
        max_query_length= max_query_length,
        is_training=False,
        output_fn=append_feature)
    eval_writer.close()

    tf.compat.v1.logging.info("***** Running predictions *****")
    tf.compat.v1.logging.info("  Num orig examples = %d", len(eval_examples))
    tf.compat.v1.logging.info("  Num split examples = %d", len(eval_features))
    tf.compat.v1.logging.info("  Batch size = %d",  predict_batch_size)

    all_results = []

    predict_input_fn = input_fn_builder(
        input_file=eval_writer.filename,
        seq_length= max_seq_length,
        is_training=False,
        drop_remainder=False)

    # If running eval on the TPU, you will need to specify the number of
    # steps.
    all_results = []
    for result in estimator.predict(
        predict_input_fn, yield_single_examples=True):
      if len(all_results) % 1000 == 0:
        tf.compat.v1.logging.info("Processing example: %d" % (len(all_results)))
      unique_id = int(result["unique_ids"])
      start_logits = [float(x) for x in result["start_logits"].flat]
      end_logits = [float(x) for x in result["end_logits"].flat]
      all_results.append(
          RawResult(
              unique_id=unique_id,
              start_logits=start_logits,
              end_logits=end_logits))

    output_prediction_file = os.path.join( output_dir, "predictions.json")
    output_nbest_file = os.path.join( output_dir, "nbest_predictions.json")
    output_null_log_odds_file = os.path.join( output_dir, "null_odds.json")

    write_predictions(eval_examples, eval_features, all_results,
                       n_best_size,  max_answer_length,
                       do_lower_case, output_prediction_file,
                      output_nbest_file, output_null_log_odds_file)

I0418 16:45:15.261046 139979497596288 configuration_utils.py:185] loading configuration file https://s3.amazonaws.com/models.huggingface.co/bert/bert-base-chinese-config.json from cache at /home/jupyter/.cache/torch/transformers/8a3b1cfe5da58286e12a0f5d7d182b8d6eca88c08e26c332ee3817548cf7e60a.3767c74c8ed285531d04153fe84a0791672aff52f7249b27df341dbce09b8305
I0418 16:45:15.262520 139979497596288 configuration_utils.py:199] Model config {
  "architectures": [
    "BertForMaskedLM"
  ],
  "attention_probs_dropout_prob": 0.1,
  "directionality": "bidi",
  "finetuning_task": null,
  "hidden_act": "gelu",
  "hidden_dropout_prob": 0.1,
  "hidden_size": 768,
  "id2label": {
    "0": "LABEL_0",
    "1": "LABEL_1"
  },
  "initializer_range": 0.02,
  "intermediate_size": 3072,
  "is_decoder": false,
  "label2id": {
    "LABEL_0": 0,
    "LABEL_1": 1
  },
  "layer_norm_eps": 1e-12,
  "max_position_embeddings": 512,
  "num_attention_heads": 12,
  "num_hidden_layers": 12,
  "num_labels": 2,
  "output

In [30]:
class SquadExample(object):
  """A single training/test example for simple sequence classification.

     For examples without an answer, the start and end position are -1.
  """

  def __init__(self,
               qas_id,
               question_text,
               doc_tokens,
               orig_answer_text=None,
               start_position=None,
               end_position=None,
               answerable=True):
    self.qas_id = qas_id
    self.question_text = question_text
    self.doc_tokens = doc_tokens
    self.orig_answer_text = orig_answer_text
    self.start_position = start_position
    self.end_position = end_position
    self.answerable = answerable

  def __str__(self):
    return self.__repr__()

  def __repr__(self):
    s = ""
    s += "qas_id: %s" % (printable_text(self.qas_id))
    s += ", question_text: %s" % (
        printable_text(self.question_text))
    s += ", doc_tokens: [%s]" % (" ".join(self.doc_tokens))
    if self.start_position:
      s += ", start_position: %d" % (self.start_position)
    if self.start_position:
      s += ", end_position: %d" % (self.end_position)
    if self.start_position:
      s += ", answerable: %r" % (self.answerable)
    return s


class InputFeatures(object):
  """A single set of features of data."""

  def __init__(self,
               unique_id,
               example_index,
               doc_span_index,
               tokens,
               token_to_orig_map,
               token_is_max_context,
               input_ids,
               input_mask,
               segment_ids,
               start_position=None,
               end_position=None,
               answerable=None):
    self.unique_id = unique_id
    self.example_index = example_index
    self.doc_span_index = doc_span_index
    self.tokens = tokens
    self.token_to_orig_map = token_to_orig_map
    self.token_is_max_context = token_is_max_context
    self.input_ids = input_ids
    self.input_mask = input_mask
    self.segment_ids = segment_ids
    self.start_position = start_position
    self.end_position = end_position
    self.answerable = answerable

def whitespace_tokenize(text):
  """Runs basic whitespace cleaning and splitting on a piece of text."""
  text = text.strip()
  if not text:
    return []
  tokens = text.split()
  return tokens

def printable_text(text):
  """Returns text encoded in a way suitable for print or `tf.logging`."""

  # These functions want `str` for both Python2 and Python3, but in one case
  # it's a Unicode string and in the other it's a byte string.
  if six.PY3:
    if isinstance(text, str):
      return text
    elif isinstance(text, bytes):
      return text.decode("utf-8", "ignore")
    else:
      raise ValueError("Unsupported string type: %s" % (type(text)))
  elif six.PY2:
    if isinstance(text, str):
      return text
    elif isinstance(text, unicode):
      return text.encode("utf-8")
    else:
      raise ValueError("Unsupported string type: %s" % (type(text)))
  else:
    raise ValueError("Not running on Python2 or Python 3?")
    
    
def read_squad_examples(input_file, is_training):
  """Read a SQuAD json file into a list of SquadExample."""
  with tf.compat.v1.gfile.Open(input_file, "r") as reader:
    input_data = json.load(reader)["data"]

  def is_whitespace(c):
    if c == " " or c == "\t" or c == "\r" or c == "\n" or ord(c) == 0x202F or ord(c) == 0x80:
      return True
    return False

  examples = []
    
  for entry in input_data:
    for paragraph in entry["paragraphs"]:
      paragraph_text = paragraph["context"]

      char_to_word_offset = []

      doc_tokens = tokenizer.tokenize(paragraph_text)
    
      tokenIdx = 0
      for token in doc_tokens:
        tmp = token.replace(" ##", "")
        tmp = tmp.replace("##", "")
        tmp = tmp.replace("[UNK]", " ")
        l = len(tmp)
        for i in range(l):
            char_to_word_offset.append(tokenIdx)
        tokenIdx+=1
      
#       print(doc_tokens)
#       print("=============================")
#       print(paragraph_text)
#       print(char_to_word_offset)
      for qa in paragraph["qas"]:
        qas_id = qa["id"]
        question_text = qa["question"]
        start_position = None
        end_position = None
        orig_answer_text = None
        answerable = True
        if is_training:

          if  version_2_with_negative:
            answerable = qa["answerable"]
          if (len(qa["answers"]) != 1) and answerable:
            raise ValueError(
                "For training, each question should have exactly 1 answer.")
          if answerable:
            answer = qa["answers"][0]
            orig_answer_text = answer["text"]
            answer_offset = answer["answer_start"]
            answer_length = len(orig_answer_text)
            start_position = char_to_word_offset[answer_offset]
            end_position = char_to_word_offset[answer_offset + answer_length - 1]

            
            # Only add answers where the text can be exactly recovered from the
            # document. If this CAN'T happen it's likely due to weird Unicode
            # stuff so we will just skip the example.
            #
            # Note that this means for training mode, every example is NOT
            # guaranteed to be preserved.
            actual_text = "".join(
                doc_tokens[start_position:(end_position + 1)])
#             cleaned_answer_text = " ".join(whitespace_tokenize(orig_answer_text))

            if actual_text.find(orig_answer_text) == -1:
              tf.compat.v1.logging.warning("Could not find answer: '%s' vs. '%s'",
                                 actual_text, orig_answer_text)
              continue
          else:
            start_position = -1
            end_position = -1
            orig_answer_text = ""

        example = SquadExample(
            qas_id=qas_id,
            question_text=question_text,
            doc_tokens=doc_tokens,
            orig_answer_text=orig_answer_text,
            start_position=start_position,
            end_position=end_position,
            answerable=answerable)
        examples.append(example)
  return examples


def convert_examples_to_features(examples, tokenizer, max_seq_length,
                                 doc_stride, max_query_length, is_training,
                                 output_fn):
  """Loads a data file into a list of `InputBatch`s."""

  unique_id = 1000000000

  for (example_index, example) in enumerate(examples):
    query_tokens = tokenizer.tokenize(example.question_text)

    if len(query_tokens) > max_query_length:
      query_tokens = query_tokens[0:max_query_length]

    tok_to_orig_index = []
    orig_to_tok_index = []
    all_doc_tokens = []
    for (i, token) in enumerate(example.doc_tokens):
      orig_to_tok_index.append(len(all_doc_tokens))
      sub_tokens = tokenizer.tokenize(token)
      for sub_token in sub_tokens:
        tok_to_orig_index.append(i)
        all_doc_tokens.append(sub_token)

    tok_start_position = None
    tok_end_position = None
    if is_training and not example.answerable:
      tok_start_position = -1
      tok_end_position = -1
    if is_training and example.answerable:
      tok_start_position = orig_to_tok_index[example.start_position]
      if example.end_position < len(example.doc_tokens) - 1:
        tok_end_position = orig_to_tok_index[example.end_position + 1] - 1
      else:
        tok_end_position = len(all_doc_tokens) - 1
      (tok_start_position, tok_end_position) = _improve_answer_span(
          all_doc_tokens, tok_start_position, tok_end_position, tokenizer,
          example.orig_answer_text)

    # The -3 accounts for [CLS], [SEP] and [SEP]
    max_tokens_for_doc = max_seq_length - len(query_tokens) - 3

    # We can have documents that are longer than the maximum sequence length.
    # To deal with this we do a sliding window approach, where we take chunks
    # of the up to our max length with a stride of `doc_stride`.
    _DocSpan = collections.namedtuple(  # pylint: disable=invalid-name
        "DocSpan", ["start", "length"])
    doc_spans = []
    start_offset = 0
    while start_offset < len(all_doc_tokens):
      length = len(all_doc_tokens) - start_offset
      if length > max_tokens_for_doc:
        length = max_tokens_for_doc
      doc_spans.append(_DocSpan(start=start_offset, length=length))
      if start_offset + length == len(all_doc_tokens):
        break
      start_offset += min(length, doc_stride)

    for (doc_span_index, doc_span) in enumerate(doc_spans):
      tokens = []
      token_to_orig_map = {}
      token_is_max_context = {}
      segment_ids = []
      tokens.append("[CLS]")
      segment_ids.append(0)
      for token in query_tokens:
        tokens.append(token)
        segment_ids.append(0)
      tokens.append("[SEP]")
      segment_ids.append(0)

      for i in range(doc_span.length):
        split_token_index = doc_span.start + i
        token_to_orig_map[len(tokens)] = tok_to_orig_index[split_token_index]

        is_max_context = _check_is_max_context(doc_spans, doc_span_index,
                                               split_token_index)
        token_is_max_context[len(tokens)] = is_max_context
        tokens.append(all_doc_tokens[split_token_index])
        segment_ids.append(1)
      tokens.append("[SEP]")
      segment_ids.append(1)

      input_ids = tokenizer.convert_tokens_to_ids(tokens)

      # The mask has 1 for real tokens and 0 for padding tokens. Only real
      # tokens are attended to.
      input_mask = [1] * len(input_ids)

      # Zero-pad up to the sequence length.
      while len(input_ids) < max_seq_length:
        input_ids.append(0)
        input_mask.append(0)
        segment_ids.append(0)

      assert len(input_ids) == max_seq_length
      assert len(input_mask) == max_seq_length
      assert len(segment_ids) == max_seq_length

      start_position = None
      end_position = None
      if is_training and example.answerable:
        # For training, if our document chunk does not contain an annotation
        # we throw it out, since there is nothing to predict.
        doc_start = doc_span.start
        doc_end = doc_span.start + doc_span.length - 1
        out_of_span = False
        if not (tok_start_position >= doc_start and
                tok_end_position <= doc_end):
          out_of_span = True
        if out_of_span:
          start_position = 0
          end_position = 0
        else:
          doc_offset = len(query_tokens) + 2
          start_position = tok_start_position - doc_start + doc_offset
          end_position = tok_end_position - doc_start + doc_offset

      if is_training and not example.answerable:
        start_position = 0
        end_position = 0

      if example_index < 20:
        tf.compat.v1.logging.info("*** Example ***")
        tf.compat.v1.logging.info("unique_id: %s" % (unique_id))
        tf.compat.v1.logging.info("example_index: %s" % (example_index))
#         tf.compat.v1.logging.info("doc_span_index: %s" % (doc_span_index))
#         tf.compat.v1.logging.info("tokens: %s" % " ".join(
#             [BertTokenizer.printable_text(x) for x in tokens]))
#         tf.compat.v1.logging.info("token_to_orig_map: %s" % " ".join(
#             ["%d:%d" % (x, y) for (x, y) in six.iteritems(token_to_orig_map)]))
#         tf.compat.v1.logging.info("token_is_max_context: %s" % " ".join([
#             "%d:%s" % (x, y) for (x, y) in six.iteritems(token_is_max_context)
#         ]))
#         tf.compat.v1.logging.info("input_ids: %s" % " ".join([str(x) for x in input_ids]))
#         tf.compat.v1.logging.info(
#             "input_mask: %s" % " ".join([str(x) for x in input_mask]))
#         tf.compat.v1.logging.info(
#             "segment_ids: %s" % " ".join([str(x) for x in segment_ids]))
        if is_training and not example.answerable:
          tf.compat.v1.logging.info("impossible example")
        if is_training and example.answerable:
          answer_text = " ".join(tokens[start_position:(end_position + 1)])
          tf.compat.v1.logging.info("start_position: %d" % (start_position))
          tf.compat.v1.logging.info("end_position: %d" % (end_position))
          tf.compat.v1.logging.info(
              "answer: %s" % (printable_text(answer_text)))

      feature = InputFeatures(
          unique_id=unique_id,
          example_index=example_index,
          doc_span_index=doc_span_index,
          tokens=tokens,
          token_to_orig_map=token_to_orig_map,
          token_is_max_context=token_is_max_context,
          input_ids=input_ids,
          input_mask=input_mask,
          segment_ids=segment_ids,
          start_position=start_position,
          end_position=end_position,
          answerable=example.answerable)

      # Run callback
      output_fn(feature)

      unique_id += 1


def _improve_answer_span(doc_tokens, input_start, input_end, tokenizer,
                         orig_answer_text):
  """Returns tokenized answer spans that better match the annotated answer."""

  # The SQuAD annotations are character based. We first project them to
  # whitespace-tokenized words. But then after WordPiece BertTokenizer, we can
  # often find a "better match". For example:
  #
  #   Question: What year was John Smith born?
  #   Context: The leader was John Smith (1895-1943).
  #   Answer: 1895
  #
  # The original whitespace-tokenized answer will be "(1895-1943).". However
  # after BertTokenizer, our tokens will be "( 1895 - 1943 ) .". So we can match
  # the exact answer, 1895.
  #
  # However, this is not always possible. Consider the following:
  #
  #   Question: What country is the top exporter of electornics?
  #   Context: The Japanese electronics industry is the lagest in the world.
  #   Answer: Japan
  #
  # In this case, the annotator chose "Japan" as a character sub-span of
  # the word "Japanese". Since our WordPiece tokenizer does not split
  # "Japanese", we just use "Japanese" as the annotation. This is fairly rare
  # in SQuAD, but does happen.
  tok_answer_text = " ".join(tokenizer.tokenize(orig_answer_text))

  for new_start in range(input_start, input_end + 1):
    for new_end in range(input_end, new_start - 1, -1):
      text_span = " ".join(doc_tokens[new_start:(new_end + 1)])
      if text_span == tok_answer_text:
        return (new_start, new_end)

  return (input_start, input_end)


def _check_is_max_context(doc_spans, cur_span_index, position):
  """Check if this is the 'max context' doc span for the token."""

  # Because of the sliding window approach taken to scoring documents, a single
  # token can appear in multiple documents. E.g.
  #  Doc: the man went to the store and bought a gallon of milk
  #  Span A: the man went to the
  #  Span B: to the store and bought
  #  Span C: and bought a gallon of
  #  ...
  #
  # Now the word 'bought' will have two scores from spans B and C. We only
  # want to consider the score with "maximum context", which we define as
  # the *minimum* of its left and right context (the *sum* of left and
  # right context will always be the same, of course).
  #
  # In the example the maximum context for 'bought' would be span C since
  # it has 1 left context and 3 right context, while span B has 4 left context
  # and 0 right context.
  best_score = None
  best_span_index = None
  for (span_index, doc_span) in enumerate(doc_spans):
    end = doc_span.start + doc_span.length - 1
    if position < doc_span.start:
      continue
    if position > end:
      continue
    num_left_context = position - doc_span.start
    num_right_context = end - position
    score = min(num_left_context, num_right_context) + 0.01 * doc_span.length
    if best_score is None or score > best_score:
      best_score = score
      best_span_index = span_index

  return cur_span_index == best_span_index


def create_model(is_training, input_ids, segment_ids,
                 use_one_hot_embeddings):
  """Creates a classification model."""

  

  final_hidden = model.get_sequence_output()

  final_hidden_shape = BertModel.get_shape_list(final_hidden, expected_rank=3)
  batch_size = final_hidden_shape[0]
  seq_length = final_hidden_shape[1]
  hidden_size = final_hidden_shape[2]

  output_weights = tf.get_variable(
      "cls/squad/output_weights", [2, hidden_size],
      initializer=tf.truncated_normal_initializer(stddev=0.02))

  output_bias = tf.get_variable(
      "cls/squad/output_bias", [2], initializer=tf.zeros_initializer())

  final_hidden_matrix = tf.reshape(final_hidden,
                                   [batch_size * seq_length, hidden_size])
  logits = tf.matmul(final_hidden_matrix, output_weights, transpose_b=True)
  logits = tf.nn.bias_add(logits, output_bias)

  logits = tf.reshape(logits, [batch_size, seq_length, 2])
  logits = tf.transpose(logits, [2, 0, 1])

  unstacked_logits = tf.unstack(logits, axis=0)

  (start_logits, end_logits) = (unstacked_logits[0], unstacked_logits[1])

  return (start_logits, end_logits)


def model_fn_builder(init_checkpoint, learning_rate,
                     num_train_steps, num_warmup_steps, use_tpu,
                     use_one_hot_embeddings):
  """Returns `model_fn` closure for TPUEstimator."""

  def model_fn(features, labels, mode, params):  # pylint: disable=unused-argument
    """The `model_fn` for TPUEstimator."""

    tf.compat.v1.logging.info("*** Features ***")
    for name in sorted(features.keys()):
      tf.compat.v1.logging.info("  name = %s, shape = %s" % (name, features[name].shape))

    unique_ids = features["unique_ids"]
    input_ids = features["input_ids"]
    input_mask = features["input_mask"]
    segment_ids = features["segment_ids"]

    is_training = (mode == tf.estimator.ModeKeys.TRAIN)

    (start_logits, end_logits) = create_model(
        is_training=is_training,
        input_ids=input_ids,
        segment_ids=segment_ids,
        use_one_hot_embeddings=use_one_hot_embeddings)

    tvars = tf.compat.v1.trainable_variables()

    initialized_variable_names = {}
    scaffold_fn = None
    if init_checkpoint:
      (assignment_map, initialized_variable_names
      ) = BertModel.get_assignment_map_from_checkpoint(tvars, init_checkpoint)
      if use_tpu:

        def tpu_scaffold():
          tf.compat.v1.train.init_from_checkpoint(init_checkpoint, assignment_map)
          return tf.compat.v1.train.Scaffold()

        scaffold_fn = tpu_scaffold
      else:
        tf.compat.v1.train.init_from_checkpoint(init_checkpoint, assignment_map)

    tf.compat.v1.logging.info("**** Trainable Variables ****")
    for var in tvars:
      init_string = ""
      if var.name in initialized_variable_names:
        init_string = ", *INIT_FROM_CKPT*"
      tf.compat.v1.logging.info("  name = %s, shape = %s%s", var.name, var.shape,
                      init_string)

    output_spec = None
    if mode == tf.estimator.ModeKeys.TRAIN:
      seq_length = BertModel.get_shape_list(input_ids)[1]

      def compute_loss(logits, positions):
        one_hot_positions = tf.one_hot(
            positions, depth=seq_length, dtype=tf.float32)
        log_probs = tf.nn.log_softmax(logits, axis=-1)
        loss = -tf.reduce_mean(
            tf.reduce_sum(one_hot_positions * log_probs, axis=-1))
        return loss

      start_positions = features["start_positions"]
      end_positions = features["end_positions"]

      start_loss = compute_loss(start_logits, start_positions)
      end_loss = compute_loss(end_logits, end_positions)

      total_loss = (start_loss + end_loss) / 2.0

      train_op = optimization.create_optimizer(
          total_loss, learning_rate, num_train_steps, num_warmup_steps, use_tpu)

      output_spec = tf.compat.v1.estimator.tpu.TPUEstimatorSpec(
          mode=mode,
          loss=total_loss,
          train_op=train_op,
          scaffold_fn=scaffold_fn)
    elif mode == tf.estimator.ModeKeys.PREDICT:
      predictions = {
          "unique_ids": unique_ids,
          "start_logits": start_logits,
          "end_logits": end_logits,
      }
      output_spec = tf.compat.v1.estimator.tpu.TPUEstimatorSpec(
          mode=mode, predictions=predictions, scaffold_fn=scaffold_fn)
    else:
      raise ValueError(
          "Only TRAIN and PREDICT modes are supported: %s" % (mode))

    return output_spec

  return model_fn


def input_fn_builder(input_file, seq_length, is_training, drop_remainder):
  """Creates an `input_fn` closure to be passed to TPUEstimator."""

  name_to_features = {
      "unique_ids": tf.io.FixedLenFeature([], tf.int64),
      "input_ids": tf.io.FixedLenFeature([seq_length], tf.int64),
      "input_mask": tf.io.FixedLenFeature([seq_length], tf.int64),
      "segment_ids": tf.io.FixedLenFeature([seq_length], tf.int64),
  }

  if is_training:
    name_to_features["start_positions"] = tf.io.FixedLenFeature([], tf.int64)
    name_to_features["end_positions"] = tf.io.FixedLenFeature([], tf.int64)

  def _decode_record(record, name_to_features):
    """Decodes a record to a TensorFlow example."""
    example = tf.io.parse_single_example(record, name_to_features)

    # tf.Example only supports tf.int64, but the TPU only supports tf.int32.
    # So cast all int64 to int32.
    for name in list(example.keys()):
      t = example[name]
      if t.dtype == tf.int64:
        t = tf.compat.v1.to_int32(t)
      example[name] = t

    return example

  def input_fn(params):
    """The actual input function."""
    batch_size = params["batch_size"]

    # For training, we want a lot of parallel reading and shuffling.
    # For eval, we want no shuffling and parallel reading doesn't matter.
    d = tf.data.TFRecordDataset(input_file)
    if is_training:
      d = d.repeat()
      d = d.shuffle(buffer_size=100)

    d = d.apply(
        tf.data.experimental.map_and_batch(
            lambda record: _decode_record(record, name_to_features),
            batch_size=batch_size,
            drop_remainder=drop_remainder))

    return d

  return input_fn


RawResult = collections.namedtuple("RawResult",
                                   ["unique_id", "start_logits", "end_logits"])


def write_predictions(all_examples, all_features, all_results, n_best_size,
                      max_answer_length, do_lower_case, output_prediction_file,
                      output_nbest_file, output_null_log_odds_file):
  """Write final predictions to the json file and log-odds of null if needed."""
  tf.compat.v1.logging.info("Writing predictions to: %s" % (output_prediction_file))
  tf.compat.v1.logging.info("Writing nbest to: %s" % (output_nbest_file))

  example_index_to_features = collections.defaultdict(list)
  for feature in all_features:
    example_index_to_features[feature.example_index].append(feature)

  unique_id_to_result = {}
  for result in all_results:
    unique_id_to_result[result.unique_id] = result

  _PrelimPrediction = collections.namedtuple(  # pylint: disable=invalid-name
      "PrelimPrediction",
      ["feature_index", "start_index", "end_index", "start_logit", "end_logit"])

  all_predictions = collections.OrderedDict()
  all_nbest_json = collections.OrderedDict()
  scores_diff_json = collections.OrderedDict()

  for (example_index, example) in enumerate(all_examples):
    features = example_index_to_features[example_index]

    prelim_predictions = []
    # keep track of the minimum score of null start+end of position 0
    score_null = 1000000  # large and positive
    min_null_feature_index = 0  # the paragraph slice with min mull score
    null_start_logit = 0  # the start logit at the slice with min null score
    null_end_logit = 0  # the end logit at the slice with min null score
    for (feature_index, feature) in enumerate(features):
      result = unique_id_to_result[feature.unique_id]
      start_indexes = _get_best_indexes(result.start_logits, n_best_size)
      end_indexes = _get_best_indexes(result.end_logits, n_best_size)
      # if we could have irrelevant answers, get the min score of irrelevant
      if  version_2_with_negative:
        feature_null_score = result.start_logits[0] + result.end_logits[0]
        if feature_null_score < score_null:
          score_null = feature_null_score
          min_null_feature_index = feature_index
          null_start_logit = result.start_logits[0]
          null_end_logit = result.end_logits[0]
      for start_index in start_indexes:
        for end_index in end_indexes:
          # We could hypothetically create invalid predictions, e.g., predict
          # that the start of the span is in the question. We throw out all
          # invalid predictions.
          if start_index >= len(feature.tokens):
            continue
          if end_index >= len(feature.tokens):
            continue
          if start_index not in feature.token_to_orig_map:
            continue
          if end_index not in feature.token_to_orig_map:
            continue
          if not feature.token_is_max_context.get(start_index, False):
            continue
          if end_index < start_index:
            continue
          length = end_index - start_index + 1
          if length > max_answer_length:
            continue
          prelim_predictions.append(
              _PrelimPrediction(
                  feature_index=feature_index,
                  start_index=start_index,
                  end_index=end_index,
                  start_logit=result.start_logits[start_index],
                  end_logit=result.end_logits[end_index]))

    if  version_2_with_negative:
      prelim_predictions.append(
          _PrelimPrediction(
              feature_index=min_null_feature_index,
              start_index=0,
              end_index=0,
              start_logit=null_start_logit,
              end_logit=null_end_logit))
    prelim_predictions = sorted(
        prelim_predictions,
        key=lambda x: (x.start_logit + x.end_logit),
        reverse=True)

    _NbestPrediction = collections.namedtuple(  # pylint: disable=invalid-name
        "NbestPrediction", ["text", "start_logit", "end_logit"])

    seen_predictions = {}
    nbest = []
    for pred in prelim_predictions:
      if len(nbest) >= n_best_size:
        break
      feature = features[pred.feature_index]
      if pred.start_index > 0:  # this is a non-null prediction
        tok_tokens = feature.tokens[pred.start_index:(pred.end_index + 1)]
        orig_doc_start = feature.token_to_orig_map[pred.start_index]
        orig_doc_end = feature.token_to_orig_map[pred.end_index]
        orig_tokens = example.doc_tokens[orig_doc_start:(orig_doc_end + 1)]
        tok_text = " ".join(tok_tokens)

        # De-tokenize WordPieces that have been split off.
        tok_text = tok_text.replace(" ##", "")
        tok_text = tok_text.replace("##", "")

        # Clean whitespace
        tok_text = tok_text.strip()
        tok_text = " ".join(tok_text.split())
        orig_text = " ".join(orig_tokens)

        final_text = get_final_text(tok_text, orig_text, do_lower_case)
        if final_text in seen_predictions:
          continue

        seen_predictions[final_text] = True
      else:
        final_text = ""
        seen_predictions[final_text] = True

      nbest.append(
          _NbestPrediction(
              text=final_text,
              start_logit=pred.start_logit,
              end_logit=pred.end_logit))

    # if we didn't inlude the empty option in the n-best, inlcude it
    if  version_2_with_negative:
      if "" not in seen_predictions:
        nbest.append(
            _NbestPrediction(
                text="", start_logit=null_start_logit,
                end_logit=null_end_logit))
    # In very rare edge cases we could have no valid predictions. So we
    # just create a nonce prediction in this case to avoid failure.
    if not nbest:
      nbest.append(
          _NbestPrediction(text="empty", start_logit=0.0, end_logit=0.0))

    assert len(nbest) >= 1

    total_scores = []
    best_non_null_entry = None
    for entry in nbest:
      total_scores.append(entry.start_logit + entry.end_logit)
      if not best_non_null_entry:
        if entry.text:
          best_non_null_entry = entry

    probs = _compute_softmax(total_scores)

    nbest_json = []
    for (i, entry) in enumerate(nbest):
      output = collections.OrderedDict()
      output["text"] = entry.text
      output["probability"] = probs[i]
      output["start_logit"] = entry.start_logit
      output["end_logit"] = entry.end_logit
      nbest_json.append(output)

    assert len(nbest_json) >= 1

    if not  version_2_with_negative:
      all_predictions[example.qas_id] = nbest_json[0]["text"]
    else:
      # predict "" iff the null score - the score of best non-null > threshold
      score_diff = score_null - best_non_null_entry.start_logit - (
          best_non_null_entry.end_logit)
      scores_diff_json[example.qas_id] = score_diff
      if score_diff >  null_score_diff_threshold:
        all_predictions[example.qas_id] = ""
      else:
        all_predictions[example.qas_id] = best_non_null_entry.text

    all_nbest_json[example.qas_id] = nbest_json

  with tf.io.gfile.GFile(output_prediction_file, "w") as writer:
    writer.write(json.dumps(all_predictions, indent=4) + "\n")

  with tf.io.gfile.GFile(output_nbest_file, "w") as writer:
    writer.write(json.dumps(all_nbest_json, indent=4) + "\n")

  if  version_2_with_negative:
    with tf.io.gfile.GFile(output_null_log_odds_file, "w") as writer:
      writer.write(json.dumps(scores_diff_json, indent=4) + "\n")


def get_final_text(pred_text, orig_text, do_lower_case):
  """Project the tokenized prediction back to the original text."""

  # When we created the data, we kept track of the alignment between original
  # (whitespace tokenized) tokens and our WordPiece tokenized tokens. So
  # now `orig_text` contains the span of our original text corresponding to the
  # span that we predicted.
  #
  # However, `orig_text` may contain extra characters that we don't want in
  # our prediction.
  #
  # For example, let's say:
  #   pred_text = steve smith
  #   orig_text = Steve Smith's
  #
  # We don't want to return `orig_text` because it contains the extra "'s".
  #
  # We don't want to return `pred_text` because it's already been normalized
  # (the SQuAD eval script also does punctuation stripping/lower casing but
  # our tokenizer does additional normalization like stripping accent
  # characters).
  #
  # What we really want to return is "Steve Smith".
  #
  # Therefore, we have to apply a semi-complicated alignment heruistic between
  # `pred_text` and `orig_text` to get a character-to-charcter alignment. This
  # can fail in certain cases in which case we just return `orig_text`.

  def _strip_spaces(text):
    ns_chars = []
    ns_to_s_map = collections.OrderedDict()
    for (i, c) in enumerate(text):
      if c == " ":
        continue
      ns_to_s_map[len(ns_chars)] = i
      ns_chars.append(c)
    ns_text = "".join(ns_chars)
    return (ns_text, ns_to_s_map)

  # We first tokenize `orig_text`, strip whitespace from the result
  # and `pred_text`, and check if they are the same length. If they are
  # NOT the same length, the heuristic has failed. If they are the same
  # length, we assume the characters are one-to-one aligned.

  tok_text = " ".join(tokenizer.tokenize(orig_text))

  start_position = tok_text.find(pred_text)
  if start_position == -1:
    if  verbose_logging:
      tf.compat.v1.logging.info(
          "Unable to find text: '%s' in '%s'" % (pred_text, orig_text))
    return orig_text
  end_position = start_position + len(pred_text) - 1

  (orig_ns_text, orig_ns_to_s_map) = _strip_spaces(orig_text)
  (tok_ns_text, tok_ns_to_s_map) = _strip_spaces(tok_text)

  if len(orig_ns_text) != len(tok_ns_text):
    if  verbose_logging:
      tf.compat.v1.logging.info("Length not equal after stripping spaces: '%s' vs '%s'",
                      orig_ns_text, tok_ns_text)
    return orig_text

  # We then project the characters in `pred_text` back to `orig_text` using
  # the character-to-character alignment.
  tok_s_to_ns_map = {}
  for (i, tok_index) in six.iteritems(tok_ns_to_s_map):
    tok_s_to_ns_map[tok_index] = i

  orig_start_position = None
  if start_position in tok_s_to_ns_map:
    ns_start_position = tok_s_to_ns_map[start_position]
    if ns_start_position in orig_ns_to_s_map:
      orig_start_position = orig_ns_to_s_map[ns_start_position]

  if orig_start_position is None:
    if  verbose_logging:
      tf.compat.v1.logging.info("Couldn't map start position")
    return orig_text

  orig_end_position = None
  if end_position in tok_s_to_ns_map:
    ns_end_position = tok_s_to_ns_map[end_position]
    if ns_end_position in orig_ns_to_s_map:
      orig_end_position = orig_ns_to_s_map[ns_end_position]

  if orig_end_position is None:
    if  verbose_logging:
      tf.compat.v1.logging.info("Couldn't map end position")
    return orig_text

  output_text = orig_text[orig_start_position:(orig_end_position + 1)]
  return output_text


def _get_best_indexes(logits, n_best_size):
  """Get the n-best logits from a list."""
  index_and_score = sorted(enumerate(logits), key=lambda x: x[1], reverse=True)

  best_indexes = []
  for i in range(len(index_and_score)):
    if i >= n_best_size:
      break
    best_indexes.append(index_and_score[i][0])
  return best_indexes


def _compute_softmax(scores):
  """Compute softmax probability over raw logits."""
  if not scores:
    return []

  max_score = None
  for score in scores:
    if max_score is None or score > max_score:
      max_score = score

  exp_scores = []
  total_sum = 0.0
  for score in scores:
    x = math.exp(score - max_score)
    exp_scores.append(x)
    total_sum += x

  probs = []
  for score in exp_scores:
    probs.append(score / total_sum)
  return probs


class FeatureWriter(object):
  """Writes InputFeature to TF example file."""

  def __init__(self, filename, is_training):
    self.filename = filename
    self.is_training = is_training
    self.num_features = 0
    self._writer = tf.compat.v1.python_io.TFRecordWriter(filename)

  def process_feature(self, feature):
    """Write a InputFeature to the TFRecordWriter as a tf.compat.v1.train.Example."""
    self.num_features += 1

    def create_int_feature(values):
      feature = tf.compat.v1.train.Feature(
          int64_list=tf.compat.v1.train.Int64List(value=list(values)))
      return feature

    features = collections.OrderedDict()
    features["unique_ids"] = create_int_feature([feature.unique_id])
    features["input_ids"] = create_int_feature(feature.input_ids)
    features["input_mask"] = create_int_feature(feature.input_mask)
    features["segment_ids"] = create_int_feature(feature.segment_ids)

    if self.is_training:
      features["start_positions"] = create_int_feature([feature.start_position])
      features["end_positions"] = create_int_feature([feature.end_position])
      impossible = 1
      if feature.answerable:
        impossible = 0
      features["answerable"] = create_int_feature([impossible])

    tf_example = tf.compat.v1.train.Example(features=tf.compat.v1.train.Features(feature=features))
    self._writer.write(tf_example.SerializeToString())

  def close(self):
    self._writer.close()


In [31]:
do_lower_case = True
init_checkpoint = None

null_score_diff_threshold = 0.0
version_2_with_negative = False
verbose_logging = False
num_tpu_cores = 8
master = None
tpu_zone = None
tpu_name = None
use_tpu = False
max_answer_length = 30
n_best_size = 20
iterations_per_loop = 1000
save_checkpoints_steps = 1000
warmup_proportion = 0.1
predict_batch_size = 8

max_query_length = 64
doc_stride = 128
max_seq_length = 384

vocab_file="../chinese_L-12_H-768_A-12/vocab.txt"
bert_config_file="../chinese_L-12_H-768_A-12/bert_config.json"
do_train=True
train_file="./data/train.json"
do_predict=True
predict_file="./data/dev.json"
train_batch_size=12
learning_rate=3e-5
num_train_epochs=2.0
output_dir="../bert_output"

tf.compat.v1.app.run()

['2010', '年', '引', '進', '的', '廣', '州', '快', '速', '公', '交', '運', '輸', '系', '統', '，', '屬', '世', '界', '第', '二', '大', '快', '速', '公', '交', '系', '統', '，', '日', '常', '載', '客', '量', '可', '達', '100', '萬', '人', '次', '，', '高', '峰', '時', '期', '每', '小', '時', '單', '向', '客', '流', '高', '達', '269', '##00', '人', '次', '，', '僅', '次', '於', '波', '哥', '大', '的', '快', '速', '交', '通', '系', '統', '，', '平', '均', '每', '10', '秒', '鐘', '就', '有', '一', '輛', '巴', '士', '，', '每', '輛', '巴', '士', '單', '向', '行', '駛', '350', '小', '時', '。', '包', '括', '橋', '樑', '在', '內', '的', '站', '台', '是', '世', '界', '最', '長', '的', '州', '快', '速', '公', '交', '運', '輸', '系', '統', '站', '台', '，', '長', '達', '260', '米', '。', '目', '前', '廣', '州', '市', '區', '的', '計', '程', '車', '和', '公', '共', '汽', '車', '主', '要', '使', '用', '液', '化', '石', '油', '氣', '作', '燃', '料', '，', '部', '分', '公', '共', '汽', '車', '更', '使', '用', '油', '電', '、', '氣', '電', '混', '合', '動', '力', '技', '術', '。', '2012', '年', '底', '開', '始', '投', '放', '液', '化', '天', '然', '氣', '燃', '料', '的', '公', '共', '

W0418 17:17:26.508271 139979497596288 <ipython-input-30-3d8bb943af1a>:170] Could not find answer: '185##8年' vs. '1858年'


['清', '朝', '末', '期', '，', '廣', '州', '爆', '發', '了', '數', '次', '武', '裝', '起', '義', '，', '均', '以', '失', '敗', '告', '終', '。', '1911', '年', '10', '月', '10', '日', '武', '昌', '起', '義', '後', '，', '廣', '東', '省', '獨', '立', '，', '11', '月', '10', '日', '成', '立', '軍', '政', '府', '，', '推', '選', '胡', '漢', '民', '為', '都', '督', '。', '12', '月', '初', '，', '廣', '東', '臨', '時', '省', '議', '會', '成', '立', '，', '公', '布', '21', '歲', '以', '上', '廣', '東', '籍', '人', '皆', '有', '選', '舉', '權', '和', '被', '選', '舉', '權', '，', '議', '會', '由', '120', '名', '議', '員', '組', '成', '，', '其', '中', '同', '盟', '會', '代', '表', '20', '名', '，', '軍', '團', '協', '會', '代', '表', '21', '名', '，', '華', '僑', '代', '表', '12', '名', '，', '師', '生', '代', '表', '9', '名', '，', '「', '自', '治', '團', '」', '代', '表', '1', '名', '，', '各', '地', '區', '代', '表', '57', '名', '。', '其', '中', '女', '性', '議', '員', '須', '占', '10', '名', '，', '開', '中', '國', '婦', '女', '參', '政', '先', '河', '。', '1913', '年', '4', '月', '27', '日', '，', '廣', '東', '省', '議', '會', '成', '立', '，', '羅', '曉', '峰',

W0418 17:17:26.551128 139979497596288 <ipython-input-30-3d8bb943af1a>:170] Could not find answer: '州恆大第' vs. '廣州恆大'


['廣', '州', '是', '中', '國', '大', '陸', '醫', '療', '衛', '生', '水', '平', '最', '為', '發', '達', '的', '城', '市', '之', '一', '，', '市', '內', '醫', '院', '、', '社', '區', '衛', '生', '服', '務', '中', '心', '、', '保', '健', '院', '、', '疾', '病', '預', '防', '控', '制', '中', '心', '為', '市', '民', '提', '供', '各', '種', '醫', '療', '服', '務', '，', '與', '廣', '州', '市', '內', '的', '多', '間', '醫', '科', '院', '校', '和', '藥', '廠', '共', '同', '構', '成', '完', '整', '的', '醫', '療', '體', '系', '，', '經', '常', '收', '治', '廣', '東', '省', '內', '其', '他', '醫', '院', '送', '至', '的', '危', '重', '病', '人', '。', '目', '前', '全', '市', '共', '有', '32', '家', '三', '級', '甲', '等', '醫', '院', '，', '專', '業', '分', '工', '較', '為', '全', '面', '。', '其', '中', '孫', '逸', '仙', '紀', '念', '醫', '院', '的', '前', '身', '眼', '科', '醫', '局', '建', '立', '於', '183', '##5', '年', '，', '是', '中', '國', '最', '早', '的', '西', '醫', '醫', '院', '。', '製', '藥', '業', '在', '廣', '州', '同', '樣', '發', '達', '，', '陳', '李', '濟', '是', '中', '國', '現', '存', '歷', '史', '最', '久', '的', '製', '藥', '廠', '。', '而', '王', '老', '吉', '、',

W0418 17:17:26.695719 139979497596288 <ipython-input-30-3d8bb943af1a>:170] Could not find answer: '113##4個' vs. '1134個'




W0418 17:17:26.703517 139979497596288 <ipython-input-30-3d8bb943af1a>:170] Could not find answer: '[UNK]' vs. '攵'


['漢', '字', '有', '各', '種', '不', '同', '的', '書', '寫', '方', '式', '，', '即', '有', '不', '同', '的', '字', '體', '；', '不', '同', '的', '字', '體', '，', '漢', '字', '的', '字', '型', '形', '狀', '不', '一', '樣', '。', '就', '算', '是', '同', '樣', '的', '字', '型', '，', '也', '會', '因', '使', '用', '地', '區', '或', '使', '用', '者', '的', '不', '同', '而', '有', '字', '形', '上', '的', '差', '異', '。', '由', '於', '各', '地', '對', '字', '形', '的', '使', '用', '並', '沒', '有', '統', '一', '，', '加', '之', '大', '陸', '地', '區', '使', '用', '「', '新', '字', '形', '」', '、', '日', '本', '使', '用', '「', '新', '字', '體', '」', '，', '便', '產', '生', '了', '許', '多', '差', '異', '。', '例', '如', '「', '刃', '」', '及', '「', '角', '」', '，', '在', '各', '地', '寫', '法', '都', '不', '盡', '相', '同', '。', '又', '如', '「', '口', '」', '字', '，', '臺', '灣', '官', '方', '規', '定', '最', '後', '一', '橫', '要', '寫', '得', '超', '過', '上', '面', '的', '橫', '折', '露', '出', '來', '一', '點', '，', '其', '他', '地', '區', '的', '寫', '法', '卻', '是', '不', '出', '頭', '的', '。', '規', '整', '的', '字', '體', '書', '寫', '下', '的', '漢', '字', '是', '一',

W0418 17:17:26.738504 139979497596288 <ipython-input-30-3d8bb943af1a>:170] Could not find answer: '93##53' vs. '9353'


['20', '世', '紀', '所', '新', '創', '的', '，', '還', '有', '第', '一', '批', '簡', '化', '字', '後', '跟', '第', '二', '批', '的', '「', '二', '簡', '字', '」', '，', '其', '中', '也', '包', '括', '社', '會', '上', '不', '少', '人', '造', '的', '文', '字', '，', '不', '過', '二', '簡', '字', '已', '被', '大', '陸', '官', '方', '廢', '除', '，', '只', '有', '少', '數', '字', '在', '社', '會', '上', '流', '行', '，', '但', '現', '時', '並', '沒', '有', '於', '計', '算', '機', '編', '碼', '中', '被', '收', '錄', '。', '初', '期', '的', '漢', '字', '系', '統', '字', '數', '不', '足', '，', '很', '多', '事', '物', '以', '通', '假', '字', '表', '示', '，', '使', '文', '字', '的', '表', '述', '存', '在', '較', '大', '歧', '義', '。', '為', '完', '善', '表', '述', '的', '明', '確', '性', '，', '漢', '字', '經', '歷', '了', '逐', '步', '複', '雜', '、', '字', '數', '大', '量', '增', '加', '的', '階', '段', '。', '過', '去', '在', '漢', '字', '組', '成', '基', '本', '因', '子', '研', '究', '與', '教', '學', '上', '落', '後', '，', '造', '成', '學', '習', '上', '必', '須', '逐', '字', '學', '習', '難', '以', '舉', '一', '反', '三', '，', '漢', '字', '數', '量', '越', '多', '學', '習', '越'

W0418 17:17:26.752787 139979497596288 <ipython-input-30-3d8bb943af1a>:170] Could not find answer: '[UNK]' vs. '𪚥'


['漢', '字', '書', '寫', '體', '系', '也', '是', '世', '界', '上', '最', '主', '要', '的', '基', '礎', '文', '字', '之', '一', '，', '在', '漢', '字', '的', '影', '響', '下', '，', '還', '產', '生', '過', '契', '丹', '文', '、', '女', '真', '文', '、', '西', '夏', '文', '、', '古', '壯', '字', '、', '古', '白', '字', '、', '古', '布', '依', '字', '、', '字', '喃', '等', '文', '字', '。', '但', '它', '們', '都', '因', '各', '種', '原', '因', '而', '消', '亡', '，', '而', '漢', '語', '中', '的', '女', '書', '，', '如', '今', '也', '無', '幾', '人', '能', '識', '。', '日', '語', '的', '假', '名', '在', '創', '製', '時', '也', '大', '量', '受', '到', '漢', '字', '字', '形', '的', '影', '響', '。', '朝', '鮮', '半', '島', '使', '用', '的', '諺', '文', '雖', '非', '漢', '字', '的', '衍', '生', '字', '但', '在', '創', '製', '時', '也', '深', '受', '到', '漢', '字', '的', '影', '響', '，', '和', '日', '語', '假', '名', '一', '樣', '可', '以', '和', '漢', '字', '一', '同', '混', '寫', '。', '此', '外', '如', '蒙', '古', '文', '、', '滿', '文', '、', '錫', '伯', '文', '等', '也', '是', '在', '漢', '字', '書', '寫', '方', '式', '和', '書', '寫', '工', '具', '的', '影', '響', '下', '，', '將',

W0418 17:17:26.781795 139979497596288 <ipython-input-30-3d8bb943af1a>:170] Could not find answer: '[UNK]' vs. '幇'


['由', '於', '英', '文', '文', '字', '是', '由', '26', '個', '字', '母', '排', '列', '組', '合', '而', '成', '的', '文', '字', '，', '因', '此', '可', '以', '簡', '化', '輸', '入', '步', '驟', '；', '相', '比', '較', '之', '下', '漢', '字', '則', '不', '能', '如', '此', '，', '從', '字', '形', '上', '漢', '字', '雖', '然', '可', '以', '拆', '解', '成', '不', '同', '的', '部', '分', '，', '但', '是', '被', '分', '成', '的', '部', '首', '或', '偏', '旁', '數', '量', '過', '多', '，', '這', '樣', '不', '但', '不', '能', '達', '到', '簡', '化', '輸', '入', '的', '目', '的', '，', '反', '而', '顯', '得', '更', '為', '繁', '瑣', '。', '於', '是', '從', '漢', '字', '字', '音', '上', '去', '考', '慮', '，', '漢', '字', '輸', '入', '被', '分', '成', '少', '量', '的', '語', '音', '元', '素', '組', '合', '排', '列', '，', '反', '而', '可', '以', '達', '到', '簡', '化', '輸', '入', '的', '步', '驟', '。', '因', '為', '是', '語', '音', '輸', '入', '對', '漢', '字', '的', '讀', '音', '必', '須', '清', '楚', '，', '某', '些', '生', '僻', '字', '或', '不', '知', '道', '漢', '字', '發', '音', '的', '則', '會', '很', '困', '難', '，', '這', '在', '一', '定', '程', '度', '上', '限', '制', '了', '漢'

W0418 17:17:26.806282 139979497596288 <ipython-input-30-3d8bb943af1a>:170] Could not find answer: '「隨」字的「[UNK]」有不穩定之意' vs. '「隨」字的「辶」有不穩定之意'


['在', '近', '代', '，', '由', '於', '大', '量', '西', '方', '知', '識', '的', '湧', '入', '，', '也', '造', '了', '許', '多', '字', '。', '例', '如', '隨', '著', '「', '啤', '酒', '」', '傳', '入', '中', '國', '，', '如', '何', '用', '漢', '字', '表', '達', '是', '一', '個', '問', '題', '，', '最', '初', '譯', '為', '皮', '酒', '，', '後', '覺', '不', '妥', '，', '於', '1910', '年', '左', '右', '創', '造', '了', '「', '啤', '」', '字', '[UNK]', '[UNK]', '譯', '為', '「', '啤', '酒', '」', '。', '近', '現', '代', '化', '學', '名', '詞', '用', '字', '許', '多', '都', '是', '新', '造', '的', '漢', '字', '，', '以', '形', '聲', '字', '為', '多', '，', '亦', '有', '形', '聲', '兼', '會', '意', '字', '和', '反', '切', '字', '。', '化', '學', '元', '素', '中', '，', '常', '溫', '下', '為', '固', '體', '的', '金', '屬', '元', '素', '、', '非', '金', '屬', '元', '素', '一', '般', '分', '別', '用', '「', '金', '」', '、', '「', '石', '」', '為', '形', '旁', '，', '並', '以', '相', '應', '英', '文', '名', '稱', '中', '的', '音', '節', '發', '音', '近', '似', '的', '漢', '字', '為', '聲', '旁', '，', '如', '「', '鎂', '」', '、', '「', '鋁', '」', '、', '「', '硒', '」', '、', '「', '[U

W0418 17:17:26.820680 139979497596288 <ipython-input-30-3d8bb943af1a>:170] Could not find answer: '[UNK]' vs. '嗧'


['《', '清', '史', '稿', '》', '是', '中', '華', '民', '國', '北', '京', '政', '府', '所', '設', '清', '史', '館', '纂', '修', '的', '清', '史', '未', '定', '稿', '，', '體', '例', '依', '照', '之', '前', '的', '正', '史', '，', '分', '「', '紀', '、', '志', '、', '表', '、', '傳', '」', '四', '部', '分', '。', '民', '國', '三', '年', '，', '清', '史', '館', '設', '立', '，', '此', '後', '編', '修', '工', '作', '歷', '時', '十', '餘', '年', '。', '到', '1927', '年', '，', '主', '持', '纂', '修', '工', '作', '的', '清', '史', '館', '館', '長', '趙', '爾', '巽', '見', '全', '稿', '已', '經', '初', '步', '成', '形', '，', '擔', '心', '時', '局', '多', '變', '及', '自', '己', '時', '日', '無', '多', '，', '遂', '決', '定', '將', '各', '卷', '以', '《', '清', '史', '稿', '》', '的', '名', '稱', '刊', '行', '，', '以', '示', '其', '為', '未', '定', '本', '。', '因', '匆', '忙', '付', '梓', '，', '致', '使', '體', '例', '不', '一', '、', '繁', '簡', '失', '當', '。', '「', '然', '此', '書', '成', '稿', '於', '遺', '老', '之', '手', '，', '刊', '行', '於', '匆', '促', '之', '中', '，', '謬', '誤', '屢', '見', '，', '用', '時', '不', '免', '戒', '慎', '，', '唯', '恐', '誤', '入', '歧', '

W0418 17:17:26.863547 139979497596288 <ipython-input-30-3d8bb943af1a>:170] Could not find answer: '失。' vs. '壓縮'




W0418 17:17:26.866651 139979497596288 <ipython-input-30-3d8bb943af1a>:170] Could not find answer: '題。程式' vs. '相容問題'


['總', '統', '，', '日', '本', '及', '朝', '鮮', '半', '島', '稱', '為', '「', '大', '統', '領', '」', '，', '是', '共', '和', '制', '國', '家', '的', '元', '首', '稱', '呼', '。', '總', '統', '在', '英', '文', '中', '是', '指', '領', '導', '者', '或', '領', '導', '人', '，', '在', '羅', '馬', '帝', '國', '時', '期', '為', '副', '執', '政', '官', '或', '行', '省', '總', '督', '的', '職', '位', '，', '並', '非', '執', '政', '官', '。', '但', '不', '一', '定', '是', '政', '治', '領', '袖', '，', '某', '些', '機', '構', '或', '團', '體', '的', '主', '席', '、', '負', '責', '人', '，', '公', '司', '的', '總', '裁', '和', '大', '學', '的', '校', '長', '也', '使', '用', '這', '稱', '謂', '。', '清', '朝', '末', '年', '曾', '音', '譯', '為', '「', '伯', '理', '璽', '天', '德', '」', '、', '「', '柏', '理', '璽', '天', '德', '」', '、', '「', '普', '利', '璽', '天', '德', '」', '。', '在', '總', '統', '制', '國', '家', '，', '總', '統', '兼', '任', '政', '府', '首', '腦', '，', '直', '接', '領', '導', '行', '政', '機', '關', '，', '不', '設', '總', '理', '。', '部', '分', '的', '總', '統', '制', '國', '家', '是', '直', '接', '或', '間', '接', '民', '選', '，', '如', '美', '國', '、', '印',

W0418 17:17:26.951986 139979497596288 <ipython-input-30-3d8bb943af1a>:170] Could not find answer: '美國政' vs. '李奇微'


['7', '月', '8', '日', '，', '雙', '方', '提', '出', '正', '式', '代', '表', '名', '單', '：', '韓', '國', '和', '美', '國', '方', '面', '為', '首', '席', '代', '表', '、', '美', '國', '遠', '東', '海', '軍', '司', '令', '官', '特', '納', '·', '喬', '埃', '中', '將', '，', '遠', '東', '空', '軍', '副', '司', '令', '官', '克', '雷', '吉', '空', '軍', '少', '將', '，', '第', '八', '軍', '團', '副', '參', '謀', '長', '霍', '迪', '斯', '陸', '軍', '少', '將', '，', '參', '謀', '長', '勃', '克', '海', '軍', '少', '將', '和', '韓', '國', '國', '軍', '第', '一', '軍', '軍', '長', '白', '善', '燁', '少', '將', '；', '朝', '鮮', '和', '中', '國', '方', '面', '代', '表', '為', '首', '席', '代', '表', '、', '朝', '鮮', '人', '民', '軍', '第', '二', '軍', '團', '長', '南', '日', '大', '將', '，', '人', '民', '軍', '李', '相', '朝', '少', '將', '、', '志', '願', '軍', '副', '司', '令', '員', '鄧', '華', '、', '志', '願', '軍', '參', '謀', '長', '解', '方', '和', '張', '平', '山', '。', '7', '月', '10', '日', '11', '時', '，', '在', '朝', '鮮', '開', '城', '，', '停', '戰', '談', '判', '正', '式', '開', '始', '。', '會', '議', '開', '始', '後', '，', '雙', '方', '就', '議', '題', '交', '換

W0418 17:17:26.959749 139979497596288 <ipython-input-30-3d8bb943af1a>:170] Could not find answer: '64##6平方千米' vs. '646平方千米'


['由', '於', '雙', '方', '的', '條', '件', '懸', '殊', '，', '停', '戰', '談', '判', '整', '整', '進', '行', '兩', '年', '。', '1952', '年', '5', '月', '7', '日', '，', '克', '拉', '克', '將', '軍', '在', '隨', '從', '參', '謀', '白', '納', '特', '中', '校', '陪', '同', '下', '，', '飛', '抵', '日', '本', '東', '京', '羽', '田', '機', '場', '，', '準', '備', '接', '替', '李', '奇', '微', '將', '軍', '擔', '任', '美', '國', '遠', '東', '軍', '司', '令', '官', '、', '聯', '合', '國', '軍', '司', '令', '官', '。', '5', '月', '12', '日', '，', '李', '奇', '微', '將', '指', '揮', '權', '移', '交', '給', '克', '拉', '克', '將', '軍', '。', '王', '樹', '增', '提', '到', '：', '「', '在', '這', '兩', '年', '中', '，', '在', '雙', '方', '的', '防', '禦', '線', '上', '，', '密', '集', '地', '部', '署', '著', '200', '多', '萬', '人', '的', '大', '軍', '，', '構', '築', '世', '界', '戰', '爭', '史', '上', '最', '漫', '長', '的', '、', '最', '複', '雜', '的', '、', '最', '堅', '固', '的', '防', '禦', '工', '事', '。', '聯', '合', '國', '軍', '的', '防', '線', '由', '部', '署', '嚴', '密', '的', '火', '炮', '陣', '地', '、', '坦', '克', '群', '以', '及', '步', '兵', '組', '成', '，', '數'

W0418 17:17:26.991656 139979497596288 <ipython-input-30-3d8bb943af1a>:170] Could not find answer: '1935##4' vs. '19354'


['通', '過', '夏', '季', '戰', '役', '，', '向', '南', '擴', '展', '陣', '地', '240', '公', '里', '，', '將', '戰', '線', '拉', '直', '。', '整', '個', '夏', '季', '進', '攻', '戰', '役', '，', '中', '方', '聲', '稱', '志', '願', '軍', '傷', '亡', '5', '.', '3', '萬', '餘', '人', '，', '志', '願', '軍', '斃', '傷', '俘', '聯', '合', '國', '軍', '12', '.', '3', '萬', '餘', '人', '。', '聯', '合', '國', '軍', '聲', '稱', '聯', '合', '國', '軍', '傷', '亡', '29', ',', '62', '##9', '人', '，', '志', '願', '軍', '傷', '亡', '72', ',', '112', '人', '。', '1950', '年', '韓', '戰', '初', '期', '，', '美', '國', '空', '軍', '動', '用', '遠', '東', '地', '區', '44', '個', '中', '隊', '共', '65', '##7', '架', '飛', '機', '參', '戰', '。', '朝', '鮮', '人', '民', '軍', '僅', '有', '20', '架', '戰', '機', '，', '很', '快', '就', '失', '去', '作', '戰', '能', '力', '。', '當', '時', '中', '國', '空', '軍', '和', '海', '軍', '初', '創', '，', '無', '法', '與', '美', '軍', '抗', '衡', '，', '美', '軍', '完', '全', '控', '制', '制', '空', '權', '和', '制', '海', '權', '。', '8', '月', '，', '史', '達', '林', '派', '遣', '蘇', '聯', '空', '軍', '138', '架', '飛', '機', '進',

W0418 17:17:27.026964 139979497596288 <ipython-input-30-3d8bb943af1a>:170] Could not find answer: '365##70' vs. '36570'


['至', '1951', '年', '6', '月', '，', '聯', '合', '國', '軍', '共', '俘', '虜', '北', '韓', '戰', '俘', '152', ',', '500', '人', '、', '志', '願', '軍', '戰', '俘', '21', ',', '300', '人', '。', '他', '們', '最', '初', '一', '起', '被', '送', '往', '釜', '山', '收', '容', '所', '混', '合', '關', '押', '，', '後', '來', '由', '於', '兩', '方', '之', '間', '發', '生', '矛', '盾', '，', '聯', '合', '國', '軍', '就', '將', '戰', '俘', '按', '照', '國', '籍', '分', '開', '。', '釜', '山', '戰', '俘', '收', '容', '所', '是', '美', '軍', '1950', '年', '下', '半', '年', '動', '工', '修', '建', '，', '主', '要', '關', '押', '傷', '病', '戰', '俘', '，', '共', '有', '9', '個', '戰', '俘', '收', '容', '所', '和', '2', '個', '戰', '俘', '監', '獄', '及', '水', '牢', '，', '每', '個', '收', '容', '所', '可', '以', '關', '押', '1', ',', '500', '名', '左', '右', '戰', '俘', '；', '居', '住', '環', '境', '比', '1951', '年', '4', '月', '和', '1952', '年', '5', '月', '修', '建', '之', '巨', '濟', '島', '戰', '俘', '營', '和', '濟', '州', '島', '戰', '俘', '營', '好', '。', '1951', '年', '5', '月', '30', '日', '，', '大', '批', '朝', '鮮', '和', '中', '國', '戰', '俘', '開',

W0418 17:17:27.040041 139979497596288 <ipython-input-30-3d8bb943af1a>:170] Could not find answer: '68##4人' vs. '684人'


['1950', '年', '底', '，', '中', '國', '人', '民', '志', '願', '軍', '在', '北', '韓', '靠', '近', '中', '國', '邊', '境', '的', '碧', '潼', '選', '址', '建', '立', '戰', '俘', '營', '。', '碧', '潼', '戰', '俘', '營', '位', '於', '位', '於', '鴨', '綠', '江', '和', '支', '流', '形', '成', '的', '一', '個', '半', '島', '上', '，', '三', '面', '環', '水', '。', '開', '始', '只', '收', '容', '管', '理', '韓', '國', '國', '軍', '以', '外', '的', '聯', '合', '國', '軍', '戰', '俘', '，', '1951', '年', '3', '月', '之', '後', '，', '鑑', '於', '北', '韓', '人', '力', '物', '力', '的', '困', '難', '，', '韓', '國', '國', '軍', '戰', '俘', '也', '由', '志', '願', '軍', '管', '理', '。', '4', '月', '，', '志', '願', '軍', '政', '治', '部', '成', '立', '志', '願', '軍', '戰', '俘', '管', '理', '處', '，', '下', '設', '4', '個', '俘', '管', '團', '和', '2', '個', '俘', '管', '大', '隊', '，', '其', '中', '2', '個', '俘', '管', '團', '收', '容', '管', '理', '韓', '國', '國', '軍', '戰', '俘', '，', '另', '2', '個', '俘', '管', '團', '和', '2', '個', '俘', '管', '大', '隊', '收', '容', '管', '理', '美', '、', '英', '、', '法', '、', '土', '耳', '其', '、', '菲', '律', '賓', '等', '10

W0418 17:17:27.149622 139979497596288 <ipython-input-30-3d8bb943af1a>:170] Could not find answer: '.5萬人。' vs. '17.5萬'


['撤', '軍', '問', '題', '其', '實', '從', '1951', '年', '7', '月', '雙', '方', '開', '始', '談', '判', '之', '前', '就', '提', '出', '。', '本', '來', '中', '國', '方', '面', '是', '想', '將', '撤', '軍', '問', '題', '也', '納', '入', '談', '判', '議', '程', '，', '但', '是', '美', '國', '方', '面', '堅', '決', '反', '對', '。', '為', '了', '儘', '快', '停', '戰', '，', '毛', '澤', '東', '經', '徵', '求', '史', '達', '林', '的', '意', '見', '後', '，', '同', '意', '將', '撤', '軍', '問', '題', '留', '待', '停', '戰', '實', '現', '後', '再', '談', '判', '解', '決', '，', '而', '不', '將', '其', '作', '為', '停', '戰', '的', '前', '提', '條', '件', '。', '但', '是', '1953', '年', '7', '月', '停', '戰', '後', '，', '原', '定', '應', '在', '三', '個', '月', '內', '召', '開', '的', '高', '一', '級', '政', '治', '會', '議', '卻', '未', '能', '召', '開', '。', '1954', '年', '日', '內', '瓦', '會', '議', '上', '，', '北', '韓', '問', '題', '也', '是', '無', '果', '而', '終', '。', '自', '2000', '年', '後', '，', '韓', '戰', '題', '材', '的', '作', '品', '在', '中', '國', '大', '陸', '被', '視', '為', '禁', '區', '。', '兩', '家', '官', '方', '媒', '體', '八', '一', '電', '影', '製

W0418 17:17:27.187975 139979497596288 <ipython-input-30-3d8bb943af1a>:170] Could not find answer: '1小時274##00公里' vs. '1小時27400公里'


['管', '理', '學', '是', '一', '門', '研', '究', '人', '類', '管', '理', '活', '動', '規', '律', '及', '其', '應', '用', '的', '科', '學', '。', '它', '偏', '重', '於', '用', '一', '些', '工', '具', '和', '方', '法', '來', '解', '決', '管', '理', '上', '的', '問', '題', '，', '如', '用', '運', '籌', '學', '、', '統', '計', '學', '等', '來', '定', '量', '定', '性', '分', '析', '。', '管', '理', '的', '定', '義', '為', '管', '理', '者', '和', '他', '人', '及', '透', '過', '他', '人', '有', '效', '率', '且', '有', '效', '能', '地', '完', '成', '活', '動', '的', '程', '序', '。', '以', '前', '管', '理', '學', '主', '要', '用', '運', '籌', '學', '來', '解', '決', '管', '理', '中', '碰', '到', '的', '問', '題', '。', '近', '十', '幾', '年', '管', '理', '科', '學', '發', '展', '很', '快', '，', '它', '已', '經', '不', '單', '單', '是', '用', '運', '籌', '學', '來', '分', '析', '一', '些', '具', '體', '問', '題', '，', '而', '是', '用', '自', '然', '科', '學', '與', '社', '會', '科', '學', '兩', '大', '領', '域', '的', '綜', '合', '性', '交', '叉', '科', '學', '來', '分', '析', '如', '運', '作', '管', '理', '、', '人', '力', '資', '源', '管', '理', '、', '風', '險', '管', '理', '與', '不',

W0418 17:17:27.356810 139979497596288 <ipython-input-30-3d8bb943af1a>:170] Could not find answer: '巴郡[UNK]中' vs. '巴郡閬中'


['東', '漢', '在', '漢', '和', '帝', '後', '，', '因', '為', '種', '種', '因', '素', '而', '走', '向', '衰', '亡', '：', '皇', '帝', '大', '多', '在', '年', '幼', '即', '位', '，', '所', '以', '政', '權', '多', '由', '外', '戚', '掌', '控', '。', '皇', '帝', '成', '年', '後', '為', '了', '奪', '權', '而', '尋', '求', '宦', '官', '的', '支', '持', '，', '讓', '宦', '官', '勢', '力', '掌', '控', '朝', '廷', '。', '這', '種', '外', '戚', '與', '宦', '官', '的', '對', '峙', '即', '戚', '宦', '之', '爭', '，', '使', '朝', '廷', '陷', '入', '循', '環', '內', '鬥', '。', '到', '了', '漢', '桓', '帝', '與', '漢', '靈', '帝', '時', '期', '，', '士', '大', '夫', '不', '滿', '當', '時', '掌', '權', '的', '宦', '官', '敗', '亂', '朝', '政', '，', '紛', '紛', '上', '書', '抗', '議', '，', '但', '這', '兩', '次', '的', '抗', '議', '均', '被', '宦', '官', '與', '皇', '帝', '鎮', '壓', '，', '史', '稱', '黨', '錮', '之', '禍', '。', '在', '地', '方', '上', '，', '各', '地', '豪', '強', '地', '主', '兼', '併', '土', '地', '，', '壓', '榨', '百', '姓', '，', '人', '民', '苦', '不', '堪', '言', '。', '加', '上', '天', '災', '接', '續', '不', '斷', '，', '百', '姓', '紛', '紛', '揭', '竿', '起', '事',

W0418 17:17:27.366711 139979497596288 <ipython-input-30-3d8bb943af1a>:170] Could not find answer: '當時的馬[UNK]較少' vs. '當時的馬鐙較少'


['吳', '軍', '以', '舟', '師', '為', '主', '，', '步', '兵', '次', '之', '。', '孫', '吳', '水', '軍', '發', '達', '，', '在', '濡', '須', '口', '和', '西', '陵', '設', '有', '水', '軍', '基', '地', '，', '在', '侯', '官', '設', '有', '造', '船', '廠', '。', '其', '所', '造', '名', '為', '「', '長', '安', '」', '、', '「', '飛', '雲', '」', '、', '「', '蓋', '海', '」', '等', '樓', '船', '，', '皆', '有', '五', '層', '，', '可', '載', '3', ',', '000', '名', '士', '兵', '。', '272', '年', '晉', '武', '帝', '升', '王', '濬', '為', '益', '州', '刺', '史', '，', '並', '密', '命', '其', '於', '四', '川', '組', '建', '樓', '船', '，', '以', '滅', '東', '吳', '，', '其', '所', '造', '之', '船', '，', '最', '大', '的', '可', '載', '2', ',', '000', '多', '人', '，', '且', '能', '在', '船', '上', '馳', '馬', '往', '來', '。', '孫', '吳', '的', '精', '銳', '軍', '隊', '有', '車', '下', '虎', '士', '、', '丹', '陽', '青', '巾', '軍', '與', '交', '州', '義', '士', '等', '，', '還', '有', '設', '有', '山', '越', '兵', '、', '蠻', '兵', '、', '夷', '兵', '等', '少', '數', '民', '族', '部', '隊', '。', '由', '於', '比', '較', '特', '殊', '的', '社', '會', '政', '治', '環', '境', '，', '孫'

W0418 17:17:27.465514 139979497596288 <ipython-input-30-3d8bb943af1a>:170] Could not find answer: '[UNK]烯' vs. '萜烯'


['生', '物', '體', '之', '間', '合', '成', '20', '種', '基', '本', '胺', '基', '酸', '的', '能', '力', '各', '不', '相', '同', '。', '大', '多', '數', '的', '細', '菌', '和', '植', '物', '可', '以', '合', '成', '所', '有', '這', '20', '種', '胺', '基', '酸', '，', '而', '哺', '乳', '動', '物', '只', '能', '合', '成', '10', '種', '非', '必', '需', '胺', '基', '酸', '。', '因', '此', '對', '於', '包', '括', '人', '在', '內', '的', '哺', '乳', '動', '物', '，', '獲', '取', '必', '需', '胺', '基', '酸', '的', '途', '徑', '只', '能', '是', '攝', '入', '富', '含', '這', '些', '胺', '基', '酸', '的', '食', '物', '。', '所', '有', '胺', '基', '酸', '都', '可', '以', '從', '糖', '解', '、', '檸', '檬', '酸', '循', '環', '或', '磷', '酸', '戊', '醣', '循', '環', '中', '的', '中', '間', '產', '物', '生', '成', '。', '其', '中', '，', '合', '成', '過', '程', '所', '需', '的', '氮', '由', '麩', '胺', '酸', '和', '麩', '胺', '醯', '胺', '來', '提', '供', '。', '胺', '基', '酸', '合', '成', '需', '要', '先', '有', '適', '當', '的', '阿', '爾', '法', '－', '酮', '酸', '形', '成', '，', '然', '後', '通', '過', '轉', '氨', '作', '用', '形', '成', '胺', '基', '酸', '。', '核', '苷', '酸', '是', '

W0418 17:17:27.533971 139979497596288 <ipython-input-30-3d8bb943af1a>:170] Could not find answer: '[UNK]' vs. '攵'


['1918', '年', '日', '本', '北', '海', '道', '大', '學', '的', '植', '物', '生', '理', '學', '家', '坂', '村', '徹', '發', '表', '了', '他', '長', '期', '耐', '心', '對', '小', '麥', '花', '粉', '母', '細', '胞', '的', '顯', '微', '切', '片', '的', '試', '驗', '觀', '察', '結', '果', '：', '一', '粒', '小', '麥', '的', '染', '色', '體', '數', '量', '為', '14', '條', '，', '二', '粒', '小', '麥', '是', '28', '條', '，', '普', '通', '小', '麥', '是', '42', '條', '。', '隨', '後', '其', '學', '弟', '木', '原', '均', '於', '1924', '年', '發', '表', '博', '士', '畢', '業', '論', '文', '，', '指', '出', '二', '粒', '小', '麥', '的', '28', '條', '染', '色', '體', '中', '的', '14', '條', '與', '一', '粒', '小', '麥', '的', '染', '色', '體', '相', '似', '，', '說', '明', '二', '粒', '小', '麥', '很', '可', '能', '是', '一', '粒', '小', '麥', '和', '另', '一', '種', '含', '14', '條', '染', '色', '體', '的', '植', '物', '的', '雜', '交', '產', '物', '。', '這', '些', '發', '現', '改', '變', '了', '以', '前', '植', '物', '學', '家', '與', '小', '麥', '育', '種', '工', '作', '者', '從', '外', '觀', '形', '態', '上', '對', '小', '麥', '屬', '分', '類', '，', '越', '分', '越', '細', '分

W0418 17:17:27.544681 139979497596288 <ipython-input-30-3d8bb943af1a>:170] Could not find answer: '##～5##0' vs. '50'


['小', '麥', '的', '穎', '果', '是', '人', '類', '的', '主', '食', '之', '一', '，', '磨', '成', '麵', '粉', '後', '可', '製', '作', '麵', '包', '、', '饅', '頭', '、', '餅', '乾', '、', '蛋', '糕', '、', '麵', '條', '、', '油', '條', '、', '油', '餅', '、', '火', '燒', '、', '燒', '餅', '、', '煎', '餅', '、', '水', '餃', '、', '煎', '餃', '、', '包', '子', '、', '餛', '飩', '、', '蛋', '卷', '、', '方', '便', '麵', '、', '年', '糕', '、', '意', '式', '麵', '食', '、', '古', '斯', '米', '、', '烏', '龍', '麵', '、', '義', '大', '利', '麵', '等', '食', '物', '；', '發', '酵', '後', '可', '製', '成', '啤', '酒', '、', '酒', '精', '、', '伏', '特', '加', '，', '或', '生', '質', '燃', '料', '。', '小', '麥', '也', '可', '作', '為', '家', '畜', '的', '飼', '料', '，', '麥', '草', '也', '可', '作', '為', '飼', '料', '或', '鋪', '設', '屋', '頂', '的', '材', '料', '；', '[UNK]', '可', '作', '為', '編', '織', '和', '造', '紙', '等', '原', '料', '。', '小', '麥', '富', '含', '澱', '粉', '、', '蛋', '白', '質', '、', '脂', '肪', '、', '礦', '物', '質', '、', '鈣', '、', '鐵', '、', '硫', '胺', '素', '、', '核', '黃', '素', '、', '煙', '酸', '及', '抗', '乾', '眼', '病', '維', '生', '素', 

W0418 17:17:27.698602 139979497596288 <ipython-input-30-3d8bb943af1a>:170] Could not find answer: '183##4年' vs. '1834年'


['生', '物', '界', '由', '兩', '種', '細', '胞', '構', '成', '：', '原', '核', '細', '胞', '和', '真', '核', '細', '胞', '。', '生', '命', '最', '先', '演', '化', '成', '原', '核', '細', '胞', '；', '地', '球', '上', '存', '在', '生', '命', '的', '最', '初', '的', '15', '億', '年', '間', '，', '原', '核', '細', '胞', '是', '唯', '一', '的', '生', '存', '形', '式', '。', '化', '石', '證', '據', '可', '推', '斷', '出', '生', '命', '演', '化', '成', '真', '核', '細', '胞', '是', '在', '大', '約', '21', '億', '年', '以', '前', '。', '真', '核', '細', '胞', '最', '大', '的', '特', '點', '是', '其', '內', '部', '包', '含', '了', '以', '膜', '封', '圍', '的', '細', '胞', '核', '來', '存', '儲', '去', '氧', '核', '醣', '核', '酸', '。', '原', '核', '細', '胞', '比', '真', '核', '細', '胞', '更', '簡', '單', '因', '此', '也', '更', '小', '，', '它', '沒', '有', '真', '核', '細', '胞', '中', '的', '細', '胞', '核', '和', '各', '種', '的', '胞', '器', '。', '原', '核', '細', '胞', '分', '兩', '種', '：', '細', '菌', '和', '古', '菌', '；', '他', '們', '擁', '有', '相', '似', '的', '結', '構', '。', '構', '成', '原', '核', '細', '胞', '的', '核', '物', '質', '的', '是', '直', '接', '與', '細

W0418 17:17:27.761496 139979497596288 <ipython-input-30-3d8bb943af1a>:170] Could not find answer: '半球溫帶區內' vs. '北半球溫帶區'


['航', '天', '動', '力', '學', '是', '研', '究', '太', '空', '飛', '行', '器', '和', '運', '載', '器', '在', '飛', '行', '中', '所', '受', '的', '力', '及', '其', '在', '力', '作', '用', '下', '的', '運', '動', '的', '學', '科', '，', '又', '稱', '星', '際', '航', '行', '動', '力', '學', '、', '天', '文', '動', '力', '學', '和', '太', '空', '動', '力', '學', '。', '航', '天', '動', '力', '學', '研', '究', '的', '運', '動', '包', '括', '太', '空', '飛', '行', '器', '的', '質', '心', '運', '動', '，', '稱', '軌', '道', '運', '動', '；', '太', '空', '飛', '行', '器', '相', '對', '於', '自', '身', '質', '心', '的', '運', '動', '和', '各', '部', '分', '的', '相', '對', '運', '動', '，', '稱', '姿', '態', '運', '動', '；', '以', '及', '與', '太', '空', '飛', '行', '器', '發', '射', '、', '太', '空', '飛', '行', '器', '軌', '道', '機', '動', '飛', '行', '有', '關', '的', '火', '箭', '運', '動', '。', '太', '空', '飛', '行', '器', '的', '飛', '行', '過', '程', '一', '般', '分', '為', '三', '個', '階', '段', '。', '發', '射', '段', '：', '太', '空', '飛', '行', '器', '由', '運', '載', '器', '攜', '帶', '，', '從', '地', '面', '起', '飛', '達', '到', '預', '定', '的', '高', '度', '和', '速',

W0418 17:17:27.793118 139979497596288 <ipython-input-30-3d8bb943af1a>:170] Could not find answer: '62##7年' vs. '627年'


['62', '##8', '年', '朔', '方', '人', '梁', '洛', '仁', '殺', '盤', '據', '夏', '州', '的', '梁', '師', '都', '，', '歸', '降', '唐', '朝', '。', '而', '東', '突', '厥', '在', '分', '裂', '後', '又', '遇', '到', '大', '雪', '侵', '襲', '，', '牲', '畜', '大', '多', '被', '凍', '死', '餓', '死', '。', '62', '##9', '年', '李', '靖', '率', '騎', '兵', '奇', '襲', '攻', '滅', '東', '突', '厥', '，', '隔', '年', '北', '方', '各', '族', '入', '貢', '長', '安', '，', '諸', '民', '族', '尊', '稱', '唐', '太', '宗', '為', '天', '可', '汗', '。', '63', '##5', '年', '派', '李', '靖', '攻', '占', '吐', '谷', '渾', '，', '65', '##7', '年', '派', '蘇', '定', '方', '西', '征', '攻', '下', '西', '突', '厥', '汗', '國', '，', '64', '##1', '年', '派', '文', '成', '公', '主', '與', '吐', '蕃', '贊', '普', '松', '贊', '干', '布', '通', '婚', '。', '這', '些', '都', '穩', '定', '唐', '朝', '與', '四', '方', '各', '國', '的', '關', '係', '。', '貞', '觀', '時', '期', '國', '家', '安', '定', '，', '經', '濟', '得', '到', '恢', '復', '和', '發', '展', '，', '史', '稱', '「', '貞', '觀', '之', '治', '」', '。', '《', '資', '治', '通', '鑒', '》', '記', '載', '，', '貞', '觀', '四', '年', '一',

W0418 17:17:27.800266 139979497596288 <ipython-input-30-3d8bb943af1a>:170] Could not find answer: '65##9年' vs. '659年'


['高', '宗', '中', '期', '以', '後', '，', '政', '權', '逐', '漸', '由', '皇', '后', '武', '則', '天', '掌', '握', '。', '武', '則', '天', '原', '為', '太', '宗', '時', '期', '的', '才', '人', '，', '太', '宗', '死', '後', '被', '高', '宗', '招', '入', '宮', '中', '。', '她', '在', '權', '力', '鬥', '爭', '中', '獲', '勝', '，', '被', '立', '為', '皇', '后', '，', '史', '稱', '「', '素', '多', '智', '計', '，', '兼', '涉', '文', '史', '」', '。', '65', '##6', '年', '起', '，', '高', '宗', '因', '健', '康', '原', '因', '，', '許', '多', '政', '事', '都', '逐', '漸', '交', '給', '武', '則', '天', '處', '理', '，', '武', '則', '天', '成', '為', '最', '高', '統', '治', '者', '之', '一', '，', '與', '高', '宗', '並', '稱', '「', '二', '聖', '」', '。', '高', '宗', '去', '世', '後', '，', '太', '子', '李', '顯', '即', '位', '，', '是', '為', '唐', '中', '宗', '。', '因', '為', '與', '中', '宗', '不', '合', '，', '武', '則', '天', '不', '久', '將', '中', '宗', '廢', '為', '廬', '陵', '王', '，', '改', '立', '四', '子', '李', '旦', '為', '帝', '，', '是', '為', '唐', '睿', '宗', '。', '武', '則', '天', '平', '定', '徐', '敬', '業', '的', '反', '叛', '後', '，', '於', '690', '年', '廢',

W0418 17:17:27.815409 139979497596288 <ipython-input-30-3d8bb943af1a>:170] Could not find answer: '75##1' vs. '751'


['節', '度', '使', '的', '權', '力', '甚', '大', '，', '當', '與', '中', '央', '發', '生', '衝', '突', '時', '，', '就', '很', '有', '機', '會', '發', '生', '叛', '亂', '。', '當', '時', '又', '以', '身', '兼', '范', '陽', '、', '平', '盧', '、', '河', '東', '三', '鎮', '節', '度', '使', '的', '安', '祿', '山', '最', '有', '機', '會', '，', '他', '甚', '獲', '唐', '玄', '宗', '寵', '信', '，', '與', '丞', '相', '楊', '國', '忠', '勾', '心', '鬥', '角', '。', '75', '##5', '年', '十', '一', '月', '，', '安', '祿', '山', '以', '討', '伐', '楊', '國', '忠', '為', '由', '發', '動', '叛', '亂', '，', '史', '稱', '安', '史', '之', '亂', '。', '楊', '國', '忠', '與', '封', '常', '清', '認', '為', '敵', '軍', '不', '足', '憂', '慮', '，', '命', '郭', '子', '儀', '自', '朔', '方', '出', '兵', '河', '北', '、', '高', '仙', '芝', '提', '大', '軍', '出', '潼', '關', '戰', '關', '東', '。', '十', '二', '月', '，', '封', '高', '兩', '將', '皆', '敗', '，', '東', '都', '洛', '陽', '淪', '陷', '，', '唐', '軍', '退', '守', '潼', '關', '。', '封', '高', '二', '人', '被', '[UNK]', '言', '所', '殺', '，', '改', '由', '哥', '舒', '翰', '堅', '守', '潼', '關', '。', '於', '河', '北', '舉', '兵', '的

W0418 17:17:27.825513 139979497596288 <ipython-input-30-3d8bb943af1a>:170] Could not find answer: '75##7年' vs. '757年'


['安', '史', '之', '亂', '成', '為', '唐', '朝', '歷', '史', '上', '的', '轉', '折', '點', '。', '藩', '鎮', '割', '據', '、', '外', '族', '入', '侵', '、', '宦', '官', '專', '權', '與', '牛', '李', '黨', '爭', '等', '蜂', '擁', '而', '至', '，', '成', '為', '唐', '朝', '的', '內', '憂', '外', '患', '。', '唐', '室', '為', '了', '盡', '快', '結', '束', '戰', '事', '，', '將', '安', '史', '降', '將', '就', '地', '封', '為', '節', '度', '使', '以', '安', '撫', '之', '。', '為', '了', '提', '防', '降', '將', '復', '叛', '，', '又', '遍', '地', '安', '置', '節', '度', '使', '。', '由', '於', '節', '度', '使', '兼', '管', '地', '方', '軍', '事', '、', '政', '治', '和', '經', '濟', '，', '全', '國', '各', '地', '幾', '乎', '處', '於', '半', '獨', '立', '的', '狀', '態', '。', '戰', '後', '關', '東', '人', '丁', '銳', '減', '，', '土', '地', '大', '量', '荒', '蕪', '，', '河', '北', '之', '地', '逐', '漸', '胡', '化', '，', '人', '民', '好', '武', '輕', '文', '，', '與', '詩', '賦', '取', '士', '的', '關', '中', '之', '地', '相', '比', '，', '形', '成', '截', '然', '不', '同', '的', '文', '化', '區', '。', '由', '於', '邊', '防', '軍', '調', '回', '平', '亂', '，', '外', '族', '紛', '紛',

W0418 17:17:27.840534 139979497596288 <ipython-input-30-3d8bb943af1a>:170] Could not find answer: '78##1年' vs. '781年'


['唐', '代', '宗', '遺', '留', '下', '來', '的', '問', '題', '越', '來', '越', '嚴', '重', '，', '唐', '順', '宗', '與', '唐', '憲', '宗', '都', '企', '圖', '解', '決', '，', '其', '中', '唐', '憲', '宗', '較', '為', '成', '功', '，', '實', '現', '元', '和', '中', '興', '。', '唐', '順', '宗', '以', '韋', '執', '誼', '為', '宰', '相', '，', '啟', '用', '以', '王', '叔', '文', '為', '首', '的', '改', '革', '派', '。', '他', '們', '廢', '除', '欺', '壓', '百', '姓', '的', '宮', '市', '和', '五', '坊', '小', '兒', '，', '減', '輕', '稅', '賦', '。', '任', '韓', '泰', '掌', '控', '神', '策', '軍', '，', '試', '圖', '奪', '取', '宦', '官', '軍', '權', '，', '史', '稱', '永', '貞', '革', '新', '。', '同', '年', '，', '唐', '順', '宗', '中', '風', '，', '宦', '官', '俱', '文', '珍', '利', '用', '太', '子', '李', '純', '想', '做', '皇', '帝', '的', '心', '理', '，', '聯', '合', '韋', '皋', '等', '等', '藩', '鎮', '迫', '使', '唐', '順', '宗', '讓', '位', '，', '藉', '此', '扳', '倒', '改', '革', '派', '，', '史', '稱', '永', '貞', '內', '禪', '。', '太', '子', '李', '純', '繼', '位', '，', '即', '唐', '憲', '宗', '。', '唐', '憲', '宗', '頗', '能', '駕', '馭', '宦', '官', '與', '外', '廷',

W0418 17:17:27.859431 139979497596288 <ipython-input-30-3d8bb943af1a>:170] Could not find answer: '舉人李宗閔、牛僧孺與皇甫[UNK]在考卷裡批評朝政失當' vs. '舉人李宗閔、牛僧孺與皇甫湜在考卷裡批評朝政失當'


['牛', '黨', '的', '優', '勢', '一', '直', '到', '82', '##3', '年', '，', '牛', '僧', '孺', '因', '為', '被', '唐', '文', '宗', '不', '滿', '而', '罷', '相', '，', '隔', '年', '由', '李', '黨', '的', '李', '德', '裕', '上', '台', '，', '這', '是', '顯', '然', '與', '王', '守', '澄', '放', '棄', '牛', '黨', '有', '關', '。', '之', '後', '王', '守', '澄', '支', '持', '李', '訓', '與', '鄭', '注', '，', '極', '力', '打', '壓', '牛', '李', '兩', '黨', '。', '甘', '露', '之', '變', '後', '李', '鄭', '勢', '力', '崩', '潰', '，', '宦', '官', '由', '仇', '士', '良', '掌', '權', '。', '唐', '武', '宗', '時', '任', '用', '李', '德', '裕', '為', '宰', '相', '，', '極', '力', '排', '斥', '牛', '黨', '。', '84', '##6', '年', '唐', '武', '宗', '去', '世', '，', '宦', '官', '們', '發', '生', '權', '力', '鬥', '爭', '，', '其', '叔', '李', '忱', '在', '宦', '官', '馬', '元', '[UNK]', '的', '扶', '持', '之', '下', '即', '位', '，', '即', '唐', '宣', '宗', '。', '由', '於', '李', '黨', '失', '勢', '，', '李', '德', '裕', '被', '貶', '黜', '到', '崖', '州', '，', '至', '此', '長', '達', '40', '年', '的', '牛', '李', '黨', '爭', '結', '束', '。', '唐', '宣', '宗', '表', '面', '上', '是', '容'

W0418 17:17:27.879513 139979497596288 <ipython-input-30-3d8bb943af1a>:170] Could not find answer: '90##1年' vs. '901年'


['唐', '朝', '的', '疆', '域', '廣', '大', '，', '但', '時', '常', '變', '動', '，', '630', '年', '就', '超', '過', '隋', '朝', '極', '盛', '時', '的', '版', '圖', '。', '唐', '朝', '也', '是', '自', '秦', '漢', '以', '來', '，', '第', '一', '個', '不', '使', '用', '前', '朝', '所', '築', '長', '城', '及', '不', '築', '長', '城', '的', '統', '一', '王', '朝', '。', '其', '鼎', '盛', '時', '期', '為', '7', '世', '紀', '，', '當', '時', '中', '亞', '的', '綠', '洲', '地', '帶', '受', '唐', '朝', '支', '配', '。', '其', '最', '大', '範', '圍', '南', '至', '羅', '伏', '州', '、', '北', '括', '玄', '闕', '州', '、', '西', '及', '安', '息', '州', '、', '東', '臨', '哥', '勿', '州', '的', '遼', '闊', '疆', '域', '，', '國', '土', '面', '積', '達', '107', '##6', '萬', '平', '方', '公', '里', '。', '中', '唐', '後', '漠', '北', '、', '西', '域', '的', '領', '地', '相', '繼', '失', '去', '，', '到', '晚', '唐', '時', '衰', '退', '到', '等', '同', '中', '國', '本', '部', '的', '大', '小', '，', '但', '仍', '然', '保', '有', '河', '套', '地', '區', '及', '河', '西', '走', '廊', '。', '天', '寶', '十', '三', '年', '戶', '口', '統', '計', '為', '五', '千', '二', '百', '八', '十', '八', '萬'

W0418 17:17:27.921096 139979497596288 <ipython-input-30-3d8bb943af1a>:170] Could not find answer: '荊楚[UNK]舞' vs. '荊楚儺舞'


['契', '丹', '源', '於', '東', '胡', '，', '自', '稱', '青', '牛', '白', '馬', '之', '後', '。', '唐', '初', '，', '契', '丹', '族', '部', '落', '聯', '盟', '首', '領', '大', '賀', '摩', '會', '臣', '服', '於', '唐', '。', '64', '##8', '年', '，', '在', '羈', '[UNK]', '制', '度', '下', '設', '松', '漠', '都', '督', '府', '，', '以', '大', '賀', '窟', '哥', '擔', '任', '松', '漠', '都', '督', '兼', '左', '領', '軍', '將', '軍', '，', '賜', '姓', '李', '。', '武', '則', '天', '時', '期', '因', '受', '到', '營', '州', '都', '督', '趙', '文', '[UNK]', '的', '凌', '辱', '而', '反', '抗', '數', '十', '年', '。', '開', '元', '初', '，', '松', '漠', '都', '督', '府', '得', '以', '復', '置', '，', '從', '此', '雙', '方', '睦', '鄰', '友', '好', '百', '餘', '年', '，', '經', '濟', '文', '化', '交', '流', '頻', '繁', '，', '始', '終', '忠', '服', '於', '唐', '，', '直', '至', '唐', '王', '朝', '滅', '亡', '之', '後', '，', '耶', '律', '阿', '保', '機', '才', '在', '塞', '北', '稱', '汗', '。', '東', '突', '厥', '常', '年', '南', '下', '襲', '擊', '中', '原', '，', '唐', '初', '北', '方', '割', '據', '政', '權', '紛', '紛', '聯', '籠', '突', '厥', '抗', '唐', '，', '是', '唐', '建', '國'

W0418 17:17:27.937376 139979497596288 <ipython-input-30-3d8bb943af1a>:170] Could not find answer: '71##4年' vs. '714年'


['唐', '玄', '宗', '開', '元', '廿', '年', '，', '兩', '國', '再', '次', '會', '盟', '，', '兩', '國', '決', '定', '以', '赤', '嶺', '為', '界', '限', '。', '73', '##4', '年', '正', '式', '立', '碑', '。', '不', '久', '後', '發', '生', '的', '安', '史', '之', '亂', '使', '得', '唐', '朝', '走', '向', '衰', '落', '，', '吐', '蕃', '趁', '機', '大', '力', '擴', '張', '勢', '力', '。', '唐', '德', '宗', '建', '中', '年', '間', '其', '要', '求', '與', '唐', '確', '立', '甥', '舅', '之', '國', '的', '關', '係', '，', '而', '不', '用', '臣', '國', '之', '禮', '。', '78', '##3', '年', '，', '兩', '國', '在', '清', '水', '會', '盟', '，', '這', '次', '會', '盟', '基', '本', '滿', '足', '吐', '蕃', '的', '要', '求', '，', '兩', '國', '改', '以', '賀', '蘭', '山', '為', '界', '。', '787', '年', '，', '唐', '蕃', '又', '會', '盟', '於', '平', '涼', '，', '吐', '蕃', '預', '備', '進', '行', '劫', '盟', '，', '結', '果', '唐', '朝', '除', '了', '主', '盟', '官', '員', '外', '，', '其', '餘', '六', '十', '多', '名', '官', '員', '都', '被', '扣', '押', '。', '唐', '軍', '死', '五', '百', '多', '人', '，', '被', '俘', '一', '千', '多', '人', '，', '史', '稱', '平', '涼', '劫', '盟', '。', '

W0418 17:17:27.947660 139979497596288 <ipython-input-30-3d8bb943af1a>:170] Could not find answer: '[UNK]羅斯戰役' vs. '怛羅斯戰役'


['唐', '朝', '統', '一', '中', '國', '之', '後', '，', '太', '宗', '、', '高', '宗', '、', '武', '后', '先', '後', '對', '外', '用', '兵', '，', '擊', '敗', '北', '方', '疆', '外', '和', '西', '北', '方', '疆', '外', '的', '敵', '國', '東', '突', '厥', '與', '西', '突', '厥', '，', '在', '西', '北', '佔', '領', '高', '昌', '、', '收', '其', '地', '為', '州', '縣', '，', '重', '新', '控', '制', '西', '域', '，', '在', '東', '北', '吞', '滅', '高', '句', '麗', '和', '百', '濟', '，', '並', '在', '白', '江', '口', '戰', '役', '擊', '敗', '日', '本', '援', '軍', '。', '到', '玄', '宗', '時', '，', '唐', '朝', '對', '外', '擴', '張', '達', '到', '頂', '峰', '，', '勢', '力', '甚', '至', '遠', '達', '中', '亞', '與', '新', '興', '的', '黑', '衣', '大', '食', '相', '遇', '。', '但', '唐', '朝', '經', '安', '史', '之', '亂', '後', '一', '蹶', '不', '振', '，', '不', '僅', '無', '力', '保', '持', '前', '期', '開', '疆', '闢', '土', '的', '成', '果', '，', '還', '要', '依', '靠', '吐', '蕃', '、', '回', '[UNK]', '的', '軍', '事', '實', '力', '以', '對', '抗', '藩', '鎮', '的', '割', '據', '勢', '力', '。', '雖', '然', '唐', '憲', '宗', '時', '獲', '得', '過', '對', '淮', '西', '、', '劍', 

W0418 17:17:28.024183 139979497596288 <ipython-input-30-3d8bb943af1a>:170] Could not find answer: '李[UNK]' vs. '李昞'


['除', '了', '佛', '道', '二', '教', '外', '，', '當', '時', '還', '有', '伊', '斯', '蘭', '教', '、', '景', '教', '、', '拜', '火', '教', '與', '摩', '尼', '教', '等', '外', '來', '宗', '教', '。', '但', '社', '會', '影', '響', '力', '較', '小', '。', '唐', '代', '對', '外', '來', '宗', '教', '相', '對', '寬', '容', '，', '期', '間', '多', '有', '外', '來', '教', '士', '傳', '授', '教', '法', '，', '其', '中', '以', '伊', '斯', '蘭', '教', '和', '景', '教', '為', '最', '大', '。', '伊', '斯', '蘭', '教', '是', '唐', '的', '敵', '國', '大', '食', '的', '國', '教', '，', '稱', '作', '「', '大', '食', '法', '」', '。', '65', '##1', '年', '，', '先', '知', '穆', '罕', '默', '德', '的', '舅', '父', '沙', '德', '作', '為', '使', '節', '兩', '次', '出', '使', '中', '國', '，', '得', '到', '高', '宗', '接', '見', '以', '及', '傳', '教', '的', '准', '許', '，', '在', '廣', '州', '築', '建', '懷', '聖', '寺', '。', '以', '後', '的', '兩', '個', '多', '世', '紀', '，', '伊', '斯', '蘭', '教', '隨', '著', '西', '域', '商', '人', '沿', '途', '陸', '海', '兩', '條', '絲', '路', '入', '唐', '，', '在', '中', '國', '發', '展', '壯', '大', '。', '景', '教', '通', '過', '同', '一', '個', '路', '

W0418 17:17:28.097908 139979497596288 <ipython-input-30-3d8bb943af1a>:170] Could not find answer: '輔公[UNK]' vs. '輔公祏'


['唐', '朝', '的', '崛', '起', '有', '賴', '秦', '王', '李', '世', '民', '，', '他', '的', '軍', '事', '才', '能', '突', '出', '，', '率', '軍', '贏', '得', '多', '次', '關', '鍵', '勝', '利', '。', '掃', '平', '群', '雄', '後', '，', '太', '子', '李', '建', '成', '與', '李', '世', '民', '為', '了', '皇', '位', '而', '鬥', '爭', '，', '626', '年', '李', '世', '民', '發', '動', '玄', '武', '門', '之', '變', '，', '殺', '了', '哥', '哥', '太', '子', '李', '建', '成', '與', '弟', '弟', '齊', '王', '李', '元', '吉', '，', '控', '制', '長', '安', '。', '李', '淵', '深', '知', '形', '勢', '，', '於', '是', '禪', '讓', '帝', '位', '，', '成', '為', '太', '上', '皇', '。', '李', '世', '民', '繼', '位', '，', '即', '唐', '太', '宗', '。', '唐', '太', '宗', '勵', '精', '圖', '治', '、', '納', '諫', '如', '流', '，', '逐', '漸', '恢', '復', '唐', '朝', '的', '國', '力', '。', '在', '內', '政', '方', '面', '，', '唐', '太', '宗', '推', '行', '均', '田', '制', '與', '租', '庸', '調', '制', '，', '提', '升', '農', '業', '發', '展', '。', '在', '職', '官', '制', '度', '上', '，', '改', '良', '隋', '朝', '的', '制', '度', '，', '形', '成', '三', '省', '六', '部', '和', '科', '舉', '選', '士', '制

W0418 17:17:28.163509 139979497596288 <ipython-input-30-3d8bb943af1a>:170] Could not find answer: '109##6年' vs. '1096年'




W0418 17:17:28.166694 139979497596288 <ipython-input-30-3d8bb943af1a>:170] Could not find answer: '120##9年' vs. '1209年'


['牛', '津', '大', '學', '學', '生', '會', '負', '責', '向', '校', '方', '反', '映', '學', '生', '的', '意', '見', '、', '代', '表', '全', '體', '學', '生', '參', '與', '國', '家', '高', '等', '教', '育', '政', '策', '辯', '論', '會', '，', '及', '直', '接', '向', '學', '生', '提', '供', '福', '利', '及', '援', '助', '。', '宏', '觀', '牛', '津', '整', '體', '的', '書', '院', '聯', '邦', '制', '度', '，', '學', '生', '會', '既', '是', '大', '學', '逾', '21', ',', '000', '名', '學', '生', '的', '代', '表', '，', '又', '是', '眾', '書', '院', '宿', '舍', '委', '員', '的', '聯', '邦', '。', '學', '生', '會', '的', '行', '政', '委', '員', '為', '六', '名', '全', '職', '的', '有', '薪', '假', '休', '人', '員', '，', '他', '們', '均', '為', '每', '年', '完', '成', '期', '末', '考', '試', '的', '學', '生', '。', '基', '於', '牛', '津', '書', '院', '生', '活', '的', '重', '要', '性', '，', '每', '所', '書', '院', '的', '舍', '委', '的', '服', '務', '，', '對', '於', '學', '生', '而', '言', '比', '學', '生', '會', '的', '來', '得', '更', '直', '接', '。', '每', '個', '舍', '委', '均', '有', '其', '主', '席', '及', '其', '他', '獲', '選', '的', '幹', '事', '，', '負', '責', '向', '書', '

W0418 17:17:28.186371 139979497596288 <ipython-input-30-3d8bb943af1a>:170] Could not find answer: '53##3部' vs. '533部'


['早', '期', '的', '學', '生', '按', '地', '理', '位', '置', '分', '為', '兩', '批', '：', '北', '邊', '的', '學', '生', '主', '要', '為', '蘇', '格', '蘭', '人', '及', '特', '倫', '特', '河', '以', '北', '的', '英', '格', '蘭', '人', '；', '南', '邊', '的', '則', '為', '愛', '爾', '蘭', '人', '、', '威', '爾', '斯', '人', '及', '特', '倫', '特', '以', '南', '的', '英', '格', '蘭', '人', '。', '在', '接', '著', '的', '數', '個', '世', '紀', '裡', '，', '地', '理', '位', '置', '仍', '決', '定', '著', '學', '生', '們', '應', '屬', '的', '書', '院', '及', '學', '堂', '，', '這', '也', '是', '牛', '津', '大', '學', '的', '早', '期', '文', '化', '之', '一', '。', '除', '此', '，', '許', '多', '修', '道', '會', '開', '始', '擁', '有', '影', '響', '力', '，', '並', '向', '學', '生', '提', '供', '宿', '舍', '及', '學', '堂', '。', '差', '不', '多', '在', '同', '一', '時', '間', '，', '不', '少', '捐', '助', '者', '亦', '紛', '紛', '成', '立', '不', '同', '的', '獨', '立', '書', '院', '，', '作', '為', '自', '給', '自', '足', '的', '學', '術', '團', '體', '。', '最', '早', '的', '書', '院', '創', '辦', '者', '包', '括', '124', '##9', '年', '捐', '贈', '大', '學', '書', '院', '的', '威', 

W0418 17:17:28.191942 139979497596288 <ipython-input-30-3d8bb943af1a>:170] Could not find answer: '124##9年' vs. '1249年'


['133', '##3', '-', '34', '年', '，', '一', '些', '深', '感', '不', '滿', '的', '牛', '津', '學', '者', '欲', '在', '林', '肯', '郡', '另', '立', '一', '所', '大', '學', '。', '牛', '津', '及', '劍', '橋', '大', '學', '於', '同', '年', '聯', '合', '向', '英', '王', '愛', '德', '華', '三', '世', '請', '願', '，', '希', '望', '他', '禁', '止', '類', '似', '舉', '動', '。', '至', '此', '直', '至', '十', '九', '世', '紀', '二', '十', '年', '代', '，', '包', '括', '倫', '敦', '在', '內', '的', '任', '何', '英', '格', '蘭', '地', '區', '都', '被', '禁', '止', '成', '立', '其', '他', '高', '等', '學', '府', '，', '導', '致', '「', '牛', '橋', '」', '雙', '寡', '頭', '壟', '斷', '的', '局', '面', '，', '這', '在', '西', '歐', '國', '家', '屬', '少', '有', '景', '象', '。', '文', '藝', '復', '興', '自', '15', '世', '紀', '起', '大', '大', '影', '響', '牛', '津', '大', '學', '的', '教', '學', '。', '這', '個', '時', '期', '的', '駐', '校', '學', '者', '包', '括', '為', '希', '臘', '文', '復', '興', '作', '出', '很', '大', '貢', '獻', '的', '威', '廉', '·', '格', '羅', '辛', '，', '以', '及', '著', '名', '的', '聖', '經', '神', '學', '家', '約', '翰', '·', '科', '萊', '。', '隨', '著'

IOPub data rate exceeded.
The notebook server will temporarily stop sending output
to the client in order to avoid crashing it.
To change this limit, set the config variable
`--NotebookApp.iopub_data_rate_limit`.

Current values:
NotebookApp.iopub_data_rate_limit=1000000.0 (bytes/sec)
NotebookApp.rate_limit_window=3.0 (secs)



In [9]:
doc_tokens = []
char_to_word_offset = []

paragraph_text = "Hi, I am Wendy"

def is_whitespace(c):
    if c == " " or c == "\t" or c == "\r" or c == "\n" or ord(c) == 0x202F or ord(c) == 0x80:
      return True
    return False
prev_is_whitespace = True

for c in paragraph_text:
    if is_whitespace(c):
      prev_is_whitespace = True
    else:
      if prev_is_whitespace:
        doc_tokens.append(c)
      else:
        doc_tokens[-1] += c
      prev_is_whitespace = False
    char_to_word_offset.append(len(doc_tokens) - 1)

In [10]:
print(char_to_word_offset)

[0, 0, 0, 0, 1, 1, 2, 2, 2, 3, 3, 3, 3, 3]


In [11]:
doc_tokens

['Hi,', 'I', 'am', 'Wendy']

In [13]:
answer_offset = 9
answer_length = 5
start_position = char_to_word_offset[answer_offset]
end_position = char_to_word_offset[answer_offset + answer_length - 1]

In [14]:
doc_tokens[start_position:(end_position + 1)]

['Wendy']

In [15]:
start_position

3

In [17]:
end_position+1

4