<a href="https://colab.research.google.com/github/yu0ki/BERT_Practice/blob/main/Chapter8.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [1]:
'''
本章でやること：固有表現抽出
つまり文章から人名、組織名といったものを抽出する
まずは簡単な方法を学んで、次にBERTを使ったものを学んでいく
'''

'\n本章でやること：固有表現抽出\nつまり文章から人名、組織名といったものを抽出する\nまずは簡単な方法を学んで、次にBERTを使ったものを学んでいく\n'

In [2]:
# まずはディレクトリ移動
!mkdir chap8
%cd ./chap8


/content/chap8


In [3]:
# 次はライブラリ
# バージョンが教科書のだと古いようなので、模範解答（https://github.com/stockmarkteam/bert-book/blob/master/Chapter6.ipynb）にバージョンを合わせている
!pip install transformers==4.18.0 fugashi==1.1.0 ipadic==1.0.0 pytorch-lightning==1.6.1

# 集合に関する数学的な操作のライブラリかな？
# https://qiita.com/anmint/items/37ca0ded5e1d360b51f3
import itertools

import random
import json
from tqdm import tqdm
import numpy as np

# unicode文字列に対していろいろ操作できそうなライブラリ
# https://docs.python.org/ja/3/library/unicodedata.html
import unicodedata

import torch
from torch.utils.data import DataLoader
from transformers import BertJapaneseTokenizer, BertForTokenClassification
import pytorch_lightning as pl

# 日本語学習済みモデル
MODEL_NAME = 'cl-tohoku/bert-base-japanese-whole-word-masking'

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting transformers==4.18.0
  Downloading transformers-4.18.0-py3-none-any.whl (4.0 MB)
[K     |████████████████████████████████| 4.0 MB 7.9 MB/s 
[?25hCollecting fugashi==1.1.0
  Downloading fugashi-1.1.0-cp37-cp37m-manylinux1_x86_64.whl (486 kB)
[K     |████████████████████████████████| 486 kB 64.2 MB/s 
[?25hCollecting ipadic==1.0.0
  Downloading ipadic-1.0.0.tar.gz (13.4 MB)
[K     |████████████████████████████████| 13.4 MB 28.2 MB/s 
[?25hCollecting pytorch-lightning==1.6.1
  Downloading pytorch_lightning-1.6.1-py3-none-any.whl (582 kB)
[K     |████████████████████████████████| 582 kB 64.8 MB/s 
Collecting tokenizers!=0.11.3,<0.13,>=0.11.1
  Downloading tokenizers-0.12.1-cp37-cp37m-manylinux_2_12_x86_64.manylinux2010_x86_64.whl (6.6 MB)
[K     |████████████████████████████████| 6.6 MB 42.9 MB/s 
[?25hCollecting huggingface-hub<1.0,>=0.1.0
  Downloading huggingface_hub-0.

In [4]:
'''
固有表現抽出とは

人名・組織名などの固有名詞
日付などの時間表現
金額などの数値表現

などを抽出する。そして、それが人名なのかなんなのか、カテゴリを判定する

ちなみに、どんなカテゴリが定義されているかは何パターンかあり、問題によって変える
IREX
拡張固有表現階層
などがある
'''

'\n固有表現抽出とは\n\n人名・組織名などの固有名詞\n日付などの時間表現\n金額などの数値表現\n\nなどを抽出する。そして、それが人名なのかなんなのか、カテゴリを判定する\n\nちなみに、どんなカテゴリが定義されているかは何パターンかあり、問題によって変える\nIREX\n拡張固有表現階層\nなどがある\n'

In [5]:
'''
表記揺れについて

固有表現には全角・半角などの違いで、表記揺れが発生する
よって、これらを正規化することで１つに統一する必要がある

正規化には、unicodedata.normalize('NFKC', text) が用いられる
NFKCは正規化のモード
textは正規化対象の文字列

'''
# 匿名関数lambda
normalize = lambda s: unicodedata.normalize("NFKC", s)

# 全角ABCを半角に正規化
print(f'ＡＢＣ　-> {normalize("ＡＢＣ")}')
# 半角ABCを半角に正規化
print(f'ABC　-> {normalize("ABC")}')

# 全角１２３を半角に正規化
print(f'１２３　-> {normalize("１２３")}')
# 半角ABCを半角に正規化
print(f'123　-> {normalize("123")}')

# 全角カタカナを全角に正規化
print(f'アイウ　-> {normalize("アイウ")}')
# 半角カタカナを全角に正規化
print(f'ｱｲｳ　-> {normalize("ｱｲｳ")}')

ＡＢＣ　-> ABC
ABC　-> ABC
１２３　-> 123
123　-> 123
アイウ　-> アイウ
ｱｲｳ　-> アイウ


In [6]:
'''
固有表現抽出方法１
IO法

簡単なアルゴリズムであるが、一般的にはBIO法の方がよく使われる
    IO法でもまあまあいいが、一部対応できない表現があるためBIOが使われる傾向にある

アルゴリズム
１。トークンが固有表現の一部であれば、トークンにタグ「I-(Type)」をつける.  ex) I - (人名)　など
２。トークンが固有表現の一部でないならば、トークンのタグはOとする
3。O以外の同じタグが連続している部分トークン列を連結して、固有表現とする
    トークナイザがトークン分割の際に「##」を付与している場合があるので、これは除外して結合する

I は Inside, O は Outsideから来ている


問題点
同じタグを持つ固有名詞が複数続いた場合は、全てが連結されて一つの固有表現として抽出される
日米　などは日本とアメリカで別々のはずなのに、1個に合体してしまう

'''

'\n固有表現抽出方法１\nIO法\n\n簡単なアルゴリズムであるが、一般的にはBIO法の方がよく使われる\n    IO法でもまあまあいいが、一部対応できない表現があるためBIOが使われる傾向にある\n\nアルゴリズム\n１。トークンが固有表現の一部であれば、トークンにタグ「I-(Type)」をつける.  ex) I - (人名)\u3000など\n２。トークンが固有表現の一部でないならば、トークンのタグはOとする\n3。O以外の同じタグが連続している部分トークン列を連結して、固有表現とする\n    トークナイザがトークン分割の際に「##」を付与している場合があるので、これは除外して結合する\n\nI は Inside, O は Outsideから来ている\n\n\n問題点\n同じタグを持つ固有名詞が複数続いた場合は、全てが連結されて一つの固有表現として抽出される\n日米\u3000などは日本とアメリカで別々のはずなのに、1個に合体してしまう\n\n'

In [31]:
# 固有表現では普段のトークンにタグを付与するので
# それに対応したトークナイザを定義しないといけない

# そのトークナイザの中では、学習・推論に使用する関数を定義
# ここは最悪あんまり理解してなくてもいいらしい


# BertJapaneseTokenizerを継承：つまり、selfはBertJapaneseTokenizerの関数は使える
class NER_tokenizer(BertJapaneseTokenizer):

    '''
    文章と、それに含まれる固有表現が与えられたときに、符号化とラベル列の作成を行う関数
    この関数の出力は、BERTモデルに入力できる形になっている。（学習時に使用する関数）
    つまり、固有表現に適切なラベルを付与してBERTに入力できるように変換する関数
    これをBERTに入力すると、ラベルがついているため、損失を返してくれる
    これをもとにパラメータを学習する
    '''
    def encode_plus_tagged(self, text, entities, max_length):

        # 手順１：固有表現の前後でtextを分割し、それぞれのラベルをつけておく

        # entities は配列
        # 配列のようそはdict型
        # {'name' : 固有表現, 'span': [文章中の文字列の開始位置index, 終了index+1], 'type' : 固有表現のラベル, 'type_id' : typeに紐づく数字（１：１対応）}
        # sorted :https://note.nkmk.me/python-list-sort-sorted/
        # 単語の文章中での開始位置でソート
        entities = sorted(entities, key=lambda x: x['span'][0])

        # 分割後の文字列を追加する
        splitted = []

        # 次にラベルをつけるのはどこからか？を表す
        position = 0

        '''
        entitiesの中には、文章中に入っている固有表現とそのラベル一覧が入っている（教師データ）
        textを普段通り分割すると、固有表現が途中で分断されてしまって、教師データと一致する固有表現が検出できなくなってしまうことがある
        これを回避するために、以下のfor文では教師データの固有表現を見つけては、textを分割するという対応をとっている
        分割ついでにラベルもちゃんと記録する
        '''
        for entity in entities:
            start = entity['span'][0]
            end = entity['span'][1]

            # 固有表現のラベル
            label = entity['type_id']

            # 固有表現でないものにはラベルOをつける
            splitted.append({'text' : text[position:start], 'label' : 0})

            # 固有表現には対応するラベルをIDで付与
            splitted.append({'text' : text[start:end], 'label' : label})

            # 次にラベルをつけるのはend以降
            position = end

        # 最後余った文字列をラベル0にする
        splitted.append({'text' : text[position:], 'label' : 0})

        # 長さ０の文字列をsplittedから取り除く
        splitted = [ s for s in splitted if s['text']]

        # 手順２：分割されたそれぞれの文字列をトークン化し、ラベルづけする

        # トークンを入れる
        tokens = []
        # ラベルを入れる
        labels = []

        for text_splitted in splitted:
            text = text_splitted['text']
            label = text_splitted['label']

            # テキストをトークン化
            tokens_splitted = self.tokenize(text)
            # 対応するラベルを追加
            labels_splitted = [label] * len(tokens_splitted)

            tokens.extend(tokens_splitted)
            labels.extend(labels_splitted)

        
        # 手順３：符号化を行い、BERTに入力可能にする
        input_ids = self.convert_tokens_to_ids(tokens)

        # 公式ドキュメントが見つからないが
        # prepare_for_model はinput_idsを符号化するらしい
        # 公式これか？？https://huggingface.co/docs/transformers/internal/tokenization_utils#transformers.PreTrainedTokenizerBase.prepare_for_model

        encoding = self.prepare_for_model(
            input_ids,
            max_length=max_length,
            padding='max_length',
            truncation=True
        )


        # 特殊トークン[CLS], [SEP]のラベルを０にする
        labels = [0] + labels[:max_length-2] + [0]

        # [PAD]もラベルを０に
        # [PAD]は文末にあるので、その数だけ最後に追加すればいい
        labels = labels + [0]*(max_length - len(labels))

        encoding['labels'] = labels

        return encoding

    
    '''
    文章を符号化するとともに、各トークンの文章中の位置を特定する関数
    文章中に未知語などが含まれていた場合、先ほどの関数でラベルづけした出力（input_ids やそれに対応するlabel 元の文章は保存されない）からは
    元の文章を復元して、固有表現はこれだ！と特定できない。
    そのため、位置を特定しておく必要がある
    （推論時に使用する関数）
    '''
    def encode_plus_untagged(
        self, text, max_length=None, return_tensors=None
    ):
        # 手順１：文章のトークン化

        # トークンを追加していく
        tokens = []
        # トークンに対応する文章中の文字列を追加していく
        tokens_original = []

        # MeCabで単語に分割
        # https://huggingface.co/transformers/v4.11.3/_modules/transformers/models/bert_japanese/tokenization_bert_japanese.html
        # self.word_tokenizerにはBasicTokenizerというクラスのインスタンスが入ってるっぽい
        words = self.word_tokenizer.tokenize(text)
        # print('1')
        # 手順２：単語をサブワード分割して、元のテキストを保存
        for word in words:
            # 単語をサブワードに分割
            # 未知語も分割すれば対応可能になる可能性が上がるっぽいね　　　例）東京タワーが未知語でも、東京とタワーはそれぞれ既知の単語かもしれない
            # https://note.com/npaka/n/nb08941a36c8b#I3MMH
            tokens_word = self.subword_tokenizer.tokenize(word)
            tokens.extend(tokens_word)

            # 未知語への対応
            # 未知語に遭遇した場合は元のテキストを残しておかないと、全て[UNK]に変換されてしまって区別できなくなる
            if tokens_word[0] == '[UNK]':
                tokens_original.append(word)
            else:
                # 先頭の単語以外は##を除去して保存
                # 未知語対策のifを挟まないと、[UNK]が直で保存される
                tokens_original.extend([
                    token.replace('##', '') for token in tokens_word
                ])
        # print('2')
        # 手順３：各トークンの文章中での位置を保存（空白位置も考慮）
        position = 0
        spans = [] # トークンの位置情報を追加していく

        for token in tokens_original:
            # トークン長
            l = len(token)

            # text（元の入力文章）中の[position..position+l]を切り出して、tokenと一致するか確認
            # while 1 = while true
            while 1:
                # 一致しない場合
                if token != text[position:position+l]:
                    position += 1
                else:
                    spans.append([position, position+l])
                    position += 1
                    break

        # print('3')
        # 手順４：符号化を行い、BERT入力可能にする
        input_ids = self.convert_tokens_to_ids(tokens)

        # input_idsが既にわかっている場合に使用できる符号化
        # 確かめてはいないが、いつもはBertJapanezeTokenizerのインスタンスを関数として呼び出していたが、それができないため、わざわざこの関数を使用しているのではないのか？と思っている
        # selfに直接引数与えれるのかな・・・
        encoding = self.prepare_for_model(
            input_ids,
            max_length=max_length,
            padding='max_length' if max_length else False,
            truncation = True if max_length else False
        )

        # [CLS], [SEP], [PAD]の処理
        # 系列長
        sequence_length = len(encoding['input_ids'])

        # [CLS]に対応するダミーspan追加
        # sequence_lengthには[sep][cls]が入っているが、spansの時点ではこれらは入っていないデータを使っているので、数合わせのために-2
        # sequence_lenghtはspansの長さより長い
        spans = [[-1, -1]] + spans[:sequence_length-2]

        # sep, padに対する追加
        spans = spans + [[-1, -1]] * (sequence_length - len(spans))

        # print('4')
        
        # 手順５：必要に応じて出力の型を調整
        if return_tensors == 'pt':
            encoding = { k : torch.tensor([v]) for k, v in encoding.items() }
        
        return encoding, spans


    '''
    「文章」と「タグ列」と「各トークンの文章中の位置」が与えられた時に、文章中に含まれる固有表現に対応する文字列や位置を特定する関数
    文章、ラベル列の予測値、各トークンの位置から固有表現を得る（推論時に使用）
    '''
    def convert_bert_output_to_entities(self, text, labels, spans):
        """
        文章、ラベル列の予測値、各トークンの位置から固有表現を得る。
        """
        # labels, spansから特殊トークンに対応する部分を取り除く
        labels = [label for label, span in zip(labels, spans) if span[0] != -1]
        spans = [span for span in spans if span[0] != -1]

        # 同じラベルが連続するトークンをまとめて、固有表現を抽出する。
        entities = []
        for label, group \
            in itertools.groupby(enumerate(labels), key=lambda x: x[1]):
            
            group = list(group)
            start = spans[group[0][0]][0]
            end = spans[group[-1][0]][1]

            if label != 0: # ラベルが0以外ならば、新たな固有表現として追加。
                entity = {
                    "name": text[start:end],
                    "span": [start, end],
                    "type_id": label
                }
                entities.append(entity)

        return entities 





In [32]:
# 上記のトークナイザーをインスタンス化
tokenizer = NER_tokenizer.from_pretrained(MODEL_NAME)

The tokenizer class you load from this checkpoint is not the same type as the class this function is called from. It may result in unexpected tokenization. 
The tokenizer class you load from this checkpoint is 'BertJapaneseTokenizer'. 
The class this function is called from is 'NER_tokenizer'.


In [33]:
# encode_plus_taggedの挙動確認
text = '昨日のみらい事務所との打ち合わせは順調だった'

# ちなみにIO法のOタグは0(zero), I タグは１以上の数字で表される 
entities = [
    {'name' : 'みらい事務所', 'span' : [3, 9], 'type_id' : 1}
]

encoding = tokenizer.encode_plus_tagged(
    text, entities, max_length=20
)
print(encoding)

{'input_ids': [2, 10271, 28486, 5, 546, 10780, 2464, 13, 5, 1878, 2682, 9, 10750, 308, 10, 3, 0, 0, 0, 0], 'token_type_ids': [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0], 'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0], 'labels': [0, 0, 0, 0, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]}


In [34]:
# encode_plus_untaggedの挙動確認

text = '騰訊の英語名はTencent Holdings Ltdである。'
encoding, spans = tokenizer.encode_plus_untagged(
    text, return_tensors='pt'
)
print('# encoding')
print(encoding)
print('# spans')
print(spans)

# encoding
{'input_ids': tensor([[    2,     1, 26280,     5,  1543,   125,     9,  6749, 28550,  2953,
         28550, 28566, 21202, 28683, 14050, 12475,    12,    31,     8,     3]]), 'token_type_ids': tensor([[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]]), 'attention_mask': tensor([[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]])}
# spans
[[-1, -1], [0, 1], [1, 2], [2, 3], [3, 5], [5, 6], [6, 7], [7, 9], [9, 10], [10, 12], [12, 13], [13, 14], [15, 18], [18, 19], [19, 23], [24, 27], [27, 28], [28, 30], [30, 31], [-1, -1]]


In [35]:
# convert_bert_output_to_entitiesの挙動確認
# 適当なバートからの出力を置いておく
labels_predicted = [0, 1, 1, 0,0,0,0,1,1,1,1,1,1,1,1,1,0,0,0,0]

entities = tokenizer.convert_bert_output_to_entities(
    text, labels_predicted, spans
)
print(entities)

[{'name': '騰訊', 'span': [0, 2], 'type_id': 1}, {'name': 'Tencent Holdings Ltd', 'span': [7, 27], 'type_id': 1}]


In [36]:
'''
ここからは、BERTも使って固有表現抽出を行っていく
BertForTokenClassificationが使用できる
'''

tokenizer = NER_tokenizer.from_pretrained(MODEL_NAME)

# 固有表現のタイプが３つ　＋　Oタグでlabel数は4
# 1:組織名、２：人名、３：製品名
bert_tc = BertForTokenClassification.from_pretrained(
    MODEL_NAME, num_labels = 4
)

bert_tc = bert_tc.cuda()

The tokenizer class you load from this checkpoint is not the same type as the class this function is called from. It may result in unexpected tokenization. 
The tokenizer class you load from this checkpoint is 'BertJapaneseTokenizer'. 
The class this function is called from is 'NER_tokenizer'.
Some weights of the model checkpoint at cl-tohoku/bert-base-japanese-whole-word-masking were not used when initializing BertForTokenClassification: ['cls.predictions.bias', 'cls.seq_relationship.weight', 'cls.predictions.decoder.weight', 'cls.predictions.transform.LayerNorm.bias', 'cls.predictions.transform.LayerNorm.weight', 'cls.predictions.transform.dense.weight', 'cls.predictions.transform.dense.bias', 'cls.seq_relationship.bias']
- This IS expected if you are initializing BertForTokenClassification from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expecte

In [37]:
'''
推論時の使い方
'''

# データの定義
text = 'AさんはB大学に入学した。'

# 符号化を行い、トークンの文章中の位置も特定する
encoding, spans = tokenizer.encode_plus_untagged(
    text, return_tensors = 'pt'
)

encoding = { k : v.cuda() for k, v in encoding.items() }

# BERTでトークンごとの分類スコアを出力
# スコアが最も高いラベルを予測値とする

with torch.no_grad():
    output = bert_tc(**encoding)
    # scores[バッチサイズ, 系列長, ラベルの数]
    scores = output.logits
    labels_predicted = scores[0].argmax(-1).cpu().numpy().tolist()

# ラベルを固有表現に変換
entities = tokenizer.convert_bert_output_to_entities(text, labels_predicted, spans)
print(entities)


# ちなみに、チューニングしていないので出力は出鱈目である

[{'name': 'A', 'span': [0, 1], 'type_id': 2}, {'name': 'さんは', 'span': [1, 4], 'type_id': 3}, {'name': 'B大学に', 'span': [4, 8], 'type_id': 2}, {'name': '入学', 'span': [8, 10], 'type_id': 3}, {'name': 'した。', 'span': [10, 13], 'type_id': 2}]


In [38]:
'''
学習する際のコード

'''

# 学習用データの定義
data = [
    {
        'text': 'AさんはB大学に入学した。',
        'entities': [
            {'name': 'A', 'span': [0, 1], 'type_id': 2},
            {'name': 'B大学', 'span': [4, 7], 'type_id': 1}
        ]
    },
    {
        'text': 'CDE株式会社は新製品「E」を販売する。',
        'entities': [
            {'name': 'CDE株式会社', 'span': [0, 7], 'type_id': 1},
            {'name': 'E', 'span': [12, 13], 'type_id': 3}
        ]
    }
]

# 各データを符号化
max_length = 32

# 符号化結果を格納
dataset_for_loader = []

# 符号化
for sample in data:
    text = sample['text']
    entities = sample['entities']

    encoding = tokenizer.encode_plus_tagged(
        text, entities, max_length
    )
    encoding = { k : torch.tensor(v) for k, v in encoding.items() }
    dataset_for_loader.append(encoding)


# データローダを作成
dataloader = DataLoader(dataset_for_loader, batch_size = len(data))

# ミニバッチを取り出して損失を得る
for batch in dataloader:
    batch = { k : v.cuda() for k, v in batch.items() }
    output = bert_tc(**batch)
    loss = output.loss


In [39]:
# データセット使って学習しましょうや
'''
データの詳細
https://github.com/stockmarketeam/ner-wikipedia-dataset

データは以下のような形をしている
{
    'curid' : 'wikipediaのID',
    'entities' : [
        { 'name' : '長岡半太郎', 'span' : [0, 5], 'type' : '人名' },
        { 'name' : '半太郎', 'span' : [34, 37], 'type' : '人名' },
        { 'name' : '長三郎', 'span' : [46, 49], 'type' : '人名' }
    ],
    'text' : '長岡半太郎とは同郷の先輩後輩関係でかねてから親交があったのみならず、半太郎は妻や幼子の医療を長三郎に全面的に頼んでいた。'
}
'''
!git clone --branch v2.0 https://github.com/stockmarkteam/ner-wikipedia-dataset 

fatal: destination path 'ner-wikipedia-dataset' already exists and is not an empty directory.


In [40]:
'''
データを読み込み、
文字列の正規化を行い
固有表現のカテゴリを1~8のタイプのIDに変更する
それから学習データ・訓練データなどに分割する

'''

# データのロード
dataset = json.load(open('ner-wikipedia-dataset/ner.json', 'r'))

# 固有表現のタイプとIDを対応づける辞書
type_id_dict = {
    "人名": 1,
    "法人名": 2,
    "政治的組織名": 3,
    "その他の組織名": 4,
    "地名": 5,
    "施設名": 6,
    "製品名": 7,
    "イベント名": 8
}


# カテゴリーをラベルに変更
# 文字列の正規化
for sample in dataset:
    # カテゴリをIDへ
    for e in sample['entities']:
        e['type_id'] = type_id_dict[e['type']]
        del e['type']

    # 文字列の正規化
    sample['text'] = unicodedata.normalize('NFKC', sample['text'])


# データの分割
# 学習：検証：テスト = 6 : 2 : 2

random.shuffle(dataset)
n = len(dataset)
n_train = int(n * 0.6)
n_val = int(n*0.2)

dataset_train = dataset[:n_train]
dataset_val = dataset[n_train : n_train + n_val]
dataset_test = dataset[n_train + n_val : ]

In [41]:
'''
ファインチューニングを行うための準備

データローダの作成
'''

def create_dataset(tokenizer, dataset, max_length):
    # まずはデータローダに入力できるようにデータを符号化しよう関数
    dataset_for_loader = []

    for sample in dataset:
        text = sample['text']
        entities = sample['entities']

        encoding = tokenizer.encode_plus_tagged(
            text, entities, max_length=max_length
        )

        encoding = { k : torch.tensor(v) for k, v in encoding.items() }

        dataset_for_loader.append(encoding)
    return dataset_for_loader


# 上の関数を使って、学習・検証用データローダを作る
max_length = 128

dataset_train_for_loader = create_dataset (
    tokenizer, dataset_train, max_length
)

dataset_val_for_loader = create_dataset (
    tokenizer, dataset_val, max_length
)

dataloader_train = DataLoader(
    dataset_train_for_loader, batch_size=32, shuffle=True
)

dataloader_val = DataLoader(dataset_val_for_loader, batch_size=256)

In [45]:
'''
ファインチューニング
PyTorch Lightning のクラスを定義して
チェックポイントを書き（=モデルを保存する条件を指定する）
学習メソッドを回すぜ

'''

# PyTorch Lightningのモデル
class BertForTokenClassification_pl(pl.LightningModule):
        
    def __init__(self, model_name, num_labels, lr):
        super().__init__()
        self.save_hyperparameters()
        self.bert_tc = BertForTokenClassification.from_pretrained(
            model_name,
            num_labels=num_labels
        )
        
    def training_step(self, batch, batch_idx):
        output = self.bert_tc(**batch)
        loss = output.loss
        self.log('train_loss', loss)
        return loss
        
    def validation_step(self, batch, batch_idx):
        output = self.bert_tc(**batch)
        val_loss = output.loss
        self.log('val_loss', val_loss)
        
    def configure_optimizers(self):
        return torch.optim.Adam(self.parameters(), lr=self.hparams.lr)

checkpoint = pl.callbacks.ModelCheckpoint(
    monitor='val_loss',
    mode='min',
    save_top_k=1,
    save_weights_only=True,
    dirpath='model/'
)

trainer = pl.Trainer(
    gpus=1,
    # max_epochs=5,
    max_epochs=1,
    callbacks=[checkpoint]
)

# ファインチューニング
model = BertForTokenClassification_pl(
    MODEL_NAME, num_labels=9, lr=1e-5
)
trainer.fit(model, dataloader_train, dataloader_val)
best_model_path = checkpoint.best_model_path

INFO:pytorch_lightning.utilities.rank_zero:GPU available: True, used: True
INFO:pytorch_lightning.utilities.rank_zero:TPU available: False, using: 0 TPU cores
INFO:pytorch_lightning.utilities.rank_zero:IPU available: False, using: 0 IPUs
INFO:pytorch_lightning.utilities.rank_zero:HPU available: False, using: 0 HPUs
Some weights of the model checkpoint at cl-tohoku/bert-base-japanese-whole-word-masking were not used when initializing BertForTokenClassification: ['cls.predictions.bias', 'cls.seq_relationship.weight', 'cls.predictions.decoder.weight', 'cls.predictions.transform.LayerNorm.bias', 'cls.predictions.transform.LayerNorm.weight', 'cls.predictions.transform.dense.weight', 'cls.predictions.transform.dense.bias', 'cls.seq_relationship.bias']
- This IS expected if you are initializing BertForTokenClassification from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).

Sanity Checking: 0it [00:00, ?it/s]

Training: 0it [00:00, ?it/s]

Validation: 0it [00:00, ?it/s]

In [47]:
'''
ここまでで学習が完了した
次はテストデータを用いて予測を行う
'''

# BERTで固有表現抽出を行うための関数を定義しよう
def predict(text, tokenizer, bert_tc):
    # まずはテキストをBERTに入力可能な状態にする
    encoding, spans = tokenizer.encode_plus_untagged(
        text, return_tensors = 'pt'
    )

    encoding = { k: v.cuda() for k, v in encoding.items() }

    # BERTに入力して出力を得る
    with torch.no_grad():
        output = bert_tc(**encoding)
        scores = output.logits
        labels_predicted = scores[0].argmax(-1).cpu().numpy().tolist()

    # print(labels_predicted)
    # ラベル列を固有表現に変換
    entities = tokenizer.convert_bert_output_to_entities(
        text, labels_predicted, spans
    )
    # print(entities)

    return entities


# ここから本体
# トークナイザーをロード
tokenizer = NER_tokenizer.from_pretrained(MODEL_NAME)

# ファインチューニングしたモデルをロードしてGPUにのせる
model = BertForTokenClassification_pl.load_from_checkpoint(
    best_model_path
)
bert_tc = model.bert_tc.cuda()


# 固有表現抽出
# 以下では１データずつ処理しているが、これはわかりやすいコードにするためである
# バッチ化して処理を行った方が処理時間は短い

# 正解の固有表現の置き場所
entities_list = []
# 抽出された固有表現をおく場所
entities_predicted_list = []

for sample in tqdm(dataset_test):
    text=sample['text']
    entities_predicted = predict(text, tokenizer, bert_tc) # BERTで予測
    entities_list.append(sample['entities'])
    entities_predicted_list.append( entities_predicted )

The tokenizer class you load from this checkpoint is not the same type as the class this function is called from. It may result in unexpected tokenization. 
The tokenizer class you load from this checkpoint is 'BertJapaneseTokenizer'. 
The class this function is called from is 'NER_tokenizer'.
Some weights of the model checkpoint at cl-tohoku/bert-base-japanese-whole-word-masking were not used when initializing BertForTokenClassification: ['cls.predictions.bias', 'cls.seq_relationship.weight', 'cls.predictions.decoder.weight', 'cls.predictions.transform.LayerNorm.bias', 'cls.predictions.transform.LayerNorm.weight', 'cls.predictions.transform.dense.weight', 'cls.predictions.transform.dense.bias', 'cls.seq_relationship.bias']
- This IS expected if you are initializing BertForTokenClassification from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expecte

[{'name': '李承晩', 'span': [0, 3], 'type_id': 1}, {'name': '朴正煕', 'span': [8, 11], 'type_id': 1}]
[{'name': '真田', 'span': [5, 7], 'type_id': 1}, {'name': '佐渡', 'span': [8, 10], 'type_id': 1}]
[{'name': '嶺真', 'span': [5, 7], 'type_id': 1}, {'name': '椋祥', 'span': [16, 18], 'type_id': 1}, {'name': '藤ヶ谷陽', 'span': [24, 28], 'type_id': 1}, {'name': '林瑞輝', 'span': [40, 43], 'type_id': 1}, {'name': '尾直', 'span': [45, 47], 'type_id': 1}, {'name': '阪翔', 'span': [50, 52], 'type_id': 1}, {'name': '平尾', 'span': [54, 56], 'type_id': 1}]
[]
[{'name': '長', 'span': [1, 2], 'type_id': 2}, {'name': '稲城', 'span': [11, 13], 'type_id': 2}, {'name': '城長', 'span': [16, 18], 'type_id': 2}, {'name': '稲城', 'span': [31, 33], 'type_id': 2}]
[{'name': '・', 'span': [12, 13], 'type_id': 2}, {'name': 'ス', 'span': [13, 14], 'type_id': 7}, {'name': 'ダ', 'span': [14, 15], 'type_id': 1}, {'name': 'メリカーナ', 'span': [15, 20], 'type_id': 7}]
[{'name': 'スー・エレン', 'span': [0, 6], 'type_id': 1}]
[]
[]
[]
[{'name': 'フリーデナー貸付', 'spa

[A
  3%|▎         | 27/1070 [00:00<00:12, 83.70it/s][A
  3%|▎         | 36/1070 [00:00<00:12, 83.35it/s][A

[{'name': '足立光宏', 'span': [6, 10], 'type_id': 1}, {'name': '松岡', 'span': [26, 28], 'type_id': 1}]
[{'name': '阪神', 'span': [38, 40], 'type_id': 8}, {'name': '・', 'span': [40, 41], 'type_id': 1}, {'name': '淡路', 'span': [41, 43], 'type_id': 8}]
[]
[]
[{'name': 'ミルドレッド・コリン', 'span': [7, 17], 'type_id': 1}]
[{'name': 'ピンポン', 'span': [6, 10], 'type_id': 7}]
[{'name': '藤', 'span': [8, 9], 'type_id': 1}, {'name': '石井希', 'span': [19, 22], 'type_id': 1}, {'name': '久保田望', 'span': [23, 27], 'type_id': 1}]
[{'name': '大和', 'span': [0, 2], 'type_id': 2}, {'name': '創造', 'span': [5, 7], 'type_id': 2}]
[]
[{'name': "'s", 'span': [9, 11], 'type_id': 2}]
[]
[{'name': 'カール・アブラハム・ピル', 'span': [43, 55], 'type_id': 1}]
[]
[{'name': 'ベンチャーズ', 'span': [15, 21], 'type_id': 2}]
[{'name': '三共', 'span': [56, 58], 'type_id': 2}, {'name': '日本光学工業', 'span': [59, 65], 'type_id': 2}, {'name': '味の素', 'span': [66, 69], 'type_id': 2}, {'name': 'タカジアスターゼ', 'span': [90, 98], 'type_id': 2}, {'name': 'ニッコール', 'span': [99, 104]


  4%|▍         | 45/1070 [00:00<00:12, 83.44it/s][A
  5%|▌         | 54/1070 [00:00<00:11, 84.71it/s][A

[{'name': '小林武史', 'span': [7, 11], 'type_id': 1}, {'name': '櫻井和寿', 'span': [12, 16], 'type_id': 1}, {'name': 'ap b', 'span': [30, 34], 'type_id': 2}, {'name': 'ank', 'span': [34, 37], 'type_id': 1}, {'name': 'fe', 'span': [38, 40], 'type_id': 2}]
[{'name': 'ラナ', 'span': [13, 15], 'type_id': 2}, {'name': 'カ', 'span': [15, 16], 'type_id': 1}, {'name': 'ジオ', 'span': [16, 18], 'type_id': 2}]
[{'name': 'あさま', 'span': [3, 6], 'type_id': 1}, {'name': '山荘', 'span': [6, 8], 'type_id': 2}]
[{'name': 'タ', 'span': [12, 13], 'type_id': 2}]
[{'name': 'エッケナー博士', 'span': [0, 7], 'type_id': 1}]
[{'name': '&', 'span': [1, 2], 'type_id': 2}, {'name': '&E', 'span': [36, 38], 'type_id': 2}]
[{'name': 'La New', 'span': [13, 19], 'type_id': 2}, {'name': 'ベア', 'span': [19, 21], 'type_id': 6}]
[]
[]
[{'name': 'ポーランド', 'span': [3, 8], 'type_id': 2}, {'name': '世界', 'span': [29, 31], 'type_id': 1}]
[{'name': '三菱UFJフィナンシャル・グループ', 'span': [0, 17], 'type_id': 2}, {'name': '三菱UFJ信託銀行', 'span': [42, 51], 'type_id': 2}


  6%|▌         | 63/1070 [00:00<00:12, 83.77it/s][A

[{'name': '海兵', 'span': [12, 14], 'type_id': 2}, {'name': 'ジェームズ・・バリンジャー大佐', 'span': [15, 30], 'type_id': 1}, {'name': '太平洋艦隊司令', 'span': [32, 39], 'type_id': 1}, {'name': 'ニミッツ提督', 'span': [41, 47], 'type_id': 1}, {'name': '極東軍', 'span': [52, 55], 'type_id': 2}, {'name': 'マッカーサー元帥', 'span': [59, 67], 'type_id': 1}]
[{'name': 'NECプラットフォーム', 'span': [7, 18], 'type_id': 2}]
[{'name': '木下惠介', 'span': [48, 52], 'type_id': 1}]
[{'name': 'and', 'span': [23, 26], 'type_id': 1}]
[{'name': '農業', 'span': [5, 7], 'type_id': 2}]
[{'name': '忠三', 'span': [0, 2], 'type_id': 1}, {'name': '利一', 'span': [22, 24], 'type_id': 1}, {'name': '正雄', 'span': [39, 41], 'type_id': 1}, {'name': '昭雄', 'span': [45, 47], 'type_id': 1}]
[{'name': '京阪', 'span': [27, 29], 'type_id': 2}]
[{'name': '甲', 'span': [1, 2], 'type_id': 8}, {'name': '陽軍', 'span': [2, 4], 'type_id': 1}, {'name': '信盛', 'span': [11, 13], 'type_id': 1}]
[]
[]
[]
[{'name': 'プタ', 'span': [18, 20], 'type_id': 2}]
[{'name': '月島機械', 'span': [0, 4], 'type


  7%|▋         | 72/1070 [00:00<00:12, 80.41it/s][A
  8%|▊         | 81/1070 [00:00<00:12, 81.13it/s][A

[]
[{'name': '・ヨット・クラブ', 'span': [9, 17], 'type_id': 2}, {'name': 'アメリカ', 'span': [24, 28], 'type_id': 7}, {'name': 'ズ・カップ', 'span': [28, 33], 'type_id': 2}]
[{'name': 'シティ・', 'span': [9, 13], 'type_id': 1}, {'name': 'ハーベスト', 'span': [13, 18], 'type_id': 2}, {'name': 'ドミニク・アンセル', 'span': [26, 35], 'type_id': 1}, {'name': 'ニコラス・ローリーおよびクエストラブ', 'span': [47, 65], 'type_id': 1}]
[]
[{'name': '李明博', 'span': [27, 30], 'type_id': 1}, {'name': '朴槿恵', 'span': [33, 36], 'type_id': 1}]
[{'name': '・メ', 'span': [32, 34], 'type_id': 1}, {'name': 'サ大学', 'span': [34, 37], 'type_id': 2}, {'name': 'セント', 'span': [38, 41], 'type_id': 1}, {'name': 'メアリー', 'span': [41, 45], 'type_id': 6}]
[]
[{'name': '鬼武', 'span': [0, 2], 'type_id': 1}, {'name': '野本孝一', 'span': [4, 8], 'type_id': 1}, {'name': '経', 'span': [27, 28], 'type_id': 2}, {'name': 'ア式蹴', 'span': [39, 42], 'type_id': 2}]
[{'name': 'テイン・セイン', 'span': [6, 13], 'type_id': 1}]
[{'name': 'ニューアーク・アカデミー', 'span': [2, 14], 'type_id': 2}, {'name': 'アーク・', '


  8%|▊         | 90/1070 [00:01<00:11, 81.67it/s][A
  9%|▉         | 99/1070 [00:01<00:11, 82.76it/s][A

[{'name': 'ロックスイン', 'span': [43, 49], 'type_id': 2}, {'name': 'Vサービス', 'span': [54, 59], 'type_id': 2}]
[{'name': 'フアン・ロドリゲス・カブリリョ', 'span': [17, 32], 'type_id': 1}]
[{'name': '西鉄ライオンズ', 'span': [14, 21], 'type_id': 2}, {'name': '豊田泰光', 'span': [31, 35], 'type_id': 1}, {'name': '中西太', 'span': [36, 39], 'type_id': 1}, {'name': '大下弘', 'span': [40, 43], 'type_id': 1}, {'name': '稲尾和久', 'span': [44, 48], 'type_id': 1}]
[{'name': '国立', 'span': [13, 15], 'type_id': 6}, {'name': '会計', 'span': [15, 17], 'type_id': 3}, {'name': '監査', 'span': [17, 19], 'type_id': 2}]
[]
[{'name': 'ヤードバーズ', 'span': [0, 6], 'type_id': 2}, {'name': 'ジミー・ペイジ', 'span': [13, 20], 'type_id': 1}, {'name': 'ドレヤ', 'span': [21, 24], 'type_id': 1}]
[{'name': '伊丹敬之', 'span': [17, 21], 'type_id': 1}, {'name': '加護野忠男', 'span': [22, 27], 'type_id': 1}]
[{'name': 'フィリーズ', 'span': [4, 9], 'type_id': 2}]
[]
[]
[{'name': '道路', 'span': [17, 19], 'type_id': 2}]
[{'name': 'ガストン・ドゥメルグ', 'span': [8, 18], 'type_id': 1}]
[]
[{'name': '神戸',


 10%|█         | 108/1070 [00:01<00:11, 80.89it/s][A
 11%|█         | 117/1070 [00:01<00:11, 81.65it/s][A

[{'name': 'イギリス東インド会社', 'span': [14, 24], 'type_id': 2}]
[{'name': 'ホワイトチャペル社', 'span': [6, 15], 'type_id': 2}, {'name': 'シス', 'span': [36, 38], 'type_id': 1}]
[]
[{'name': 'ノートルダム・ジャパン・ボウル', 'span': [6, 21], 'type_id': 2}, {'name': '回アメリカンフットボール', 'span': [54, 66], 'type_id': 8}, {'name': '・', 'span': [66, 67], 'type_id': 2}]
[{'name': 'ax', 'span': [81, 83], 'type_id': 1}, {'name': 'PA', 'span': [87, 89], 'type_id': 2}]
[{'name': '世界', 'span': [10, 12], 'type_id': 7}, {'name': '道', 'span': [14, 15], 'type_id': 2}]
[{'name': 'テレビジョン', 'span': [15, 21], 'type_id': 2}]
[{'name': '県', 'span': [13, 14], 'type_id': 2}, {'name': '新日本', 'span': [21, 24], 'type_id': 2}, {'name': 'アントニオ猪木', 'span': [46, 53], 'type_id': 1}]
[{'name': '米', 'span': [5, 6], 'type_id': 1}, {'name': '社会大衆', 'span': [13, 17], 'type_id': 2}]
[{'name': '与', 'span': [20, 21], 'type_id': 2}, {'name': '科学', 'span': [33, 35], 'type_id': 2}, {'name': '産業', 'span': [39, 41], 'type_id': 2}]
[]
[{'name': '嘉人', 'span': [28, 30]


 12%|█▏        | 126/1070 [00:01<00:11, 80.98it/s][A
 13%|█▎        | 135/1070 [00:01<00:11, 82.54it/s][A

[{'name': '連合国', 'span': [4, 7], 'type_id': 2}]
[{'name': 'ヘンリー・R・ヘイル', 'span': [6, 16], 'type_id': 1}]
[]
[{'name': '州立', 'span': [8, 10], 'type_id': 2}]
[{'name': 'デュエン・クレーマー', 'span': [4, 14], 'type_id': 1}, {'name': 'シャーリー・クレーマー', 'span': [15, 26], 'type_id': 1}, {'name': 'クレーマー', 'span': [44, 49], 'type_id': 1}]
[{'name': '々園', 'span': [5, 7], 'type_id': 1}, {'name': '佐伯', 'span': [15, 17], 'type_id': 5}, {'name': '々園', 'span': [19, 21], 'type_id': 1}]
[{'name': 'アレクサンデル・スタンボリスキ農民同盟', 'span': [5, 24], 'type_id': 1}]
[{'name': '野', 'span': [1, 2], 'type_id': 1}, {'name': '徳島', 'span': [11, 13], 'type_id': 2}, {'name': '野', 'span': [15, 16], 'type_id': 1}, {'name': 'ツ', 'span': [18, 19], 'type_id': 1}]
[{'name': '最高', 'span': [20, 22], 'type_id': 2}, {'name': 'エドウィン・スタン', 'span': [34, 43], 'type_id': 1}]
[{'name': 'クォーター', 'span': [44, 49], 'type_id': 1}]
[{'name': 'ソ連', 'span': [0, 2], 'type_id': 1}, {'name': 'ウラジミロフ少将', 'span': [3, 11], 'type_id': 1}]
[{'name': '都市開発', 'span': [6,


 13%|█▎        | 144/1070 [00:01<00:11, 81.69it/s][A
 14%|█▍        | 153/1070 [00:01<00:11, 80.73it/s][A

[{'name': '菊地又男', 'span': [0, 4], 'type_id': 1}, {'name': '道アンデパン', 'span': [33, 39], 'type_id': 2}, {'name': '菊地', 'span': [51, 53], 'type_id': 1}, {'name': '純', 'span': [60, 61], 'type_id': 1}]
[]
[{'name': '遠州鉄道', 'span': [0, 4], 'type_id': 2}, {'name': '遠', 'span': [11, 12], 'type_id': 2}, {'name': '浜松', 'span': [27, 29], 'type_id': 2}, {'name': '遠', 'span': [48, 49], 'type_id': 2}]
[]
[{'name': 'ランスタッド日本合同', 'span': [0, 10], 'type_id': 2}, {'name': 'ランスタッド', 'span': [25, 31], 'type_id': 2}]
[]
[{'name': 'レガ', 'span': [12, 14], 'type_id': 7}]
[{'name': '防衛', 'span': [2, 4], 'type_id': 2}, {'name': '宇宙戦艦ヤマト', 'span': [11, 18], 'type_id': 2}]
[]
[{'name': 'マーカス・レイトホールド', 'span': [6, 18], 'type_id': 1}]
[{'name': 'ニーズ', 'span': [5, 8], 'type_id': 1}]
[]
[{'name': '名古屋相互', 'span': [41, 46], 'type_id': 2}]
[{'name': 'ヴィトー', 'span': [8, 12], 'type_id': 1}, {'name': 'リア', 'span': [12, 14], 'type_id': 2}, {'name': 'バ', 'span': [33, 34], 'type_id': 2}, {'name': 'ポンチ・プレ', 'span': [39, 45], '


 15%|█▌        | 162/1070 [00:02<00:12, 72.21it/s][A
 16%|█▌        | 171/1070 [00:02<00:11, 75.27it/s][A

[{'name': '住友信託', 'span': [4, 8], 'type_id': 2}, {'name': '東京', 'span': [55, 57], 'type_id': 2}, {'name': '住友信託', 'span': [65, 69], 'type_id': 2}]
[{'name': 'カナダ', 'span': [3, 6], 'type_id': 2}]
[{'name': 'ボルシア・メン', 'span': [16, 23], 'type_id': 2}, {'name': 'ヒェングラートバッハ', 'span': [23, 33], 'type_id': 1}, {'name': 'スター・', 'span': [37, 41], 'type_id': 2}]
[{'name': 'イギリス', 'span': [0, 4], 'type_id': 1}, {'name': 'ロイ', 'span': [12, 14], 'type_id': 1}, {'name': 'ヤ', 'span': [14, 15], 'type_id': 2}, {'name': 'トマス・バセット', 'span': [21, 29], 'type_id': 1}, {'name': 'モー', 'span': [31, 33], 'type_id': 1}]
[{'name': 'み', 'span': [7, 8], 'type_id': 6}]
[{'name': '羽田孜', 'span': [13, 16], 'type_id': 1}, {'name': '杉山憲夫', 'span': [17, 21], 'type_id': 1}, {'name': '熊谷弘', 'span': [22, 25], 'type_id': 1}, {'name': '船田元', 'span': [26, 29], 'type_id': 1}, {'name': '岡田克也', 'span': [30, 34], 'type_id': 1}, {'name': '二階俊博', 'span': [35, 39], 'type_id': 1}, {'name': '野田毅', 'span': [40, 43], 'type_id': 1}, {'name


 17%|█▋        | 180/1070 [00:02<00:11, 77.17it/s][A
 18%|█▊        | 189/1070 [00:02<00:10, 80.14it/s][A

[]
[{'name': 'クル', 'span': [2, 4], 'type_id': 2}]
[{'name': '機動', 'span': [4, 6], 'type_id': 2}, {'name': '戦士', 'span': [6, 8], 'type_id': 8}, {'name': 'ガンダム', 'span': [8, 12], 'type_id': 2}, {'name': '富野由悠季', 'span': [26, 31], 'type_id': 1}, {'name': '富野', 'span': [62, 64], 'type_id': 1}, {'name': '戦', 'span': [87, 88], 'type_id': 2}, {'name': '機', 'span': [88, 89], 'type_id': 3}, {'name': 'エル', 'span': [89, 91], 'type_id': 1}, {'name': 'ガイ', 'span': [91, 93], 'type_id': 7}, {'name': 'ム', 'span': [93, 94], 'type_id': 1}]
[{'name': '帝人', 'span': [32, 34], 'type_id': 2}, {'name': 'デュー', 'span': [40, 43], 'type_id': 2}]
[{'name': '速水厚志少年', 'span': [19, 25], 'type_id': 1}]
[{'name': 'ノルーブル', 'span': [2, 7], 'type_id': 1}, {'name': '桜花', 'span': [43, 45], 'type_id': 8}, {'name': 'ノルーブル', 'span': [59, 64], 'type_id': 1}]
[{'name': 'ジョン・ブック', 'span': [9, 16], 'type_id': 1}]
[{'name': '大垣', 'span': [28, 30], 'type_id': 2}, {'name': '大垣菓子', 'span': [43, 47], 'type_id': 2}, {'name': '大垣水まんじゅう製造


 19%|█▊        | 198/1070 [00:02<00:10, 80.27it/s][A
 19%|█▉        | 207/1070 [00:02<00:10, 81.70it/s][A

[]
[{'name': 'ベルトラン・ドラノエ', 'span': [32, 42], 'type_id': 1}]
[{'name': 'ノーマン・フォスター', 'span': [21, 31], 'type_id': 1}, {'name': 'フォスター', 'span': [47, 52], 'type_id': 1}]
[{'name': '木', 'span': [2, 3], 'type_id': 2}, {'name': '紗', 'span': [23, 24], 'type_id': 1}]
[{'name': 'アレクサンドロフ、', 'span': [9, 18], 'type_id': 1}, {'name': 'ミハイロフ', 'span': [21, 26], 'type_id': 1}, {'name': '内部', 'span': [32, 34], 'type_id': 6}, {'name': '内部', 'span': [65, 67], 'type_id': 6}, {'name': 'マケドニア・', 'span': [67, 73], 'type_id': 2}, {'name': 'アドリア', 'span': [73, 77], 'type_id': 6}, {'name': 'ノープル革命', 'span': [77, 83], 'type_id': 2}, {'name': 'サンダンスキ', 'span': [86, 92], 'type_id': 1}]
[{'name': '直', 'span': [2, 3], 'type_id': 1}]
[]
[{'name': 'テージ', 'span': [1, 4], 'type_id': 2}]
[{'name': '高橋克彦', 'span': [12, 16], 'type_id': 1}]
[]
[{'name': 'ジョン・F・ケネディ', 'span': [0, 10], 'type_id': 1}]
[{'name': 'アトランタ', 'span': [15, 20], 'type_id': 8}, {'name': 'アレン・ジョンソン', 'span': [36, 45], 'type_id': 1}]
[{'name': '藤田実', 


 20%|██        | 216/1070 [00:02<00:10, 82.29it/s][A
 21%|██        | 225/1070 [00:02<00:10, 80.45it/s][A

[{'name': '岡安譲', 'span': [9, 12], 'type_id': 1}, {'name': '青嶋達也', 'span': [19, 23], 'type_id': 1}, {'name': '塩原恒夫', 'span': [30, 34], 'type_id': 1}, {'name': '福原直英', 'span': [53, 57], 'type_id': 1}, {'name': '吉原功', 'span': [70, 73], 'type_id': 1}]
[{'name': 'レイクスターズ', 'span': [12, 19], 'type_id': 2}]
[{'name': '全米', 'span': [18, 20], 'type_id': 2}]
[{'name': '首長', 'span': [3, 5], 'type_id': 1}, {'name': '国連邦', 'span': [5, 8], 'type_id': 2}]
[{'name': 'エジ', 'span': [7, 9], 'type_id': 8}, {'name': 'ンバラフリンジ', 'span': [9, 16], 'type_id': 2}]
[{'name': '京', 'span': [15, 16], 'type_id': 1}]
[]
[{'name': '国際会議', 'span': [5, 9], 'type_id': 2}, {'name': 'コンベンション', 'span': [16, 23], 'type_id': 2}]
[{'name': 'PA', 'span': [12, 14], 'type_id': 7}]
[{'name': 'アンテミウス帝', 'span': [0, 7], 'type_id': 1}, {'name': 'ローマ帝国', 'span': [9, 14], 'type_id': 2}, {'name': 'リキメル将軍', 'span': [21, 27], 'type_id': 1}]
[{'name': 'Q', 'span': [9, 10], 'type_id': 2}, {'name': 'Y', 'span': [11, 12], 'type_id': 6}]
[{'nam


 22%|██▏       | 234/1070 [00:02<00:10, 78.94it/s][A
 23%|██▎       | 244/1070 [00:03<00:10, 82.46it/s][A

[{'name': 'ゲイリー・スティーヴンス', 'span': [23, 35], 'type_id': 1}]
[{'name': 'メルセデス・ベンツ', 'span': [13, 22], 'type_id': 2}]
[{'name': '環境', 'span': [8, 10], 'type_id': 8}, {'name': '保護', 'span': [10, 12], 'type_id': 2}]
[{'name': '村', 'span': [27, 28], 'type_id': 2}, {'name': '国', 'span': [28, 29], 'type_id': 1}]
[{'name': '・ニュースペーパー', 'span': [11, 20], 'type_id': 2}, {'name': 'シンジ', 'span': [21, 24], 'type_id': 2}]
[{'name': 'いかりや', 'span': [0, 4], 'type_id': 1}, {'name': '立川談志', 'span': [23, 27], 'type_id': 1}]
[{'name': '東京アマチュア小品盆', 'span': [8, 18], 'type_id': 2}]
[{'name': 'パサール', 'span': [45, 49], 'type_id': 2}]
[{'name': 'チェプラク', 'span': [0, 5], 'type_id': 1}, {'name': 'ヨーロッパ', 'span': [13, 18], 'type_id': 8}, {'name': 'ジュニア', 'span': [18, 22], 'type_id': 7}]
[{'name': '速水けんたろう', 'span': [0, 7], 'type_id': 1}, {'name': '茂森', 'span': [8, 10], 'type_id': 1}, {'name': '回', 'span': [18, 19], 'type_id': 8}, {'name': '紅白', 'span': [22, 24], 'type_id': 8}]
[{'name': 'メタルワン', 'span': [10, 15], '


 24%|██▎       | 253/1070 [00:03<00:09, 81.79it/s][A
 24%|██▍       | 262/1070 [00:03<00:09, 81.46it/s][A

[]
[{'name': '東京モーターショー', 'span': [3, 12], 'type_id': 2}]
[{'name': 'ヴァルチーラ', 'span': [64, 70], 'type_id': 2}]
[{'name': 'コティニョーラ', 'span': [0, 7], 'type_id': 1}]
[]
[]
[]
[{'name': 'アーサー・ロストロン', 'span': [7, 17], 'type_id': 1}]
[]
[{'name': 'コンスタンツ', 'span': [12, 18], 'type_id': 1}, {'name': '公', 'span': [18, 19], 'type_id': 2}]
[{'name': 'バンダ', 'span': [1, 4], 'type_id': 1}, {'name': '共和', 'span': [14, 16], 'type_id': 2}, {'name': 'バンダカ', 'span': [21, 25], 'type_id': 1}]
[]
[{'name': 'オリギノ', 'span': [34, 38], 'type_id': 1}]
[{'name': '国際連合経済社会理事会', 'span': [10, 21], 'type_id': 2}]
[{'name': 'フロ', 'span': [27, 29], 'type_id': 2}, {'name': '・ソフトウェア', 'span': [30, 37], 'type_id': 2}, {'name': 'ver', 'span': [47, 50], 'type_id': 2}]
[{'name': 'ノッティ', 'span': [3, 7], 'type_id': 1}, {'name': 'ンガム大学', 'span': [7, 12], 'type_id': 2}, {'name': 'ピーター・マンスフィールド', 'span': [13, 26], 'type_id': 1}, {'name': 'ター', 'span': [41, 43], 'type_id': 2}]
[]
[{'name': '三菱地所', 'span': [7, 11], 'type_id': 2}]



 25%|██▌       | 271/1070 [00:03<00:09, 82.09it/s][A
 26%|██▌       | 280/1070 [00:03<00:09, 82.10it/s][A

[{'name': '日本体育大学', 'span': [8, 14], 'type_id': 2}]
[{'name': '能代', 'span': [0, 2], 'type_id': 2}, {'name': '厚生', 'span': [2, 4], 'type_id': 1}, {'name': '能代', 'span': [15, 17], 'type_id': 1}, {'name': '秋田県厚生農業協同組合連合', 'span': [26, 39], 'type_id': 2}]
[{'name': 'r', 'span': [49, 50], 'type_id': 2}]
[{'name': '長山洋子', 'span': [23, 27], 'type_id': 1}]
[{'name': 'ベント', 'span': [8, 11], 'type_id': 1}]
[{'name': 'フォース・インディア', 'span': [35, 45], 'type_id': 2}]
[{'name': '日本', 'span': [8, 10], 'type_id': 8}, {'name': '陸連', 'span': [10, 12], 'type_id': 2}]
[{'name': '連合国軍最高', 'span': [6, 12], 'type_id': 2}, {'name': '司令官総司令部', 'span': [12, 19], 'type_id': 1}, {'name': '経済力集中排除', 'span': [25, 32], 'type_id': 2}, {'name': '日本発送電', 'span': [39, 44], 'type_id': 2}]
[]
[{'name': 'アモス・コレック', 'span': [13, 21], 'type_id': 1}, {'name': 'マイク・リー', 'span': [22, 28], 'type_id': 1}, {'name': 'エミール・クストリッツァ', 'span': [29, 41], 'type_id': 1}, {'name': 'デヴィッド・リンチ', 'span': [42, 51], 'type_id': 1}]
[]
[{'name': '日


 27%|██▋       | 289/1070 [00:03<00:09, 80.73it/s][A
 28%|██▊       | 298/1070 [00:03<00:09, 81.30it/s]

[{'name': '飯田泰之', 'span': [19, 23], 'type_id': 1}]
[{'name': '肥バス', 'span': [7, 10], 'type_id': 2}]
[{'name': 'トヨタファイナンシャルサービス証券', 'span': [7, 24], 'type_id': 2}]
[{'name': '御', 'span': [13, 14], 'type_id': 1}, {'name': '本丸', 'span': [14, 16], 'type_id': 6}]
[]
[{'name': 'アクアクラ', 'span': [5, 10], 'type_id': 2}]
[{'name': '徳田', 'span': [27, 29], 'type_id': 1}]
[]
[{'name': '國實唯理', 'span': [10, 14], 'type_id': 1}]
[{'name': '安田財閥', 'span': [5, 9], 'type_id': 2}, {'name': '桂川電力', 'span': [11, 15], 'type_id': 2}, {'name': '利根', 'span': [27, 29], 'type_id': 2}, {'name': '利根', 'span': [48, 50], 'type_id': 2}]
[]
[{'name': 'バー', 'span': [3, 5], 'type_id': 2}, {'name': '日新製薬株式会社', 'span': [10, 18], 'type_id': 2}, {'name': 'クラシエ薬品', 'span': [22, 28], 'type_id': 2}]
[{'name': '中之島', 'span': [9, 12], 'type_id': 2}, {'name': '朝日会館', 'span': [16, 20], 'type_id': 2}, {'name': '永井康三', 'span': [26, 30], 'type_id': 1}]
[{'name': 'ザガート', 'span': [0, 4], 'type_id': 2}, {'name': 'ランボルギーニ・ガ', 'span': [17, 

[A
 29%|██▊       | 307/1070 [00:03<00:09, 79.81it/s][A
 29%|██▉       | 315/1070 [00:03<00:09, 79.28it/s][A

[{'name': '徳仁親王', 'span': [16, 20], 'type_id': 1}, {'name': '大阪', 'span': [22, 24], 'type_id': 8}, {'name': '万博', 'span': [24, 26], 'type_id': 2}, {'name': '三菱未来', 'span': [30, 34], 'type_id': 2}]
[{'name': 'ニナ・リッチ', 'span': [17, 23], 'type_id': 1}]
[{'name': 'カンザスシティ・ロイヤルズ', 'span': [10, 23], 'type_id': 2}, {'name': 'カウフマン・スタジアム', 'span': [27, 38], 'type_id': 2}]
[{'name': 'プロメテウスの創造', 'span': [35, 44], 'type_id': 1}]
[{'name': 'イリジウム', 'span': [13, 18], 'type_id': 2}, {'name': 'イリジウム', 'span': [25, 30], 'type_id': 2}, {'name': '豊科', 'span': [69, 71], 'type_id': 2}, {'name': '田', 'span': [72, 73], 'type_id': 5}, {'name': '長野', 'span': [75, 77], 'type_id': 2}, {'name': 'ノ', 'span': [79, 80], 'type_id': 1}, {'name': '曇', 'span': [84, 85], 'type_id': 2}]
[{'name': '・ド・', 'span': [11, 14], 'type_id': 2}, {'name': 'アメリカン・バレエ・シアター', 'span': [20, 34], 'type_id': 2}]
[{'name': 'ミカエル・S・ベルベリアン', 'span': [6, 19], 'type_id': 1}]
[{'name': '金', 'span': [24, 25], 'type_id': 8}, {'name': '鶏', 'span'


 30%|███       | 324/1070 [00:04<00:09, 80.01it/s][A
 31%|███       | 333/1070 [00:04<00:09, 81.08it/s][A

[{'name': 'マクガイア', 'span': [6, 11], 'type_id': 1}, {'name': 'ユナイテッドヘルス・グループ', 'span': [45, 59], 'type_id': 2}, {'name': 'ユナイテッドヘルス・グループ', 'span': [79, 93], 'type_id': 2}, {'name': 'マクガイア', 'span': [113, 118], 'type_id': 1}]
[{'name': '松尾早人', 'span': [0, 4], 'type_id': 1}, {'name': '岩崎英則', 'span': [21, 25], 'type_id': 1}]
[{'name': 'グリーンウッド', 'span': [12, 19], 'type_id': 1}, {'name': 'ジョン・ライアル', 'span': [36, 44], 'type_id': 1}]
[{'name': '帯広図書館友の会', 'span': [14, 22], 'type_id': 2}]
[{'name': 'デン', 'span': [11, 13], 'type_id': 2}, {'name': '・', 'span': [13, 14], 'type_id': 1}, {'name': 'ハー', 'span': [14, 16], 'type_id': 2}, {'name': 'グ', 'span': [16, 17], 'type_id': 1}, {'name': 'ユーロ', 'span': [27, 30], 'type_id': 8}, {'name': 'ビジョン・ソング・', 'span': [30, 39], 'type_id': 2}]
[{'name': 'ナス・トーバル', 'span': [78, 85], 'type_id': 1}]
[{'name': 'ルイ・デュコ・デュ・オーロン', 'span': [11, 25], 'type_id': 1}]
[]
[{'name': '啓', 'span': [2, 3], 'type_id': 1}, {'name': '光学園高校', 'span': [3, 8], 'type_id': 2}, {'name


 32%|███▏      | 342/1070 [00:04<00:09, 80.02it/s][A

[{'name': '北海道', 'span': [7, 10], 'type_id': 2}, {'name': '総合', 'span': [11, 13], 'type_id': 8}, {'name': '豊', 'span': [20, 21], 'type_id': 2}, {'name': '平', 'span': [21, 22], 'type_id': 1}, {'name': '警察', 'span': [22, 24], 'type_id': 2}]
[]
[]
[{'name': '西大', 'span': [7, 9], 'type_id': 2}, {'name': '山口誠孝', 'span': [13, 17], 'type_id': 1}, {'name': '西大', 'span': [25, 27], 'type_id': 2}]
[{'name': '大島治男', 'span': [18, 22], 'type_id': 1}, {'name': '桑原楽之', 'span': [23, 27], 'type_id': 1}, {'name': '溝手顕正', 'span': [28, 32], 'type_id': 1}, {'name': '川瀬隆', 'span': [33, 36], 'type_id': 1}]
[{'name': '〇', 'span': [7, 8], 'type_id': 1}, {'name': '一', 'span': [8, 9], 'type_id': 2}, {'name': '八丈', 'span': [28, 30], 'type_id': 2}]
[]
[{'name': '土屋アンナ', 'span': [14, 19], 'type_id': 1}, {'name': '氣志團', 'span': [27, 30], 'type_id': 1}, {'name': '土屋アンナ', 'span': [45, 50], 'type_id': 1}, {'name': '愛', 'span': [51, 52], 'type_id': 1}, {'name': '氣志團', 'span': [55, 58], 'type_id': 1}]
[{'name': 'ダグ・ミントケイビ


 33%|███▎      | 351/1070 [00:04<00:09, 79.78it/s][A
 34%|███▎      | 360/1070 [00:04<00:08, 81.61it/s][A

[]
[{'name': '福岡ソフトバンクホークス', 'span': [9, 21], 'type_id': 2}, {'name': 'オリックス・バ', 'span': [37, 44], 'type_id': 2}, {'name': 'ファローズ', 'span': [44, 49], 'type_id': 1}]
[{'name': 'ホーナー', 'span': [0, 4], 'type_id': 2}]
[]
[{'name': '最高', 'span': [3, 5], 'type_id': 2}, {'name': 'アエロフロート', 'span': [10, 17], 'type_id': 2}, {'name': 'ベレゾフスキー', 'span': [27, 34], 'type_id': 1}, {'name': 'ベレゾフスキー', 'span': [48, 55], 'type_id': 1}]
[{'name': '北', 'span': [9, 10], 'type_id': 2}, {'name': '芳', 'span': [12, 13], 'type_id': 6}]
[{'name': 'ゲームズワークショップ', 'span': [3, 14], 'type_id': 2}]
[]
[]
[{'name': 'ヒラリー・クリントン', 'span': [28, 38], 'type_id': 1}, {'name': 'プーチン大統領', 'span': [67, 74], 'type_id': 1}]
[{'name': '&', 'span': [10, 11], 'type_id': 1}]
[]
[{'name': 'アルテ', 'span': [10, 13], 'type_id': 2}]
[{'name': 'アルトゥーロ・メリノ・ベニテス国際', 'span': [0, 17], 'type_id': 1}]
[{'name': '金正恩', 'span': [0, 3], 'type_id': 1}, {'name': '一書記', 'span': [4, 7], 'type_id': 1}]
[{'name': 'トリス', 'span': [2, 5], 'type_id': 7}, {'n


 34%|███▍      | 369/1070 [00:04<00:08, 81.71it/s][A
 35%|███▌      | 378/1070 [00:04<00:08, 83.32it/s][A

[]
[{'name': '電器', 'span': [2, 4], 'type_id': 2}, {'name': '電産', 'span': [20, 22], 'type_id': 2}]
[{'name': 'ドルトン', 'span': [0, 4], 'type_id': 1}, {'name': 'ヘンリー・ドルトン', 'span': [14, 23], 'type_id': 1}]
[{'name': '植物', 'span': [4, 6], 'type_id': 6}]
[{'name': 'ナリ', 'span': [67, 69], 'type_id': 2}]
[{'name': 'こ', 'span': [5, 6], 'type_id': 2}, {'name': '宮古島', 'span': [17, 20], 'type_id': 2}]
[]
[{'name': 'アルカテル・ルーセント', 'span': [0, 11], 'type_id': 2}]
[]
[{'name': 'ック', 'span': [26, 28], 'type_id': 1}]
[{'name': 'ティム・ボッシュ', 'span': [19, 27], 'type_id': 1}]
[]
[]
[{'name': 'ウィリアム・ジェームズ', 'span': [25, 36], 'type_id': 1}]
[{'name': '日本通運', 'span': [5, 9], 'type_id': 2}, {'name': '国鉄', 'span': [17, 19], 'type_id': 2}, {'name': '口鉄道', 'span': [30, 33], 'type_id': 2}, {'name': '口貨物', 'span': [47, 50], 'type_id': 2}]
[{'name': 'オダギリジョー', 'span': [0, 7], 'type_id': 1}, {'name': '三浦春', 'span': [27, 30], 'type_id': 1}]
[]
[{'name': '環境', 'span': [9, 11], 'type_id': 2}, {'name': '気象', 'span': [16, 1


 36%|███▌      | 387/1070 [00:04<00:08, 83.51it/s][A
 37%|███▋      | 396/1070 [00:04<00:08, 83.68it/s][A

[]
[{'name': 'ま', 'span': [14, 15], 'type_id': 1}, {'name': '自然の', 'span': [15, 18], 'type_id': 2}]
[{'name': '東宝', 'span': [12, 14], 'type_id': 2}, {'name': '東宝スカラ', 'span': [17, 22], 'type_id': 2}]
[]
[{'name': '大韓航空機', 'span': [8, 13], 'type_id': 2}, {'name': '70', 'span': [27, 29], 'type_id': 2}]
[]
[{'name': 'やなぎなぎ', 'span': [27, 32], 'type_id': 1}]
[]
[{'name': 'リバ', 'span': [0, 2], 'type_id': 2}, {'name': '慶', 'span': [44, 45], 'type_id': 2}, {'name': '谷', 'span': [56, 57], 'type_id': 1}, {'name': '海兵', 'span': [65, 67], 'type_id': 2}, {'name': 'ダリン・クラーク', 'span': [75, 83], 'type_id': 1}]
[{'name': 'グレイトフル・デッド', 'span': [6, 16], 'type_id': 1}]
[]
[{'name': 'la', 'span': [31, 33], 'type_id': 7}]
[{'name': 'ロウズ・ステート・シアター', 'span': [0, 13], 'type_id': 2}]
[{'name': 'マ', 'span': [11, 12], 'type_id': 1}, {'name': '座部', 'span': [22, 24], 'type_id': 2}, {'name': 'ダ', 'span': [40, 41], 'type_id': 1}, {'name': 'レー', 'span': [41, 43], 'type_id': 2}]
[{'name': 'カーレンベルグ', 'span': [5, 12], '


 38%|███▊      | 405/1070 [00:05<00:08, 77.58it/s][A
 39%|███▊      | 414/1070 [00:05<00:08, 79.00it/s][A

[{'name': '宝塚大劇場', 'span': [18, 23], 'type_id': 2}, {'name': '東京宝塚劇場', 'span': [41, 47], 'type_id': 2}]
[{'name': 'とフィルム・フェア・ロンドン', 'span': [3, 17], 'type_id': 2}]
[]
[]
[{'name': '栄直', 'span': [1, 3], 'type_id': 1}, {'name': '・ファー', 'span': [5, 9], 'type_id': 2}, {'name': 'レン', 'span': [9, 11], 'type_id': 1}, {'name': '長崎', 'span': [11, 13], 'type_id': 2}]
[]
[]
[{'name': '中部日本教映', 'span': [0, 6], 'type_id': 2}, {'name': '一宮', 'span': [15, 17], 'type_id': 1}]
[]
[]
[{'name': '山田章博', 'span': [8, 12], 'type_id': 1}, {'name': '水野良', 'span': [21, 24], 'type_id': 1}, {'name': 'ファ', 'span': [28, 30], 'type_id': 1}, {'name': 'リス', 'span': [30, 32], 'type_id': 7}, {'name': '聖', 'span': [33, 34], 'type_id': 1}]
[]
[{'name': '清岡卓行', 'span': [16, 20], 'type_id': 1}]
[]
[{'name': '県立', 'span': [40, 42], 'type_id': 6}, {'name': '桜', 'span': [43, 44], 'type_id': 1}, {'name': '学', 'span': [44, 45], 'type_id': 6}, {'name': '館中学校・高等', 'span': [45, 52], 'type_id': 2}]
[{'name': 'ランド', 'span': [6, 9], '


 39%|███▉      | 422/1070 [00:05<00:08, 77.90it/s][A
 40%|████      | 430/1070 [00:05<00:08, 76.30it/s][A

[{'name': 'サンフレッチェ', 'span': [51, 58], 'type_id': 2}, {'name': '広島', 'span': [58, 60], 'type_id': 1}, {'name': 'FCユース', 'span': [60, 65], 'type_id': 2}]
[{'name': 'グルーヴ', 'span': [15, 19], 'type_id': 2}]
[{'name': '東京ドームシティアトラクションズ・スカイシアター', 'span': [47, 71], 'type_id': 2}]
[{'name': 'SS', 'span': [6, 8], 'type_id': 2}, {'name': 'ベンチャー', 'span': [16, 21], 'type_id': 2}]
[]
[{'name': 'ファットボーイ・スリム', 'span': [23, 34], 'type_id': 1}]
[{'name': 'ニコライ大公', 'span': [0, 6], 'type_id': 1}, {'name': '一', 'span': [17, 18], 'type_id': 2}]
[{'name': '日航製造', 'span': [0, 4], 'type_id': 2}, {'name': '通産省', 'span': [18, 21], 'type_id': 2}]
[{'name': '世界', 'span': [3, 5], 'type_id': 2}, {'name': '東京産業大学', 'span': [17, 23], 'type_id': 2}, {'name': '軍需', 'span': [29, 31], 'type_id': 2}, {'name': '如水', 'span': [89, 91], 'type_id': 2}]
[{'name': '太宗', 'span': [9, 11], 'type_id': 1}, {'name': '大越', 'span': [16, 18], 'type_id': 1}, {'name': 'ジャヤ・パラメーシュヴァラヴァルマン2', 'span': [26, 45], 'type_id': 1}, {'name': '博拉吉'


 41%|████      | 438/1070 [00:05<00:08, 75.85it/s][A
 42%|████▏     | 446/1070 [00:05<00:08, 76.71it/s][A

[{'name': '踏', 'span': [6, 7], 'type_id': 8}, {'name': '節', 'span': [8, 9], 'type_id': 8}]
[{'name': '電気鉄道', 'span': [11, 15], 'type_id': 2}]
[{'name': 'ナーチャラム・ムルガナンダム', 'span': [2, 16], 'type_id': 1}, {'name': '・', 'span': [25, 26], 'type_id': 1}, {'name': 'ナードゥ', 'span': [26, 30], 'type_id': 2}, {'name': 'ヤン', 'span': [33, 35], 'type_id': 1}, {'name': 'ブ', 'span': [35, 36], 'type_id': 3}, {'name': 'ットゥール', 'span': [36, 41], 'type_id': 1}]
[]
[{'name': 'Cネイションズ', 'span': [2, 9], 'type_id': 7}, {'name': 'コン', 'span': [50, 52], 'type_id': 8}, {'name': 'フェ', 'span': [52, 54], 'type_id': 2}, {'name': 'デ', 'span': [54, 55], 'type_id': 6}, {'name': 'レーションズ', 'span': [55, 61], 'type_id': 7}]
[{'name': 'soft', 'span': [18, 22], 'type_id': 2}]
[{'name': '官営', 'span': [8, 10], 'type_id': 2}, {'name': '阪神急行電鉄神戸', 'span': [21, 29], 'type_id': 2}, {'name': '電気鉄道', 'span': [33, 37], 'type_id': 2}, {'name': '電気鉄道', 'span': [40, 44], 'type_id': 2}]
[]
[{'name': 'レアル・', 'span': [11, 15], 'type_id': 2}


 42%|████▏     | 454/1070 [00:05<00:07, 77.38it/s][A
 43%|████▎     | 463/1070 [00:05<00:07, 80.48it/s][A

[{'name': 'O', 'span': [17, 18], 'type_id': 1}, {'name': 'ンダ', 'span': [42, 44], 'type_id': 2}, {'name': 'ン', 'span': [44, 45], 'type_id': 1}]
[]
[{'name': '木谷個人', 'span': [33, 37], 'type_id': 1}, {'name': 'ナカ企画', 'span': [42, 46], 'type_id': 1}]
[]
[{'name': 'ロン', 'span': [0, 2], 'type_id': 2}]
[{'name': '東京中央銀行', 'span': [15, 21], 'type_id': 2}, {'name': 'ジャッカル', 'span': [30, 35], 'type_id': 2}, {'name': '田沼', 'span': [39, 41], 'type_id': 1}, {'name': '波工藝', 'span': [47, 50], 'type_id': 2}, {'name': '和泉康二', 'span': [81, 85], 'type_id': 1}, {'name': '宝田', 'span': [96, 98], 'type_id': 1}, {'name': '浅野', 'span': [108, 110], 'type_id': 1}, {'name': '仙波工藝', 'span': [140, 144], 'type_id': 2}]
[{'name': 'モクモク', 'span': [23, 27], 'type_id': 1}, {'name': '理', 'span': [31, 32], 'type_id': 2}]
[{'name': 'ビート', 'span': [20, 23], 'type_id': 2}, {'name': 'ップ', 'span': [23, 25], 'type_id': 7}, {'name': 'グリーンロ', 'span': [35, 40], 'type_id': 2}, {'name': 'ケッツ', 'span': [40, 43], 'type_id': 1}]
[]
[]



 44%|████▍     | 472/1070 [00:05<00:07, 81.04it/s][A
 45%|████▍     | 481/1070 [00:05<00:07, 79.94it/s][A

[{'name': 'テイチク', 'span': [6, 10], 'type_id': 2}]
[{'name': 'クイ', 'span': [40, 42], 'type_id': 2}, {'name': 'ーン', 'span': [42, 44], 'type_id': 7}, {'name': 'ジョ', 'span': [44, 46], 'type_id': 8}, {'name': 'ッキー', 'span': [46, 49], 'type_id': 7}]
[{'name': 'ダーヴラ・カーワン', 'span': [0, 9], 'type_id': 1}, {'name': 'マーシー・ハーティガン', 'span': [10, 21], 'type_id': 1}, {'name': 'ラッセル・T・デイヴィス', 'span': [25, 37], 'type_id': 1}]
[{'name': 'つのだ', 'span': [3, 6], 'type_id': 1}]
[{'name': '若草', 'span': [29, 31], 'type_id': 2}]
[{'name': 'ウエ', 'span': [29, 31], 'type_id': 2}]
[]
[{'name': 'オリエンタル・バンク', 'span': [8, 18], 'type_id': 2}, {'name': 'デビッド・マクリーン', 'span': [21, 31], 'type_id': 1}]
[{'name': 'ザ・ポー', 'span': [27, 31], 'type_id': 2}, {'name': 'グス', 'span': [31, 33], 'type_id': 1}]
[{'name': 'Yメロン', 'span': [10, 14], 'type_id': 2}, {'name': 'N', 'span': [25, 26], 'type_id': 2}]
[{'name': '珠海エア', 'span': [6, 10], 'type_id': 2}]
[{'name': '回全日本中学校', 'span': [3, 10], 'type_id': 8}, {'name': '陸上競技', 'span': [


 46%|████▌     | 490/1070 [00:06<00:07, 79.51it/s][A
 47%|████▋     | 499/1070 [00:06<00:07, 81.00it/s][A

[{'name': 'トラックス', 'span': [23, 28], 'type_id': 2}]
[{'name': '泰', 'span': [1, 2], 'type_id': 1}, {'name': '淀', 'span': [17, 18], 'type_id': 6}]
[]
[{'name': 'ミ詩', 'span': [3, 5], 'type_id': 1}, {'name': 'アレクセイ・クルチョーヌィフ', 'span': [7, 21], 'type_id': 1}, {'name': 'ヴェリミール・フレーブニコフ', 'span': [22, 36], 'type_id': 1}, {'name': 'ズダネーヴィチ', 'span': [50, 57], 'type_id': 1}]
[{'name': '医学研究所', 'span': [4, 9], 'type_id': 2}]
[{'name': '李承晩', 'span': [9, 12], 'type_id': 1}, {'name': '人民委員', 'span': [52, 56], 'type_id': 2}]
[{'name': '第22回衆議院議員総', 'span': [10, 20], 'type_id': 8}, {'name': '諸', 'span': [30, 31], 'type_id': 1}, {'name': '笹森順造', 'span': [42, 46], 'type_id': 1}, {'name': '早川崇', 'span': [47, 50], 'type_id': 1}, {'name': '岡田勢一', 'span': [51, 55], 'type_id': 1}]
[{'name': '五十嵐俊幸', 'span': [37, 42], 'type_id': 1}]
[{'name': '谷', 'span': [38, 39], 'type_id': 2}]
[]
[{'name': '森朋之', 'span': [17, 20], 'type_id': 1}]
[{'name': 'マル', 'span': [0, 2], 'type_id': 1}, {'name': '・', 'span': [36, 37],


 47%|████▋     | 508/1070 [00:06<00:06, 80.72it/s][A
 48%|████▊     | 517/1070 [00:06<00:06, 81.07it/s][A

[{'name': '名古屋電灯', 'span': [11, 16], 'type_id': 2}, {'name': '主', 'span': [55, 56], 'type_id': 1}]
[]
[{'name': '世界', 'span': [22, 24], 'type_id': 7}, {'name': 'ロニア', 'span': [48, 51], 'type_id': 6}, {'name': '・', 'span': [51, 52], 'type_id': 2}]
[{'name': '大野', 'span': [18, 20], 'type_id': 1}, {'name': '横断', 'span': [32, 34], 'type_id': 2}]
[{'name': '帯広', 'span': [0, 2], 'type_id': 2}, {'name': '森', 'span': [3, 4], 'type_id': 6}, {'name': '帯広', 'span': [13, 15], 'type_id': 5}, {'name': '西', 'span': [18, 19], 'type_id': 2}, {'name': '芽室', 'span': [20, 22], 'type_id': 2}, {'name': '帯広', 'span': [24, 26], 'type_id': 2}]
[]
[{'name': '前川國男建築設計', 'span': [0, 8], 'type_id': 1}, {'name': 'デイビス・ブロディアンドアソシエ', 'span': [12, 28], 'type_id': 2}, {'name': 'ーツ', 'span': [28, 30], 'type_id': 1}, {'name': 'マッキ', 'span': [39, 42], 'type_id': 1}, {'name': 'ンゼー・アンド・カンパニー', 'span': [42, 55], 'type_id': 2}]
[{'name': 'フィリッパ', 'span': [18, 23], 'type_id': 1}, {'name': 'ヴェンディーチェ', 'span': [31, 39], 'type_id


 49%|████▉     | 526/1070 [00:06<00:06, 81.27it/s][A
 50%|█████     | 535/1070 [00:06<00:06, 82.48it/s][A

[{'name': '工学', 'span': [13, 15], 'type_id': 2}]
[{'name': '渋沢栄一', 'span': [3, 7], 'type_id': 1}, {'name': 'クラシー', 'span': [36, 40], 'type_id': 2}]
[{'name': '西成', 'span': [5, 7], 'type_id': 1}, {'name': '今宮国民', 'span': [8, 12], 'type_id': 1}, {'name': '大正', 'span': [15, 17], 'type_id': 1}]
[{'name': '吉山', 'span': [17, 19], 'type_id': 2}]
[]
[{'name': 'ルイ・ド・フュネス', 'span': [7, 16], 'type_id': 1}]
[]
[{'name': 'アジア系アメリカ人ジャーナリスト協会', 'span': [8, 26], 'type_id': 2}, {'name': 'アジア・アメリカ問題', 'span': [33, 43], 'type_id': 2}]
[{'name': '欧州委員会', 'span': [3, 8], 'type_id': 2}, {'name': '欧州連合', 'span': [38, 42], 'type_id': 2}, {'name': '欧州', 'span': [49, 51], 'type_id': 2}, {'name': '行動', 'span': [53, 55], 'type_id': 2}]
[{'name': '紫', 'span': [10, 11], 'type_id': 1}, {'name': '斑', 'span': [11, 12], 'type_id': 2}]
[]
[{'name': 'ピート・ドハーティ', 'span': [0, 9], 'type_id': 1}, {'name': 'ベイ', 'span': [21, 23], 'type_id': 2}, {'name': 'ビーシャンブルズ', 'span': [23, 31], 'type_id': 1}, {'name': 'プライマル・スクリーム', 'spa


 51%|█████     | 544/1070 [00:06<00:06, 80.84it/s][A
 52%|█████▏    | 553/1070 [00:06<00:06, 80.56it/s][A

[{'name': 'レイセオン・ミサイルシステムズ', 'span': [13, 28], 'type_id': 2}, {'name': 'Eシステムズ', 'span': [33, 39], 'type_id': 2}]
[{'name': 'リエージュ', 'span': [0, 5], 'type_id': 1}, {'name': 'ギユマン', 'span': [6, 10], 'type_id': 1}]
[{'name': 'シリコングラフィックス', 'span': [7, 18], 'type_id': 2}, {'name': 'ネットスケープ', 'span': [20, 27], 'type_id': 2}, {'name': 'ジム・クラーク', 'span': [33, 40], 'type_id': 1}, {'name': 'アース・アイランド・インスティテュー', 'span': [75, 93], 'type_id': 2}]
[{'name': 'ユナイテッドアローズ', 'span': [5, 15], 'type_id': 2}]
[]
[{'name': 'ルイ・コスタ', 'span': [12, 18], 'type_id': 1}, {'name': 'バティストゥータ', 'span': [19, 27], 'type_id': 1}, {'name': 'ディネ', 'span': [47, 50], 'type_id': 1}, {'name': 'ー', 'span': [50, 51], 'type_id': 2}, {'name': 'ゼ', 'span': [51, 52], 'type_id': 1}, {'name': 'バティストゥータ', 'span': [104, 112], 'type_id': 1}]
[{'name': '全国', 'span': [36, 38], 'type_id': 2}, {'name': '大学', 'span': [38, 40], 'type_id': 6}, {'name': '野球', 'span': [40, 42], 'type_id': 2}, {'name': '新制大学', 'span': [47, 51], 'type_id': 2}, 


 53%|█████▎    | 562/1070 [00:06<00:06, 79.88it/s][A
 53%|█████▎    | 571/1070 [00:07<00:06, 81.43it/s][A

[{'name': '原三柿野', 'span': [5, 9], 'type_id': 1}, {'name': '東', 'span': [17, 18], 'type_id': 1}]
[]
[{'name': 'ジョン・ビング提督', 'span': [11, 20], 'type_id': 1}]
[{'name': '島', 'span': [28, 29], 'type_id': 2}]
[]
[{'name': 'エドワード・R・マロー', 'span': [14, 25], 'type_id': 1}, {'name': 'マロー自ら', 'span': [35, 40], 'type_id': 1}, {'name': 'マイロ・ラドゥロヴィッチ', 'span': [77, 89], 'type_id': 1}]
[]
[{'name': '国台弁', 'span': [22, 25], 'type_id': 2}, {'name': '台湾', 'span': [33, 35], 'type_id': 6}, {'name': '韓国', 'span': [39, 41], 'type_id': 1}, {'name': '国', 'span': [44, 45], 'type_id': 1}, {'name': '国', 'span': [135, 136], 'type_id': 1}, {'name': '国', 'span': [152, 153], 'type_id': 1}]
[{'name': 'ボストン・レッドソックス', 'span': [12, 24], 'type_id': 1}]
[{'name': 'ワイド', 'span': [2, 5], 'type_id': 2}]
[]
[{'name': '大毎オリオンズ', 'span': [21, 28], 'type_id': 2}, {'name': '南海', 'span': [29, 31], 'type_id': 2}, {'name': '野村', 'span': [53, 55], 'type_id': 1}]
[{'name': 'ルエラ・パーソンズ', 'span': [11, 20], 'type_id': 1}]
[]
[]
[]
[{'name'


 54%|█████▍    | 580/1070 [00:07<00:06, 81.17it/s][A


[]
[]
[{'name': '住銀広島駅', 'span': [10, 15], 'type_id': 2}, {'name': '十和', 'span': [44, 46], 'type_id': 2}]
[]
[{'name': '千', 'span': [33, 34], 'type_id': 1}]
[{'name': 'コメディアン植木等', 'span': [0, 9], 'type_id': 1}]
[{'name': 'ミック・ジャガー', 'span': [9, 17], 'type_id': 1}, {'name': '・', 'span': [23, 24], 'type_id': 1}, {'name': 'メニ', 'span': [24, 26], 'type_id': 7}, {'name': 'ー・クックス', 'span': [26, 32], 'type_id': 1}]
[]
[]
[{'name': '日吉ミミ', 'span': [25, 29], 'type_id': 1}]
[{'name': 'アイアン', 'span': [4, 8], 'type_id': 1}, {'name': 'ダウニー・Jr', 'span': [16, 23], 'type_id': 1}, {'name': 'ドン・チードル', 'span': [36, 43], 'type_id': 1}]
[{'name': '松江春次', 'span': [33, 37], 'type_id': 1}]
[{'name': '放送協会', 'span': [2, 6], 'type_id': 2}, {'name': '阪神', 'span': [36, 38], 'type_id': 2}, {'name': '支局', 'span': [38, 40], 'type_id': 1}, {'name': '報', 'span': [56, 57], 'type_id': 2}]
[]
[{'name': '野', 'span': [24, 25], 'type_id': 1}]
[{'name': '青二プロダクション', 'span': [0, 9], 'type_id': 2}]
[{'name': '西尾末広', 'span': [0

 55%|█████▌    | 589/1070 [00:07<00:05, 80.33it/s][A
 56%|█████▌    | 598/1070 [00:07<00:05, 81.27it/s][A
 57%|█████▋    | 607/1070 [00:07<00:05, 81.97it/s][A

[{'name': 'チョコボレーシング', 'span': [1, 10], 'type_id': 2}, {'name': '界', 'span': [12, 13], 'type_id': 2}]
[{'name': '・ファー', 'span': [4, 8], 'type_id': 2}, {'name': 'レン', 'span': [8, 10], 'type_id': 1}, {'name': '長崎', 'span': [10, 12], 'type_id': 2}, {'name': '隼', 'span': [20, 21], 'type_id': 1}]
[{'name': 'ソニー生命', 'span': [8, 13], 'type_id': 2}, {'name': 'エイゴン', 'span': [14, 18], 'type_id': 2}, {'name': 'ソニー生命', 'span': [39, 44], 'type_id': 2}, {'name': 'エイゴン', 'span': [45, 49], 'type_id': 2}]
[{'name': '世界', 'span': [27, 29], 'type_id': 7}, {'name': 'レード', 'span': [48, 51], 'type_id': 8}]
[]
[{'name': '信州', 'span': [0, 2], 'type_id': 2}]
[{'name': '空港交通', 'span': [2, 6], 'type_id': 2}]
[]
[{'name': 'ロナルド・レーガン', 'span': [16, 25], 'type_id': 1}, {'name': 'ジョン・カサヴェテス', 'span': [76, 86], 'type_id': 1}]
[{'name': '小', 'span': [7, 8], 'type_id': 7}]
[{'name': 'フィリッポ・ネリ', 'span': [5, 13], 'type_id': 1}, {'name': 'フィオレンティーニ', 'span': [15, 24], 'type_id': 1}, {'name': '洗礼者', 'span': [25, 28], 'typ


 58%|█████▊    | 616/1070 [00:07<00:05, 81.46it/s][A


[{'name': '水道', 'span': [2, 4], 'type_id': 2}, {'name': '国民', 'span': [10, 12], 'type_id': 1}, {'name': '政府', 'span': [12, 14], 'type_id': 8}]
[{'name': 'エ', 'span': [14, 15], 'type_id': 1}, {'name': 'ヴェ', 'span': [15, 17], 'type_id': 2}, {'name': 'ッサ', 'span': [17, 19], 'type_id': 1}]
[{'name': 'ウェストブルック・カレッジ', 'span': [35, 48], 'type_id': 2}]
[{'name': 'ニューオーリンズ', 'span': [12, 20], 'type_id': 2}, {'name': '・セインツ', 'span': [20, 25], 'type_id': 1}, {'name': 'フィラデルフィア・イーグルス', 'span': [26, 40], 'type_id': 2}, {'name': 'ロサンゼルス', 'span': [41, 47], 'type_id': 2}, {'name': '・', 'span': [47, 48], 'type_id': 1}, {'name': 'ラムズ', 'span': [48, 51], 'type_id': 2}, {'name': 'テネシー', 'span': [52, 56], 'type_id': 2}, {'name': '・タイ', 'span': [56, 59], 'type_id': 1}, {'name': 'タンズ', 'span': [59, 62], 'type_id': 2}, {'name': 'バッファ', 'span': [63, 67], 'type_id': 2}, {'name': 'ロー・', 'span': [67, 70], 'type_id': 1}, {'name': 'ビルズ', 'span': [70, 73], 'type_id': 2}]
[{'name': 'IHG・ANA・ホテル', 'span': [0, 11], '

 58%|█████▊    | 625/1070 [00:07<00:05, 80.85it/s][A
 59%|█████▉    | 634/1070 [00:07<00:05, 81.44it/s][A
 60%|██████    | 643/1070 [00:07<00:05, 81.62it/s][A

[{'name': 'ランボー', 'span': [0, 4], 'type_id': 1}]
[]
[]
[{'name': '和城', 'span': [1, 3], 'type_id': 6}, {'name': '際', 'span': [3, 4], 'type_id': 2}, {'name': '軌道', 'span': [4, 6], 'type_id': 6}, {'name': '江蘇', 'span': [17, 19], 'type_id': 5}, {'name': '南京', 'span': [20, 22], 'type_id': 5}, {'name': '花', 'span': [24, 25], 'type_id': 1}, {'name': '台', 'span': [25, 26], 'type_id': 6}, {'name': '南京南', 'span': [28, 31], 'type_id': 6}, {'name': '口', 'span': [35, 36], 'type_id': 6}, {'name': '高', 'span': [38, 39], 'type_id': 1}, {'name': '東', 'span': [49, 50], 'type_id': 6}]
[{'name': '42', 'span': [7, 9], 'type_id': 1}, {'name': '回', 'span': [9, 10], 'type_id': 8}, {'name': '衆議院', 'span': [10, 13], 'type_id': 1}, {'name': '議員総', 'span': [13, 16], 'type_id': 8}, {'name': '土屋品子', 'span': [20, 24], 'type_id': 1}]
[{'name': 'アメリカベル&ハウエル社', 'span': [6, 18], 'type_id': 2}]
[]
[{'name': '・パシフィック鉄道', 'span': [22, 31], 'type_id': 2}]
[]
[]
[{'name': 'アイゼンハワー', 'span': [39, 46], 'type_id': 1}]
[]
[{'nam


 61%|██████    | 652/1070 [00:08<00:05, 81.29it/s][A
 62%|██████▏   | 661/1070 [00:08<00:05, 81.39it/s][A

[{'name': '金子達仁', 'span': [20, 24], 'type_id': 1}]
[]
[{'name': 'フォーカス・フィーチャーズ', 'span': [41, 54], 'type_id': 2}, {'name': 'トマス・バルメス監督', 'span': [87, 97], 'type_id': 1}]
[{'name': 'ック', 'span': [1, 3], 'type_id': 1}, {'name': '・', 'span': [3, 4], 'type_id': 2}]
[{'name': 'ジャン・ポール・ゲティ', 'span': [3, 14], 'type_id': 1}, {'name': 'ゲティ', 'span': [19, 22], 'type_id': 1}]
[{'name': '戦艦', 'span': [8, 10], 'type_id': 2}, {'name': 'ヤマト', 'span': [10, 13], 'type_id': 8}, {'name': 'の', 'span': [19, 20], 'type_id': 2}, {'name': '少女ハイジ', 'span': [20, 25], 'type_id': 1}, {'name': '未来', 'span': [27, 29], 'type_id': 1}, {'name': '少年', 'span': [29, 31], 'type_id': 2}, {'name': '戦士', 'span': [38, 40], 'type_id': 8}, {'name': 'ガン', 'span': [40, 42], 'type_id': 2}, {'name': 'ダム', 'span': [42, 44], 'type_id': 7}, {'name': '大友克洋', 'span': [57, 61], 'type_id': 1}, {'name': '童', 'span': [63, 64], 'type_id': 7}]
[{'name': '詩', 'span': [2, 3], 'type_id': 7}]
[{'name': 'ビジェイ・マリヤ', 'span': [3, 11], 'type_id': 1}, 


 63%|██████▎   | 670/1070 [00:08<00:04, 80.82it/s][A


[{'name': 'ブルース・ウィリス', 'span': [0, 9], 'type_id': 1}, {'name': 'アン', 'span': [11, 13], 'type_id': 7}, {'name': 'ブレイ', 'span': [13, 16], 'type_id': 1}, {'name': 'カ', 'span': [16, 17], 'type_id': 7}, {'name': 'ブル', 'span': [17, 19], 'type_id': 1}, {'name': 'シャマラン', 'span': [55, 60], 'type_id': 1}]
[{'name': '回札幌国際ハーフ', 'span': [11, 19], 'type_id': 8}]
[{'name': 'ブライアン・エプスタイン', 'span': [30, 42], 'type_id': 1}]
[{'name': 'ヴィトール・メイラ', 'span': [16, 25], 'type_id': 1}, {'name': 'J', 'span': [33, 34], 'type_id': 2}, {'name': 'フォイト・', 'span': [35, 40], 'type_id': 2}]
[{'name': 'ペトレイアス', 'span': [4, 10], 'type_id': 1}, {'name': 'スルターン・ハーシム', 'span': [11, 21], 'type_id': 1}]
[{'name': 'スタンリイ・G・ワインボウム', 'span': [3, 17], 'type_id': 1}, {'name': 'オデ', 'span': [22, 24], 'type_id': 7}]
[{'name': 'ザウアーラント射撃連盟', 'span': [10, 21], 'type_id': 2}]
[{'name': 'ジョン・コー', 'span': [57, 63], 'type_id': 1}]
[{'name': 'キング', 'span': [26, 29], 'type_id': 2}]
[{'name': 'マートル', 'span': [5, 9], 'type_id': 1}, {'name': 

 63%|██████▎   | 679/1070 [00:08<00:04, 80.69it/s][A
 64%|██████▍   | 688/1070 [00:08<00:04, 81.50it/s][A
 65%|██████▌   | 697/1070 [00:08<00:04, 82.31it/s][A

[{'name': 'arm', 'span': [22, 25], 'type_id': 6}]
[{'name': 'マルコーニ', 'span': [0, 5], 'type_id': 1}, {'name': 'グリエルモ・マルコーニ', 'span': [22, 33], 'type_id': 1}]
[{'name': 'サンドマン', 'span': [3, 8], 'type_id': 1}, {'name': 'サブゥー', 'span': [9, 13], 'type_id': 1}, {'name': 'ボールズ・マホーニー', 'span': [14, 24], 'type_id': 1}, {'name': 'ビンス・マクマホン', 'span': [59, 68], 'type_id': 1}, {'name': 'イライジャ・バーク', 'span': [78, 87], 'type_id': 1}]
[{'name': '佐藤俊久', 'span': [0, 4], 'type_id': 1}, {'name': '山崎桂一技', 'span': [12, 17], 'type_id': 1}]
[{'name': '蜷川幸雄', 'span': [6, 10], 'type_id': 1}, {'name': '徳三郎', 'span': [48, 51], 'type_id': 1}]
[{'name': 'テレビマンユニオン', 'span': [5, 14], 'type_id': 2}, {'name': 'テレビ朝日', 'span': [15, 20], 'type_id': 2}]
[]
[{'name': 'グレッチ', 'span': [0, 4], 'type_id': 1}]
[{'name': 'ブリタ', 'span': [0, 3], 'type_id': 1}]
[{'name': '賀茂鶴', 'span': [23, 26], 'type_id': 2}, {'name': '酒造', 'span': [26, 28], 'type_id': 1}]
[]
[]
[]
[{'name': 'ロジャー・レドファーン', 'span': [0, 11], 'type_id': 1}, {'name': 


 66%|██████▌   | 706/1070 [00:08<00:04, 82.97it/s][A
 67%|██████▋   | 715/1070 [00:08<00:04, 82.37it/s]

[{'name': '次', 'span': [2, 3], 'type_id': 1}, {'name': '世界', 'span': [3, 5], 'type_id': 7}]
[{'name': '漕', 'span': [3, 4], 'type_id': 2}]
[{'name': '中村雅俊', 'span': [14, 18], 'type_id': 1}]
[]
[{'name': '帝國大學', 'span': [5, 9], 'type_id': 2}]
[{'name': '世田谷', 'span': [15, 18], 'type_id': 5}, {'name': '代', 'span': [19, 20], 'type_id': 5}]
[{'name': 'フランク・ウイリアムズ', 'span': [6, 17], 'type_id': 1}]
[{'name': '陽', 'span': [24, 25], 'type_id': 6}, {'name': '山西', 'span': [27, 29], 'type_id': 6}]
[{'name': 'ウィーン', 'span': [4, 8], 'type_id': 2}, {'name': '国立', 'span': [8, 10], 'type_id': 6}, {'name': '音楽アカデミー', 'span': [10, 17], 'type_id': 2}, {'name': '福田伸光', 'span': [29, 33], 'type_id': 1}]
[]
[{'name': 'ピストン', 'span': [14, 18], 'type_id': 2}]
[{'name': '見', 'span': [61, 62], 'type_id': 1}]
[{'name': 'クリエイ', 'span': [9, 13], 'type_id': 2}]
[{'name': '吉村甚兵衛', 'span': [2, 7], 'type_id': 1}, {'name': '陸運', 'span': [11, 13], 'type_id': 2}, {'name': '會', 'span': [14, 15], 'type_id': 2}, {'name': '日本通

[A
 68%|██████▊   | 724/1070 [00:08<00:04, 81.61it/s][A


[{'name': 'クロウリー', 'span': [9, 14], 'type_id': 1}, {'name': 'ファー', 'span': [16, 19], 'type_id': 1}, {'name': 'メイ', 'span': [22, 24], 'type_id': 1}, {'name': '・ウラニア', 'span': [65, 70], 'type_id': 1}]
[{'name': 'ロー', 'span': [6, 8], 'type_id': 8}, {'name': 'ウェル天文台', 'span': [8, 14], 'type_id': 2}, {'name': 'エドワード・ボーエル', 'span': [15, 25], 'type_id': 1}]
[{'name': 'グディソン・パーク', 'span': [11, 20], 'type_id': 1}, {'name': 'ノッティ', 'span': [25, 29], 'type_id': 1}, {'name': 'ンガム', 'span': [29, 32], 'type_id': 2}, {'name': '・フォレスト', 'span': [32, 38], 'type_id': 1}]
[{'name': '千鳥', 'span': [0, 2], 'type_id': 2}, {'name': '屋', 'span': [2, 3], 'type_id': 1}, {'name': '総', 'span': [3, 4], 'type_id': 2}, {'name': '豊島', 'span': [15, 17], 'type_id': 5}]
[{'name': 'スクエアとうき', 'span': [19, 26], 'type_id': 2}]
[{'name': '安倍晋三内閣総理大臣', 'span': [9, 19], 'type_id': 1}, {'name': 'サルマーン皇太子及びアブドゥッラー国王', 'span': [31, 50], 'type_id': 1}, {'name': 'サウジアラビア', 'span': [60, 67], 'type_id': 2}]
[{'name': '浄土', 'span': [5,

 69%|██████▊   | 733/1070 [00:09<00:04, 80.86it/s][A
 69%|██████▉   | 742/1070 [00:09<00:04, 79.57it/s][A
 70%|███████   | 750/1070 [00:09<00:04, 79.22it/s][A

[{'name': '広州', 'span': [7, 9], 'type_id': 1}, {'name': '富力足球', 'span': [9, 13], 'type_id': 6}, {'name': 'アトレ', 'span': [26, 29], 'type_id': 2}, {'name': 'チコ・ミネイロ', 'span': [29, 36], 'type_id': 1}, {'name': 'アレクサンド', 'span': [49, 55], 'type_id': 1}, {'name': 'ヴァスコ・ダ・ガマ', 'span': [65, 74], 'type_id': 1}]
[{'name': '2014年アジア', 'span': [0, 8], 'type_id': 8}, {'name': '競技', 'span': [8, 10], 'type_id': 2}, {'name': '南', 'span': [40, 41], 'type_id': 6}, {'name': '洞アジアードラグビー', 'span': [41, 51], 'type_id': 2}]
[{'name': '淳', 'span': [13, 14], 'type_id': 1}]
[{'name': 'オジロ', 'span': [12, 15], 'type_id': 1}]
[{'name': '鳥羽・伏見', 'span': [3, 8], 'type_id': 1}, {'name': '多喜', 'span': [24, 26], 'type_id': 1}, {'name': '松平正質', 'span': [29, 33], 'type_id': 1}, {'name': '徳川慶喜', 'span': [34, 38], 'type_id': 1}, {'name': '喜', 'span': [79, 80], 'type_id': 2}]
[{'name': 'ノースカロライナ', 'span': [8, 16], 'type_id': 1}, {'name': 'シャーロット', 'span': [17, 23], 'type_id': 1}, {'name': 'スチュアート・W・クラマー', 'span': [24, 37],


 71%|███████   | 758/1070 [00:09<00:03, 79.05it/s][A
 72%|███████▏  | 767/1070 [00:09<00:03, 80.97it/s][A

[]
[]
[{'name': '督', 'span': [6, 7], 'type_id': 1}, {'name': '趙秉稷', 'span': [8, 11], 'type_id': 1}]
[]
[{'name': 'チュルボメカ', 'span': [26, 32], 'type_id': 2}]
[{'name': '連邦準備制度', 'span': [7, 13], 'type_id': 2}]
[]
[]
[]
[]
[]
[]
[{'name': '黒総', 'span': [15, 17], 'type_id': 2}, {'name': '本', 'span': [17, 18], 'type_id': 1}, {'name': '舗', 'span': [18, 19], 'type_id': 2}, {'name': '婁', 'span': [28, 29], 'type_id': 2}, {'name': '地', 'span': [31, 32], 'type_id': 2}]
[]
[]
[{'name': '江', 'span': [5, 6], 'type_id': 1}, {'name': '追', 'span': [7, 8], 'type_id': 1}, {'name': '江', 'span': [30, 31], 'type_id': 6}, {'name': '追', 'span': [32, 33], 'type_id': 7}, {'name': '分', 'span': [33, 34], 'type_id': 2}]
[]



 73%|███████▎  | 776/1070 [00:09<00:03, 80.67it/s][A
 73%|███████▎  | 785/1070 [00:09<00:03, 82.06it/s][A

[{'name': '田', 'span': [1, 2], 'type_id': 1}]
[{'name': '中川カ〜ル', 'span': [18, 23], 'type_id': 1}]
[{'name': '三重建設', 'span': [16, 20], 'type_id': 2}]
[{'name': '瓦斯', 'span': [7, 9], 'type_id': 2}, {'name': '名古屋電灯', 'span': [33, 38], 'type_id': 2}, {'name': '瓦斯', 'span': [53, 55], 'type_id': 2}]
[{'name': 'ツクダオリジナル', 'span': [6, 14], 'type_id': 2}, {'name': '和久', 'span': [36, 38], 'type_id': 2}, {'name': '井', 'span': [38, 39], 'type_id': 1}, {'name': 'ワクイコーポレーション', 'span': [44, 55], 'type_id': 2}]
[{'name': '池田', 'span': [40, 42], 'type_id': 1}]
[{'name': 'セルラー', 'span': [10, 14], 'type_id': 2}]
[]
[{'name': '大石', 'span': [7, 9], 'type_id': 1}]
[]
[{'name': '仙台トラストシティ', 'span': [0, 9], 'type_id': 2}, {'name': '仙台トラストタワー', 'span': [24, 33], 'type_id': 2}]
[{'name': 'アメリ・ノトン', 'span': [13, 20], 'type_id': 1}, {'name': 'アメリー・ノートン', 'span': [60, 69], 'type_id': 1}]
[{'name': 'ソニー株式会社', 'span': [7, 14], 'type_id': 2}]
[]
[{'name': 'プリティーリズム・ディア', 'span': [36, 48], 'type_id': 2}, {'name': 'マイ'


 74%|███████▍  | 794/1070 [00:09<00:03, 81.47it/s][A
 75%|███████▌  | 803/1070 [00:09<00:03, 80.47it/s]

[{'name': 'V', 'span': [27, 28], 'type_id': 2}]
[{'name': 'ジェノアCF', 'span': [10, 16], 'type_id': 2}, {'name': '・', 'span': [73, 74], 'type_id': 2}, {'name': 'バリ', 'span': [74, 76], 'type_id': 7}, {'name': 'ャドリード', 'span': [76, 81], 'type_id': 1}]
[{'name': '航空', 'span': [10, 12], 'type_id': 2}]
[{'name': '2', 'span': [2, 3], 'type_id': 2}, {'name': '神戸', 'span': [12, 14], 'type_id': 2}, {'name': '2', 'span': [52, 53], 'type_id': 2}]
[{'name': '江本孟紀', 'span': [8, 12], 'type_id': 1}, {'name': '江本', 'span': [25, 27], 'type_id': 1}]
[{'name': '・日立', 'span': [3, 6], 'type_id': 2}, {'name': '東京ディズニーリゾート', 'span': [7, 18], 'type_id': 2}, {'name': 'ひたち', 'span': [39, 42], 'type_id': 1}, {'name': 'とき', 'span': [43, 45], 'type_id': 2}]
[{'name': 'モ', 'span': [8, 9], 'type_id': 2}]
[{'name': '市立', 'span': [23, 25], 'type_id': 2}, {'name': '社', 'span': [33, 34], 'type_id': 8}, {'name': '寺', 'span': [34, 35], 'type_id': 2}, {'name': '曼', 'span': [37, 38], 'type_id': 8}, {'name': '荼', 'span': [38, 3

[A
 76%|███████▌  | 812/1070 [00:10<00:03, 78.08it/s][A

[{'name': 'あいちトリエンナーレ', 'span': [0, 10], 'type_id': 2}, {'name': '愛知', 'span': [11, 13], 'type_id': 2}, {'name': '名古屋', 'span': [15, 18], 'type_id': 1}]
[]
[{'name': 'y', 'span': [23, 24], 'type_id': 7}, {'name': 'f', 'span': [24, 25], 'type_id': 2}]
[{'name': '連邦共和国', 'span': [53, 58], 'type_id': 2}, {'name': 'ユーゴ', 'span': [77, 80], 'type_id': 2}, {'name': 'ユーゴ', 'span': [110, 113], 'type_id': 2}]
[{'name': '大島', 'span': [13, 15], 'type_id': 1}, {'name': '柴田', 'span': [16, 18], 'type_id': 1}, {'name': '木村拓也', 'span': [28, 32], 'type_id': 1}, {'name': '長冨浩志', 'span': [40, 44], 'type_id': 1}]
[{'name': 'ココストアイースト', 'span': [4, 13], 'type_id': 2}, {'name': 'ココストア', 'span': [52, 57], 'type_id': 2}]
[{'name': '女子プロ', 'span': [7, 11], 'type_id': 2}, {'name': 'フローラ', 'span': [18, 22], 'type_id': 2}]
[]
[]
[{'name': '陳誠', 'span': [3, 5], 'type_id': 1}]
[{'name': '藤本龍児', 'span': [5, 9], 'type_id': 1}, {'name': 'ブル・', 'span': [25, 28], 'type_id': 2}]
[]
[{'name': 'イリーナ・ドルゴワ', 'span': [17, 26],


 77%|███████▋  | 821/1070 [00:10<00:03, 78.54it/s][A
 77%|███████▋  | 829/1070 [00:10<00:03, 78.20it/s][A

[{'name': 'ディン', 'span': [4, 7], 'type_id': 2}, {'name': '・', 'span': [8, 9], 'type_id': 1}, {'name': '・', 'span': [11, 12], 'type_id': 1}, {'name': '・', 'span': [13, 14], 'type_id': 1}, {'name': 'ショ', 'span': [14, 16], 'type_id': 7}, {'name': 'ルダー', 'span': [16, 19], 'type_id': 1}, {'name': 'オブ', 'span': [20, 22], 'type_id': 2}, {'name': 'ジャ', 'span': [23, 25], 'type_id': 6}, {'name': 'イアン', 'span': [25, 28], 'type_id': 1}]
[{'name': '継承', 'span': [9, 11], 'type_id': 2}, {'name': 'ダ', 'span': [23, 24], 'type_id': 1}]
[{'name': 'ヴィジャヤナガル王ヴェンカタ2世', 'span': [6, 22], 'type_id': 1}, {'name': 'ペヌコンダ', 'span': [23, 28], 'type_id': 1}, {'name': 'チャンドラギリ', 'span': [30, 37], 'type_id': 1}, {'name': 'チャンドラギリ', 'span': [48, 55], 'type_id': 1}]
[{'name': '名', 'span': [14, 15], 'type_id': 6}, {'name': '湖', 'span': [15, 16], 'type_id': 2}, {'name': 'ボート', 'span': [16, 19], 'type_id': 1}, {'name': 'レース', 'span': [19, 22], 'type_id': 7}]
[{'name': '江崎グリコ', 'span': [5, 10], 'type_id': 2}]
[{'name': '佐藤


 78%|███████▊  | 838/1070 [00:10<00:02, 78.90it/s][A
 79%|███████▉  | 847/1070 [00:10<00:02, 80.52it/s][A

[{'name': '住友海上', 'span': [8, 12], 'type_id': 2}]
[{'name': 'ホテルズブランド', 'span': [9, 17], 'type_id': 2}]
[{'name': '東アジア競技', 'span': [5, 11], 'type_id': 8}, {'name': '大阪', 'span': [38, 40], 'type_id': 1}]
[]
[{'name': 'ナ', 'span': [5, 6], 'type_id': 7}, {'name': 'チャラン・ポ・ランタン', 'span': [20, 31], 'type_id': 1}]
[{'name': '連合国', 'span': [19, 22], 'type_id': 2}]
[]
[{'name': 'ジェームズ・ブキャナン大統領', 'span': [3, 17], 'type_id': 1}]
[{'name': 'パトリック・ヤンセン', 'span': [4, 14], 'type_id': 1}, {'name': 'ザ・ホーンテッド', 'span': [15, 23], 'type_id': 1}, {'name': 'センチ', 'span': [56, 59], 'type_id': 1}, {'name': 'ュリー', 'span': [59, 62], 'type_id': 2}, {'name': '・', 'span': [62, 63], 'type_id': 1}, {'name': 'メディア・', 'span': [63, 68], 'type_id': 2}]
[{'name': 'アル', 'span': [15, 17], 'type_id': 2}]
[]
[{'name': 'サンレーヴ', 'span': [15, 20], 'type_id': 2}]
[{'name': 'サンフランシスコ', 'span': [31, 39], 'type_id': 1}, {'name': '・ジャイアンツ', 'span': [39, 46], 'type_id': 2}, {'name': 'マット・ケイン', 'span': [62, 69], 'type_id': 1}, {'name


 80%|████████  | 856/1070 [00:10<00:02, 79.67it/s][A
 81%|████████  | 865/1070 [00:10<00:02, 81.21it/s][A

[{'name': '町田', 'span': [24, 26], 'type_id': 1}, {'name': 'タイトー', 'span': [28, 32], 'type_id': 2}, {'name': '町田プレジャー', 'span': [42, 49], 'type_id': 2}, {'name': 'キャ', 'span': [49, 51], 'type_id': 1}]
[{'name': 'ナポレオン・ボナパルト率いる大陸', 'span': [4, 20], 'type_id': 1}, {'name': 'アウステルリッツ', 'span': [26, 34], 'type_id': 1}]
[{'name': '杉本勝', 'span': [24, 27], 'type_id': 1}]
[{'name': '司法', 'span': [7, 9], 'type_id': 1}, {'name': 'リチャード・オルニー', 'span': [12, 22], 'type_id': 1}]
[]
[{'name': '世界', 'span': [3, 5], 'type_id': 2}, {'name': '連合', 'span': [22, 24], 'type_id': 2}]
[{'name': 'モザイ', 'span': [0, 3], 'type_id': 8}, {'name': 'カルチャー世界', 'span': [3, 10], 'type_id': 2}, {'name': '博', 'span': [10, 11], 'type_id': 7}]
[{'name': 'ガンバ大阪', 'span': [5, 10], 'type_id': 2}]
[]
[{'name': 'U', 'span': [12, 13], 'type_id': 8}]
[]
[{'name': '林頼三郎大審', 'span': [12, 18], 'type_id': 1}, {'name': '院', 'span': [18, 19], 'type_id': 2}, {'name': '三', 'span': [24, 25], 'type_id': 2}, {'name': '・', 'span': [25, 26], 't


 82%|████████▏ | 874/1070 [00:10<00:02, 81.47it/s][A
 83%|████████▎ | 883/1070 [00:10<00:02, 81.38it/s][A

[{'name': '愛知万博', 'span': [3, 7], 'type_id': 2}, {'name': '長久手町', 'span': [8, 12], 'type_id': 2}, {'name': '愛知青少年公園', 'span': [13, 20], 'type_id': 2}]
[{'name': '金星スターズ', 'span': [6, 12], 'type_id': 2}, {'name': '急', 'span': [17, 18], 'type_id': 2}]
[{'name': 'ダンフェール', 'span': [0, 6], 'type_id': 1}, {'name': 'シュ', 'span': [8, 10], 'type_id': 1}, {'name': 'B', 'span': [41, 42], 'type_id': 7}]
[{'name': '田中義一', 'span': [15, 19], 'type_id': 1}, {'name': '小川平吉', 'span': [29, 33], 'type_id': 1}]
[{'name': '朋学園大学', 'span': [5, 10], 'type_id': 2}, {'name': '交響', 'span': [30, 32], 'type_id': 2}]
[{'name': '武部', 'span': [0, 2], 'type_id': 1}, {'name': '武部', 'span': [37, 39], 'type_id': 1}, {'name': '山崎', 'span': [42, 44], 'type_id': 1}]
[{'name': 'レイトナー', 'span': [6, 11], 'type_id': 1}, {'name': 'ブライアン・デービス', 'span': [24, 34], 'type_id': 1}, {'name': 'ダー', 'span': [44, 46], 'type_id': 2}]
[{'name': '渡辺ミキ', 'span': [11, 15], 'type_id': 1}, {'name': 'ビスケットエンターティ', 'span': [29, 40], 'type_id': 2},


 83%|████████▎ | 892/1070 [00:11<00:02, 79.34it/s][A
 84%|████████▍ | 900/1070 [00:11<00:02, 79.07it/s][A


[{'name': '玄光社', 'span': [0, 3], 'type_id': 2}]
[]
[{'name': 'アフロ', 'span': [10, 13], 'type_id': 2}, {'name': '・シラジ', 'span': [13, 17], 'type_id': 1}, {'name': '党', 'span': [17, 18], 'type_id': 2}, {'name': 'ザン', 'span': [31, 33], 'type_id': 1}, {'name': 'ジバル', 'span': [33, 36], 'type_id': 2}]
[{'name': 'CO', 'span': [30, 32], 'type_id': 2}, {'name': 'あま', 'span': [33, 35], 'type_id': 2}, {'name': 'が', 'span': [35, 36], 'type_id': 6}, {'name': 'さき', 'span': [36, 38], 'type_id': 1}]
[{'name': '爺', 'span': [1, 2], 'type_id': 2}]
[{'name': 'リオ・ティン', 'span': [0, 6], 'type_id': 2}, {'name': 'ト', 'span': [6, 7], 'type_id': 1}, {'name': '・グループ', 'span': [7, 12], 'type_id': 2}]
[{'name': '樺山資紀内', 'span': [4, 9], 'type_id': 1}, {'name': '顧問', 'span': [18, 20], 'type_id': 1}, {'name': '田中不二麿', 'span': [21, 26], 'type_id': 1}, {'name': '小村壽太郎', 'span': [34, 39], 'type_id': 1}, {'name': '金子堅太郎', 'span': [40, 45], 'type_id': 1}, {'name': '賀田種太郎', 'span': [47, 52], 'type_id': 1}]
[{'name': 'クイズ', '


 85%|████████▍ | 908/1070 [00:11<00:02, 76.95it/s][A
 86%|████████▌ | 916/1070 [00:11<00:01, 77.50it/s][A

[{'name': '禄・', 'span': [1, 3], 'type_id': 2}, {'name': '慶長の', 'span': [3, 6], 'type_id': 1}, {'name': '種', 'span': [11, 12], 'type_id': 1}]
[{'name': 'ミズノ', 'span': [27, 30], 'type_id': 2}]
[{'name': '国', 'span': [9, 10], 'type_id': 1}, {'name': '煌動', 'span': [32, 34], 'type_id': 2}, {'name': 'フューチャー・プラネット', 'span': [47, 59], 'type_id': 2}]
[{'name': '富士製紙', 'span': [2, 6], 'type_id': 2}, {'name': '王子製紙', 'span': [19, 23], 'type_id': 2}, {'name': '条製紙', 'span': [39, 42], 'type_id': 2}, {'name': '日本製紙', 'span': [55, 59], 'type_id': 2}]
[{'name': 'フジ・トラベル・', 'span': [4, 12], 'type_id': 2}]
[{'name': 'ウィリアム・ミドルトン', 'span': [17, 28], 'type_id': 1}]
[{'name': 'ルイ', 'span': [7, 9], 'type_id': 1}, {'name': 'ビル', 'span': [9, 11], 'type_id': 2}, {'name': 'ルイビル・ウォーター・', 'span': [12, 23], 'type_id': 2}]
[{'name': '張志良', 'span': [31, 34], 'type_id': 1}]
[{'name': '北海道循環器病', 'span': [6, 13], 'type_id': 2}]
[{'name': '1952', 'span': [0, 4], 'type_id': 8}, {'name': 'ヘルシンキ', 'span': [5, 10], 'type_id


 86%|████████▋ | 924/1070 [00:11<00:01, 77.25it/s][A
 87%|████████▋ | 933/1070 [00:11<00:01, 78.55it/s][A

[]
[]
[{'name': '進藤本人', 'span': [2, 6], 'type_id': 1}, {'name': '東邦電力', 'span': [16, 20], 'type_id': 2}, {'name': '関西', 'span': [21, 23], 'type_id': 2}]
[{'name': 'ヤングジャンプ', 'span': [6, 13], 'type_id': 8}, {'name': 'べ', 'span': [23, 24], 'type_id': 7}, {'name': '週刊少年ジャンプ', 'span': [33, 41], 'type_id': 2}]
[{'name': 'バーク', 'span': [16, 19], 'type_id': 2}, {'name': 'リー', 'span': [19, 21], 'type_id': 1}, {'name': '音楽', 'span': [21, 23], 'type_id': 2}, {'name': '大学', 'span': [23, 25], 'type_id': 1}, {'name': 'ケーシー・サイモンセン', 'span': [28, 39], 'type_id': 1}]
[]
[{'name': 'アッティリオ・カリマーニ', 'span': [17, 29], 'type_id': 1}]
[{'name': 'フェビアン協会', 'span': [4, 11], 'type_id': 2}]
[{'name': 'コロラド', 'span': [0, 4], 'type_id': 2}, {'name': '・ロッキー', 'span': [4, 9], 'type_id': 1}, {'name': 'ズ', 'span': [9, 10], 'type_id': 2}, {'name': 'フロリダ', 'span': [26, 30], 'type_id': 2}, {'name': '・', 'span': [30, 31], 'type_id': 1}, {'name': 'マーリンズ', 'span': [31, 36], 'type_id': 2}]
[]
[{'name': 'サッカー', 'span': [8, 12


 88%|████████▊ | 941/1070 [00:11<00:01, 77.42it/s][A
 89%|████████▉ | 950/1070 [00:11<00:01, 79.06it/s][A

[{'name': '読売', 'span': [16, 18], 'type_id': 2}, {'name': 'サッカー協会', 'span': [27, 33], 'type_id': 2}, {'name': '団', 'span': [36, 37], 'type_id': 2}, {'name': '読売', 'span': [52, 54], 'type_id': 2}]
[{'name': '長野', 'span': [9, 11], 'type_id': 1}]
[{'name': '福井県立音楽堂', 'span': [9, 16], 'type_id': 2}]
[{'name': 'リチャード・ヘンダーソン', 'span': [30, 42], 'type_id': 1}, {'name': 'モア・ショールズ', 'span': [45, 53], 'type_id': 1}]
[{'name': '松本憲二', 'span': [11, 15], 'type_id': 1}, {'name': '中央', 'span': [36, 38], 'type_id': 8}]
[]
[{'name': 'カコック', 'span': [12, 16], 'type_id': 1}, {'name': 'サウスベイ・レイカーズ', 'span': [42, 53], 'type_id': 2}]
[{'name': '務', 'span': [1, 2], 'type_id': 2}]
[{'name': 'ヘルマン・グロスマン', 'span': [0, 10], 'type_id': 1}, {'name': 'ヘンヴァルト', 'span': [23, 29], 'type_id': 6}, {'name': '収容', 'span': [29, 31], 'type_id': 2}]
[{'name': '腕アトム', 'span': [24, 28], 'type_id': 2}, {'name': '虫プロ', 'span': [40, 43], 'type_id': 2}]
[{'name': '福島', 'span': [14, 16], 'type_id': 1}, {'name': '海老', 'span': [17, 1


 90%|████████▉ | 958/1070 [00:11<00:01, 78.72it/s][A
 90%|█████████ | 967/1070 [00:12<00:01, 79.71it/s][A

[{'name': '京阪電気鉄道', 'span': [9, 15], 'type_id': 2}]
[]
[]
[{'name': 'ガスリー', 'span': [8, 12], 'type_id': 1}]
[]
[{'name': 'かざあなダウンタウン', 'span': [10, 20], 'type_id': 1}, {'name': 'ダウンタウン', 'span': [23, 29], 'type_id': 1}, {'name': '松本人志', 'span': [43, 47], 'type_id': 1}, {'name': 'ダウンタウン', 'span': [58, 64], 'type_id': 1}, {'name': '木村', 'span': [79, 81], 'type_id': 1}, {'name': '東野', 'span': [82, 84], 'type_id': 1}, {'name': 'ットン調査', 'span': [103, 108], 'type_id': 1}]
[{'name': 'プロシネチキ', 'span': [2, 8], 'type_id': 1}, {'name': 'レッドスター・', 'span': [17, 24], 'type_id': 2}, {'name': 'ベオグラード', 'span': [24, 30], 'type_id': 1}]
[{'name': 'フランキー・フリッシュ', 'span': [44, 55], 'type_id': 1}, {'name': 'ハンク・グリーンバーグ', 'span': [56, 67], 'type_id': 1}, {'name': 'ルー・ブードロー', 'span': [68, 76], 'type_id': 1}]
[{'name': '国民党', 'span': [10, 13], 'type_id': 2}]
[{'name': '谷村新司', 'span': [4, 8], 'type_id': 1}, {'name': 'チョー・ヨンピル', 'span': [9, 17], 'type_id': 1}, {'name': 'ワン・ジェ', 'span': [18, 23], 'type_id': 1}, {


 91%|█████████ | 975/1070 [00:12<00:01, 77.67it/s][A
 92%|█████████▏| 984/1070 [00:12<00:01, 79.11it/s][A

[{'name': 'ツヴォルキン', 'span': [6, 12], 'type_id': 1}, {'name': 'ファー', 'span': [23, 26], 'type_id': 2}, {'name': 'ンズ', 'span': [26, 28], 'type_id': 1}]
[{'name': 'ニューオーリンズ・ジャズ&ヘリテッジ・フェスティバル', 'span': [10, 36], 'type_id': 2}, {'name': '・', 'span': [53, 54], 'type_id': 2}]
[{'name': '三宮', 'span': [3, 5], 'type_id': 6}, {'name': '神戸', 'span': [7, 9], 'type_id': 2}, {'name': '空港', 'span': [9, 11], 'type_id': 6}, {'name': '三宮', 'span': [18, 20], 'type_id': 1}, {'name': '三宮', 'span': [57, 59], 'type_id': 6}]
[{'name': 'ビット王立', 'span': [15, 20], 'type_id': 2}, {'name': '蒸', 'span': [20, 21], 'type_id': 1}, {'name': '溜', 'span': [21, 22], 'type_id': 2}]
[{'name': 'ラリー', 'span': [29, 32], 'type_id': 6}]
[{'name': '永', 'span': [9, 10], 'type_id': 2}]
[]
[{'name': 'F・R・チェス', 'span': [0, 7], 'type_id': 1}]
[]
[{'name': '韓クラブ', 'span': [51, 55], 'type_id': 2}, {'name': '台', 'span': [156, 157], 'type_id': 2}, {'name': 'インターコンチネンタル', 'span': [158, 169], 'type_id': 2}]
[{'name': '藤田元司', 'span': [33, 37],


 93%|█████████▎| 992/1070 [00:12<00:00, 79.04it/s][A
 94%|█████████▎| 1001/1070 [00:12<00:00, 81.58it/s][A

[{'name': 'スタン・ハンセン', 'span': [0, 8], 'type_id': 1}, {'name': 'ブラックジャック・マリガン', 'span': [9, 22], 'type_id': 1}, {'name': '府立', 'span': [48, 50], 'type_id': 6}, {'name': 'ハンセン', 'span': [56, 60], 'type_id': 1}, {'name': '坂口&小林', 'span': [64, 69], 'type_id': 1}]
[]
[]
[{'name': '吉田茂', 'span': [20, 23], 'type_id': 1}]
[{'name': 'フレッド・ヘイニー新', 'span': [6, 16], 'type_id': 1}, {'name': 'コンリー', 'span': [19, 23], 'type_id': 1}]
[{'name': '楽高原', 'span': [19, 22], 'type_id': 2}]
[]
[{'name': '入間川砂利株式会社', 'span': [11, 20], 'type_id': 2}]
[{'name': '中央交通', 'span': [27, 31], 'type_id': 2}, {'name': 'ネオ', 'span': [37, 39], 'type_id': 2}]
[{'name': 'アレクサンドル・グリゴリエヴィチ・ストロガノフ', 'span': [8, 31], 'type_id': 1}, {'name': 'ニコライ・グリゴリエヴィチ', 'span': [32, 45], 'type_id': 1}, {'name': 'セルゲイ・グリゴリエヴィチ', 'span': [46, 59], 'type_id': 1}]
[{'name': '高パトロール', 'span': [2, 8], 'type_id': 2}, {'name': '首都高速道路', 'span': [14, 20], 'type_id': 2}, {'name': '首都高速道路', 'span': [31, 37], 'type_id': 2}]
[{'name': 'イエス', 'span': [9,


 94%|█████████▍| 1010/1070 [00:12<00:00, 81.07it/s][A
 95%|█████████▌| 1019/1070 [00:12<00:00, 82.21it/s][A

[{'name': '山田義三郎', 'span': [0, 5], 'type_id': 1}, {'name': '登米', 'span': [29, 31], 'type_id': 2}, {'name': '上', 'span': [32, 33], 'type_id': 1}, {'name': '根', 'span': [36, 37], 'type_id': 6}]
[]
[{'name': '板垣・後藤', 'span': [40, 45], 'type_id': 1}]
[]
[{'name': 'タワー', 'span': [33, 36], 'type_id': 2}]
[{'name': '京浜急行バス', 'span': [22, 28], 'type_id': 2}]
[{'name': '乃木坂', 'span': [0, 3], 'type_id': 2}]
[{'name': '人民党', 'span': [8, 11], 'type_id': 2}, {'name': '社会党', 'span': [12, 15], 'type_id': 2}]
[]
[]
[{'name': 'ップ', 'span': [24, 26], 'type_id': 2}]
[{'name': 'セレッソ大阪', 'span': [6, 12], 'type_id': 2}, {'name': '鳥栖フューチャーズ', 'span': [28, 37], 'type_id': 2}, {'name': 'サガン鳥栖', 'span': [50, 55], 'type_id': 2}]
[{'name': '国際連合', 'span': [13, 17], 'type_id': 2}, {'name': '北大西洋条約機構', 'span': [18, 26], 'type_id': 2}]
[{'name': '保', 'span': [0, 1], 'type_id': 1}, {'name': '光一', 'span': [2, 4], 'type_id': 1}, {'name': '葉', 'span': [11, 12], 'type_id': 1}]
[{'name': 'ラムセス2', 'span': [0, 5], 'type_id'


 96%|█████████▌| 1028/1070 [00:12<00:00, 82.31it/s][A
 97%|█████████▋| 1037/1070 [00:12<00:00, 81.88it/s][A

[{'name': 'トロント国際', 'span': [17, 23], 'type_id': 8}, {'name': 'エンターテインメント・ワン', 'span': [31, 44], 'type_id': 2}, {'name': 'マップ', 'span': [46, 49], 'type_id': 2}, {'name': '・', 'span': [49, 50], 'type_id': 1}, {'name': 'トゥ', 'span': [50, 52], 'type_id': 2}, {'name': '・', 'span': [52, 53], 'type_id': 1}, {'name': 'ザ', 'span': [53, 54], 'type_id': 2}, {'name': '・', 'span': [54, 55], 'type_id': 1}, {'name': 'スターズ', 'span': [55, 59], 'type_id': 7}]
[{'name': 'ミズ', 'span': [5, 7], 'type_id': 7}]
[{'name': '・アヤ', 'span': [15, 18], 'type_id': 2}, {'name': '・', 'span': [53, 54], 'type_id': 2}]
[{'name': 'マーベル', 'span': [17, 21], 'type_id': 2}, {'name': 'スタン・リー', 'span': [32, 38], 'type_id': 1}, {'name': 'カービー', 'span': [48, 52], 'type_id': 1}]
[{'name': '承', 'span': [1, 2], 'type_id': 1}, {'name': '賛', 'span': [5, 6], 'type_id': 1}]
[{'name': 'ノヴィ・サド', 'span': [34, 40], 'type_id': 1}]
[{'name': 'ノ口', 'span': [2, 4], 'type_id': 1}, {'name': '足柄上', 'span': [14, 17], 'type_id': 1}]
[{'name': '邑智', 


 98%|█████████▊| 1046/1070 [00:13<00:00, 80.89it/s][A
 99%|█████████▊| 1055/1070 [00:13<00:00, 78.60it/s][A

[{'name': '灘', 'span': [13, 14], 'type_id': 6}, {'name': '矢守克也ら', 'span': [27, 32], 'type_id': 1}]
[{'name': 'ライ', 'span': [5, 7], 'type_id': 2}, {'name': 'ボストン・セル', 'span': [22, 29], 'type_id': 2}, {'name': 'ティックス', 'span': [29, 34], 'type_id': 1}, {'name': 'ロサンゼルス', 'span': [56, 62], 'type_id': 2}, {'name': '・', 'span': [62, 63], 'type_id': 1}, {'name': 'レイカーズ', 'span': [63, 68], 'type_id': 2}, {'name': 'シカゴ・ブルズ', 'span': [75, 82], 'type_id': 2}, {'name': 'サンアントニオ・', 'span': [85, 93], 'type_id': 1}, {'name': 'スパー', 'span': [93, 96], 'type_id': 2}, {'name': 'ズ', 'span': [96, 97], 'type_id': 1}, {'name': 'デトロイト', 'span': [100, 105], 'type_id': 1}, {'name': '・', 'span': [105, 106], 'type_id': 2}, {'name': 'ピストン', 'span': [106, 110], 'type_id': 1}, {'name': 'ズ', 'span': [110, 111], 'type_id': 2}, {'name': 'ヒューストン', 'span': [114, 120], 'type_id': 2}, {'name': '・', 'span': [120, 121], 'type_id': 1}, {'name': 'ロケ', 'span': [121, 123], 'type_id': 2}, {'name': 'ッツ', 'span': [123, 125], 'type_


100%|██████████| 1070/1070 [00:13<00:00, 80.33it/s]

[{'name': 'ビンス・マクマホン・シニア', 'span': [21, 34], 'type_id': 1}, {'name': 'ゴリラ・モンスーン', 'span': [49, 58], 'type_id': 1}]
[]
[{'name': 'スーパー', 'span': [42, 46], 'type_id': 6}, {'name': '国', 'span': [52, 53], 'type_id': 2}]
[{'name': '浅田次郎', 'span': [7, 11], 'type_id': 1}]
[{'name': 'フォーク', 'span': [19, 23], 'type_id': 2}]
[{'name': 'フロント', 'span': [12, 16], 'type_id': 2}]
[{'name': '岡本', 'span': [10, 12], 'type_id': 2}, {'name': 'テン', 'span': [18, 20], 'type_id': 2}, {'name': 'ラクテンチ', 'span': [29, 34], 'type_id': 2}, {'name': 'ラクテンチ', 'span': [45, 50], 'type_id': 2}, {'name': '西石油', 'span': [69, 72], 'type_id': 2}]
[{'name': ':', 'span': [1, 2], 'type_id': 2}, {'name': 'ジェイコム北関東', 'span': [15, 23], 'type_id': 2}]
[{'name': 'フォン・デニケン', 'span': [0, 8], 'type_id': 1}]
[{'name': '島田夏枝', 'span': [14, 18], 'type_id': 1}, {'name': '蔵田照美', 'span': [19, 23], 'type_id': 1}]
[{'name': 'フォークス', 'span': [19, 24], 'type_id': 1}, {'name': 'クレーマー', 'span': [43, 48], 'type_id': 1}]
[{'name': 'マスター', 'span': [




In [48]:
print("# 正解")
print(entities_list[0])
print("# 抽出")
print(entities_predicted_list[0])

print(predict('伊藤家には、海外の収集品の他にも、ヤン・フレデリク・フェイルケによる富士山の墨絵「富嶽図」も残されている。', tokenizer, bert_tc))
print(predict('AさんはB大学に入学した。', tokenizer, bert_tc))

# 正解
[{'name': '李承晩政権', 'span': [0, 5], 'type_id': 3}, {'name': '朴正煕政権', 'span': [8, 13], 'type_id': 3}, {'name': '大韓民国', 'span': [28, 32], 'type_id': 5}, {'name': '朝鮮民主主義人民共和国', 'span': [38, 49], 'type_id': 5}]
# 抽出
[{'name': '李承晩', 'span': [0, 3], 'type_id': 1}, {'name': '朴正煕', 'span': [8, 11], 'type_id': 1}]
[{'name': '伊藤', 'span': [0, 2], 'type_id': 1}, {'name': 'ヤン・フレデリク・フェイルケ', 'span': [17, 31], 'type_id': 1}]
[{'name': '伊藤', 'span': [0, 2], 'type_id': 1}, {'name': 'ヤン・フレデリク・フェイルケ', 'span': [17, 31], 'type_id': 1}]
[]
[]


In [49]:
def evaluate_model(entities_list, entities_predicted_list, type_id=None):
    """
    正解と予測を比較し、モデルの固有表現抽出の性能を評価する。
    type_idがNoneのときは、全ての固有表現のタイプに対して評価する。
    type_idが整数を指定すると、その固有表現のタイプのIDに対して評価を行う。
    """
    num_entities = 0 # 固有表現(正解)の個数
    num_predictions = 0 # BERTにより予測された固有表現の個数
    num_correct = 0 # BERTにより予測のうち正解であった固有表現の数

    # それぞれの文章で予測と正解を比較。
    # 予測は文章中の位置とタイプIDが一致すれば正解とみなす。
    for entities, entities_predicted \
        in zip(entities_list, entities_predicted_list):

    # 関数の引数でtype_idを指定した場合には、それと一致する固有表現だけを評価する
        if type_id:
            entities = [ e for e in entities if e['type_id'] == type_id ]
            entities_predicted = [ 
                e for e in entities_predicted if e['type_id'] == type_id
            ]

        # 各entitiy e の初期位置と最終位置、type_idの組みを求める  
        get_span_type = lambda e: (e['span'][0], e['span'][1], e['type_id'])
        set_entities = set( get_span_type(e) for e in entities )
        set_entities_predicted = \
            set( get_span_type(e) for e in entities_predicted )

        num_entities += len(entities)
        num_predictions += len(entities_predicted)
        num_correct += len( set_entities & set_entities_predicted )

    # 指標を計算
    precision = num_correct/num_predictions # 適合率
    recall = num_correct/num_entities # 再現率
    f_value = 2*precision*recall/(precision+recall) # F値

    result = {
        'num_entities': num_entities,
        'num_predictions': num_predictions,
        'num_correct': num_correct,
        'precision': precision,
        'recall': recall,
        'f_value': f_value
    }

    return result


In [50]:
print( evaluate_model(entities_list, entities_predicted_list) )

{'num_entities': 2612, 'num_predictions': 2023, 'num_correct': 531, 'precision': 0.2624814631735047, 'recall': 0.20329249617151607, 'f_value': 0.229126213592233}
