In [1]:
%load_ext autoreload

In [2]:
%autoreload

In [3]:
import sys

In [4]:
from pathlib import Path
from kyoto_reader import KyotoReader
import json

In [5]:
import sys; sys.path.append('../src')
from data_loader.dataset.pas_dataset import PASDataset
import data_loader.dataset as module_dataset
from utils.parse_config import ConfigParser
from utils import read_json

In [6]:
# Tokenizer
from tokenizer import (
    BertTokenizeHandler,
    BartSPMTokenizeHandler,
    BiBartTokenizeHandler,
    T5TokenizeHandler,
    MBartTokenizerHandler,
    TokenizeHandlerMeta
)
MODEL2TOKENIZER = {
    'bert': BertTokenizeHandler,
    'bart': BartSPMTokenizeHandler,
    't5': T5TokenizeHandler,
    'mbart': MBartTokenizerHandler,
    'bibart': BiBartTokenizeHandler
}

In [7]:
CONFIG_PATH = "../config/BaselineBiBartModel-wn-8e-bibart-cz-vpa-npa-cr.json"
with open(CONFIG_PATH) as f:
    config = json.load(f)

In [8]:
print(config)

{'name': 'BaselineBiBartModel-wn-8e-bibart-cz-vpa-npa-cr', 'n_gpu': 8, 'arch': {'type': 'BaselineBiBartModel', 'args': {'pretrained_path': '/mnt/hinoki/umakoshi/ja_en_bart/huggingface_weights/v1', 'vocab_size': 64010, 'dropout': 0.0, 'num_case': 4, 'coreference': True}}, 'train_datasets': {'kwdlc': {'type': 'PASDataset', 'args': {'path': '/mnt/elm/umakoshi/transformers_pas_analysis/data/bibart_kwdlc_kc/kwdlc/train', 'cases': ['ガ', 'ヲ', 'ニ', 'ガ２'], 'exophors': ['著者', '読者', '不特定:人', '不特定:物'], 'coreference': True, 'bridging': False, 'max_seq_length': 170, 'model_name': 'bibart', 'pretrained_path': '/mnt/hinoki/umakoshi/ja_en_bart/huggingface_weights/v1', 'training': True, 'kc': False, 'train_targets': ['case', 'zero'], 'pas_targets': ['pred', 'noun']}}, 'kc': {'type': 'PASDataset', 'args': {'path': '/mnt/elm/umakoshi/transformers_pas_analysis/data/bibart_kwdlc_kc/kc_split/train', 'cases': ['ガ', 'ヲ', 'ニ', 'ガ２'], 'exophors': ['著者', '読者', '不特定:人', '不特定:物'], 'coreference': True, 'bridging': F

In [9]:
print(config["train_datasets"]["kwdlc"]["args"])

{'path': '/mnt/elm/umakoshi/transformers_pas_analysis/data/bibart_kwdlc_kc/kwdlc/train', 'cases': ['ガ', 'ヲ', 'ニ', 'ガ２'], 'exophors': ['著者', '読者', '不特定:人', '不特定:物'], 'coreference': True, 'bridging': False, 'max_seq_length': 170, 'model_name': 'bibart', 'pretrained_path': '/mnt/hinoki/umakoshi/ja_en_bart/huggingface_weights/v1', 'training': True, 'kc': False, 'train_targets': ['case', 'zero'], 'pas_targets': ['pred', 'noun']}


In [10]:
model_name = config["train_datasets"]["kwdlc"]["args"]["model_name"]
pretrained_path = config["train_datasets"]["kwdlc"]["args"]["pretrained_path"]
tokenizer_cls = MODEL2TOKENIZER[model_name]
tokenizer = tokenizer_cls.from_pretrained(pretrained_path, do_lower_case=False,
                                                       tokenize_chinese_chars=False)

In [11]:
reader = KyotoReader(Path(config["train_datasets"]["kc"]["args"]["path"]), extract_nes=False)

In [12]:
documents = reader.process_all_documents()

In [17]:
def tokenize_document(document, tokenizer):
    words = []
    for sentence in document:
        for bp in sentence.bps:
            for mrph in bp.mrph_list():
                words.append(mrph.midasi)
    before_joint_tokenized = [token for word in words for token in tokenizer.tokenize(word)]
    after_joint_tokenied = [token for token in tokenizer.tokenize(" ".join(words))]
    return words, before_joint_tokenized, after_joint_tokenied

In [22]:
SPM_SPECIAL_TOKEN = "▁"

def _count_special_token(words):
    """Count SPM_SPECIAL_TOKEN in words.
    """
    count = 0
    for word in words:
        if SPM_SPECIAL_TOKEN in word:
            count += 1
    return count

In [23]:
for document in documents:
    words, before, after = tokenize_document(document, tokenizer)
    if before != after:
        print("before != after")
        print(before)
        print(after)
        print()
    if _count_special_token(before) != len(words):
        print("count_special_token != len(words)", _count_special_token(before), len(words))
        print(before)
        print(words)
        print()

before != after
['▁うす', '▁の', '▁形', '▁は', '▁日本', '▁と', '▁同じ', '▁', '。', '▁', 'き', 'ね', '▁の', '▁形', '▁は', '▁月', '▁で', '▁ウサギ', '▁が', '▁使', 'って', '▁いる', '▁アノ', '▁', '長', 'い', '▁ヤツ', '▁だ', '▁', '。', '▁つく', '▁の', '▁は', '▁男', '▁の', '▁仕事', '▁', '。', '▁酒', '▁の', '▁回り', '▁も', '▁早く', '▁なる', '▁', '。', '▁夜', '▁も', '▁白', '々', 'と', '▁明け', 'る', '▁ころ', '▁、', '▁', '酔い', 'つ', 'ぶ', 'れた', '▁青年', '▁を', '▁母', '▁と', '▁', '妹', '▁が', '▁家', '▁に', '▁運ぶ', '▁', '。', '▁「', '▁もう', '▁一', '▁杯', '▁', '」', '▁「', '▁', 'て', 'や', 'んで', 'え', '▁', '」', '▁と', '▁', '気', '勢', '▁を', '▁上げ', 'て', '▁、', '▁飲み', '▁続け', 'る', '▁猛', '者', '▁も', '▁いる', '▁', '。', '▁国', '境', '▁', '貿易', '▁で', '▁暮ら', 'す', '▁小さ', 'な', '▁', '村', '▁', '。', '▁出', '稼', 'ぎ', '▁の', '▁若', 'い', '▁', '衆', '▁も', '▁', '都会', '▁から', '▁', '戻り', '▁、', '▁酒', '▁酒', '▁酒', '▁', '.', '.....', '▁で', '▁新', '年', '▁は', '▁始ま', 'る', '▁', '。']
['▁うす', '▁の', '▁形', '▁は', '▁日本', '▁と', '▁同じ', '▁', '。', '▁', 'き', 'ね', '▁の', '▁形', '▁は', '▁月', '▁で', '▁ウサギ', '▁が', '▁使', 'って', '▁いる', '▁アノ', '▁',

before != after
['▁「', '▁農', '業', '▁が', '▁でき', '▁なく', '▁なる', '▁ので', '▁は', '▁', '」', '▁と', '▁出', '稼', 'ぎ', '▁を', '▁', '加', '速', '▁さ', '▁せ', 'る', '▁', '。', '▁三', '▁世帯', '▁十二', '▁人', '▁の', '▁大', '▁家族', '▁の', '▁コー', 'イ', '▁さん', '▁', '宅', '▁で', '▁は', '▁、', '▁父', '▁と', '▁', '夫', '▁が', '▁台湾', '▁に', '▁', '。', '▁月', '▁二', '万', '▁', 'バーツ', '▁の', '▁', '仕', '送', 'り', '▁が', '▁届', 'く', '▁', '。', '▁出', '稼', 'ぎ', '▁世帯', '▁の', '▁大', '半', '▁は', '▁、', '▁テレビ', '▁や', '▁バイ', 'ク', '▁を', '▁買', 'う', '▁が', '▁、', '▁', '夫', '▁の', '▁', '手', '紙', '▁に', '▁は', '▁「', '▁仕事', '▁が', '▁', 'きつい', '▁', '。', '▁帰り', '▁たい', '▁', '」', '▁の', '▁文字', '▁', '。', '▁「', '▁野良', '▁仕事', '▁も', '▁', '力', '▁仕事', '▁も', '▁', '女', '▁だけ', '▁で', '▁は', '▁滞', 'る', '▁', '.', '.....', '▁', '。', '▁時代', '▁の', '▁流れ', '▁か', '▁', '」', '▁と', '▁ナイ', 'フェー', '▁', '村', '長', '▁', '。']
['▁「', '▁農', '業', '▁が', '▁でき', '▁なく', '▁なる', '▁ので', '▁は', '▁', '」', '▁と', '▁出', '稼', 'ぎ', '▁を', '▁', '加', '速', '▁さ', '▁せ', 'る', '▁', '。', '▁三', '▁世帯', '▁十二', '▁人', '▁の', '▁大', '▁

before != after
['▁変', '化', '▁の', '▁ない', '▁「', '▁男', '性', '▁', '」', '▁に', '▁', '愛想', 'づか', 'し', '▁...', '▁女性', '▁と', '▁共', '有', '▁', 'できる', '▁', '服', '▁へ', '▁「', '▁これ', 'ほど', '▁集ま', 'る', '▁と', '▁は', '▁', '.', '.....', '▁', '」', '▁', '。', '▁昨', '年', '▁十一', '▁月', '▁、', '▁東京', '▁・', '▁原', '宿', '▁で', '▁最終', '▁選', '考', '▁会', '▁の', '▁行', 'わ', '▁れた', '▁第', '▁七', '▁回', '▁「', '▁', 'ジュノ', 'ン', '▁・', '▁スーパー', '▁ボーイ', '▁コンテ', 'スト', '▁', '」', '▁', '。', '▁女性', '▁', '誌', '▁「', '▁', 'ジュノ', 'ン', '▁', '」', '▁が', '▁主', '催', '▁して', '▁「', '▁美', '男', '▁No', '▁', '1', '▁', '」', '▁を', '▁選', 'ぶ', '▁“', '▁逆', '▁ミス', 'コン', '▁”', '▁', '。', '▁', '関係', '▁者', '▁を', '▁驚', 'か', '▁せた', '▁の', '▁は', '▁、', '▁前', '回', '▁', 'まで', '▁二', '▁、', '▁三千', '▁人', '▁', '台', '▁だった', '▁', '応', '募', '▁者', '▁が', '▁、', '▁五千', '四', '百', '五', '十七', '▁人', '▁へ', '▁', 'ほぼ', '▁倍', '増', '▁した', '▁こと', '▁だった', '▁', '。']
['▁変', '化', '▁の', '▁ない', '▁「', '▁男', '性', '▁', '」', '▁に', '▁', '愛想', 'づか', 'し', '▁...', '▁女性', '▁と', '▁共', '有', '▁', 'できる', '▁', 

before != after
['▁不安', '▁', '点', '▁は', '▁、', '▁出', '足', '▁を', '▁止め', '▁られ', 'る', '▁と', '▁', '足', '▁が', '▁そろ', 'い', '▁が', 'ちな', '▁こと', '▁で', '▁、', '▁突き', '▁押し', '▁も', '▁腰', '▁が', '▁', '入', 'ら', '▁ず', '▁', '威力', '▁を', '▁失', 'う', '▁', '。', '▁けいこ', '▁でも', '▁', '曙', '▁や', '▁武蔵', '丸', '▁など', '▁、', '▁出', '足', '▁を', '▁受け止め', 'る', '▁', '力', '▁の', '▁ある', '▁', '力士', '▁が', '▁相手', '▁に', '▁なる', '▁と', '▁、', '▁この', '▁欠', '点', '▁が', '▁たび', 'たび', '▁顔', '▁を', '▁出', 'す', '▁', '。', '▁', '師', '匠', '▁の', '▁武蔵', '川', '▁', '親', '方', '▁も', '▁「', '▁', '足', '▁が', '▁止ま', 'る', '▁と', '▁、', '▁もう', '▁いけな', 'い', '▁', '。', '▁', '気', '▁を', '▁つけ', 'ろ', '▁と', '▁', '言って', '▁いる', '▁が', '▁', '.', '.....', '▁', '」', '▁と', '▁心配', 'げ', '▁', '。']
['▁不安', '▁', '点', '▁は', '▁、', '▁出', '足', '▁を', '▁止め', '▁られ', 'る', '▁と', '▁', '足', '▁が', '▁そろ', 'い', '▁が', 'ちな', '▁こと', '▁で', '▁、', '▁突き', '▁押し', '▁も', '▁腰', '▁が', '▁', '入', 'ら', '▁ず', '▁', '威力', '▁を', '▁失', 'う', '▁', '。', '▁けいこ', '▁でも', '▁', '曙', '▁や', '▁武蔵', '丸', '▁など', '▁、', '▁出', '足'

before != after
['▁と', 'ころが', '▁、', '▁この', '▁', '病院', '▁で', '▁通', '常', '▁、', '▁二', '▁人', '▁部', '屋', '▁を', '▁一', '▁人', '▁で', '▁使用', '▁する', '▁', '場', '合', '▁の', '▁', '料', '金', '▁は', '▁五千', '▁円', '▁で', '▁、', '▁一', '▁日', '▁一万', '▁円', '▁の', '▁「', '▁充', '電', '▁', '料', '▁', '」', '▁を', '▁計', '上', '▁して', '▁いた', '▁こと', '▁に', '▁なる', '▁', '。', '▁取', '材', '▁に', '▁対し', '▁、', '▁同', '▁', '病院', '▁の', '▁', '事務', '▁', '長', '▁は', '▁「', '▁', '携', '帯', '▁電', '話', '▁の', '▁こと', '▁は', '▁記', '録', '▁に', '▁なく', '▁、', '▁九', '▁月', '▁に', '▁辞', '任', '▁した', '▁前', '任', '▁者', '▁が', '▁管理', '▁して', '▁いた', '▁ので', '▁分か', 'ら', '▁ない', '▁が', '▁、', '▁特別', 'な', '▁介護', '▁の', '▁必要な', '▁病', '気', '▁で', '▁は', '▁ない', '▁し', '▁', '.', '.....', '▁', '。', '▁なぜ', '▁こんな', 'に', '▁多額', 'の', '▁', '室', '料', '▁差', '額', '▁に', '▁なった', '▁の', '▁か', '▁分か', 'ら', '▁ない', '▁', '」', '▁と', '▁困', '惑', '▁、', '▁', '調査', '▁し', '▁たい', '▁と', '▁して', '▁いる', '▁', '。']
['▁と', 'ころが', '▁、', '▁この', '▁', '病院', '▁で', '▁通', '常', '▁、', '▁二', '▁人', '▁部', '屋', '▁を', '▁一', '▁人

before != after
['▁今日', '▁の', '▁医学', '▁の', '▁進歩', '▁は', '▁人', '類', '▁に', '▁多く', '▁の', '▁メリッ', 'ト', '▁を', '▁もたらし', 'て', '▁いる', '▁', '。', '▁戦', '後', '▁、', '▁', '乳', '幼', '児', '▁の', '▁失', '明', '▁が', '▁激', '減', '▁した', '▁こと', '▁も', '▁、', '▁その', '▁一', '▁つ', '▁の', '▁現れ', '▁と', '▁言え', 'る', '▁だろう', '▁', '。', '▁この', '▁事', '実', '▁は', '▁確か', 'に', '▁喜ば', 'しい', '▁こと', '▁である', '▁', '。', '▁先', '日', '▁、', '▁ある', '▁テレビ', '▁', '番組', '▁に', '▁接し', 'て', '▁、', '▁私', '▁は', '▁深刻', 'に', '▁考え', '▁込', 'んで', '▁しまった', '▁', '。', '▁', '番組', '▁は', '▁「', '▁胎', '児', '▁診', '断', '▁', '」', '▁に', '▁ついて', '▁報じ', 'て', '▁いた', '▁', '。', '▁妊', '娠', '▁早', '期', '▁に', '▁受', '診', '▁して', '▁胎', '児', '▁の', '▁', '状態', '▁を', '▁探', 'る', '▁の', 'である', '▁', '。', '▁高', '齢', '▁出', '産', '▁の', '▁増', '加', '▁に', '▁伴', 'い', '▁、', '▁受', '診', '▁率', '▁も', '▁年', '▁ごと', '▁に', '▁伸び', 'て', '▁いる', '▁と', '▁か', '▁', '.', '.....', '▁', '。']
['▁今日', '▁の', '▁医学', '▁の', '▁進歩', '▁は', '▁人', '類', '▁に', '▁多く', '▁の', '▁メリッ', 'ト', '▁を', '▁もたらし', 'て', '▁いる', '▁', '。', 

before != after
['▁「', '▁', '見', 'ろ', '▁よ', '▁', '。', '▁この', '▁', '季', '節', '▁、', '▁', '都会', '▁に', '▁は', '▁エサ', '▁が', '▁ない', '▁', 'んだ', '▁', '」', '▁と', '▁私', '▁', '。', '▁だが', '▁、', '▁連れ', '合い', '▁は', '▁無', '情', 'に', '▁も', '▁、', '▁だって', '▁、', '▁と', '▁', '言って', '▁', '納', '得', '▁し', '▁ない', '▁', '。', '▁聞', 'く', '▁と', '▁、', '▁その', '▁', '理', '由', '▁は', '▁こんな', '▁こと', '▁', '。', '▁エサ', '▁を', '▁求めて', '▁そこ', 'ら', '▁中', '▁から', '▁鳥', '▁たち', '▁が', '▁集ま', 'り', '▁、', '▁順', '番', '▁待ち', '▁を', '▁して', '▁、', '▁その', '▁あげ', 'く', '▁、', '▁', '物', '干し', '▁の', '▁洗', '濯', '物', '▁など', '▁に', '▁見事', 'な', '▁排', 'せつ', '▁', '物', '▁を', '▁まき', '▁散ら', 'す', '▁など', '▁乱暴', '▁狼', '藉', '▁を', '▁', '働', 'く', '▁のだ', '▁と', '▁いう', '▁', '。', '▁「', '▁もっと', '▁広', 'け', 'れば', '▁', 'ね', '▁、', '▁私', '▁だって', '▁', '.', '.....', '▁', '」', '▁と', '▁、', '▁甲斐', '▁性', '▁なし', '▁の', '▁私', '▁を', '▁恨', 'む', '▁ような', '▁', '口', 'ぶり', '▁である', '▁', '。']
['▁「', '▁', '見', 'ろ', '▁よ', '▁', '。', '▁この', '▁', '季', '節', '▁、', '▁', '都会', '▁に', '▁は', '▁エサ', '▁が', 

before != after
['▁ここ', '▁数', '▁年', '▁展', '開', '▁さ', '▁れて', '▁きた', '▁同', '▁', '社', '▁の', '▁経', '営', '▁戦', '略', '▁', '効果', '▁は', '▁大きかった', '▁', '。', '▁アメリカン', '▁、', '▁コンチネンタル', '▁と', '▁いった', '▁大手', '▁航空', '▁会', '社', '▁が', '▁第', '▁二', '▁ブランド', '▁の', '▁', '子', '会', '社', '▁を', '▁作り', '▁、', '▁サウス', 'ウエスト', '▁方', '式', '▁を', '▁採', '用', '▁した', '▁', '。', '▁アメリカン', '▁・', '▁イーグル', '▁は', '▁その', '▁一', '▁つ', '▁', '。', '▁昨', '年', '▁大', '▁事', '故', '▁を', '▁起こした', '▁が', '▁、', '▁近', '々', '▁運', '航', '▁を', '▁再', '開', '▁する', '▁', '。', '▁過剰な', '▁サービ', 'ス', '▁は', '▁要', 'ら', '▁ない', '▁', '。', '▁それ', '▁より', '▁運', '賃', '▁を', '▁安く', '▁', '—', '—', '▁と', '▁いう', '▁の', '▁が', '▁利用', '▁者', '▁の', '▁', '願', 'い', '▁', 'な', '▁の', 'だろう', '▁', '。', '▁', '料', '金', '▁が', '▁自由', '▁化', '▁さ', '▁れて', '▁', 'い', '▁ない', '▁日本', '▁で', '▁は', '▁、', '▁', '願', 'う', '▁ほう', '▁が', '▁無理な', '▁の', '▁か', '▁', '.', '.....', '▁', '。']
['▁ここ', '▁数', '▁年', '▁展', '開', '▁さ', '▁れて', '▁きた', '▁同', '▁', '社', '▁の', '▁経', '営', '▁戦', '略', '▁', '効果', '▁は', '▁大

before != after
['▁沖縄', '▁県', '▁名', '護', '▁市', '▁で', '▁昨', '年', '▁十二', '▁月', '▁十八', '▁日', '▁から', '▁', '行方', '▁不明', 'に', '▁なっ', 'て', '▁いた', '▁上', '間', '▁一', '明', '▁君', '▁と', '▁', '妹', '▁の', '▁愛', '梨', '▁ちゃん', '▁、', '▁', 'い', 'とこ', '▁の', '▁知', '念', '▁', '彩', '▁ちゃん', '▁の', '▁三', '▁人', '▁は', '▁七', '▁日', '▁、', '▁遺', '体', '▁で', '▁見つかった', '▁', '。', '▁', '行方', '▁が', '▁分か', 'ら', '▁なく', '▁なっ', 'て', '▁から', '▁', '丸', '▁二十', '▁日間', '▁', '。', '▁PTA', '▁を', '▁はじめ', '▁', '地域', '▁ぐる', 'み', '▁で', '▁懸命', 'な', '▁捜索', '▁を', '▁続け', 'て', '▁きた', '▁が', '▁、', '▁幼', '子', '▁たち', '▁は', '▁自', '宅', '▁の', '▁すぐ', '▁近く', '▁に', '▁止め', 'て', '▁あった', '▁トラック', '▁の', '▁タンク', '▁の', '▁中', '▁で', '▁、', '▁折り', '重', 'な', 'って', '▁死', 'んで', '▁いた', '▁', '。', '▁「', '▁まさか', '▁、', '▁こんな', '▁近く', '▁に', '▁', '.', '.....', '▁', '」', '▁', '。', '▁悲', '報', '▁に', '▁住', '民', '▁', 'ら', '▁は', '▁が', 'っくり', '▁肩', '▁を', '▁落とし', '▁、', '▁声', '▁を', '▁詰ま', 'ら', '▁せた', '▁', '。']
['▁沖縄', '▁県', '▁名', '護', '▁市', '▁で', '▁昨', '年', '▁十二', '▁月', '▁十八', '▁日', '▁

before != after
['▁', '室', '▁内', '▁犬', '▁を', '▁飼い', '▁だした', '▁小', '▁', '2', '▁の', '▁孫', '娘', '▁、', '▁犬', '▁が', '▁食', '卓', '▁に', '▁', '足', '▁を', '▁かけ', 'る', '▁と', '▁食', '卓', '▁を', '▁たたき', '▁「', '▁ダメ', '▁', '」', '▁', '。', '▁「', '▁厳し', 'い', '▁', 'ネ', '▁', '」', '▁と', '▁', '言う', '▁と', '▁、', '▁「', '▁しつけ', '▁は', '▁バシ', 'ッ', '▁と', '▁やら', '▁なく', 'ちゃ', '▁', '」', '▁', '。', '▁両親', '▁が', '▁共', '働き', '▁で', '▁、', '▁孫', '娘', '▁を', '▁育てた', '▁の', '▁は', '▁大', '甘', '▁の', '▁私', '▁たち', '▁', 'な', '▁の', 'に', '▁', '.', '.....', '▁', '。']
['▁', '室', '▁内', '▁犬', '▁を', '▁飼い', '▁だした', '▁小', '▁', '2', '▁の', '▁孫', '娘', '▁、', '▁犬', '▁が', '▁食', '卓', '▁に', '▁', '足', '▁を', '▁かけ', 'る', '▁と', '▁食', '卓', '▁を', '▁たたき', '▁「', '▁ダメ', '▁', '」', '▁', '。', '▁「', '▁厳し', 'い', '▁', 'ネ', '▁', '」', '▁と', '▁', '言う', '▁と', '▁、', '▁「', '▁しつけ', '▁は', '▁バシ', 'ッ', '▁と', '▁やら', '▁なく', 'ちゃ', '▁', '」', '▁', '。', '▁両親', '▁が', '▁共', '働き', '▁で', '▁、', '▁孫', '娘', '▁を', '▁育てた', '▁の', '▁は', '▁大', '甘', '▁の', '▁私', '▁たち', '▁', 'な', '▁の', 'に', '▁', '.

before != after
['▁店', '長', '▁の', '▁荻野', '▁三', '美', '▁さん', '▁は', '▁「', '▁', '帽子', '▁と', '▁いう', '▁と', '▁デザイナー', '▁もの', '▁が', '▁', '中心', '▁で', '▁、', '▁価', '格', '▁の', '▁', '面', '▁でも', '▁買い', '▁に', 'く', '▁さ', '▁が', '▁あった', '▁', '。', '▁もっと', '▁気軽', 'に', '▁楽しめ', 'る', '▁ような', '▁', '品', 'ぞろ', 'え', '▁を', '▁し', '▁、', '▁価', '格', '▁も', '▁2000', '▁円', '▁代', '▁の', '▁', '手', 'ごろ', 'な', '▁もの', '▁も', '▁多い', '▁', '」', '▁と', '▁PR', '▁', '。', '▁今', '年', '▁の', '▁売れ', '▁', '筋', '▁は', '▁、', '▁耳', '▁あて', '▁付き', '▁の', '▁', '帽子', '▁と', '▁いう', '▁', '。', '▁15', '▁年', '▁ぐら', 'い', '▁前', '▁に', '▁流行', '▁した', '▁レシーバ', 'ー', '▁の', '▁形', '▁を', '▁した', '▁耳', '▁あて', '▁も', '▁今', '▁冬', '▁、', '▁流行', '▁の', '▁', '兆', 'し', '▁と', '▁か', '▁', '。', '▁魚', '▁の', '▁形', '▁を', '▁した', '▁もの', '▁や', '▁角', '▁が', '▁生えた', '▁もの', '▁、', '▁', '髪', '▁の', '▁', '毛', '▁の', '▁ような', '▁編み', '▁込み', '▁が', '▁何', '▁本', '▁も', '▁付いて', '▁いた', 'り', '▁', '.', '.....', '▁', '。']
['▁店', '長', '▁の', '▁荻野', '▁三', '美', '▁さん', '▁は', '▁「', '▁', '帽子', '▁と', '▁いう', '▁と', '

before != after
['▁フラメン', 'コ', '▁の', '▁巨', '匠', '▁が', '▁舞', '台', '▁に', '▁生き返', 'った', '▁', '。', '▁年', '▁末', '▁に', '▁イタリア', '▁で', '▁初', '演', '▁を', '▁迎えた', '▁新', '作', '▁「', '▁アンダル', 'シア', '▁の', '▁嵐', '▁', '」', '▁を', '▁引っ提げ', 'て', '▁、', '▁アントニオ', '▁・', '▁', 'ガ', 'デス', '▁舞踊', '▁', '団', '▁が', '▁四', '▁年', '▁ぶり', '▁に', '▁', '来', '▁日', '▁、', '▁十七', '▁日', '▁から', '▁全国', '▁公', '演', '▁する', '▁', '。', '▁四', '▁年', '▁前', '▁の', '▁東京', '▁で', '▁“', '▁ダンサー', '▁と', '▁して', '▁これ', '▁が', '▁最後', '▁”', '▁と', '▁引', '退', '▁公', '演', '▁を', '▁行った', '▁', '。', '▁「', '▁カルメ', 'ン', '▁', '」', '▁「', '▁血', '▁の', '▁', '婚', '礼', '▁', '」', '▁など', '▁映画', '▁と', '▁舞', '台', '▁で', '▁見せた', '▁濃密', 'な', '▁', '情', '熱', '▁空', '間', '▁', '。', '▁その', '▁', '演', '出', '▁者', '▁であり', '▁', '演', '技', '▁者', '▁で', '▁も', '▁あった', '▁', 'ガ', 'デス', '▁の', '▁、', '▁', '粋', 'で', '▁シャープ', 'で', '▁しなやか', 'な', '▁姿', '▁が', '▁もう', '▁', '見', '▁られ', '▁ない', '▁', '.', '.....', '▁', '。']
['▁フラメン', 'コ', '▁の', '▁巨', '匠', '▁が', '▁舞', '台', '▁に', '▁生き返', 'った', '▁', '。', '▁年

before != after
['▁東芝', '▁が', '▁12', '▁月', '▁', '1', '▁日', '▁の', '▁「', '▁映画', '▁の', '▁日', '▁', '」', '▁に', '▁ちな', 'んで', '▁、', '▁東京', '▁や', '▁大阪', '▁の', '▁20', '▁歳', '▁以', '上', '▁の', '▁主', '婦', '▁400', '▁人', '▁を', '▁対', '象', '▁に', '▁、', '▁好き', 'な', '▁映画', '▁や', '▁思い出', '▁の', '▁映画', '▁に', '▁ついて', '▁の', '▁', '意識', '▁と', '▁実', '態', '▁を', '▁', '調査', '▁した', '▁', '。', '▁その', '▁', '結果', '▁、', '▁', '7', '▁割', '▁の', '▁主', '婦', '▁が', '▁映画', '▁好き', '▁で', '▁、', '▁特', 'に', '▁20', '▁代', '▁、', '▁30', '▁代', '▁と', '▁高く', '▁なっ', 'て', '▁おり', '▁、', '▁若', 'い', '▁ほど', '▁映画', '▁好き', '▁', '.', '.....', '▁と', '▁いう', '▁傾', '向', '▁が', '▁表れた', '▁', '。', '▁「', '▁', '邦', '画', '▁', '」', '▁24', '▁', '%', '▁、', '▁「', '▁', '洋', '画', '▁', '」', '▁が', '▁43', '▁', '%', '▁で', '▁、', '▁', '洋', '画', '▁ファン', '▁の', '▁ほう', '▁が', '▁多数', '▁を', '▁占め', 'て', '▁いる', '▁', '。']
['▁東芝', '▁が', '▁12', '▁月', '▁', '1', '▁日', '▁の', '▁「', '▁映画', '▁の', '▁日', '▁', '」', '▁に', '▁ちな', 'んで', '▁、', '▁東京', '▁や', '▁大阪', '▁の', '▁20', '▁歳', '▁以', '上', '▁の',

before != after
['▁ココ', 'ア', '▁お', '▁みやげ', '▁交通', '▁', '費', '▁13,', '170', '▁円', '▁夕', '食', '▁交通', '▁', '費', '▁290', '▁円', '▁交通', '▁', '費', '▁150', '▁円', '▁馬券', '▁交通', '▁', '費', '▁320', '▁円', '▁新', '年', '▁会', '▁年', '賀', '▁状', '▁', '病院', '▁代', '▁=', '▁「', '▁鵜', 'の', '木', '▁診', '療', '▁所', '▁', '」', '▁300', '▁円', '▁食事', '▁は', '▁寮', '母', '▁さん', '▁に', '▁作', 'って', '▁も', 'らう', '▁', '》', '▁銭湯', '▁=', '▁', '沼', '部', '▁「', '▁花', '▁の', '▁湯', '▁', '」', '▁350', '▁円', '▁', '6', '▁日', '▁から', '▁', '3', '▁日間', '▁で', '▁', '体', '重', '▁が', '▁', '3', 'キロ', '▁減った', '▁', '》', '▁11', '▁月', '▁に', '▁香', '港', '▁で', '▁買い', '物', '▁を', '▁した', '▁引き落と', 'し', '▁が', '▁ある', '▁ため', '▁、', '▁今', '週', '▁は', '▁あまり', '▁使', 'わ', '▁ない', '▁ように', '▁した', '▁けれど', '▁', '.', '.....', '▁', '。']
['▁ココ', 'ア', '▁お', '▁みやげ', '▁交通', '▁', '費', '▁13,', '170', '▁円', '▁夕', '食', '▁交通', '▁', '費', '▁290', '▁円', '▁交通', '▁', '費', '▁150', '▁円', '▁馬券', '▁交通', '▁', '費', '▁320', '▁円', '▁新', '年', '▁会', '▁年', '賀', '▁状', '▁', '病院', '▁代', '▁=', '▁「', '▁鵜',

before != after
['▁四', '▁半', '▁世紀', '▁を', '▁客', '船', '▁乗組', '員', '▁と', '▁して', '▁過ごし', '▁、', '▁世界', '▁六十', '▁', 'カ', '国', '▁、', '▁二百', '▁余り', '▁の', '▁', '港', '▁に', '▁寄', '港', '▁した', '▁', '現役', '▁の', '▁', 'チーフ', 'パー', 'サー', '▁が', '▁、', '▁推', '理', '▁', '小説', '▁の', '▁本', '▁を', '▁出した', '▁', '。', '▁商', '船', '▁三井', '▁客', '船', '▁の', '▁森岡', '▁', '邦彦', '▁さん', '▁で', '▁、', '▁本', '▁の', '▁名', '▁は', '▁「', '▁', '航', '跡', '▁の', '▁果て', '▁に', '▁', '」', '▁', '。', '▁五十', '▁年', '▁ぶり', '▁に', '▁マレーシア', '▁から', '▁', '里帰', 'り', '▁した', '▁元', '▁日本', '▁兵', '▁が', '▁', '殺', 'さ', '▁れ', 'る', '▁', '。', '▁', '事件', '▁は', '▁連続', '▁', '殺', '人', '▁に', '▁発', '展', '▁', '。', '▁登', '場', '▁人', '物', '▁それ', 'ぞれ', '▁の', '▁戦前', '▁、', '▁戦', '後', '▁の', '▁重', 'い', '▁人生', '▁模様', '▁が', '▁描', 'き', '▁出', 'さ', '▁れ', '▁、', '▁犯', '人', '▁', '像', '▁が', '▁絞', 'ら', '▁れて', '▁いく', '▁', '.', '.....', '▁', '。']
['▁四', '▁半', '▁世紀', '▁を', '▁客', '船', '▁乗組', '員', '▁と', '▁して', '▁過ごし', '▁、', '▁世界', '▁六十', '▁', 'カ', '国', '▁、', '▁二百', '▁余り', '▁の', '▁', '港', '

before != after
['▁「', '▁もう', '▁少し', '▁続け', 'る', '▁と', '▁、', '▁放', '送', '▁', '界', '▁の', '▁話', '題', '▁だけ', '▁で', '▁は', '▁済ま', '▁なく', 'て', '▁、', '▁放', '送', '▁から', '▁見た', '▁', '政治', '▁、', '▁経済', '▁、', '▁社会', '▁現', '象', '▁を', '▁とらえ', 'る', '▁総合', '▁雑', '誌', '▁に', '▁なら', '▁ざる', '▁を', '▁得', '▁ない', '▁と', '▁思い', '▁ます', '▁', 'ね', '▁', '」', '▁と', '▁も', '▁', '言う', '▁', '。', '▁「', '▁川口', '▁さん', '▁に', '▁', '『', '▁放', '送', '▁の', '▁文芸', '▁春秋', '▁を', '▁作り', '▁ます', '▁よ', '▁', '』', '▁と', '▁言った', 'ら', '▁喜', 'んで', '▁下さ', 'った', '▁', '。', '▁“', '▁文芸', '▁”', '▁春秋', '▁が', '▁', '政治', '▁や', '▁経済', '▁の', '▁記', '事', '▁を', '▁載せ', 'る', '▁の', '▁を', '▁読', '者', '▁が', '▁不思議', 'に', '▁思わ', '▁ない', '▁なら', '▁“', '▁放', '送', '▁”', '▁', '文化', '▁が', '▁放', '送', '▁以外', '▁の', '▁こと', '▁を', '▁書い', 'て', '▁も', '▁別', 'に', '▁おかし', 'く', '▁ない', '▁わけで', 'しょう', '▁', '。', '▁まだ', '▁先', '▁の', '▁話', '▁です', '▁が', '▁', '.', '.....', '▁', '」']
['▁「', '▁もう', '▁少し', '▁続け', 'る', '▁と', '▁、', '▁放', '送', '▁', '界', '▁の', '▁話', '題', '▁だけ', '▁で', '▁は', '▁済ま

before != after
['▁今', '後', '▁、', '▁大', '▁事', '故', '▁に', '▁つなが', 'る', '▁恐れ', '▁も', '▁ある', '▁こと', '▁から', '▁、', '▁公', '団', '▁は', '▁この', '▁日', '▁、', '▁現', '場', '▁に', '▁監', '視', '▁カメラ', '▁を', '▁新', '設', '▁する', '▁など', '▁', '対策', '▁を', '▁始めた', '▁が', '▁、', '▁公', '団', '▁から', '▁水', '蒸気', '▁の', '▁飛', '散', '▁防', '止', '▁を', '▁要', '望', '▁さ', '▁れた', '▁', '工場', '▁側', '▁は', '▁「', '▁四十', '▁年', '▁以', '上', '▁も', '▁前', '▁から', '▁操', '業', '▁して', '▁おり', '▁、', '▁いま', 'さら', '▁移', '転', '▁も', '▁でき', '▁ない', '▁し', '▁', '.', '.....', '▁', '」', '▁と', '▁', '頭', '▁を', '▁抱え', 'て', '▁いる', '▁', '。']
['▁今', '後', '▁、', '▁大', '▁事', '故', '▁に', '▁つなが', 'る', '▁恐れ', '▁も', '▁ある', '▁こと', '▁から', '▁、', '▁公', '団', '▁は', '▁この', '▁日', '▁、', '▁現', '場', '▁に', '▁監', '視', '▁カメラ', '▁を', '▁新', '設', '▁する', '▁など', '▁', '対策', '▁を', '▁始めた', '▁が', '▁、', '▁公', '団', '▁から', '▁水', '蒸気', '▁の', '▁飛', '散', '▁防', '止', '▁を', '▁要', '望', '▁さ', '▁れた', '▁', '工場', '▁側', '▁は', '▁「', '▁四十', '▁年', '▁以', '上', '▁も', '▁前', '▁から', '▁操', '業', '▁して', '▁おり', '▁、', '▁いま

before != after
['▁しかし', '▁、', '▁', '高校', '▁に', '▁', '入', 'って', '▁から', '▁の', '▁時間', '▁は', '▁瞬く', '間', 'に', '▁流れ', '▁、', '▁', '気', '▁が', '▁つけ', 'ば', '▁その', '▁二十', '▁歳', '▁', '。', '▁年', '々', '▁、', '▁時', '▁が', '▁早く', '▁過ぎ', 'て', '▁いく', '▁ような', '▁', '気', '▁が', '▁する', '▁', '。', '▁そんな', '▁時', '▁の', '▁流れ', '▁に', '▁ついて', '▁いけ', '▁ない', '▁の', '▁か', '▁、', '▁今', '▁、', '▁自分', '▁を', '▁見つめ', 'る', '▁と', '▁年', '齢', '▁相応', 'の', '▁', '自覚', '▁を', '▁持て', '▁ず', '▁に', '▁いる', '▁の', '▁が', '▁、', '▁よく', '▁わかる', '▁', '。', '▁こんな', '▁こと', '▁を', '▁', '言う', '▁と', '▁、', '▁ここ', '▁数', '▁年', '▁言わ', '▁れて', '▁いる', '▁「', '▁三十', '▁歳', '▁', '成', '人', '▁説', '▁', '」', '▁や', '▁「', '▁', '成', '人', '▁', '式', '▁七五', '三', '▁', '」', '▁の', '▁ように', '▁、', '▁自', '立', '▁でき', 'て', '▁', 'い', '▁ない', '▁若', '者', '▁と', '▁たたか', '▁れ', '▁そうだ', '▁が', '▁', '.', '.....', '▁', '。']
['▁しかし', '▁、', '▁', '高校', '▁に', '▁', '入', 'って', '▁から', '▁の', '▁時間', '▁は', '▁瞬く', '間', 'に', '▁流れ', '▁、', '▁', '気', '▁が', '▁つけ', 'ば', '▁その', '▁二十', '▁歳', '▁', '。', '▁年', '々', 

before != after
['▁現', '在', '▁の', '▁社会', '党', '▁は', '▁自民', '党', '▁と', '▁の', '▁', '握', '手', '▁に', '▁よる', '▁村山', '▁富', '市', '▁首', '相', '▁の', '▁誕生', '▁', '以来', '▁、', '▁', '党', '▁内', '▁が', '▁', 'ギス', 'ギス', '▁して', '▁いた', '▁が', '▁、', '▁昨', '年', '▁末', '▁以', '降', '▁の', '▁早', '期', '▁新', '党', '▁結', '成', '▁派', '▁と', '▁、', '▁そう', '▁で', '▁ない', '▁グループ', '▁と', '▁の', '▁対', '立', '▁が', '▁鮮明', 'に', '▁なった', '▁', '。', '▁村山', '▁首', '相', '▁は', '▁、', '▁それ', '▁', 'まで', '▁の', '▁社会', '党', '▁の', '▁方', '針', '▁を', '▁「', '▁時代', '▁の', '▁変', '化', '▁に', '▁応じ', 'て', '▁', '.', '.....', '▁', '」', '▁と', '▁いう', '▁ような', '▁名', '▁の', '▁', '下', '▁に', '▁次', '々', '▁と', '▁放', '棄', '▁して', '▁、', '▁社会', '党', '▁', '委員', '▁', '長', '▁が', '▁首', '相', '▁を', '▁務め', 'て', '▁', 'いて', '▁も', '▁、', '▁実', '態', '▁は', '▁自民', '党', '▁と', '▁', '変わら', '▁ない', '▁形', '▁で', '▁連', '立', '▁政権', '▁を', '▁担', '当', '▁して', '▁いる', '▁の', '▁が', '▁実', '情', '▁である', '▁', '。']
['▁現', '在', '▁の', '▁社会', '党', '▁は', '▁自民', '党', '▁と', '▁の', '▁', '握', '手', '▁に', '▁よる', '▁村山', '

before != after
['▁寝', '室', '▁は', '▁', '布', '団', '▁を', '▁二', '▁つ', '▁敷', 'く', '▁だけ', '▁の', '▁スペース', '▁と', '▁', '布', '団', '▁を', '▁入れ', 'る', '▁クロ', 'ゼット', '▁と', '▁いう', '▁最小', '▁限', '▁に', '▁し', '▁、', '▁あと', '▁は', '▁', 'キ', 'チン', '▁と', '▁も', '▁続いた', '▁リビング', '▁一', '▁部', '屋', '▁に', '▁改', '築', '▁した', '▁', '。', '▁壁', '▁に', '▁沿', 'って', '▁奥行', 'き', '▁六十', '▁センチ', '▁の', '▁クロ', 'ゼット', '▁を', '▁', '造', 'り', '▁付け', '▁、', '▁衣', '類', '▁から', '▁本', '▁', 'まで', '▁を', '▁収', '納', '▁した', '▁', '。', '▁真ん', '中', '▁に', '▁は', '▁ガラス', '▁テーブル', '▁が', '▁リビング', '▁の', '▁“', '▁顔', '▁”', '▁と', '▁して', '▁、', '▁食事', '▁に', '▁も', '▁仕事', '▁に', '▁も', '▁', '.', '.....', '▁と', '▁、', '▁多目的', 'に', '▁活', '用', '▁さ', '▁れて', '▁いる', '▁', '。']
['▁寝', '室', '▁は', '▁', '布', '団', '▁を', '▁二', '▁つ', '▁敷', 'く', '▁だけ', '▁の', '▁スペース', '▁と', '▁', '布', '団', '▁を', '▁入れ', 'る', '▁クロ', 'ゼット', '▁と', '▁いう', '▁最小', '▁限', '▁に', '▁し', '▁、', '▁あと', '▁は', '▁', 'キ', 'チン', '▁と', '▁も', '▁続いた', '▁リビング', '▁一', '▁部', '屋', '▁に', '▁改', '築', '▁した', '▁', '。', '▁壁', '▁

before != after
['▁高田', '▁氏', '▁は', '▁幅広', 'い', '▁支', '援', '▁を', '▁得', 'る', '▁ため', '▁、', '▁八', '▁月', '▁半', 'ば', '▁に', '▁連', '合', '▁滋', '賀', '▁の', '▁東郷', '▁栄', '司', '▁会', '長', '▁に', '▁相', '談', '▁した', '▁', '。', '▁連', '合', '▁滋', '賀', '▁が', '▁推', 'す', '▁前', '▁民主', '▁改', '革', '▁連', '合', '▁', '代表', '▁の', '▁中村', '▁鋭', '一', '▁参', '院', '▁議', '員', '▁は', '▁', '衆', '院', '▁くら', '替え', '▁の', '▁意', '向', '▁', '。', '▁連', '合', '▁滋', '賀', '▁は', '▁参', '院', '▁の', '▁議', '席', '▁を', '▁死', '守', '▁する', '▁ため', '▁、', '▁高田', '▁氏', '▁に', '▁「', '▁連', '合', '▁公', '認', '▁候', '補', '▁なら', '▁支', '援', '▁する', '▁', '」', '▁と', '▁の', '▁条', '件', '▁で', '▁十', '▁月', '▁末', '▁に', '▁擁', '立', '▁を', '▁決めた', '▁', '。', '▁そこ', '▁で', '▁自民', '党', '▁県', '連', '▁は', '▁', '党', '▁本部', '▁から', '▁「', '▁連', '合', '▁と', '▁組', 'む', '▁なんて', '▁', '.', '.....', '▁', '」', '▁と', '▁も', '▁言わ', '▁れた', '▁と', '▁いう', '▁', '。']
['▁高田', '▁氏', '▁は', '▁幅広', 'い', '▁支', '援', '▁を', '▁得', 'る', '▁ため', '▁、', '▁八', '▁月', '▁半', 'ば', '▁に', '▁連', '合', '▁滋', '賀', '▁の', '▁東郷', '▁