In [1]:
import os
import openpyxl

In [2]:
path_list = []

for curDir, dirs, files in os.walk("新聞"):
    #         print('=='*20)
    #         print('現在のフォルダ: ' + curDir)
    #         print('内包するフォルダ: ', end='')
    #         print(dirs)
    #         print('内包するファイル: ', end='')
    #         print(files)
    path = curDir + '\\'
    for file in files:
        path += file
        #             print('ファイルパス: ' + path)
        path_list.append(path)
        path = curDir + '\\'

In [3]:
headlines = []  # 格納用辞書

wb1 = openpyxl.load_workbook(path_list[0])
sheet = wb1['シート1']
# [社名、年、月、名前、見出し、ベクトル]
headlines = [(row[0].value, row[1].value, row[2].value, row[3].value, row[4].value) for row in sheet.rows]

wb2 = openpyxl.load_workbook(path_list[1])
sheet = wb2['シート1']
headlines2 = [(row[0].value, row[1].value, row[2].value, row[3].value, row[4].value) for row in sheet.rows]

In [4]:
headlines += headlines2

# 分かち書き

In [5]:
import MeCab as mc
import mojimoji
m = mc.Tagger("-Ochasen")

In [6]:
def mecab_tokenizer(text: str):
    """
    テキストを分かち書きするメソッド
    :param text: 分割したいテキスト
    :return: 分割後のテキスト
    """

    node = m.parseToNode(text)
    word_list = list()
    while node:
        if node.surface != "":
            res = node.feature.split(",")
            word_type = res[0]
            if word_type in ['名詞', "動詞", "形容詞", "副詞"]:  # 名詞, 動詞, 形容詞, 副詞のみを抽出
                basic_word = res[6]
                if basic_word != "*":
                    word_list.append(basic_word)
                else:
                    word_list.append('[UNK]')  # 未知語の場合は[UNK]トークンに置き換え
        node = node.next
        if node is None:
            break
    return word_list

In [7]:
from gensim.models import KeyedVectors

In [8]:
def clean_text(text: str):
    """
    テキストの正規化
    :param text: 正規化するテキスト
    :return: 正規化後のテキスト
    """
    text = mojimoji.han_to_zen(text, digit=False, ascii=False)  # 半角文字を全角文字に統一(数字, 英語以外)
    text = mojimoji.zen_to_han(text, kana=False)  # 全角文字を半角文字に統一(かな以外)
    text = text.lower()  # 小文字に統一
    return text

# ベクトル化

In [9]:
import numpy as np

In [10]:
file_name = "jawiki.all_vectors.200d-002.txt"

model = KeyedVectors.load_word2vec_format(file_name)

In [11]:
def vectorize_word(text: str):
    """
    元word_analysis()
    ベクトル化を行うメソッド
    :param text: ベクトル化するテキスト
    :return: ベクトル化したテキスト(array型)
    """

    text = clean_text(text)

    V = list()  # 文章のベクトル(200次元)を格納

    # 文章の対して, 文章中の単語のベクトルの平均を求める処理を行う
    word_list = mecab_tokenizer(text)
    v = np.array([0.0] * 200)
    word_num = 0
    for word in word_list:
        try:
            v += np.array(model[word])
        except KeyError as error:
            continue
        except ValueError as verror:
            continue
        word_num += 1

    try:
        v = v / word_num
    except ZeroDivisionError as e:
        print(f'ZeroDivisionError: {e}')

    return v

def cos_sim(v1, v2):
    """
    cos類似度を計算
    :param v1: word2vecによりベクトル化したテキスト1(ndarray型)
    :param v2: word2vecによりベクトル化したテキスト2(ndarray型)
    :return: 二つのテキストのcos類似度
    """
    return np.dot(v1, v2) / (np.linalg.norm(v1) * np.linalg.norm(v2))

In [12]:
def get_news_dict(filename: str):
    """
    エクセルから見出しのタイトル(識別番号？)とテキストを取り出しベクトル化して辞書として返す
    :param filename: excelファイル名
    :return: ひと月分の辞書<br>
    一つの要素に{(会社名、年、月、名前):(見出し, ベクトル)} -> の形で返す
    """
    wb = openpyxl.load_workbook(filename)
    sheet = wb['シート1']
    dict = {}  # 格納用辞書
    for row in sheet.rows:

        if row[4].value is not None:
            vector = vectorize_word(row[4].value)  # 見出しをベクトル化
            dict[(row[0].value, row[1].value, row[2].value, row[3].value)] = (row[4].value, vector)  # (会社名、年、月、名前)と(見出し、ベクトル)の組

    return dict

In [44]:
all_newspapers = [get_news_dict(path) for path in path_list]

headline_list = [(name[0], name[1], name[2], name[3], headline[0], headline[1]) for news in all_newspapers \
                for name, headline in news.items()]

del all_newspapers



In [14]:
def get_all_similarity(headline_list, speech_text: str):
    """
    全ての見出しと発言の類似度分析を行い, 類似度で降順にソートして返す
    :param headline_list: 見出しをまとめたリスト<br> ひとつの要素に(ファイルパス, 番号, (見出し, ベクトル)) -> の形で格納している
    :param speech_text: 発言
    :return: 類似度で降順にソートしたリスト [((会社名, 出版年, 出版付き, 番号, 見出し), 類似度)] -> この形になっている
    """
    # speech_text = '物価下がらなかったのね'
    speech_v = vectorize_word(speech_text)  # 発言をベクトル化

    similarity_dic = {}

    for company, year, month, day, headline, vector in headline_list:
        cs = cos_sim(speech_v, vector)  # 発言と見出しテキストのcos類似度を計算

        if cs >= 0.75:  # cos類似度が閾値以上であれば提示する見出しリストに加える
            similarity_dic[(company, year, month, day, headline)] = cs

    return sorted(similarity_dic.items(), key=lambda x: x[1], reverse=True)

# Wordnetを利用
参考サイト: https://qiita.com/pocket_kyoto/items/f2382b9821d32624e6bc<br>
https://github.com/EmulsionBondo/jwordnet/blob/master/SearchUpperConceptWords.py

In [15]:
import sqlite3
import sys
conn = sqlite3.connect("wnjpn.db")

In [16]:
# 上位-下位の関係にある概念の抽出
hierarchy_dict = {}  # key:上位語(String), value:下位語(List of String)
n_term_set = set()  # 下位語に含まれる単語集合

In [17]:
class node:
    def __init__(self, name, children=None):
        self.name = name  # String
        self.children = children  # List of Class node

    # 結果表示用
    def display(self, indent = 0):
        if self.children != None:
            print(' '*indent + self.name)
            for c in self.children:
                c.display(indent+1)
        else:
            print(' '*indent + self.name)

In [18]:
def search_upper_concept_words(word, hierarchy_dict):
    """
    特定の単語を入力とした時に、上位語を検索する関数
    :param word: 検索する単語
    :param hierarchy_dict: 上位語
    :return : すべての上位語を返す
    """
    cur = conn.execute(f"select wordid from word where lemma='{word}'")
    word_id = 99999999  #temp
    for row in cur:
        word_id = row[0]
    
    if word_id == 99999999: # Wordnetに存在する語であるかの判定
        print(f'「{word}」は存在しない単語です。')
    else:
        print(f'「{word}」の上位概念を出力します。')
    
    # 入力された単語を含む概念を検索
    cur = conn.execute(f"select synset from sense where wordid='{word_id}'")
    synsets = []
    for row in cur:
        synsets.append(row[0])
    
    hypernyms = []
    for synset in synsets:
        # 上位語を取得する対象のsynsetを表示
        print(f'------------------{synset_name_dict[synset]}---------------------')
        hypernyms.append(synset_name_dict[synset])
        
        #現在のsynsetの上位語をすべて取得するため，tmp_synsetに代入
        tmp_synset=synset
        # synsetの上位語を最上位まで列挙 -> 上1つの概念のみにする
        while(tmp_synset in hierarchy_dict.values()):
            # エラーが発生=最上位を取得したら終了
            try:
                print(synset_name_dict[hierarchy_dict[tmp_synset]])
                hypernyms.append(synset_name_dict[hierarchy_dict[tmp_synset]])
                tmp_synset = hierarchy_dict[tmp_synset]
                break
            except:
                break
    
    return hypernyms

In [19]:
# 下位-上位の関係にある概念の抽出
cur = conn.execute("select synset1,synset2 from synlink where link='hypo'")

In [20]:
for row in cur:
    b_term = row[0] # 下位概念のID
    n_term = row[1] # 上位概念のID
    
    if n_term not in hierarchy_dict:
        hierarchy_dict[n_term] = b_term

In [21]:
# synset(概念)のIDから、概念の名称に変換する辞書の作成
synset_name_dict = {}  # key:synsetのID, value:synsetの名称
cur = conn.execute("select synset,name from synset")

In [22]:
for row in cur:
    synset_name_dict[row[0]] = row[1]

In [23]:
search_upper_concept_words('猫', hierarchy_dict)

「猫」の上位概念を出力します。
------------------true_cat---------------------
feline


['true_cat', 'feline']

In [24]:
# 上で提示された見出しの中からクリックしたと想定
sample_text = '愛知県の危険は大分県でも...'

tokens = mecab_tokenizer(sample_text)

In [25]:
# 重複排除
tokens = list(set(tokens))

In [26]:
tokens

['[UNK]', '県', '愛知', '大分', '危険']

## Google翻訳APIのエラー対処
以下のサイトを参考<br>
最新のアルファ版を使うと安定<br>
https://qiita.com/_yushuu/items/83c51e29771530646659<br>
pip install googletrans==4.0.0-rc1

In [27]:
from googletrans import Translator

In [28]:
translator = Translator()

In [29]:
translated = translator.translate('prefecture', src='en', dest='ja')
print(translated.text)

県


In [30]:
token_list = []
for token in tokens:
    hypernyms = search_upper_concept_words(token, hierarchy_dict)
    
    # 翻訳
    for hypernym in hypernyms:
        print(f'翻訳前: {hypernym}')
        translated = translator.translate(hypernym, src='en', dest='ja')
        print(f'翻訳後: {translated.text}')
        token_list.append(translated.text)

「[UNK]」は存在しない単語です。
「県」の上位概念を出力します。
------------------prefecture---------------------
翻訳前: prefecture
翻訳後: 県
「愛知」は存在しない単語です。
「大分」の上位概念を出力します。
------------------considerably---------------------
------------------much---------------------
------------------a_lot---------------------
翻訳前: considerably
翻訳後: consider
翻訳前: much
翻訳後: 多くの
翻訳前: a_lot
翻訳後: 多くの
「危険」の上位概念を出力します。
------------------parlous---------------------
------------------risky---------------------
------------------severe---------------------
------------------bad---------------------
------------------unsafe---------------------
翻訳前: parlous
翻訳後: par par
翻訳前: risky
翻訳後: リスキーな
翻訳前: severe
翻訳後: ひどい
翻訳前: bad
翻訳後: 悪い
翻訳前: unsafe
翻訳後: 危険な


In [31]:
token_list

['県', 'consider', '多くの', '多くの', 'par par', 'リスキーな', 'ひどい', '悪い', '危険な']

In [32]:
token_list = ','.join(token_list)

In [33]:
similarity_headlines = get_all_similarity(headline_list, token_list)

In [34]:
similarity_headlines

[(('大分合同新聞', '1966年', '9月', '13-a-1_02', '特にひどい中、'), 0.8717839873097029),
 (('大分合同新聞',
   '1960年',
   '4月',
   '26-y-1_02',
   '|肺ジストマ\nと間違えられやすく、そのため の出が少なくない。まだ全県的に'),
  0.8608060145002486),
 (('豊州新報', '1938年', '6月', '23-a-8_03', '入梅中は特に 疲労がひどい\n恢復には何が良いか'),
  0.8595951747733489),
 (('大分新聞', '1941年', '10月', '14-y-3_07', '悪い齒並び\n馬鹿に出來ぬ影響'),
  0.8567515849865073),
 (('豊州新報',
   '1938年',
   '1月',
   '24-a-7_03',
   'こり早\n煙。落ちたとの噂\n品切れが多いのは何故か 認識不足だと專賣局が難解\nBOOOOOOOOoooood'),
  0.8545327537002515),
 (('大分合同新聞', '1967年', '3月', '17-a-11_06', 'に時 国間 難的\n難こわい甘い診断 とても責任もてぬ'),
  0.8528478137664636),
 (('豊州新報', '1933年', '10月', '30-a-8_04', '大多勢の人が 悩むのは疣痔 燃り易いが放任は危険」'),
  0.8510280852928934),
 (('大分新聞',
   '1927年',
   '10月',
   '29-a-8_05',
   '鼻が悪くなると 頭悪くなる。 殊に子供は影響が多い 感骨の節は注意が大切'),
  0.8499047345647598),
 (('大分新聞',
   '1937年',
   '4月',
   '11-y-3_02',
   '著しく違ふ 家庭に不良見が多い\n何が彼らを罪に導いたか\nきも、いいwwwwww\nww.m'),
  0.8491878166320749),
 (('大分合同新聞', '1958年', '7月', '22-a-1_03', '千害いよいよ深刻一\n特にひどい宇佐地方'),


In [35]:
tokens

['[UNK]', '県', '愛知', '大分', '危険']

In [38]:
# 元見出しの情報も付属
test_token = token_list + tokens

In [39]:
test_token

[' ',
 '県',
 '険',
 'd',
 'ひ',
 'い',
 'i',
 'r',
 'e',
 'c',
 's',
 'の',
 '悪',
 'o',
 ',',
 'ス',
 'n',
 'キ',
 'く',
 'な',
 '多',
 'a',
 '危',
 'ー',
 'p',
 'リ',
 'ど',
 '[UNK]',
 '県',
 '愛知',
 '大分',
 '危険']

In [40]:
test_token = ','.join(test_token)

In [41]:
similarity_headlines = get_all_similarity(headline_list, test_token)

In [42]:
similarity_headlines

[(('大分合同新聞',
   '1963年',
   '3月',
   '2-a-3_04',
   '| 大分県花いはいいのに」\nINPHILIPHOTO\nイーテン himitenanminominilliniinalithml'),
  0.8792851999134232),
 (('大分新聞', '1929年', '4月', '3-a-5_02', 'ゆっく\n九州ことも大會\n熊本市公會堂に於て\nImPm110.0'),
  0.8757048847230666),
 (('大分合同新聞', '1965年', '2月', '19-y-2_04', '愛知県の危険は大分県でも...'),
  0.8690249998787918),
 (('大分新聞', '1929年', '11月', '10-a-6_08', '大分市商工會 名殘リの慰安 だんく大きくなる\n熊本旅行の計畫'),
  0.8649795304918174),
 (('大分合同新聞',
   '1963年',
   '3月',
   '12-a-3_01',
   '10 31 1 1 1 1 1 1 1 1 :\n大分県花い?はい却のために、'),
  0.8606583122307354),
 (('大分合同新聞', '1954年', '5月', '31-y-3_13', 'Ama\n一福岡県宝く'), 0.8604512031007482),
 (('大分合同新聞', '1964年', '9月', '13-a-11_01', '大分県をく オリンピク聖火'),
  0.8599534387573002),
 (('大分新聞', '1921年', '5月', '4-a-4_11', '四月中大分地方に 於ける氣象\nーーーーーーっ'),
  0.8592239110880395),
 (('大分新聞', '1930年', '1月', '9-a-10_05', '電燈の話其他\n[+1] 大分県) 高橋里雄 収の主にっき'),
  0.8587376760877905),
 (('大分合同新聞', '1962年', '9月', '4-y-1_07', 'えあすか\n大分県を豊かに\nごあそことした社で'),
  0.8577986773428018),
 (('大分合同新聞',
 

In [43]:
len(similarity_headlines)

32940

In [55]:
for headline in headline_list:
    if set(headline[0:4]) >= {'讀賣新聞', '1955年', '9月', '8-a-11_01'}:
        test_headline = headline

In [54]:
test_headline

('讀賣新聞',
 '1955年',
 '9月',
 '8-a-11_01',
 '元車',
 array([ 5.82932681e-02, -1.25366002e-01,  1.94774017e-01,  4.60723378e-02,
        -3.29830766e-01,  2.39170298e-01, -3.49281244e-02,  4.50305678e-02,
         4.27705720e-02, -2.32168704e-01, -3.02361727e-01, -9.48714688e-02,
         6.51425570e-02, -1.82688326e-01, -8.99896920e-02, -5.85266650e-01,
        -2.45910570e-01,  9.15666893e-02,  6.26206771e-02,  2.74578720e-01,
        -2.63575226e-01,  3.99821132e-01, -2.99379706e-01, -1.61987230e-01,
        -1.45060822e-01, -6.56654656e-01,  2.54434884e-01, -6.90159053e-02,
        -7.98550621e-02, -1.10399984e-02,  9.14959013e-02, -3.44862610e-01,
        -5.46442091e-01,  6.65732147e-03,  3.78916383e-01, -4.47889082e-02,
        -2.20513687e-01,  5.70679307e-01, -1.68658361e-01, -2.92553335e-01,
        -2.15150014e-01, -5.16990870e-02, -3.35281819e-01, -1.32691771e-01,
         4.10611928e-01, -6.11036383e-02,  1.60542101e-01, -3.70880142e-02,
         1.69658005e-01,  4.01997030e-01,

In [56]:
test_str = test_headline[4]

In [59]:
tokens = mecab_tokenizer(test_str)
# 重複排除
tokens = list(set(tokens))

token_list = []
for token in tokens: 
    # 一つずつwordnetで検索
    hypernyms = search_upper_concept_words(token, hierarchy_dict)
    
    # 翻訳
    for hypernym in hypernyms:
        print(f'翻訳前: {hypernym}')
        translated = translator.translate(hypernym, src='en', dest='ja')
        print(f'翻訳後: {translated.text}')
        token_list.append(translated.text)

token_list += tokens
test_word = ','.join(token_list)

「車」の上位概念を出力します。
------------------wheeled_vehicle---------------------
vehicle
------------------wheel---------------------
simple_machine
------------------auto---------------------
motor_vehicle
------------------vehicle---------------------
conveyance
翻訳前: wheeled_vehicle
翻訳後: 車輪付き_vehicle
翻訳前: vehicle
翻訳後: 車両
翻訳前: wheel
翻訳後: 車輪
翻訳前: simple_machine
翻訳後: simple_machine.
翻訳前: auto
翻訳後: オート
翻訳前: motor_vehicle
翻訳後: 自動車
翻訳前: vehicle
翻訳後: 車両
翻訳前: conveyance
翻訳後: con con


In [60]:
test_word

'車輪付き_vehicle,車両,車輪,simple_machine.,オート,自動車,車両,con con,車'

In [61]:
similarity_headlines = get_all_similarity(headline_list, test_word)

In [62]:
similarity_headlines

[(('大分新聞', '1932年', '1月', '16-y-2_12', '荷馬車—自動 車—列車'), 0.877523746761533),
 (('大分新聞', '1939年', '11月', '19-y-3_07', '自動車の新動力 蓄電池車の出現'),
  0.8671073549218962),
 (('大分新聞', '1935年', '5月', '22-y-2_05', '自動車から 轉落慘死\n車輪の下'),
  0.8660305358010885),
 (('大分合同新聞', '1953年', '8月', '27-y-2_13', '車用車・機関車に激突\nしゃ断機を突き破って'),
  0.8579520645960603),
 (('大分合同新聞', '1957年', '7月', '16-a-2_03', '車両、自動車に希望'), 0.8453730530206314),
 (('豊州新報', '1934年', '12月', '27-a-7_13', '自動三輪車 荷馬車に衝突\n挑子は応を行。'),
  0.8447885000579326),
 (('大分新聞', '1938年', '10月', '23-a-3_07', '自動車と 車乗り衝突'), 0.8389231053578138),
 (('大分合同新聞', '1954年', '6月', '23-a-3_09', '乗用車、三輪 車に追突'), 0.8382666101495453),
 (('大分新聞', '1935年', '10月', '27-y-2_07', '自動車と自轉 車衝突'), 0.8368118923169455),
 (('豊州新報', '1928年', '10月', '23-a-7_12', '自動車車車に 疑起きの男'), 0.8336167962028593),
 (('大分新聞', '1930年', '12月', '27-a-2_09', '自動車と自轉 車の術突'), 0.832888361265768),
 (('大分新聞', '1930年', '8月', '24-a-6_15', '三重衝突 自働車と電車 と荷馬車とか'),
  0.8327751205070367),
 (('大分合同新聞', '1966年', '10月', '3-a-

In [64]:
len(similarity_headlines)

375

### 見出し同士の類似度結果
元のOCRから間違ってるから比較の意味なさそう<br>
大元: 見出し内容類似csv\A\1955年\9月\A=1955年=9月=8-a-11_01.csv<br>

A/1955年/9月/8-a-11_01,1.0,元車<br>
o/1943年/10月/9-a-2_05,1.0,發旺1元化+3+ 47<br>
o/1961年/9月/8-a-3_10,1.0,小厂是因<br>
o/1961年/4月/7-y-2_07,1.0,. 03-45元~<br>
o/1967年/2月/22-a-3_08,1.0,元外りの<br>
o/1967年/10月/11-a-9_08,1.0,因素 fire<br>
o/1967年/8月/6-a-7_04,1.0,元林者g<br>
o/1967年/8月/3-a-7_02,1.0,元令林志<br>
o/1953年/11月/4-a-4_05,1.0,元a<br>
o/1948年/8月/21-a-1_09,1.0,もとも<br>
o/1942年/6月/29-a-2_07,1.0,爸也因<br>
o/1956年/2月/13-a-4_07,1.0,照 x 因 长安sr8shufhl<br>
o/1962年/5月/11-a-2_04,1.0,bあれだけ元ょうからの<br>
o/1962年/10月/24-y-2_03,1.0,因書館拜見<br>
o/1963年/9月/27-a-4_02,1.0,生元<br>
o/1964年/3月/25-y-3_08,1.0,[h-exens 因突袭spfreed<br>
o/1952年/2月/4-a-2_10,1.0,反因鏡<br>
o/1952年/12月/8-a-2_01,1.0,*元-pe<br>
o/1952年/12月/13-y-1-1_11,1.0,尼崎士 元茂田井n<br>
x/1930年/4月/13-a-10_16,1.0,計阳叫| | 元<br>
x/1939年/8月/28-a-4_03,1.0,www su uso因颱唱<br>
p/1919年/5月/13-a-4_05,1.0,"因"""<br>
p/1932年/8月/6-y-3_05,1.0,因|內科小兒科<br>
p/1931年/8月/12-a-8_01,1.0,元傑<br>
p/1929年/3月/3-a-3_08,1.0,フオツシュ元<br>
p/1929年/11月/24-y-3_05,1.0,おもと展覽會<br>
p/1934年/6月/7-y-3_03,1.0,e\元<br>
p/1922年/2月/1-a-7_10,1.0,102宮島へ ジョッフル元<br>
p/1922年/1月/5-y-2_03,1.0,因册<br>
p/1938年/3月/2-a-2_04,1.0,因为需元<br>

In [65]:
for headline in headline_list:
    if set(headline[0:4]) >= {'讀賣新聞', '1955年', '9月', '8-a-11_02'}:
        test_headline = headline

In [66]:
test_headline

('讀賣新聞',
 '1955年',
 '9月',
 '8-a-11_02',
 'ソ連抑留者名簿',
 array([ 0.41599766, -0.33961379,  0.15314519, -0.21331764,  0.25894038,
        -0.24124235, -0.0175286 ,  0.0532202 , -0.30192136,  0.27104525,
         0.05985785, -0.11078069,  0.09790987,  0.32083301,  0.0757434 ,
        -0.10705281, -0.0780601 , -0.2834535 , -0.08687095,  0.11544671,
         0.35126362,  0.0693748 , -0.63885439,  0.13867838,  0.04431589,
        -0.17378585, -0.09988134, -0.09405458, -0.07506366,  0.01590529,
         0.31965057, -0.08126768,  0.15730576, -0.21333658, -0.06052885,
        -0.0652153 , -0.31562387,  0.32758674, -0.05731456, -0.00748911,
        -0.04354211,  0.31786297,  0.0116277 , -0.24849286, -0.06074846,
        -0.23561607,  0.08803654,  0.1065002 , -0.13341413, -0.19479263,
        -0.39001895, -0.02562214, -0.16225516, -0.06136502, -0.06759639,
        -0.31555016,  0.14527797, -0.00627535, -0.11820826,  0.14883262,
        -0.00231458,  0.00742935,  0.1682236 ,  0.01750192,  0.16391709,

In [67]:
tokens = mecab_tokenizer(test_headline[4])
# 重複排除
tokens = list(set(tokens))

token_list = []
for token in tokens: 
    # 一つずつwordnetで検索
    hypernyms = search_upper_concept_words(token, hierarchy_dict)
    
    # 翻訳
    for hypernym in hypernyms:
        print(f'翻訳前: {hypernym}')
        translated = translator.translate(hypernym, src='en', dest='ja')
        print(f'翻訳後: {translated.text}')
        token_list.append(translated.text)

token_list += tokens
test_word = ','.join(token_list)

「ソ連」は存在しない単語です。
「者」の上位概念を出力します。
------------------person---------------------
grammatical_category
------------------person---------------------
翻訳前: person
翻訳後: 人
翻訳前: grammatical_category
翻訳後: 文法カテゴリー
翻訳前: person
翻訳後: 人
「抑留」の上位概念を出力します。
------------------detain---------------------
------------------hold---------------------
disable
翻訳前: detain
翻訳後: 守る
翻訳前: hold
翻訳後: 所有
翻訳前: disable
翻訳後: 無効にする
「名簿」の上位概念を出力します。
------------------register---------------------
record
------------------listing---------------------
database
------------------roll---------------------
listing
------------------registry---------------------
written_record
翻訳前: register
翻訳後: 登録
翻訳前: record
翻訳後: 記録
翻訳前: listing
翻訳後: 一覧
翻訳前: database
翻訳後: データベース
翻訳前: roll
翻訳後: ロール
翻訳前: listing
翻訳後: 一覧
翻訳前: registry
翻訳後: 登録
翻訳前: written_record
翻訳後: breat_record.


In [68]:
test_word

'人,文法カテゴリー,人,守る,所有,無効にする,登録,記録,一覧,データベース,ロール,一覧,登録,breat_record.,ソ連,者,抑留,名簿'

In [69]:
similarity_headlines = get_all_similarity(headline_list, test_word)

In [70]:
similarity_headlines

[(('大分合同新聞', '1955年', '8月', '31-y-1_01', '抑留者名簿数日中に手す'), 0.8457108775059611),
 (('大分新聞',
   '1931年',
   '7月',
   '30-a-8_02',
   '淋菌と共に 無効賞薬の征服 博士學者が證明した以上の 日本政府特許局の登録認'),
  0.8361124523661297),
 (('大分合同新聞',
   '1963年',
   '9月',
   '14-a-5_01',
   '外国選手た人を発表\n世界記録保持者が1人\n=東京 国 際 スポーツ大会 陸上・'),
  0.8349581619770431),
 (('大分新聞', '1952年', '2月', '14-a-2_13', '米国で登録者獲得連ヨ'), 0.8346944311162575),
 (('大分新聞',
   '1927年',
   '12月',
   '23-a-2_03',
   'Sよく確定した。 普選最初の有權者 訴訟以外は絶對に動かされぬ\n選舉資格者名簿'),
  0.8345229480196049),
 (('大分新聞', '1934年', '5月', '15-y-2_15', 'のこと者の住所氏名を明記されたL\n店頭裝飾競技會 如懸賞家想投票'),
  0.8342224278655582),
 (('大分新聞',
   '1929年',
   '7月',
   '23-a-2_11',
   '民政無木際支部が 前例なき無勢調査 黨員名簿の大整理\n新棟式の登録用紙でやる\nわたした。'),
  0.8311875092512276),
 (('大分新聞', '1953年', '7月', '2-a-1_07', '追放解除者氏名。\n覚書該当縣知事指定分'),
  0.8304485679471413),
 (('大分新聞', '1953年', '7月', '3-a-1_06', '追放解除者氏名\n覚書該当縣知事指定分'),
  0.8304485679471413),
 (('大分合同新聞', '1954年', '2月', '15-y-3_08', '帰国希望者を登録\n北鮮残留 日本人も含む'),
  0.8272023210787919),
 (

In [71]:
len(similarity_headlines)

8901

### 見出し同士のみの類似度計算結果と比較
大本: 見出し内容類似csv\A\1955年\9月\A=1955年=9月=8-a-11_02<br>
今回はOCR結果も正常<br>

A/1955年/9月/8-a-11_02,0.9999999999999998,ソ連抑留者名簿<br>
o/1955年/7月/27-y-1_04,0.9228829553911,ソ連抑留者名簿提供に同意<br>
o/1957年/3月/20-y-1_02,0.8543984699797742,ソ連当局は渡さぬ残留邦人の名簿<br>
o/1955年/9月/7-a-3_01,0.8445633521108838,ソ連抑留者名を発表<br>
o/1947年/8月/22-a-1_06,0.8418616754550873,ソ連、米兵を抑留<br>
o/1957年/4月/20-a-3_10,0.8308435763498624,中共大戦犯を釈放団に名簿渡す<br>
o/1958年/12月/5-y-1_11,0.8269430586144143,抑留漁船員8人帰す|ソ連政府、外務省に通告<br>
o/1957年/10月/25-a-1_08,0.8215340480292734,抑留漁夫を全員釈放ソ連が日本側に通告<br>
o/1953年/4月/10-y-1_10,0.8202526234736964,北鮮 英人抑留者を釈放身柄をソ連代表に渡す<br>
p/1951年/10月/31-a-3_03,0.8181914478682948,日本抑留者の 早急送還を要求日本代表型正式にソ連赤十字訪<br>
o/1956年/10月/17-y-1_04,0.8152099053803139,宣言発効と同時にソ連抑留者の送還<br>
o/1955年/10月/12-y-1_12,0.8137969721914443,ソ連抑留者送 「遺即時解決を<br>
o/1953年/11月/1-y-1_01,0.8029709223931727,ソ連・戦犯釈放に同意<br>
o/1958年/11月/15-y-1_11,0.8006546312823747,ソ連、米軍ト ラックを抑留 トルリン検問<br>
o/1963年/8月/27-a-1_06,0.7989522565286782,抑留漁船員を釈放ソ連通告 百十七人全員<br>
o/1955年/1月/3-a-1_07,0.798067212769378,ソ連、米に新覚書抑留者の交換を提案か<br>
p/1941年/6月/22-a-3_02,0.7963003404406381,ソ聯でも花嫁政策極東へ4千人移送<br>
o/1959年/11月/15-a-7_04,0.795944058626741,六百二人の名簿厚生省発表 ソ連での死亡者<br>
o/1950年/9月/26-a-1_09,0.7944019942194075,ソ連将校を捕虜」<br>
o/1957年/3月/21-y-1_08,0.7932832976607485,憬国希望三五名ソ連外務省 名簿を手交<br>
o/1957年/3月/17-a-1_01,0.7928295998406542,ソ連在留邦人は793名<br>
p/1951年/12月/13-a-3_08,0.7926681455868502,抑留の実態を聽取<br>
o/1955年/8月/31-y-1_01,0.7916055009224665,抑留者名簿数日中に手す<br>
p/1937年/6月/25-a-1_05,0.7902942674141904,ソ聯監視船に一 日本漁船拿捕る頻々たる抑留事件<br>

どっちがいいとみなすべきなんだろうか…