# 新聞取得

In [1]:
import os
import openpyxl

In [2]:
path_list = []

for curDir, dirs, files in os.walk("新聞"):
    #         print('=='*20)
    #         print('現在のフォルダ: ' + curDir)
    #         print('内包するフォルダ: ', end='')
    #         print(dirs)
    #         print('内包するファイル: ', end='')
    #         print(files)
    path = curDir + '\\'
    for file in files:
        path += file
        #             print('ファイルパス: ' + path)
        path_list.append(path)
        path = curDir + '\\'

In [3]:
headlines = []  # 格納用辞書

wb1 = openpyxl.load_workbook(path_list[0])
sheet = wb1['シート1']
# [社名、年、月、名前、見出し、ベクトル]
headlines = [(row[0].value, row[1].value, row[2].value, row[3].value, row[4].value) for row in sheet.rows]

wb2 = openpyxl.load_workbook(path_list[1])
sheet = wb2['シート1']
headlines2 = [(row[0].value, row[1].value, row[2].value, row[3].value, row[4].value) for row in sheet.rows]

In [4]:
headlines += headlines2

# 分かち書き

In [5]:
import MeCab as mc
import mojimoji
m = mc.Tagger("-Ochasen")

In [6]:
def mecab_tokenizer(text: str):
    """
    テキストを分かち書きするメソッド
    :param text: 分割したいテキスト
    :return: 分割後のテキスト
    """

    node = m.parseToNode(text)
    word_list = list()
    while node:
        if node.surface != "":
            res = node.feature.split(",")
            word_type = res[0]
            if word_type in ['名詞', "動詞", "形容詞", "副詞"]:  # 名詞, 動詞, 形容詞, 副詞のみを抽出
                basic_word = res[6]
                if basic_word != "*":
                    word_list.append(basic_word)
                else:
                    word_list.append('[UNK]')  # 未知語の場合は[UNK]トークンに置き換え
        node = node.next
        if node is None:
            break
    return word_list

In [7]:
from gensim.models import KeyedVectors



In [8]:
def clean_text(text: str):
    """
    テキストの正規化
    :param text: 正規化するテキスト
    :return: 正規化後のテキスト
    """
    text = mojimoji.han_to_zen(text, digit=False, ascii=False)  # 半角文字を全角文字に統一(数字, 英語以外)
    text = mojimoji.zen_to_han(text, kana=False)  # 全角文字を半角文字に統一(かな以外)
    text = text.lower()  # 小文字に統一
    return text

# ベクトル化

In [9]:
file_name = "jawiki.all_vectors.200d.txt"

model = KeyedVectors.load_word2vec_format(file_name)

In [10]:
import numpy as np

In [11]:
def vectorize_word(text: str):
    """
    元word_analysis()
    ベクトル化を行うメソッド
    :param text: ベクトル化するテキスト
    :return: ベクトル化したテキスト(array型)
    """

    text = clean_text(text)

    V = list()  # 文章のベクトル(200次元)を格納

    # 文章の対して, 文章中の単語のベクトルの平均を求める処理を行う
    word_list = mecab_tokenizer(text)
    v = np.array([0.0] * 200)
    word_num = 0
    for word in word_list:
        try:
            v += np.array(model[word])
        except KeyError as error:
            continue
        except ValueError as verror:
            continue
        word_num += 1

    try:
        v = v / word_num
    except ZeroDivisionError as e:
        print(f'ZeroDivisionError: {e}')

    return v

def cos_sim(v1, v2):
    """
    cos類似度を計算
    :param v1: word2vecによりベクトル化したテキスト1(ndarray型)
    :param v2: word2vecによりベクトル化したテキスト2(ndarray型)
    :return: 二つのテキストのcos類似度
    """
    return np.dot(v1, v2) / (np.linalg.norm(v1) * np.linalg.norm(v2))

In [12]:
def get_news_dict(filename: str):
    """
    エクセルから見出しのタイトル(識別番号？)とテキストを取り出しベクトル化して辞書として返す
    :param filename: excelファイル名
    :return: ひと月分の辞書<br>
    一つの要素に{(会社名、年、月、名前):(見出し, ベクトル)} -> の形で返す
    """
    wb = openpyxl.load_workbook(filename)
    sheet = wb['シート1']
    dict = {}  # 格納用辞書
    for row in sheet.rows:

        if row[4].value is not None:
            vector = vectorize_word(row[4].value)  # 見出しをベクトル化
            dict[(row[0].value, row[1].value, row[2].value, row[3].value)] = (row[4].value, vector)  # (会社名、年、月、名前)と(見出し、ベクトル)の組

    return dict

In [13]:
all_newspapers = [get_news_dict(path) for path in path_list]

headline_list = [(name[0], name[1], name[2], name[3], headline[0], headline[1]) for news in all_newspapers \
                for name, headline in news.items()]

del all_newspapers



# Wordnetを利用
参考サイト: https://qiita.com/pocket_kyoto/items/f2382b9821d32624e6bc<br>
https://github.com/EmulsionBondo/jwordnet/blob/master/SearchUpperConceptWords.py

In [14]:
import sqlite3
import sys
conn = sqlite3.connect("wnjpn.db")

In [15]:
# 上位-下位の関係にある概念の抽出
hierarchy_dict = {}  # key:上位語(String), value:下位語(List of String)
n_term_set = set()  # 下位語に含まれる単語集合

In [16]:
class node:
    def __init__(self, name, children=None):
        self.name = name  # String
        self.children = children  # List of Class node

    # 結果表示用
    def display(self, indent = 0):
        if self.children != None:
            print(' '*indent + self.name)
            for c in self.children:
                c.display(indent+1)
        else:
            print(' '*indent + self.name)

In [17]:
def search_upper_concept_words(word, hierarchy_dict):
    """
    特定の単語を入力とした時に、上位語を検索する関数
    :param word: 検索する単語
    :param hierarchy_dict: 上位語
    :return : すべての上位語を返す
    """
    cur = conn.execute(f"select wordid from word where lemma='{word}'")
    word_id = 99999999  #temp
    for row in cur:
        word_id = row[0]
    
    if word_id == 99999999: # Wordnetに存在する語であるかの判定
        print(f'「{word}」は存在しない単語です。')
    else:
        print(f'「{word}」の上位概念を出力します。')
    
    # 入力された単語を含む概念を検索
    cur = conn.execute(f"select synset from sense where wordid='{word_id}'")
    synsets = []
    for row in cur:
        synsets.append(row[0])
    
    hypernyms = []
    for synset in synsets:
        # 上位語を取得する対象のsynsetを表示
        print(f'------------------{synset_name_dict[synset]}---------------------')
        hypernyms.append(synset_name_dict[synset])
        
        #現在のsynsetの上位語をすべて取得するため，tmp_synsetに代入
        tmp_synset=synset
        # synsetの上位語を最上位まで列挙
        while(tmp_synset in hierarchy_dict.values()):
            # エラーが発生=最上位を取得したら終了
            try:
                print(synset_name_dict[hierarchy_dict[tmp_synset]])
                hypernyms.append(synset_name_dict[hierarchy_dict[tmp_synset]])
                tmp_synset = hierarchy_dict[tmp_synset]
            except:
                break
    
    return hypernyms

In [18]:
# 下位-上位の関係にある概念の抽出
cur = conn.execute("select synset1,synset2 from synlink where link='hypo'")

In [19]:
for row in cur:
    b_term = row[0] # 下位概念のID
    n_term = row[1] # 上位概念のID
    
    if n_term not in hierarchy_dict:
        hierarchy_dict[n_term] = b_term

In [20]:
# synset(概念)のIDから、概念の名称に変換する辞書の作成
synset_name_dict = {}  # key:synsetのID, value:synsetの名称
cur = conn.execute("select synset,name from synset")

In [21]:
for row in cur:
    synset_name_dict[row[0]] = row[1]

In [22]:
search_upper_concept_words('猫', hierarchy_dict)

「猫」の上位概念を出力します。
------------------true_cat---------------------
feline
carnivore
placental
mammalian
vertebrate
chordate
animate_being
being
living_thing
whole
physical_object
physical_entity
entity


['true_cat',
 'feline',
 'carnivore',
 'placental',
 'mammalian',
 'vertebrate',
 'chordate',
 'animate_being',
 'being',
 'living_thing',
 'whole',
 'physical_object',
 'physical_entity',
 'entity']

# 組み合わせて使うパターンとは？
選択した記事を形態素解析で分解してwordnetで上位概念を呼び出す？

In [23]:
def get_all_similarity(headline_list, speech_text: str):
    """
    全ての見出しと発言の類似度分析を行い, 類似度で降順にソートして返す
    :param headline_list: 見出しをまとめたリスト<br> ひとつの要素に(ファイルパス, 番号, (見出し, ベクトル)) -> の形で格納している
    :param speech_text: 発言
    :return: 類似度で降順にソートしたリスト [((会社名, 出版年, 出版付き, 番号, 見出し), 類似度)] -> この形になっている
    """
    # speech_text = '物価下がらなかったのね'
    speech_v = vectorize_word(speech_text)  # 発言をベクトル化

    similarity_dic = {}

    for company, year, month, day, headline, vector in headline_list:
        cs = cos_sim(speech_v, vector)  # 発言と見出しテキストのcos類似度を計算

        if cs >= 0.75:  # cos類似度が閾値以上であれば提示する見出しリストに加える
            similarity_dic[(company, year, month, day, headline)] = cs

    return sorted(similarity_dic.items(), key=lambda x: x[1], reverse=True)

In [24]:
test_list = get_all_similarity(headline_list, '大分県')

In [25]:
for i, test in enumerate(test_list):
    if i < 15:
        print(test)

(('大分合同新聞', '1961年', '10月', '19-a-11_01', '大分県'), 0.9999999999999999)
(('大分合同新聞', '1964年', '7月', '25-a-2_01', '大分県から'), 0.9999999999999999)
(('大分合同新聞', '1956年', '7月', '5-a-2_08', '* 垢石と大分県\n木下'), 0.9367297438196754)
(('大分新聞', '1921年', '7月', '26-a-1_01', '大分県の人々へ'), 0.9360428091470805)
(('大分合同新聞', '1963年', '1月', '4-y-3_11', 'にし\n大分県から'), 0.9338110293527784)
(('大分合同新聞', '1955年', '11月', '20-a-2_07', '大分県い觀光'), 0.9312139687897014)
(('大分合同新聞', '1959年', '3月', '27-y-3_04', '「ウルト』\nのゆく大分県'), 0.9297332033559976)
(('大分合同新聞', '1965年', '2月', '19-y-2_04', '愛知県の危険は大分県でも...'), 0.9290716653395311)
(('大分合同新聞', '1957年', '10月', '9-y-3_13', '大分県の道'), 0.9272672920557428)
(('大分合同新聞', '1958年', '1月', '13-y-2_04', '(ラジオ大分県のNHK)'), 0.9255612509047665)
(('大分新聞', '1936年', '6月', '30-y-1_13', '間にりを 大分県'), 0.9232655893301763)
(('大分合同新聞', '1960年', '12月', '17-y-3_02', '大分県呉市'), 0.9217930500878802)
(('大分合同新聞', '1961年', '3月', '18-y-4_01', '大分県の酒'), 0.9189891448092182)
(('大分合同新聞', '1962年', '8月', '17-a-5_02', '| 大分県の盆踊り')

In [26]:
# 上で提示された見出しの中からクリックしたと想定
sample_text = '愛知県の危険は大分県でも...'

tokens = mecab_tokenizer(sample_text)

In [27]:
tokens

['愛知', '県', '危険', '大分', '県', '[UNK]']

In [28]:
# 重複排除
tokens = list(set(tokens))

In [29]:
for token in tokens:
    print(f'検索語: {token}')
    hypernyms = search_upper_concept_words(token, hierarchy_dict)
    print(hypernyms)

検索語: 危険
「危険」の上位概念を出力します。
------------------parlous---------------------
------------------risky---------------------
------------------severe---------------------
------------------bad---------------------
------------------unsafe---------------------
['parlous', 'risky', 'severe', 'bad', 'unsafe']
検索語: 大分
「大分」の上位概念を出力します。
------------------considerably---------------------
------------------much---------------------
------------------a_lot---------------------
['considerably', 'much', 'a_lot']
検索語: [UNK]
「[UNK]」は存在しない単語です。
[]
検索語: 愛知
「愛知」は存在しない単語です。
[]
検索語: 県
「県」の上位概念を出力します。
------------------prefecture---------------------
['prefecture']


In [30]:
test_list = get_all_similarity(headline_list, 'parlous')



In [31]:
test_list

[]

## Google翻訳APIのエラー対処
以下のサイトを参考<br>
最新のアルファ版を使うと安定<br>
https://qiita.com/_yushuu/items/83c51e29771530646659

In [32]:
from googletrans import Translator

In [33]:
translator = Translator()

In [34]:
translated = translator.translate('prefecture', src='en', dest='ja')
print(translated.text)

県


In [36]:
%%timeit
similarity_headlines = []

for token in tokens:
    print(f'検索語: {token}')
    hypernyms = search_upper_concept_words(token, hierarchy_dict)
    
    # 翻訳
    for hypernym in hypernyms:
        print(f'{hypernym}')
        translated = translator.translate(hypernym, src='en', dest='ja')
        similarity_headlines += get_all_similarity(headline_list, translated.text)

検索語: 危険
「危険」の上位概念を出力します。
------------------parlous---------------------
------------------risky---------------------
------------------severe---------------------
------------------bad---------------------
------------------unsafe---------------------
parlous




risky
severe
bad
unsafe
検索語: 大分
「大分」の上位概念を出力します。
------------------considerably---------------------
------------------much---------------------
------------------a_lot---------------------
considerably
much
a_lot
検索語: [UNK]
「[UNK]」は存在しない単語です。
検索語: 愛知
「愛知」は存在しない単語です。
検索語: 県
「県」の上位概念を出力します。
------------------prefecture---------------------
prefecture
検索語: 危険
「危険」の上位概念を出力します。
------------------parlous---------------------
------------------risky---------------------
------------------severe---------------------
------------------bad---------------------
------------------unsafe---------------------
parlous
risky
severe
bad
unsafe
検索語: 大分
「大分」の上位概念を出力します。
------------------considerably---------------------
------------------much---------------------
------------------a_lot---------------------
considerably
much
a_lot
検索語: [UNK]
「[UNK]」は存在しない単語です。
検索語: 愛知
「愛知」は存在しない単語です。
検索語: 県
「県」の上位概念を出力します。
------------------prefecture---------------------
prefecture
検索語: 危険
「危険」の上位概念を出力します。
-----------

## 上位概念を一つずつ
1min 52s ± 2.28 s per loop (mean ± std. dev. of 7 runs, 1 loop each)

In [41]:
similarity_headlines = []

print(tokens)

for token in tokens:
    print(f'検索語: {token}')
    hypernyms = search_upper_concept_words(token, hierarchy_dict)
    
    # 翻訳
    for hypernym in hypernyms:
        print(f'翻訳前: {hypernym}')
        translated = translator.translate(hypernym, src='en', dest='ja')
        print(f'翻訳後: {translated.text}')
        similarity_headlines += get_all_similarity(headline_list, translated.text)

['危険', '大分', '[UNK]', '愛知', '県']
検索語: 危険
「危険」の上位概念を出力します。
------------------parlous---------------------
------------------risky---------------------
------------------severe---------------------
------------------bad---------------------
------------------unsafe---------------------
翻訳前: parlous
翻訳後: par par




翻訳前: risky
翻訳後: リスキーな
翻訳前: severe
翻訳後: ひどい
翻訳前: bad
翻訳後: 悪い
翻訳前: unsafe
翻訳後: 危険な
検索語: 大分
「大分」の上位概念を出力します。
------------------considerably---------------------
------------------much---------------------
------------------a_lot---------------------
翻訳前: considerably
翻訳後: consider
翻訳前: much
翻訳後: 多くの
翻訳前: a_lot
翻訳後: 多くの
検索語: [UNK]
「[UNK]」は存在しない単語です。
検索語: 愛知
「愛知」は存在しない単語です。
検索語: 県
「県」の上位概念を出力します。
------------------prefecture---------------------
翻訳前: prefecture
翻訳後: 県


In [42]:
len(similarity_headlines)

721

In [44]:
similarity_headlines

[(('大分合同新聞', '1966年', '10月', '15-a-9_09', '門前払いはひどい'), 0.8642213216316279),
 (('大分新聞', '1929年', '9月', '19-a-8_01', 'T-FE\n- をひどく好まない、そして,'),
  0.8521979145699125),
 (('大分合同新聞',
   '1963年',
   '10月',
   '21-a-1_02',
   'このひどさ、忘れずに\nMintalinuncilichirunchronrokiminurikawadline'),
  0.8384749549050137),
 (('大分合同新聞', '1966年', '9月', '13-a-1_02', '特にひどい中、'), 0.8174514736513242),
 (('大分合同新聞', '1967年', '9月', '9-a-4_08', 'あまりにひどい荒目不足\n泣き寝入りはそうめん」'),
  0.8000957494181787),
 (('大分新聞', '1919年', '4月', '10-a-4_05', '>餘程酷い目\nBotton'), 0.7864407447582961),
 (('豊州新報', '1936年', '7月', '27-a-7_04', 'パイプ詰めが 一番害がひどい'), 0.7858620175757086),
 (('大分合同新聞', '1963年', '7月', '14-y-2_02', 'はたけ、に悩み\n薬でかえってひどくな名'),
  0.7792719989758976),
 (('大分合同新聞', '1960年', '2月', '23-a-4_04', '「ひどすぎる引き上げ」\nこんどは地獄から苦情'),
  0.7778415978563747),
 (('大分合同新聞', '1965年', '7月', '3-a-9_01', 'ひどい!居眠りトラック'), 0.7742249335701976),
 (('大分合同新聞', '1967年', '2月', '28-y-4_03', '抜け毛がひどい勝一'), 0.7703064855245308),
 (('大分新聞', '1937年', '11月', '28-y-3_04', 

## 全部連結して

In [45]:
token_list = []
for token in tokens:
    hypernyms = search_upper_concept_words(token, hierarchy_dict)
    
    # 翻訳
    for hypernym in hypernyms:
        print(f'翻訳前: {hypernym}')
        translated = translator.translate(hypernym, src='en', dest='ja')
        print(f'翻訳後: {translated.text}')
        token_list.append(translated.text)

「危険」の上位概念を出力します。
------------------parlous---------------------
------------------risky---------------------
------------------severe---------------------
------------------bad---------------------
------------------unsafe---------------------
翻訳前: parlous
翻訳後: par par
翻訳前: risky
翻訳後: リスキーな
翻訳前: severe
翻訳後: ひどい
翻訳前: bad
翻訳後: 悪い
翻訳前: unsafe
翻訳後: 危険な
「大分」の上位概念を出力します。
------------------considerably---------------------
------------------much---------------------
------------------a_lot---------------------
翻訳前: considerably
翻訳後: consider
翻訳前: much
翻訳後: 多くの
翻訳前: a_lot
翻訳後: 多くの
「[UNK]」は存在しない単語です。
「愛知」は存在しない単語です。
「県」の上位概念を出力します。
------------------prefecture---------------------
翻訳前: prefecture
翻訳後: 県


In [47]:
token_list

['par par', 'リスキーな', 'ひどい', '悪い', '危険な', 'consider', '多くの', '多くの', '県']

In [48]:
token_list = ','.join(token_list)

In [49]:
token_list

'par par,リスキーな,ひどい,悪い,危険な,consider,多くの,多くの,県'

In [50]:
%%time
similarity_headlines = get_all_similarity(headline_list, token_list)

Wall time: 13.1 s


In [51]:
len(similarity_headlines)

13835

In [52]:
for n, headline in enumerate(similarity_headlines):
    if n < 10:
        print(headline)

(('大分合同新聞', '1966年', '9月', '13-a-1_02', '特にひどい中、'), 0.8717839873097029)
(('大分合同新聞', '1960年', '4月', '26-y-1_02', '|肺ジストマ\nと間違えられやすく、そのため の出が少なくない。まだ全県的に'), 0.8608060145002486)
(('豊州新報', '1938年', '6月', '23-a-8_03', '入梅中は特に 疲労がひどい\n恢復には何が良いか'), 0.8595951747733489)
(('大分新聞', '1941年', '10月', '14-y-3_07', '悪い齒並び\n馬鹿に出來ぬ影響'), 0.8567515849865073)
(('豊州新報', '1938年', '1月', '24-a-7_03', 'こり早\n煙。落ちたとの噂\n品切れが多いのは何故か 認識不足だと專賣局が難解\nBOOOOOOOOoooood'), 0.8545327537002515)
(('大分合同新聞', '1967年', '3月', '17-a-11_06', 'に時 国間 難的\n難こわい甘い診断 とても責任もてぬ'), 0.8528478137664636)
(('豊州新報', '1933年', '10月', '30-a-8_04', '大多勢の人が 悩むのは疣痔 燃り易いが放任は危険」'), 0.8510280852928934)
(('大分新聞', '1927年', '10月', '29-a-8_05', '鼻が悪くなると 頭悪くなる。 殊に子供は影響が多い 感骨の節は注意が大切'), 0.8499047345647598)
(('大分新聞', '1937年', '4月', '11-y-3_02', '著しく違ふ 家庭に不良見が多い\n何が彼らを罪に導いたか\nきも、いいwwwwww\nww.m'), 0.8491878166320749)
(('大分合同新聞', '1958年', '7月', '22-a-1_03', '千害いよいよ深刻一\n特にひどい宇佐地方'), 0.8485901023982497)


### どちらがいいか
重複がどうなのかを考慮していないため確定はできないが、連結したほうが量が多い<br>
時間に関しても、連結して１回にまとめた方が当然早い(そりゃそうだ)