# Related Terms Evaluation

## ConceptNet

In [1]:
from word_embeddings.conceptnet_strategy import ConceptNetStrategy
strategy = ConceptNetStrategy()

In [2]:
import numpy as np
from sklearn.metrics.pairwise import cosine_similarity

def related_terms_ccn(keyword_term: str, top_k: int):
    kw_vec, _ = strategy._get_word_vectors(np.array([keyword_term]))
    if kw_vec.shape[0] > 0:
        similarity = cosine_similarity(kw_vec, strategy._words_vec)[0]
        top_matches = np.argsort(similarity)[-1:-top_k-1:-1]
        return [(strategy._words_vec.index[i], similarity[i]) for i in top_matches]
    else:
        return []

In [3]:
from opencc import OpenCC

t2s = OpenCC('t2s.json')

def evaluate(related_terms):
    keywords = open('../tests/word_tokens.txt').read().splitlines()
    for keyword in keywords:
        keyword = t2s.convert(keyword)
        terms = (f'{t2s.convert(term):　>4}:　{prob:.2f}' for term, prob in related_terms(keyword, 10))
        print(f'{keyword:　>4} {" ".join(terms)}')

In [4]:
evaluate(related_terms_ccn)

　　喜乐 　　喜乐:　1.00 　　欢乐:　0.80 　　喜悦:　0.78 　　欢心:　0.61 　　欢喜:　0.61 　　好气:　0.58 　　快乐:　0.58 　　恩慈:　0.53 　　欢畅:　0.47 　　知足:　0.45
　　事奉 　　事奉:　1.00 　　服事:　0.80 　　效劳:　0.79 　　伺候:　0.72 　　奉养:　0.70 　　任职:　0.56 　　　奉:　0.52 　　反照:　0.50 　　　服:　0.49 　　善事:　0.46
　　福音 　　福音:　1.00 　好消息:　0.55 　　新约:　0.54 神爱世人:　0.50 　　耶稣:　0.47 　　圣灵:　0.47 　　基督:　0.46 　　圣经:　0.45 　　圣神:　0.44 　　信德:　0.44
　　祈祷 　　祈祷:　1.00 　　祷告:　0.98 　　祈求:　0.77 　　默祷:　0.67 　　敬拜:　0.67 　　求神:　0.65 　　信神:　0.62 　　拜神:　0.49 　　礼拜:　0.48 　　赐福:　0.47
　　婚姻 　　婚姻:　1.00 　　嫁娶:　0.72 　　提亲:　0.70 　　娶妻:　0.69 　　生子:　0.68 　　结亲:　0.67 　　嫁人:　0.67 　　成亲:　0.63 　　好合:　0.63 　　　娶:　0.63
　　逆境 　　患难:　0.65 　　苦境:　0.59 　　困难:　0.57 　　景况:　0.57 　　时势:　0.55 　　阵势:　0.54 　　情形:　0.53 　　境遇:　0.53 　　困苦:　0.52 　　忧患:　0.51
　　上帝 　　　神:　0.79 　　天堂:　0.76 　　神明:　0.67 神爱世人:　0.64 　　天使:　0.59 　　神人:　0.59 　　圣城:　0.59 　　耶稣:　0.55 　　基督:　0.54 　　天国:　0.53
　　旨意 　　旨意:　1.00 　　　诏:　0.70 　　命令:　0.64 　　号令:　0.63 　　王命:　0.63 　　谕旨:　0.59 　　圣旨:　0.54 　　律法:　0.54 　　次序:　0.53 　　敕令:　0.48
　　苦难 　　苦难:　1.00 　　忧患:　0.91 　　苦楚:　0.84 　　苦处:　0.75 　　困苦:　0.65 　　悲惨:　0.57 　　苦海:　0.5

## ELMo

In [5]:
from elmoformanylangs import Embedder
e = Embedder('../word_embeddings/elmo_model')

2021-01-15 21:01:36,171 INFO: char embedding size: 15889
2021-01-15 21:01:37,694 INFO: word embedding size: 140384
2021-01-15 21:01:48,766 INFO: Model(
  (token_embedder): ConvTokenEmbedder(
    (word_emb_layer): EmbeddingLayer(
      (embedding): Embedding(140384, 100, padding_idx=3)
    )
    (char_emb_layer): EmbeddingLayer(
      (embedding): Embedding(15889, 50, padding_idx=15886)
    )
    (convolutions): ModuleList(
      (0): Conv1d(50, 32, kernel_size=(1,), stride=(1,))
      (1): Conv1d(50, 32, kernel_size=(2,), stride=(1,))
      (2): Conv1d(50, 64, kernel_size=(3,), stride=(1,))
      (3): Conv1d(50, 128, kernel_size=(4,), stride=(1,))
      (4): Conv1d(50, 256, kernel_size=(5,), stride=(1,))
      (5): Conv1d(50, 512, kernel_size=(6,), stride=(1,))
      (6): Conv1d(50, 1024, kernel_size=(7,), stride=(1,))
    )
    (highways): Highway(
      (_layers): ModuleList(
        (0): Linear(in_features=2048, out_features=4096, bias=True)
        (1): Linear(in_features=2048, out

In [6]:
from importlib import resources
verse_lines = resources.read_text('word_embeddings', 'word_tokenized_verses.txt')\
                       .split('\n')[:-1]
word_tokenized_verses = [verse.split() for verse in verse_lines]

In [7]:
bible_embeddings = e.sents2elmo(word_tokenized_verses)

2021-01-15 21:03:02,708 INFO: 486 batches, avg len: 21.5
2021-01-15 21:06:29,935 INFO: Finished 1000 sentences.
2021-01-15 21:10:40,337 INFO: Finished 2000 sentences.
2021-01-15 21:14:14,457 INFO: Finished 3000 sentences.
2021-01-15 21:18:40,304 INFO: Finished 4000 sentences.
2021-01-15 21:26:37,836 INFO: Finished 5000 sentences.
2021-01-15 21:32:29,501 INFO: Finished 6000 sentences.
2021-01-15 21:37:15,687 INFO: Finished 7000 sentences.
2021-01-15 21:41:32,412 INFO: Finished 8000 sentences.
2021-01-15 21:45:33,517 INFO: Finished 9000 sentences.
2021-01-15 21:47:55,545 INFO: Finished 10000 sentences.
2021-01-15 21:50:48,320 INFO: Finished 11000 sentences.
2021-01-15 21:53:25,062 INFO: Finished 12000 sentences.
2021-01-15 22:17:14,064 INFO: Finished 13000 sentences.
2021-01-15 22:20:08,349 INFO: Finished 14000 sentences.
2021-01-15 22:22:45,863 INFO: Finished 15000 sentences.
2021-01-15 22:26:21,650 INFO: Finished 16000 sentences.
2021-01-15 22:29:25,375 INFO: Finished 17000 sentences.


In [8]:
word_tokens = [token for verse in word_tokenized_verses for token in verse]
word_embs = [emb for verse_embs in bible_embeddings for emb in verse_embs]

In [9]:
def related_terms_elmo(keyword_term: str, top_k: int):
    kw_vec = e.sents2elmo([[keyword_term]])[0]
    similarity = cosine_similarity(kw_vec, word_embs)[0]
    top_matches = set()
    for i in np.argsort(similarity)[::-1]:
        if len(top_matches) >= top_k:
            break
        word_token = word_tokens[i]
        if not word_token in top_matches:
            top_matches.add(word_token)
            yield word_token, similarity[i]

In [10]:
evaluate(related_terms_elmo)

2021-01-16 09:38:16,150 INFO: 1 batches, avg len: 3.0
2021-01-16 09:41:41,922 INFO: 1 batches, avg len: 3.0
　　喜乐 　　喜乐:　0.95 　　福乐:　0.88 　　安宁:　0.87 　　沙龙:　0.87 　　安乐:　0.87 　　柏树:　0.86 　　西门:　0.85 　　哈顺:　0.85 　　基兰:　0.85 　　耶户:　0.84
　　事奉 　　事奉:　0.92 　　降生:　0.58 　　扶持:　0.57 　　劝教:　0.56 　　管教:　0.55 　　尊敬:　0.55 　　救恩:　0.55 　　祈求:　0.54 　　服事:　0.54 　　祈祷:　0.54
2021-01-16 09:43:53,046 INFO: 1 batches, avg len: 3.0
2021-01-16 09:46:05,314 INFO: 1 batches, avg len: 3.0
　　福音 　　福音:　0.94 　　真道:　0.54 　　先知:　0.51 　　救主:　0.50 　　真理:　0.49 　　降生:　0.48 　　律法:　0.48 　　守望:　0.47 　　思想:　0.46 　　祭司:　0.46
2021-01-16 09:47:42,138 INFO: 1 batches, avg len: 3.0
　　祈祷 　　祈祷:　0.93 　　闪生:　0.77 　　护卫:　0.77 　　割礼:　0.77 　　救护:　0.77 　　诱惑:　0.76 　　侍卫:　0.76 　　洗礼:　0.76 　　哀鸣:　0.76 　　赏赐:　0.76
2021-01-16 09:48:58,051 INFO: 1 batches, avg len: 3.0
　　婚姻 　　婚姻:　0.93 　　生命:　0.58 　　死亡:　0.52 　　事情:　0.52 　　子女:　0.49 　　执事:　0.48 　　犯罪:　0.48 　　信心:　0.48 　　女人:　0.48 　　职事:　0.48
2021-01-16 09:50:24,589 INFO: 1 batches, avg len: 3.0
　　逆境 　　愚昧:　0.61 　　生命:　0.61 　　困苦:　0.60 　　默想:　0.5