### word2vec

In [1]:
from gensim.models import Word2Vec

model = Word2Vec.load('model.bin')

In [2]:
import numpy as np

def find_most_similar(word, model, top_n=5):
    #示例：查找与word最相似的词top_n个词
    try:
        most_similar_words = model.wv.most_similar(word, topn=top_n)
        return most_similar_words
    except KeyError:
        return f"'{word}'不在词表中"

def char_sim(char1, char2, model=model):
    #计算char1与char2的相似度
    vector1 = model.wv[char1]
    vector2 = model.wv[char2]
    dot_product = np.dot(vector1, vector2)
    norm1 = np.linalg.norm(vector1)
    norm2 = np.linalg.norm(vector2)
    cosine_similarity = abs(dot_product / (norm1 * norm2))
    print(char1 + "----与-----" + char2 + "----相似度为：" + str(round(cosine_similarity, 2)))
    return round(cosine_similarity, 3)

In [9]:
# 示例：查找与 'example_word' 最相似的词
print("与丁令威最相似的五个词：")
similar_words = find_most_similar('丁令威', model)
for similar_word, similarity in similar_words:
    print(f"{similar_word}: {similarity:.4f}")

print("")
print("与谢玄晖最相似的五个词：")
similar_words = find_most_similar('谢玄晖', model)
for similar_word, similarity in similar_words:
    print(f"{similar_word}: {similarity:.4f}")

与丁令威最相似的五个词：
华表: 0.5395
令威: 0.4730
鹤: 0.4634
人民城郭: 0.4254
辽东: 0.4174

与谢玄晖最相似的五个词：
玄晖: 0.4254
自忘机: 0.3644
澄江: 0.3600
小谢: 0.3539
夕晖: 0.3534


In [7]:
char_sim("滚滚", "萧萧")
char_sim("滚", "萧")
print("")
char_sim("五柳", "彭泽")
char_sim("柳", "彭")
print("")
char_sim("丁令威", "鹤")
char_sim("丁", "鹤")
print("")
char_sim("彳亍", "行")
print("")
char_sim("鱼", "书")
char_sim("鱼", "斯")
char_sim("鲤鱼", "家书")

滚滚----与-----萧萧----相似度为：0.31
滚----与-----萧----相似度为：0.06

五柳----与-----彭泽----相似度为：0.53
柳----与-----彭----相似度为：0.12

丁令威----与-----鹤----相似度为：0.46
丁----与-----鹤----相似度为：0.23

彳亍----与-----行----相似度为：0.31

鱼----与-----书----相似度为：0.44
鱼----与-----斯----相似度为：0.25
鲤鱼----与-----家书----相似度为：0.33


0.328

### bert-word-poem

In [10]:
import numpy as np

vector_file = open('word_vec.txt', 'r', encoding='utf-8', errors='ignore')
vector = vector_file.read().split('\n')
char_dic = {}

for v in vector:
    v = v.split()
    char = v[0]
    vec_str = v[1:]
    vec_list = [float(s) for s in vec_str]
    char_dic[char] = vec_list


word_list = list(char_dic.keys())

In [11]:
def char_sim(char1, char2):
    vector1 = char_dic[char1]
    vector2 = char_dic[char2]
    dot_product = np.dot(vector1, vector2)
    norm1 = np.linalg.norm(vector1)
    norm2 = np.linalg.norm(vector2)
    cosine_similarity = abs(dot_product / (norm1 * norm2))
    print(char1 + "-----与-----" + char2 + "-----相似度为：" + str(round(cosine_similarity, 2)))


In [13]:
char_sim("滚滚", "萧萧")
char_sim("滚", "萧")
print("")
char_sim("五柳", "彭泽")
char_sim("柳", "彭")
print("")
char_sim("丁令威", "鹤")
char_sim("丁", "鹤")
print("")
char_sim("彳亍", "行")
print("")
char_sim("鱼", "书")
char_sim("鱼", "斯")
char_sim("鲤鱼", "家书")

滚滚-----与-----萧萧-----相似度为：0.19
滚-----与-----萧-----相似度为：0.25

五柳-----与-----彭泽-----相似度为：0.45
柳-----与-----彭-----相似度为：0.22

丁令威-----与-----鹤-----相似度为：0.31
丁-----与-----鹤-----相似度为：0.16

彳亍-----与-----行-----相似度为：0.04

鱼-----与-----书-----相似度为：0.29
鱼-----与-----斯-----相似度为：0.13
鲤鱼-----与-----家书-----相似度为：0.38
