In [4]:
import numpy as np
from gensim.models import Word2Vec
from sklearn.decomposition import PCA
import matplotlib.pyplot as plt
import re
import jieba
from collections import Counter

In [6]:
# 佛教和道教词典
buddhism_words = """
佛 菩萨 僧 和尚 住持 庙 经文 经书 西天 寺 禅 空 悟 皈 菩提 乘 如来 观音 宗 法 沙弥 罗汉 夜叉 沙门 超度 布施 化缘 施主 世尊 迦 伽 婆 比丘 阿鼻地狱 供养 戒 出家 功德 涅槃 劫 慈悲 愿 弥勒 自在 行者 金刚 清净 供养 袈裟 舍利 南无 钵 无量
""".split()

taoism_words = """
道法 道心 得道 道长 道观 天道 道行 丹 仙 神 真 观 玄 五行 无量 阴 阳 太极 玉帝 玉皇 天尊 星 太 坛 文昌 三清 龙王 阎罗 造化 霄 点化 金童 玉女 气 炁 洞天 箓 虚
""".split()

In [8]:
# 定义别名映射字典
alias_map = {
    '唐僧': ['师父', '唐三藏', '玄奘', '三藏', '长老', '圣僧', '唐和尚', '金蝉禅', '金禅'],
    '孙悟空': ['孙行者', '美猴王', '齐天大圣', '石猴', '猴王', '大圣', '行者', '弼马温', '师兄', '泼猴', '猴子', '哥', '猴头', '心猿'],
    '猪八戒': ['悟能', '天蓬元帅', '八戒', '呆子', '猪刚鬣', '夯货', '老猪'],
    '沙和尚': ['悟净', '卷帘大将', '沙僧']
}

# 构造反向映射
reverse_alias_map = {alias: standard for standard, aliases in alias_map.items() for alias in aliases}


In [9]:
# 读取文本
input_path = r"C:\Users\yangx\Desktop\与国内的合作\人大DH组会\西游记.txt"
with open(input_path, "r", encoding="utf-8") as f:
    text = f.read()

# 统计替换前别名频率
freq_before = Counter(re.findall('|'.join(map(re.escape, reverse_alias_map.keys())), text))

# 使用正则替换别名为标准名称
def replace_alias(match):
    alias = match.group(0)  # 匹配的别名
    return reverse_alias_map[alias]  # 返回对应的标准名称

pattern = re.compile('|'.join(map(re.escape, reverse_alias_map.keys())))  # 构造匹配模式
cleaned_text = pattern.sub(replace_alias, text)  # 替换

# 统计替换后标准名称频率
freq_after = Counter(re.findall('|'.join(map(re.escape, alias_map.keys())), cleaned_text))

# 确保清洗后别名频率为 0
freq_after_alias = Counter(re.findall('|'.join(map(re.escape, reverse_alias_map.keys())), cleaned_text))

# 保存清洗后的文本
output_path = r"C:\Users\yangx\Desktop\与国内的合作\人大DH组会\西游记_cleaned_text.txt"
with open(output_path, "w", encoding="utf-8") as f:
    f.write(cleaned_text)

# 输出统计结果
print("替换前别名频率：", freq_before)
print("替换后标准名称频率：", freq_after)
print("清洗后别名频率：", freq_after_alias)
print(f"清洗后的文本已保存到 {output_path}")


替换前别名频率： Counter({'行者': 4148, '八戒': 1819, '师父': 1640, '三藏': 1329, '大圣': 1178, '沙僧': 821, '长老': 663, '哥': 590, '呆子': 432, '孙行者': 239, '师兄': 177, '圣僧': 163, '猴王': 143, '齐天大圣': 102, '老猪': 90, '玄奘': 89, '猴子': 78, '悟能': 71, '悟净': 69, '泼猴': 57, '唐三藏': 57, '弼马温': 49, '美猴王': 42, '猴头': 35, '心猿': 33, '夯货': 32, '天蓬元帅': 16, '石猴': 15, '卷帘大将': 11, '唐和尚': 8, '猪刚鬣': 5, '金禅': 4})
替换后标准名称频率： Counter({'孙悟空': 7012, '唐僧': 4965, '猪八戒': 2465, '沙和尚': 997})
清洗后别名频率： Counter({'八戒': 2465})
清洗后的文本已保存到 C:\Users\yangx\Desktop\与国内的合作\人大DH组会\西游记_cleaned_text.txt


In [10]:
# 读取清洗后的文本
output_path = r"C:\Users\yangx\Desktop\与国内的合作\人大DH组会\西游记_cleaned_text.txt"
with open(output_path, "r", encoding="utf-8") as f:
    text = f.read()

In [11]:
# 使用全模式分词
words = jieba.lcut(text)

# 统计佛教和道教词典中各个关键词的词频
buddhism_freq = Counter(word for word in words if word in buddhism_words)
taoism_freq = Counter(word for word in words if word in taoism_words)

# 输出佛教和道教关键词的词频
print("佛教关键词词频：")
for word, freq in buddhism_freq.items():
    print(f"{word}: {freq}")

print("\n道教关键词词频：")
for word, freq in taoism_freq.items():
    print(f"{word}: {freq}")

佛教关键词词频：
菩萨: 730
无量: 21
佛: 80
愿: 29
供养: 39
菩提: 13
慈悲: 42
悟: 21
禅: 7
法: 61
出家: 26
空: 39
夜叉: 27
西天: 186
罗汉: 46
观音: 55
如来: 201
金刚: 58
劫: 12
乘: 19
舍利: 7
世尊: 11
比丘: 21
迦: 1
伽: 5
袈裟: 156
钵: 9
和尚: 668
皈: 5
沙门: 33
南无: 49
僧: 172
化缘: 6
寺: 74
超度: 8
布施: 12
清净: 10
功德: 8
婆: 2
住持: 2
经文: 12
施主: 41
涅槃: 7
戒: 4
阿鼻地狱: 2
弥勒: 16
自在: 3
庙: 5
宗: 1

道教关键词词频：
造化: 87
星: 22
气: 41
玉皇: 28
真: 151
玉帝: 138
神: 77
洞天: 16
无量: 21
仙: 70
丹: 24
道行: 7
阴: 12
坛: 20
五行: 40
霄: 2
龙王: 184
玉女: 7
箓: 2
天尊: 56
三清: 23
太: 23
虚: 30
观: 30
阳: 8
炁: 1
阎罗: 3
点化: 6
天道: 6
玄: 7
太极: 1
文昌: 1
道长: 4
得道: 1


In [12]:
# 清洗词汇，保留所有词汇，包括佛教和道教词汇
cleaned_words = [word for word in words if len(word) > 1]

# 构建句子，以佛教和道教词汇为边界
sentences = []
sentence = []
for word in cleaned_words:
    if word in buddhism_words or word in taoism_words:
        if sentence:
            sentences.append(sentence)
            sentence = [word]  # 以宗教词汇开始新的句子
        else:
            sentence = [word]
    else:
        sentence.append(word)
if sentence:
    sentences.append(sentence)

In [13]:
# 训练Word2Vec模型
model_1 = Word2Vec(sentences, vector_size=100, window=5, min_count=1, workers=4)
# 获取角色向量
characters = ['唐僧', '孙悟空', '猪八戒', '沙和尚']
char_vectors = {char: model_1.wv[char] for char in characters if char in model_1.wv}


In [14]:
# 计算每个宗教词汇的向量
buddhism_vectors = np.array([model_1.wv[w] for w in buddhism_words if w in model_1.wv])
taoism_vectors = np.array([model_1.wv[w] for w in taoism_words if w in model_1.wv])

# 计算每个宗教词汇的权重
buddhism_weights = Counter([word for sentence in sentences for word in sentence if word in buddhism_words])
taoism_weights = Counter([word for sentence in sentences for word in sentence if word in taoism_words])

# 将权重转换为numpy数组，并确保权重值是浮点数类型
buddhism_weights_array = np.array([buddhism_weights.get(word, 0) for word in buddhism_words], dtype=float)
taoism_weights_array = np.array([taoism_weights.get(word, 0) for word in taoism_words], dtype=float)

# 计算加权平均距离的函数
def weighted_average_distance(vectors, weights, char_vector):
    if len(vectors) == 0 or len(weights) == 0:
        return 0
    weighted_sum = np.zeros(100)
    total_weight = 0.0
    for vec, weight in zip(vectors, weights):
        weighted_sum += vec * weight
        total_weight += weight
    return np.linalg.norm(weighted_sum / total_weight - char_vector) if total_weight > 0 else 0


In [15]:
# 计算每个角色与佛教和道教的加权平均距离
buddhism_distances = {char: weighted_average_distance(buddhism_vectors, buddhism_weights_array, char_vector) for char, char_vector in char_vectors.items()}
taoism_distances = {char: weighted_average_distance(taoism_vectors, taoism_weights_array, char_vector) for char, char_vector in char_vectors.items()}

# 输出结果
for char in characters:
    if char in model_1.wv:
        print(f"{char} 与佛教的加权平均距离: {buddhism_distances[char]}")
        print(f"{char} 与道教的加权平均距离: {taoism_distances[char]}")

唐僧 与佛教的加权平均距离: 14.113254894436459
唐僧 与道教的加权平均距离: 16.818093301404573
孙悟空 与佛教的加权平均距离: 14.918651906111075
孙悟空 与道教的加权平均距离: 17.62270678431911
猪八戒 与佛教的加权平均距离: 11.890939590429364
猪八戒 与道教的加权平均距离: 14.593139598709035
沙和尚 与佛教的加权平均距离: 8.992229031688694
沙和尚 与道教的加权平均距离: 11.692119460906012
