In [1]:
import pandas as pd
import numpy as np
from gensim.models import KeyedVectors
import os
from tqdm import tqdm
import time

In [7]:
# 设置文件路径
word2vec_model_path = 'D:\pythonProject\C_MFD2.0_embedding\词嵌入模型文件夹\zhihu\sgns.zhihu.word'
gst_excel_path = r'D:\pythonProject\C_MFD2.0_embedding\代码区域\FramAxis嵌入测试\指涉术语测试数据\测试GNT.xlsx'
output_csv_path = 'gnt_embeddings.csv'
print(f"开始执行GNT词向量嵌入任务...")
start_time = time.time()

开始执行GNT词向量嵌入任务...


In [8]:
# 加载词向量模型
print(f"正在加载词向量模型: {word2vec_model_path}...")
try:
    word_vectors = KeyedVectors.load_word2vec_format(word2vec_model_path, binary=False)
    print(f"词向量模型加载成功，词汇量: {len(word_vectors.key_to_index)}")
except Exception as e:
    print(f"加载词向量模型时出错: {e}")
    raise

正在加载词向量模型: D:\pythonProject\C_MFD2.0_embedding\词嵌入模型文件夹\zhihu\sgns.zhihu.word...
词向量模型加载成功，词汇量: 259869


In [9]:
# 加载GST词汇表
print(f"正在加载GNT词汇表: {os.path.basename(gst_excel_path)}...")
try:
    gst_df = pd.read_excel(gst_excel_path)
    # 确保DataFrame有正确的列名
    if len(gst_df.columns) >= 2:
        gst_df = gst_df.iloc[:, :2]  # 只选择前两列
        gst_df.columns = ['词语', '频率']  # 设置列名
    print(f"GNT词汇表加载成功，共{len(gst_df)}个词语")
except Exception as e:
    print(f"加载GNT词汇表时出错: {e}")
    raise

正在加载GNT词汇表: 测试GNT.xlsx...
GNT词汇表加载成功，共8261个词语


In [10]:
# 初始化结果DataFrame
results = []
missing_words = []

# 词向量维度
vector_dim = word_vectors.vector_size
print(f"词向量维度: {vector_dim}")

# 处理每个词语
print("开始处理词语...")
for _, row in tqdm(gst_df.iterrows(), total=len(gst_df), desc="处理进度"):
    word = row['词语']
    frequency = row['频率']

    try:
        # 检查词语是否在词向量模型中
        if word in word_vectors:
            # 获取词向量
            vector = word_vectors[word]

            # 准备一行数据
            result_row = {'词语': word, '频率': frequency}

            # 添加词向量维度
            for i in range(vector_dim):
                result_row[f'dim_{i + 1}'] = vector[i]

            results.append(result_row)
        else:
            missing_words.append(word)
            print(f"警告: 词语 '{word}' 不在词向量模型中")
    except Exception as e:
        print(f"处理词语 '{word}' 时出错: {e}")
        missing_words.append(word)

# 创建结果DataFrame
result_df = pd.DataFrame(results)

# 保存结果到CSV
print(f"正在保存结果到: {output_csv_path}...")
try:
    result_df.to_csv(output_csv_path, index=False, encoding='utf-8')
    print(f"结果已成功保存到: {output_csv_path}")
except Exception as e:
    print(f"保存结果时出错: {e}")

# 报告结果
print(f"\n处理完成:")
print(f"- 总词语数: {len(gst_df)}")
print(f"- 成功嵌入词语数: {len(results)}")
print(f"- 缺失词语数: {len(missing_words)}")

# 输出缺失词列表
if missing_words:
    print("\n缺失词列表:")
    for word in missing_words:
        print(f"- {word}")

end_time = time.time()
print(f"\n任务完成，耗时: {end_time - start_time:.2f}秒")

词向量维度: 300
开始处理词语...


处理进度:  10%|▉         | 817/8261 [00:00<00:00, 8128.01it/s]

警告: 词语 '施暴者' 不在词向量模型中
警告: 词语 '答主' 不在词向量模型中
警告: 词语 '唐山人' 不在词向量模型中
警告: 词语 '评论区' 不在词向量模型中
警告: 词语 '孙小果' 不在词向量模型中
警告: 词语 '键盘侠' 不在词向量模型中
警告: 词语 '自媒体' 不在词向量模型中
警告: 词语 '扫黑除恶' 不在词向量模型中
警告: 词语 '街斗' 不在词向量模型中
警告: 词语 '红码' 不在词向量模型中
警告: 词语 '网友们' 不在词向量模型中
警告: 词语 '死手' 不在词向量模型中
警告: 词语 '理中客' 不在词向量模型中
警告: 词语 '垃圾人' 不在词向量模型中
警告: 词语 '层主' 不在词向量模型中
警告: 词语 '美帝' 不在词向量模型中
警告: 词语 '地图炮' 不在词向量模型中
警告: 词语 '战狼' 不在词向量模型中
警告: 词语 '点赞' 不在词向量模型中
警告: 词语 '网爆' 不在词向量模型中
警告: 词语 '嘴巴子' 不在词向量模型中
警告: 词语 '行凶者' 不在词向量模型中
警告: 词语 '社会人' 不在词向量模型中
警告: 词语 '法学生' 不在词向量模型中
警告: 词语 '黑涩会' 不在词向量模型中
警告: 词语 '六子' 不在词向量模型中
警告: 词语 '存在感' 不在词向量模型中
警告: 词语 '汤兰兰' 不在词向量模型中
警告: 词语 '题主' 不在词向量模型中
警告: 词语 '嘴炮' 不在词向量模型中
警告: 词语 '刘中伟' 不在词向量模型中
警告: 词语 '屁民' 不在词向量模型中
警告: 词语 '网红' 不在词向量模型中
警告: 词语 '烂人' 不在词向量模型中
警告: 词语 '张文平' 不在词向量模型中
警告: 词语 '打人案' 不在词向量模型中
警告: 词语 '菜刀队' 不在词向量模型中
警告: 词语 '网暴者' 不在词向量模型中
警告: 词语 '广众' 不在词向量模型中
警告: 词语 '施害者' 不在词向量模型中
警告: 词语 '上海人' 不在词向量模型中
警告: 词语 '格斗家' 不在词向量模型中
警告: 词语 '口嗨' 不在词向量模型中
警告: 词语 '怂包' 不在词向量模型中
警告: 词语 '骚扰者' 不在词向量模型中
警告: 词语 '营销号' 不在词向量模型中
警告: 词

处理进度:  46%|████▋     | 3827/8261 [00:00<00:00, 9965.16it/s]

警告: 词语 '带路党' 不在词向量模型中
警告: 词语 '鱼霸' 不在词向量模型中
警告: 词语 '达利特' 不在词向量模型中
警告: 词语 '打黑除恶' 不在词向量模型中
警告: 词语 '小年轻' 不在词向量模型中
警告: 词语 '虞关荣' 不在词向量模型中
警告: 词语 '事业编' 不在词向量模型中
警告: 词语 '密接' 不在词向量模型中
警告: 词语 '大稽' 不在词向量模型中
警告: 词语 '白衣背' 不在词向量模型中
警告: 词语 '廊坊人' 不在词向量模型中
警告: 词语 '北工' 不在词向量模型中
警告: 词语 '二侄子' 不在词向量模型中
警告: 词语 '抖机灵' 不在词向量模型中
警告: 词语 '九漏鱼' 不在词向量模型中
警告: 词语 '祖国人' 不在词向量模型中
警告: 词语 '非杠' 不在词向量模型中
警告: 词语 '逗比' 不在词向量模型中
警告: 词语 '基本盘' 不在词向量模型中
警告: 词语 '乐子人' 不在词向量模型中
警告: 词语 '张麻子' 不在词向量模型中
警告: 词语 '半佛' 不在词向量模型中
警告: 词语 '背锅侠' 不在词向量模型中
警告: 词语 '老板们' 不在词向量模型中
警告: 词语 '群狼' 不在词向量模型中
警告: 词语 '巡查组' 不在词向量模型中
警告: 词语 '弱势者' 不在词向量模型中
警告: 词语 '菜刀帮' 不在词向量模型中
警告: 词语 '杨树宽' 不在词向量模型中
警告: 词语 '高明远' 不在词向量模型中
警告: 词语 '之士' 不在词向量模型中
警告: 词语 '戏子们' 不在词向量模型中
警告: 词语 '受害者们' 不在词向量模型中
警告: 词语 '冤种' 不在词向量模型中
警告: 词语 '二货' 不在词向量模型中
警告: 词语 '沙人' 不在词向量模型中
警告: 词语 '和事' 不在词向量模型中
警告: 词语 '弱势方' 不在词向量模型中
警告: 词语 '摇人' 不在词向量模型中
警告: 词语 '盐贩' 不在词向量模型中
警告: 词语 '对线' 不在词向量模型中
警告: 词语 '拳师们' 不在词向量模型中
警告: 词语 '普信' 不在词向量模型中
警告: 词语 '泰州人' 不在词向量模型中
警告: 词语 '黑社會' 不在词向量模型中
警告: 词语 '小混子' 不在词向量模型中
警告:

处理进度:  77%|███████▋  | 6346/8261 [00:00<00:00, 11589.82it/s]

警告: 词语 '狼叔' 不在词向量模型中
警告: 词语 '焦彦龙' 不在词向量模型中
警告: 词语 '张古江' 不在词向量模型中
警告: 词语 '诸葛宇杰' 不在词向量模型中
警告: 词语 '霉蛋' 不在词向量模型中
警告: 词语 '米欧奇' 不在词向量模型中
警告: 词语 '行刑者' 不在词向量模型中
警告: 词语 '谣言者' 不在词向量模型中
警告: 词语 '网暴人' 不在词向量模型中
警告: 词语 '李闰' 不在词向量模型中
警告: 词语 '苏州人' 不在词向量模型中
警告: 词语 '阿贝阿塔' 不在词向量模型中
警告: 词语 '农民们' 不在词向量模型中
警告: 词语 '孙火旺' 不在词向量模型中
警告: 词语 '山东话' 不在词向量模型中
警告: 词语 '豆瓣人' 不在词向量模型中
警告: 词语 '畜渣' 不在词向量模型中
警告: 词语 '德子' 不在词向量模型中
警告: 词语 '徐州人' 不在词向量模型中
警告: 词语 '主从犯' 不在词向量模型中
警告: 词语 '钢铁人' 不在词向量模型中
警告: 词语 '车警' 不在词向量模型中
警告: 词语 '小白鞋' 不在词向量模型中
警告: 词语 '老炮儿' 不在词向量模型中
警告: 词语 '小混' 不在词向量模型中
警告: 词语 '助威者' 不在词向量模型中
警告: 词语 '裱糊匠' 不在词向量模型中
警告: 词语 '洪拳' 不在词向量模型中
警告: 词语 '闰芳' 不在词向量模型中
警告: 词语 '帖主' 不在词向量模型中
警告: 词语 '高翻' 不在词向量模型中
警告: 词语 '控屏' 不在词向量模型中
警告: 词语 '袁宝璟' 不在词向量模型中
警告: 词语 '圈苟' 不在词向量模型中
警告: 词语 '张开印' 不在词向量模型中
警告: 词语 '温某' 不在词向量模型中
警告: 词语 '夏之光' 不在词向量模型中
警告: 词语 '江浙人' 不在词向量模型中
警告: 词语 '周秉义' 不在词向量模型中
警告: 词语 '好官' 不在词向量模型中
警告: 词语 '匪警' 不在词向量模型中
警告: 词语 '洼地人' 不在词向量模型中
警告: 词语 '赵俊' 不在词向量模型中
警告: 词语 '高彦' 不在词向量模型中
警告: 词语 '东北大' 不在词向量模型中
警告: 词语 '控制欲' 不在词向量模型中
警告: 

处理进度: 100%|██████████| 8261/8261 [00:00<00:00, 11062.16it/s]


警告: 词语 '亲身人' 不在词向量模型中
警告: 词语 '脑路子' 不在词向量模型中
警告: 词语 '瓜娃子' 不在词向量模型中
警告: 词语 '某阳' 不在词向量模型中
警告: 词语 '郭钕' 不在词向量模型中
警告: 词语 '处置者' 不在词向量模型中
警告: 词语 '爆脾气' 不在词向量模型中
警告: 词语 '清国人' 不在词向量模型中
警告: 词语 '明哲保身者' 不在词向量模型中
警告: 词语 '對象' 不在词向量模型中
警告: 词语 '一人之力' 不在词向量模型中
警告: 词语 '邹西瓜' 不在词向量模型中
警告: 词语 '差馆' 不在词向量模型中
警告: 词语 '街溜子混子' 不在词向量模型中
警告: 词语 '枭站粉' 不在词向量模型中
警告: 词语 '键盘侠喷子们' 不在词向量模型中
警告: 词语 '陪审庭' 不在词向量模型中
警告: 词语 '重伤人' 不在词向量模型中
警告: 词语 '王艳辉' 不在词向量模型中
警告: 词语 '州警们' 不在词向量模型中
警告: 词语 '李操' 不在词向量模型中
警告: 词语 '控股人' 不在词向量模型中
警告: 词语 '書記' 不在词向量模型中
警告: 词语 '部平级' 不在词向量模型中
警告: 词语 '陈学军' 不在词向量模型中
警告: 词语 '宝坻人' 不在词向量模型中
警告: 词语 '蔡元祺' 不在词向量模型中
警告: 词语 '小枫红' 不在词向量模型中
警告: 词语 '债主们' 不在词向量模型中
警告: 词语 '曲大志' 不在词向量模型中
警告: 词语 '张大伟' 不在词向量模型中
警告: 词语 '韦晋' 不在词向量模型中
警告: 词语 '纳粹主义者' 不在词向量模型中
警告: 词语 '审美鹰' 不在词向量模型中
警告: 词语 '笑书神侠' 不在词向量模型中
警告: 词语 '罗大佐' 不在词向量模型中
警告: 词语 '衣着识人' 不在词向量模型中
警告: 词语 '贪婪心' 不在词向量模型中
警告: 词语 '位高' 不在词向量模型中
警告: 词语 '难防型' 不在词向量模型中
警告: 词语 '李莫' 不在词向量模型中
警告: 词语 '校门口流子' 不在词向量模型中
警告: 词语 '党卫' 不在词向量模型中
警告: 词语 '纳不粹' 不在词向量模型中
警告: 词语 '三星圈' 不在词向量模型中
警告: 词语