In [None]:
import nltk
from nltk.corpus import wordnet
from collections import defaultdict
from tqdm import tqdm
import time

# 下载NLTK资源（首次运行时）
nltk.download('wordnet', quiet=True)
nltk.download('omw-1.4', quiet=True)

# 加载WordNet词典
def load_wordnet_dictionary(all_pos=False):
    """加载WordNet词典并构建词形索引"""
    print("正在加载WordNet词典...")
    word_dict = defaultdict(list)
    
    # 获取所有有效词性标签
    if all_pos:
        pos_tags = [
            wordnet.NOUN,    # 'n'
            wordnet.VERB,    # 'v'
            wordnet.ADJ,     # 'a'
            wordnet.ADJ_SAT, # 's' (卫星形容词)
            wordnet.ADV      # 'r'
        ]
    else:
        pos_tags = [
            wordnet.NOUN,    # 'n'
            wordnet.VERB,    # 'v'
            wordnet.ADJ,     # 'a'
            wordnet.ADV      # 'r'
        ]
    
    # 遍历所有词性
    for pos in pos_tags:
        try:
            # 获取该词性的所有同义词集
            synsets = list(wordnet.all_synsets(pos))
            print(f"正在处理词性 {pos} ({len(synsets)} 个同义词集)...")
            
            # 使用tqdm显示进度
            for synset in tqdm(synsets, desc=f"词性 {pos}"):
                for lemma in synset.lemmas():
                    word = lemma.name()
                    word_dict[word].append(synset)
        except Exception as e:
            print(f"加载词性 {pos} 时出错: {str(e)}")
    
    print(f"WordNet词典加载完成，唯一词形数: {len(word_dict)}")
    return word_dict

# 初始化WordNet词典
wordnet_dict = load_wordnet_dictionary()

# 检查单词是否在WordNet中
def is_word_in_wordnet(word):
    """检查单词是否存在于WordNet"""
    return word in wordnet_dict

# 检查单词完整性和拼写
def is_complete_and_correct(word):
    """
    检查条件：
    1. 纯字母
    2. WordNet中存在
    3. 下划线拆分后各部分均存在
    """
    if not word.isalpha():
        return False, "包含非字母字符"
    
    if '_' in word:
        parts = word.split('_')
        for part in parts:
            if not is_word_in_wordnet(part):
                return False, f"拆分错误: {part} 不在WordNet中"
        return True, "拆分后各部分均在WordNet中"
    
    return is_word_in_wordnet(word), "单词存在于WordNet"

# 过滤每个种子词的相似词列表
def filter_top_valid_words(similar_words_dict, max_results=20):
    """
    过滤每个种子词的相似词列表，只保留前max_results个有效的单词
    
    参数:
    - similar_words_dict: 包含种子词及其相似词的字典
    - max_results: 每个种子词保留的有效相似词数量
    
    返回:
    - 过滤后的字典，格式为 {种子词: [(有效词1, 相似度1), (有效词2, 相似度2), ...]}
    """
    filtered_dict = {}
    
    # 使用tqdm显示处理进度
    with tqdm(total=len(similar_words_dict), desc="处理种子词") as pbar:
        for seed_word, similar_words in similar_words_dict.items():
            # 初始化过滤后的列表
            filtered_words = []
            
            # 对每个相似词进行过滤
            for word, score in similar_words:
                # 检查单词是否有效
                is_valid, reason = is_complete_and_correct(word)
                
                if is_valid:
                    # 如果有效，添加到过滤后的列表
                    filtered_words.append((word, score))
                    
                    # 达到最大数量时停止
                    if len(filtered_words) >= max_results:
                        break
            
            # 保存过滤后的结果
            filtered_dict[seed_word] = filtered_words
            
            # 更新进度条
            pbar.update(1)
            pbar.set_postfix({seed_word: f"{len(filtered_words)}/{min(max_results, len(similar_words))} 有效词"})
    
    return filtered_dict

# 主函数：处理inferior_similar_words_dict
def process_inferior_words(inferior_dict, max_results=20):
    """处理inferior_similar_words_dict，保留每个种子词的前max_results个有效相似词"""
    print(f"开始处理 {len(inferior_dict)} 个种子词...")
    
    # 应用过滤
    filtered_dict = filter_top_valid_words(inferior_dict, max_results)
    
    # 输出结果统计
    total_valid_words = sum(len(words) for words in filtered_dict.values())
    print(f"\n处理完成！共保留 {total_valid_words} 个有效相似词")
    
    return filtered_dict

In [None]:
from symspellpy.symspellpy import SymSpell, Verbosity
import inspect

# 打印Verbosity枚举的所有成员
print("Verbosity枚举可用值:")
for member in inspect.getmembers(Verbosity):
    if not member[0].startswith('_'):
        print(f"- {member[0]}")

# 测试单词检查（使用实际存在的枚举值）
test_word = "the"
try:
    # 尝试常见枚举值（按可能性排序）
    for verbosity_name in ["CLOSEST", "ALL", "TOP"]:
        verbosity = getattr(Verbosity, verbosity_name, None)
        if verbosity:
            suggestions = sym_spell.lookup(test_word, verbosity, max_edit_distance=0)
            if suggestions:
                print(f"使用{verbosity_name}成功获取建议: {suggestions[0].term}")
                break
    else:
        raise AttributeError("无可用的verbosity值")
except Exception as e:
    print(f"测试失败: {e}")

In [None]:
from symspellpy.symspellpy import SymSpell, Verbosity
import os

# 词典文件路径（修改为你的实际路径）
dictionary_path = r"D:\zhenfeng zhou\自由的代价\扩展种族主义词典\full articles\全文\frequency_dictionary_en_82_765.txt"
bigram_path = r"D:\zhenfeng zhou\自由的代价\扩展种族主义词典\full articles\全文\frequency_bigramdictionary_en_243_342.txt"

# 初始化SymSpell（设置严格匹配）
sym_spell = SymSpell(
    max_dictionary_edit_distance=0,  # 仅精确匹配（不允许拼写错误）
    prefix_length=7
)

# 加载词典
def load_dictionaries():
    """加载词典并验证完整性"""
    if os.path.exists(dictionary_path):
        sym_spell.load_dictionary(dictionary_path, term_index=0, count_index=1)
        print(f"单词语典加载完成，条目数: {len(sym_spell.words)}")
    else:
        raise FileNotFoundError(f"单词语典不存在: {dictionary_path}")
    
    if os.path.exists(bigram_path):
        sym_spell.load_bigram_dictionary(bigram_path, term_index=0, count_index=2)
        print(f"二元语法词典加载完成，条目数: {len(sym_spell.bigrams)}")
    else:
        print("未找到二元语法词典，仅使用单词语典")

# 按相似度从高到低排序
top_similar_word.sort(key=lambda x: x[1], reverse=True)

# 检查单词是否在词典中（使用CLOSEST枚举）
def is_word_in_dictionary(word):
    suggestions = sym_spell.lookup(
        word,
        verbosity=Verbosity.CLOSEST,  # 使用CLOSEST替代EXACT
        max_edit_distance=0
    )
    return len(suggestions) > 0

# 检查单词完整性和拼写
def is_complete_and_correct(word):
    """
    检查条件：
    1. 纯字母
    2. 非词干（词典存在）
    3. 下划线拆分后各部分正确
    """
    if not word.isalpha():
        return False, "包含非字母字符"
    
    if '_' in word:
        parts = word.split('_')
        for part in parts:
            if not is_word_in_dictionary(part):
                return False, f"拆分错误: {part}"
        return True, "拆分后均正确"
    
    return is_word_in_dictionary(word), "单词存在"

# 过滤单词（取前20个有效词）
def filter_words(words_with_scores, max_results=20):
    filtered = []
    for word, score in words_with_scores:
        is_valid, reason = is_complete_and_correct(word)
        if is_valid:
            filtered.append((word, score, reason))
        if len(filtered) >= max_results:
            break
    return filtered

# 主流程
if __name__ == "__main__":
    try:
        load_dictionaries()
        filtered_results = filter_words(top_similar_word)
        
        print("\n过滤后有效单词（前20个）:")
        for i, (word, score, reason) in enumerate(filtered_results, 1):
            print(f"{i}. {word} (相似度: {score:.4f}) - {reason}")
            
    except Exception as e:
        import traceback
        print(f"执行错误: {str(e)}")
        traceback.print_exc()

In [None]:
from openai import OpenAI

client = OpenAI(api_key='你的api-key')

def filter_similar_words(similar_words):
    """
    similar_words 是一个列表，形如：
    [("thief", 0.8), ("burglars", 0.79), ("robbers", 0.71), ...]
    """

    word_list_str = "\n".join([f"{word} (相似度: {score:.3f})" for word, score in similar_words])

    prompt = f"""
你是一个拼写和词形专家。请根据下面的单词列表，从相似度高到低依次判断，帮我筛选出拼写正确且完整的单词。
请过滤掉：
- 明显拼写错误的词
- 可以包含复合词
- 词干、不完整的词
- 对带下划线的词，请拆分后判断每个单词是否拼写正确且完整（如果其中有一个拼写错误或者不完整，就过滤掉整个词）
请严格按原列表顺序返回满足条件的前20个单词，只返回单词列表，不要解释。

单词列表：
{word_list_str}
"""

    response = client.chat.completions.create(
        model="gpt-4o-mini",
        messages=[
            {"role": "user", "content": prompt}
        ]
    )

    filtered_words_text = response.choices[0].message.content.strip()
    filtered_words = [line.strip() for line in filtered_words_text.split("\n") if line.strip()]

    # 根据模型筛选结果，从原列表找对应相似度，返回元组列表
    word_score_dict = dict(similar_words)
    filtered_word_scores = [(w, word_score_dict[w]) for w in filtered_words if w in word_score_dict]

    return filtered_word_scores

# 示例调用
similar_words = []

result = filter_similar_words(similar_words)
print("筛选后结果（含相似度）：", result)