In [None]:
# 安装jieba库
import subprocess
import sys

try:
    import jieba
    import jieba.analyse
    print("jieba库已安装")
except ImportError:
    print("正在安装jieba库...")
    subprocess.check_call([sys.executable, "-m", "pip", "install", "jieba"])
    import jieba
    import jieba.analyse
    print("jieba库安装完成")

In [None]:
# 加载自定义词典
import os

# 检查userdict.txt文件是否存在
userdict_path = "userdict.txt"
if os.path.exists(userdict_path):
    jieba.load_userdict(userdict_path)
    print(f"自定义词典 {userdict_path} 加载成功")
    
    # 显示词典内容
    with open(userdict_path, 'r', encoding='utf-8') as f:
        print("词典内容：")
        for line in f:
            print(line.strip())
else:
    print(f"警告：词典文件 {userdict_path} 不存在")

In [None]:
# 词典加载验证
# 使用jieba.cut方法，设置参数HMM=False，对句子进行分词

# 测试句子1：张三
test_sentence1 = "张三即将是自然语言处理方面的高手。"
print("测试句子1：", test_sentence1)
print("分词结果（HMM=False）：")
seg_list1 = jieba.cut(test_sentence1, HMM=False)
result1 = " / ".join(seg_list1)
print(result1)

print("\n" + "-"*50)

# 测试句子2：余妍融
test_sentence2 = "余妍融也即将是自然语言处理方面的高手。"
print("测试句子2：", test_sentence2)
print("分词结果（HMM=False）：")
seg_list2 = jieba.cut(test_sentence2, HMM=False)
result2 = " / ".join(seg_list2)
print(result2)

print("\n分词结果分析：")
print("可以看到，'张三'和'余妍融'都被正确识别为完整的词汇，验证了自定义词典的有效性。")

### 关键词提取实践

In [None]:
# 关键词提取实践
# 使用TextRank算法对指定句子提取top-5关键词

# 测试文本
text = "燕山大学是河北省人民政府、教育部、工业和信息化部、国家国防科技工业局四方共建的全国重点大学，河北省重点支持的国家一流大学和世界一流学科建设高校，北京高科大学联盟成员。"

print("原始文本：")
print(text)
print("\n" + "="*50)

# 使用TextRank算法提取关键词
print("\n【TextRank算法关键词提取】")

# 提取top-5关键词（不带权重）
keywords = jieba.analyse.textrank(text, topK=5, withWeight=False)
print("Top-5关键词（不带权重）：")
for i, keyword in enumerate(keywords, 1):
    print(f"{i}. {keyword}")

print("\n" + "-"*30)

# 提取top-5关键词（带权重）
keywords_with_weight = jieba.analyse.textrank(text, topK=5, withWeight=True)
print("Top-5关键词（带权重）：")
for i, (keyword, weight) in enumerate(keywords_with_weight, 1):
    print(f"{i}. {keyword} (权重: {weight:.4f})")

print("\n" + "="*50)

# 对比TF-IDF算法结果
print("\n【TF-IDF算法关键词提取对比】")
tfidf_keywords = jieba.analyse.extract_tags(text, topK=5, withWeight=True)
print("Top-5关键词（TF-IDF）：")
for i, (keyword, weight) in enumerate(tfidf_keywords, 1):
    print(f"{i}. {keyword} (权重: {weight:.4f})")

In [None]:
# 分析词语分词结果，验证自定义词典的效果
print("【分词结果分析】")
print("分析燕山大学相关词语的分词效果：")

# 对测试文本进行分词
seg_result = jieba.cut(text, HMM=False)
seg_list = list(seg_result)

print("完整分词结果：")
print(" / ".join(seg_list))

print("\n关键机构名称识别情况：")
target_words = ["燕山大学", "河北省", "教育部", "工业和信息化部", "国家国防科技工业局", "北京高科大学联盟"]
for word in target_words:
    if word in seg_list:
        print(f"✓ '{word}' - 被正确识别为完整词汇")
    else:
        print(f"✗ '{word}' - 可能被拆分")