In [None]:
# 关键词提取

本notebook展示jieba的关键词提取功能，重点介绍TextRank算法。

## 目录
1. TextRank关键词提取算法原理
2. Jieba中TextRank算法的实现逻辑  
3. 关键词提取实践
4. 算法效果对比


In [None]:
# 导入必要的库
import jieba
import jieba.analyse
import jieba.posseg as pseg

# 载入自定义词典
jieba.load_userdict('./userdict.txt')

print("jieba关键词提取模块初始化完成")
print("=" * 50)


In [None]:
# 燕山大学相关句子的关键词提取
target_sentence = "燕山大学是河北省人民政府、教育部、工业和信息化部、国家国防科技工业局四方共建的全国重点大学，河北省重点支持的国家一流大学和世界一流学科建设高校，北京高科大学联盟成员。"

print("目标句子：")
print(target_sentence)
print("\n" + "=" * 80)

# 使用TextRank算法提取关键词
print("基于TextRank算法的关键词抽取：")
print("-" * 40)

# 提取top-5关键词，返回权重
keywords_with_weight = jieba.analyse.textrank(target_sentence, topK=5, withWeight=True)
print("Top-5关键词（含权重）:")
for i, (keyword, weight) in enumerate(keywords_with_weight, 1):
    print(f"{i}. {keyword} (权重: {weight:.4f})")

print("\n" + "-" * 40)

# 对比TF-IDF算法的结果
print("对比：基于TF-IDF算法的关键词抽取")
tfidf_keywords = jieba.analyse.extract_tags(target_sentence, topK=5, withWeight=True)
print("TF-IDF Top-5关键词:")
for i, (keyword, weight) in enumerate(tfidf_keywords, 1):
    print(f"{i}. {keyword} (权重: {weight:.4f})")


In [None]:
# 关键词提取

本notebook展示jieba的关键词提取功能，重点介绍TextRank算法。

## 目录
1. TextRank关键词提取算法原理
2. Jieba中TextRank算法的实现逻辑  
3. 关键词提取实践
4. 算法效果对比


In [None]:
# 导入必要的库
import jieba
import jieba.analyse
import jieba.posseg as pseg

# 载入自定义词典
jieba.load_userdict('./userdict.txt')

print("jieba关键词提取模块初始化完成")
print("=" * 50)


In [None]:
## 1. TextRank关键词提取算法

### TextRank算法原理

TextRank是一种基于图的排序算法，由Google的PageRank算法启发而来，专门用于文本关键词提取和文本摘要。

#### 算法核心思想：
1. **构建词汇图**：将文本中的词汇作为图的节点
2. **建立边关系**：根据词汇之间的共现关系建立有权边  
3. **迭代计算权重**：通过类似PageRank的迭代算法计算每个词汇的重要性得分
4. **排序选择**：根据得分排序，选择top-K个词汇作为关键词

#### 算法流程：

1. **文本预处理**
   - 对文本进行分词
   - 过滤停用词
   - 只保留指定词性的词汇（如名词、动词、形容词等）

2. **构建共现图**
   - 设定滑动窗口大小（通常为5）
   - 在窗口内的词汇之间建立无向边
   - 边的权重可以根据共现频率设定

3. **迭代计算节点权重**
   - 使用类似PageRank的公式：
   ```
   WS(Vi) = (1-d) + d × Σ[wji/Σwjk × WS(Vj)]
   ```
   - 其中d为阻尼系数（通常取0.85）
   - wji为节点j到节点i的边权重

4. **收敛判断与结果输出**
   - 迭代直到权重变化小于阈值
   - 按权重排序，返回前K个词汇

### 算法优势：
- **无监督学习**：不需要训练数据
- **语言无关**：适用于各种语言
- **考虑词汇关系**：比简单统计频率更准确
- **参数可调**：窗口大小、迭代次数等可以调整


In [None]:
## 2. Jieba库中TextRank算法的实现逻辑

### 实现细节：

#### 2.1 词汇过滤策略
```python
# jieba.analyse.textrank的默认词性过滤
allowPOS = ('ns', 'n', 'vn', 'v', 'nr')
```
- **ns**: 地名
- **n**: 普通名词  
- **vn**: 动名词
- **v**: 动词
- **nr**: 人名

#### 2.2 窗口设置
- **默认窗口大小**: 5
- **滑动方式**: 逐词滑动
- **边权重**: 共现次数

#### 2.3 迭代参数
- **最大迭代次数**: 通常为200次
- **收敛阈值**: 权重变化小于0.0001
- **阻尼系数**: 0.85

#### 2.4 关键接口说明

**jieba.analyse.textrank(sentence, topK=20, withWeight=False, allowPOS=('ns','n','vn','v'), withFlag=False)**

参数说明：
- `sentence`: 待分析的文本
- `topK`: 返回几个TF/IDF权重最大的关键词
- `withWeight`: 是否一并返回关键词权重值
- `allowPOS`: 仅包括指定词性的词
- `withFlag`: 是否返回关键词词性


In [None]:
## 3. 关键词提取实践

参考jieba仓库中"基于TextRank算法的关键词抽取"接口介绍，对燕山大学句子提取top-5关键词。


In [None]:
# 燕山大学相关句子的关键词提取
target_sentence = "燕山大学是河北省人民政府、教育部、工业和信息化部、国家国防科技工业局四方共建的全国重点大学，河北省重点支持的国家一流大学和世界一流学科建设高校，北京高科大学联盟成员。"

print("目标句子：")
print(target_sentence)
print("\n" + "=" * 80)

# 使用TextRank算法提取关键词
print("基于TextRank算法的关键词抽取：")
print("-" * 40)

# 提取top-5关键词，不返回权重
keywords = jieba.analyse.textrank(target_sentence, topK=5, withWeight=False)
print("Top-5关键词（不含权重）:")
for i, keyword in enumerate(keywords, 1):
    print(f"{i}. {keyword}")

print("\n" + "-" * 40)

# 提取top-5关键词，返回权重
keywords_with_weight = jieba.analyse.textrank(target_sentence, topK=5, withWeight=True)
print("Top-5关键词（含权重）:")
for i, (keyword, weight) in enumerate(keywords_with_weight, 1):
    print(f"{i}. {keyword} (权重: {weight:.4f})")

print("\n" + "=" * 80)


In [None]:
## 4. 算法效果对比

对比TextRank算法与TF-IDF算法的关键词提取效果。


In [None]:
# 对比TF-IDF算法的结果
print("对比：基于TF-IDF算法的关键词抽取")
print("-" * 40)
tfidf_keywords = jieba.analyse.extract_tags(target_sentence, topK=5, withWeight=True)
print("TF-IDF Top-5关键词:")
for i, (keyword, weight) in enumerate(tfidf_keywords, 1):
    print(f"{i}. {keyword} (权重: {weight:.4f})")

print("\n" + "=" * 80)
print("算法对比总结：")
print("-" * 40)
print("TextRank算法特点：")
print("- 基于图结构，考虑词汇间的共现关系")
print("- 无需预先构建语料库")
print("- 更适合单文档关键词提取")
print("- 能发现语义相关的重要词汇")

print("\nTF-IDF算法特点：")
print("- 基于词频和逆文档频率")
print("- 需要较大语料库计算IDF值")
print("- 更适合多文档集合的关键词提取")
print("- 侧重于统计特征明显的词汇")

print("\n实验结论：")
print("- 两种算法提取的关键词可能存在差异")
print("- TextRank更注重词汇间的关联性")
print("- TF-IDF更注重词汇的统计特征")
print("- 具体应用场景决定算法选择")


In [None]:
# Jieba中文分词与关键词提取

本notebook展示jieba的关键词提取功能，重点介绍TextRank算法。

## 目录
1. 载入词典验证
2. 关键词提取
3. TextRank关键词提取实践


In [None]:
## 1. 载入词典

验证自定义词典的加载效果，确保Hello Kitty等专有名词能被正确识别。


In [None]:
import jieba
import jieba.analyse

# 载入自定义词典
jieba.load_userdict('./userdict.txt')

# 词典加载验证
test_sentence = "Hello Kitty即将是自然语言处理方面的高手。"

print("词典加载验证：")
print("=" * 50)
seg_list = jieba.cut(test_sentence, HMM=False)
result = "/ ".join(seg_list)
print(f"分词结果: {result}")

# 验证Hello Kitty是否被正确识别为一个词
if "Hello Kitty" in result:
    print("✓ Hello Kitty 被正确识别为一个完整词汇")
else:
    print("✗ Hello Kitty 未能被正确识别")


In [None]:
## 2. 关键词提取

### TextRank关键词提取算法

TextRank算法是一种基于图的排序算法，由Google的PageRank算法启发而来，专门用于文本关键词提取和文本摘要。

#### TextRank原理：

1. **构建图结构**：将文本中的词语作为图的节点
2. **建立边权重**：根据词语之间的共现关系建立边，通常在固定窗口大小内共现的词语之间建立连接
3. **迭代计算权重**：使用PageRank算法计算每个节点（词语）的重要性得分
4. **排序选择**：根据得分排序，选择top-K个词语作为关键词

#### 算法流程：

1. 对文本进行分词和词性标注
2. 过滤停用词，只保留指定词性的词语（如名词、动词等）
3. 构建词语共现网络图
4. 在图上运行迭代算法，计算词语权重
5. 对词语权重进行排序，取前K个作为关键词

#### 在Jieba库中TextRank算法的实现逻辑：

- 使用固定窗口大小（默认为5）扫描文本
- 只考虑特定词性的词语（默认：'ns', 'n', 'vn', 'v'）
- 构建无向带权图
- 使用迭代算法计算节点权重，直到收敛


In [None]:
## 3. 关键词提取实践

参考jieba仓库中"基于TextRank算法的关键词抽取"接口介绍，对指定句子提取top-5关键词。


In [None]:
# 燕山大学相关句子的关键词提取
target_sentence = "燕山大学是河北省人民政府、教育部、工业和信息化部、国家国防科技工业局四方共建的全国重点大学，河北省重点支持的国家一流大学和世界一流学科建设高校，北京高科大学联盟成员。"

print("目标句子：")
print(target_sentence)
print("\n" + "=" * 80)

# 使用TextRank算法提取关键词
print("基于TextRank算法的关键词抽取：")
print("-" * 40)

# 提取top-5关键词，不返回权重
keywords = jieba.analyse.textrank(target_sentence, topK=5, withWeight=False)
print("Top-5关键词（不含权重）:")
for i, keyword in enumerate(keywords, 1):
    print(f"{i}. {keyword}")

print("\n" + "-" * 40)

# 提取top-5关键词，返回权重
keywords_with_weight = jieba.analyse.textrank(target_sentence, topK=5, withWeight=True)
print("Top-5关键词（含权重）:")
for i, (keyword, weight) in enumerate(keywords_with_weight, 1):
    print(f"{i}. {keyword} (权重: {weight:.4f})")

print("\n" + "=" * 80)

# 对比TF-IDF算法的结果
print("对比：基于TF-IDF算法的关键词抽取")
print("-" * 40)
tfidf_keywords = jieba.analyse.extract_tags(target_sentence, topK=5, withWeight=True)
print("TF-IDF Top-5关键词:")
for i, (keyword, weight) in enumerate(tfidf_keywords, 1):
    print(f"{i}. {keyword} (权重: {weight:.4f})")


In [None]:
# Jieba中文分词与关键词提取

本notebook展示jieba的中文分词功能和关键词提取算法。

## 目录
1. 载入词典验证
2. 关键词提取原理
3. TextRank关键词提取实践


In [None]:
## 1. 载入词典

验证自定义词典的加载效果，确保Hello Kitty等专有名词能被正确识别。


In [None]:
import jieba
import jieba.analyse

# 载入自定义词典
jieba.load_userdict('./userdict.txt')

# 测试句子 - 使用Hello Kitty作为姓名
test_sentence = "Hello Kitty即将是自然语言处理方面的高手。"

print("词典加载验证：")
print("=" * 50)
seg_list = jieba.cut(test_sentence, HMM=False)
result = "/ ".join(seg_list)
print(f"分词结果: {result}")

# 验证Hello Kitty是否被正确识别为一个词
if "Hello Kitty" in result:
    print("✓ Hello Kitty 被正确识别为一个完整词汇")
else:
    print("✗ Hello Kitty 未能被正确识别")


In [None]:
## 2. 关键词提取

### TextRank关键词提取算法

TextRank是一种基于图的排序算法，用于关键词提取和文档摘要。

#### TextRank原理：

1. **文本预处理**：将文本进行分词，并过滤停用词
2. **构建词汇图**：
   - 将词汇作为图中的节点
   - 根据词汇共现关系（在固定窗口内同时出现）建立边
   - 边的权重可以根据共现频率设定
3. **迭代计算**：
   - 使用类似PageRank的算法计算每个词汇的重要性得分
   - 公式：WS(Vi) = (1-d) + d × Σ(wji/Σwjk) × WS(Vj)
   - 其中d为阻尼系数，通常取0.85
4. **关键词选择**：根据得分排序，选择topK个词作为关键词

#### Jieba中TextRank的实现逻辑：

1. 使用jieba进行分词
2. 过滤指定词性的词汇（默认为名词、动词等）
3. 在固定窗口大小内构建词汇共现图
4. 迭代计算词汇权重直到收敛
5. 返回权重最高的前K个词汇
