# 中文分词实践 - Jieba分词

本notebook演示了如何使用jieba库进行中文分词。

## 学习目标
1. 掌握jieba分词的三种模式
2. 理解不同分词模式的应用场景
3. 学习如何使用自定义词典提升分词准确率

## 1. 环境准备

导入jieba分词库，这是Python中最常用的中文分词工具。

In [27]:
# 导入jieba分词库
import jieba

In [28]:
# 定义测试文本
# 使用包含人名、地名、专业名称的句子进行测试
text="小明毕业于北京大学计算机系"

## 2. Jieba分词的三种模式

### 2.1 精确模式（默认模式）

**特点：** 试图将句子最精确地切分，适合文本分析

**使用场景：** 适用于大部分文本处理任务，如情感分析、文本分类等

**API：** `jieba.lcut(text)` 或 `jieba.cut(text)`

In [29]:
# 1. 精确模式
# lcut() 返回list类型的分词结果
# 可以看到：'小明'、'北京大学'、'计算机系' 都被正确识别
jieba.lcut(text)

['小明', '毕业', '于', '北京大学', '计算机系']

### 2.2 全模式

**特点：** 扫描出句子中所有可能的词，速度快但存在冗余

**使用场景：** 适用于需要尽可能多地识别词语的场景

**API：** `jieba.lcut(text, cut_all=True)`

In [30]:
# 2. 全模式
# cut_all=True 启用全模式
# 注意：'北京'和'北京大学'、'计算'和'计算机'等都被切分出来
# 这种模式会产生词语冗余，但能确保不遗漏可能的词
jieba.lcut(text, cut_all=True)

['小', '明', '毕业', '于', '北京', '北京大学', '大学', '计算', '计算机', '计算机系', '算机', '系']

### 2.3 搜索引擎模式

**特点：** 在精确模式基础上，对长词再次切分，提高召回率

**使用场景：** 适用于搜索引擎的分词索引

**API：** `jieba.lcut_for_search(text)`

In [31]:
# 3. 搜索引擎模式
# 在精确模式的基础上，对长词进行再次切分
# 例如：'北京大学' 被切分为 '北京'、'大学'、'北京大学'
# 这样既保留了长词，又提供了短词，提高搜索的召回率
jieba.lcut_for_search(text)

['小明', '毕业', '于', '北京', '大学', '北京大学', '计算', '算机', '计算机', '计算机系']

## 3. 自定义词典

### 为什么需要自定义词典？

jieba的默认词典可能无法识别某些专业领域的词汇，如：
- 新兴技术词汇：云计算、大模型、区块链
- 行业专业术语：云原生、微服务、容器化
- 特定领域词汇：根据业务需求定制

### 自定义词典格式

词典文件每行一个词，格式为：`词语 词频 词性`

例如：
```
云计算 5 n
云原生 3 n
大模型 8 n
```

In [32]:
# 加载自定义词典，用于识别特定领域词汇
# 词典文件路径：./data/user_dict.txt
# 加载后，jieba会优先识别词典中的词语
jieba.load_userdict("./data/user_dict.txt")

## 4. 使用自定义词典的分词效果

加载自定义词典后，专业术语能够被正确识别为一个完整的词。

In [33]:
# 使用自定义词典后的分词效果
# 可以看到'云计算'、'云原生'、'大模型'、'业务流程'等专业词汇被正确识别
# 如果不使用自定义词典，这些词可能会被错误切分
jieba.lcut("随着云计算技术的普及，越来越多企业开始采用云原生架构来部署服务，并借助大模型能力提升智能化水平，实现业务流程的自动化与智能决策。")

['随着',
 '云计算',
 '技术',
 '的',
 '普及',
 '，',
 '越来越',
 '多',
 '企业',
 '开始',
 '采用',
 '云原生',
 '架构',
 '来',
 '部署',
 '服务',
 '，',
 '并',
 '借助',
 '大模型',
 '能力',
 '提升',
 '智能化',
 '水平',
 '，',
 '实现',
 '业务流程',
 '的',
 '自动化',
 '与',
 '智能',
 '决策',
 '。']

## 5. 总结

### Jieba分词模式对比

| 模式 | 特点 | 优点 | 缺点 | 适用场景 |
|------|------|------|------|----------|
| 精确模式 | 最精确的切分 | 准确度高，无冗余 | 可能遗漏某些切分 | 文本分析、情感分析 |
| 全模式 | 扫描所有可能的词 | 覆盖全面 | 存在大量冗余 | 词语提取、关键词识别 |
| 搜索引擎模式 | 精确+细粒度切分 | 平衡准确率和召回率 | 结果相对较多 | 搜索引擎索引 |
