#### 文本预处理及作用:

- 文本语料在输送给模型前一般需要一系列的预处理工作，才能符合模型输入的要求，如:将文本转化成模型需要的张量，规范张量的尺寸等，而科学的文本预处理环节将有效指导模型超参数的选择，提升模型的评估指标

#### 文本处理中包含的主要环节:

- 文本处理的基本方法
- 文本张量表示方法
- 文本语料的数据分析
- 文本特征处理
- 数据增强方法

#### 文本处理的基本方法

- 分词
- 词性标注
- 命名实体识别

#### 文本张量表示方法

- one-hot编码
- Word2vec
- Word Embedding

#### 文本语料的数据分析

- 标签数量分布
- 句子长度分布
- 词频统计与关键词词云

#### 文本特征处理

- 添加n-gram特征
- 文本长度规范

#### 数据增加方法

- 回译数据增加法

#### 重要说明:

- 在实际生产应用中，我们最常使用的两种语言是中文和英文，因此，文本预处理部分的内容都将针对这两种语言进行讲解

In [1]:
import jieba
content = "工信处女干事每月经过下属科室都要亲口交代24口交换机等技术性器件的安装工作"
jieba.cut(content, cut_all=False) # cut_all默认是False

# 将返回一个生成器对象

# 若需直接返回列表内容，使用jieba.lcut即可
jieba.lcut(content, cut_all=False)

Building prefix dict from the default dictionary ...
Loading model from cache /var/folders/2g/d27fqh0s1x15sknzqypt6cd00000gn/T/jieba.cache
Loading model cost 0.722 seconds.
Prefix dict has been built successfully.


['工信处',
 '女干事',
 '每月',
 '经过',
 '下属',
 '科室',
 '都',
 '要',
 '亲口',
 '交代',
 '24',
 '口',
 '交换机',
 '等',
 '技术性',
 '器件',
 '的',
 '安装',
 '工作']

In [5]:
# 全模型分词
    # 把句子中所有的可以成词的词语都扫描出来
jieba.cut(content, cut_all=True)
jieba.lcut(content, cut_all=True)

['工信处',
 '处女',
 '女干事',
 '干事',
 '每月',
 '月经',
 '经过',
 '下属',
 '科室',
 '都',
 '要',
 '亲口',
 '口交',
 '交代',
 '24',
 '口交',
 '交换',
 '交换机',
 '换机',
 '等',
 '技术',
 '技术性',
 '性器',
 '器件',
 '的',
 '安装',
 '安装工',
 '装工',
 '工作']

#### 搜索引擎模式分词
- 在精确模式的基础上，对长词再次切分，提高召回率，适合用于搜索引擎分词

In [6]:
jieba.cut_for_search(content)

<generator object Tokenizer.cut_for_search at 0x7f92f10d6c70>

In [7]:
jieba.lcut_for_search(content)

['工信处',
 '干事',
 '女干事',
 '每月',
 '经过',
 '下属',
 '科室',
 '都',
 '要',
 '亲口',
 '交代',
 '24',
 '口',
 '交换',
 '换机',
 '交换机',
 '等',
 '技术',
 '技术性',
 '器件',
 '的',
 '安装',
 '工作']

#### 中文繁体分词
- 针对中国香港，台湾地区的繁体文本进行分词

#### 添加自定义词典后，jiebaa能够益友识别词典中出现的词汇，提升整体识别准确率
#### 词典格式:每一行分为三部分:词语、词频(可省略)、词性(可省略)，用空格隔开，顺序不可颠倒

In [8]:
jieba.lcut("八一双鹿更名为八一南昌篮球队!")

['八', '一双', '鹿', '更名', '为', '八一', '南昌', '篮球队', '!']

In [10]:
jieba.load_userdict("./userdict.txt")
jieba.lcut("八一双鹿更名为八一南昌篮球队!")

['八一双鹿', '更名', '为', '八一', '南昌', '篮球队', '!']

#### 流行的中英文分词工具hanlp
- 中英文NLP处理工具包，基于tensorflow2.0使用在学术界和行业中推广最先进的深度学习技术

In [12]:
import hanlp
# 加载CTB_CONVSEG预训练模型进行分词任务
tokenizer = hanlp.load('CTB6_CONVSEG')
tokenizer("工信处女干事每月经过下属科室都要亲口交代24口交换机等技术性器件的安装工作")

Decompressing /Users/zhangli/.hanlp/embeddings/convseg_embeddings.zip to /Users/zhangli/.hanlp/embeddings
Loading word2vec from cache [5m[33m...[0m[0m

0.00%    0 KB/14.9 MB Loading word2vec from text file [5m[33m...[0m[0m ETA: 22 h 31 m 58 s

                                               Downloading https://file.hankcs.com/corpus/char_table.zip#CharTable.txt to /Users/zhangli/.hanlp/thirdparty/file.hankcs.com/corpus/char_table.zip
Decompressing /Users/zhangli/.hanlp/thirdparty/file.hankcs.com/corpus/char_table.zip to /Users/zhangli/.hanlp/thirdparty/file.hankcs.com/corpus


['工信处',
 '女',
 '干事',
 '每',
 '月',
 '经过',
 '下属',
 '科室',
 '都',
 '要',
 '亲口',
 '交代',
 '24',
 '口',
 '交换机',
 '等',
 '技术性',
 '器件',
 '的',
 '安装',
 '工作']

                                                

['工信处',
 '女',
 '干事',
 '每',
 '月',
 '经过',
 '下属',
 '科室',
 '都',
 '要',
 '亲口',
 '交代',
 '24',
 '口',
 '交换机',
 '等',
 '技术性',
 '器件',
 '的',
 '安装',
 '工作']

In [13]:
# 进行英文分词，英文分词只需要使用规则即可
tokenizer = hanlp.utils.rules.tokenize_english
tokenizer('Mr. Hankcs bought hankcs.com for 1.5 thousand dollars')

AttributeError: module 'hanlp.utils.rules' has no attribute 'tokenize_english'

#### 什么是命名实体识别

- 命名实体：通常我们将人名、地名、机构名、等专有名词统称命名实体.如：周杰伦、黑山县、孔子学院、24辊方钢矫直机
- 顾名思义，命名实体识别(Named Entity Recongnition, 简称NER)就是识别出一段文本中可能存在的命名实体

#### e.g.

- 鲁迅，浙江绍兴人，五四新文化运动的重要参与者，代表作朝花夕拾
- 鲁迅(人名)，浙江绍兴（地名）人，五四新文化运动（专有名词）的重要参与者，代表作朝花夕拾（专有名词）

#### 命名实体的作用

- 同词汇一样，命名实体也是人类理解文本的基础单元，因此也是AI解决NLP领域高阶任务的重要基础环节


In [14]:
# 使用hanlp进行中文命名实体识别
# 加载中文命名实体识别的预训练模型MSRA_NER_BERT_BASE_ZH
recongnizer = hanlp.load(hanlp.pretrained.ner.MSRA_NER_BERT_BASE_ZH)
# 这里注意它的输入是对句子进行字符分割的列表，因此在句子前加入list()
recongnizer(list('上海华安工业(集团)公司董事长谭旭光和秘书张晚霞来到美图纽约现代艺术博物馆参观'))
# 返回结果是一个装有n个元组的列表,每个元组代表一个命名实体，元组中每一项分别代表具有命名实体

Downloading https://file.hankcs.com/hanlp/ner/ner_bert_base_msra_20211227_114712.zip to /Users/zhangli/.hanlp/ner/ner_bert_base_msra_20211227_114712.zip
Decompressing /Users/zhangli/.hanlp/ner/ner_bert_base_msra_20211227_114712.zip to /Users/zhangli/.hanlp/ner


Downloading (…)okenizer_config.json:   0%|          | 0.00/29.0 [00:00<?, ?B/s]

Downloading (…)lve/main/config.json:   0%|          | 0.00/624 [00:00<?, ?B/s]

Downloading (…)solve/main/vocab.txt:   0%|          | 0.00/110k [00:00<?, ?B/s]

Downloading (…)/main/tokenizer.json:   0%|          | 0.00/269k [00:00<?, ?B/s]

Downloading tf_model.h5:   0%|          | 0.00/478M [00:00<?, ?B/s]

[('上海华安工业(集团)公司', 'NT', 0, 12),
 ('谭旭光', 'NR', 15, 18),
 ('张晚霞', 'NR', 21, 24),
 ('美图', 'NS', 26, 28),
 ('纽约现代艺术博物馆', 'NS', 28, 37)]

In [17]:
# 使用hanlp进行英文命名实体的识别
# 加载英文命名实体识别的预训练模型CONLL03_NER_BERT_BASE_UNCASED_EH
recongnizer = (hanlp.load(hanlp.pretrained.ner.CONLL03_NER_BERT_BASE_CASED_EN))
# 这里注意它的输入是对句子进行分词后的结果，是列表形式
recongnizer(["President", "Obama", "is", "speaking", "at", "the", "White", "House"])

[('Obama', 'PER', 1, 2), ('White House', 'LOC', 6, 8)]

#### 词性标注

- 词性：语言中对词的一种分类方法，以语法特征为主要依据，兼顾词汇意义对词进行划分的结果，常见的词性有14种，如：名词，动词，形容词等
- 顾名思义：词性标注(Part-of-speech tagging，简称POS)就是标注出一段文本中每个词汇的词性

#### e.g.

- 我爱自然语言处理
- 我/rr, 爱/v, 自然语言/n,处理/vn
- rr:人称代词
- v：动词
- n: 名词
- vn:动名词

#### 词性标注的作用

- 词性标注以分词为基础，是对文本语言的另一个角度的理解，因此也常常成为AI解决NLP领域高阶任务的重要基础环节



In [18]:
# 使用jieba进行中文词性标注
import jieba.posseg as pseg
pseg.lcut("我爱北京天安门")

[pair('我', 'r'), pair('爱', 'v'), pair('北京', 'ns'), pair('天安门', 'ns')]

In [21]:
# 使用hanlp进行中文词性标注
# 加载中文命名实体识别的预训练模型(CTB5_POS_RNN_FASTTEXT_ZH)
tagger = hanlp.load(hanlp.pretrained.pos.CTB5_POS_RNN_FASTTEXT_ZH)

# 输入是分词结果列表
tagger(['我', '的', '希望', '是', '希望', '和平'])

Downloading https://dl.fbaipublicfiles.com/fasttext/vectors-wiki/wiki.zh.zip#wiki.zh.bin to /Users/zhangli/.hanlp/thirdparty/dl.fbaipublicfiles.com/fasttext/vectors-wiki/wiki.zh.zip
Decompressing /Users/zhangli/.hanlp/thirdparty/dl.fbaipublicfiles.com/fasttext/vectors-wiki/wiki.zh.zip to /Users/zhangli/.hanlp/thirdparty/dl.fbaipublicfiles.com/fasttext/vectors-wiki/wiki.zh


['PN', 'DEG', 'NN', 'VC', 'VV', 'NN']

In [22]:
# 使用hanlp进行英文词性标注
# 加载英文命名实体识别的预训练模型PTB_POS_RNN_FASTTEXT_EN
tagger = hanlp.load(hanlp.pretrained.pos.PTB_POS_RNN_FASTTEXT_EN)
# 输入是分词结果列表
tagger(['I', 'banked', '2', 'dollars', 'in', 'a', 'bank', '.'])

Downloading https://file.hankcs.com/hanlp/pos/ptb_pos_rnn_fasttext_20220418_101708.zip to /Users/zhangli/.hanlp/pos/ptb_pos_rnn_fasttext_20220418_101708.zip
Decompressing /Users/zhangli/.hanlp/pos/ptb_pos_rnn_fasttext_20220418_101708.zip to /Users/zhangli/.hanlp/pos
Downloading https://dl.fbaipublicfiles.com/fasttext/vectors-crawl/cc.en.300.bin.gz to /Users/zhangli/.hanlp/thirdparty/dl.fbaipublicfiles.com/fasttext/vectors-crawl/cc.en.300.bin.gz
Failed to load https://file.hankcs.com/hanlp/pos/ptb_pos_rnn_fasttext_20220418_101708.zip
If the problem still persists, please submit an issue to https://github.com/hankcs/HanLP/issues
When reporting an issue, make sure to paste the FULL ERROR LOG below.
OS: macOS-10.16-x86_64-i386-64bit
Python: 3.10.11
PyTorch: 1.13.1
TensorFlow: 2.10.0
HanLP: 2.1.0-beta.50


OSError: [Errno 28] No space left on device

#### 小节总结

- 学习什么是分词
	- 分词就是将连续的字序列按照一定的规范重新组合成词序列的过程，我们知道，在英文的行文中，单词之间是以空格作为自然分界符的，而中文只是字，句和段能通过明显分界来简单划界，唯独没有一个形式上的分界符，分词就是找到这样分界符的过程
- 学习分词的作用
	- 词作为语言语义理解的最小单元，是人类理解文本语言的基础，因此也是AI解决NLP领域高阶任务，如自动问答，机器翻译，文本生成的重要基础环节
- 学习了流行中文分词工具jieba
	- 支持多种分词模式，精确模式，全模式，搜索引擎模式
	- 支持中文繁体分词
	- 支持用户自定义词典
- 学习什么是命名实体识别
	- 命名实体:通常我们将人名，地名，机构名等专有名词统称命名实体，如：周杰伦，黑山县。孔子学院，24辊方钢矫直机
	- 顾名思义：命名实体识别(Named Entity Recognition,简称NER)就是识别出一段文件中可能存在的命名实体
- 命名实体的作用
	- 同词汇一样，命名实体也是人类理解文本的基础单元，因此也是AI解决NLP领域高阶任务的重要基础环节
- 词性标注
	- 词性：语言中对词的一种分类方法，以语法特征为主要依据，兼顾词汇意义对词进行划分的结果，常见的词性有14种，如：名词，动词，形容词等
	- 顾名思义：词性标注(Part-of-speech tagging，简称POS)就是标注出一段文本中每个词汇的词性
- 词性标注的作用
	-  词性标注以分词为基础，是对文本语言的另一个角度的理解，因此也常常成为AI解决NLP领域高阶任务的重要基础环节