文本预处理中包含的主要环节：
- 文本处理的基本方法
    - 分词
    - 词性标注
    - 命名实体识别
- 文本张量表示方法
    - one-hot编码
    - word2vec
    - word embedding
- 文本语料的数据分析
    - 标签数量分布
    - 句子长度分布
    - 词频统计与关键词词云
- 文本特征处理
    - 添加n-gram特征
    - 文本长度规范
- 数据增量方法
    - 回译数据增强法

In [2]:
import jieba

In [3]:
# 精确模式分词
content = "工信处女干事每月经过下属科室都要亲口交代23口交换机等技术性器件的安装工作"
jieba.cut(content, cut_all=False)

<generator object Tokenizer.cut at 0x00000282372E9900>

In [4]:
jieba.lcut(content, cut_all=False)

Building prefix dict from the default dictionary ...
Dumping model to file cache C:\Users\Administrator\AppData\Local\Temp\jieba.cache
Loading model cost 0.643 seconds.
Prefix dict has been built successfully.


['工信处',
 '女干事',
 '每月',
 '经过',
 '下属',
 '科室',
 '都',
 '要',
 '亲口',
 '交代',
 '23',
 '口',
 '交换机',
 '等',
 '技术性',
 '器件',
 '的',
 '安装',
 '工作']

In [5]:
# 全模式分词，不能消除歧义
jieba.lcut(content, cut_all=True)

['工信处',
 '处女',
 '女干事',
 '干事',
 '每月',
 '月经',
 '经过',
 '下属',
 '科室',
 '都',
 '要',
 '亲口',
 '口交',
 '交代',
 '23',
 '口交',
 '交换',
 '交换机',
 '换机',
 '等',
 '技术',
 '技术性',
 '性器',
 '器件',
 '的',
 '安装',
 '安装工',
 '装工',
 '工作']

In [7]:
# 搜索引擎模式，在精确模式的基础上，对长词再次切分，提高召回率
jieba.lcut_for_search(content)

['工信处',
 '干事',
 '女干事',
 '每月',
 '经过',
 '下属',
 '科室',
 '都',
 '要',
 '亲口',
 '交代',
 '23',
 '口',
 '交换',
 '换机',
 '交换机',
 '等',
 '技术',
 '技术性',
 '器件',
 '的',
 '安装',
 '工作']

使用用户自定义词典：
- 词典格式：每一行分三部分：词语、词频（可省略）、词性（可省略），用空格隔开

In [8]:
jieba.load_userdict('./userdict.txt')

In [9]:
jieba.lcut("八一双鹿更名为八一南昌篮球队！")

['八一双鹿', '更名', '为', '八一', '南昌', '篮球队', '！']

流行中英文分词工具hanlp
- pip install hanlp[full]

In [10]:
import hanlp

In [29]:
tokenizer = hanlp.load("CTB6_CONVSEG")

                                                

In [14]:
tokenizer("工信处女干事每月经过下属科室都要亲口交代23口交换机等技术性器件的安装工作")

Downloading https://file.hankcs.com/corpus/char_table.zip#CharTable.txt to C:\Users\Administrator\AppData\Roaming\hanlp\thirdparty\file.hankcs.com\corpus/char_table.zip
Decompressing C:\Users\Administrator\AppData\Roaming\hanlp\thirdparty\file.hankcs.com\corpus/char_table.zip to C:\Users\Administrator\AppData\Roaming\hanlp\thirdparty\file.hankcs.com\corpus


['工信处',
 '女',
 '干事',
 '每',
 '月',
 '经过',
 '下属',
 '科室',
 '都',
 '要',
 '亲口',
 '交代',
 '23',
 '口',
 '交换机',
 '等',
 '技术性',
 '器件',
 '的',
 '安装',
 '工作']

In [34]:
tokenizer = hanlp.utils.rules.tokenize_english
tokenizer("Mr. Hankcs bouthgt hankcs.com for 1.5 thousand dollars.")

AttributeError: module 'hanlp.utils.rules' has no attribute 'tokenize_english'

In [27]:
for elem in hanlp.pretrained.ALL.keys():
    print(elem)

SIGHAN2005_PKU_CONVSEG
SIGHAN2005_MSR_CONVSEG
CTB6_CONVSEG
PKU_NAME_MERGED_SIX_MONTHS_CONVSEG
LARGE_ALBERT_BASE
SIGHAN2005_PKU_BERT_BASE_ZH
COARSE_ELECTRA_SMALL_ZH
CTB5_BIAFFINE_DEP_ZH
CTB7_BIAFFINE_DEP_ZH
PTB_BIAFFINE_DEP_EN
SEMEVAL16_NEWS_BIAFFINE_ZH
SEMEVAL16_TEXT_BIAFFINE_ZH
SEMEVAL15_PAS_BIAFFINE_EN
SEMEVAL15_PSD_BIAFFINE_EN
SEMEVAL15_DM_BIAFFINE_EN
GLOVE_6B_50D
GLOVE_6B_100D
GLOVE_6B_200D
GLOVE_6B_300D
GLOVE_840B_300D
CTB5_POS_RNN
CTB5_POS_RNN_FASTTEXT_ZH
CTB9_POS_ALBERT_BASE
CTB9_POS_ELECTRA_SMALL_TF
CTB9_POS_ELECTRA_SMALL
C863_POS_ELECTRA_SMALL
PKU98_POS_ELECTRA_SMALL
PTB_POS_RNN_FASTTEXT_EN
FLAIR_LM_FW_WMT11_EN_TF
FLAIR_LM_BW_WMT11_EN_TF
FLAIR_LM_WMT11_EN
CONVSEG_W2V_NEWS_TENSITE
CONVSEG_W2V_NEWS_TENSITE_WORD_PKU
CONVSEG_W2V_NEWS_TENSITE_WORD_MSR
CONVSEG_W2V_NEWS_TENSITE_CHAR
SEMEVAL16_EMBEDDINGS_CN
SEMEVAL16_EMBEDDINGS_300_NEWS_CN
SEMEVAL16_EMBEDDINGS_300_TEXT_CN
CTB5_FASTTEXT_300_CN
TENCENT_AILAB_EMBEDDING_SMALL_200
TENCENT_AILAB_EMBEDDING_LARGE_200
TENCENT_AILAB_EMBEDDING_S

命名实体：人名、地名、机构名等专有名词。
命名实体识别（Named Entity Recognition，NER）：识别出一段文本中可能存在的命名实体。

In [35]:
# 加载中文命名实体识别的预训练模型
recognizer = hanlp.load(hanlp.pretrained.ner.MSRA_NER_BERT_BASE_ZH)

Downloading https://file.hankcs.com/hanlp/ner/ner_bert_base_msra_20211227_114712.zip to C:\Users\Administrator\AppData\Roaming\hanlp\ner/ner_bert_base_msra_20211227_114712.zip
Decompressing C:\Users\Administrator\AppData\Roaming\hanlp\ner/ner_bert_base_msra_20211227_114712.zip to C:\Users\Administrator\AppData\Roaming\hanlp\ner


Downloading:   0%|          | 0.00/29.0 [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/624 [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/107k [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/263k [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/456M [00:00<?, ?B/s]

In [36]:
list('上海华安工业（集团）公司董事长谭旭光和秘书张婉霞来到美 国纽约现代艺术博物馆参观')

['上',
 '海',
 '华',
 '安',
 '工',
 '业',
 '（',
 '集',
 '团',
 '）',
 '公',
 '司',
 '董',
 '事',
 '长',
 '谭',
 '旭',
 '光',
 '和',
 '秘',
 '书',
 '张',
 '婉',
 '霞',
 '来',
 '到',
 '美',
 ' ',
 '国',
 '纽',
 '约',
 '现',
 '代',
 '艺',
 '术',
 '博',
 '物',
 '馆',
 '参',
 '观']

In [37]:
recognizer(list('上海华安工业（集团）公司董事长谭旭光和秘书张婉霞来到美 国纽约现代艺术博物馆参观'))

[('上海华安工业（集团）公司', 'NT', 0, 12),
 ('谭旭光', 'NR', 15, 18),
 ('张婉霞', 'NR', 21, 24),
 ('美 国', 'NS', 26, 29),
 ('纽约现代艺术博物馆', 'NS', 29, 38)]

In [None]:
# 英文命名实体识别
recognizer = hanlp.load(hanlp.pretrained.ner.CONLL03_NER_BERT_BASE_CASED_EN)
# 输入是对句子进行分词之后的结果
recognizer(['President', 'Obama', 'is', 'speaking', 'at', 'the', 'White', 'House'])

词性标注（Part of Speech Tagging，POS）
- 词性标注以分词为基础。

In [1]:
import jieba.posseg as pseg

In [2]:
pseg.lcut('我爱北京天安门')

Building prefix dict from the default dictionary ...
Loading model from cache C:\Users\Administrator\AppData\Local\Temp\jieba.cache
Loading model cost 0.471 seconds.
Prefix dict has been built successfully.


[pair('我', 'r'), pair('爱', 'v'), pair('北京', 'ns'), pair('天安门', 'ns')]

In [None]:
import hanlp

tagger = hanlp.load(hanlp.pretrained.pos.CTB5_POS_RNN_FASTTEXT_ZH)
tagger(['我', '的', '希望', '是', '希望', '和平'])

In [None]:
tagger = hanlp.load(hanlp.pretrained.pos.PTB_POS_RNN_FASTTEXT_EN)
tagger(['I', 'banked', '2', 'dollars', 'in', 'a', 'bank', '.'])