# 文本分析

## 文本分析概述

文本分析是指对文本的表示及其特征项的选取；文本分析是文本挖掘、信息检索的一个基本问题，它把从文本中抽取出的特征词进行量化以表示文本信息。

## 结构/非结构化数据

- 结构化数据：指的就是可以用二维表组织、分析处理过程较为明确的信息，可以将这种结构化的二维表组织方式理解为一个表格，表格里的每一个元素都被明确标记并很容易被识别。数字、符号等属于结构化数据。
- 非结构化数据：指多种信息的无结构混合，通常无法直接知道或明确理解其内部结构，只有经过识别、有条理的存储分析后才能体现其结构化特征，通过文本挖掘，发现价值。文本、图片、声音、视频等属于非结构化数据。
- 半结构化数据：介于结构化数据和非结构化数据两者之间的数据称为半结构化数据，大多数文本，既包含标题、作者、分类等结构字段，又包含非结构化的文字内容，这类文本均属于半结构化数据。如，新闻等。

## 文本数据特点

（1）非结构化（非结构化数据占绝大部分）  
（2）海量数据  
（3）高维稀疏性  
（4）语义/情感

## 自然语言处理——NLP

自然语言处理（Natural Language Processing，NLP）作为计算机科学领域与人工智能领域中的一个重要方向，是处理文本信息的一种重要手段。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。主要包括以下内容：

- 机器翻译
- 自动摘要
- 文本分类
- 信息检索
- 信息抽取
- 自动问答
- 情感分析
- ……

## 文本挖掘的应用

- 词频分析
- 关键词提取
- 语义网
- 文本分类
- 情感分析
- 主题模型
- ……

## 算法原理

### TF-IDF

TF-IDF是一种用于信息检索与数据挖掘的常用加权技术，用以评估一字词对于一个文件集及或一个语料库中的其中一份文件的重要程度。

- **TF（Term Frequency）词频**，某个词在文章中出现的次数或频率。如果某篇文章中的某个词出现多次，那这个词可能是比较重要的词。
- **IDF（Inverse Document Frequency）逆文档频率**，指词语“权重”的度量。在词频的基础上，如果一个词在多篇文档中词频较低，也就表示这是一个比较少见的词，但却在某一篇文章中出现了很多次，**则这个词IDF值越大，在这篇文章中的“权重”越大**。即，当一个词越常见，其IDF值越低。
- 当计算出TF和IDF值后，**两数相乘即为TF-IDF**：**某词的TF-IDF值越高，说明其在这篇文章中的重要性越高，越有可能是文章的关键词。**

![image.png](attachment:image.png)

### TextRank

TextRank算法是一种用于文本的基于图的排序算法。

- 基本思想：来源于谷歌的PageRank算法，通过把文本分割成若干组成单元（单词、句子）并建立图模型，利用投票机制对文本中的重要成分进行排序。
- 优点：不需要事先对多篇文档进行学习训练，仅利用单篇文档本身的信息即可实现关键词提取、文摘，因其简洁有效而得到广泛应用。

PageRank最开始用来计算网页的重要性。整个互联网可以看做一张有向图，节点是网页。如果网页A存在到网页B的链接，那么有一条从网页B指向网页A的有向边。

![image.png](attachment:image.png)

其中，S(Vi)是网页i的重要性（PR值），d是阻尼系数，一般设置为0.85，In(Vi)是存在指向网页i的链接的网页集合，Out(Vj)是网页j中的链接存在链接指向网页的集合，|Out(Vj)|是集合中元素的个数。

# 分词

分词，是将连续字符组成的语句按照一定规则划分成一个个独立词语的过程。

- 停用词：“This”，“that”，“的”、“地”、“啊”，……
- 歧义词：我们需要有自主权→自主/主权
- 未登录词（训练时未出现，测试时出现了的单词）：“喜大普奔”，“洪荒之力”，……

![image.png](attachment:image.png)

## 英文分词-NLTK

NLTK是构建Python程序以使用人类语言数据的领先平台。 它为50多种语料库和词汇资源（如WordNet）提供了易于使用的界面， 还提供了一套用于分类，标记化，词干化，标记，解析和语义推理的文本处理库。 NLTK是Python上著名的⾃然语⾔处理库 ⾃带语料库，具有词性分类库 ⾃带分类，分词，等等功能。 NLTK被称为“使用Python进行教学和计算语言学工作的绝佳工具”，以及“用自然语言进行游戏的神奇类库”。

### 使用 NLTK 分析单词和句子

#### 安装NLTK

`pip install nltk`

#### 配置NLTK

In [12]:
import nltk
nltk.download()

showing info https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/index.xml
showing info https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/index.xml


True

`import nltk`  
`nltk.download()`  
NLTK 模块将占用大约 7MB，整个nltk_data目录将占用大约 1.8GB，其中包括您的分块器，解析器和语料库。

NLTK git地址：https://github.com/nltk/nltk_data

#### 开始使用 NLTK

手工下载的NLTK数据使用时需要让NLTK知道在什么地方， nltk 模块 data 用来完成这个任务。

In [13]:
import nltk
from nltk import data

data.path.append("../../../../../data/03.nlp/nltk_data/")
data.path

['C:\\Users\\IKAS/nltk_data',
 'D:\\Anaconda\\nltk_data',
 'D:\\Anaconda\\share\\nltk_data',
 'D:\\Anaconda\\lib\\nltk_data',
 'C:\\Users\\IKAS\\AppData\\Roaming\\nltk_data',
 'C:\\nltk_data',
 'D:\\nltk_data',
 'E:\\nltk_data',
 '../data/nltk_data/packages',
 '../../../../../data/03.nlp/nltk_data/']

现在你已经拥有了所有你需要的东西，让我们敲一些简单的词汇：

- 语料库（Corpus） - 文本的正文，单数。Corpora 是它的复数。示例：A collection of medical journals。

- 词库（Lexicon） - 词汇及其含义。例如：英文字典。但是，考虑到各个领域会有不同的词库。例如：对于金融投资者来说，Bull （牛市）这个词的第一个含义是对市场充满信心的人，与“普通英语词汇”相比，这个词的第一个含义是动物。因此，金融投资者，医生，儿童，机械师等都有一个特殊的词库。

- 标记（Token） - 每个“实体”都是根据规则分割的一部分。例如，当一个句子被“拆分”成单词时，每个单词都是一个标记。如果您将段落拆分为句子，则每个句子也可以是一个标记。

In [14]:
from nltk.tokenize import sent_tokenize, word_tokenize

In [15]:
EXAMPLE_TEXT = "Hello Mr. Smith, how are you doing today? The weather is great, and Python is awesome. The sky is pinkish-blue. You shouldn't eat cardboard."

#### 划分句子

In [16]:
sent_tokenize(EXAMPLE_TEXT)

['Hello Mr. Smith, how are you doing today?',
 'The weather is great, and Python is awesome.',
 'The sky is pinkish-blue.',
 "You shouldn't eat cardboard."]

起初，你可能会认为按照词或句子来分词，是一件相当微不足道的事情。 对于很多句子来说，它可能是。 第一步可能是执行一个简单的.split('. ')，或按照句号，然后是空格分割。 之后也许你会引入一些正则表达式，来按照句号，空格，然后是大写字母分割。 问题是像Mr. Smith这样的事情，还有很多其他的事情会给你带来麻烦。 按照词分割也是一个挑战，特别是在考虑缩写的时候，例如we和we're。 NLTK 用这个看起来简单但非常复杂的操作为您节省大量的时间。

上面的代码会输出句子，分成一个句子列表，你可以用for循环来遍历。

所以这里，我们创建了标记，它们都是句子。

#### 分词

In [6]:
word_tokenize(EXAMPLE_TEXT)

['Hello',
 'Mr.',
 'Smith',
 ',',
 'how',
 'are',
 'you',
 'doing',
 'today',
 '?',
 'The',
 'weather',
 'is',
 'great',
 ',',
 'and',
 'Python',
 'is',
 'awesome',
 '.',
 'The',
 'sky',
 'is',
 'pinkish-blue',
 '.',
 'You',
 'should',
 "n't",
 'eat',
 'cardboard',
 '.']

这里有几件事要注意。 首先，注意标点符号被视为一个单独的标记。 另外，注意单词shouldn't分隔为should和n't。 最后要注意的是，pinkish-blue确实被当作“一个词”来对待，本来就是这样。很酷！

### NLTK 与停止词

#### 停止词的概念

一般来说，计算机使用数字来表示一切事物，但是我们经常直接在编程中看到使用二进制信号（ True 或 False ，可以直接转换为 1 或 0 ， 直接来源于电信号存在 (True, 1) 或不存在 (False, 0) ）。 为此，我们需要一种方法,将单词转换为数值或信号模式。 将数据转换成计算机可以理解的东西，这个过程称为“预处理”。 预处理的主要形式之一就是过滤掉无用的数据。在自然语言处理中，无用词（数据）被称为停止词。

我们可以立即认识到，有些词语比其他词语更有意义。我们也可以看到，有些单词是无用的，是填充词。 例如，我们在英语中使用它们来填充句子，这样就没有那么奇怪的声音了。 一个最常见的，非官方的，无用词的例子是单词 umm 。 人们经常用 umm 来填充，比别的词多一些。 这个词毫无意义，除非我们正在寻找一个可能缺乏自信，困惑，或者说没有太多话的人。 我们都这样做，有…呃…很多时候，你可以在视频中听到我说 umm 或 uhh 。 对于大多数分析而言，这些词是无用的。

我们不希望这些词占用我们数据库的空间，或占用宝贵的处理时间。 因此，我们称这些词为“无用词”，因为它们是无用的，我们希望对它们不做处理。 “停止词”这个词的另一个版本可以更书面一些：我们停在上面的单词。

#### 在 NLTK 中使用停止词

In [18]:
import nltk
from nltk.corpus import stopwords
set(stopwords.words('english')) # 所有英文停止词

{'a',
 'about',
 'above',
 'after',
 'again',
 'against',
 'ain',
 'all',
 'am',
 'an',
 'and',
 'any',
 'are',
 'aren',
 "aren't",
 'as',
 'at',
 'be',
 'because',
 'been',
 'before',
 'being',
 'below',
 'between',
 'both',
 'but',
 'by',
 'can',
 'couldn',
 "couldn't",
 'd',
 'did',
 'didn',
 "didn't",
 'do',
 'does',
 'doesn',
 "doesn't",
 'doing',
 'don',
 "don't",
 'down',
 'during',
 'each',
 'few',
 'for',
 'from',
 'further',
 'had',
 'hadn',
 "hadn't",
 'has',
 'hasn',
 "hasn't",
 'have',
 'haven',
 "haven't",
 'having',
 'he',
 'her',
 'here',
 'hers',
 'herself',
 'him',
 'himself',
 'his',
 'how',
 'i',
 'if',
 'in',
 'into',
 'is',
 'isn',
 "isn't",
 'it',
 "it's",
 'its',
 'itself',
 'just',
 'll',
 'm',
 'ma',
 'me',
 'mightn',
 "mightn't",
 'more',
 'most',
 'mustn',
 "mustn't",
 'my',
 'myself',
 'needn',
 "needn't",
 'no',
 'nor',
 'not',
 'now',
 'o',
 'of',
 'off',
 'on',
 'once',
 'only',
 'or',
 'other',
 'our',
 'ours',
 'ourselves',
 'out',
 'over',
 'own',
 'r

以下是结合使用stop_words集合，从文本中删除停止词的方法：

In [22]:
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize

example_sent = "This is a sample sentence, showing off the stop words filtration."

stop_words = set(stopwords.words('english'))

word_tokens = word_tokenize(example_sent)

filtered_sentence = [w for w in word_tokens if w not in stop_words]

print(word_tokens)
print(filtered_sentence)

['This', 'is', 'a', 'sample', 'sentence', ',', 'showing', 'off', 'the', 'stop', 'words', 'filtration', '.']
['This', 'sample', 'sentence', ',', 'showing', 'stop', 'words', 'filtration', '.']


### NLTK 英文词干提取

词干的概念是一种规范化方法。除涉及时态之外，许多词语的变体都具有相同的含义。

我们提取词干的原因是为了缩短查找的时间，使句子正常化。

考虑：

I was taking a ride in the car. I was riding in the car.

In [23]:
from nltk.stem import PorterStemmer

ps = PorterStemmer()

现在让我们选择一些带有相似词干的单词，例如：

In [26]:
example_words = ["python","pythoner","pythoning","pythoned","pythonly"]

下面，我们可以这样做来轻易提取词干：

In [28]:
for w in example_words:
    print(ps.stem(w))

python
python
python
python
pythonli


现在让我们尝试对一个典型的句子，而不是一些单词提取词干：

In [29]:
new_text = "It is important to by very pythonly while you are pythoning with python. All pythoners have pythoned poorly at least once."
words = word_tokenize(new_text)

for w in words:
    print(ps.stem(w))

it
is
import
to
by
veri
pythonli
while
you
are
python
with
python
.
all
python
have
python
poorli
at
least
onc
.


### NLTK 词性标注

NLTK模块的一个更强大的方面是，它可以为你做词性标注。 意思是把一个句子中的单词标注为名词，形容词，动词等。 更令人印象深刻的是，它也可以按照时态来标记，以及其他。 这是一列标签，它们的含义和一些例子：

POS tag list:  
|词性|解释|
|-----|-----|
|CC|coordinating conjunction|
|CD|cardinal digit|
|DT|determiner|
|EX|existential there (like: “there is” … think of it like “there exists”)|
|FW|foreign word|
|IN|preposition/subordinating conjunction|
|JJ|adjective ‘big’|
|JJR|adjective, comparative ‘bigger’|
|JJS|adjective, superlative ‘biggest’|
|LS|list marker 1)|
|MD|modal could, will|
|NN|noun, singular ‘desk’|
|NNS|noun plural ‘desks’|
|NNP|proper noun, singular ‘Harrison’|
|NNPS|proper noun, plural ‘Americans’|
|PDT|predeterminer ‘all the kids’|
|POS|possessive ending parent’s|
|PRP|personal pronoun I, he, she|
|PRP＄|possessive pronoun my, his, hers|
|RB|adverb very, silently,|
|RBR|adverb, comparative better|
|RBS|adverb, superlative best|
|RP|particle give up|
|TO|to go ‘to’ the store.|
|UH|interjection errrrrrrrm|
|VB|verb, base form take|
|VBD|verb, past tense took|
|VBG|verb, gerund/present participle taking|
|VBN|verb, past participle taken|
|VBP|verb, sing. present, non-3d take|
|VBZ|verb, 3rd person sing. present takes|
|WDT|wh-determiner which|
|WP|wh-pronoun who, what|
|WP＄|possessive wh-pronoun whose|
|WRB|wh-abverb where, when|

我们如何使用这个？ 当我们处理它的时候，我们要讲解一个新的句子标记器，叫做PunktSentenceTokenizer。 这个标记器能够无监督地进行机器学习，所以你可以在你使用的任何文本上进行实际的训练。 首先，让我们获取一些我们打算使用的导入：

In [30]:
from nltk.corpus import state_union
from nltk.tokenize import PunktSentenceTokenizer

现在让我们创建训练和测试数据，使用state_union语料库阅读器：

In [31]:
train_text = state_union.raw("2005-GWBush.txt")
sample_text = state_union.raw("2006-GWBush.txt")

一个是 2005 年以来的国情咨文演说，另一个是 2006 年以来的乔治·W·布什总统的演讲。

接下来，我们可以训练 Punkt 标记器，如下所示：

In [32]:
custom_sent_tokenizer = PunktSentenceTokenizer(train_text)

之后我们可以实际分词，使用：

In [33]:
tokenized = custom_sent_tokenizer.tokenize(sample_text)

现在我们可以通过创建一个函数，来完成这个词性标注脚本，该函数将遍历并标记每个句子的词性，如下所示：

In [34]:
def process_content():
    try:
        for i in tokenized[:5]:
            words = nltk.word_tokenize(i)
            tagged = nltk.pos_tag(words)
            print(tagged)

    except Exception as e:
        print(str(e))


process_content()

[('PRESIDENT', 'NNP'), ('GEORGE', 'NNP'), ('W.', 'NNP'), ('BUSH', 'NNP'), ("'S", 'POS'), ('ADDRESS', 'NNP'), ('BEFORE', 'IN'), ('A', 'NNP'), ('JOINT', 'NNP'), ('SESSION', 'NNP'), ('OF', 'IN'), ('THE', 'NNP'), ('CONGRESS', 'NNP'), ('ON', 'NNP'), ('THE', 'NNP'), ('STATE', 'NNP'), ('OF', 'IN'), ('THE', 'NNP'), ('UNION', 'NNP'), ('January', 'NNP'), ('31', 'CD'), (',', ','), ('2006', 'CD'), ('THE', 'NNP'), ('PRESIDENT', 'NNP'), (':', ':'), ('Thank', 'NNP'), ('you', 'PRP'), ('all', 'DT'), ('.', '.')]
[('Mr.', 'NNP'), ('Speaker', 'NNP'), (',', ','), ('Vice', 'NNP'), ('President', 'NNP'), ('Cheney', 'NNP'), (',', ','), ('members', 'NNS'), ('of', 'IN'), ('Congress', 'NNP'), (',', ','), ('members', 'NNS'), ('of', 'IN'), ('the', 'DT'), ('Supreme', 'NNP'), ('Court', 'NNP'), ('and', 'CC'), ('diplomatic', 'JJ'), ('corps', 'NN'), (',', ','), ('distinguished', 'JJ'), ('guests', 'NNS'), (',', ','), ('and', 'CC'), ('fellow', 'JJ'), ('citizens', 'NNS'), (':', ':'), ('Today', 'VB'), ('our', 'PRP$'), ('nat

输出应该是元组列表，元组中的第一个元素是单词，第二个元素是词性标签。

### NLTK 朴素贝叶斯分类器

In [38]:
from nltk.corpus import movie_reviews
import random

documents = [(list(movie_reviews.words(fileid)), category)
             for category in movie_reviews.categories()
             for fileid in movie_reviews.fileids(category)]

all_words = []

for w in movie_reviews.words():
    all_words.append(w.lower())

all_words = nltk.FreqDist(all_words)
word_features = list(all_words.keys())[:3000]


def find_features(document):
    words = set(document)
    features = {}
    for w in word_features:
        features[w] = (w in words)

    return features


featuresets = [(find_features(rev), category) for (rev, category) in documents]
training_set = featuresets[:1900]
testing_set = featuresets[1900:]

In [41]:
classifier = nltk.NaiveBayesClassifier.train(training_set)

In [42]:
print("Classifier accuracy percent:",(nltk.classify.accuracy(classifier, testing_set))*100)

Classifier accuracy percent: 77.0


接下来，我们可以进一步了解正面或负面评论中最有价值的词汇：

In [43]:
classifier.show_most_informative_features(15)

Most Informative Features
                 idiotic = True              neg : pos    =     12.1 : 1.0
                  annual = True              pos : neg    =     10.7 : 1.0
               atrocious = True              neg : pos    =     10.5 : 1.0
                   sucks = True              neg : pos    =      9.5 : 1.0
                 frances = True              pos : neg    =      9.3 : 1.0
           unimaginative = True              neg : pos    =      7.5 : 1.0
                 cunning = True              pos : neg    =      7.0 : 1.0
                  sexist = True              neg : pos    =      6.9 : 1.0
             silverstone = True              neg : pos    =      6.9 : 1.0
                  regard = True              pos : neg    =      6.9 : 1.0
              schumacher = True              neg : pos    =      6.7 : 1.0
                    mena = True              neg : pos    =      6.3 : 1.0
                  shoddy = True              neg : pos    =      6.3 : 1.0

## 中文分词-jieba

NLP（自然语言）领域现在可谓是群雄纷争，各种开源组件层出不穷，其中一支不可忽视的力量便是jieba分词，号称要做最好的 Python 中文分词组件。

“最好的”这三个字可不是空穴来风，jieba在开源社区的受欢迎程度非常之高。

支持繁体分词

支持自定义词典

MIT 授权协议

jieba项目目前的github star数已经达到24k，其他热门分词组件像HanLP star数20k、ansj_seg star数5.6k、pkuseg-python star数5k。 可见jieba已经稳居中文分词领域c位。

jieba的主要功能是做中文分词，可以进行简单分词、并行分词、命令行分词，当然它的功能不限于此， 目前还支持关键词提取、词性标注、词位置查询等。

更让人愉悦的是jieba虽然立足于python，但同样支持其他语言和平台， 诸如：C++、Go、R、Rust、Node.js、PHP、 iOS、Android等。 所以jieba能满足各类开发者的需求。

### 安装jieba 

`pip install jieba`

### jieba分词

为了让计算机更容易理解文本，通常中文信息处理的第一步是中文分词。中文分词是在中文句子中的词与词之间加上边界标记。

支持 4 种分词模式：

- 精确模式：试图将句子 最精确地切开 ，适合文本分析。

- 全模式：把句子中 所有可以成词的词语都扫描出来 ，速度非常快，但是不能解决歧义。

- 搜索引擎模式： 在精确模式的基础上，对长词再次切分 ，提高召回率，适合用于搜索引擎分词。

- paddle模式: 不必安装额外类库，可直接在 jieba 中使用。

In [46]:
import jieba

str_text = '我来到北京清华大学'
print(str)
print('精确模式：', jieba.lcut(str_text))
print('全模式：', jieba.lcut(str_text, cut_all=True))
print('搜索引擎模式：', jieba.lcut_for_search(str_text))
print('paddle模式：', jieba.lcut(str_text, use_paddle=True))

Building prefix dict from the default dictionary ...


<class 'str'>


Dumping model to file cache C:\Users\IKAS\AppData\Local\Temp\jieba.cache
Loading model cost 0.874 seconds.
Prefix dict has been built successfully.


精确模式： ['我', '来到', '北京', '清华大学']
全模式： ['我', '来到', '北京', '清华', '清华大学', '华大', '大学']
搜索引擎模式： ['我', '来到', '北京', '清华', '华大', '大学', '清华大学']
paddle模式： ['我', '来到', '北京', '清华大学']


函数说明
- jieba.cut 方法接受四个输入参数: 需要分词的字符串； cut_all 参数用来控制是否采用全模式； HMM 参数用来控制是否使用 HMM 模型； use_paddle 参数用来控制是否使用paddle分词模式，paddle模式采用延迟加载方式，通过enable_paddle接口安装paddlepaddle-tiny，并且 import 相关代码；

- jieba.cut_for_search 方法接受两个参数：需要分词的字符串；是否使用 HMM 模型。该方法适合用于搜索引擎构建倒排索引的分词，粒度比较细。待分词的字符串可以是 unicode 或 UTF-8 字符串、GBK 字符串。注意：不建议直接输入 GBK 字符串，可能无法预料地错误解码成 UTF-8

- jieba.cut 以及 jieba.cut_for_search 返回的结构都是一个可迭代的 generator，可以使用 for 循环来获得分词后得到的每一个词语(unicode)，或者用 jieba.lcut 以及 jieba.lcut_for_search 直接返回列表

- jieba.Tokenizer(dictionary=DEFAULT_DICT) 新建自定义分词器，可用于同时使用不同词典。 jieba.dt 为默认分词器，所有全局分词相关函数都是该分词器的映射。

In [47]:
import jieba, math
import jieba.analyse

str_text="长春地处中国东北地区，位于东北的地理中心，别称北国春城。"

全模式 cut_all=True ：

In [49]:
str_quan1 = jieba.cut(str_text, cut_all=True)
print('全模式分词：{ %d}' % len(list(str_quan1)))
str_quan2=jieba.cut(str_text,cut_all=True)
print("/".join(str_quan2))

全模式分词：{ 19}
长春/春地/地处/中国/东北/东北地区/北地/地区/，/位于/东北/的/地理/中心/，/别称/北国/春城/。


精准模式cut_all=False

In [50]:
str_jing1 = jieba.cut(str_text, cut_all=False)
print('精准模式分词：{ %d}' % len(list(str_jing1)))
str_jing2 = jieba.cut(str_text, cut_all=False)
print("/".join(str_jing2))

精准模式分词：{ 15}
长春/地处/中国/东北地区/，/位于/东北/的/地理/中心/，/别称/北国/春城/。


搜索引擎模式 cut_for_search ：

In [51]:
str_soso1 = jieba.cut_for_search(str_text)
print('搜索引擎分词：{ %d}' % len(list(str_soso1)))
str_soso2 = jieba.cut_for_search(str_text)
print("/".join(str_soso2))

搜索引擎分词：{ 18}
长春/地处/中国/东北/北地/地区/东北地区/，/位于/东北/的/地理/中心/，/别称/北国/春城/。


使用paddle模式 use_paddle=True ：

In [52]:
seg_list = jieba.cut(str_text, use_paddle=True)
print('Paddle 模式分词：{ %d}' % len(list(seg_list)))
seg_list2 = jieba.cut(str_text, use_paddle=True)
print('/'.join(list(seg_list2)))

Paddle 模式分词：{ 15}
长春/地处/中国/东北地区/，/位于/东北/的/地理/中心/，/别称/北国/春城/。


In [53]:
str_text = '''其一，中国的城市，包括直辖市、副省级市、普通地级市、县级市，但不包括县。

正如《中国城市大趋势》一书所分析的，县与县级市虽然级别相同，但定位有巨大差别。县是以农业为基础的管理单元，县级市则以工商业为主。

对于县，地级市进行直管；对于县级市，地级市则只是代管。

名义之别，导致了县级市与其所在地级市，均被视为独立城市，从而单薄市级层面的人口规模，如昆山与苏州，晋江与泉州，义乌与金华。

其二，衡量城市规模，看的是城区人口，而非全市人口。

城区人口，顾名思义，不包括镇区及乡村人口，明显低于全市常住人口。城区人口占全市人口比例最高可达9成以上，最低甚至不到20%。

凡是城镇化率不高的地区，或者下辖县乡过多的城市，即使全市人口迈过了千万大关，也未必能晋级为超大特大城市。

02

7个超大城市：4大一线+成渝津

超大城市，是我国城市规模层级的金字塔尖城市。

目前，我国共有7个超大城市，除了北上广深四大一线城市，还有重庆、天津两大直辖市，以及成都。'''

print(jieba.lcut(str_text))

['其一', '，', '中国', '的', '城市', '，', '包括', '直辖市', '、', '副', '省级', '市', '、', '普通', '地级市', '、', '县级市', '，', '但', '不', '包括', '县', '。', '\n', '\n', '正如', '《', '中国', '城市', '大', '趋势', '》', '一书', '所', '分析', '的', '，', '县', '与', '县级市', '虽然', '级别', '相同', '，', '但', '定位', '有', '巨大', '差别', '。', '县', '是', '以', '农业', '为', '基础', '的', '管理', '单元', '，', '县级市', '则', '以', '工商业', '为主', '。', '\n', '\n', '对于', '县', '，', '地级市', '进行', '直管', '；', '对于', '县级市', '，', '地级市', '则', '只是', '代管', '。', '\n', '\n', '名义', '之别', '，', '导致', '了', '县级市', '与其', '所在', '地级市', '，', '均', '被', '视为', '独立', '城市', '，', '从而', '单薄', '市级', '层面', '的', '人口', '规模', '，', '如', '昆山', '与', '苏州', '，', '晋江', '与', '泉州', '，', '义乌', '与', '金华', '。', '\n', '\n', '其二', '，', '衡量', '城市', '规模', '，', '看', '的', '是', '城区', '人口', '，', '而', '非', '全市', '人口', '。', '\n', '\n', '城区', '人口', '，', '顾名思义', '，', '不', '包括', '镇区', '及', '乡村人口', '，', '明显', '低于', '全市', '常住人口', '。', '城区', '人口', '占', '全市', '人口比例', '最高', '可达', '9', '成', '以上', '，', '最低', '甚至', '不到', '20%', '。', '\n'

### 关键词抽取（核心词抽取）

关键词抽取就是从文本里面把跟这篇文档意义最相关的一些词抽取出来。这个可以追溯到文献检索初期，当时还不支持全文搜索的时候，关键词就可以作为搜索这篇论文的词语。 这是对论文进行标识的重要方法，目前依然可以在论文中看到关键词这一项。

除了这些，关键词还可以在文本聚类、分类、自动摘要等领域中有着重要的作用。 比如在聚类时将关键词相似的几篇文档看成一个团簇，可以大大提高聚类算法的收敛速度； 从某天所有的新闻中提取出这些新闻的关键词，就可以大致了解那天发生了什么事情； 或者将某段时间内几个人的微博拼成一篇长文本，然后抽取关键词就可以知道他们主要在讨论什么话题。

总之，关键词就是最能够反映出文本主题或者意思的词语。但是网络上写文章的人不会像写论文那样告诉你本文的关键词是什么，这个时候就需要利用计算机自动抽取出关键词，算法的好坏直接决定了后续步骤的效果。

关键词抽取从方法来说大致有两种：

- 第一种是关键词分配，就是有一个给定的关键词库，然后新来一篇文档，从词库里面找出几个词语作为这篇文档的关键词；

- 第二种是关键词抽取，就是新来一篇文档，从文档中抽取一些词语作为这篇文档的关键词；

目前大多数领域无关的关键词抽取算法（领域无关算法的意思就是无论什么主题或者领域的文本都可以抽取关键词的算法）和它对应的库都是基于后者的。 从逻辑上说，后者比前着在实际使用中更有意义。

从算法的角度来看，关键词抽取算法主要有两类：

- **有监督学习算法**，将关键词抽取过程视为二分类问题，先抽取出候选词，然后对于每个候选词划定标签，要么是关键词，要么不是关键词，然后训练关键词抽取分类器。当新来一篇文档时，抽取出所有的候选词，然后利用训练好的关键词抽取分类器，对各个候选词进行分类，最终将标签为关键词的候选词作为关键词；

- **无监督学习算法**，先抽取出候选词，然后对各个候选词进行打分，然后输出topK个分值最高的候选词作为关键词。根据打分的策略不同，有不同的算法，例如TF-IDF，TextRank等算法；

jieba分词系统中实现了两种关键词抽取算法，分别是基于TF-IDF关键词抽取算法和基于TextRank关键词抽取算法，两类算法均是无监督学习的算法。 下面将会通过实例讲解介绍如何使用jieba分词的关键词抽取接口以及通过源码讲解其实现的原理。

#### 基于TF-IDF算法进行关键词抽取

`jieba.analyse.extract_tags(sentence, topK=20, withWeight=False, allowPOS=())`

- sentence 为待提取的文本

- topK 为返回几个 TF/IDF 权重最大的关键词，默认值为 20

- withWeight 为是否一并返回关键词权重值，默认值为 False

- allowPOS 仅包括指定词性的词，默认值为空，即不筛选

`jieba.analyse.TFIDF(idf_path=None)`

新建 TFIDF 实例，idf_path 为 IDF 频率文件

In [54]:
import jieba, math
import jieba.analyse

str_text = """线程（英语：thread）是操作系统能够进行运算调度的最小单位。
它被包含在进程之中，是进程中的实际运作单位。一条线程指的是进程中一个
单一顺序的控制流，一个进程中可以并发多个线程，每条线程并行执行不同的
任务。在Unix System V及SunOS中也被称为轻量进程（lightweight processes），
但轻量进程更多指内核线程（kernel thread），而把用户线程（user thread）称为线程。
"""
keywords1 = jieba.analyse.extract_tags(str_text)
print('关键词提取：' + "/".join(keywords1))

keywords_top = jieba.analyse.extract_tags(str_text, topK=3)
print('关键词topk：' + "/".join(keywords_top))  #有时不确定提取多少关键词，可利用总词的百分比

print('总词数：{}'.format(len(list(jieba.cut(str_text)))))

total = len(list(jieba.cut(str_text)))

get_cnt = math.ceil(total * 0.1)  #向上取整
print('从%d 中取出%d 个词' % (total, get_cnt))

keywords_top1 = jieba.analyse.extract_tags(str_text, topK=get_cnt)
print('关键词topk：' + "/".join(keywords_top1))

关键词提取：线程/进程/thread/轻量/控制流/并行执行/Unix/System/SunOS/lightweight/processes/kernel/user/单位/多指/内核/称为/并发/操作系统/每条
关键词topk：线程/进程/thread
总词数：109
从109 中取出11 个词
关键词topk：线程/进程/thread/轻量/控制流/并行执行/Unix/System/SunOS/lightweight/processes


#### 基于TextRank算法进行关键词抽取

`jieba.analyse.textrank(sentence, topK=20, withWeight=False, allowPOS=(ns, n, vn, v))` 直接使用，接口相同，注意默认过滤词性。

- sentence：待提取关键词的文本

- topK：返回关键词的数量，重要性从高到低排序

- withWeight：是否同时返回每个关键词的权重

- allowPOS：词性过滤，为空表示不过滤，若提供则仅返回符合词性要求的关键词, allowPOS(ns, n, vn, v) 对应 地名、名词、动名词、动词

`jieba.analyse.TextRank()`  
新建自定义 TextRank 实例

基本思想:

- 将待抽取关键词的文本进行分词

- 以固定窗口大小(默认为5，通过span属性调整)，词之间的共现关系，构建图

- 计算图中节点的PageRank，注意是无向带权图

引入TextRank关键词抽取接口：

In [55]:
for x, w in jieba.analyse.textrank(str_text, withWeight=True):
    print('%s %s' % (x, w))

进程 1.0
线程 0.7470505535857219
单位 0.38800337922730044
运算 0.34027047401967436
调度 0.33931684198043416
轻量 0.31102185714719194
运作 0.30959463951292987
进行 0.26874515685837774
能够 0.2660654985282964
实际 0.24067886508987982
控制流 0.23990311306688275
称为 0.236108598329124
内核 0.236108598329124
并发 0.16886282860541446
顺序 0.14763535550073484
包含 0.10572734204245057
用户 0.10390537624323205


### jieba词性标注

- `jieba.posseg.POSTokenizer(tokenizer=None)` 新建自定义分词器， tokenizer 参数可指定内部使用的 jieba.Tokenizer 分词器。jieba.posseg.dt 为默认词性标注分词器。

- 标注句子分词后每个词的词性，采用和 ictclas 兼容的标记法。

- 除了jieba默认分词模式，提供paddle模式下的词性标注功能。paddle模式采用延迟加载方式，通过 enable_paddle() 安装 paddlepaddle-tiny ，并且 import 相关代码；

paddle模式词性标注对应表如下：

paddle模式词性和专名类别标签集合如下表，其中词性标签 24 个（小写字母），专名类别标签 4 个（大写字母）。

|标签|含义|
|---|---|
|n|普通名词|
|f|方位名词
|s|处所名词
|t|时间
|nr|人名
|ns|地名
|nt|机构名
|nw|作品名
|nz|其他专名
|v|普通动词
|vd|动副词
|vn|名动词
|a|形容词
|ad|副形词
|an|名形词
|d|副词
|m|数量词
|q|量词
|r|代词
|p|介词
|c|连词
|u|助词
|xc|其他虚词
|w|标点符号
|PER|人名

In [56]:
import jieba.posseg as jp

print(jp.lcut('转载<请>附上原文出处链接及本声明.'))

[pair('转载', 'v'), pair('<', 'x'), pair('请', 'v'), pair('>', 'x'), pair('附上', 'f'), pair('原文', 'n'), pair('出处', 'v'), pair('链接', 'n'), pair('及', 'c'), pair('本', 'r'), pair('声明', 'n'), pair('.', 'x')]


In [57]:
from jieba import enable_paddle, posseg

s = '我今天来到l北京的清华大学。'
print('精确模式：')
print(posseg.lcut(s))

精确模式：
[pair('我', 'r'), pair('今天', 't'), pair('来到', 'v'), pair('l', 'x'), pair('北京', 'ns'), pair('的', 'uj'), pair('清华大学', 'nt'), pair('。', 'x')]


In [58]:
print('paddle模式：')
print(posseg.lcut(s, use_paddle=True))

paddle模式：
[pair('我', 'r'), pair('今天', 't'), pair('来到', 'v'), pair('l', 'x'), pair('北京', 'ns'), pair('的', 'uj'), pair('清华大学', 'nt'), pair('。', 'x')]


In [59]:
s = '''其一，中国的城市，包括直辖市、副省级市、普通地级市、县级市，但不包括县。

正如《中国城市大趋势》一书所分析的，县与县级市虽然级别相同，但定位有巨大差别。县是以农业为基础的管理单元，县级市则以工商业为主。

对于县，地级市进行直管；对于县级市，地级市则只是代管。

名义之别，导致了县级市与其所在地级市，均被视为独立城市，从而单薄市级层面的人口规模，如昆山与苏州，晋江与泉州，义乌与金华。

其二，衡量城市规模，看的是城区人口，而非全市人口。

城区人口，顾名思义，不包括镇区及乡村人口，明显低于全市常住人口。城区人口占全市人口比例最高可达9成以上，最低甚至不到20%。

凡是城镇化率不高的地区，或者下辖县乡过多的城市，即使全市人口迈过了千万大关，也未必能晋级为超大特大城市。

02

7个超大城市：4大一线+成渝津

超大城市，是我国城市规模层级的金字塔尖城市。

目前，我国共有7个超大城市，除了北上广深四大一线城市，还有重庆、天津两大直辖市，以及成都。'''

results = posseg.lcut(s)

对于结果中的每一项，其有属性 flag 与 word 。 通过这种方式可以过滤出与地点相关的要素。

In [60]:
for obj in results:
    if obj.flag == 'ns':
        print(obj.word)

中国
城市
中国
城市
城市
昆山
苏州
晋江
泉州
城市
镇区
城市
大关
特大城市
城市
城市
城市
城市
城市
城市
重庆
天津
成都


尽管jieba分词可以自动提取文本中相关的信息，但是由于自然语言的复杂性与非严谨性，得到的结果并非完全可信， 需要根据场景对结果进行分析与处理。

### jieba添加自定义词典

开发者可以指定自己自定义的词典，以便包含 jieba 词库里没有的词。虽然 jieba 有新词识别能力，但是自行添加新词来增强歧义纠错能力

#### 通过词典文件载入自定义词典

创建一个dict.txt，然后写入你的分词,一个词占一行；每一行分三部分：词语、词频（可省略）、词性（可省略），用空格隔开，顺序不可颠倒。file_name 若为路径或二进制方式打开的文件，则文件必须为 UTF-8 编码。

词频省略时使用自动计算的能保证分出该词的词频。

dict.txt内容例如：

必应输入法  
微软亚洲研究院  
新一代  
拼音输入法

在分词前通过 `jieba.load_userdict(file_name)` 来加载分词字典，file_name 为文件类对象或自定义词典的路径。

In [62]:
text1="必应输入法官方版是微软亚洲研究院推出的新一代拼音输入法."
words = jieba.cut(text1)
print('载入自定义词典前：','/'.join(words))

载入自定义词典前： 必/应/输入法/官方版/是/微软/亚洲/研究院/推出/的/新一代/拼音输入/法/.


加载词典文件，重新运行

In [63]:
jieba.load_userdict("../data/dict.txt")
words2 = jieba.cut(text1)
print('载入自定义词典后：','/'.join(words2))

载入自定义词典后： 必应输入法/官方版/是/微软亚洲研究院/推出/的/新一代/拼音输入法/.


#### 词频的作用

频率越高，成词的概率就越大。比如”江州市长江大桥”，既可以是”江州/市长/江大桥“，也可以是”江州/市/长江大桥“。

假设要保证第一种划分的话，我们需要保证P(江州)_P(市长)_P(江大桥）> P(江州)_P(市)_P(长江大桥)

#### 在程序中动态修改词典

添加词汇，通过函数 `add_word(word, freq=None, tag=None)` ：

In [64]:
text2 = '双十一已经不单单是光棍节了。'
words3 = jieba.cut(text2)
print('添加自定义词之前：', '/'.join(words3))

添加自定义词之前： 双十/一/已经/不单单是/光棍节/了/。


In [65]:
jieba.add_word("双十一")  #添加自定义词
words4 = jieba.cut(text2)
print('添加自定义词后：', '/'.join(words4))

添加自定义词后： 双十一/已经/不单单是/光棍节/了/。


删除词汇，通过 `del_word(word)` ：

In [66]:
jieba.del_word("双十一")  #删除自定义词
words5 = jieba.cut(text2)
print('删除自定义词后：', '/'.join(words5))

删除自定义词后： 双十/一/已经/不单单是/光棍节/了/。


# 命名实体识别

## 命名实体识别概述

词性标注和命名实体识别是自然语言处理中的两个基本任务。词性标注是为自然语言文本中的每个词汇赋予一个词性，例如名词、动词、形容词等。命名实体识别是识别自然语言文本中具有特定意义的实体，主要包括人名、地名、机构名、时间日期等。这两个任务对于分析语句结构、信息抽取和语义理解等有重要作用。

命名实体识别（Named EntitiesRecognition，**NER**）指识别文中具有特定意义的实体，如人名、机构名、地名等专有名词和有意义的时间等，是信息检索、问答系统等技术的基础任务。

## 命名实体识别类型

- 模板元素任务（Template Element）  
指提取文本中相关的命名实体，包括各种专有名词、时间表达式、数量表达式等。
- 模板关系任务（Template Relation）  
指提取命名实体之间的各种关系事实等。如，“Location of, Employee of, Product of”等关系。
- 脚本模板任务（Scenario Template）  
指提取指定的事件，包括参与这个事件的各个实体、属性或关系。

## 命名实体识别方法

隐马尔可夫模型（Hidden Markv Model, HMM）  
支持向量机（Supper Vector Machine, SVM）  
最大熵（Maximum Entropy, ME）  
条件随机场（Conditional Random Field, CRF）