# 使用词性标注器

将词汇按照它们的词性（parts-of-speech, POS）分类以及相应的标注它们的过程被称为**词性标注**（POS tagging）。

一个**词性标注器**（POS tagger）处理一个此序列，为每个词附加一个词性标记。nltk 提供了一个内置的英语词性标注器 [nltk.pos_tag](https://www.nltk.org/_modules/nltk/tag.html#pos_tag)，它是使用 Penn Treebank 标记集生成的：

In [1]:
import nltk

text = nltk.word_tokenize('And now for something completely different')
nltk.pos_tag(text)

[('And', 'CC'),
 ('now', 'RB'),
 ('for', 'IN'),
 ('something', 'NN'),
 ('completely', 'RB'),
 ('different', 'JJ')]

这里 and 是 CC（Coordinating Conjunctions），并列连词；now 和 completely 是 RB（Adverbs），副词；for 是 IN（Prepositions and Subordinating Conjunctions），介词；something 是 NN（Common Nouns），名词；different 是 JJ（Adjectives），形容词。

In [2]:
text = nltk.word_tokenize('They refuse to permit us to obtain the refuse permit')
nltk.pos_tag(text)

[('They', 'PRP'),
 ('refuse', 'VBP'),
 ('to', 'TO'),
 ('permit', 'VB'),
 ('us', 'PRP'),
 ('to', 'TO'),
 ('obtain', 'VB'),
 ('the', 'DT'),
 ('refuse', 'NN'),
 ('permit', 'NN')]

在这个例子中出现了同形同音异义词，如 refuse 既可以以一般现在时动词（VBP）形式出现，表示”拒绝“，也可以以名词（NN）的形式出现，表示”垃圾“。

词性标记和词汇类别很多都源于对文本中词的分布的分析，例如我们使用 text.similar() 方法找出和输入词出现在相同上下文中的其他词：

In [None]:
text = nltk.Text(word.lower() for word in nltk.corpus.brown.words())
text.similar('woman')
text.similar('bought')
text.similar('over')
text.similar('the')

可以看出搜索 woman 找到名词，搜索 bought 找到的大部分是动词，搜索 over 一般会找到介词，搜索 the 找到几个限定词。