# 使用 Python 字典映射词及其属性

## Python 字典

Python 提供了一个字典数据类型，可以用来做任意类型之间的映射。

In [1]:
pos = {}
pos['colorless'] = 'ADJ'
pos['ideas'] = 'N'
pos['sleep'] = 'V'
pos['furiously'] = 'ADV'
print(pos['ideas'])
print(pos['green'])

N


KeyError: 'green'

要找到字典中的键，我们可以将字典转换成一个链表，例如 list() 返回无序的键链表，sorted() 返回排序后的键链表，也可以在 for 循环中使用：

In [2]:
print(list(pos))
print(sorted(pos))
print([w for w in pos if w.endswith('s')])

['colorless', 'ideas', 'sleep', 'furiously']
['colorless', 'furiously', 'ideas', 'sleep']
['colorless', 'ideas']


字典的方法 keys()、values() 和 items() 允许我们单独访问键、值和键值对：

In [3]:
print(list(pos.keys()))
print(list(pos.values()))
print(list(pos.items()))
for key, val in sorted(pos.items()):
    print(key + ':', val)

['colorless', 'ideas', 'sleep', 'furiously']
['ADJ', 'N', 'V', 'ADV']
[('colorless', 'ADJ'), ('ideas', 'N'), ('sleep', 'V'), ('furiously', 'ADV')]
colorless: ADJ
furiously: ADV
ideas: N
sleep: V


## 定义字典

我们可以使用键-值对格式创建字典，包括下面两种方式，通常第一个更常用：

In [4]:
pos = {'colorless': 'ADJ', 'ideas': 'N', 'sleep': 'V', 'furiously': 'ADV'}
pos = dict(colorless='ADJ', ideas='N', sleep='V', furiously='ADV')

字典的键必须是不可改变的类型，如字符串和元组，如果我们尝试使用可变键定义词典会得到一个 TypeError：

In [5]:
pos = {['ideas', 'blogs', 'adventures']: 'N'}

TypeError: unhashable type: 'list'

## 默认字典

如果我们试图访问一个不在字典中的键，会得到一个错误，如果一个字典能为这个新键自动创建一个条目并给它一个默认值将会非常有用。Python 提供了一种特殊的称为 defaultdict 的字典来实现这一功能，它接受一个参数来指定默认值的类型，如：int、float、str、list、dict、tuple。

In [6]:
from collections import defaultdict

frequency = defaultdict(int)
frequency['colorless'] = 4
print(frequency['ideas'])

pos = defaultdict(list)
pos['sleep'] = ['NOUN', 'VERB']
print(pos['ideas'])

0
[]


默认字典还可以接受一个函数作为参数，该函数要求没有输入参数，返回所需的默认值：

In [7]:
pos = defaultdict(lambda: 'NOUN')
pos['colorless'] = 'ADJ'
print(pos['blog'])
print(list(pos.items()))

NOUN
[('colorless', 'ADJ'), ('blog', 'NOUN')]


接下来我们将默认字典应用到较大规模的语言处理任务中。许多语言处理任务会花费很大力气来正确处理文本中只出现一次的词，如果我们只处理部分固定的词汇，可能会得到更好的结果。这里我们预处理一个文本，在一个默认字典的帮助下，替换低频词汇为一个特殊的”超出词汇表“标识符，UNK（out of vocabulary）。

In [8]:
import nltk
alice = nltk.corpus.gutenberg.words('carroll-alice.txt')
vocab = nltk.FreqDist(alice)
v1000 = [word for (word, _) in vocab.most_common(1000)]
mapping = defaultdict(lambda: 'UNK')
for v in v1000:
    mapping[v] = v
alice2 = [mapping[v] for v in alice]
print(alice2[:100])

['[', 'Alice', "'", 's', 'Adventures', 'in', 'Wonderland', 'by', 'UNK', 'UNK', 'UNK', 'UNK', 'CHAPTER', 'I', '.', 'Down', 'the', 'Rabbit', '-', 'UNK', 'Alice', 'was', 'beginning', 'to', 'get', 'very', 'tired', 'of', 'sitting', 'by', 'her', 'sister', 'on', 'the', 'bank', ',', 'and', 'of', 'having', 'nothing', 'to', 'do', ':', 'once', 'or', 'twice', 'she', 'had', 'peeped', 'into', 'the', 'book', 'her', 'sister', 'was', 'reading', ',', 'but', 'it', 'had', 'no', 'pictures', 'or', 'UNK', 'in', 'it', ',', "'", 'and', 'what', 'is', 'the', 'use', 'of', 'a', 'book', ",'", 'thought', 'Alice', "'", 'without', 'pictures', 'or', 'conversation', "?'", 'So', 'she', 'was', 'considering', 'in', 'her', 'own', 'mind', '(', 'as', 'well', 'as', 'she', 'could', ',']


## 递增地更新字典

我们可以使用字典统计词性标记出现的次数。首先初始化一个空的 defaultdict，然后处理文本中的每个词性标记，如果标记以前没见过，就默认为 0：

In [9]:
counts = defaultdict(int)
from nltk.corpus import brown
for (word, tag) in brown.tagged_words(categories='news', tagset='universal'):
    counts[tag] += 1
print(sorted(counts))

from operator import itemgetter
print(sorted(counts.items(), key=itemgetter(1), reverse=True))

['.', 'ADJ', 'ADP', 'ADV', 'CONJ', 'DET', 'NOUN', 'NUM', 'PRON', 'PRT', 'VERB', 'X']
[('NOUN', 30654), ('VERB', 14399), ('ADP', 12355), ('.', 11928), ('DET', 11389), ('ADJ', 6706), ('ADV', 3349), ('CONJ', 2717), ('PRON', 2535), ('PRT', 2264), ('NUM', 2166), ('X', 92)]


下例也是一个字典的常见用法，索引词汇：

In [10]:
last_letters = defaultdict(list)
words = nltk.corpus.words.words('en')
for word in words:
    key = word[-2:]
    last_letters[key].append(word)
print(last_letters['zy'])

['blazy', 'bleezy', 'blowzy', 'boozy', 'breezy', 'bronzy', 'buzzy', 'Chazy', 'cozy', 'crazy', 'dazy', 'dizzy', 'dozy', 'enfrenzy', 'fezzy', 'fizzy', 'floozy', 'fozy', 'franzy', 'frenzy', 'friezy', 'frizzy', 'frowzy', 'furzy', 'fuzzy', 'gauzy', 'gazy', 'glazy', 'groszy', 'hazy', 'heezy', 'Izzy', 'jazzy', 'Jozy', 'lawzy', 'lazy', 'mazy', 'mizzy', 'muzzy', 'nizy', 'oozy', 'quartzy', 'quizzy', 'refrenzy', 'ritzy', 'Shortzy', 'sizy', 'sleazy', 'sneezy', 'snoozy', 'squeezy', 'Suzy', 'tanzy', 'tizzy', 'topazy', 'trotcozy', 'twazzy', 'unbreezy', 'unfrizzy', 'wheezy', 'woozy', 'wuzzy', 'yezzy']


用单词中包含的字符来索引词汇：

In [11]:
anagrams = nltk.defaultdict(list)
for word in words:
    key = ''.join(sorted(word))
    anagrams[key].append(word)
print(anagrams['aeilnrt'])

['entrail', 'latrine', 'ratline', 'reliant', 'retinal', 'trenail']


由于积累词汇是如此常用的任务，NLTK 以 [nltk.Index()](https://www.nltk.org/_modules/nltk/util.html#Index) 的形式提供一个创建 defaultdict(list) 更方便的方式：

In [12]:
anagrams = nltk.Index((''.join(sorted(w)), w) for w in words)
print(anagrams['aeilnrt'])

['entrail', 'latrine', 'ratline', 'reliant', 'retinal', 'trenail']


## 复杂的键和值

我们可以使用具有复杂的键和值的默认字典。这里我们研究一个词可能的标记范围，给定词本身和它前一个词的标记，这些信息可以被用作一个 POS 标注器：

In [13]:
pos = defaultdict(lambda: defaultdict(int))
brown_news_tagged = brown.tagged_words(categories='news', tagset='universal')
for ((w1, t1), (w2, t2)) in nltk.bigrams(brown_news_tagged):
    pos[(t1, w2)][t2] += 1
print(pos[('DET', 'right')])

defaultdict(<class 'int'>, {'NOUN': 5, 'ADJ': 11})


最终结果表明，如果词汇 right 前面是一个限定词 DET 时，应该标注为形容词 ADJ。

## 颠倒词典

字典支持高效键查找，但是给定一个值去查找对应的键要麻烦一些：

In [14]:
counts = nltk.defaultdict(int)
for word in nltk.corpus.gutenberg.words('milton-paradise.txt'):
    counts[word] += 1
print([key for (key, value) in counts.items() if value == 32])

['mortal', 'Against', 'Him', 'There', 'brought', 'King', 'virtue', 'every', 'been', 'thine']


如果我们希望经常做这样一种”反向查找“，建立一个映射值到键的字典是很有帮助的：

In [15]:
pos = {'colorless': 'ADJ', 'ideas': 'N', 'sleep': 'V', 'furiously': 'ADV'}
pos2 = dict((value, key) for (key, value) in pos.items())
print(pos2['N'])

ideas


如果我们使用字典的 update() 方法加入一些词到 pos 中，创建多个键具有相同值得情况，这样刚才得反向查找技术就不起作用了，需要使用 append() 来积累词：

In [16]:
pos.update({'cats': 'N', 'scratch': 'V', 'peacefully': 'ADV', 'old': 'ADJ'})
pos2 = defaultdict(list)
for key, value in pos.items():
    pos2[value].append(key)
print(pos2['ADV'])

['furiously', 'peacefully']


也可以使用 NLTK 中的索引更方便地实现：

In [17]:
pos2 = nltk.Index((value, key) for (key, value) in pos.items())
print(pos2['ADV'])

['furiously', 'peacefully']
