# python-常用对象API-字典dict类-创建

In [3]:
pos = dict(colorless='ADJ', ideas='N', sleep='V', furiously='ADV')
print (pos)
print (list(pos))

{'colorless': 'ADJ', 'ideas': 'N', 'sleep': 'V', 'furiously': 'ADV'}
['colorless', 'ideas', 'sleep', 'furiously']


# 默认字典

In [10]:
import nltk
frequency = nltk.defaultdict(int)
frequency['colorless'] = 4
print(frequency['ideas'])

pos = nltk.defaultdict(lambda: 'N')
pos['sleep'] = ['N', 'V']
print (pos['blog'])
print(pos.items())

0
N
dict_items([('sleep', ['N', 'V']), ('blog', 'N')])


我们需要创建一个默认字典，映射每个词为它们的替换词。最频繁的 n 个词将被映射到 它们自己。其他的被映射到 UNK

In [54]:
from operator import itemgetter
alice = nltk.corpus.gutenberg.words('carroll-alice.txt')
vocab = nltk.FreqDist(alice)
v1000 = sorted(vocab.items(),key=itemgetter(1),reverse=True)[:500]
mapping = nltk.defaultdict(lambda: 'UNK')
for item in v1000:
    mapping[item[0]]=item[0]

alice2 = [mapping[v] for v in alice]
print(alice2[:10])

['UNK', 'Alice', "'", 's', 'UNK', 'in', 'UNK', 'by', 'UNK', 'UNK']


# 更新字典

默认字典的习惯用法

 nltk.Index 是一个额外支持初始化的 defaultdict(list)。类似的，nltk. FreqDist 本质上是一个额外支持初始化的 defaultdict(int)(附带排序和 绘图方法)

In [92]:
from nltk.corpus import brown
#习惯用法一
counts = nltk.defaultdict(int)
for (word, tag) in brown.tagged_words(categories='news',tagset='universal'):
    counts[tag] += 1   
print(list(counts)[:5])

#对字典进行排序并提取其键列表
print([t for t, c in sorted(counts.items(), key=itemgetter(1), reverse=True)][:5])

#习惯用法二
#实例一
last_letters = nltk.defaultdict(list)
words = nltk.corpus.words.words('en')
for word in words:
    key = word[-2:]
    last_letters[key].append(word)
print(last_letters['ly'][:5])
print(last_letters['zy'][:5])

#实例二
anagrams = nltk.defaultdict(list)
for word in words:
    key = ''.join(sorted(word))#拆开词的字符重新排序组合
    anagrams[key].append(word)#将这些重组后一样顺序的词追加到一个链表里
print(anagrams['aeilnrt'])

#等同以上用法
anagrams = nltk.Index((''.join(sorted(w)), w) for w in words)
print(anagrams['aeilnrt'])

['DET', 'NOUN', 'ADJ', 'VERB', 'ADP']
['NOUN', 'VERB', 'ADP', '.', 'DET']
['abactinally', 'abandonedly', 'abasedly', 'abashedly', 'abashlessly']
['blazy', 'bleezy', 'blowzy', 'boozy', 'breezy']
['entrail', 'latrine', 'ratline', 'reliant', 'retinal', 'trenail']
['entrail', 'latrine', 'ratline', 'reliant', 'retinal', 'trenail']


# 复杂键和值

这个例子使用一个字典，它的条目的默认值也是一个字典(其默认值是 int()，即 0)。
请注意我们如何遍历已标注语料库的双连词，每次遍历处理一个词-标记对。每次通过循 环时，我们更新字典 pos 中的条目 (t1, w2)，一个标记和它后面的词。当我们在 pos 中查找一个项目时，我们必须指定一个复合键，然后得到一个字典对象。一个 POS 标注 器可以使用这些信息来决定词 right，前面是一个限定词时，应标注为 ADJ

In [99]:
pos = nltk.defaultdict(lambda: nltk.defaultdict(int))
brown_news_tagged = brown.tagged_words(categories='news', tagset='universal')
n = 0
for ((w1, t1), (w2, t2)) in nltk.bigrams(brown_news_tagged):
    n=n+1
    print (w1,t1,w2,t2)
    pos[(t1, w2)][t2] += 1
    print (pos)
    if n == 2:
        break

The DET Fulton NOUN
defaultdict(<function <lambda> at 0x1a244266a8>, {('DET', 'Fulton'): defaultdict(<class 'int'>, {'NOUN': 1})})
Fulton NOUN County NOUN
defaultdict(<function <lambda> at 0x1a244266a8>, {('DET', 'Fulton'): defaultdict(<class 'int'>, {'NOUN': 1}), ('NOUN', 'County'): defaultdict(<class 'int'>, {'NOUN': 1})})
