# Python 机器学习实战 ——代码样例

# 第六章 Collections 库

## 6.1.	namedtuple

namedtuple 主要用来生成可以使用名称来访问元素的数据对象，通常用来增强代码的可读性，在访问一些 tuple 类型的数据时尤其好用。

namedtuple 是一个函数，它用来创建一个自定义的 tuple 对象，并且规定了 tuple 元素的个数，可以用属性而不是索引来写入或者访问 tuple 的某个元素。

这样一来，我们用 namedtuple 可以很方便地定义一种数据类型，比如 XY 坐标，它具备 tuple 的内容不变性，又可以根据属性来引用，使用十分方便。


In [1]:
>>> from collections import namedtuple

>>> Point = namedtuple('Point', ['x', 'y'])
>>> p = Point(1, 2)

>>> print(p.x, p.y)


1 2


In [2]:
>>> Web = namedtuple('web', ['name', 'type', 'url'])
>>> p1 = Web('google', 'search', 'www.google.com')
>>> p2 = Web('sina', 'portal', 'www.sina.com.cn')

>>> print(p1)
>>> print(p1.name, p1.url)
>>> print(p1.url, p2.url)

web(name='google', type='search', url='www.google.com')
google www.google.com
www.google.com www.sina.com.cn


In [10]:
>>> for i in p2:
...    print(i)


sina
portal
www.sina.com.cn


## 6.2. deque

使用 list 存储数据时，按索引访问元素很快，但是插入和删除元素就很慢了，因为 list 是线性存储，数据量大的时候，插入和删除效率很低。

deque 是为了实现高效插入和删除操作的双向列表，适合用于队列和栈。

deque 在插入数据时候速度比 list 快很多，当然这个是相对存在大量数据的 list 而言的。如果你的程序需要对有百万级别数据量的 list 频繁的在各个位置插入删除数据，那么用 deque 是值得的。


In [11]:
>>> from collections import deque
>>> import time

>>> q = deque(['a', 'b', 'c'])
>>> q.append('x')
>>> q.appendleft('y')

>>> print(q)


deque(['y', 'a', 'b', 'c', 'x'])


对比 deque与 list 的速度，对含有 1 亿个元素的 list 执行插入，查看函数执行时间：

In [12]:
>>> q0 = [x*x for x in range(100000000)]
>>> a = time.time()
>>> q0.insert(0,888)
>>> b = time.time()
>>> print(b-a)


0.12650108337402344


对含有 1 亿个元素的 deque执行插入，查看函数执行时间：

In [13]:
>>> q1= deque(q0)
>>> a = time.time()
>>> q1.appendleft(888)
>>> b = time.time()
>>> print(b-a)



0.0


 deque翻转操作：

In [14]:
>>> l = ['a','b','c','d','e']
>>> l = deque(l)
>>> l.rotate(2)
>>> print(l)
>>> l.rotate(-2)
>>> print(l)


deque(['d', 'e', 'a', 'b', 'c'])
deque(['a', 'b', 'c', 'd', 'e'])


deque使用 pop() 函数同样可以区分头尾，如下：

In [15]:
>>> l = deque(['a','b','c'])
>>> l.pop()
>>> print(l)


>>> l = deque(['a','b','c'])
>>> l.popleft()
>>> print(l)


deque(['a', 'b'])
deque(['b', 'c'])


## 6.3.	defaultdict

我们都知道，在使用 Python 原生的数据结构 dict 的时候，如果用 d[key] 这样的方式访问，当指定的 key 不存在时，会抛出 KeyError 异常，也就是发生错误 ( 当然可以用 get 方法来避免这样的错误 )。 

如果使用 defaultdict，只要你传入一个默认的方法，那么请求一个不存在的 key 时， 便会调用这个方法，使用其结果来作为这个 key 的默认值。


In [16]:
>>> from collections import defaultdict
>>> i = defaultdict(lambda: 100)
>>> i['name']='David'
>>> print(i['name']) 


David


default 返回默认值，不会报错。

In [17]:
>>> print(i['score'])

100


## 6.4.	OrderedDict

使用 dict 字典时，Key 是无序的。在对 dict 做迭代访问时，我们无法确定 Key 的顺序。

如果要保持 Key 的顺序，可以用 OrderedDict，这是一个 Key 值有序的字典数据类型。


传统 dict 是无序的：

In [19]:
>>> d = dict([('a', 1), ('b', 2), ('c', 3)])
>>> print(d)


{'a': 1, 'c': 3, 'b': 2}


追加一对 key value：


In [20]:
>>> d['d'] = 4
>>> print(d)


{'a': 1, 'c': 3, 'd': 4, 'b': 2}


使用 OrderedDict：

In [21]:
>>> from collections import OrderedDict

>>> d = OrderedDict()
>>> d['a'] = 1
>>> d['b'] = 2
>>> d['c'] = 3

>>> print(d)


OrderedDict([('a', 1), ('b', 2), ('c', 3)])


使用 OrderedDict, 追加一对 key value。OrderedDict 的 Key 会按照插入的顺序排列，不是 Key 本身排序。


In [22]:
>>> d['d'] = 4
>>> print(d)


OrderedDict([('a', 1), ('b', 2), ('c', 3), ('d', 4)])


## 6.5.	Counter

Counter提供了一个简单的计数器功能。

In [24]:
>>> from collections import Counter
>>> s = input('Please input:')
>>> s = s.lower()
>>> c = Counter(s)


Please input:abcddee


获取出现频率最高的 5 个字符：

In [25]:
>>> print(c.most_common(5)) 

[('e', 2), ('d', 2), ('a', 1), ('c', 1), ('b', 1)]


计数值的访问与缺失的键：

In [26]:
>>> print(c['a'])
>>> print(c['b'])
>>> print(c['1'])


1
1
0
