# 第一章 数据结构与算法

## 1.1 解压序列赋值给多个变量

### 现在有一个包含N 个元素的元组或者是序列，怎样将它里面的值解压后同时赋值给N 个变量？

In [1]:
data = [ 'ACME', 50, 91.1, (2012, 12, 21) ]

In [2]:
name, shares, price, date = data

In [3]:
name,shares,price

('ACME', 50, 91.1)

### 如果变量个数和序列元素的个数不匹配，会产生一个异常。

In [4]:
p = (4,5)

In [5]:
x,y,z = p

ValueError: not enough values to unpack (expected 3, got 2)

## 1.2 解压可迭代对象赋值给多个变量

In [6]:
record = ('Dave', 'dave@example.com', '773-555-1212', '847-555-1212')

In [7]:
name,email,*phone = record

In [8]:
name,email

('Dave', 'dave@example.com')

In [9]:
phone

['773-555-1212', '847-555-1212']

### 结论
星号表达式让开发人员可以很容易的利用这些规则来解压出元素来

## 1.3 保留最后N 个元素

## 在实际工作中，我们常常会保留最后的几个数

### 保留有限历史记录正是collections.deque 大显身手的时候

In [10]:
import collections

In [16]:
q = collections.deque(maxlen=3)

In [17]:
q.append(1)
q.append(2)
q.append(3)

In [18]:
q

deque([1, 2, 3])

In [19]:
q.append(4)

In [20]:
q

deque([2, 3, 4])

## 1.4 查找最大或最小的N 个元素

## heapq 模块有两个函数：nlargest() 和nsmallest() 可以完美解决这个问题。

In [21]:
import heapq

In [22]:
nums = [1, 8, 2, 23, 7, -4, 18, 23, 42, 37,33]

In [24]:
heapq.nlargest(3,nums)

[42, 37, 33]

In [25]:
heapq.nsmallest(3,nums)

[-4, 1, 2]

### 两个函数都能接受一个关键字参数，用于更复杂的数据结构中：

In [26]:
portfolio = [
{'name': 'IBM', 'shares': 100, 'price': 91.1},
{'name': 'AAPL', 'shares': 50, 'price': 543.22},
{'name': 'FB', 'shares': 200, 'price': 21.09},
{'name': 'HPQ', 'shares': 35, 'price': 31.75},
{'name': 'YHOO', 'shares': 45, 'price': 16.35},
{'name': 'ACME', 'shares': 75, 'price': 115.65}
]

In [27]:
cheap = heapq.nsmallest(3,portfolio,key = lambda x:x['price'])

In [28]:
cheap

[{'name': 'YHOO', 'price': 16.35, 'shares': 45},
 {'name': 'FB', 'price': 21.09, 'shares': 200},
 {'name': 'HPQ', 'price': 31.75, 'shares': 35}]

如果你想在一个集合中查找最小或最大的N 个元素，并且N 小于集合元素数量，
那么这些函数提供了很好的性能。因为在底层实现里面，首先会先将集合数据进行堆
排序后放入一个列表中：

In [29]:
nums = [1, 8, 2, 23, 7, -4, 18, 23, 42, 37, 2]
heapq.heapify(nums)

In [30]:
heapq.heappop(nums)

-4

In [31]:
heapq.heappop(nums)

1

#### 可见这时候的nums是一个迭代对象

### 下面的类利用heapq 模块实现了一个简单的优先级队列：

In [40]:
class PriorityQueue:
    def __init__(self):
        self._queue = []
        self._index = 0
    def push(self,item,priority):
        heapq.heappush(self._queue,(-priority,self._index,item))
    def pop(self):
        return heapq.heappop(self._queue)[-1]
class Item:
    def __init__(self, name):
        self.name = name
    def __repr__(self):
        return 'Item({!r})'.format(self.name)

In [41]:
q = PriorityQueue()
q.push(Item('foo'),1)
q.push(Item('adsf'),4)

In [42]:
q

<__main__.PriorityQueue at 0x4d399e8>

In [43]:
q.pop()

Item('adsf')

"Harold's a clever {0!s}"　　　　　 Calls str() on the argument first

"Bring out the holy {name!r}"　　 Calls repr() on the argument first

"More {!a}"　　　　　　　　　　 Calls ascii() on the argument first

## 1.5 字典中的键映射多个值

### 怎样实现一个键对应多个值的字典(也叫multidict )？

In [44]:
from collections import defaultdict
d = defaultdict(list)
d['a'].append(1)
d['a'].append(2)
d['b'].append(4)
d['b'].append(2)

In [45]:
d

defaultdict(list, {'a': [1, 2], 'b': [4, 2]})

#### 如果统计单词的个数下面的代码将会特别棒

In [51]:
pairs = [('a',1),('a',2),('c',1),('d',1)]
d = defaultdict(list)
for key, value in pairs:
    d[key].append(value)

In [52]:
d

defaultdict(list, {'a': [1, 2], 'c': [1], 'd': [1]})

## 1.6 字典排序

### 为了能控制一个字典中元素的顺序， 你可以使用collections 模块中的OrderedDict 类。在迭代操作的时候它会保持元素被插入时的顺序，示例如下：

In [53]:
from collections import OrderedDict

In [54]:
d = OrderedDict()

In [55]:
d = OrderedDict()
d['foo'] = 1
d['bar'] = 2
d['spam'] = 3
d['grok'] = 4
for k in d.keys():
    print(k,d[k])

foo 1
bar 2
spam 3
grok 4


同时与json交互的时候也能控制顺序

In [56]:
import json
json.dumps(d)

'{"foo": 1, "bar": 2, "spam": 3, "grok": 4}'

## 1.7 字典的运算

### 怎样在数据字典中执行一些计算操作(比如求最小值、最大值、排序等等)？

In [57]:
prices = {
'ACME': 45.23,
'AAPL': 612.78,
'IBM': 205.55,
'HPQ': 37.20,
'FB': 10.75
}

为了对字典值执行计算操作，通常需要使用zip() 函数先将键和值反转过来。比
如，下面是查找最小和最大股票价格和股票值的代码：

In [58]:
min_price = min(zip(prices.values(),prices.keys()))

In [59]:
min_price

(10.75, 'FB')

同时还可以使用sorted来排序

In [60]:
sorted(zip(prices.values(),prices.keys()))

[(10.75, 'FB'),
 (37.2, 'HPQ'),
 (45.23, 'ACME'),
 (205.55, 'IBM'),
 (612.78, 'AAPL')]

<b>需要注意的是zip() 函数创建的是一个只能访问一次的迭代器</b>

你可以在min() 和max() 函数中提供key 函数参数来获取最小值或最大值对应的键的信息。

In [62]:
min(prices,key = lambda k:prices[k])

'FB'

In [63]:
max(prices,key = lambda k:prices[k])

'AAPL'

## 1.9 查找两字典的相同点

### 怎样在两个字典中寻寻找相同点(比如相同的键、相同的值等等)？

In [64]:
a = {'x' : 1,
    'y' : 2,
    'z' : 3
}
b = {'w' : 10,
    'x' : 11,
    'y' : 2
}

In [65]:
#find key in common
a.keys() & b.keys()

{'x', 'y'}

In [66]:
#find key in a but not in b
a.keys() - b.keys()

{'z'}

In [67]:
# Find (key,value) pairs in common
a.items() & b.items()

{('y', 2)}

这些操作也可以用于修改或者过滤字典元素。比如，假如你想以现有字典构造一个排除几个指定键的新字典。下面利用字典推导来实现这样的需求：

In [69]:
c = {key:a[key] for key in a.keys() - {'z', 'w'}}

In [70]:
c

{'x': 1, 'y': 2}

## 1.10 删除序列相同元素并保持顺序

### 怎样在一个序列上面保持元素顺序的同时消除重复的值？

In [71]:
def dedupe(items):
    seen = set()
    for item in items:
        if item not in seen:
            yield item
            seen.add(item)

In [72]:
a = [1, 5, 2, 1, 9, 1, 5, 10]
list(dedupe(a))

[1, 5, 2, 9, 10]

如果你仅仅就是想消除重复元素，通常可以简单的构造一个集合。

In [75]:
a = [1, 5, 2, 1, 9, 1, 5, 10]
set(a)

{1, 2, 5, 9, 10}

## 1.11 命名切片

假定你有一段代码要从一个记录字符串中几个固定位置提取出特定的数据字段

In [76]:
record = '....................100 .......513.25 ..........'
cost = int(record[20:23]) * float(record[31:37])

In [77]:
cost

51325.0

我们可以这样写

In [78]:
SHARES = slice(20,23)
PRICE = slice(31,37)

In [81]:
int(record[SHARES])*float(record[PRICE])

51325.0

## 1.12 序列中出现次数最多的元素

### 怎样找出一个序列中出现次数最多的元素呢？

In [82]:
words = [
'look', 'into', 'my', 'eyes', 'look', 'into', 'my', 'eyes',
'the', 'eyes', 'the', 'eyes', 'the', 'eyes', 'not', 'around', 'the',
'eyes', "don't", 'look', 'around', 'the', 'eyes', 'look', 'into',
'my', 'eyes', "you're", 'under'
]

In [83]:
from collections import Counter
word_counts = Counter(words)

In [84]:
word_counts.most_common(3)

[('eyes', 8), ('the', 5), ('look', 4)]

不仅仅是这样，还可以与数学表达式结合

In [85]:
morewords = ['why','are','you','not','looking','in','my','eyes']
a = Counter(words)
b = Counter(morewords)
a+b

Counter({'are': 1,
         'around': 2,
         "don't": 1,
         'eyes': 9,
         'in': 1,
         'into': 3,
         'look': 4,
         'looking': 1,
         'my': 4,
         'not': 2,
         'the': 5,
         'under': 1,
         'why': 1,
         'you': 1,
         "you're": 1})

## 1.13 通过某个关键字排序一个字典列表

### 你有一个字典列表，你想根据某个或某几个字典字段来排序这个列表。

In [86]:
rows = [
{'fname': 'Brian', 'lname': 'Jones', 'uid': 1003},
{'fname': 'David', 'lname': 'Beazley', 'uid': 1002},
{'fname': 'John', 'lname': 'Cleese', 'uid': 1001},
{'fname': 'Big', 'lname': 'Jones', 'uid': 1004}
]

根据任意的字典字段来排序输入结果行是很容易实现的，代码示例：

In [88]:
from operator import itemgetter
rows_by_fname = sorted(rows,key=itemgetter('fname'))
rows_by_uid = sorted(rows,key=itemgetter('uid'))
rows_by_fname

[{'fname': 'Big', 'lname': 'Jones', 'uid': 1004},
 {'fname': 'Brian', 'lname': 'Jones', 'uid': 1003},
 {'fname': 'David', 'lname': 'Beazley', 'uid': 1002},
 {'fname': 'John', 'lname': 'Cleese', 'uid': 1001}]

In [89]:
rows_by_uid

[{'fname': 'John', 'lname': 'Cleese', 'uid': 1001},
 {'fname': 'David', 'lname': 'Beazley', 'uid': 1002},
 {'fname': 'Brian', 'lname': 'Jones', 'uid': 1003},
 {'fname': 'Big', 'lname': 'Jones', 'uid': 1004}]

itemgetter() 函数也支持多个keys，比如下面的代码

In [94]:
rows_by_fname = sorted(rows,key=itemgetter('lname','fname'))

In [95]:
rows_by_fname

[{'fname': 'David', 'lname': 'Beazley', 'uid': 1002},
 {'fname': 'John', 'lname': 'Cleese', 'uid': 1001},
 {'fname': 'Big', 'lname': 'Jones', 'uid': 1004},
 {'fname': 'Brian', 'lname': 'Jones', 'uid': 1003}]

在上面例子中， rows 被传递给接受一个关键字参数的sorted() 内置函数。这个参数是callable 类型，并且从rows 中接受一个单一元素，然后返回被用来排序的值。itemgetter() 函数就是负责创建这个callable 对象的。operator.itemgetter() 函数有一个被rows 中的记录用来查找值的索引参数。可以是一个字典键名称，一个整形值或者任何能够传入一个对象的getitem () 方法的值。如果你传入多个索引参数给itemgetter() ，它生成的callable 对象会返回一个包含所有元素值的元组，并且sorted() 函数会根据这个元组中元素顺序去排序。但你想要同时在几个字段上面进行排序(比如通过姓和名来排序，也就是例子中的那样) 的
时候这种方法是很有用的。

In [96]:
min(rows,key=itemgetter('uid'))

{'fname': 'John', 'lname': 'Cleese', 'uid': 1001}

## 1.14 排序不支持原生比较的对象

内置的sorted() 函数有一个关键字参数key ，可以传入一个callable 对象给它，
这个callable 对象对每个传入的对象返回一个值，这个值会被sorted 用来排序这些
对象。比如，如果你在应用程序里面有一个User 实例序列，并且你希望通过他们的
user id 属性进行排序，你可以提供一个以User 实例作为输入并输出对应user id 值
的callable 对象。比如：

In [98]:
class User:
    def __init__(self,user_id):
        self.user_id = user_id
    def __repr__(self):
        return 'User({})'.format(self.user_id)

In [99]:
users = [User(23), User(3), User(99)]
sorted(users,key=lambda k:k.user_id)

[User(3), User(23), User(99)]

In [101]:
from operator import attrgetter
sorted(users,key=attrgetter('user_id'))

[User(3), User(23), User(99)]

## 1.15 通过某个字段将记录分组

In [102]:
rows = [
{'address': '5412 N CLARK', 'date': '07/01/2012'},
{'address': '5148 N CLARK', 'date': '07/04/2012'},
{'address': '5800 E 58TH', 'date': '07/02/2012'},
{'address': '2122 N CLARK', 'date': '07/03/2012'},
{'address': '5645 N RAVENSWOOD', 'date': '07/02/2012'},
{'address': '1060 W ADDISON', 'date': '07/02/2012'},
{'address': '4801 N BROADWAY', 'date': '07/01/2012'},
{'address': '1039 W GRANVILLE', 'date': '07/04/2012'},]

现在假设你想在按date 分组后的数据块上进行迭代。为了这样做，你首先需要按
照指定的字段(这里就是date ) 排序，然后调用itertools.groupby() 函数：

In [103]:
from itertools import groupby
sorted(rows,key=itemgetter('date'))
for date,items in groupby(rows,key=itemgetter('date')):
    print(date)
    for i in items:
        print(' ',i)

07/01/2012
  {'address': '5412 N CLARK', 'date': '07/01/2012'}
07/04/2012
  {'address': '5148 N CLARK', 'date': '07/04/2012'}
07/02/2012
  {'address': '5800 E 58TH', 'date': '07/02/2012'}
07/03/2012
  {'address': '2122 N CLARK', 'date': '07/03/2012'}
07/02/2012
  {'address': '5645 N RAVENSWOOD', 'date': '07/02/2012'}
  {'address': '1060 W ADDISON', 'date': '07/02/2012'}
07/01/2012
  {'address': '4801 N BROADWAY', 'date': '07/01/2012'}
07/04/2012
  {'address': '1039 W GRANVILLE', 'date': '07/04/2012'}


如果你仅仅只是想根据date 字段将数据分组到一个大的数据结构中去，并且允许
随机访问，那么你最好使用defaultdict() 来构建一个多值字典，关于多值字典已经
在1.6 小节有过详细的介绍。比如：

In [105]:
rows_by_date = defaultdict(list)
for row in rows:
    rows_by_date[row['date']].append(row)

In [107]:
rows_by_date['07/01/2012']

[{'address': '5412 N CLARK', 'date': '07/01/2012'},
 {'address': '4801 N BROADWAY', 'date': '07/01/2012'}]

## 1.16 过滤序列元素

最简单的过滤序列元素的方法就是使用列表推导。比如：

In [108]:
mylist = [1, 4, -5, 10, -7, 2, 3, -1]
[i for i in mylist if i > 0]

[1, 4, 10, 2, 3]

如果你对内存比较敏感，那么你可以使用生成器表达式迭代产生
过滤的元素。比如：

In [110]:
pos = (i for i in mylist if i > 0)
for i in pos:
    print(i)

1
4
10
2
3


In [114]:
values = ['1', '2', '-3', '-', '4', 'N/A', '5']
def is_int(val):
    try:
        x = int(val)
        return True
    except ValueError:
        return False
list(filter(is_int,values))    

['1', '2', '-3', '4', '5']

假设有这样的两组数据

In [113]:
addresses = [
'5412 N CLARK',
'5148 N CLARK',
'5800 E 58TH',
'2122 N CLARK'
'5645 N RAVENSWOOD',
'1060 W ADDISON',
'4801 N BROADWAY','1039 W GRANVILLE',
]
counts = [ 0, 3, 10, 4, 1, 7, 6, 1]

现在你想将那些对应count 值大于5 的地址全部输出，那么你可以这样做：

In [115]:
from itertools import compress
more5 = [n>5 for n in counts]
more5

[False, False, True, False, False, True, True, False]

In [116]:
list(compress(addresses,more5))

['5800 E 58TH', '4801 N BROADWAY', '1039 W GRANVILLE']

## 1.18 映射名称到序列元素

你有一段通过下标访问列表或者元组中元素的代码，但是这样有时候会使得你的代
码难以阅读，于是你想通过名称来访问元素。

In [117]:
from collections import namedtuple
Subscribe = namedtuple('Subscribe',['addr','email'])

In [118]:
sub = Subscribe('pancha','hadxu@gmail.com')

In [119]:
sub

Subscribe(addr='pancha', email='hadxu@gmail.com')

In [120]:
sub.addr

'pancha'

## 1.19 转换并同时计算数据

你需要在数据序列上执行聚集函数(比如sum() , min() , max() )，但是首先你需
要先转换或者过滤数据

In [121]:
s = ('ACME', 50, 123.45)
','.join(str(x) for x in s)

'ACME,50,123.45'

In [122]:
portfolio = [
{'name':'GOOG', 'shares': 50},
{'name':'YHOO', 'shares': 75},
{'name':'AOL', 'shares': 20},
{'name':'SCOX', 'shares': 65}
]

In [123]:
min(s['shares'] for s in portfolio)

20

## 1.20 合并多个字典或映射

### 现在有多个字典或者映射，你想将它们从逻辑上合并为一个单一的映射后执行某些操作，比如查找值或者检查某些键是否存在。

In [124]:
# 假如你有如下两个字典:
a = {'x': 1, 'z': 3 }
b = {'y': 2, 'z': 4 }

现在假设你必须在两个字典中执行查找操作(比如先从a 中找，如果找不到再在b
中找)。一个非常简单的解决方案就是使用collections 模块中的ChainMap 类。

In [125]:
from collections import ChainMap

In [126]:
c = ChainMap(a,b)

In [128]:
c['x']

1

In [129]:
c['z']

3

In [130]:
c['y']

2

<b>对于字典的更新或删除操作总是影响的是列表中第一个字典。</b>

In [131]:
c['y'] = 3

In [132]:
a

{'x': 1, 'y': 3, 'z': 3}

In [133]:
del c['y']

In [134]:
del c['y']

KeyError: "Key not found in the first mapping: 'y'"

作为ChainMap 的替代，你可能会考虑使用update() 方法将两个字典合并。

In [140]:
a = {'x': 1, 'z': 3 }
b = {'y': 2, 'z': 4 }
merged = dict(b)
merged.update(a)

In [141]:
print(merged)

{'y': 2, 'z': 3, 'x': 1}


In [142]:
a['x'] = 3

In [143]:
a['x']

3

In [144]:
merged['x']

1

这样也能行得通，但是它需要你创建一个完全不同的字典对象(或者是破坏现有字
典结构)。同时，如果原字典做了更新，这种改变不会反应到新的合并字典中去。

ChainMap 使用原来的字典，它自己不创建新的字典。

In [145]:
a = {'x': 1, 'z': 3 }
b = {'y': 2, 'z': 4 }
merged = ChainMap(a,b)

In [146]:
a['x'] = 4444

In [147]:
merged['x']

4444

## 第一章到此就结束了，从这一章中我们学会了各种python中的数据结构与算法，更加的pythonic的编程。