# 数据结构与算法

In [18]:
from pprint import pprint

## 解压可迭代对象赋值给多个变量

你想统计下家庭作业的平均成绩,但是排除掉第一个和最后一个分数。如果只有四个分数,你可能就直接去简单的手动赋值,但如果有 24 个呢?这时候<span class="mark">星号表达式</span>就派上用场了:

In [10]:
# 你想统计下家庭作业的平均成绩,但是排除掉第一个和最后一个分数
def drop_first_last(grades):
    first, *middle, last = grades
    return middle

grades = range(91, 99)
print(drop_first_last(grades))
mid_grades = grades[1:-1]
print(list(mid_grades))
# print(sum(range(92, 98))/)

[92, 93, 94, 95, 96, 97]
[92, 93, 94, 95, 96, 97]


另外一种情况,假设你现在有一些用户的记录列表,每条记录包含一个名字、邮件,接着就是不确定数量的电话号码。
解压出的 <span class="girk">phone_numbers 变量永远都是列表类型</span>,不管解压的电话号码数量是多少(包括 0 个)。

In [20]:
a, b, c, *x = (0, 1,2,3,4)
print(a, b, c)
*x, a, b, c = (0, 1,2,3,4)
print(a, b, c)

0 1 2
2 3 4


In [None]:
record = ('Dave', 'dave@example.com', '773-555-1212', '847-555-1212')
name, email, *phone_numbers = record
print(name, email)
print(phone_numbers)

<span class="girk">星号表达式也能用在列表的开始部分。</span>比如,你有一个公司前 8 个月销售数据的
序列,但是你想看下最近一个月数据和前面 7 个月的平均值的对比。

In [None]:
*trailing, current = [10, 8, 7, 1, 9, 5, 10, 3]
print(trailing)
print(current)

星号表达式在迭代元素为可变长元组的序列时是很有用的.
星号解压语法在字符串操作的时候也会很有用,比如字符串的分割。

In [12]:
line = 'nobody:*:-2:-2:Unprivileged User:/var/empty:/usr/bin/false'
uname, *fields, homedir, sh = line.split(':')
print(uname, homedir, sh)

nobody /var/empty /usr/bin/false


有时候,你想解压一些元素后丢弃它们,你不能简单就使用 * ,但是你可以使用一
个普通的废弃名称,比如 _ 或者 ign (ignore)。

In [13]:
record = ('ACME', 50, 123.45, (12, 18, 2012))
name, *_, (*_, year) = record
print(name, year)

ACME 2012


星号解压语法跟列表处理有许多相似之处。

In [14]:
items = [1, 10, 7, 4, 5, 9]
head, *tail = items
print(head)
print(tail)

1
[10, 7, 4, 5, 9]


实现递归算法, 递归并不是 Python 擅长的, 仅作测试用

In [15]:
def sum(items):
    head, *tail = items
    return head + sum(tail) if tail else head
sum(range(10, 100))

4905

## 查找最大或最小的 N 个元素

<span class="mark">heapq 模块有<span class="mark">两</span>个函数:nlargest() 和 nsmallest()</span> 可以完美解决这个问题。

In [None]:
import heapq
nums = [1, 8, 2, 23, 7, -4, 18, 23, 42, 37, 2]
pprint(heapq.nlargest(3, nums)) # Prints [42, 37, 23]
pprint(heapq.nsmallest(3, nums)) # Prints [-4, 1, 2]

两个函数都能接受一个关键字参数,用于更复杂的数据结构中:

In [None]:
portfolio = [
{'name': 'IBM', 'shares': 100, 'price': 91.1},
{'name': 'AAPL', 'shares': 50, 'price': 543.22},
{'name': 'FB', 'shares': 200, 'price': 21.09},
{'name': 'HPQ', 'shares': 35, 'price': 31.75},
{'name': 'YHOO', 'shares': 45, 'price': 16.35},
{'name': 'ACME', 'shares': 75, 'price': 115.65}
]
cheap = heapq.nsmallest(3, portfolio, key=lambda s: s['price'])
expensive = heapq.nlargest(3, portfolio, key=lambda s: s['price'])
pprint.pprint(cheap)
pprint.pprint(expensive)

如果你想在一个集合中查找最小或最大的 N 个元素,并且 N 小于集合元素数量,
那么这些函数提供了很好的性能。因为在底层实现里面,首先会先将集合数据进行堆排
序后放入一个列表中:

In [None]:
nums = [1, 8, 2, 23, 7, -4, 18, 23, 42, 37, 2]
import heapq
heap = list(nums)
heapq.heapify(heap)
pprint(heap)

堆<span class="mark">数据结构最重要的特征是 heap[0] 永远是最小的元素</span>。并且<span class="mark">剩余的元素可以很容易的通过调用 heapq.heappop() 方法得到,该方法会先将第一个元素弹出来,然后用下一个最小的元素来取代被弹出元素(这种操作时间复杂度仅仅是 O(log N),N 是堆大小)。</span>  
比如,如果想要查找最小的 3 个元素,你可以这样做:

In [None]:
pprint(heapq.heappop(heap))
pprint(heapq.heappop(heap))
pprint(heapq.heappop(heap))

- 当要查找的元素个数相对比较小的时候,函数 nlargest() 和 nsmallest() 是很合适的。  
- 如果你仅仅想查找唯一的最小或最大(N=1)的元素的话,那么使用 min() 和max() 函数会更快些。    
- <span class="mark">如果 N 的大小和集合大小接近的时候,通常先排序这个集合然后再使用切片操作会更快点(sorted(items)[:N] 或者是 sorted(items)[-N:])。</span>

需要在正确场合使用函数 nlargest() 和 nsmallest

## 保留最后 N 个元素

 collections.deque双向链表：保留有限历史记录

## 默认字典

In [24]:
from pprint import pprint
from collections import defaultdict
d = defaultdict(list)
d['a'].append(1)
d['a'].append(2)
pprint(d)

defaultdict(<class 'list'>, {'a': [1, 2]})


In [25]:
# 若使用普通字典，则需要
d = {}
d.setdefault('a', []).append(1)
d.setdefault('a', []).append(2)
pprint(d)

{'a': [1, 2]}


## key为有序的字典

In [26]:
from pprint import pprint
from collections import OrderedDict
d = OrderedDict()
d['foo'] = 1
d['bar'] = 2
d['acer'] = 3
for k in d:
    print(k, d[k])

foo 1
bar 2
acer 3


<span class="mark">OrderedDict在与json组合使用时特别有用，因为json是有序的，而普通的字典是无序的</span>

## 找出字典间的共同key

dict的key，可以像set那样做 合，并，交集运算

In [28]:
a = {
'x' : 1,
'y' : 2,
'z' : 3
} 
b= {
'w' : 10,
'x' : 11,
'y' : 2
}

In [29]:
# 找出共同的key
a.keys() & b.keys() # { 'x', 'y' }
# 找出a， b的差异
a.keys() - b.keys() # { 'z' }
# 找出共同的key和值
a.items() & b.items() # { ('y', 2) }
# 排除特定的key值
c = {key:a[key] for key in a.keys() - {'z', 'w'}}
# c is {'x': 1, 'y': 2}

## 字典的运算

要点：结合使用keys, values, zip，对键值关系进行颠倒

In [None]:
prices = {
'ACME': 45.23,
'AAPL': 612.78,
'IBM': 205.55,
'HPQ': 37.20,
'FB': 10.75
}

In [31]:
# 找出股份最高
max_price = max(zip(prices.values(), prices.keys()))
print(max_price)

(612.78, 'AAPL')


In [34]:
# 对股份进行排序
prices_sorted = sorted(zip(prices.values(), prices.keys()))
pprint(prices_sorted)

[(10.75, 'FB'),
 (37.2, 'HPQ'),
 (45.23, 'ACME'),
 (205.55, 'IBM'),
 (612.78, 'AAPL')]


In [37]:
# 不使用zip
max(prices, key=lambda k: prices[k])

'AAPL'

## 命名切片

使用命名切片slice，可以使代码更容易维护

In [41]:
###### 0123456789012345678901234567890123456789012345678901234567890'
record = '....................100 .......513.25 ..........'
cost = int(record[20:23]) * float(record[31:37])
print(cost)

51325.0


**使用切片更容易维护, 避免大量硬编码**

In [44]:
SHARES = slice(20, 23)
PRICE = slice(31, 37)
cost = int(record[SHARES]) * float(record[PRICE])
print(cost)

51325.0


In [46]:
items = [0, 1, 2, 3, 4, 5, 6]
a = slice(2, 4)
print(items[2:4])
print(items[a])
items[a] = [12,13]
print(items)
del items[a]
print(items)

[2, 3]
[2, 3]
[0, 1, 12, 13, 4, 5, 6]
[0, 1, 4, 5, 6]
