# 第一章 数据结构和算法（3）

### 1.12 序列中出现次数最多的元素

**问：怎样找出一个序列中出现次数最多的元素呢？**

collections.Counter 类就是专门为这类问题而设计的，它甚至有一个有用的
most common() 方法直接给了你答案

In [1]:
words = [
'look', 'into', 'my', 'eyes', 'look', 'into', 'my', 'eyes',
'the', 'eyes', 'the', 'eyes', 'the', 'eyes', 'not', 'around', 'the',
'eyes', "don't", 'look', 'around', 'the', 'eyes', 'look', 'into',
'my', 'eyes', "you're", 'under'
]

from collections import Counter 

word_counts = Counter(words) 
# 出现频率最高的三个单词 
top_three = word_counts.most_common(3)
print(word_counts)
print(top_three)

Counter({'eyes': 8, 'the': 5, 'look': 4, 'into': 3, 'my': 3, 'around': 2, 'not': 1, "don't": 1, "you're": 1, 'under': 1})
[('eyes', 8), ('the', 5), ('look', 4)]


**作为输入， Counter 对象可以接受任意的 hashable 序列对象。在底层实现上，一
个 Counter 对象就是一个字典，将元素映射到它出现的次数上**

In [2]:
word_counts['not']

1

- 如果你想手动增加计数可以简单的用加

In [3]:
morewords = ['why','are','you','not','looking','in','my','eyes']
for word in morewords:
    word_counts[word] += 1 
word_counts['not']

2

- 或者你可以使用 update() 方法：

In [4]:
word_counts.update(morewords)
word_counts['not']

3

**Counter 实例可以很容易的跟数学运算操作相结合。**

In [5]:
a = Counter(words)
b = Counter(morewords)
a

Counter({'around': 2,
         "don't": 1,
         'eyes': 8,
         'into': 3,
         'look': 4,
         'my': 3,
         'not': 1,
         'the': 5,
         'under': 1,
         "you're": 1})

In [6]:
b

Counter({'are': 1,
         'eyes': 1,
         'in': 1,
         'looking': 1,
         'my': 1,
         'not': 1,
         'why': 1,
         'you': 1})

In [8]:
c = a + b
c

Counter({'are': 1,
         'around': 2,
         "don't": 1,
         'eyes': 9,
         'in': 1,
         'into': 3,
         'look': 4,
         'looking': 1,
         'my': 4,
         'not': 2,
         'the': 5,
         'under': 1,
         'why': 1,
         'you': 1,
         "you're": 1})

In [9]:
d = a - b
d

Counter({'around': 2,
         "don't": 1,
         'eyes': 7,
         'into': 3,
         'look': 4,
         'my': 2,
         'the': 5,
         'under': 1,
         "you're": 1})

Counter 对象在几乎所有需要制表或者计数数据的场合是非常有用的
工具。在解决这类问题的时候你应该优先选择它，而不是手动的利用字典去实现。

### 1.13 通过某个关键字排序一个字典列表

**问：你有一个字典列表，你想根据某个或某几个字典字段来排序这个列表。
**

通过使用 operator 模块的 itemgetter 函数，可以非常容易的排序这样的数据结
构

In [11]:
rows = [
{'fname': 'Brian', 'lname': 'Jones', 'uid': 1003},
{'fname': 'David', 'lname': 'Beazley', 'uid': 1002},
{'fname': 'John', 'lname': 'Cleese', 'uid': 1001},
{'fname': 'Big', 'lname': 'Jones', 'uid': 1004}
]

from operator import itemgetter
rows_by_fname = sorted(rows, key=itemgetter('fname'))
rows_by_uid = sorted(rows, key=itemgetter('uid'))
print(rows_by_fname)
print('*' * 50)
print(rows_by_uid)

[{'fname': 'Big', 'lname': 'Jones', 'uid': 1004}, {'fname': 'Brian', 'lname': 'Jones', 'uid': 1003}, {'fname': 'David', 'lname': 'Beazley', 'uid': 1002}, {'fname': 'John', 'lname': 'Cleese', 'uid': 1001}]
**************************************************
[{'fname': 'John', 'lname': 'Cleese', 'uid': 1001}, {'fname': 'David', 'lname': 'Beazley', 'uid': 1002}, {'fname': 'Brian', 'lname': 'Jones', 'uid': 1003}, {'fname': 'Big', 'lname': 'Jones', 'uid': 1004}]


itemgetter() 函数也支持多个 keys，比如下面的代码

In [12]:
rows_by_lfname = sorted(rows, key=itemgetter('lname','fname'))
print(rows_by_lfname)

[{'fname': 'David', 'lname': 'Beazley', 'uid': 1002}, {'fname': 'John', 'lname': 'Cleese', 'uid': 1001}, {'fname': 'Big', 'lname': 'Jones', 'uid': 1004}, {'fname': 'Brian', 'lname': 'Jones', 'uid': 1003}]


itemgetter() 有时候也可以用 lambda 表达式代替

In [13]:
rows_by_fname = sorted(rows, key=lambda r: r['fname'])
rows_by_lfname = sorted(rows, key=lambda r: (r['lname'],r['fname']))

同样适用于 min() 和 max() 等函数

In [14]:
min(rows, key=itemgetter('uid'))

{'fname': 'John', 'lname': 'Cleese', 'uid': 1001}

In [15]:
max(rows, key=itemgetter('uid'))

{'fname': 'Big', 'lname': 'Jones', 'uid': 1004}

### 1.14 排序不支持原生比较的对象

**问：你想排序类型相同的对象，但是他们不支持原生的比较操作**

内置的 sorted() 函数有一个关键字参数 key ，可以传入一个 callable 对象给它，
这个 callable 对象对每个传入的对象返回一个值，这个值会被 sorted 用来排序这些
对象。

In [1]:
class User:
    def __init__(self, user_id):
        self.user_id = user_id
    def __repr__(self):
        return 'User({})'.format(self.user_id)
    

users = [User(23), User(3), User(99)]
print(users)
print(sorted(users, key=lambda u: u.user_id))
    

[User(23), User(3), User(99)]
[User(3), User(23), User(99)]


另外一种方式是使用 operator.attrgetter() 来代替 lambda 函数：


In [4]:
from operator import attrgetter
sorted(users, key=attrgetter('user_id'))

[User(3), User(23), User(99)]

选择使 用 lambda 函数 或者 是 attrgetter() 可能 取 决于 个人 喜好。 但是，
attrgetter() 函数通常会运行的快点，并且还能同时允许多个字段进行比较。这
个跟 operator.itemgetter() 函数作用于字典类型很类似 (参考 1.13 小节)。例如，如
果 User 实例还有一个 first name 和 last name 属性，那么可以向下面这样排序

In [None]:
sorted(users, key=attrgetter('last_name', 'first_name'))

这一小节用到的技术同样适用于像 min() 和 max() 之类的函
数

In [7]:
min(users, key=attrgetter('user_id'))

User(3)

### 1.15 通过某个字段将记录分组

**问：你有一个字典或者实例的序列，然后你想根据某个特定的字段比如 date 来分组迭
代访问**

itertools.groupby() 函数对于这样的数据分组操作非常实用

In [9]:
rows = [
    {'address': '5412 N CLARK', 'date': '07/01/2012'},
    {'address': '5148 N CLARK', 'date': '07/04/2012'},
    {'address': '5800 E 58TH', 'date': '07/02/2012'},
    {'address': '2122 N CLARK', 'date': '07/03/2012'},
    {'address': '5645 N RAVENSWOOD', 'date': '07/02/2012'},
    {'address': '1060 W ADDISON', 'date': '07/02/2012'},
    {'address': '4801 N BROADWAY', 'date': '07/01/2012'}, 
    {'address': '1039 W GRANVILLE', 'date': '07/04/2012'}
]

现在假设你想在按 date 分组后的数据块上进行迭代。为了这样做，你首先需要按
照指定的字段 (这里就是 date ) 排序，然后调用 itertools.groupby() 函数

In [10]:
from operator import itemgetter
from itertools import groupby

rows.sort(key=itemgetter('date'))

for date, items in groupby(rows, key=itemgetter('date')):
    print(date) 
    for i in items:
        print(' ', i)

07/01/2012
  {'address': '5412 N CLARK', 'date': '07/01/2012'}
  {'address': '4801 N BROADWAY', 'date': '07/01/2012'}
07/02/2012
  {'address': '5800 E 58TH', 'date': '07/02/2012'}
  {'address': '5645 N RAVENSWOOD', 'date': '07/02/2012'}
  {'address': '1060 W ADDISON', 'date': '07/02/2012'}
07/03/2012
  {'address': '2122 N CLARK', 'date': '07/03/2012'}
07/04/2012
  {'address': '5148 N CLARK', 'date': '07/04/2012'}
  {'address': '1039 W GRANVILLE', 'date': '07/04/2012'}


groupby() 函数扫描整个序列并且查找连续相同值 (或者根据指定 key 函数返回值
相同) 的元素序列。在每次迭代的时候，它会返回一个值和一个迭代器对象，这个迭代
器对象可以生成元素值全部等于上面那个值的组中所有对象

一个非常重要的准备步骤是要根据指定的字段将数据排序。因为 groupby() 仅仅
检查连续的元素，如果事先并没有排序完成的话，分组函数将得不到想要的结果。