##### 问题:
有一系列的字典或对象实例，我们想根据某个特定的字段（比如说日期）来分组迭代数据

##### 解决方案:
itertools.groupby()函数在对数据进行分组时特别有用。

In [5]:
rows = [
 {'address': '5412 N CLARK', 'date': '07/01/2012'},
 {'address': '5148 N CLARK', 'date': '07/04/2012'},
 {'address': '5800 E 58TH', 'date': '07/02/2012'},
 {'address': '2122 N CLARK', 'date': '07/03/2012'},
 {'address': '5645 N RAVENSWOOD', 'date': '07/02/2012'},
 {'address': '1060 W ADDISON', 'date': '07/02/2012'},
 {'address': '4801 N BROADWAY', 'date': '07/01/2012'},
 {'address': '1039 W GRANVILLE', 'date': '07/04/2012'},
]


现在假设想根据日期以分组的方式迭代数据。要做到这些，首先以目标字段（在这个例子中是 date）来对序列排序，然后再使用 itertools.groupby()。

In [6]:
from operator import itemgetter
from itertools import groupby

# Sort by the desired field first
rows.sort(key=itemgetter('date')) # 因为 groupby()只能检查连续的项，不首先排序的话，将无法按所想的方式来对记录分组.

# Iterate in groups
for date, items in groupby(rows, key=itemgetter('date')):
    print(date)
    for i in items:
        print(' ',i) 

07/01/2012
  {'address': '5412 N CLARK', 'date': '07/01/2012'}
  {'address': '4801 N BROADWAY', 'date': '07/01/2012'}
07/02/2012
  {'address': '5800 E 58TH', 'date': '07/02/2012'}
  {'address': '5645 N RAVENSWOOD', 'date': '07/02/2012'}
  {'address': '1060 W ADDISON', 'date': '07/02/2012'}
07/03/2012
  {'address': '2122 N CLARK', 'date': '07/03/2012'}
07/04/2012
  {'address': '5148 N CLARK', 'date': '07/04/2012'}
  {'address': '1039 W GRANVILLE', 'date': '07/04/2012'}


函数 groupby()通过扫描序列找出拥有相同值（或是由参数 key 指定的函数所返回的值）
的序列项，并将它们分组。

在这里重要的是首先要根据感兴趣的字段对数据进行排序。因为 groupby()只能检查连续的项，不首先排序的话，将无法按所想的方式来对记录分组。

如果只是简单地根据日期将数据分组到一起，放进一个大的数据结构中以允许进行随机访问，那么利用 defaultdict()构建一个一键多值字典（multidict，见 1.6 节）可能会更好。

In [7]:
from collections import defaultdict
rows_by_date = defaultdict(list)
for row in rows:
 rows_by_date[row['date']].append(row)
for i,j in rows_by_date.items():
    print(i,j)

07/01/2012 [{'address': '5412 N CLARK', 'date': '07/01/2012'}, {'address': '4801 N BROADWAY', 'date': '07/01/2012'}]
07/02/2012 [{'address': '5800 E 58TH', 'date': '07/02/2012'}, {'address': '5645 N RAVENSWOOD', 'date': '07/02/2012'}, {'address': '1060 W ADDISON', 'date': '07/02/2012'}]
07/03/2012 [{'address': '2122 N CLARK', 'date': '07/03/2012'}]
07/04/2012 [{'address': '5148 N CLARK', 'date': '07/04/2012'}, {'address': '1039 W GRANVILLE', 'date': '07/04/2012'}]


对于后面这个例子，我们并不需要先对记录做排序。因此，如果不考虑内存方面的因
素，这种方式会比先排序再用 groupby()迭代要来的更快。