## 有一系列的字典或对象实例，我们想根据某个特定的字段（比如说日期）来分组迭代数据。

In [20]:
rows = [
    {'adress': '5412 N', 'date': '07/01/2018'},
    {'adress': '542 N', 'date': '07/01/2018'},
    {'adress': '1212 N', 'date': '07/12/2018'},
    {'adress': '3212 N', 'date': '07/10/2018'},
    {'adress': '12 N', 'date': '07/15/2018'},
    {'adress': '122 N', 'date': '07/12/2018'},
]

In [14]:
from itertools import groupby
rows.sort(key=lambda x:x['date'])  # 要先排序

for data,items in groupby(rows,lambda x:x['date']):
    print(data)
    for i in items:
        print(' ',i)

07/01/2018
  {'adress': '5412 N', 'date': '07/01/2018'}
  {'adress': '542 N', 'date': '07/01/2018'}
07/10/2018
  {'adress': '3212 N', 'date': '07/10/2018'}
07/12/2018
  {'adress': '1212 N', 'date': '07/12/2018'}
  {'adress': '122 N', 'date': '07/12/2018'}
07/15/2018
  {'adress': '12 N', 'date': '07/15/2018'}


1、函数groupby()通过扫描序列找出相同的值(或是由参数key指定的函数返回的值)的序列项，并将它们分组；
2、groupby()创建了一个迭代器，而在每次迭代时都会返回一个value和一个子迭代器，这个子迭代器可以产生所有在该分组内具有该值得项；
3、groupby()只能检查连续的项，不首先排序的话，将无法按所想的方式来对记录分组；
4、如果只是简单的根据日期将数据分组到一起，可以使用collections.defaultdict()构建一个一键多值字典，并不需要先对记录排序。

In [21]:
from collections import defaultdict
rows_by_date = defaultdict(list)
for row in rows:
    rows_by_date[row['date']].append(row)
rows_by_date

defaultdict(list,
            {'07/01/2018': [{'adress': '5412 N', 'date': '07/01/2018'},
              {'adress': '542 N', 'date': '07/01/2018'}],
             '07/12/2018': [{'adress': '1212 N', 'date': '07/12/2018'},
              {'adress': '122 N', 'date': '07/12/2018'}],
             '07/10/2018': [{'adress': '3212 N', 'date': '07/10/2018'}],
             '07/15/2018': [{'adress': '12 N', 'date': '07/15/2018'}]})

In [18]:
for i in rows_by_date['07/01/2018']:
    print(i)

{'adress': '5412 N', 'date': '07/01/2018'}
{'adress': '542 N', 'date': '07/01/2018'}


In [25]:
rows_by_date.keys()

dict_keys(['07/01/2018', '07/12/2018', '07/10/2018', '07/15/2018'])

In [24]:
for i in zip(rows_by_date.keys(), rows_by_date.values()):
    print(i)

('07/01/2018', [{'adress': '5412 N', 'date': '07/01/2018'}, {'adress': '542 N', 'date': '07/01/2018'}])
('07/12/2018', [{'adress': '1212 N', 'date': '07/12/2018'}, {'adress': '122 N', 'date': '07/12/2018'}])
('07/10/2018', [{'adress': '3212 N', 'date': '07/10/2018'}])
('07/15/2018', [{'adress': '12 N', 'date': '07/15/2018'}])
