本文学习于[PyMOTW](https://pymotw.com/2/itertools/) 和 [python itertools](https://docs.python.org/2/library/itertools.html) 。

`itertools`包 是为有效循环而创建迭代器的函数库，它提供了非常有用的用于操作迭代对象的函数，它们返回的不是`list`，而是迭代对象，只有用`for循环`迭代时才真正计算。、

基于迭代器的代码可能比使用列表的代码更好。由于在需要迭代器之前，数据不会从迭代器中生成，因此所有数据不会同时存储在内存中。减少内存占用可以减少大数据集的交换和其它副作用，进而提升性能。

# 概览

## 生成无限序列的迭代器

![](./image/infinite_iterator.png)

## 在最短输入序列上终止的迭代器

![](./image/iterators_short.png)

## 序列元素排列组合的生成器

![](./image/combinatoric_generators.png)

# 合并和分割数据集的迭代器

## chain()

`itertools.chain(*iterables)`将多个迭代器作为参数，但只返回单个迭代器，它产生所有作为参数的迭代器的元素，就好像这些元素来自于一个单一的序列。

In [1]:
from itertools import chain

it1 = chain([1,2,3],['a','b','c'])
it2 = chain([1,2,3],['a','b','c'],[11,12,13])
print('it1: ')
for i in it1:
    print(i,end=',')
print('\n')
print('it2: ')
for i in it2:
    print(i,end=',')

it1: 
1,2,3,a,b,c,

it2: 
1,2,3,a,b,c,11,12,13,

## chain.from_iterable()

`itertools.chain.from_iterable(iterable)`作用与`itertools.chain(*iterables)`一样,但是参数却只能有一个。参数`iterable`本身是一个可迭代的对象，且其每个元素也是可迭代的。

In [2]:
from itertools import chain

for i in chain.from_iterable(['abc','def']):
    print(i,end=', ')
print('\n')

for i in chain.from_iterable([[1,2,3],[4,5]]):
    print(i,end=', ')
print('\n')

a, b, c, d, e, f, 

1, 2, 3, 4, 5, 



## zip_longest()

`itertools.zip_longest(*iterables，fillvalue)` 返回一个合并了多个迭代器为一个元组的迭代器。它类似于内置函数`zip()`，只是它返回的是一个迭代器而不是一个列表。

创建一个迭代器，生成元组($i_1, i_2, ... i_N$)，其中$i_1，i_2 ... i_N$ 分别来自迭代器$iter_1，iter_2 ... iter_N$，不像内置函数`zip()`只要提供的某个迭代器不再生成值，迭代就会停止。`itertools.zip_longest(*iterables)`迭代是以最长的迭代器为准，如果某个迭代器元素耗尽了，则以 `参数fillvalue` 的值来填充。

In [3]:
from itertools import zip_longest

it1 = zip([1,2,3],['a','b','c'])
it2 = zip_longest([1,2,3,4,5],['a','b','c'],fillvalue='d')
print('type(it1): ',type(it1))
print('type(it2): ',type(it2))

for i in it2:
    print(i,end=',')
print('\n')

type(it1):  <class 'zip'>
type(it2):  <class 'itertools.zip_longest'>
(1, 'a'),(2, 'b'),(3, 'c'),(4, 'd'),(5, 'd'),



## islice()

`itertools.islice(iterable,start,stop,step)` ：返回一个迭代器，其元素是是输入迭代器根据索引来选取的项。

创建一个迭代器，生成项的方式类似于切片返回值： `iterable[start : stop : step]`，将跳过前start个项，迭代在stop所指定的位置停止，step指定用于跳过项的步幅。 与切片不同，负值不会用于任何start，stop和step， 如果省略了start，迭代将从0开始，如果省略了step，步幅将采用1。start从0开始。

In [4]:
from itertools import islice

for i in islice('ABCDEFG',2,6,2):
    print(i,end=' ')
print('\n')

C E 



## tee()

`itertools.tee(iterable,n=2)`：返回**n**个基于原始迭代器的独立迭代器(默认为2),也就是会把原始迭代器复制n个。

从iterable创建n个独立的迭代器，创建的迭代器以n元组的形式返回，n的默认值为2，此函数适用于任何可迭代的对象，但是，为了克隆原始迭代器，生成的项会被缓存，并在所有新创建的迭代器中使用，一定要注意，不要在调用tee()之后使用原始迭代器iterable，否则缓存机制可能无法正确工作。

把一个迭代器分为n个迭代器, 以元组的形式返回，默认是两个迭代器。

In [5]:
from itertools import tee

i1,i2,i3 = tee([1,2,3,4,5,6,7,8,9],3)
for i,j,k in zip(i1,i2,i3):
    print(i,j,k)

1 1 1
2 2 2
3 3 3
4 4 4
5 5 5
6 6 6
7 7 7
8 8 8
9 9 9


# 可以转换输入的迭代器

## starmap()

`itertools.starmap(function,iterable)`：对序列迭代器iterable中的每个元素，都将其作为函数function的参数执行, 最后返回每个元素执行结果组成的迭代器。

In [6]:
from itertools import starmap

values = [(0, 5), (1, 6), (2, 7), (3, 8), (4, 9)]
for i in starmap(lambda x,y:(x,y,x*y),values):
    print('%d * %d = %d' % i)

0 * 5 = 0
1 * 6 = 6
2 * 7 = 14
3 * 8 = 24
4 * 9 = 36


# 可以生成新数据的无限迭代器

## count()

`itertools.count(start=0,step=1)`：创建一个迭代器，生成从n开始的连续整数，如果忽略n，则从0开始计算。如果超出了sys.maxint，计数器将溢出并继续从-sys.maxint-1开始计算。

注意，该函数会无限生成数字，需要通过其它方式来限制生成数字的数量。

In [7]:
from itertools import count

for i in zip(count(1),['a','b','c']):
    print(i)

(1, 'a')
(2, 'b')
(3, 'c')


## cycle()

`itertools.cycle(iterable)`：创建一个迭代器，其元素来源于iterable，并保存每个元素的副本。当iterable耗尽时，从保存的副本中继续返回元素，无限重复下去。

In [8]:
from itertools import cycle

count = 0
for i in cycle('ABCD'):
    print(i,end=',')
    if count > 10:
        break
    count += 1

A,B,C,D,A,B,C,D,A,B,C,D,

## repeat()

`itertools.repeat(object,times)`：创建一个迭代器，重复生成object，times（如果已提供）指定重复计数，如果未提供times，将无止尽返回该对象。

In [9]:
from itertools import repeat

for i in repeat('over-and-over',times=5):
    print(i)

over-and-over
over-and-over
over-and-over
over-and-over
over-and-over


# 可用于过滤数据的迭代器

## compress()

`itertools.compress(data,selectors)`：从data中，依据selectors对原始数据进行筛选，即 `(d[0] if s[0]), (d[1] if s[1]), …`

In [10]:
from itertools import compress

for i in compress('ABCDEF',[1,0,1,0,1,1]):
    print(i,end=',')

A,C,E,F,

## dropwhile()

`itertools.dropwhile(predicate,iterable)`：创建一个迭代器，只要函数predicate(item)为True，就丢弃iterable中的item项，只有predicate第一次返回False，就会返回iterable中的项和所有后续项。即：在条件为false之后的第一次, 返回迭代器中剩下来的项。

In [11]:
from itertools import dropwhile

for i in dropwhile(lambda x:x<5,[1,4,6,4,1]):
    print(i,end=',')

6,4,1,

## takewhile()

`itertools.takewhile(predicate,iterable)`：和dropwhile相反，创建一个迭代器，生成iterable中predicate(item)为True的项，只要predicate计算为False，迭代就会立即停止。即：从序列的头开始, 直到执行函数func失败.

In [12]:
from itertools import takewhile

for i in takewhile(lambda x:x<5,[1,4,6,4,1]):
    print(i,end=',')

1,4,

## filterfalse()

`itertools.filterfalse(predicate,iterable)`：返回一个包含那些测试函数(predicate)返回false的项的迭代器。

创建一个迭代器，仅生成iterable中predicate(item)为False的项，如果predicate为None，则返回iterable中所有计算为False的项。

In [13]:
from itertools import filterfalse

for i in filterfalse(lambda x:x%2,range(10)):
    print(i,end=',')

0,2,4,6,8,

# 可用于分组数据的迭代器

## groupby()

`itertools.groupby(iterable,key)`：返回一个产生按照key进行分组后的值集合的迭代器。其中iterable是可迭代对象，key是一个用于分组的函数。

如果iterable在多次连续迭代中生成了同一项，则会定义一个组。如果将此函数应用一个分类列表，那么分组将定义该列表中的所有唯一项，key（如果已提供）是一个函数，应用于每一项，如果此函数存在返回值，该值将用于后续项而不是该项本身进行比较，**此函数返回的迭代器生成元素(key, group)，其中key是分组的键值，group是迭代器，生成组成该组的所有项**。即：按照key函数对序列每个元素执行后的结果分组(每个分组是一个迭代器), 返回这些分组的迭代器。

In [14]:
from itertools import groupby

a = ['aa','bb','abc','bcd','abcde']
for i in groupby(a,len): # 按长度分组，此时key函数是len
    print(i)
print()
for i,k in groupby(a,len):
    print(i,list(k))

(2, <itertools._grouper object at 0x000001BF6D37D828>)
(3, <itertools._grouper object at 0x000001BF6D37DA58>)
(5, <itertools._grouper object at 0x000001BF6D37D828>)

2 ['aa', 'bb']
3 ['abc', 'bcd']
5 ['abcde']


# 元素排列组合的生成器

## product()

`itertools.product(*iterables,repeat)`：求笛卡尔积。创建一个迭代器，生成表示item1，item2等中的项目的笛卡尔积的元组，repeat是一个关键字参数，指定重复生成序列的次数,即生成序列中每个元素的长度。

In [15]:
from itertools import product

for i in product('ABCD',repeat=2):
    print(i,end=',')
print('\n')

for i in product('ABCD',repeat=3):
    print(i,end=',')
print('\n')

('A', 'A'),('A', 'B'),('A', 'C'),('A', 'D'),('B', 'A'),('B', 'B'),('B', 'C'),('B', 'D'),('C', 'A'),('C', 'B'),('C', 'C'),('C', 'D'),('D', 'A'),('D', 'B'),('D', 'C'),('D', 'D'),

('A', 'A', 'A'),('A', 'A', 'B'),('A', 'A', 'C'),('A', 'A', 'D'),('A', 'B', 'A'),('A', 'B', 'B'),('A', 'B', 'C'),('A', 'B', 'D'),('A', 'C', 'A'),('A', 'C', 'B'),('A', 'C', 'C'),('A', 'C', 'D'),('A', 'D', 'A'),('A', 'D', 'B'),('A', 'D', 'C'),('A', 'D', 'D'),('B', 'A', 'A'),('B', 'A', 'B'),('B', 'A', 'C'),('B', 'A', 'D'),('B', 'B', 'A'),('B', 'B', 'B'),('B', 'B', 'C'),('B', 'B', 'D'),('B', 'C', 'A'),('B', 'C', 'B'),('B', 'C', 'C'),('B', 'C', 'D'),('B', 'D', 'A'),('B', 'D', 'B'),('B', 'D', 'C'),('B', 'D', 'D'),('C', 'A', 'A'),('C', 'A', 'B'),('C', 'A', 'C'),('C', 'A', 'D'),('C', 'B', 'A'),('C', 'B', 'B'),('C', 'B', 'C'),('C', 'B', 'D'),('C', 'C', 'A'),('C', 'C', 'B'),('C', 'C', 'C'),('C', 'C', 'D'),('C', 'D', 'A'),('C', 'D', 'B'),('C', 'D', 'C'),('C', 'D', 'D'),('D', 'A', 'A'),('D', 'A', 'B'),('D', 'A', 'C'),('D', 

## permutations()

`itertools.permutations(iterable,r)`：返回iterable中,任意取r个元素做排列的元组的迭代器

创建一个迭代器，返回iterable中所有长度为r的项目序列，如果省略了r，那么序列的长度与iterable中的项目数量相同。返回p中任意取r个元素做排列的元组的迭代器

In [16]:
from itertools import permutations

for i in permutations('ABCD',2):
    print(i,end=',')
print('\n')

('A', 'B'),('A', 'C'),('A', 'D'),('B', 'A'),('B', 'C'),('B', 'D'),('C', 'A'),('C', 'B'),('C', 'D'),('D', 'A'),('D', 'B'),('D', 'C'),



## combinations()

`itertools.combinations(iterable,r)`：创建一个迭代器，返回iterable中所有长度为r的子序列，返回的子序列中的项按输入iterable中的顺序排序 (不带重复)。注意，子序列中各个元素的相对顺序与原输入序列一致。

In [17]:
from itertools import combinations

for i in combinations('ABCD',2):
    print(i,end=',')
print('\n')

('A', 'B'),('A', 'C'),('A', 'D'),('B', 'C'),('B', 'D'),('C', 'D'),



## combinations_with_replacement()

`itertools.combinations_with_replacement(iterable,r)`：创建一个迭代器，返回iterable中所有长度为r的子序列，返回的子序列中的项按输入iterable中的顺序排序 (带重复)。

In [18]:
from itertools import combinations_with_replacement

for i in combinations_with_replacement('ABCD',2):
    print(i,end=',')
print('\n')

('A', 'A'),('A', 'B'),('A', 'C'),('A', 'D'),('B', 'B'),('B', 'C'),('B', 'D'),('C', 'C'),('C', 'D'),('D', 'D'),



# 计算累计值的生成器：可以是累计和，累计差，累计值

## accumulate()

`itertools.accumulate(p,func)`：生成一个迭代器，返回累积和或其他二进制函数的累积结果（通过可选的func参数指定）
1. p：是可迭代对象
2. func：是用于计算累计值的函数，接受两个参数，默认是加法操作

如果提供了func，则它应该是两个参数的函数。输入iterable的元素可以是任何可以作为func参数接受的类型。

In [19]:
from itertools import accumulate

p = [1,2,3,4,5,6,7,8,9]
#计算累加和
print('计算累计和： ')
for i in accumulate(p):
    print(i,end=',')
print('\n')

# 计算累计积，即阶乘
print('计算累计积：')
for i in accumulate(p,lambda x,y:x*y):
    print(i,end=',')
print('\n')

# 计算累计商
print('计算累计商：')
for i in accumulate(reversed(p),lambda x,y:x / float(y)):
    print(i,end=',')
print('\n')

计算累计和： 
1,3,6,10,15,21,28,36,45,

计算累计积：
1,2,6,24,120,720,5040,40320,362880,

计算累计商：
9,1.125,0.16071428571428573,0.026785714285714288,0.005357142857142857,0.0013392857142857143,0.0004464285714285714,0.0002232142857142857,0.0002232142857142857,

