# itertools模块使用说明
`itertools`是Python内建的一个模块，用于迭代计算实现高效的循环计算。迭代器有一个特点就是非常懒，只有到提示到deadline的时候，也就是迭代到某个值的时候，才会进行计算。如果有大文件就很适合迭代器，这样我们可以不用把所有数据缓存到内存中。`itertools`中提供了各类函数，这些函数都会返回迭代器，我们可以用`for`循环来遍历，或者使用`next()`方法来获得下一个值。关于迭代器的介绍可以参考[迭代器-瘳雪峰](http://www.liaoxuefeng.com/wiki/0014316089557264a6b348958f449949df42a6d3a2e542c000/00143178254193589df9c612d2449618ea460e7a672a366000)

## 1. 无限迭代器
这里讲的3个迭代器可以无限迭代，直到Python里面设置的最大迭代次数就会停止了。

### 1.1 count
默认情况下从0开始计数，每次加1，直到世界的尽头（Python中最大的sys.maxint-1），用法`count(start, [step])`。

In [3]:
from itertools import count
# 不加参数使用默认参数
for i in count():
    if i > 10:
        break
    print i
    
print '-'*15
# 添加起始和间隔步长
for i in count(6,0.5):
    if i > 10:
        break
    print i

0
1
2
3
4
5
6
7
8
9
10
---------------
6
6.5
7.0
7.5
8.0
8.5
9.0
9.5
10.0


### 1.2 cycle
无限循环函数，给定一个序列或字符等可以迭代的对象，可以一直循环输出，`cycle(seq)`

In [7]:
from itertools import cycle
# 如果不加条件会一直循环下去
n = 0
for i in cycle('ATCG'):
    if n > 10:
        break
    print i
    n += 1

A
T
C
G
A
T
C
G
A
T
C


### 1.3 repeat
这个也是默认无限次重复，这里只重复一个元素,`repeat(element, [n])`后面的n可以用于指定重复的次数

In [8]:
from itertools import repeat

for i in repeat('A', 5):
    print i

A
A
A
A
A


## 2. 短序列上的迭代
下面的函数都是在有限序列上进行迭代操作，功能还是很有意思的。

### 2.1 chain
从第一个可迭代的对象开始，一个接一个的迭代下去，`chain(*iterables)`。不明白**\***用法的，可以复习下函数里面参数那一部分内容。

In [9]:
from itertools import chain

for i in chain('ATCG','1234'):
    print i

A
T
C
G
1
2
3
4


### 2.2 compress
compress也就是压缩的意思，就是把不必要的东西过滤掉，过滤的时候需要指定一个选择器来进行选择。`compress(data, selector)`，需要指定一个数据和selector, selector和data之间的长度可以不一样。相当于每次进行一次判断，如果selector里面该位置的值为**True**，data中对应位置的值就保留下来。

In [14]:
from itertools import compress

data = 'ATG'
selector = [0,1,2,'',3,1,0]
print list(compress(data, selector))

data = 'ATGCGTAGT'
selector = [0,1,2,'',1]
print list(compress(data, selector))

['T', 'G']
['T', 'G', 'G']


### 2.3 dropwhile
看字面上的意思，是指while <某个条件>的时候，把相关元素drop了。`dropwhile(predicate, iterable)`， predicate可以是某个表达式用于iterable中输入值的判断，会把前面判断为True的结果都去掉，直到出现False，同时后面的元素不管判断结果是True或False都返回。

In [4]:
from itertools import dropwhile
for i in dropwhile(lambda x : x<4, [1,2,3,2,4,2,1]):
    print i

4
2
1


### 2.4 groupby
根据提供的keyfunction，把每个元素通过keyfunction得到一个key值，按照key值进行分组，一般来说在进行处理前，数据需要进行排序。`groupby(data, keyfunction)`，下面根据这个方法，区分奇偶数

In [13]:
from itertools import groupby

data = range(10)
for k,v in groupby(data, lambda x: x%2):
    print k,list(v)

0 [0]
1 [1]
0 [2]
1 [3]
0 [4]
1 [5]
0 [6]
1 [7]
0 [8]
1 [9]


上面的结果虽然给出了奇偶数，可是还是不能把数字按照奇偶分成两组，我们可以先把数组按照奇偶进行排序，然后再用`groupby`

In [17]:
f = lambda x: 'even' if x%2 == 0 else 'odd'
data = range(10)
data_sorted = sorted(data, key=f)
print data_sorted    # 按照奇偶进行排序

for k,v in groupby(data_sorted, f):
    print '%s, %s' % (k, ','.join(map(str,v)))

[0, 2, 4, 6, 8, 1, 3, 5, 7, 9]
even, 0,2,4,6,8
odd, 1,3,5,7,9


### 2.5 ifilter and ifilterfalse
`ifilter(pred, seq)`，每个元素在表达式pred结果为True的保留，`ifilterfalse(pred, seq)`和前面相反，保留结果为False的元素。

In [4]:
from itertools import ifilter, ifilterfalse

# 奇偶数
print list(ifilter(lambda x:x%2, range(10)))
print list(ifilterfalse(lambda x:x%2, range(10)))

[1, 3, 5, 7, 9]
[0, 2, 4, 6, 8]


### 2.6 islice
`islice(seq, [start], stop, [step])`效果类似列表中的切片操作，不过这里只是生成一个迭代器，列表切片的结果是产生一个新的列表。其中stop参数一定需要指定，如果是遍历整个列表，可以使用**None**，其他参数的意思可以参考列表的操作。

In [9]:
from itertools import islice

for i in islice(range(10), 1,None,2):
    print i

1
3
5
7
9


### 2.7 imap
`imap(func, p, q)`将输入的可迭代对象p和q中的元素作为参数分别传入到函数func中，具体可以看例子：

In [12]:
from itertools import imap

for i in imap(pow, (2,3,4),(3,4,5)):
# 可以试试两个长度不一样的结果有什么不一样
#for i in imap(pow, (2,3,4),(3,4)):
    print i

8
81
1024


### 2.8 starmap
`starmap(func, seq)`和上面的`imap`不同，这里会把seq中的每个元素当成参数传入到func中，效果同func(*seq[0]),func(*seq[1]),...，前面的**star**应该是参数传入时候的星号了。

In [14]:
from itertools import starmap

for i in starmap(pow, [(2,3),(3,2),(2,4)]):
    print i

8
9
16


### 2.9 tee


In [17]:
from itertools import tee

for i in tee(range(10), 5):
    print list(i)
    
r = islice(range(10),5)
for i in r:
    print i

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]
[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]
[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]
[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]
[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]
0
1
2
3
4


## 3. 排列组合
### 3.1 product
`product(seq, repeat=1)`，这里面用法有点类似以前学习的排列组合的内容，有放回而且排序位置也是有关系的排列组合关系。`seq`可以有多个序列，参考后面的例子，`repeat`我的理解是类似从排列组合里面常见的取出几个球，如果只有一个seq的话，相当于只有一个盒子，如果有多个seq，就相当于从每个盒子里面取出几个球。

In [5]:
from itertools import product
# 当repeat=2时，重复2次碱基
for i in product('ATCG', repeat=2):
    print i

('A', 'A')
('A', 'T')
('A', 'C')
('A', 'G')
('T', 'A')
('T', 'T')
('T', 'C')
('T', 'G')
('C', 'A')
('C', 'T')
('C', 'C')
('C', 'G')
('G', 'A')
('G', 'T')
('G', 'C')
('G', 'G')


### 3.2 permutations
在上面的`produce`相似，去除了相同元素的组合，`permutations(seq, [n])`，也就是无放回且排列位置有关的排列组合。

In [6]:
from itertools import permutations

for i in permutations('ATCG', 2):
    print i

('A', 'T')
('A', 'C')
('A', 'G')
('T', 'A')
('T', 'C')
('T', 'G')
('C', 'A')
('C', 'T')
('C', 'G')
('G', 'A')
('G', 'T')
('G', 'C')


### 3.3 combinations
和前一个`permutations`相比，不考虑排列顺序，把元素相同的组合去掉了，也就是不放回而且位置无关的排列组合（AT和TA只是一种组合，只保留其中一种）。

In [8]:
from itertools import combinations

for i in combinations('ATCG',2):
    print i

('A', 'T')
('A', 'C')
('A', 'G')
('T', 'C')
('T', 'G')
('C', 'G')


### 3.4 combinations_with_replacement
这个是在原来的基础上，把相同元素的组合也保留下来

In [9]:
from itertools import combinations_with_replacement

for i in combinations_with_replacement('ATCG', 2):
    print i

('A', 'A')
('A', 'T')
('A', 'C')
('A', 'G')
('T', 'T')
('T', 'C')
('T', 'G')
('C', 'C')
('C', 'G')
('G', 'G')


## 4. 看看itertools在序列分析上能做些什么
这里把之前在stackoverflow上看到的一些例子，抛砖引玉，让大家更好的理解itertools的用法。


### 4.1 mismatch序列的集合
[原贴地址](https://stackoverflow.com/questions/19822847/how-to-generate-all-strings-with-d-mismatches-python)，提问者想知道和原序列有N个碱基错配的所有序列，下面的代码添加了注释，加了打印过程变量，方便理解

In [16]:
from itertools import combinations, product

def generate(s, d=2):
    N = len(s)
    letters = 'ACGT'
    pool = list(s)
    
    # 选出需要进行替换的碱基位置
    for indices in combinations(range(N), d):
        # 生成需要替换的碱基字母
        for replacements in product(letters, repeat=d):
            skip = False
            for i, a in zip(indices, replacements):
                # 如果是和原序列相同，就pass
                if pool[i] == a: 
                    skip = True
            if skip: 
                continue

            keys = dict(zip(indices, replacements))
            print 'keys',keys, indices
            print ''.join([pool[i] if i not in indices else keys[i] 
                           for i in range(N)])

In [None]:
# 打印内容比较多，可自行运行看看
generate('AACCGGTTT')

### 4.2 含有兼并碱基DNA序列翻译成蛋白
[帖子](https://stackoverflow.com/questions/27551921/how-to-extend-ambiguous-dna-sequence)，是想获得含有兼并碱基序列的所有可能序列，类似上面一个问题。

In [38]:
from itertools import product
# 导入biopython包
from Bio import Seq

# 获得各类兼并碱基字母的字典，也可以自己构建，就是麻烦些
d = Seq.IUPAC.IUPACData.ambiguous_dna_values
print d
def extend_ambiguous_dna(seq):  
   d = Seq.IUPAC.IUPACData.ambiguous_dna_values
   return [ list(map("".join, product(*map(d.get, seq)))) ]

{'A': 'A', 'C': 'C', 'B': 'CGT', 'D': 'AGT', 'G': 'G', 'H': 'ACT', 'K': 'GT', 'M': 'AC', 'N': 'GATC', 'S': 'CG', 'R': 'AG', 'T': 'T', 'W': 'AT', 'V': 'ACG', 'Y': 'CT', 'X': 'GATC'}


In [None]:
extend_ambiguous_dna('AATCRVTAA')

这里也只是简单找到几个示例来说明下itertools在处理生物信息问题上的用处，上面的例子也只是用了其中几个函数，还有其他函数的使用，也需要大家在实践过程当中根据具体问题，灵活运用，不过感觉要用好这几个工具，还是需要有相当的技巧的。另外贴上另一篇[博客](http://bpbio.blogspot.jp/2010/06/python-tools-for-bioinformatics-ii.html)，也是itertools在序列处理上的运用。

## 参考
+ [itertools， python packages document](https://docs.python.org/2/library/itertools.html#itertools.product)