# 迭代器

## 1、迭代器说明
迭代器就是迭代的工具，迭代是一个重复的过程，并且每次重复都是基于上一次的结果而来。
### 你肯定用过的容器、可迭代对象和迭代器
容器这个概念非常好理解。我们说过，在 Python 中一切皆对象，对象的抽象就是类，而对象的集合就是容器。

列表（list: [0, 1, 2]），元组（tuple: (0, 1, 2)），字典（dict: {0:0, 1:1, 2:2}），集合（set: set([0, 1, 2])）都是容器。对于容器，你可以很直观地想象成多个元素在一起的单元；而不同容器的区别，正是在于内部数据结构的实现方法。然后，你就可以针对不同场景，选择不同时间和空间复杂度的容器。

所有的容器都是可迭代的（iterable）。这里的迭代，和枚举不完全一样。迭代可以想象成是你去买苹果，卖家并不告诉你他有多少库存。这样，每次你都需要告诉卖家，你要一个苹果，然后卖家采取行为：要么给你拿一个苹果；要么告诉你，苹果已经卖完了。你并不需要知道，卖家在仓库是怎么摆放苹果的。

严谨地说，迭代器（iterator）提供了一个 next 的方法。调用这个方法后，你要么得到这个容器的下一个对象，要么得到一个 StopIteration 的错误（苹果卖完了）。你不需要像列表一样指定元素的索引，因为字典和集合这样的容器并没有索引一说。比如，字典采用哈希表实现，那么你就只需要知道，next 函数可以不重复不遗漏地一个一个拿到所有元素即可。

而可迭代对象，通过 iter() 函数返回一个迭代器，再通过 next() 函数就可以实现遍历。for in 语句将这个过程隐式化，所以，你只需要知道它大概做了什么就行了。

我们来看下面这段代码，主要向你展示怎么判断一个对象是否可迭代。当然，这还有另一种做法，是 isinstance(obj, Iterable)。

In [2]:
def is_iterable(param):
    try: 
        iter(param) 
        return True
    except TypeError:
        return False

params = [
    1234,
    '1234',
    [1, 2, 3, 4],
    set([1, 2, 3, 4]),
    {1:1, 2:2, 3:3, 4:4},
    (1, 2, 3, 4)
]
    
for param in params:
    print('{} is iterable? {}'.format(param, is_iterable(param)))




1234 is iterable? False
1234 is iterable? True
[1, 2, 3, 4] is iterable? True
{1, 2, 3, 4} is iterable? True
{1: 1, 2: 2, 3: 3, 4: 4} is iterable? True
(1, 2, 3, 4) is iterable? True


通过这段代码，你就可以知道，给出的类型中，除了数字 1234 之外，其它的数据类型都是可迭代的。

In [20]:
# 这是一个迭代过程，虽然在重复，但是每次结果不一样
dict1 = {'x': 1, 'y': 2}
n = 0
j=0
while n < len(dict1):
    for a in enumerate(dict1):
        print(a)
    
        n += 1

# 这不是迭代过程，一直在重复，却没有变化
while j < len(dict1):
    print('=------->')
    j+=1

(0, 'x')
(1, 'y')
=------->
=------->


In [17]:
dict1 = {'x': 1, 'y': 2}
for a in enumerate(dict1):
    print(a)

(0, 'x')
(1, 'y')


## 2. 可迭代对象
要想了解迭代器到底是什么？必须先要清楚一个概念，即什么是可迭代的对象？在python中，只要内置有__iter__方法的对象，都是可迭代的对象。

In [21]:
# 这不是可迭代对象
num = 1

# 以下都是可迭代的对象
str1 = 'hello'
list1 = [1, 2, 3]
tup1 = (1, 2, 3)
dict1 = {'x': 1}
set1 = {'a', 'b', 'c'}
file1 = open('a.txt', 'w', encoding='utf-8')

## 3、迭代器用法
可迭代的对象执行__iter__方法得到的返回值就是迭代器对象。

In [22]:
dict1 = {'x': 1, 'y': 2, 'z': 3}
iter_dict1 = dict1.__iter__()
print(iter_dict1.__next__())
print(iter_dict1.__next__())
print(iter_dict1.__next__())
# print(iter_dict1.__next__())  # 停止迭代

set1 = {'a', 'b', 'c'}
iter_set1 = set1.__iter__()
print(iter_set1.__next__())
print(iter_set1.__next__())
print(iter_set1.__next__())
# print(iter_set1.__next__())  # 停止迭代

list1 = [1, 2, 3]
iter_list1 = list1.__iter__()
print(iter_list1.__next__())
print(iter_list1.__next__())
print(iter_list1.__next__())

x
y
z
a
c
b
1
2
3


## 4. 可迭代对象VS迭代器对象
(1) 可迭代对象
可迭代对象无须获取，Python内置str，list，tuple，dict，set，file都是可迭代对象，它的特点是内置有__iter__方法，执行该方法会拿到一个返回值就是迭代器对象。

(2) 迭代器对象
文件对象本身既是可迭代对象又是迭代器对象，可迭代对象执行__iter__方法，拿到的返回值就是迭代器对象。迭代器对象的特点是内置有__next__方法，执行该方法会拿到迭代器对象中的一个值，迭代器对象内置有__iter__方法，执行该方法会拿到迭代器本身。

In [26]:
str1 = 'hello'  # 可迭代对象

iter_str1 = str1.__iter__()  # 迭代器对象
print(iter_str1.__next__())  # 取出迭代器对象中的一个值
print(iter_str1.__iter__() is iter_str1)
print(iter_str1.__iter__().__iter__() is iter_str1)
print(iter_str1.__iter__().__iter__().__iter__() is iter_str1)

# 文件本身既是迭代器对象又是可迭代对象
f = open('a.txt', 'r', encoding='utf-8')
print(f.__iter__() is f)
# 按行读取
print(f.__next__())
print(f.__next__())
print(f.__next__())
print(f.__next__())
# print(f.__next__())

h
True
True
True
True
hello

yes

no 

aha



## 5、 for 循环
for循环称之为迭代器循环，in后跟的必须是可迭代的对象，for循环会执行in后对象的__iter__方法，拿到迭代器对象，然后调用迭代器对象的__next__方法，拿到一个返回值赋值给一个变量，周而复始，直到取值完毕，for循环会检测到异常自动结束循环。

In [28]:
file1 = open('a.txt', 'r', encoding='utf-8')
for line in file1:  # iter_file1=file1.__iter__()
    print(line)

for item in {'x': 1, 'y': 2}:
    print(item)

hello

yes

no 

aha

x
y


# 生成器
## 1. 生成器说明


生成器其实本质就是迭代器，或者说生成器是特殊的迭代器，因为生成器是我们自己制造的迭代器。

### 生成器，又是什么？

据我所知，很多人对生成器这个概念会比较陌生，因为生成器在很多常用语言中，并没有相对应的模型。

这里，你只需要记着一点：生成器是懒人版本的迭代器。

我们知道，在迭代器中，如果我们想要枚举它的元素，这些元素需要事先生成。这里，我们先来看下面这个简单的样例。



In [3]:
import os
import psutil

# 显示当前 python 程序占用的内存大小
def show_memory_info(hint):
    pid = os.getpid()
    p = psutil.Process(pid)
    
    info = p.memory_full_info()
    memory = info.uss / 1024. / 1024
    print('{} memory used: {} MB'.format(hint, memory))


In [4]:
def test_iterator():
    show_memory_info('initing iterator')
    list_1 = [i for i in range(100000000)]
    show_memory_info('after iterator initiated')
    print(sum(list_1))
    show_memory_info('after sum called')

def test_generator():
    show_memory_info('initing generator')
    list_2 = (i for i in range(100000000))
    show_memory_info('after generator initiated')
    print(sum(list_2))
    show_memory_info('after sum called')

%time test_iterator()
%time test_generator()




initing iterator memory used: 45.05078125 MB
after iterator initiated memory used: 3917.26953125 MB
4999999950000000
after sum called memory used: 3917.26953125 MB
Wall time: 15.2 s
initing generator memory used: 46.2890625 MB
after generator initiated memory used: 46.2890625 MB
4999999950000000
after sum called memory used: 46.24609375 MB
Wall time: 9.27 s


声明一个迭代器很简单，[i for i in range(100000000)]就可以生成一个包含一亿元素的列表。每个元素在生成后都会保存到内存中，你通过代码可以看到，它们占用了巨量的内存，内存不够的话就会出现 OOM 错误。

不过，我们并不需要在内存中同时保存这么多东西，比如对元素求和，我们只需要知道每个元素在相加的那一刻是多少就行了，用完就可以扔掉了。

于是，生成器的概念应运而生，在你调用 next() 函数的时候，才会生成下一个变量。生成器在 Python 的写法是用小括号括起来，(i for i in range(100000000))，即初始化了一个生成器。

这样一来，你可以清晰地看到，生成器并不会像迭代器一样占用大量内存，只有在被使用的时候才会调用。而且生成器在初始化的时候，并不需要运行一次生成操作，相比于 test_iterator() ，test_generator() 函数节省了一次生成一亿个元素的过程，因此耗时明显比迭代器短。

到这里，你可能说，生成器不过如此嘛，我有的是钱，不就是多占一些内存和计算资源嘛，我多出点钱就是了呗。

哪怕你是土豪，请坐下先喝点茶，再听我继续讲完，这次，我们来实现一个自定义的生成器。

### 生成器，还能玩什么花样？
数学中有一个恒等式，(1 + 2 + 3 + ... + n)^2 = 1^3 + 2^3 + 3^3 + ... + n^3，想必你高中就应该学过它。现在，我们来验证一下这个公式的正确性。老规矩，先放代码，你先自己阅读一下，看不懂的也不要紧，接下来我再来详细讲解。

In [5]:
def generator(k):
    i = 1
    while True:
        yield i ** k
        i += 1

gen_1 = generator(1)
gen_3 = generator(3)
print(gen_1)
print(gen_3)

def get_sum(n):
    sum_1, sum_3 = 0, 0
    for i in range(n):
        next_1 = next(gen_1)
        next_3 = next(gen_3)
        print('next_1 = {}, next_3 = {}'.format(next_1, next_3))
        sum_1 += next_1
        sum_3 += next_3
    print(sum_1 * sum_1, sum_3)

get_sum(8)



<generator object generator at 0x0000017F85E42F48>
<generator object generator at 0x0000017F85E8D048>
next_1 = 1, next_3 = 1
next_1 = 2, next_3 = 8
next_1 = 3, next_3 = 27
next_1 = 4, next_3 = 64
next_1 = 5, next_3 = 125
next_1 = 6, next_3 = 216
next_1 = 7, next_3 = 343
next_1 = 8, next_3 = 512
1296 1296


这段代码中，你首先注意一下 generator() 这个函数，它返回了一个生成器。

接下来的 yield 是魔术的关键。对于初学者来说，你可以理解为，函数运行到这一行的时候，程序会从这里暂停，然后跳出，不过跳到哪里呢？答案是 next() 函数。那么 i ** k 是干什么的呢？它其实成了 next() 函数的返回值。

这样，每次 next(gen) 函数被调用的时候，暂停的程序就又复活了，从 yield 这里向下继续执行；同时注意，局部变量 i 并没有被清除掉，而是会继续累加。我们可以看到 next_1 从 1 变到 8，next_3 从 1 变到 512。

聪明的你应该注意到了，这个生成器居然可以一直进行下去！没错，事实上，迭代器是一个有限集合，生成器则可以成为一个无限集。我只管调用 next()，生成器根据运算会自动生成新的元素，然后返回给你，非常便捷。

到这里，土豪同志应该也坐不住了吧，那么，还能再给力一点吗？

别急，我们再来看一个问题：给定一个 list 和一个指定数字，求这个数字在 list 中的位置。

下面这段代码你应该不陌生，也就是常规做法，枚举每个元素和它的 index，判断后加入 result，最后返回。

In [6]:
def index_normal(L, target):
    result = []
    for i, num in enumerate(L):
        if num == target:
            result.append(i)
    return result

print(index_normal([1, 6, 2, 4, 5, 2, 8, 6, 3, 2], 2))


[2, 5, 9]


In [7]:
# 那么使用迭代器可以怎么做呢？二话不说，先看代码。
def index_generator(L, target):
    for i, num in enumerate(L):
        if num == target:
            yield i

print(list(index_generator([1, 6, 2, 4, 5, 2, 8, 6, 3, 2], 2)))




[2, 5, 9]


聪明的你应该看到了明显的区别，我就不做过多解释了。唯一需要强调的是， index_generator 会返回一个 Generator 对象，需要使用 list 转换为列表后，才能用 print 输出。

这里我再多说两句。在 Python 语言规范中，用更少、更清晰的代码实现相同功能，一直是被推崇的做法，因为这样能够很有效提高代码的可读性，减少出错概率，也方便别人快速准确理解你的意图。当然，要注意，这里“更少”的前提是清晰，而不是使用更多的魔术操作，虽说减少了代码却反而增加了阅读的难度。

回归正题。接下来我们再来看一个问题：给定两个序列，判定第一个是不是第二个的子序列。
（LeetCode 链接如下：https://leetcode.com/problems/is-subsequence/ ）

先来解读一下这个问题本身。序列就是列表，子序列则指的是，一个列表的元素在第二个列表中都按顺序出现，但是并不必挨在一起。举个例子，[1, 3, 5] 是 [1, 2, 3, 4, 5] 的子序列，[1, 4, 3] 则不是。

要解决这个问题，常规算法是贪心算法。我们维护两个指针指向两个列表的最开始，然后对第二个序列一路扫过去，如果某个数字和第一个指针指的一样，那么就把第一个指针前进一步。第一个指针移出第一个序列最后一个元素的时候，返回 True，否则返回 False。

不过，这个算法正常写的话，写下来怎么也得十行左右。

In [8]:
# 那么如果我们用迭代器和生成器呢？
def is_subsequence(a, b):
    b = iter(b)
    return all(i in b for i in a)

print(is_subsequence([1, 3, 5], [1, 2, 3, 4, 5]))
print(is_subsequence([1, 4, 3], [1, 2, 3, 4, 5]))




True
False


这简短的几行代码，你是不是看得一头雾水，不知道发生了什么？

来，我们先把这段代码复杂化，然后一步步看。

In [9]:
def is_subsequence(a, b):
    b = iter(b)
    print(b)

    gen = (i for i in a)
    print(gen)

    for i in gen:
        print(i)

    gen = ((i in b) for i in a)
    print(gen)

    for i in gen:
        print(i)

    return all(((i in b) for i in a))

print(is_subsequence([1, 3, 5], [1, 2, 3, 4, 5]))
print(is_subsequence([1, 4, 3], [1, 2, 3, 4, 5]))




<list_iterator object at 0x0000017F85E946A0>
<generator object is_subsequence.<locals>.<genexpr> at 0x0000017F85E8D138>
1
3
5
<generator object is_subsequence.<locals>.<genexpr> at 0x0000017F85E8D1B0>
True
True
True
False
<list_iterator object at 0x0000017F85DECDD8>
<generator object is_subsequence.<locals>.<genexpr> at 0x0000017F85E8D1B0>
1
4
3
<generator object is_subsequence.<locals>.<genexpr> at 0x0000017F85E8D138>
True
True
False
False


In [None]:
# 没错，这里的(i in b)，大致等价于下面这段代码：
while True:
    val = next(b)
    if val == i:
        yield True


In [17]:
# 这里非常巧妙地利用生成器的特性，next() 函数运行的时候，保存了当前的指针。比如再看下面这个示例：
b = (i for i in range(5))

print(2 in b)
print(3 in b)
print(1 in b)




True
True
False


### 总结
总结一下，今天我们讲了四种不同的对象，分别是容器、可迭代对象、迭代器和生成器。

容器是可迭代对象，可迭代对象调用 iter() 函数，可以得到一个迭代器。迭代器可以通过 next() 函数来得到下一个元素，从而支持遍历。
生成器是一种特殊的迭代器（注意这个逻辑关系反之不成立）。使用生成器，你可以写出来更加清晰的代码；合理使用生成器，可以降低内存占用、优化程序结构、提高程序速度。
生成器在 Python 2 的版本上，是协程的一种重要实现方式；而 Python 3.5 引入 async await 语法糖后，生成器实现协程的方式就已经落后了。我们会在下节课，继续深入讲解 Python 协程。

## 2. yield两个用法总结
yield为我们提供了一种自定义迭代器的方式，可以在函数内用yield关键字，调用函数拿到的结果就是一个生成器。
yield可以像return一样用于返回值，区别是return只能返回一次值，而yield可返回多次，因为yield可以保存函数执行的状态。
yield与return用法比较

In [29]:
# yield
def test_yield():
    print('=======>first')
    yield 1
    print('=======>second')
    yield 2
    print('=======>third')
    yield 3


# 使用yield返回，调用函数时，不会执行函数体代码，拿到的返回值就是一个生成器对象
res = test_yield()
print(res)  # <generator object test_yield at 0x1078f7660>
print(res.__iter__() is res)
print(res.__next__())
print(res.__next__())
print(res.__next__())

# return
def test_return():
    print('=======>first')
    return 1  # 使用return返回，函数执行结束
    print('=======>second')
    return 2
    print('=======>third')
    return 3


res = test_return()

<generator object test_yield at 0x000001B544B7AFC0>
True
1
2
3


## 3. 生成器的构造
函数内包含有yield关键字，再调用函数，就不会执行函数体代码，拿到的返回值就是一个生成器对象。

In [30]:
def chicken():
    print('=====>first')
    yield 1
    print('=====>second')
    yield 2
    print('=====>third')
    yield 3


obj = chicken()
print(obj)
print(obj.__iter__() is obj)
print(obj.__next__())
print(obj.__next__())
print(obj.__next__())

<generator object chicken at 0x000001B544B7A780>
True
=====>first
1
=====>second
2
=====>third
3


In [31]:
# (2) 自定义range
#  简易版本range，只能接收两个位置参数或者三个位置参数，起始位置没有默认值
def show_my_range(start, stop, step=1):
    n = start
    while n < stop:
        yield n
        n += step


for item in show_my_range(1, 10, 3):
    print(item)


1
4
7


In [33]:
# (1) range的用法

for i in range(1, 10, 1):
    """
    range最多可以接收三个参数，第一个是起始位置，默认值为0，
    第二个是结束位置，无默认值，必须指定，
    第三个是步长，默认值为1，
    如果只传一个位置参数，那就是指的结束位置，
    如果传两个位置参数，第一个为起始位置，
    第二个为结束位置，
    range第一个能取到，最后一个取不到，顾头不顾尾
    """
    print(i)

1
2
3
4
5
6
7
8
9


###  yield表达式
yield可以把函数暂停住，那么自然就能保存函数的运行状态，我们可以使用yield表达式形式来做一些有意思的操作。

In [34]:
def eat(name):
    print('【1】%s is ready for eating' % name)
    while True:
        food = yield  # 这是yield表达式形式，yield可以赋值给一个变量
        print('【2】%s starts to eat %s' % (name, food))


person1 = eat('Albert')

# 函数暂停在food = yield这行代码
person1.__next__()

# 继续执行代码，由于yield没有值，即yield = None，则food = None
person1.__next__()
# yield肯定不能一直为空，肯定有一种方法给yield传值，这种方法就是send。

def eat(name):
    print('【1】%s is ready for eating' % name)
    while True:
        food = yield
        print('【2】%s starts to eat %s' % (name, food))


person1 = eat('Albert')
"""
对于表达式形式的yield，在使用前必先初始化
即第一次必须传None，或者用__next__方法
"""
# person1.send(None)  # 初始化，和下面一行代码同等效果
person1.__next__()

person1.send('蒸羊羔')  # send有两个功能：1 传值，2 初始化
person1.send('蒸鹿茸')
person1.send('蒸熊掌')
person1.send('烧素鸭')
person1.close()  # 关闭之后，后面的就吃不了了，也不能兜着走
# person1.send('烧素鹅')
# person1.send('烧鹿尾')

【1】Albert is ready for eating
【2】Albert starts to eat None
【1】Albert is ready for eating
【2】Albert starts to eat 蒸羊羔
【2】Albert starts to eat 蒸鹿茸
【2】Albert starts to eat 蒸熊掌
【2】Albert starts to eat 烧素鸭


In [36]:
def eat(name):
    print('%s is ready for eating' % name)
    food_list = []
    while True:
        food = yield food_list
        print('%s starts to eat %s' % (name, food))
        food_list.append(food)
        print('%s has eaten %s' % (name, food_list))


person1 = eat('Albert')

person1.send(None)

person1.send('蒸羊羔')

person1.send('蒸鹿茸')

person1.send('蒸熊掌')

person1.send('烧素鸭')

person1.close()# 关闭之后，后面的就吃不了了，也不能兜着走


Albert is ready for eating
Albert starts to eat 蒸羊羔
Albert has eaten ['蒸羊羔']
Albert starts to eat 蒸鹿茸
Albert has eaten ['蒸羊羔', '蒸鹿茸']
Albert starts to eat 蒸熊掌
Albert has eaten ['蒸羊羔', '蒸鹿茸', '蒸熊掌']
Albert starts to eat 烧素鸭
Albert has eaten ['蒸羊羔', '蒸鹿茸', '蒸熊掌', '烧素鸭']
