# 可迭代性、迭代器、生成器

大多数基本对象可以使用for语句来循环遍历

迭代器的使用遍及Python，风格统一。实现上，for语句调用了容器对象的iter()函数。这个函数返回定义了遍历容器元素的__next()\__方法的迭代器对象。当没有剩余元素遍历时，\__next()\__方法抛出一个指示for循环终止的StopIteration异常。可以使用内建函数next()来调用__next()\__方法

## 迭代器协议

迭代器协议（iterator protocol）是指要实现对象的 \__iter()__ 和 next() 方法（注意：Python3 要实现 \__next__() 方法），其中，\__iter()__ 方法返回迭代器对象本身，next() 方法返回容器的下一个元素，在没有后续元素时抛出 StopIteration 异常

有 \__iter__ 方法但是没有 next 方法，不是迭代器

## 

## 可迭代性

python标准库中存在着一些可迭代对象，如list tuple dict set str等
可以对这些迭代对象，进行for-in等迭代操作

In [1]:
for items in 'hello world':
    print(items)

h
e
l
l
o
 
w
o
r
l
d


### containers

**containers是一个存储多个元素的数据结构，python中常见的有:**

list,deque,..
set,frozenstes,...
dict,defaultdict,OrderedDict,Counter,...
tuple,namedtuple,..
str

这种数据结构类似于真实生活中的容器，容器中的元素可以逐个地迭代获取，可以用in, not in关键字判断元素是否包含在容器中

技术上，当一个对象能够检测是否包含某个元素，那么这个对象就是一个容器。你能进行成员检测，如list,sets,tuple等

In [5]:
#  assert（断言）用于判断一个表达式，在表达式条件为 false 的时候触发异常
# 语法: assert expression

assert 1 in [1,2,3]
assert 4 not in [1, 2, 3]


AssertionError: 

In [7]:
# 字典成员检查key
d = {1:'foo',2:'bar',3:'qux'}


assert 1 in d


In [8]:
# 检查字符串是否包含子串
s = "foobar"

assert 'b' in s

即使大多数containers提供一个方式获取它所包含的元素，但这并不是容器本身提供的能力，而是可迭代对象赋予了容器这种能力

## 可迭代对象

如上所述，大多数容器是可迭代的，但事实上许多东西都是可迭代的，例如打开的一个文件等等，其实容器通常代表着有限，一个可迭代代表着无限的数据源

可迭代不是任何对象，也不仅仅是一个数据结构，而是它们能返回一个迭代器，听着有些困惑，但这是可迭代和迭代器最本质的区别

list,tuple,dict,str 是有可迭代属性「惰性循环」, 但如果需要转化成可迭代对象，可以用 iter () 来转换

含有 \__iter__() 方法或 \__getitem__() 方法的对象称之为可迭代对象

我们可以使用 Python 内置的 hasattr() 函数来判断一个对象是不是可迭代的

In [2]:
hasattr(123, '__iter__')
hasattr('abc', '__getitem__')

True

In [14]:
# x是可迭代的，y是迭代器的实例，从可迭代的x中获得元素
x = [1, 2, 3]

# iter() 转换为可迭代对象
y = iter(x)
print(y)

next(y)
next(y)
next(y)

<list_iterator object at 0x7fbb2d5acb10>


3

### 可迭代对象转换为迭代器

\__iter__()会将一个可迭代对象转换为迭代器，使其可以调用next()方法

In [10]:
# 判断字符串有无__next__()方法
s = '123'
if not hasattr(s,'__next__'):
    s = iter(s)
    
next(s)
next(s)
next(s)

'3'

## 迭代器

任何对象有__next__()方法都是一个迭代器

迭代器存储了计算规则，知道下一个数是什么，因此迭代器是一个"数值工厂"

所有的itertools函数返回一个迭代器

可迭代对象没有__next__()方法

In [20]:
# 产生无限序列
from itertools import count

counter = count(start=13)

next(counter)

13

In [26]:
# 从有限序列中产生无限序列
from itertools import cycle
colors = cycle(['red','white','blue'])
next(colors)

'red'

In [27]:
# 从无限序列中产生有限序列
from itertools import islice
limited = islice(colors,0,4)
for x in limited:
    print(x)

white
blue
red
white


In [30]:
# 定义一个迭代器

class fib:
    def __init__(self):
        self.prev = 0
        self.curr = 1
        
    def __iter__(self):
        return self
    
    def __next__(self):
        value = self.curr
        self.curr += self.prev
        self.prev = value
        return value
f = fib()

list(islice(f,0,10))

[1, 1, 2, 3, 5, 8, 13, 21, 34, 55]

可以自定义可迭代的类,在类的实现中，我们定义了 __iter__ 方法，它返回对象本身，这个方法会在遍历时被 Python 内置的 iter() 函数调用，返回一个迭代器。类中的 next() 方法用于返回容器的下一个元素，当使用 for 循环进行遍历的时候，就会使用 Python 内置的 next() 函数调用对象的 next 方法（在 Python3 中是 __next__ 方法）对迭代器进行遍历

In [12]:
# 自定义函数实现字符串翻转
class string_reverse:
    
    def __init__(self,data):
        self.data = data
        self.index = len(data)
    
    # __iter__方法返回一个具有__next__方法的对象
    def __iter__(self):
        return self
    
    def __next__(self):
        if self.index == 0:
            raise StopIteration
        self.index = self.index - 1
        return self.data[self.index]

a = string_reverse('string')
for i in a:
    print(i,end='')

gnirts

迭代器类似于惰性工厂

## 生成器

生成器是迭代器中的特例，生成器也能写出上面的fib()类，但是生成器的语法避免了使用__iter__()和__next__()方法，语法更加精简

生成器也是一个迭代器
生成器也是一个惰性的

In [38]:
def fib1():
    prev,curr = 0,1
    while True:
        yield curr
        prev,curr = curr,prev+curr
        
# 生成器初始化，这时候函数体内代码并未执行
f = fib1() 

# 使用next()方法后，函数体代码开始运行,当执行到yield curr时返回curr值，退出程序
next(f)

# 再次代用next() 方法，恢复到之前的状态，即从prev,curr = curr,prev+curr继续执行，
# 接着进入下一次循环至yield退出程序
next(f)

# 再一次调用next()
next(f)

# ....

2

### 生成器类型

python中有两种生成器:

1. 生成器函数
    任何函数中带有yield关键字都是生成器函数
    
2. 由生成器表达式构成的生成器
    
    生成器表达式，一种等价于列表解析(list comprehension)的表达式,实际上返回的不是生成器对象，对于大规模数据不适合，因此需要将其转为生成器
    
列表解析（list comprehension）提供了一种优雅的生成列表的方法，能用一行代码代替十几行代码，而且不损失任何可读性。而且，性能还快很多很多  

语法: [expression for iter_val in iterable if cond_expr]

语法中expression定义了返回值

本质上就是基于一个可迭代对象生成另一个可迭代对象

In [49]:
# 列表生成器表达式
numbers = [1, 2, 3, 4, 5, 6]
num = [x*x for x in numbers]

print(type(num))

<class 'list'>


In [40]:
# 字典生成式表达式
{x:x*x for x in numbers}

{1: 1, 2: 4, 3: 9, 4: 16, 5: 25, 6: 36}

In [43]:
# 可以使用()将生成器表达式转换为一个生成器然后使用,可以节省内存
lazy = (x*x for x in numbers)

print(type(lazy)) # 由列表

next(lazy)
next(lazy)

<class 'generator'>


4

In [48]:
def iter1(num):
    for x in range(num):
        yield x 

it = iter1(10)
print(it)

list(iter1(10))

print(help(list()))

<generator object iter1 at 0x7fbb2ccd6d50>
Help on list object:

class list(object)
 |  list(iterable=(), /)
 |  
 |  Built-in mutable sequence.
 |  
 |  If no argument is given, the constructor creates a new empty list.
 |  The argument must be an iterable if specified.
 |  
 |  Methods defined here:
 |  
 |  __add__(self, value, /)
 |      Return self+value.
 |  
 |  __contains__(self, key, /)
 |      Return key in self.
 |  
 |  __delitem__(self, key, /)
 |      Delete self[key].
 |  
 |  __eq__(self, value, /)
 |      Return self==value.
 |  
 |  __ge__(self, value, /)
 |      Return self>=value.
 |  
 |  __getattribute__(self, name, /)
 |      Return getattr(self, name).
 |  
 |  __getitem__(...)
 |      x.__getitem__(y) <==> x[y]
 |  
 |  __gt__(self, value, /)
 |      Return self>value.
 |  
 |  __iadd__(self, value, /)
 |      Implement self+=value.
 |  
 |  __imul__(self, value, /)
 |      Implement self*=value.
 |  
 |  __init__(self, /, *args, **kwargs)
 |      Initialize se

In [None]:
# 生成器读取大文件
def readInChunks(fileObj, chunkSize=4096):
    """
    Lazy function to read a file piece by piece.
    Default chunk size: 4kB.
    """
    while 1:
        data = fileObj.read(chunkSize) # 每次读取4K内容
        if not data:
            break
        yield data　# yield keyword

f = open('bigFile')
for chuck in readInChunks(f):
    #do_something(chunk)
f.close()