# 11. 迭代器和解析（Iterators & Comprehensions）

掌握迭代协议（iter/next/StopIteration）、生成器（yield/yield from）与推导式，是写高效数据处理代码的关键。

> 约定：Python 3.8；示例尽量只用标准库；代码块可直接运行。


## 前置知识

- 第 10 节：for 循环（理解遍历的概念）


## 知识点地图

- 1. iterable vs iterator：能 iter 的 vs 能 next 的
- 2. StopIteration：迭代结束信号
- 3. 生成器函数：yield 让函数“按需产生值”
- 4. yield from：把子迭代器“委托”出去（了解）
- 5. 推导式 vs 生成器表达式：[] vs ()
- 6. 字典/集合推导式：快速构造映射/去重集合
- 7. itertools（了解）：chain/islice


## 自检清单（学完打勾）

- [ ] 分清 iterable 与 iterator
- [ ] 会用 iter()/next() 手动迭代
- [ ] 会写生成器函数（yield）与生成器表达式
- [ ] 掌握列表/字典/集合推导式与生成器表达式的差异（惰性）
- [ ] 了解 itertools 常用工具（chain/islice）


## 知识点 1：iterable vs iterator：能 iter 的 vs 能 next 的

- iterable：能被 iter(x) 获取迭代器（list/str/dict 等）
- iterator：实现了 __next__，可以 next(it) 拉取下一个值

for 循环内部大致逻辑：it = iter(iterable)；不断 next(it)；捕获 StopIteration 结束。



In [None]:
items = ['a', 'b', 'c']
it = iter(items)
print(next(it))
print(next(it))


## 知识点 2：StopIteration：迭代结束信号

迭代器耗尽会抛 StopIteration；for 会捕获它并结束循环。


In [None]:
it = iter([1])
print(next(it))
try:
    print(next(it))
except StopIteration:
    print('done')


## 知识点 3：生成器函数：yield 让函数“按需产生值”

生成器惰性产生数据，适合大数据/流式处理。


In [None]:
def countdown(n):
    while n > 0:
        yield n
        n -= 1

print(list(countdown(5)))


## 知识点 4：yield from：把子迭代器“委托”出去（了解）

yield from 等价于在 for 循环里逐个 yield，写法更简洁。


In [None]:
def chain(*iters):
    for it in iters:
        yield from it

print(list(chain([1, 2], (3, 4))))


## 知识点 5：推导式 vs 生成器表达式：[] vs ()

- 列表推导式：立即生成 list
- 生成器表达式：惰性生成（按需计算）

经验：数据量大时优先生成器表达式（配合 sum/any/all）。



In [None]:
squares_list = [x * x for x in range(5)]
squares_gen = (x * x for x in range(5))
print(squares_list)
print(sum(squares_gen))


## 知识点 6：字典/集合推导式：快速构造映射/去重集合

字典推导式常用于构建索引表；集合推导式常用于去重与过滤。


In [None]:
print({x: x * x for x in range(3)})
print({x for x in [1, 2, 2, 3, 3, 3]})


## 知识点 7：itertools（了解）：chain/islice

itertools 提供高效迭代工具；chain 拼接，islice 截取前 N 个。


In [None]:
import itertools
print(list(itertools.chain([1, 2], [3, 4])))
print(list(itertools.islice(range(100), 5)))


## 常见坑

- 迭代器是一次性的：被消费后不能“从头再来”，需要重新 iter()
- 生成器表达式只能遍历一次（同样会耗尽）


## 综合小案例：流式处理：读取并过滤非空行

用生成器逐行读取文件，strip 后过滤空行，返回一个可迭代对象。


In [None]:
from pathlib import Path
ART = Path('_nb_artifacts')
ART.mkdir(exist_ok=True)
print('artifacts dir:', ART.resolve())
p = ART / 'lines.txt'
p.write_text('a

 b 

', encoding='utf-8')

def non_empty_lines(path):
    with Path(path).open('r', encoding='utf-8') as f:
        for line in f:
            t = line.strip()
            if t:
                yield t

print(list(non_empty_lines(p)))


## 自测题（不写代码也能回答）

- for 循环内部大致做了哪几步？
- 生成器表达式为什么更省内存？
- yield from 的作用是什么？


## 练习题（建议写代码）

- 实现 even_numbers(n)：生成 0..n 的偶数（yield）。
- 用字典推导式把 {"a":1,"b":2} 的键和值互换（假设值唯一）。
