### 场景 

统计字符串中每个单词的首字母

In [3]:
def index_words(text):
    results = []
    if text:
        results.append(0)
    for index, letter in enumerate(text):
        if letter != ' ':
            results.append(index)
    return results

address = 'Four score and seven years ago...   '
results = index_words(address)
print(results)

[0, 0, 1, 2, 3, 5, 6, 7, 8, 9, 11, 12, 13, 15, 16, 17, 18, 19, 21, 22, 23, 24, 25, 27, 28, 29, 30, 31, 32]


代码本身有逻辑问题

第一个问题：代码拥挤。每次得到新结构都调用append方法。
这里强调的是，该方法给列表添加的值 index+1 。另外，函数首尾各有一行用以创建及返回result列表。于是在函数主体部分130个字符里面，重要的只有75个。

这个函数改写为生成器(generator)更好。生成器使用yield表达式。

In [8]:
def index_words_iter(text):
    if text:
        yield 0
    for index, letter in enumerate(text):
        if letter == ' ':
            yield index + 1
            
result = list(index_words_iter(address))
print(result)
        

[0, 5, 11, 15, 21, 27, 34, 35, 36]


index_words函数的第二个问题是，如果数据量大，可能导致内存耗尽程序崩溃。

下面的生成器，依次从文件中读取各行内容，然后出来每行的单词。该函数执行时最大内存消耗是单行文本的最大字符数。

In [10]:
from itertools import *
def index_file(handle):
    offset = 0
    for line in handle:
        if line:
            yield offset
        for letter in line:
            offset += 1
            if letter == ' ':
                yield offset
                
with open('addres.txt','r') as f:
    it = index_file(f)
    results = islice(it, 0, 3)
    print(list(results))

[0, 5, 11]


定义生成器函数是需要注意：迭代是有状态的，不能反复使用。参见第17条

### 要点 

1. 生成器可以节约内存使用