## 迭代器和生成器

迭代器 itertools：记住遍历位置的对象，迭代器从集合中的第一个元素开始访问直到结束，只会往前不会后退。核心方法是iter()和next()。

生成器 generator：一边循环一边计算的机制，每次循环都会计算出下一个元素的值，不必创建完整的list，节省内存。核心方法是yield。

注意这个在神经网络中计算是非常有效的

In [2]:
# 入门 构造迭代器
list = [1, 2, 3, 4]
list_iter = iter(list) 
print(next(list_iter)) # 1

# 生成器：生成器是一个返回迭代器的函数
for value in list_iter:
    print(value)

# 利用 yield 关键字来构造生成器
def fibonacci(n):
    a, b, counter = 0, 1, 0
    while True:
        if counter > n:
            return
        yield a
        a, b = b, a + b
        counter += 1

fibo_gen = fibonacci(10)
for value in fibo_gen:
    print(value)

1
2
3
4
0
1
1
2
3
5
8
13
21
34
55


In [3]:
#  使用 itertools 来构造函数实现迭代器
# permutations() 生成一个序列的所有排列
# combinations() 生成一个序列的所有组合
# zip or zip_longest() 生成多个序列之间的组合
# chain 允许对多个集合进行操作

# itertools.permutations() 生成一个序列的所有排列
from itertools import permutations
for value in permutations([1, 2, 3]):
    print(value)

for value in permutations([1, 2, 3], 2):
    print(value)    

(1, 2, 3)
(1, 3, 2)
(2, 1, 3)
(2, 3, 1)
(3, 1, 2)
(3, 2, 1)
(1, 2)
(1, 3)
(2, 1)
(2, 3)
(3, 1)
(3, 2)


In [2]:
# 获得指定长度的列表 也就是排列组合 combination
from itertools import combinations
for value in combinations([1, 2, 3], 2):
    print(value)

(1, 2)
(1, 3)
(2, 3)


In [4]:
# 为迭代器增加一个计数器
for idx, value in enumerate(['a', 'b', 'c']):
    print(idx, value)

0 a
1 b
2 c


In [5]:
# 进程之间通信的方式有哪些
# 1. 消息队列 message queue ：允许进程之间以消息为单位进行通信，可以实现随机读写和消息优先级控制
# 2. 共享内存 shared memory： 多个进程可以将同一块物理内存映射到各自的地址空间实现高速的数据共享
# 3. 信号量 semaphore： 用于进程之间的同步和互斥
# 4. 信号 signal： 用于通知进程发生了某种事件
# 5. 套接字 socket： 用于不同主机之间的进程通信
# 6. 管道 pipe： 用于父子进程之间的通信

In [40]:
# 数据管道的方式迭代数据，比如大量的数据需要处理但是不能一次性的存放到内存中
# foo 文件夹中存在多个 txt 文件
# bar 文件夹中存在多个 txt 文件
# 需要找到所有 txt 文件中带有 get 请求的行
# 在实现这个需求的过程中需要考虑，不能一次性的读入太多的文件避免内存的爆炸，这里需要采用迭代器的方式来阅读文件

# 梳理pipeline
# 1. 找到所有文件的绝对路径，并利用生成器构建迭代器
# 2. 读取操作
# 3. 生成操作

import os

# os 函数的关键操作
def gen_find(file_path):
    ''' 
    获取文件路径生成器
    '''
    for path, dir_list, file_list in os.walk(file_path):
        for file_name in file_list:
            yield os.path.abspath(os.path.join(path, file_name))

def gen_opener(filenames):
    '''
    每一行文件的迭代生成器
    '''
    for filename in filenames:
        if filename.endswith('.txt'):
            # 如何打开 py 文件
            f = open(filename, 'rt')
        else:
            f = open(filename, 'rt')
        yield f
        f.close()

def gen_lines(files):
    ''' 
    读取文件的每一行，并利用生成器来生成迭代器, 助力这里生成的是多个列表的迭代器
    ''' 
    for file in files:
        for line in file.readlines():
            yield line

def gen_grep(pattern, lines):
    '''
    匹配行的生成器
    '''
    for line in lines:
        if pattern in line:
            yield line

paths = gen_find('./')
files = gen_opener(paths)
lines = gen_lines(files)

pylines = gen_grep('import', lines)

for line in pylines:
    print(line)


    "from itertools import permutations\n",

    "from itertools import combinations\n",

      "    \"from itertools import permutations\\n\",\n",

      "    \"from itertools import combinations\\n\",\n",

      "      \"Cell \\u001b[0;32mIn[36], line 58\\u001b[0m\\n\\u001b[1;32m     54\\u001b[0m lines \\u001b[38;5;241m=\\u001b[39m gen_lines(files)\\n\\u001b[1;32m     56\\u001b[0m pylines \\u001b[38;5;241m=\\u001b[39m gen_grep(\\u001b[38;5;124m'\\u001b[39m\\u001b[38;5;124mimport\\u001b[39m\\u001b[38;5;124m'\\u001b[39m, lines)\\n\\u001b[0;32m---> 58\\u001b[0m \\u001b[38;5;28;01mfor\\u001b[39;00m line \\u001b[38;5;129;01min\\u001b[39;00m lines:\\n\\u001b[1;32m     59\\u001b[0m     \\u001b[38;5;28mprint\\u001b[39m(line)\\n\",\n",

      "    \"import os\\n\",\n",

      "    \"pylines = gen_grep('import', lines)\\n\",\n",

      "import sys\n",

      "import argparse\n",

    "import os\n",

    "pylines = gen_grep('import', lines)\n",

import sys

import argparse



In [1]:
# iter 对象可以配合函数式编程中的操作可以实现高级函数式编程
# 具体可以可以见函数式编程