# 第二十章 迭代和解析

列表解析: 用于把任意一个表达式而不是一个函数应用于一个迭代对象中的元素, 比 map 和 filter 更加通用

__列表解析与 map__

In [1]:
res = list(map(ord,'spam'))
res

[115, 112, 97, 109]

列表解析用于在一个序列上应用一个任意的表达式,将其结果收集到一个新的列表中并返回

In [None]:
res = [ord(x) for x in 'spam']
res

[115, 112, 97, 109]

In [None]:
list(map((lambda x: x**2), range(10)))

[0, 1, 4, 9, 16, 25, 36, 49, 64, 81]

__列表解析增加循环和嵌套__

In [None]:
[x for x in range(10) if x % 2 ==0]

[0, 2, 4, 6, 8]

In [None]:
list(filter((lambda x: x % 2 == 0), range(10)))

[0, 2, 4, 6, 8]

In [None]:
res = [x+y for x in range(3) if x % 2==0 for y in range(3) if y%2==0]
res

[0, 2, 2, 4]

__列表解析和矩阵__

In [None]:
M = [
    [1,2,3],
    [4,5,6],
    [7,8,9]
]
N = [
    [2,2,2],
    [3,3,3],
    [4,4,4],
]

In [None]:
M[1]

[4, 5, 6]

In [None]:
M[1][2]

6

In [None]:
[row[0] for row in M]

[1, 4, 7]

### 理解列表解析

对于现在运行的 Python 下的测试, map 调用比等效的 for 循环快两倍,列表解析比 map 循环更加快. 主要是因为 map 和 列表是在解释器中以 C 语言的速度来运行的

1. for 循环可以让逻辑变得更加清晰,建议使用
2. map 和列表解析也是比较容易理解的,并且能够改善应用运行的速度

In [None]:
open('data.x').readlines()

['aa\n', 'bbhello \n', 'world \n']

In [None]:
[line.strip() for line in open('data.x')]

['aa', 'bbhello', 'world']

In [None]:
[line.rstrip() for line in open('data.x')]

['aa', 'bbhello', 'world']

In [None]:
list(map((lambda line: line.strip()), open('data.x')))

['aa', 'bbhello', 'world']

## 生成器

Python 对于延迟提供了更多的支持 --- 它提供了工具在需要的时候才产生结果,而不是立即产生结果. 可以通过两种语言结构延迟结果创建

* 生成器函数: 编写为常规的 def 语句,但是使用 yield 语句一次返回一个结果,在每个结果之间挂起和继续他们的状态
* 生成器表达式: 返回按照需要产生结果的一个对象, 而不是构建一个结果列表

### 生成器函数 yield VS return
* 生成器函数: 返回一个值并且从随后退出的地方继续的函数. 生成器函数是随着时间产生的一个序列
* 创建时自动实现迭代器协议

__状态挂起__
* 生成器函数自动在生成值的时刻挂起并继续函数的执行. 通常用于提起计算一系列值以及在类中手动保存和恢复状态都很有用
* 生成器函数在挂起时保存的状态包含他们的整个本地作用域, 当函数恢复时, 他们的本地变量保存了信息并且使得其可用
* yield 语句挂起该函数并且像调用者返回一个值,但是保留足够的状态使得函数能够从他们离开的地方继续. 
* 需要继续时, 函数在上一个 yield 返回后立即继续执行

__迭代协议整合__

对于生成器协议的支持:
1. 函数需要包含一条 yield 语句, 进行调用时, 他们返回一个迭代器对象, 该对象支持用一个名为__next__ 的自动创建的方法来继续执行的接口
2. 生成器的 return 位于 def 语句块的末尾, 用于终止值的生成

__生成器函数__

In [1]:
def gen_squares(N):
    for i in range(N):
        yield i**2
    return

In [3]:
for i in gen_squares(5):
    print(i, end=':')

0:1:4:9:16:

In [4]:
x = gen_squares(4)

In [5]:
x

<generator object gen_squares at 0x1038acf90>

In [6]:
next(x)

0

In [7]:
next(x)

1

生成器在内存使用和性能方面都更好. 允许函数避免临时在做所有的工作. 当结果的列表很大或者在处理每一个结果都需要很多的时间时, 非常有用

## 生成器表达式
* 生成器表达式就像一般的列表解析一样, 他们是在圆括号中,而不是方括号中的
* 生成器表达式不在内存中构建结果,而是返回一个生成器对象, 该对象支持迭代器协议


In [9]:
G = (x ** 2 for x in range(4))

In [10]:
next(G)

0

In [11]:
next(G)

1

In [12]:
next(G)

4

生成器表达式可以对于内存空间进行优化,但是不一定对于性能能够进行优化

In [15]:
G = (c*4 for c in 'spam')
list(G)

['ssss', 'pppp', 'aaaa', 'mmmm']

In [16]:
def time_four(s):
    for c in s:
        yield c * 4

In [17]:
list(time_four('spam'))

['ssss', 'pppp', 'aaaa', 'mmmm']

生成器表达式和生成器函数自身都是迭代器,但是只支持一次活跃迭代. 一旦任何迭代器运行到完成, 所有的迭代器都将耗尽

### 迭代工具模拟 zip 和 map


模拟 map 函数

In [18]:
def my_map(func, *seqs):
    res = []
    for args in zip(*seqs):
        res.append(func(*args))
    
    return res

In [19]:
print(my_map(abs, [0,-1,2,-3]))

[0, 1, 2, 3]


In [20]:
print(my_map(pow, [1,2,3,4],[3,4,5,6,]))

[1, 16, 243, 4096]


使用列表解析可以更简单的实现上述功能

In [21]:
def my_map(func, *seqs):

    return (func(*args) for args in zip(*seqs))

In [24]:
print(
    my_map(
        pow,
        [1, 2, 3, 4],
        [
            3,
            4,
            5,
            6,
        ],
    )
)

[1, 16, 243, 4096]


实现自己的 zip 和 map

不带有默认版本的 zip

In [2]:
def my_zip(*seqs, pad=None):
    seqs = [list(item) for item in seqs]
    res = []
    while any(seqs):
        res.append(tuple((seq.pop(0) if seq else pad) for seq in seqs))

    return res

In [3]:
s1 = "abc"
s2 = "xyz123"

print(my_zip(s1, s2,pad=99))

[('a', 'x'), ('b', 'y'), ('c', 'z'), (99, '1'), (99, '2'), (99, '3')]


生成器版本的 zip

In [4]:
def my_zip(*seqs, pad=None):
    seqs = [list(item) for item in seqs]
    while any(seqs):
        yield tuple(seq.pop(0) if seq else pad for seq in seqs)

In [6]:
s1 = "abc"
s2 = "xyz123"

print(list(my_zip(s1, s2, pad=99)))

[('a', 'x'), ('b', 'y'), ('c', 'z'), (99, '1'), (99, '2'), (99, '3')]


In [35]:
import time
import sys
reps = 10000
repslist= range(reps)

def timer(func, *args,**kwargs):
    start = time.time()
    for _ in repslist:
        ret = func(*args,**kwargs)
    elapsed = time.time() - start

    return elapsed,ret

In [37]:
def for_loop():
    res = []
    for x in repslist:
        res.append(abs(x))
    
    return res

def list_comp():
    return [abs(x) for x in repslist]

def map_call():
    
    return list(map(abs, repslist))

def gen_expr():
    return list(abs(x) for x in repslist)

def gen_func():
    def gen():
        for x in repslist:
            yield abs(x)
    
    return list(gen())    


开始记录时间

In [38]:
print(sys.version)

3.10.7 (v3.10.7:6cc6b13308, Sep  5 2022, 14:02:52) [Clang 13.0.0 (clang-1300.0.29.30)]


In [39]:
for test in [for_loop, list_comp,map_call, gen_expr,gen_func]:
    elapsed,result = timer(test)
    print('-'*33)
    print("%-9s: %.5f => [%s...%s]" % (test.__name__, elapsed, result[0],result[-1]))

---------------------------------
for_loop : 4.50421 => [0...9999]
---------------------------------
list_comp: 2.83421 => [0...9999]
---------------------------------
map_call : 1.60770 => [0...9999]
---------------------------------
gen_expr : 4.03837 => [0...9999]
---------------------------------
gen_func : 4.01984 => [0...9999]


# 第二十一章: 模块

## import 是如何工作的

Python 中的 import 并非是把一个文件插入到另一个文件中. 导入其实是运行时的运算, 程序第一次导入指定文件时,会执行三个步骤:
1. 找到模块文件
2. 编译成位码
3. 执行模块的代码来创建其所定义的对象

1. __搜索__: Python 必须查找 import 语句所引用的模块文件. Python 使用了标准模块搜索路径来查找 import 语句所对应的模块文件
2. __编译__: 如果有需要会编译为字节码, 如果存在字节码,直接加载字节码. 如果发现字节码的文件比源代码的文件就,就会重新编译字节码
3. __运行__: 依次执行文件中所有语句的字节码文件

### 搜索
1. 程序的主目录. 找到即停止, 先搜索先使用
2. PYTHONPATH 目录(如果进行了设置)
3. 任何.pth 文件的内容 (如果存在该文件)
4. 标准库链接目录

已经导入的模块查看

In [43]:
list(sys.modules.keys())

['sys',
 'builtins',
 '_frozen_importlib',
 '_imp',
 '_thread',
 '_weakref',
 '_io',
 'marshal',
 'posix',
 '_frozen_importlib_external',
 'time',
 'zipimport',
 '_codecs',
 'codecs',
 'encodings.aliases',
 'encodings',
 'encodings.utf_8',
 '_signal',
 '_abc',
 'abc',
 'io',
 '__main__',
 '_stat',
 'stat',
 '_collections_abc',
 'genericpath',
 'posixpath',
 'os.path',
 'os',
 '_sitebuiltins',
 '__future__',
 'itertools',
 'keyword',
 '_operator',
 'operator',
 'reprlib',
 '_collections',
 'collections',
 'types',
 '_functools',
 'functools',
 'contextlib',
 '_virtualenv',
 '_distutils_hack',
 'site',
 'importlib._bootstrap',
 'importlib._bootstrap_external',
 'importlib',
 'importlib.machinery',
 'importlib._abc',
 'importlib.util',
 'runpy',
 'enum',
 '_sre',
 'sre_constants',
 'sre_parse',
 'sre_compile',
 '_locale',
 'copyreg',
 're',
 'fnmatch',
 'ntpath',
 'errno',
 'urllib',
 'urllib.parse',
 'pathlib',
 'collections.abc',
 'typing.io',
 'typing.re',
 'typing',
 'ipykernel._versi

#### 配置搜索路径


查看平台配置的模块搜索路径; python 会从左到右自动搜索该文件的路径

In [1]:
import sys
print(sys.path)

['/Users/lixun1/PycharmProjects/DatascientificProject/notebooks', '/Library/Frameworks/Python.framework/Versions/3.10/lib/python310.zip', '/Library/Frameworks/Python.framework/Versions/3.10/lib/python3.10', '/Library/Frameworks/Python.framework/Versions/3.10/lib/python3.10/lib-dynload', '', '/Users/lixun1/PycharmProjects/DatascientificProject/venv/lib/python3.10/site-packages']


默认的 sys 目录添加:
1. 顶级文件的主目录
2. 任何 PYTHONPATH 目录
3. 已经创建的包含 .pth 文件路径的内容
4. 标准库目录

1. 通过修改 sys.path 进行导入路径的临时性修改
2. 通过 PYTHONPATH 和 .pth 用于提供路径的持久化修改

模块的处理函数:
1. import: 使用一个变量名引用整个模块变量, 需要通过模块名来获取对象的属性
2. from: 将变量名复制到该作用域, 建议直接使用该变量名
3. from *: 将所有变量名引用到该作用域
4. impl.reload(): 不终止程序的情况下,提供了一种重新载入模块文件代码的方法

导入只有在第一次import 或 from 时,载入并且执行,并且只执行一次

import 和 from 是可执行的语句,而不是编译期间的声明, 可以嵌套在 if 测试中,出现在函数 def 之中
1. import 将整个模块的对象赋值给一个变量名
2. from 用于将一个或者多个变量名赋值给另一个模块中同名的对象

reload:
1. reload 是 Python 中的内置函数, 而不是语句
2. 传给 reload 的是已经存在的模块对象, 而不是变量名
3. 

__init__.py: 包导入语句的路径中的每个目录内,都必须有 __init__.py 文件,否则包导入会失败. 
1. dir1 和 dir2 中必须有一个 __init__py 文件
2. dir0 是容器,不需要 __init__.py

1. 包的初始化: Python 首次导入某个目录时, 会自动执行该目录下 __init__.py 文件中的所有程序代码. 包含创建数据文件 连接数据库
2. 模块命名空间的初始化: 在包导入的模型中, 目录内的目录路径, 在导入后会变成真实的嵌套对象路径. 
3. from 语句的行为: 可以在 __init__.py 文件内使用  __all__ 列表来定义

# 第二十四章 在模块中隐藏数据

* 在变量名前防止 _x 可以用于防止客户端使用 from * 语句导入模块时, 把其中的那些变量名复制出去
* 在模块顶层把变量名的字符串列表赋值给变量 __all__, 用于达到类似 _x 命名惯例的隐藏效果
  __all__ = ['Error', 'encode','decode'] 用于指出需要复制的变量名

* __name__ : 如果文件是以顶层程序文件运行的话, 在启动时, __name__ 就会被设置为字符串 __main__ 
* 如果文件被导入, __name__ 就会改成客户端所了解的模块名
* 模块可以检测自己的 __name__, 来确定他是在执行还是在导入
* __name__ 可以用来进行最简单的单元测试

In [5]:
def minmax(test, *args):
    res = args[0]
    for arg in args[1:]:
        if test(arg,res):
            res = arg

    return res

def lessthan(x,y): return x < y

def grtrthan(x,y): return x > y


if __name__=='__main__':
    print(minmax(lessthan, 4,3,2,1,4,5,6,3))
    print(minmax(grtrthan, 4,3,2,1,4,5,6,3))    
    

1
6


## 修改模块的搜索路径

sys.path 在程序启动时进行初始化，并在此之后，可以任意对其元素进行删除，附加和重设.

In [7]:
import sys
sys.path

['/Users/lixun1/PycharmProjects/DatascientificProject/notebooks',
 '/opt/anaconda3/lib/python311.zip',
 '/opt/anaconda3/lib/python3.11',
 '/opt/anaconda3/lib/python3.11/lib-dynload',
 '',
 '/opt/anaconda3/lib/python3.11/site-packages',
 '/opt/anaconda3/lib/python3.11/site-packages/aeosa']

In [8]:
sys.path.append('')

## 模块是对象： 元程序
模块通过内置属性显示了他们大多数的有趣的属性，因此可以很容易的编写程序来管理其他程序。这类程序称为元程序，在其他系统之上工作，也称为内省。程序可以看见可处理对象的内部

* M.name
* M.__dict__['name']
* sys.modules['M'].name
* getattr(M,'name')