# 模块的加载流程

前文有介绍过,python的加载通常使用`import`语句.`import`语句实际上只是一种加载方式,还可以使用内置函数`__import__(name:str, globals=None, locals=None, fromlist=(), level=0)`或者使用标准库`importlib.import_module(name:str, package=None)`

In [1]:
import importlib

In [2]:
module_test = importlib.import_module("module_test") # 相当于 import module_test

In [3]:
module_test = __import__('module_test') # 相当于 import module_test

In [4]:
a = __import__('module_test.a',fromlist=["b"]) # 相当于 from module_test import a,但是其下会将其子模块放入a的字段中

In [5]:
a.b.func()

1

## 加载机制

模块的加载分为两种情况:

1. 对未被加载过的模块进行加载

2. 对已经加载过的模块进行加载

当Python的解释器遇到`import`语句或者其他上述导入语句时,它会先去查看`sys.modules`中是否已经有同名模块被导入了,如果有就直接取来用;没有就去查阅`sys.path`里面所有已经储存的目录.这个列表初始化的时候,通常包含一些来自外部的库(external libraries)或者是来自操作系统的一些库,当然也会有一些类似于`dist-package`的标准库在里面.这些目录通常是被按照顺序或者是直接去搜索想要的--如果说他们当中的一个包含有期望的package或者是module,这个package或者是module将会在整个过程结束的时候被直接提取出来保存在`sys.modules`中(`sys.modules`是一个`模块名:模块对象`的字典结构).

当在这些个地址中实在是找不着时,它就会抛出一个`ModuleNotFoundError`错误.

In [6]:
import ujson

ModuleNotFoundError: No module named 'ujson'

这一机制常常被我们用来按环境加载相同功能的不同模块,以保证系统的鲁棒性

In [7]:
try:
    import ujson
except ModuleNotFoundError:
    import json as ujson

### 导入顺序,`sys.path`和环境变量`PYTHONPATH`

我们来实际看看`sys.path`的内容

In [8]:
import sys

In [9]:
sys.path

['',
 '/Users/hsz/anaconda3/lib/python36.zip',
 '/Users/hsz/anaconda3/lib/python3.6',
 '/Users/hsz/anaconda3/lib/python3.6/lib-dynload',
 '/Users/hsz/anaconda3/lib/python3.6/site-packages',
 '/Users/hsz/anaconda3/lib/python3.6/site-packages/aeosa',
 '/Users/hsz/anaconda3/lib/python3.6/site-packages/IPython/extensions',
 '/Users/hsz/.ipython']

可以看到第一位是个空字符串,代表的是相对路径下的当前目录.

由于在导入模块的时候,解释器会按照列表的顺序搜索,直到找到第一个模块,所以优先导入的模块为同一目录下的模块.

导入模块时搜索路径的顺序也可以改变.这里分两种情况:

1. 通过`sys.path.append()`,`sys.path.insert()`等方法来改变,这种方法当重新启动解释器的时候,原来的设置会失效.

2. 改变环境变量`PYTHONPATH`,这种设置方法随着环境变量的有效范围变化,只要启动python时先指定即可.

我们写个脚本`pythonpath_test.py`测试下`PYTHONPATH`的效用

```python
import sys
import pprint
pprint.pprint(sys.path)
```

In [10]:
!python pythonpath_test.py

['/Users/hsz/WorkSpace/hsz1273327/TutorialForPython/ipynbs/模块',
 '/Users/hsz/anaconda3/lib/python36.zip',
 '/Users/hsz/anaconda3/lib/python3.6',
 '/Users/hsz/anaconda3/lib/python3.6/lib-dynload',
 '/Users/hsz/anaconda3/lib/python3.6/site-packages',
 '/Users/hsz/anaconda3/lib/python3.6/site-packages/aeosa']


In [11]:
!PYTHONPATH=extension python pythonpath_test.py

['/Users/hsz/WorkSpace/hsz1273327/TutorialForPython/ipynbs/模块',
 '/Users/hsz/WorkSpace/hsz1273327/TutorialForPython/ipynbs/模块/extension',
 '/Users/hsz/anaconda3/lib/python36.zip',
 '/Users/hsz/anaconda3/lib/python3.6',
 '/Users/hsz/anaconda3/lib/python3.6/lib-dynload',
 '/Users/hsz/anaconda3/lib/python3.6/site-packages',
 '/Users/hsz/anaconda3/lib/python3.6/site-packages/aeosa']


可以看到,PYTHONPATH在第二位上将其值添加到了查找范围中.

### 关于`__path__`的更多细节

上面提到的Python的import流在大多数情况下默认等行为就已经可以满足需求,但是事实上细节远不止这些.他省略了一些我们可以根据需要调节的地方.

首先，`__path__`这个属性是我们可以在`__init__.py`里面去定义的.你可以认为他像一个`sys.path`的本地扩展并且只服务于我们导入的`<package>`的子模块.换句话说,它包含地址时时应该寻找一个`<package>`的子模块被导入.默认的情况下只有`__init__.py`的目录,但是他可以扩展到包含任何其他任何的路径.

这个说的很绕,实际看段例子就可以看出来.

通常`__path__`的扩展借助于标准库`pkgutil`,后文还会有对其使用的介绍,我们的例子也要借助这个工具.`pkgutil.extend_path(path, name)`的作用是在`sys.path`范围内查找与<name>同名的模块,将其地址也添加到本语句所在的模块的`__path__`中.

我们的测试模块叫`demopkg1`其结构如下:

```shell
demopkg1-|
         |-__init__.py
         |-shared.py
```

测试模块的扩展叫`extension`,其结构如下:
```shell
extension=|
          |-__init__.py
          |-demopkg1-|
                     |-__init__.py
                     |-shared.py
```

`demopkg1`的`__init__.py`内容如下

```python
import pkgutil
import pprint

print('demopkg1.__path__ before:')
pprint.pprint(__path__)
print()

__path__ = pkgutil.extend_path(__path__, __name__)

print('demopkg1.__path__ after:')
pprint.pprint(__path__)
print()
```
这段代码作用是打印出模块加载后的`__path__`变化情况.

我们的测试入口代码是`pkgutil_extend_path.py`,其内容如下:

```python
import demopkg1
print('demopkg1           :', demopkg1.__file__)

try:
    import demopkg1.shared
except Exception as err:
    print('demopkg1.shared    : Not found ({})'.format(err))
else:
    print('demopkg1.shared    :', demopkg1.shared.__file__)

try:
    import demopkg1.not_shared
except Exception as err:
    print('demopkg1.not_shared: Not found ({})'.format(err))
else:
    print('demopkg1.not_shared:', demopkg1.not_shared.__file__)
```

这段代码是用于检测模块下则子模块都导入了哪些的.

先来看直接执行

In [12]:
!python pkgutil_extend_path.py

demopkg1.__path__ before:
['/Users/hsz/WorkSpace/hsz1273327/TutorialForPython/ipynbs/模块/demopkg1']

demopkg1.__path__ after:
['/Users/hsz/WorkSpace/hsz1273327/TutorialForPython/ipynbs/模块/demopkg1']

demopkg1           : /Users/hsz/WorkSpace/hsz1273327/TutorialForPython/ipynbs/模块/demopkg1/__init__.py
demopkg1.shared    : /Users/hsz/WorkSpace/hsz1273327/TutorialForPython/ipynbs/模块/demopkg1/shared.py
demopkg1.not_shared: Not found (No module named 'demopkg1.not_shared')


可以看到模块只是按默认的情况在执行,但如果先定义环境变量`PYTHONPATH=extension`再执行

In [13]:
!PYTHONPATH=extension python3 pkgutil_extend_path.py

demopkg1.__path__ before:
['/Users/hsz/WorkSpace/hsz1273327/TutorialForPython/ipynbs/模块/demopkg1']

demopkg1.__path__ after:
['/Users/hsz/WorkSpace/hsz1273327/TutorialForPython/ipynbs/模块/demopkg1',
 '/Users/hsz/WorkSpace/hsz1273327/TutorialForPython/ipynbs/模块/extension/demopkg1']

demopkg1           : /Users/hsz/WorkSpace/hsz1273327/TutorialForPython/ipynbs/模块/demopkg1/__init__.py
demopkg1.shared    : /Users/hsz/WorkSpace/hsz1273327/TutorialForPython/ipynbs/模块/demopkg1/shared.py
demopkg1.not_shared: /Users/hsz/WorkSpace/hsz1273327/TutorialForPython/ipynbs/模块/extension/demopkg1/not_shared.py


可以看到`extension`中的`not_shared`也可以被导入了.由此可见`__path__`的一个很大的作用就是扩展其子模块的查找范围

## 模块对象的生成

无论使用哪种导入方法,最终我们获得的都是一个模块对象,那它是怎么生成的呢?实际上这有两个步骤:

1. 使用模块查找器`finder`找到模块
2. 使用模块加载器`loader`将模块载入内存.

这两个的基类都可以在`importlib.abc`中找到

### finder

finder是一个模块查找器,默认的finder我们无法直接调用,我们总结它可以完成以下三件事中的任意一件：

+ 抛出一个异常，然后完全取消所有的导入流程
+ 返回一个None，意思是被导入的这个模块不能够被这个查找器所找到。但是他仍然可以被导入流的下一个阶段所找到，比如说一些自定义的查找器或者是Python的标准导入机制。
+ 返回一个加载器对象用来加载实际的模块。