# 模块和包

<img src="assets/ModulePackage.jpg" width="50%">

## 现实世界的模块与包

- 人类社会最小的独立单元是一个人；
- 当前地球上有60-70亿人；

现代国家多用层级关系来管理人口:
- 村队，从几百到几千；
- 乡镇，从几十到上百；
- 县市，从十几到上百；
- 省区，几十个；

## Python中的模块与包

在Python中，最基本也是最小的可执行单元就是一行语句。

进一步的又组成代码块、函数以及类。

随着程序语句越来越多，语句、函数以及类也面临着维护和组织管理问题。

为了编写可维护可管理的代码，Python也使用类似多层级架构来管理代码，根据功能复用和功能颗粒度分为模块与包。在Python中，一个模块就是一个文件；一个软件包就是一个目录，包含多个文件。软件包可以多层，也就是有多层目录。

总体来说，Python代码组织还是采用扁平模式，层级为：语句->模块->包。从某种程度来说，模块和包区分并不大，可以合称为软件库。也就是说，Python层级可以简化为语句->库。然而由于python软件库众多，只能从来源或功能进行层次划分，以方便维护、组织和管理。

根据软件库来源和提供方的不同，软件库可以划分为：
- 标准库
- 第三方库
- 自定义库

根据软件库具体功能的不同，可以划分为：
- 系统编程
- 图形界面
- 科学计算
- Web开发
- 系统运维
- 网络爬虫
- 大数据、云计算
- 人工智能
- 量化金融
- ...

### 导入模块

为了使用它们，需要用用`import`导入模块：

In [None]:
import math
import random

In [None]:
type(math), type(random)

In [None]:
print(math.__file__)

### 访问模块中内容

使用`.`来访问模块中的变量，函数、类

In [None]:
math.pi

In [None]:
random.randint(0, 100)

## 自己写模块(module)

文件就是模块，编写一个Python代码，并用“.py”后缀名进行保存。

模块名字应该尽量用简短全小写的名字，还是一句老话，做到望文生义不容易。

层次分解通常也会采用“高内聚低耦合”的思想原则：
- 内聚，描述模块内各个元素彼此结合的紧密程度，高内聚就是一个模块内各个元素彼此结合的紧密程度高。
- 耦合，不同模块之间互连程度的度量，低耦合是指模块尽可能独立完成某特定功能。
也就是说，一个模块尽量做到代码相关性强、功能独立。

### 创建模块

下面假定来创建自己的一个模块，假定模块包括一些常量、函数和类。

In [None]:
%%writefile simplemodule.py
#!/usr/bin/env python
# -*- coding: utf-8 -*-
"""My Simple Module

This exports:
  - all simple functions and class.
  - sm.sayhello is either posixpath or ntpath
  - sm.SimpleClass is either 'posix' or 'nt'

Programs that import and use 'sm' name 
"""
__author__ = 'Wang Weihua'

hello = ['Hi', '您好']

def sayhello(name):
    """Say hello to a person"""
    print('Hi, {}'.format(name))

    
class SimpleClass():
    pass

使用import命令导入模块，语法为：
```
import module_name
import module_name as qualname
```

In [None]:
import simplemodule
import simplemodule as sm

### 自省和帮助

使用内置函数`type()`查看对象的类型

In [None]:
print(type(simplemodule), type(sm))

使用`is`操作符

In [None]:
simplemodule is sm

模块是可变对象，也就是说模块的值是可以改变的。

In [None]:
sm.new = 'new'

使用内置函数`help()`函数，或者使用IPython自省功能`?`或`??`获得帮助。

In [None]:
help(sm)

In [None]:
sm?

In [None]:
sm??

使用`dir()`函数列出对象的属性和方法

In [None]:
dir(sm)

一些魔术属性：
- `__author__`, 作者
- `__builtins__`, 内置库
- `__cached__`, pyc文件
- `__doc__`, 文档字符串
- `__file__`, 模块文件路径
- `__loader__`,
- `__name__`, 模块名字
- `__package__`, 包
- `__spec__`,

### 程序与模块

一个程序代码文件可以是程序文件，也可以是模块文件。当用Python运行文件时就是主程序，在程序文件使用`import` 命令导入时，就是模块。

我们注意到，代码文件的特殊变量`__name__`在两种场景下其值并不同：
- 使用Python运行文件时，也就是说为主程序时其值被设置为`__main__`。
- 使用`import` 命令导入模块时， 其值为文件名。

In [None]:
print(__name__)

基于此特性，重写刚才的代码文件

In [None]:
%%writefile simplemodule2.py
#!/usr/bin/env python
# -*- coding: utf-8 -*-
"""My Simple Module

This exports:
  - all simple functions and class.
  - sm.sayhello is either posixpath or ntpath
  - sm.SimpleClass is either 'posix' or 'nt'

Programs that import and use 'sm' name 
"""
__author__ = 'Wu Yang'

hello = ['Hi', '您好']

def sayhello(name):
    """Say hello to a person"""
    print('Hi, {}'.format(name))

    
class SimpleClass():
    pass

print(__name__)
if __name__ == '__main__':
    for x in hello:
        print(x)
        
    sayhello('老王')

在命令行下运行程序

In [None]:
%run simplemodule2.py

使用`import`导入模块

In [None]:
import simplemodule2 as sm

In [None]:
print(sm.__name__)

注意`sm`已经指的是新的模块对象了。

In [None]:
simplemodule is sm

注意，多次导入模块时，解释器并没有运行两次，也就是模块不会重复的导入。这样可以节省内存和计算资源。

在开发调试时，经常需要重新导入，可以使用`importlib.reload`实现重复导入。

In [None]:
simplemodule_old = simplemodule

In [None]:
import importlib

importlib.reload(simplemodule)

In [None]:
simplemodule_old is simplemodule

## 包（package）

Python的包是模块的集合，是更高一级的封装。在Python中，文件是模块，目录就是包。包可以嵌套包，就像文件目录一样，

### 创建包对象

包就是一个目录。与目录不同的是，包中必须包含一个`__init__.py`文件。包是模块的集合，通常会有多个模块或子包。不过我们知道，一个目录可以没有文件。也就是说，从理论上说，一个包可以没有模块也行。不过，那要问一下，为啥不用模块呢？

下面创建一个最简单的包，只包含`__init__.py`，而且里面啥都没有。

In [None]:
%mkdir simpkg
!touch simpkg/__init__.py

In [None]:
!tree simpkg

使用`import`命令导入，语法包括：
```
import dir1
import dir1.dir2.module
from dir1.dir2 import module
```

In [None]:
import simpkg
import simpkg as sm

### 自省和帮助

为了比较，使用import命令加载第三方库numpy。

使用内置函数`type()`查看对象的类型

In [None]:
print(type(simpkg), type(sm), type(np))

使用内置函数`id()`查看对象内存地址

In [None]:
print(id(simpkg), id(sm), id(np))

使用`is`操作符

In [None]:
simpkg is sm

也就是说，包也是模块对象，具有类似的特性。但还是有一些区别。

使用内置函数`help()`函数，或者使用IPython自省功能`?`或`??`获得帮助。

In [None]:
help(simpkg)

In [None]:
simpkg??

In [None]:
dir(simpkg)

下面在`__init__.py`添加一些内容，再添加一个新的模块，以及一个子包。

In [None]:
%%writefile simpkg/__init__.py
#!/usr/bin/env python
# -*- coding: utf-8 -*-
"""My Simple Package

simple package include a module and a subpackage
"""
__author__ = 'Wang Weihua <whwang@isciencehub.com'
__status__  = "production"
__version__ = "0.0.1.1"
__date__    = "24 July 2018"

hello = ['Hi', '您好']

def sayhello(name):
    """Say hello to a person"""
    print('Hi, {}'.format(name))

    
class SimpleClass():
    pass

In [None]:
%%writefile simpkg/multilang.py
#!/usr/bin/env python
# -*- coding: utf-8 -*-
def loveyou():
    """say love in multi language"""
    print('我爱你')    
    print('I Love You')
    print('私は爱する')             # 日本：
    print('나는 너를 사랑한다')     # 韩国
    print('Я люблю вас')   # 俄罗斯
    print("Je t'aime")              # 法国
    print('Ich liebe dich')         # 德国
    print('∑ας αγαπώ')       # 希腊
    print('Te amo')                 # 西班牙
    print('Ik houd van u')          # 荷兰

In [None]:
%mkdir simpkg/fibo
!touch simpkg/fibo/__init__.py

In [None]:
%%writefile simpkg/fibo/fibo.py
"""Fibonacci numbers module
"""

def fibo_gen(n):
    """Return Fibonacci series uup to n"""
    result = []
    a, b = 0, 1
    while b < n:
        result.append(b)
        a, b = b, a+b
    
    return result

def fibo_print(n):
    """Print a Fibonacci series"""
    print(fibo_gen(n))

使用`tree`命令列出包的内容

In [None]:
!tree simpkg

使用`import`导入需要的软件包

In [None]:
importlib.reload(sm)
import simpkg.multilang as mlang
from simpkg.fibo import fibo

In [None]:
help(sm)

In [None]:
sm.sayhello('老王')
sm.fibo.fibo.fibo_print(5)
sm.multilang.loveyou()

### 加载所有（`*`）

在使用`import`命令导入模块时，可以使用`*`导入模块所有内容或包的所有模块。

> 警告，不要这么干。

例如，导入模块`simplemodule`模块所有常量、函数和类：
```
from simplemodule import *
```

导入`simpkg`包所有模块或子包：
```
from simpkg import *
```

在软件包，通过在`__init__.py`中定义`__all__`列表来指定可以导入的模块对象。

In [None]:
%%writefile simpkg/__init__.py
#!/usr/bin/env python
# -*- coding: utf-8 -*-
"""My Simple Package

simple package include a module and a subpackage
"""
__author__ = 'Wu Yang'

hello = ['Hi', '您好']

def sayhello(name):
    """Say hello to a person"""
    print('Hi, {}'.format(name))

    
class SimpleClass():
    pass

__all__ = ['sayhello', 'multilang']

In [None]:
from simpkg import *

In [None]:
sayhello('老王')
multilang.loveyou()

## 模块导入

模块和包就是文件和目录。那这些文件和目录都在哪里？让我们回头，从Python之禅说起。

In [None]:
import this

检查该模块的文件位置：

In [None]:
print(this.__file__)

查看一下模块代码：

In [None]:
%cat $this.__file__

在`sys`模块包含了许多关于Python导入系统的信息。最常见的问题，自己的系统有哪些可以导入的模块。可以通过`sys.modules`变量获取，该变量是一个字典，模块名字是字典的键。

In [None]:
import sys

list(sys.modules.keys())

使用`sys.builtin_module_names`列出Python内置模块。

In [None]:
print(sys.builtin_module_names)

模块和包有很多，如果出现重名，那么加载的模块会是哪一个呢？Python导入模块时会依赖一个路径列表（`sys.path`），Python就是根据这个列表中的路径去搜索要加载的模块。

In [None]:
print(sys.path)

在`sys.path`中目录顺序很重要，Python通过遍历这个列表来寻找请求的模块。

> `sys.path`是一个列表，可以进行添加或删除。

还可以通过修改环境变量`PYTHONPATH`，改变搜索路径。

总体而言，模块的搜索顺序如下：
1. 当前目录
2. Python安装目录
3. 第三方库`site-packages`目录。

## 问题与异常

如果导入的模块不存在或者没有安装，会引起异常`ImportError`

In [None]:
import nomodule

如果出现异常，检查模块名是否输入错误，异或没有安装。有时会存在多个功能类似的模块，可以使用`try..except`方法导入：
```
try:
    import A
except ImportError as e:
    import B
```    

## 命名空间

* 每一个模块都是全局作用域。创建于模块文件顶层的变量具有全局作用域。外部访问就成了一个模块对象的属性。

* 全局作用域的作用范围仅限于单个文件。“全局”指的是在一个文件的顶层变量名对于这个文件而言是全局的。

* 每次对函数的调用都创建了一个新的局部作用域。函数内部赋值的变量名除非声明为全局，否则均为局部变量。如果需要在函数内部对模块文件顶层的变量名赋值，需要在函数内部通过global语句声明该变量。

**LEGB法则**

* L-Local局部命名空间
* E-Enclosing直接外围命名空间
* G-Global全局命名空间，包括模块文件顶层赋值的变量
* B-Builtin内建命名空间，如__name__,