# Python3.5的环境与工具链

在就像java有maven这些,js有npm这些,现代编程语言都有一套配套的工具链来配合开发流程.这套流程主要会包括如下几个部分:

+ 运行环境的搭建
+ 虚拟环境
+ 包管理依赖管理
+ 代码风格规定
+ 代码美化
+ 类型注释和检验
+ 代码调试
+ 性能调优
+ 日志工具
+ 项目测试
+ 文档生成
+ 包分发

目前python并没有一个统一的官方的工具,但在各自的方面,python却有一套很成熟的工具链.并且他们之间配合的不错.

本章节建议新手先只看

+ 运行环境的搭建
+ 包管理依赖管理

选看

+ 代码风格规定
+ 代码美化
+ 类型注释和检验

其他的部分有一定基础了再回头看不迟,


## 运行环境的搭建

python的运行环境当然是只要去[官网](https://www.python.org/)下载对应版本安装即可,注意,我们这边只讲3.5以上的版本,因此不要下载错了!安装好后要注意环境变量的配置,具体的可以参看官方说明.


### Anaconda集成环境

更好的工具是使用[Anaconda集成环境](https://www.continuum.io/),这样就可以省去很多配置环境呀,配置依赖的问题,它也可以自动将你的python环境放入系统环境变量,省去了手工配置的麻烦.国内访问Anaconda会比较坑爹,好在有[清华的镜像](https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/)

[Anaconda](https://docs.continuum.io/anaconda/index)是一个全平台的常用于科学计算的python继承环境包.自带虚拟环境工具,python的版本管理和包管理.用它来安装python可以保证python的隔离性,并且它自带的包足够全面好用.如果嫌弃它太重,那么可以安装[miniconda](http://conda.pydata.org/miniconda.html).依然是全平台支持,只是少了自带的包而已.

Anaconda的就是下载好后`bash <anaconda.sh>`(windows就是直接双击打开了) 然后一路设置就好(完全可以全默认).

在墙内的我们最好将清华的源设置为默认,linux,mac用户编辑`~/.condarc`,windows用户编辑`C:\Users\<你的用户名>\.condarc`,输入如下内容即可.

```shell 
channels: 
- https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/ 
- defaults

show_channel_urls: yes 
``` 
这个设置文件windows下默认无法创建,所以必须借助第三方的文本编辑器,这边推荐[atom](https://atom.io/),一些小技巧可以在[我的相关文章](http://blog.hszofficial.site/blog/2016/11/27/atom%E7%BC%96%E8%BE%91%E5%99%A8%E5%92%8C%E6%8F%92%E4%BB%B6%E5%AE%89%E8%A3%85/)中找到.

如何验证python是否安装成功呢?

打开terminal,window是cmd,之后输入`python -V`,就可以看到形如`Python 3.6.0 :: Anaconda 4.3.1 (64-bit)`这样的字样了,如果是Anaconda安装的,也可以在这条信息中看到Anaconda的版本.

## 虚拟环境

我们希望项目的环境依赖是独立隔离的,每个项目间各自不会影响其他的项目,最成熟传统的做法就是使用虚拟环境了.虚拟环境可以理解为node.js中npm工具的本地安装,他会把用到的包包括python的虚拟机都放到你指定的目录下,在一个terminal进程中只要你激活了那个虚拟环境,你用到的与python相关联的东西就都是虚拟环境中的了.

python3中自带了工具pyvenv来构建虚拟环境,而如果希望统一的管理虚拟环境,则Anaconda提供的虚拟环境功能可能更加合适


### pyvenv使用方法

+ `pyvenv <venv path>` 创建虚拟环境到指定目录

+ `source <venv path>/bin/activate`  使用虚拟环境,在windows下是 `<venv path>/bin/activate.bat`

    激活后会看到你的命令行每行前面多出一个`(venv)`字样，表示你在使用虚拟环境

+ `deactivate` 退出虚拟环境


### Anaconda虚拟环境和多版本的管理

ananconda也有虚拟环境工具,而且可以通过虚拟环境实现多版本python的管理使用,也就是说Anaconda的虚拟环境工具除了创建虚拟环境,还是python的版本控制工具.


+ 创建虚拟环境


```shell
conda create -n <name> python=<python version> [collection]
```

输入以上命令我们就建立了一个以`<name>`为名字的虚拟环境,并且代码和虚拟机都将放在`<AnacondaPath>/envs/<name>`文件夹下.我们需要指定python的版本,如果想顺便把一些要用的包装了,可以在[collection]位置加上要的包.

+ 激活虚拟环境

Anaconda的虚拟环境激活不需要我们记住虚拟环境创建在哪里,只要记住名字就行

在linux或者mac上使用`source activate <name>`,在windows上使用`activate <name>`即可,需要注意的是windows下的`powershell shell`有一个bug,无法激活虚拟环境,要使用的话记得切换到cmd.


+ 退出虚拟环境

在linux或者mac上使用`source deactivate`,在windows上使用`deactivate`就可以退出当前的虚拟环境了


+ 查看有哪些虚拟环境

`conda env list`


+ 要删除一个虚拟环境

`conda remove -n <name> --all`

## 包管理

python最常用的包管理工具就是官方的pip,当然Anaconda的conda命令也可以作为包管理工具使用,而且可能更加方便一些,但其实conda命令下载安装python的包也是用的pip.


### pip

pip是python的官方第三方包管理工具，收录了大部分的第三方包。多数自带python的系统如mac osx， ubuntu都已经有现成的pip安装着了。如果确实没有pip可以去<https://pip.pypa.io/en/latest/installing.html#python-os-support> 下载`get-pip.py`文件,下载到本地后，cd到同一文件夹下使用python get-pip.py安装.基本上不会有人不装pip,因为如果不用它,python就少了很多便利性

pip基本使用:

+ 安装模块

    + `pip install packageName` 下载并安装最新的版本 
    
    + `pip install packageName==1.0.0`下载并安装指定版本
    
    + `pip install 'packageName>=1.0.0`  下载并安装至少某个版本以上的版本的包
    
    + `pip install url`  #从指定网址资源安装
    
    + `pip install path`  #指定本地位置安装

    + `pip install --find-links=url` 从指定url下载安装
    
    + `pip install --find-links=path` 从指定path下载安装
    
    + `pip install --upgrade packageName` 更新一个已经安装过的过期模块


+ 从需求文件安装模块

    + `pip freeze > requirements.txt`  将当前pip管理的模块信息存储进文本文件
    
    + `pip install -r requirements.txt` 从文本文件安装依赖的模块
    
+ 卸载

    + `pip uninstall <packageName>`

+ 查找

    + `pip search <name>`

+ 查看模块信息

    + `pip show <packageName>`

+ 查看pip管理了哪些模块

    + `pip list`
    
    + `pip list --outdated` 查看过期的模块
    
    
#### 关于pip的国内源设置


感谢天朝的伟大电子长城,我们很多时候无法练到pypi的服务器,还好国内豆瓣有个一直在维护的镜像站可以提供源作为替代

如何设置呢?

在你的个人根目录下有一个`.pip`文件夹(没有就自己建个),在其中新建一个`pip.conf`文件作为配置文件,然后在其中填上如下内容:


    [global]
    index-url = http://pypi.douban.com/simple
    trusted-host = pypi.douban.com
    
### conda 包管理工具

Anaconda的定位是数据科学工具箱,它其实并不局限于python.

我们的pip和conda并不冲突,而conda实际上也是依赖于pip工具的,用conda的好处是:

+ 有些复杂的安装过程他会帮你省去,
+ 可以用它安装一些Anaconda公司的商业工具
+ 它对于包版本的追踪更加细致.
+ 可以用它安装一些不是python包的工具,尤其一些C/C++工具,比如windows下的minwg.

和pip一样,`conda list`是查看已安装包信息的工具

而查找包还是`conda search <pkgname>`

要安装也还是`conda install`,只是它可以加上参数`--name <envname>`来为特定环境跨环境安装包

而删除包就和pip有所不同了,它使用的是`conda remove <pkgname>`命令.

## 代码风格规定

python社区有一套成文的代码规范,就是有名的pep8规范.而google也有一套成文的风格规范,他们都很不错,但更加推荐使用pep8,并且在一些细节上使用google的规范.当然了,python的代码风格并不是强制性的,只是使用这套规则会更加便于团队合作.是否使用还是看使用者个人

### 代码编排

1. 缩进。4个空格的缩进（编辑器都可以完成此功能），不使用Tap，更不能混合使用Tap和空格。
2. 每行最大长度79，换行可以使用反斜杠，最好使用圆括号。换行点要在操作符的后边敲回车。
3. 类和top-level函数定义之间空两行；类中的方法定义之间空一行；函数内逻辑无关段落之间空一行；其他地方尽量不要再空行。

### 文档编排

1. 模块内容的顺序：模块说明和docstring—import—globals&constants—其他定义。其中import部分，又按标准、三方和自己编写顺序依次排放，之间空一行。
2. 不要在一句import中多个库，比如import os, sys不推荐。
3. 如果采用from XX import XX引用库，可以省略‘module.’，都是可能出现命名冲突，这时就要采用import XX。

### 空格的使用

总体原则，避免不必要的空格。
        
        
1. 各种右括号前不要加空格。
2. 逗号、冒号、分号前不要加空格。
3. 函数的左括号前不要加空格。如Func(1)。
4. 序列的左括号前不要加空格。如list[2]。
5. 操作符左右各加一个空格，不要为了对齐增加空格。
6. 函数默认参数使用的赋值符左右省略空格。
7. 不要将多句语句写在同一行，尽管使用‘；’允许。
8. if/for/while语句中，即使执行语句只有一句，也必须另起一行。

### 注释

总体原则，错误的注释不如没有注释。所以当一段代码发生变化时，第一件事就是要修改注释！
        
注释必须使用英文，最好是完整的句子，首字母大写，句后要有结束符，结束符后跟两个空格，开始下一句。如果是短语，可以省略结束符。

1. 块注释，在一段代码前增加的注释。在‘#’后加一空格。段落之间以只有‘#’的行间隔。比如：

    ```python
    # Description : Module config.
    # 
    # Input : None
    #
    # Output : None

    ```

2. 行注释，在一句代码后加注释。比如：`x = x + 1			# Increment x`
    但是这种方式尽量少使用。

3. 避免无谓的注释。

### 文档描述

1. 为所有的共有模块、函数、类、方法写docstrings；非共有的没有必要，但是可以写注释（在def的下一行）。
2. 如果docstring要换行，参考如下例子,详见PEP 257

    ```python
    """Return a foobang

    Optional plotz says to frobnicate the bizbaz first.

    """
```

### Shebang

大部分.py文件不必以`#!`作为文件的开始. 根据 PEP-394 , 程序的main文件应该以` #!/usr/bin/python2`或者 `#!/usr/bin/python3`开始.但其实更好的方式是使用`#! /usr/bin/env/python2`或者 `#!/usr/bin/env python3`

在计算机科学中, Shebang (也称为Hashbang)是一个由井号和叹号构成的字符串行(#!), 其出现在文本文件的第一行的前两个字符. 在文件中存在Shebang的情况下, 类Unix操作系统的程序载入器会分析Shebang后的内容, 将这些内容作为解释器指令, 并调用该指令, 并将载有Shebang的文件路径作为该解释器的参数. 例如, 以指令`#!/bin/sh`开头的文件在执行时会实际调用`/bin/sh`程序.

`#!`先用于帮助内核找到Python解释器, 但是在导入模块时, 将会被忽略. 因此只有被直接执行的文件中才有必要加入`#!`.

### TODO注释

为临时代码使用TODO注释, 它是一种短期解决方案. 不算完美, 但够好了.

TODO注释应该在所有开头处包含`TODO`字符串, 紧跟着是用括号括起来的你的名字, email地址或其它标识符. 然后是一个可选的冒号. 接着必须有一行注释, 解释要做什么. 主要目的是为了有一个统一的TODO格式, 这样添加注释的人就可以搜索到(并可以按需提供更多细节). 写了TODO注释并不保证写的人会亲自解决问题. 当你写了一个`TODO`, 请注上你的名字.

```python
# TODO(kl@gmail.com): Use a "*" here for string repetition.
# TODO(Zeke) Change this to use relations.
```
如果你的TODO是”将来做某事”的形式, 那么请确保你包含了一个指定的日期(“2009年11月解决”)或者一个特定的事件(“等到所有的客户都可以处理XML请求就移除这些代码”).


### 命名规范
        
总体原则，新编代码必须按下面命名风格进行，现有库的编码尽量保持风格。

1. 尽量单独使用小写字母`l`，大写字母`O`等容易混淆的字母。
2. 模块命名尽量短小，使用全部小写的方式，可以使用下划线。
3. 包命名尽量短小，使用全部小写的方式，不可以使用下划线。
4. 类的命名使用CapWords的方式，模块内部使用的类采用`_CapWords`的方式。
5. 异常命名使用CapWords+Error后缀的方式。
6. 全局变量尽量只在模块内有效，类似C语言中的static。实现方法有两种，一是`__all__`机制;二是前缀一个下划线。
7. 函数命名使用全部小写的方式，可以使用下划线。
8. 常量命名使用全部大写的方式，可以使用下划线。
9. 类的属性（方法和变量）命名使用全部小写的方式，可以使用下划线。
10. 类的属性有3种作用域`public`、`non-public`和`subclass API`，可以理解成C++中的`public`、`private`、`protected`，`subclass API`属性前缀一条下划线,这样使用import * from时不会包含,`non-public`属性前缀两条下划线,这样不使用`__dir__`无法被查看到.
11. 类的属性若与关键字名字冲突，后缀一下划线，尽量不要使用缩略等其他方式。
12. 为避免与子类属性命名冲突，在类的一些属性前，前缀两条下划线。比如：类Foo中声明`__a`,访问时，只能通过`Foo._Foo__a`，避免歧义。如果子类也叫`Foo`，那就无能为力了。
13. 类的方法第一个参数必须是`self`，而静态方法第一个参数必须是`cls`。

### 编码建议

1. 编码中考虑到其他python实现的效率等问题，比如运算符‘+’在CPython（Python）中效率很高，但是Jython中却非常低，所以应该采用.join()的方式。
2. 尽可能使用`is`,`is not`取代`==`，比如`if x is not None` 要优于`if x`。
3. 使用基于类的异常，每个模块或包都有自己的异常类，此异常类继承自Exception。
4. 异常中不要使用裸露的except，except后跟具体的exceptions。
5. 异常中try的代码尽可能少。比如：

    ```python
    try:
        value = collection[key]
    except KeyError:
        return key_not_found(key)
    else:
        return handle_value(value)
    ```
    
    要优于
    ```python
    try:
        # Too broad!
        return handle_value(collection[key])
    except KeyError:
        # Will also catch KeyError raised by handle_value()
        return key_not_found(key)
    ```
       
6. 使用startswith() and endswith()代替切片进行序列前缀或后缀的检查。比如：

    ```python
    if foo.startswith('bar'):
    ```
    优于
    ```python
    if foo[:3] == 'bar':
    ```    
    
7. 使用isinstance()比较对象的类型。比如

    ```python
    if isinstance(obj, int):
    ```
    优于
    ```python
    if type(obj) is type(1):
    ```

8. 判断序列空或不空，有如下规则

    ```python
    if not seq:
        pass
    if seq:
        pass
    ```
    优于
    ```python
    
    if len(seq):
        pass
    if not len(seq):
        pass
    ```
    
9. 字符串不要以空格收尾。

10. 二进制数据判断使用`if boolvalue`的方式。

### 导入格式

每个导入应该独占一行
Yes: 

```python
import os
import sys
```
No:  
```python
import os, sys
```

导入总应该放在文件顶部, 位于模块注释和文档字符串之后, 模块全局变量和常量之前. 导入应该按照从最通用到最不通用的顺序分组:

1. 标准库导入
2. 第三方库导入
3. 应用程序指定导入

每种分组中, 应该根据每个模块的完整包路径按字典序排序, 忽略大小写.

```python
import foo
from foo import bar
from foo.bar import baz
from foo.bar import Quux
from Foob import ar
```

### Main

即使是一个打算被用作脚本的文件, 也应该是可导入的. 并且简单的导入不应该导致这个脚本的主功能(main functionality)被执行, 这是一种副作用. 主功能应该放在一个`main()`函数中.
在Python中, `pydoc`以及单元测试要求模块必须是可导入的. 你的代码应该在执行主程序前总是检查 if` __name__ == '__main__'` , 这样当模块被导入时主程序就不会被执行.
```python
def main():
    pass

if __name__ == '__main__':
    main()
```

所有的顶级代码在模块导入时都会被执行. 要小心不要去调用函数, 创建对象, 或者执行那些不应该在使用pydoc时执行的操作.


### docstrings注释风格

docstrings注释是可以被pydoc独出生成文档的注释,使用一对连续3个引号来构建.

我们的docstrings注释要简洁明了,并且最好符合大多数人的阅读习惯,这样才便于维护,这边推荐谷歌风格的注释规范.



#### 模块

每个文件应该包含一个许可样板. 根据项目[使用的许可](http://blog.hszofficial.site/blog/2016/06/11/%E5%85%B3%E4%BA%8E%E5%BC%80%E6%BA%90%E5%8D%8F%E8%AE%AE%E7%9A%84%E9%80%89%E6%8B%A9/), 选择合适的样板.

#### 函数

一个函数必须要有文档字符串, 除非它满足以下条件:

外部不可见
非常短小
简单明了
文档字符串应该包含函数做什么, 以及输入和输出的详细描述. 通常, 不应该描述”怎么做”, 除非是一些复杂的算法. 文档字符串应该提供足够的信息, 当别人编写代码调用该函数时, 他不需要看一行代码, 只要看文档字符串就可以了. 对于复杂的代码, 在代码旁边加注释会比使用文档字符串更有意义.

关于函数的几个方面应该在特定的小节中进行描述记录， 这几个方面如下文所述. 每节应该以一个标题行开始. 标题行以冒号结尾. 除标题行外, 节的其他内容应被缩进2个空格.


+ Args:
    列出每个参数的名字, 并在名字后使用一个冒号和一个空格, 分隔对该参数的描述.如果描述太长超过了单行80字符,使用2或者4个空格的悬挂缩进(与文件其他部分保持一致). 描述应该包括所需的类型和含义. 如果一个函数接受`*foo`(可变长度参数列表)或者`**bar` (任意关键字参数), 应该详细列出`*foo和**bar`.
+ Returns: (或者 Yields: 用于生成器)
    描述返回值的类型和语义. 如果函数返回None, 这一部分可以省略.
+ Raises:
    列出与接口有关的所有异常.
    
我们看一个例子:

```python
def flatten(items):
    u"""压扁序列,将多层结构的序列压为一列.

    
    Parameters:
        items (Iterable): - 复杂的多层序列
    Returns:
        Iterable: - 压扁后的单层序列
    """
    for item in items:
        is_iterable = isinstance(item, Iterable)
        is_string_or_bytes = isinstance(item, (str, bytes, bytearray))
        if is_iterable and not is_string_or_bytes:
            for i in flatten(item):
                yield i
        else:
            yield item

```
    
#### 类

类应该在其定义下有一个用于描述该类的文档字符串. 如果你的类有公共属性(Attributes), 那么文档中应该有一个属性(Attributes)段. 并且应该遵守和函数参数相同的格式.

+ Attributes:
    成员属性
    
我们看一个例子:

```python
class SampleClass(object):
    u"""一个简单的类例子

    Attributes:
        likes_spam: 布尔型参数
        eggs: int型参数
    """

    def __init__(self, likes_spam=False):
        """Inits SampleClass with blah."""
        self.likes_spam = likes_spam
        self.eggs = 0

    def public_method(self):
        """Performs operation blah."""
        
```

## 代码美化

要完全符合规范是很作孽繁琐的一件事,我们同样可以使用工具简化这个工作,这就是[autopep8](https://github.com/hhatto/autopep8).

安装:

```shell
pip install --upgrade autopep8
```

如果使用atom的话则可以安装[Atom Beautify](https://atom.io/packages/atom-beautify)插件,它的python代码美化也是基于autopep8的.


## 类型注释和检验

python3.5起就支持函数的类型注释,它的结构如下:

```python
def func(arg:int)->int:
    pass
    
```
类型注释只是注释,它并没有实际作用,要让它有类型检验的功能还要有其他工具配合.

### typing模块

类型注释可以直接

## 代码调试

代码调试主要是debug,也就是确保程序不出错误.基本可以分为如下几个方面:

+ 单步调试,一步一步的查看代码的运行状态
+ 调用追踪,查看函数报错在堆栈中的状况
+ 段错误追踪,一般用于C写扩展的模块追踪内存泄漏等错误


### 单步调试模块

pdb是python自带的调试模块,它可以在交互环境中使用,也可以在terminal中作为python的一个模式使用

> 要调试的脚本:

```python
#!/usr/bin/env python3
class Counter(object):
    """一个计数器
    用法:
    >>> counter1 = Counter()
    >>> counter1()
    1
    >>> counter1()
    2
    >>> counter2 = Counter(lambda : 2,-3)
    >>> counter2()
    -1
    >>> counter2()
    1
    """
    def __str__(self):
        return "state:"+str(self.value)
    def __repr__(self):
        return self.__str__
    def __call__(self):
        def count():
            self.value += self.func()
            return self.value
        return count()
    
    def __init__(self,func=lambda : 1,start=0):
        self.value = start
        self.func = func 
test = Counter()
test()
test()
print(test)
if __name__=="__main__":
    counter1 = Counter()
    counter2 = Counter()
    for i in range(10):
        counter1()
    for i in range(8):
        counter2()
    if counter1.value == counter2.value:
        print("not success")
    else: 
        print("don't known")
        
    
    import doctest
    doctest.testmod(verbose=True)
```

> 命令行调试

```shell
python -m pdb counter.py
```

> 在交互shell中调试

```python
import pdb
import counter
pdb.run('counter.test()')
```

常用的调试命令可以在调试模式下用help命令来查看

### 调用追踪

调试的时候我们除了想知道哪条代码错了,也会想知道是谁调用了这条错误的代码,,又或者希望知道运行时的堆栈信息.这个时候调用追踪模块就有用了

>一个简单的例子 

In [1]:
import traceback
def func():
    s =  traceback.extract_stack()
    print('%s Invoked me!'%s[-2][2])
    
def a():
    func()
b = lambda :func()

In [2]:
a()

a Invoked me!


In [3]:
b()

<lambda> Invoked me!


traceback的api是这些，我将它翻译出来，英文不好的同学也可以对照着使用:

+ `traceback.print_tb(tb, limit=None, file=None)`

    如果`limit`参数是正数,则打印limit条数的(从调用者这一帧开始的)traceback对象的堆栈跟踪条目,否则打印最后的abs(limit)条目,如果`limit`被省略或为None，则打印所有条目
    如果省略`file`或者`None`，则输出到`sys.stderr`,否则它应该是一个打开的文件或类似文件的对象来接收输出。
    

    打印，以限制堆栈跟踪条目从traceback对象(从调用者这帧开始)，如果限制是积极的。否则，打印最后的ABS（限制）条目。如果限制被省略或没有，所有条目打印。如果文件被省略或没有，输出到`sys.stderr`；否则应打开的文件或类似文件的对象来接收输出。


+ `traceback.print_exception(etype, value, tb, limit=None, file=None, chain=True)`

    将异常信息和堆栈跟踪条目从traceback对象tb打印到文件。这与`print_tb()`有以下不同:
    
    + 如果tb不是None，它会打印一个 header Traceback（通常是最近一次调用）：
    + 它在堆栈跟踪之后打印异常etype和值
    + 如果etype是SyntaxError，并且value具有相应的格式，则会打印出语法错误发生的行，并带有指示错误大致位置的插入符号。
    
    
    可选的limit参数与`print_tb()`的含义相同.如果chain为true（默认值），那么也会打印异常链（`__cause__`或`__context__`异常的属性），就像解释器本身在打印未处理的异常时一样。
    
    
+ `traceback.print_exc(limit=None, file=None, chain=True)`
    
    `print_exception(*sys.exc_info(), limit, file, chain)`的缩写
    
+ `traceback.print_last(limit=None, file=None, chain=True)`

    这是`print_exception(sys.last_type，sys.last_value，sys.last_traceback，limit，file，chain)`的缩写。一般来说，只有在异常已经达到交互式提示之后才会有效


+ `traceback.print_stack(f=None, limit=None, file=None)`
 
    如果limit为正值则以limit参数为条数打印堆栈跟踪条目(从调用点开始)否则，打印最后一个abs(limit)条目。如果省略limit或None，则打印所有条目。可选的f参数可用于指定要启动的备用堆栈帧。可选file参数与`print_tb()`具有相同的含义。

+ `traceback.extract_tb(tb, limit=None)`

    返回从traceback对象tb提取的“预处理”堆栈跟踪条目列表。它对于堆栈跟踪的替代格式很有用。可选的limit参数与print_tb()的含义相同。 “预处理”堆栈跟踪条目是表示通常为堆栈跟踪打印的信息的4元组(文件名，行号，函数名称，文本)。文本是带有前导和尾随空格的字符串;如果源不可用，则为None。

+ `traceback.extract_stack(f=None, limit=None)`

    从当前堆栈帧中提取原始的追溯。返回值的格式与`extract_tb()`的格式相同。可选的f和limit参数与`print_stack()`具有相同的含义。

+ `traceback.format_list(extracted_list)`

    给定一个由`extract_tb()`或`extract_stack()`返回的元组列表，返回一个准备打印的字符串列表。结果列表中的每个字符串对应于参数列表中具有相同索引的项。每个字符串以换行符结尾.对于源文本行不为None的项目，字符串也可能包含内部换行符。


+ `traceback.format_exception_only(etype, value)`

    格式化traceback的异常部分。参数是异常类型和值，例如由`sys.last_type`和`sys.last_value`给出的。返回值是一个字符串列表，每个都以换行符结尾。通常，列表包含单个字符串;但是，对于`SyntaxError`异常，它包含几行(打印时)显示有关发生语法错误的详细信息。指示发生哪个异常的消息是列表中始终最后一个字符串。


+ `traceback.format_exception(etype, value, tb, limit=None, chain=True)`

    格式化堆栈跟踪和异常信息。参数与`print_exception()`的相应参数具有相同的含义。返回值是字符串列表，每个都以换行符结尾，一些包含内部换行符。当这些行连接并打印时，打印与`print_exception()`完全相同的文本。


+ `traceback.format_exc(limit=None, chain=True)`

    类似`print_exc(limit)`，但是返回一个字符串而不是打印到一个文件


+ `traceback.format_tb(tb, limit=None)`

    `format_list(extract_tb(tb，limit))`的缩写

+ `traceback.format_stack(f=None, limit=None)`

    `format_list(extract_stack(f, limit))`的缩写

+ `traceback.clear_frames(tb)`

    通过调用每个帧对象的`clear()`方法来清除traceback对象tb中所有堆栈帧的局部变量。

+ `traceback.walk_stack(f)`

    从给定帧中的`f.f_back`后面移动一个堆栈，产生每个帧的帧和行号。如果f为None，则使用当前堆栈。它常用于和`StackSummary.extract()`一起使用。

+ `traceback.walk_tb(tb)`

    在tb_next之后走一个回溯，产生每个帧的帧和行号。此帮助程序与`StackSummary.extract()`一起使用。


+ `class traceback.StackSummary`

    StackSummary对象表示可以进行格式化的调用堆栈,它的静态方法`extract` 常与`traceback.walk_stack`或者`traceback.walk_tb`配合使用

    + `classmethod extract(frame_gen, *, limit=None, lookup_lines=True, capture_locals=False)`
    
        从帧生成器构造一个`StackSummary`对象(例如由walk_stack()或walk_tb()的返回).如果有`limit`参数，则只有这么多帧是从frame_gen中获取的。如果`lookup_lines`为False，则返回的FrameSummary对象将不会读取它们的行，从而使得创建StackSummary的成本更低(如果实际上可能没有格式化，则可能是有价值的).如果`capture_locals`为True，则每个FrameSummary中的局部变量被捕获为对象表示。


### 段错误追踪

所谓的段错误就是指访问的内存超出了系统所给这个程序的内存空间，通常这个值是由gd tr来保存的，他是一个48位的寄存器，其中的32位是保存由它指向的 gdt表，后13位保存 相应于gdt的下标，最后3位包括了程序是否在内存中以及程序的在cpu中的运行级别，指向 的gdt是由以64位为一个单位的表，在这张表中就保存着程序运行的代码段以及数据段的起 始地址以及与此相应的段限和页面交换还有程序运行级别还有内存粒度等等的信息。

在编程中以下几类做法容易导致段错误,基本上是错误地使用指针引起的。

1. 访问系统数据区，尤其是往系统保护的内存地址写数据最常见就是给一个指针以0地址。
2. 内存越界(数组越界，变量类型不一致等)： 访问到不属于你的内存区域。

python由于与C有着千丝万缕的联系,所以使用ctypes这类模块的时候也很容易出段错误这种问题.python3.5+提供了`faulthandler`工具来做段错误追踪.


In [4]:
%%writefile src/C1/faulthandler_test.py

import ctypes
ctypes.string_at(0)


Overwriting src/C1/faulthandler_test.py


In [5]:
!python src/C1/faulthandler_test.py

Traceback (most recent call last):
  File "src/C1/faulthandler_test.py", line 3, in <module>
    ctypes.string_at(0)
  File "C:\Users\Administrator\Anaconda3\lib\ctypes\__init__.py", line 488, in string_at
    return _string_at(ptr, size)
OSError: exception: access violation reading 0x0000000000000000


In [6]:
!python -q -X faulthandler faulthandler_test.py

python: can't open file 'faulthandler_test.py': [Errno 2] No such file or directory


另一中用法是在文件内写入`faulthandler.enable()`

In [7]:
%%writefile src/C1/faulthandler_test2.py

import ctypes
import faulthandler
faulthandler.enable()
ctypes.string_at(0)

Overwriting src/C1/faulthandler_test2.py


In [8]:
!python src/C1/faulthandler_test2.py

Windows fatal exception: access violation

Current thread 0x000003e4 (most recent call first):
  File "C:\Users\Administrator\Anaconda3\lib\ctypes\__init__.py", line 488 in string_at
  File "src/C1/faulthandler_test2.py", line 5 in <module>
Traceback (most recent call last):
  File "src/C1/faulthandler_test2.py", line 5, in <module>
    ctypes.string_at(0)
  File "C:\Users\Administrator\Anaconda3\lib\ctypes\__init__.py", line 488, in string_at
    return _string_at(ptr, size)
OSError: exception: access violation reading 0x0000000000000000


## 性能调优

在代码可以实现功能且健壮不出错的前提下,我们往往会有优化性能的需求

性能调优大约可以在运行时间和运行内存占用两方面来考量,下面介绍的工具定位精度由粗到细,也分为这两个方面

### 测试整体运行时间

Python中的timeit是测试代码执行效率的工具.可以用命令行直接测试脚本,也可以测试代码字符串的效率,当然最简单的还是直接用ipython的内置timeit魔法命令测某段代码的效率

In [9]:
import timeit
t = timeit.Timer('map(lambda x: x**2,range(1000))')
t.timeit()

0.3987415120148838

In [10]:
!python -m timeit -s "map(lambda x: x**2,range(1000))"

100000000 loops, best of 3: 0.00577 usec per loop


### 函数级性能瓶颈定位

python的标准库中有一个可以实现性能瓶颈定位的模块叫cprofile,他是一个开销极小的C扩展.用它可以实现函数级的性能分析,配合`pstats`模块还可以输出分析报告


> 使用单独模块分析

In [11]:
%%writefile src/C1/profile_test.py
def foo():
    sum = 0
    for i in range(10000):
        sum += i
    return sum
if __name__=="__main__":
    foo()

Overwriting src/C1/profile_test.py


In [12]:
%%writefile src/C1/profile_test.py
def foo():
    sum = 0
    for i in range(10000):
        sum += i
    return sum
if __name__=="__main__":
    try :
        import profile
    except:
        import cProfile as profile
        
    profile.run("foo()")

Overwriting src/C1/profile_test.py


In [13]:
!python src/C1/profile_test.py

         5 function calls in 0.000 seconds

   Ordered by: standard name

   ncalls  tottime  percall  cumtime  percall filename:lineno(function)
        1    0.000    0.000    0.000    0.000 :0(exec)
        1    0.000    0.000    0.000    0.000 :0(setprofile)
        1    0.000    0.000    0.000    0.000 <string>:1(<module>)
        1    0.000    0.000    0.000    0.000 profile:0(foo())
        0    0.000             0.000          profile:0(profiler)
        1    0.000    0.000    0.000    0.000 profile_test.py:1(foo)




>使用命令行分析

In [14]:
%%writefile src/C1/profile_test_foo.py
#coding:utf-8
def foo():
    sum = 0
    for i in range(10000):
        sum += i
    return sum
if __name__=="__main__":
    foo()

Overwriting src/C1/profile_test_foo.py


In [15]:
!python -m cProfile src/C1/profile_test_foo.py

         4 function calls in 0.000 seconds

   Ordered by: standard name

   ncalls  tottime  percall  cumtime  percall filename:lineno(function)
        1    0.000    0.000    0.000    0.000 profile_test_foo.py:2(<module>)
        1    0.000    0.000    0.000    0.000 profile_test_foo.py:2(foo)
        1    0.000    0.000    0.000    0.000 {built-in method builtins.exec}
        1    0.000    0.000    0.000    0.000 {method 'disable' of '_lsprof.Profiler' objects}




> 统计项说明

统计项|说明
---|---
ncalls| 函数被调用次数
tottime|函数总计运行时间,不含调用函数运行时间
cumtime|函数总计运行时间,含调用的函数运行时间
percall|函数运行一次平均时间,等于tottime(cumtime)/ncalls
`filename:lineno`|函数所在文件名,函数的行号,函数名

> 与pstats结合提供多种形式的报表

In [16]:
%%writefile src/C1/profile_test_pstats.py
def foo():
    sum = 0
    for i in range(10000):
        sum += i
    return sum
if __name__=="__main__":
    try :
        import profile
    except:
        import cProfile as profile
        
    profile.run("foo()","foo.txt")
    import pstats
    p = pstats.Stats("foo.txt")
    p.sort_stats("time").print_stats()

Overwriting src/C1/profile_test_pstats.py


In [17]:
!python src/C1/profile_test_pstats.py

Mon Apr 24 00:24:36 2017    foo.txt

         5 function calls in 0.000 seconds

   Ordered by: internal time

   ncalls  tottime  percall  cumtime  percall filename:lineno(function)
        0    0.000             0.000          profile:0(profiler)
        1    0.000    0.000    0.000    0.000 profile:0(foo())
        1    0.000    0.000    0.000    0.000 :0(exec)
        1    0.000    0.000    0.000    0.000 <string>:1(<module>)
        1    0.000    0.000    0.000    0.000 src/C1/profile_test_pstats.py:1(foo)
        1    0.000    0.000    0.000    0.000 :0(setprofile)




stats有许多函数,可以提供不同的报表

+ stats函数说明

函数|说明
---|---
strip_dirs()|除去文件名前名的路径信息
add(filename,[...])|把profile输出的文件加入stats实例中统计
dump_stats(filename)|把stats统计结果保存到文件
sort_stats(key,[...])|最重要的,可以给profile统计结果排序
reverse_order()|数据反排序
print_stats([restriction,...])|把报表输出到stdout
print_callers([restriction,...])|输出调用指定函数的相关信息
print_callees([restriction,...])|输出指定函数调用过的函数的相关信息

+ sort_stats可接受的参数

参数|说明
---|---
ncalls|被调次数
cumulative|函数运行总时间
file|文件名
module|模块名
pcalls|简单统计
line|行号
name|函数名
nfl|name,file,line
stdname|标准函数名
time|函数内部运行时间

### 语句级性能瓶颈定位

cprofiler只能追踪到哪个函数是性能瓶颈,而函数中哪条语句是性能瓶颈就追踪不到了,对于语句级性能瓶颈定位,python并没有官方工具,但github上有位大神制作了[line_profiler](https://github.com/rkern/line_profiler),这个工具可以实现这一功能,它也几乎可以说是python的半标准工具之一了.

因为不是标准库中的内容,所以需要pip安装.

使用方法十分简单,在需要分析的函数上面加上装饰器`@profile`即可(注意不用import任何东西,这条装饰器在定位好后应该删除以保证代码可以运行)

In [18]:
%%writefile src/C1/line_profile_test.py

@profile
def foo():
    sum = 0
    for i in range(10000):
        sum += i
    return sum
if __name__=="__main__":
    foo()

Overwriting src/C1/line_profile_test.py


In [19]:
!kernprof -l -v src/C1/line_profile_test.py

Wrote profile results to line_profile_test.py.lprof
Timer unit: 2.55489e-07 s

Total time: 0.00455895 s
File: src/C1/line_profile_test.py
Function: foo at line 2

Line #      Hits         Time  Per Hit   % Time  Line Contents
     2                                           @profile
     3                                           def foo():
     4         1            4      4.0      0.0      sum = 0
     5     10001         8406      0.8     47.1      for i in range(10000):
     6     10000         9433      0.9     52.9          sum += i
     7         1            1      1.0      0.0      return sum



## 内存分析

[memory_profiler](https://pypi.python.org/pypi/memory_profiler/)是用来分析内存使用情况和追踪内存泄露的工具.它用法比较接近`line_profiler`

由于不是标准库中的模块,它需要pip安装.


需要注意的是windows下需要在script文件夹下将`mprof`文件改名为`mprof.py`并在同一目录下创建一个`mprof.bat`文件编辑为如下内容

```shell
@echo off
python "%~dpn0.py" %*
```

它的使用及其简单:

In [20]:
%%writefile src/C1/memory_test.py
from memory_profiler import profile
@profile
def foo():
    sum = 0
    for i in range(10000):
        sum += i
    return sum
if __name__=="__main__":
    try :
        import profile as cProfile
    except:
        import cProfile 
        
    cProfile.run("foo()","foo.txt")
    import pstats
    p = pstats.Stats("foo.txt")
    p.sort_stats("time").print_stats()

Overwriting src/C1/memory_test.py


之后使用
```shell
python src/C1/memory_test.py
```
就可以看到详细结果了

指定精度可以在profile装饰器后面加上参数 如: @profile(precision=4)

mprof工具类似`kernprof`,用它可以输出更加友好的统计分析页面

In [1]:
%%writefile src/C1/memory_test_round.py
from memory_profiler import profile
@profile
def foo():
    sum = 0
    for i in range(10000):
        sum += i
    return sum
if __name__=="__main__":
    foo()

Overwriting src/C1/memory_test_round.py


In [2]:
!mprof run src/C1/memory_test_round.py

Filename: src/C1/memory_test_round.py

Line #    Mem usage    Increment   Line Contents
     2     36.7 MiB      0.0 MiB   @profile
     3                             def foo():
     4     36.7 MiB      0.0 MiB       sum = 0
     5     36.7 MiB      0.0 MiB       for i in range(10000):
     6     36.7 MiB      0.0 MiB           sum += i
     7     36.7 MiB      0.0 MiB       return sum


mprof.py: Sampling memory every 0.1s


还可以做出内存使用状况的时间图
\

In [3]:
!mprof plot

Using last profile data.
<matplotlib.figure.Figure at 0x1cc7d618898>


### 对象分析及追踪(windows下不能用)

[Objgraph](http://mg.pov.lt/objgraph/)可以实现对象分析和追踪,它也是用pip安装,不过它依赖xdot(pip 安装)
和[graphviz](http://www.graphviz.org/)(brew安装)

它可以实现的功能有:

+ 统计
+ 定义过滤对象
+ 遍历和显示对象图

In [4]:
%%writefile src/C1/Obj_test.py
#encoding=utf-8  
import objgraph  
  
if __name__ == '__main__':  
    x = []  
    y = [x, [x], dict(x=x)]  
    objgraph.show_refs([y], filename='sample-graph.png') #把[y]里面所有对象的引用画出来  
    objgraph.show_backrefs([x], filename='sample-backref-graph.png') #把对x对象的引用全部画出来  
    #objgraph.show_most_common_types() #所有常用类型对象的统计，数据量太大，意义不大  
    objgraph.show_growth(limit=4) #打印从程序开始或者上次show_growth到现在增加的对象（按照增加量的大小排序）  

Writing src/C1/Obj_test.py


In [None]:
!python src/C1/Obj_test.py

于是你可以看到图了

![](source/C1/sample-graph.png)
![](source/C1/sample-backref-graph.png)

## 日志工具

代码检查,debug,调优都只能让代码确保当时是可靠的,一些复杂的关联错误,也可能让这些测试呀debug呀失准,,而只有日志才能长期的帮助我们监控项目的健壮性.这种时候就可以使用标准库logging为程序的运行做记录,在试运行之后通过分析logging记录的方式来debug.

在logging框架下首先我们需要初始化一个logger来处理log,之后通过添加handler,Formatter和config子属性来自定义我们的logger.
> 一个简单的例子

In [5]:
import logging
import sys
#日志的名字,会在每行的一开始写
logger = logging.getLogger("endlesscode")
#格式化
formatter = logging.Formatter('%(name)-12s %(asctime)s %(levelname)-8s %(message)s', '%a, %d %b %Y %H:%M:%S',)
#设定输出文件
file_handler = logging.FileHandler("src/test.log")
#为handler设置输出格式
file_handler.setFormatter(formatter)
#流控制,将信息输出到标准流输出
stream_handler = logging.StreamHandler(sys.stderr)
#为logger设置handler
logger.addHandler(file_handler)
#发送信息到流
logger.addHandler(stream_handler)
#设置报错等级
#logger.setLevel(logging.ERROR)
#报错
logger.error("w")
#移除handler
logger.removeHandler(stream_handler)
#报错
logger.error("f")

w


其中

+ level: 设置日志级别，默认为logging.WARNING

+ stream: 指定将日志的输出流，可以指定输出到sys.stderr,sys.stdout或者文件，默认输出到sys.stderr，当stream和filename同时指定时，stream被忽略

### 输出文本的格式化

元素|格式化字符串|描述
---|---|---
args|不用格式化|	参数会是一个元组
asctime	|`%(asctime)s`	|可读的时间
created	|`%(created)f`|	记录的创建时间
filename	|`%(filename)s`	|文件名
funcName	|`%(funcName)s`	|函数名
levelname	|`%(levelname)s`	|错误,警报等的名字
levelno	|`%(levelno)s`|错误,警报等,是预警等级
lineno	|`%(lineno)d	`|报错行数
module	|`%(module)s`	|报错模块
msecs	|`%(msecs)d`	|毫秒级的出错时间
message|`%(message)s`	|错误信息
name	|`%(name)s`	|log的名字
pathname	|`%(pathname)s`	|报错文件所在path
process	|`%(process)d`	|进程id
processName	|`%(processName)s`	|进程名
relativeCreated	|`%(relativeCreated)d`	|微秒级的报错时间
thread	|`%(thread)d`	|线程id
threadName	|`%(threadName)s`|线程名

### 日志回滚

日志也不是一直记录就好,也要考录时效性和存储空间的限制,回滚机制便是解决这个问题的

In [6]:
from logging.handlers import RotatingFileHandler
#定义一个RotatingFileHandler，最多备份5个日志文件，每个日志文件最大10M
Rthandler = RotatingFileHandler('src/myapp.log', maxBytes=10*1024*1024,backupCount=5)
Rthandler.setLevel(logging.INFO)
formatter = logging.Formatter('%(name)-12s: %(levelname)-8s %(message)s')
Rthandler.setFormatter(formatter)
logging.getLogger('').addHandler(Rthandler)

### 几种handler

+ StreamHandler(stream=None) 
    流输出
    
+ FileHandler(filename, mode='a', encoding=None, delay=False)
    写入文件
    
+ WatchedFileHandler(filename[, mode[, encoding[, delay]]])
    监控log文件
    
+ RotatingFileHandler(filename, mode='a', maxBytes=0, backupCount=0, encoding=None, delay=0)
    轮替日志,根据日志文件的大小来循环
    
+ TimedRotatingFileHandler(filename, when='h', interval=1, backupCount=0, encoding=None, delay=False, utc=False, atTime=None)
    轮替日志,根据时间来循环,interval参数可选的值有:
    + "S"-Seconds
    + 'M'-Minutes
    + 'H'-Hours
    + 'D'-Days
    + 'W0'~'W6'-Weekday (0=Monday)
    + 'midnight'-半夜循环
    
+ SocketHandler(host, port)
    把log送到网上的socket

+ DatagramHandler(host, port)
    把log送到网上的UDP sockets

+ SysLogHandler(address=('localhost', SYSLOG_UDP_PORT), facility=LOG_USER, socktype=socket.SOCK_DGRAM)
    log送到unix系统log
    
+ SMTPHandler(mailhost, fromaddr, toaddrs, subject, credentials=None, secure=None, timeout=1.0)
    log送到电子邮箱
    
+ MemoryHandler(capacity, flushLevel=ERROR, target=None)
    log存入内存
    
+ HTTPHandler(host, url, method='GET', secure=False, credentials=None, context=None)
    log通过http网络送到服务器

### 使用设置文件设置logging行为

当然可以在程序中设置log了,但为了改起来方便也可以写在别的文件中然后用`config.fileConfig(path)`来设置,配置文件的形式是这样:

```
[loggers]
keys=root,simpleExample

[handlers]
keys=consoleHandler

[formatters]
keys=simpleFormatter

[logger_root]
level=DEBUG
handlers=consoleHandler

[logger_simpleExample]
level=DEBUG
handlers=consoleHandler
qualname=simpleExample
propagate=0

[handler_consoleHandler]
class=StreamHandler
level=DEBUG
formatter=simpleFormatter
args=(sys.stdout,)

[formatter_simpleFormatter]
format=%(asctime)s - %(name)s - %(levelname)s - %(message)s
datefmt=%a, %d %b %Y %H:%M:%S
    
```

要注意的是如果用这种方式那么,使用`rotation file handler `时，不要同时声明` file handler`，否则` rotation `发生时，`doRollover` 函数的` os.rename` 会报错(「另一个程序正在使用此文件，进程无法访问).当然,可以写另一个py文件专门用来初始化,要用的时候`import`进来就好了.

## 项目测试

python的测试相关框架比较多比较杂,我们这边只讲个人认为最通用的单元测试框架和相关扩展.

python标准库中自带了unittest框架以用来做单元测试.

使用 unittest 的标准流程为：

+ 从 unittest.TestCase 派生一个子类
+ 在类中定义各种以 `"test_"` 打头的方法
+ 通过 unittest.main() 函数来启动测试

unittest可以有这些参数:

+ -v 测试的详细信息
+ -f 出错就停
+ -c 可以用ctrol+c停止,并出结果
+ -b 运行时结果存到stderr和stdout里
+ -s 指定文件夹
+ -t 指定模块
+ -p 模式匹配要测试的文件

unittest 的一个很有用的特性是 TestCase 的 setUp() 和 tearDown() 方法，这种方法统称"钩子"它们提供了为测试进行准备和扫尾工作的功能，听起来就像上下文管理器一样。这种功能很适合用在测试对象需要复杂执行环境的情况下。 

### 基本用法

In [None]:
%%writefile src/C1/func_oper_unitest.py
#!/usr/bin/env python

"""\
这里可以写用到多个函数的

"""
from functools import reduce
from operator import mul,add

def multiply(*args):
    """\
    这里可以写单元测试
    >>> multiply(2,3)
    6
    >>> multiply('baka~',3)
    'baka~baka~baka~'
    """
    return reduce(mul,args)

def summing(*args):
    """\
    这里可以写单元测试
    >>> summing(2,3)
    5
    >>> summing(2,3,4)
    9
    """
    return reduce(add,args)


In [None]:
%%writefile src/C1/test_my.py
#!/usr/bin/env python
# -*- coding:utf-8 -*-
import unittest
    
from func_oper_unitest import multiply,summing

class Test_mul(unittest.TestCase):
    def setUp(self):
        pass
    def test_number_3_4(self):
        self.assertEqual(multiply(3,4),12)
    def test_string_a_3(self):
        self.assertEqual(multiply('a',3),'aaa')
        
class Test_sum(unittest.TestCase):
    def setUp(self):
        pass
    def test_number_3_4(self):
        self.assertEqual(summing(3,4),7)
    def test_number_3_4_5(self):
        self.assertEqual(summing(3,4,5),12)
class TestCase1(unittest.TestCase):
    def setUp(self):
        pass
    def test_sum_mul_2_3_mul_2_3(self):
        self.assertEqual(summing(multiply(2,3),multiply(2,3)),12)

if __name__ == '__main__':
    unittest.main()


In [None]:
!python -m unittest discover -v -s ./src

### 详解钩子

### 断言

### 跳过测试和预期故障

### 分组测试

### 使用分测验区分测试迭代

### mock测试

### 回归测试

### 测试覆盖率

## 文档生成

pydoc是python自带的文档生成器,它可以读取代码中的docstring,自动的生成文档.

它的使用方式非常简单

```shell
!python -m pydoc <packagename>
```

+ -k 查找关键字
+ -p 用localhost打开网页版,后面填端口号
+ -g GUI版
+ -w 生成html文件

## sphinx-autodoc

pydoc虽然方便,但实话说样式比较老旧,而且可定制性不强,现在的python包一般都用sphinx做文档,sphinx其实也是利用autodoc,结合docstring和规范化的文档格式,可以实现非常美观的项目文档.具体可以看[我的这篇博文](http://blog.hszofficial.site/2016/11/29/%E4%BD%BF%E7%94%A8sphinx%E7%BB%93%E5%90%88markdown%E5%86%99%E9%A1%B9%E7%9B%AE%E6%96%87%E6%A1%A3/)

## 包分发

### 包安装模块(setuptools)

python在有pip之前都是下载到本地后使用setuptools来安装第三方模块的,
即便到了今天,这个依然是python包必用的工具.

### 用setuptools编写安装脚本

安装脚本`setup.py`就类似npm的`package.json`,它负责设定包的基本信息和依赖
setup.py:

```python
from distutils.core import setup

with open('requirements.txt') as f:
    required = f.read().splitlines()
"""
name--项目名
version--版本
author--作者
author_email--作者email
packages--要安装的包,一个列表,每个元素为包名字的字符串
package_data--包数据,一个字典,元素为包名:数据所在文件夹及文件
url--项目地址
license--协议
description--描述
long_description--open('readme.md').read(),文件
install_requires--依赖库
scripts--可以直接执行的文件,一个元素为脚本地址的列表
"""
setup(
    name='<pkgname>',
    version='0.1.2',
    author='<author>',
    author_email='<email>',
    packages=['pkgpath'],
    package_data={"pkgdata": ["source/*.json"]},
    url='url',
    license='MIT',
    description='some-description',
    long_description=open('README.txt').read(),
    install_requires=required,
    )
```


安装只要

    python setup.py install
    



### 将包注册到pypi服务器

1. 首先要有个pypi的账号,<https://pypi.python.org/pypi>可以选Register注册,注册的时候password必须大于16位,PGPkeyID可以不填.
表单提交好后登入邮箱验证即可注册完成.

2. 注册包

    cd到 项目根目录

        python setup.py register

    用刚才注册的信息来注册本台电脑

    注意直接这样会有可能报错,因为和原来有个名字太接近了.

    我们应该先检查下名字

        pip search <pkgname>

    用来查看有哪些相关的包,我们得确定没有重名

3. 然后就是上传

        Python setup.py sdist upload

4. 试试行不行

        pip install <pkgname>




### 使用wheel分发包

### 使用zipapp打包应用