# 更多python基本概念

本文内容主要包括 模块与包、函数式编程、面向对象编程、异常、调试、日志、测试、代码文档等方面的基本概念。

## 模块与包

本节内容主要参考 [Python Modules and Packages – An Introduction](https://realpython.com/python-modules-packages/#python-modules-overview)

Python模块和Python包，是两种促进模块化编程的机制。

模块化编程指的是将一个庞大的、笨重的编程任务分解成独立的、更小的、更容易管理的子任务或模块的过程。然后，各个模块可以像积木一样拼凑起来，创建一个更大的应用程序。

在一个大型的应用程序中，将代码模块化有几个好处。

- 简单性。一个模块通常专注于问题的一个相对较小的部分，而不是关注手头的整个问题。如果你在一个单一的模块上工作，你就会有一个较小的问题域来约束你的头脑。这使得开发更容易，更不容易出错。
- 可维护性。模块通常被设计成在不同的问题域之间执行逻辑边界。如果模块的编写方式能最大限度地减少相互依赖性，那么对单个模块的修改就会对程序的其他部分产生影响的可能性就会降低。(你甚至可以在不了解某个模块以外的应用程序的情况下对该模块进行修改）。) 这使得由许多程序员组成的团队在一个大型的应用程序上协同工作更加可行。
- 可重用性。在单个模块中定义的函数可以很容易地被应用程序的其他部分重用（通过一个适当的定义的接口）。这消除了重复代码的需要。
- 范围性。模块通常定义一个单独的命名空间，这有助于避免程序不同区域的标识符之间的冲突。(Python 禅原则之一是命名空间是一个伟大的想法--让我们做更多这样的事情！)

函数、模块和包都是 Python 中促进代码模块化的结构。

### 模块简介

实际上有三种不同的方式来定义 Python 中的模块。

- 模块可以在 Python 中编写。
- 模块可以用 C 语言编写，在运行时动态加载，比如 re ([正则表达式](https://realpython.com/regex-python/)) 模块。
- 一个built-in 内置 模块是内在地包含在解释器中的，像 [itertools 模块](https://realpython.com/python-itertools/)。

在这三种情况下，访问模块内容的方式是相同的：使用import 导入语句。

本节重点是 Python 写的模块。用 Python 编写的模块构建非常简单明了。所需要做的就是创建一个包含合法 Python 代码的文件，然后给这个文件起一个以 .py 为扩展名的名字。就这样! 

例如，创建的 simple.py的文件，其中有一个函数，那么我们就能直接导入 simple，并使用这个函数

In [1]:
import simple
simple.simple_function()

'You have called simple_function'

### 模块搜索路径

继续上面的例子，让我们看看当 Python 执行语句时会发生什么。

当解释器执行上述import语句时，它会在从以下来源构成的目录列表中搜索 simple.py。

- 运行输入脚本的目录，如果解释器是以交互方式运行的，则为当前目录
- [PYTHONPATH](https://docs.python.org/3/using/cmdline.html#envvar-PYTHONPATH)环境变量中包含的目录列表，如果它被设置了。(PYTHONPATH的格式取决于操作系统，但应该模仿PATH环境变量。)
- 在安装 Python 时配置的一个与安装有关的目录列表。

产生的搜索路径可以在Python变量sys.path中访问，该变量从一个名为sys的模块中获得。

In [2]:
import sys
sys.path

['D:\\code\\hydrus\\1-learn-python',
 'C:\\Users\\hust2\\miniconda3\\envs\\hydrus\\python310.zip',
 'C:\\Users\\hust2\\miniconda3\\envs\\hydrus\\DLLs',
 'C:\\Users\\hust2\\miniconda3\\envs\\hydrus\\lib',
 'C:\\Users\\hust2\\miniconda3\\envs\\hydrus',
 '',
 'C:\\Users\\hust2\\miniconda3\\envs\\hydrus\\lib\\site-packages',
 'C:\\Users\\hust2\\miniconda3\\envs\\hydrus\\lib\\site-packages\\win32',
 'C:\\Users\\hust2\\miniconda3\\envs\\hydrus\\lib\\site-packages\\win32\\lib',
 'C:\\Users\\hust2\\miniconda3\\envs\\hydrus\\lib\\site-packages\\Pythonwin']

注意：sys.path的确切内容与安装有关。上述内容在你的电脑上几乎肯定会略有不同。

因此，为了确保模块被找到，需要做以下工作之一。

- 把 simple.py放在输入脚本所在的目录下，如果是交互式，则放在当前目录下
- 在启动解释器之前，修改PYTHONPATH环境变量以包含 simple.py所在的目录
    - 或者：将 simple.py放在PYTHONPATH变量中已经包含的某个目录中
- 将 simple.py放在一个与安装有关的目录中，根据操作系统的不同，你可能有也可能没有写权限。

实际上还有一个额外的选择：可以把模块文件放在你选择的任何目录中，然后在运行时修改sys.path，使其包含该目录。例如，在这种情况下，你可以把 simple.py放在C:\Users\owen 目录下，然后发出以下语句。

In [3]:
sys.path.append(r'C:\Users\owen')
sys.path

['D:\\code\\hydrus\\1-learn-python',
 'C:\\Users\\hust2\\miniconda3\\envs\\hydrus\\python310.zip',
 'C:\\Users\\hust2\\miniconda3\\envs\\hydrus\\DLLs',
 'C:\\Users\\hust2\\miniconda3\\envs\\hydrus\\lib',
 'C:\\Users\\hust2\\miniconda3\\envs\\hydrus',
 '',
 'C:\\Users\\hust2\\miniconda3\\envs\\hydrus\\lib\\site-packages',
 'C:\\Users\\hust2\\miniconda3\\envs\\hydrus\\lib\\site-packages\\win32',
 'C:\\Users\\hust2\\miniconda3\\envs\\hydrus\\lib\\site-packages\\win32\\lib',
 'C:\\Users\\hust2\\miniconda3\\envs\\hydrus\\lib\\site-packages\\Pythonwin',
 'C:\\Users\\owen']

可以看到该路径已经被加入到sys.path中。

一旦一个模块被导入，你可以通过模块的 \_\_file\_\_ 属性来确定它被发现的位置。

In [4]:
import simple
simple.__file__

'D:\\code\\hydrus\\1-learn-python\\simple.py'

\_\_file\_\_ 的目录部分应该是sys.path中的一个目录。

### import 语句

模块的内容通过 import 语句被提供给调用者。import 语句有许多不同的形式，如下所示。

#### import \<module_name\> 

这是最简单的形式

请注意，这并不能使模块内容被调用者直接访问。每个模块都有自己的私有符号表（就是模块中的成员），它作为模块中定义的所有对象的全局符号表。因此，如前所述，一个模块创建了一个单独的命名空间。

import <module_name>语句只将<module_name>放在调用者的符号表中。在模块中定义的对象仍然在模块的私有符号表中。

从调用者那里，模块中的对象只有在通过点符号以<module_name>为前缀时才能被访问。

#### from \<module_name\> import \<name(s)\>

import语句的这种形式允许将模块中的单个对象直接导入到调用者的符号表中。这也就能直接使用 names(s) 了

In [5]:
from simple import simple_function
simple_function()

'You have called simple_function'

因为这种形式的导入将对象名称直接放入调用者的符号表，任何已经存在的同名对象将被覆盖。

可以一次性导入所有对象，这将把<module_name>中所有对象的名称放入本地符号表，但任何以下划线（\_）字符开头的对象除外。

```Python
from <module_name> import *
```

在大规模生产代码中不一定推荐这样做。这有点危险，因为你正在向本地符号表大量输入名字。除非你对它们都很熟悉，并确信不会有冲突，否则你有很大的机会无意中覆盖了一个现有的名字。然而，当你只是为了测试或探索目的而在交互式解释器上打转时，这种语法是相当方便的，因为它可以让你快速访问一个模块所提供的一切，而不需要大量的输入。

#### from \<module_name\> import \<name\> as \<alt_name\>

也可以导入单个对象，但用替代名称将其输入本地符号表。

#### import \<module_name\> as \<alt_name\>

也可以给module 别名

模块内容可以从一个函数定义中导入。在这种情况下，在函数被调用之前，导入不会发生。比如：

```Python
def bar():
...     from mod import foo
...     foo('corge')
```

### 包

假设你已经开发了一个非常大的应用程序，包括许多模块。随着模块数量的增加，如果把它们倾倒在一个地方，就很难对它们进行跟踪。如果它们有类似的名字或功能，情况就更是如此。你可能希望有一种方法来分组和组织它们。

包允许使用点符号对模块名称空间进行分层结构。就像模块有助于避免全局变量名称之间的冲突一样，包也有助于避免模块名称之间的冲突。

创建一个包是非常简单的，因为它利用了操作系统固有的分层文件结构。考虑一下下面的安排。

![](pictures/pkg1.9af1c7aea48f.png)

这里，有一个名为pkg的目录，包含两个模块，mod1.py和mod2.py。

鉴于这种结构，如果 pkg 目录位于可以找到的位置（在 sys.path 中包含的某个目录中），你可以用点符号（pkg.mod1, pkg.mod2）来引用这两个模块，用上面介绍的语法导入它们

In [6]:
import pkg.mod1, pkg.mod2

In [7]:
pkg.mod1.foo()

[mod1] foo()


### 包初始化

如果一个名为 \_\_init\_\_.py 的文件存在于包的目录中，当包或包中的一个模块被导入时，它将被调用。这可以用于执行包的初始化代码，例如包级数据的初始化。

例如，考虑下面的 \_\_init\_\_.py 文件。

```Python
A = ['quux', 'corge', 'grault']
```

In [8]:
import pkg
pkg.A

['quux', 'corge', 'grault']

如果包下有子包，导入就加.，比如，如果pkg下有子包 sub_pkg1：

```Python
import pkg.sub_pkg1.mod1
```

## 函数式编程

函数式编程思想更接近数学计算，是一种抽象程度很高的编程范式，纯粹的函数式编程语言编写的函数没有变量，因此任意一个函数只要输入是确定的，输出就是确定的。python允许使用变量，所以不是纯函数式编程语言。

函数式编程的一个特点就是允许把函数本身作为参数传入另一个函数，还允许返回一个函数。比如：

In [9]:
def add(x, y, f):
    return f(x) + f(y)

print(add(-5, 6, abs))

11


### 一些高阶函数

python内建了map和reduce函数。

map()函数接收两个参数，**一个是函数，一个是Iterable**，map将传入的函数**依次作用到序列的每个元素**，并把结果作为新的Iterator返回。

map()作为高阶函数，事实上它把运算规则抽象了.

In [10]:
def f(x):
    return x * x

r = map(f, [1, 2, 3, 4, 5, 6, 7, 8, 9])
list(r)

[1, 4, 9, 16, 25, 36, 49, 64, 81]

reduce函数类似于迭代积累的效果。

In [11]:
from functools import reduce
def fn(x, y):
    return x * 10 + y

def char2num(s):
    digits = {'0': 0, '1': 1, '2': 2, '3': 3, '4': 4, '5': 5, '6': 6, '7': 7, '8': 8, '9': 9}
    return digits[s]

reduce(fn, map(char2num, '13579'))

13579

上式可以整理为如下形式。

In [12]:
from functools import reduce

DIGITS = {'0': 0, '1': 1, '2': 2, '3': 3, '4': 4, '5': 5, '6': 6, '7': 7, '8': 8, '9': 9}

def str2int(s):
    def fn(x, y):
        return x * 10 + y
    def char2num(s):
        return DIGITS[s]
    return reduce(fn, map(char2num, s))

python的filter()函数可以用于过滤序列。和map()类似，filter()也接收一个函数和一个序列。和map()不同的是，filter()把传入的函数依次作用于每个元素，然后根据返回值是True还是False决定保留还是丢弃该元素。

In [13]:
def is_odd(n):
    return n % 2 == 1

list(filter(is_odd, [1, 2, 4, 5, 6, 9, 10, 15]))

[1, 5, 9, 15]

### 闭包

闭包概念：在一个内部函数中，对外部作用域的变量进行引用，(并且一般外部函数的返回值为内部函数)，那么内部函数就被认为是闭包。比如：

In [14]:
def outer():
    var = 3

    def inner():
        print("the func is used: var=" + str(var))

    return inner

以上，函数inner和自有变量var的“引用”共同构成了闭包。var对于inner来说是自由变量。在一个内部函数中，对外部作用域的变量进行引用，并且外部函数的返回值为内部函数，那么内部函数就被认为是闭包。

闭包的作用是可以保存当前的运行环境。

In [15]:
def create(pos=[0, 0]):
    def go(direction, step):
        new_x = pos[0] + direction[0] * step
        new_y = pos[1] + direction[1] * step
        pos[0] = new_x
        pos[1] = new_y
        return pos

    return go


player = create()
print(player([1, 0], 10))
print(player([0, 1], 20))
print(player([-1, 0], 10))

[10, 0]
[10, 20]
[0, 20]


闭包可以帮助实现lazy的运算。比如求和，不需要立刻求和，而是在调用之后再求和。

In [16]:
def lazy_sum(*args):
    def sum():
        ax = 0
        for n in args:
            ax = ax + n
        return ax
    return sum

f = lazy_sum(1, 3, 5, 7, 9)
f

<function __main__.lazy_sum.<locals>.sum()>

In [17]:
f()

25

### 匿名函数

当我们在传入函数时，有些时候，不需要显式地定义函数，直接传入匿名函数更方便。

在Python中，对匿名函数提供了有限支持。还是以map()函数为例，计算f(x)=x2时，除了定义一个f(x)的函数外，还可以直接传入匿名函数：

In [18]:
list(map(lambda x: x * x, [1, 2, 3, 4, 5, 6, 7, 8, 9]))

[1, 4, 9, 16, 25, 36, 49, 64, 81]

关键字lambda表示匿名函数，冒号前面的x表示函数参数。匿名函数有个限制，就是只能有一个表达式，不用写return，返回值就是该表达式的结果。

### 回调函数

In [19]:
import time


def apply_async(func, args, *, callback):
    """回调函数的应用，python的函数很灵活，可以直接做函数参数"""
    # Compute the result
    result = func(*args)

    # Invoke the callback with the result
    callback(result)


def print_result(result):
    print('Got:', result)


def add(x, y):
    return x + y


apply_async(add, (2, 3), callback=print_result)

apply_async(add, ('hello', 'world'), callback=print_result)

Got: 5
Got: helloworld


### 列表生成式

迭代稍微说一下：python的for循环抽象程度是很高的，可以作用于任何可迭代对象上。比如dict的遍历，默认情况下，dict迭代的是key。如果要迭代value，可以用for value in d.values()，如果要同时迭代key和value，可以用for k, v in d.items()。

然后再补充一些常用的内置函数。

In [20]:
d = {'a': 1, 'b': 2, 'c': 3}
for key in d:
    print(key)

a
b
c


对list也可以实现类似Java那样的下标循环，Python内置的enumerate函数可以把一个list变成索引-元素对，这样就可以在for循环中同时迭代索引和元素本身：

In [21]:
seq = ['one', 'two', 'three']
for i, element in enumerate(seq):
    print(i, element)

0 one
1 two
2 three


python还有一个很强大的列表生成式，直接看代码：

In [22]:
[x * x for x in range(1, 11)]

[1, 4, 9, 16, 25, 36, 49, 64, 81, 100]

for循环后面还可以加上if判断：

In [23]:
[x * x for x in range(1, 11) if x % 2 == 0]

[4, 16, 36, 64, 100]

通过列表生成式，我们可以直接创建一个列表。但是，受到内存限制，列表容量肯定是有限的。而且，创建一个包含100万个元素的列表，不仅占用很大的存储空间，如果我们仅仅需要访问前面几个元素，那后面绝大多数元素占用的空间都白白浪费了。

所以，如果列表元素可以按照某种算法推算出来，那我们是否可以**在循环的过程中不断推算出后续的元素**呢？这样就不必创建完整的list，从而节省大量的空间。在Python中，这种**一边循环一边计算的机制，称为生成器**：generator。只要把一个列表生成式的[]改成()，就创建了一个generator。

generator保存的是算法，每次调用next(g)，就计算出g的下一个元素的值，直到计算到最后一个元素。

In [24]:
g = (x * x for x in range(10))
g
for n in g:
    print(n)

0
1
4
9
16
25
36
49
64
81


而可以**被next()函数调用并不断返回下一个值的对象称为迭代器**：Iterator。

接下来补充一些常用的内置函数，主要跟迭代运算等相关。利用内置函数，可以有较快的运算速度。主要参考了[python 3 教程](https://www.runoob.com/python3/python3-tutorial.html)

all()函数也是一个常用的内置函数，用于判断给定的可迭代参数 iterable 中的所有元素是否都为 TRUE，如果是返回 True，否则返回 False。函数等价于：

``` python
def all(iterable):
    for element in iterable:
        if not element:
            return False
    return True
```

all()函数语法：all(iterable)

In [25]:
all(['a', 'b', 'c', 'd'])  # 列表list，元素都不为空或0

True

In [26]:
all([0, 1,2, 3])          # 列表list，存在一个为0的元素

False

zip() 函数用于将可迭代的对象作为参数，**将对象中对应的元素打包成一个个元组**，然后返回由这些元组组成的对象，这样做的好处是节约了不少的内存。zip就是解压，所以有时候会在python中说到解压，不是指的文件那个解压，而是这个zip函数的反向操作，即从一个序列里把数据分离。

In [27]:
a = [1,2,3]
b = [4,5,6]
c = [4,5,6,7,8]
zipped = zip(a,b)     # 返回一个对象
print(zipped)
print("list of zipped tuples:",list(zipped) )
print("list of zipped tuples:",list(zip(a,c))  )

<zip object at 0x00000225E9500DC0>
list of zipped tuples: [(1, 4), (2, 5), (3, 6)]
list of zipped tuples: [(1, 4), (2, 5), (3, 6)]


In [28]:
# 与 zip 相反，zip(*) 可理解为解压，返回二维矩阵式
a1, a2 = zip(*zip(a,b)) 
print(list(a1))
print(list(a2))

[1, 2, 3]
[4, 5, 6]


### 函数重载

python是不支持直接进行函数重载的，不过python允许参数注解。利用它可以简单实现基于类型的方法重载。

In [29]:
class Spam:
    def bar(self, x:int, y:int):
        print('Bar 1:', x, y)

    def bar(self, s:str, n:int = 0):
        print('Bar 2:', s, n)

s = Spam()
s.bar(2, 3) # Prints Bar 1: 2 3
s.bar('hello') # Prints Bar 2: hello 0

Bar 2: 2 3
Bar 2: hello 0


但是对于一般的函数重载会稍微麻烦一些，需要利用一些小技巧，这里给出一个参考资料：[Python 函数如何重载？](https://juejin.im/post/5cbcf38bf265da03af27d327)，就暂时不赘述了。

个人认为既然python不支持，那就尽量避免吧，直接换个名，或者用下if else也不是多大的事情。

## 面向对象编程

### 基本概念

Python中，所有数据类型都可以视为对象，当然也可以自定义对象。自定义的对象数据类型就是面向对象中的类（Class）的概念。

Python中类名一般首字母大写。创建实例通过类名+括号即可实现。

定义类中的方法第一个参数是self，其他的就和普通函数是一样的了。调用函数时，self不用传入实参，剩下的和普通函数一样。

In [30]:
class Student(object):

    def __init__(self, name, score):
        self.name = name
        self.score = score

    def print_score(self):
        print('%s: %s' % (self.name, self.score))
        
bart = Student('Bart Simpson', 59)
lisa = Student('Lisa Simpson', 87)
bart.print_score()
lisa.print_score()

Bart Simpson: 59
Lisa Simpson: 87


In [31]:
class Student(object):
    def __init__(self, name, score):
        self.name = name
        self.score = score

    def get_grade(self):
        if self.score >= 90:
            return 'A'
        elif self.score >= 60:
            return 'B'
        else:
            return 'C'

lisa = Student('Lisa', 99)
bart = Student('Bart', 59)
print(lisa.name, lisa.get_grade())
print(bart.name, bart.get_grade())

Lisa A
Bart C


python中可以设置私有变量，用双下划线前置命名变量即可。私有变量是无法从外部访问的，比如下面代码最后一句是会报错的。不过和java一样，也是可以通过设置get/set方法来实现外部变量的访问。

In [32]:
class Student(object):

    def __init__(self, name, score):
        self.__name = name
        self.__score = score

    def print_score(self):
        print('%s: %s' % (self.__name, self.__score))
        
    def get_name(self):
        return self.__name

    def get_score(self):
        return self.__score
    
    def set_score(self, score):
        if 0 <= score <= 100:
            self.__score = score
        else:
            raise ValueError('bad score')
        
bart = Student('Bart Simpson', 59)
print(bart.get_name())
bart.__name

Bart Simpson


AttributeError: 'Student' object has no attribute '__name'

python的面向对象和java有所不同。python是一种动态编程语言，根据[动态语言与鸭子类型](https://juejin.im/post/59ae5865f265da249517b484)一文所述，动态语言就是只有等到程序运行时才知道一切，变量（严格来说叫名字，就像人的名字一样）不需要指定类型，变量本身没有任何类型信息，类型信息在对象身上，对象是什么类型，必须等到程序运行时才知道，动态类型语言的优点在于方便阅读，不需要写很多类型相关的代码；缺点是不方便调试，命名不规范时会造成读不懂，不利于理解等。

动态语言中经常提到鸭子类型，所谓鸭子类型就是：如果所有数据类型都可以视为对象，当然也可以自定义对象。自定义的对象数据类型就是面向对象中的类（Class）的概念。走起路来像鸭子，叫起来也像鸭子，那么它就是鸭子（If it walks like a duck and quacks like a duck, it must be a duck）。鸭子类型是编程语言中动态类型语言中的一种设计风格，一个对象的特征不是由父类决定，而是通过对象的方法决定的。

In [None]:
# python3
class Foo:
    def __iter__(self):
        pass

    def __next__(self):
        pass

from collections.abc import Iterable
from collections.abc import Iterator

print(isinstance(Foo(), Iterable)) # True
print(isinstance(Foo(), Iterator)) # True

我们并不需要继承 Iterator 就可以实现迭代器的功能。当有一函数希望接收的参数是 Iterator 类型时，但是我们传递的是 Foo 的实例对象，其实也没问题，换成是Java等静态语言，就必须传递 Iterator或者是它的子类。鸭子类型通常得益于"不"测试方法和函数中参数的类型，而是依赖文档、清晰的代码和测试来确保正确使用，这既是优点也是缺点，缺点是需要通过文档才能知道参数类型，为了弥补这方面的不足，Python3.6引入了类型信息，定义变量的时候可以指定类型

In [33]:
def greeting(name: str) -> str:
    """该函数表示接收str类型的参数，并返回str类型的值"""
    return 'Hello ' + name

接下来简要了解python内置类属性，参考[Python中常见几个内置类属性](https://www.jianshu.com/p/b23e1a1c4026)，创建一个类之后，系统就自带了一些属性，叫内置类属性。

常见的内置类属性

1. __dict____ : 类的属性（包含一个字典，由类的数据属性组成）
2. __doc____ : 类的文档字符串
3. __name____: 类名
4. __module____: 类定义所在的模块（类的全名是'__main____.className'，如果类位于一个导入模块mymod中，那么className.__module____ 等于 mymod）
5. ____bases____ : 类的所有父类构成元素（包含了一个由所有父类组成的元组）

In [34]:
class Employee:
   '所有员工的基类'
   empCount = 0
 
   def __init__(self, name, salary):
        self.name = name
        self.salary = salary
        Employee.empCount += 1
   
   def displayCount(self):
        print ("Total Employee %d" % Employee.empCount)
 
   def displayEmployee(self):
         print ("Name : ", self.name,  ", Salary: ", self.salary)

print( "Employee.__doc__:", Employee.__doc__)
print( "Employee.__name__:", Employee.__name__)
print ("Employee.__module__:", Employee.__module__)
print ("Employee.__bases__:", Employee.__bases__)
print( "Employee.__dict__:", Employee.__dict__)

Employee.__doc__: 所有员工的基类
Employee.__name__: Employee
Employee.__module__: __main__
Employee.__bases__: (<class 'object'>,)
Employee.__dict__: {'__module__': '__main__', '__doc__': '所有员工的基类', 'empCount': 0, '__init__': <function Employee.__init__ at 0x00000225EAFF0940>, 'displayCount': <function Employee.displayCount at 0x00000225EAFF0B80>, 'displayEmployee': <function Employee.displayEmployee at 0x00000225EAFF0EE0>, '__dict__': <attribute '__dict__' of 'Employee' objects>, '__weakref__': <attribute '__weakref__' of 'Employee' objects>}


### 多重继承

有时候当类的层次复杂时，也会用到多重继承，比如：

In [35]:
class Animal(object):
    pass

class Mammal(Animal):
    pass

class Runnable(object):
    def run(self):
        print('Running...')

class Flyable(object):
    def fly(self):
        print('Flying...')
        
class Dog(Mammal, Runnable):
    pass

class Bat(Mammal, Flyable):
    pass

通过多重继承，一个子类就可以**同时获得多个父类的所有功能**。

在设计类的继承关系时，通常，主线都是单一继承下来的，例如，Ostrich继承自Bird。但是，如果**需要“混入”额外的功能**，通过多重继承就可以实现，比如，让Ostrich除了继承自Bird外，再同时继承Runnable。这种设计通常称之为**MixIn**。

MixIn的目的就是给一个类增加多个功能，这样，在设计类的时候，我们**优先考虑通过多重继承来组合多个MixIn的功能**，而**不是设计多层次**的复杂的继承关系。

### 多态

接下来看看多态的使用，这是继承后，调用子类时常用的东西。

In [36]:
class Animal(object):
    def run(self):
        print('Animal is running...')

class Dog(Animal):
    def run(self):
        print('Dog is running...')

class Cat(Animal):
    def run(self):
        print('Cat is running...')
        
class Human(Animal):
    def think(self):
        print("He/She is thinking")

def run_twice(animal):
    animal.run()
    animal.run()

a = Animal()
d = Dog()
c = Cat()

print('a is Animal?', isinstance(a, Animal))
print('a is Dog?', isinstance(a, Dog))
print('a is Cat?', isinstance(a, Cat))

print('d is Animal?', isinstance(d, Animal))
print('d is Dog?', isinstance(d, Dog))
print('d is Cat?', isinstance(d, Cat))

run_twice(c)

h= Human()
h.run()
h.think()

a is Animal? True
a is Dog? False
a is Cat? False
d is Animal? True
d is Dog? True
d is Cat? False
Cat is running...
Cat is running...
Animal is running...
He/She is thinking


关于__slots__，正常情况下，定义一个class，并创建其实例**后**，可以给实例**绑定任何属性和方法**。

In [37]:
class Student(object):
    pass
s = Student()
s.name = 'Michael' # 动态给实例绑定一个属性
print(s.name)

def set_age(self, age): # 定义一个函数作为实例方法
    self.age = age
from types import MethodType
s.set_age = MethodType(set_age, s) # 给实例绑定一个方法
s.set_age(25) # 调用实例方法
s.age # 测试结果

Michael


25

但是，给一个实例绑定的方法，对另一个实例是不起作用的：

In [38]:
s2 = Student() # 创建新的实例
s2.set_age(25) # 尝试调用方法

AttributeError: 'Student' object has no attribute 'set_age'

为了给所有实例都绑定方法，可以给class绑定方法：

In [39]:
def set_score(self, score):
    self.score = score
Student.set_score = set_score
s.set_score(100)
s.score

100

In [40]:
s2.set_score(99)
s2.score

99

通常情况下，上面的set_score方法可以直接定义在class中，但动态绑定允许我们**在程序运行的过程中动态给class加上功能**，这在静态语言中很难实现。

但是，如果我们想要限制实例的属性怎么办？比如，只允许对Student实例添加name和age属性。

为了达到限制的目的，Python允许在定义class的时候，定义一个特殊的__slots__变量，来限制该class实例能添加的属性：

In [41]:
class Student(object):
    __slots__ = ('name', 'age') # 用tuple定义允许绑定的属性名称
s = Student() # 创建新的实例
s.name = 'Michael' # 绑定属性'name'
s.age = 25 # 绑定属性'age'

In [42]:
s.score = 99 # 绑定属性'score'

AttributeError: 'Student' object has no attribute 'score'

由于'score'没有被放到__slots__中，所以不能绑定score属性，试图绑定score将得到AttributeError的错误。

使用__slots__要注意，__slots__定义的属性仅对当前类实例起作用，对继承的子类是不起作用的：

In [43]:
class GraduateStudent(Student):
    pass
g = GraduateStudent()
g.score = 9999

除非在子类中也定义__slots__，这样，子类实例允许定义的属性就是自身的__slots__加上父类的__slots__。

### 在类中封装属性名

Python程序员**不去依赖语言特性去封装数据**，而是通过**遵循一定的属性和方法命名规约**来达到这个效果。比如：

In [44]:
class A:
    def __init__(self):
        self._internal = 0 # An internal attribute
        self.public = 1 # A public attribute

    def public_method(self):
        '''
        A public method
        '''
        pass

    def _internal_method(self):
        pass

注意Python并不会真的阻止别人访问内部名称。但是如果你这么做肯定是不好的，可能会导致脆弱的代码。同时还要注意到，使用下划线开头的约定同样适用于模块名和模块级别函数。 内部实现的代码要小心使用。在basic-python中提到过，各类"_"的使用带来的不同，这里重复说明下，有时候可能会遇到在类定义中使用两个下划线(__)开头的命名。比如：

In [45]:
class B:
    def __init__(self):
        self.__private = 0

    def __private_method(self):
        pass

    def public_method(self):
        pass
        self.__private_method()

这个时候双下划线的名称会在访问它时，被变成其他形式。比如，在前面的类B中，私有属性会被分别**重命名为 _B__private 和 _B__private_method**。 这时候你可能会问这样重命名的目的是什么，答案就是继承——这种属性通过继承是无法被覆盖的。比如：

In [46]:
class C(B):
    def __init__(self):
        super().__init__()
        self.__private = 1 # Does not override B.__private

    # Does not override B.__private_method()
    def __private_method(self):
        pass

私有名称 __private 和 __private_method 被重命名为 _C __private 和 _C __private_method ，这个跟父类B中的名称是完全不同的。

### 定义接口或抽象基类

定义一个接口或抽象类，并且通过执行类型检查来确保子类实现了某些特定的方法。使用 abc 模块可以很轻松的定义抽象基类。不过目前个人建议在实际编程中还是尽量先规避一些设计模式，看看从流程上能不能简化自己代码的pipeline，这样是更容易的方法，anyway，这里回到接口再看看。抽象类的目的就是让别的类继承它并实现特定的抽象方法：

In [47]:
from abc import ABCMeta, abstractmethod

class IStream(metaclass=ABCMeta):
    @abstractmethod
    def read(self, maxbytes=-1):
        pass

    @abstractmethod
    def write(self, data):
        pass

In [48]:
class SocketStream(IStream):
    def read(self, maxbytes=-1):
        pass

    def write(self, data):
        pass

抽象基类的一个主要用途是在代码中检查某些类是否为特定类型，实现了特定接口：

In [49]:
def serialize(obj, stream):
    if not isinstance(stream, IStream):
        raise TypeError('Expected an IStream')
    pass

## 错误、调试、日志和测试

程序运行的错误有多种。其中有一类是完全无法在程序运行过程中预测的，比如从网络抓取数据，网络突然断掉了，这类错误也称为异常，在程序中通常是必须处理的，否则，程序会因为各种问题终止并退出。

Python内置了一套异常处理机制，来帮助我们进行错误处理。

此外，我们也需要跟踪程序的执行，查看变量的值是否正确，这个过程称为调试。Python的pdb可以让我们以单步方式执行代码。

### 错误处理

一般错误处理机制是try...except...finally...

In [50]:
try:
    print('try...')
    r = 10 / 0
    print('result:', r)
except ZeroDivisionError as e:
    print('except:', e)
finally:
    print('finally...')
print('END')

try...
except: division by zero
finally...
END


错误应该有很多种类，如果发生了不同类型的错误，应该由不同的except语句块处理。没错，可以有多个except来捕获不同类型的错误：

In [51]:
try:
    print('try...')
    r = 10 / int('a')
    print('result:', r)
except ValueError as e:
    print('ValueError:', e)
except ZeroDivisionError as e:
    print('ZeroDivisionError:', e)
finally:
    print('finally...')
print('END')

try...
ValueError: invalid literal for int() with base 10: 'a'
finally...
END


Python的错误其实也是class，所有的错误类型都继承自BaseException，所以在使用except时需要注意的是，它不但捕获该类型的错误，还把其子类也“一网打尽”。比如：

``` python
try:
    foo()
except ValueError as e:
    print('ValueError')
except UnicodeError as e:
    print('UnicodeError')
```

第二个except永远也捕获不到UnicodeError，因为UnicodeError是ValueError的子类，如果有，也被第一个except给捕获了。

常见的错误类型和继承关系看[这里](https://docs.python.org/3/library/exceptions.html#exception-hierarchy)。

使用try...except捕获错误还有一个巨大的好处，就是可以跨越多层调用，比如函数main()调用foo()，foo()调用bar()，结果bar()出错了，这时，只要main()捕获到了，就可以处理

In [52]:
def foo(s):
    return 10 / int(s)

def bar(s):
    return foo(s) * 2

def main():
    try:
        bar('0')
    except Exception as e:
        print('Error:', e)
    finally:
        print('finally...')

如果错误没有被捕获，它就会一直往上抛，最后被Python解释器捕获，打印一个错误信息，然后程序退出。

In [53]:
# err.py:
def foo(s):
    return 10 / int(s)

def bar(s):
    return foo(s) * 2

def main():
    bar('0')

main()

ZeroDivisionError: division by zero

出错并不可怕，**可怕的是不知道哪里出错了**。解读错误信息是定位错误的关键。根据上述信息－－错误类型ZeroDivisionError，我们判断，int(s)本身并没有出错，但是int(s)返回0，在计算10 / 0时出错，至此，找到错误源头。

能捕获错误，就可以把错误堆栈打印出来，然后分析错误原因，同时，让程序继续执行下去。

Python内置的logging模块可以非常容易地记录错误信息，同样是出错，但程序打印完错误信息后会继续执行，并正常退出。

In [54]:
# err_logging.py

import logging

def foo(s):
    return 10 / int(s)

def bar(s):
    return foo(s) * 2

def main():
    try:
        bar('0')
    except Exception as e:
        logging.exception(e)

main()
print('END')

ERROR:root:division by zero
Traceback (most recent call last):
  File "C:\Users\hust2\AppData\Local\Temp\ipykernel_19340\860232928.py", line 13, in main
    bar('0')
  File "C:\Users\hust2\AppData\Local\Temp\ipykernel_19340\860232928.py", line 9, in bar
    return foo(s) * 2
  File "C:\Users\hust2\AppData\Local\Temp\ipykernel_19340\860232928.py", line 6, in foo
    return 10 / int(s)
ZeroDivisionError: division by zero


END


如果要抛出错误，首先根据需要，可以定义一个错误的class，选择好继承关系，然后，用raise语句抛出一个错误的实例：

In [55]:
# err_raise.py
class FooError(ValueError):
    pass

def foo(s):
    n = int(s)
    if n==0:
        raise FooError('invalid value: %s' % s)
    return 10 / n

foo('0')

FooError: invalid value: 0

如果想要在同一个error上定制一些信息，参考[这里](https://stackoverflow.com/questions/9157210/how-do-i-raise-the-same-exception-with-a-custom-message-in-python/29442282#29442282)，可以使用raise from 或者 with_traceback：

In [56]:
try:
    1 / 0
except ZeroDivisionError as e:
    raise Exception('Smelly socks') from e

Exception: Smelly socks

In [57]:
try:
    1 / 0
except ZeroDivisionError as e:
    raise Exception('Smelly socks').with_traceback(e.__traceback__)

Exception: Smelly socks

只有在必要的时候才定义我们自己的错误类型。如果可以选择Python已有的内置的错误类型（比如ValueError，TypeError），尽量使用Python内置的错误类型。

### 调试

程序能一次写完并正常运行的概率很小，总会有各种各样的bug需要修正。有的bug很复杂，我们需要知道出错时，哪些变量的值是正确的，哪些变量的值是错误的，因此，需要一整套调试程序的手段来修复bug。

简单直接粗暴有效，就是用print()把可能有问题的变量打印出来看看。用print()最大的坏处是将来还得删掉它，想想程序里到处都是print()，运行结果也会包含很多垃圾信息。

所以，又有第二种方法：凡是用print()来辅助查看的地方，都可以用**断言（assert）**来替代。

In [58]:
def foo(s):
    n = int(s)
    assert n != 0, 'n is zero!'
    return 10 / n

def main():
    foo('0')

assert的意思是，表达式n != 0应该是True，否则，根据程序运行的逻辑，后面的代码肯定会出错。

如果断言失败，assert语句本身就会抛出AssertionError.

程序中如果到处充斥着assert，和print()相比也好不到哪去。不过，启动Python解释器时可以用-O参数来关闭assert.

``` bash
$ python -O err.py
```

关闭后，你可以把所有的assert语句当成pass来看。

把print()替换为logging是第3种方式，和assert比，logging不会抛出错误，而且可以输出到文件。另外，虽然用IDE调试起来比较方便，但是最后会发现，logging才是终极武器。

In [59]:
import logging
logging.basicConfig(level=logging.INFO)
s = '0'
n = int(s)
logging.info('n = %d' % n)
print(10 / n)

ZeroDivisionError: division by zero

### 日志

在脚本和程序中将诊断信息写入日志文件。打印日志最简单方式是使用 logging 模块。

这小节的内容主要参考了：

- [python必掌握模块(四）logging模块用法](https://zhuanlan.zhihu.com/p/56968001)
- [Python模块学习之Logging日志模块](https://y4er.com/post/python-logging/)

日志是 学习任何编程语言都有必要掌握的核心模块。因为当把python代码放入到**生产环境**中的时候，我们只能看到代码运行的结果，我们不知道的是代码每一步过程的最终运行状态。

如果代码中间过程出现了问题的话，logging库的引用得出的日志记录可以帮助我们排查程序运行错误步骤的。方便我们修复代码，快速排查问题。

logging模块是Python内置的标准模块，主要用于输出运行日志，可以设置输出日志的等级、日志保存路径、日志文件回滚等；相比print，具备如下优点：

- 可以通过设置不同的日志等级，在release版本中只输出重要信息，而不必显示大量的调试信息：print将所有信息都输出到标准输出中，严重影响开发者从标准输出中查看其它数据；logging则可以由开发者决定将信息输出到什么地方，以及怎么输出
- logging具有更灵活的格式化功能，比如运行时间、模块信息
- print输出都在控制台上，logging可以输出到任何位置，比如文件甚至是远程服务器

logging 的模块结构如下：

- Logger	记录日志时创建的对象，调用其方法来传入日志模板和信息生成日志记录
- Log Record	Logger对象生成的一条条记录
- Handler	处理日志记录，输出或者存储日志记录
- Formatter	格式化日志记录
- Filter	日志过滤器
- Parent Handler	Handler之间存在分层关系

In [60]:
import logging
import sys
logger = logging.getLogger("Your Logger")
logger.setLevel(logging.DEBUG)
# 标准输出流，输出到控制台，用sys.stdout的话，就是输出白色的
# handler = logging.StreamHandler(sys.stdout)
handler = logging.StreamHandler()
formatter = logging.Formatter(fmt='%(asctime)s - %(name)s - %(levelname)s - %(message)s', datefmt='%Y/%m/%d %H:%M:%S')
handler.setFormatter(formatter)
logger.addHandler(handler)

logger.info("this is info msg")
logger.debug("this is debug msg")
logger.warning("this is warn msg")
logger.error("this is error msg")

2022/05/28 21:09:39 - Your Logger - INFO - this is info msg
INFO:Your Logger:this is info msg
2022/05/28 21:09:39 - Your Logger - DEBUG - this is debug msg
DEBUG:Your Logger:this is debug msg
2022/05/28 21:09:39 - Your Logger - ERROR - this is error msg
ERROR:Your Logger:this is error msg


理解下这个例子。首先，创建了一个logger对象，来作为生成日志记录的对象，然后设置输出级别（所有级别低于此级别的日志消息都会被忽略掉）。

logging记录信息的级别有debug，info，warning，error等，当我们指定level=INFO时，logging.debug就不起作用了。同理，指定level=WARNING后，debug和info就不起作用了。这样一来，你可以放心地输出不同级别的信息，也不用删除，最后统一控制输出哪个级别的信息。

接着创建了一个 StramHandler对象来处理日志。

随后创建一个formatter对象来格式化输出日志记录。构造最终的日志消息的时候我们使用了%操作符来格式化消息字符串。

然后把formatter 赋给 handler。

最后handler处理器添加到logger对象，完成整个处理流程。

下面稍作补充解释。

前面说到，设置输出级别时候，低于此级别的消息就被忽略了，低于是怎么判断的？其实logging 的 这些 level 常数是对应特定的整数值的，所以设置logging level的时候，也可以直接使用对应的整数来赋值。

In [61]:
print("logging.DEBUG:",logging.DEBUG)
print("logging.INFO:",logging.INFO)
print("logging.WARNING:",logging.WARNING)
print("logging.ERROR:",logging.ERROR)
print("logging.CRITICAL:",logging.CRITICAL)

logging.DEBUG: 10
logging.INFO: 20
logging.ERROR: 40
logging.CRITICAL: 50


从值上就可以看出来 DEBUG最低，然后依次往上，级别越来越高。

logging 提供的Handler有很多，比如：

- StreamHandler	logging.StreamHandler	日志输出到流，可以是 sys.stderr，sys.stdout 或者文件
- FileHandler	logging.FileHandler	日志输出到文件
- SMTPHandler	logging.handlers.SMTPHandler	远程输出日志到邮件地址
- SysLogHandler	logging.handlers.SysLogHandler	日志输出到syslog
- HTTPHandler	logging.handlers.HTTPHandler	通过”GET”或者”POST”远程输出到HTTP服务器

如果需要设置一个全局的logger以供使用，可以参考：
- https://blog.csdn.net/weixin_42526352/article/details/90242840
- https://blog.csdn.net/brucewong0516/article/details/82817008

这里也给出例子--globalLog.py。

In [62]:
from globalLog import hydro_logger

hydro_logger.info("this is info msg")
hydro_logger.debug("this is debug msg")
hydro_logger.warning("this is warn msg")
hydro_logger.error("this is error msg")

this is warn msg
this is error msg
ERROR:globalLog:this is error msg


### 单元测试

这里简单记录下单元测试unittest，更多测试相关内容后续会补充。

单元测试是用来对一个模块、一个函数或者一个类来进行正确性检验的测试工作。把测试用例放到一个测试模块里，就是一个完整的单元测试。以**测试为驱动的开发模式**最大的好处就是确保一个程序模块的行为符合我们设计的测试用例。在将来修改的时候，可以极大程度地保证该模块行为仍然是正确的。

为了编写单元测试，需要引入Python自带的unittest模块。编写单元测试时，我们需要编写一个测试类，从unittest.TestCase继承。

以**test开头的方法就是测试方法**，不以test开头的方法不被认为是测试方法，测试的时候不会被执行。

对**每一类测试都需要编写一个test_xxx()方法**。由于unittest.TestCase提供了很多**内置的条件判断**，我们只需要调用这些方法就可以断言输出是否是我们所期望的。

- 最常用的断言就是assertEqual();
- 另一种重要的断言就是期待抛出指定类型的Error；
- 通过d.empty访问不存在的key时，我们期待抛出AttributeError等

可以把mydict_test.py当做正常的python脚本运行:

In [64]:
!python mydict_test.py

.....
----------------------------------------------------------------------
Ran 5 tests in 0.000s

OK


另一种方法是在命令行通过参数-m unittest直接运行单元测试，这是推荐的做法，因为这样可以**一次批量运行很多单元测试**，并且，有很多工具可以**自动来运行这些单元测试**。

In [65]:
!python -m unittest mydict_test

.....
----------------------------------------------------------------------
Ran 5 tests in 0.001s

OK


最后补充一点个人对测试的理解。

首先，单元测试并不能代替调试，否则也不需要调试了。测试和调试时两个概念，这部分可以参考这些[post](https://www.zhihu.com/question/24085524)的介绍。

程序运行前要尽量定义好接口，把程序模块化，然后每块之间的耦合不特别高，这样在一个用例下进行测试，每个模块都调试到让自己满意的结果。

这个时候有了一组期待的结果后，就可以针对每个模块编写测试代码了，小到每个函数，大到整个模块。

然后再来就可以修改代码了，每次修改之后，就可以执行测试，看看计算结果是不是合理的。

这样的思路是比较高效的思路。 简而言之，就是得有一个work的case，然后再一点点调试，一点点地测试，看看和期待结果是否一致。这样是最稳的。

另外，可以在单元测试中编写两个特殊的**setUp()和tearDown()** 方法。这两个方法会分别在每调用一个测试方法的前后分别被执行。

setUp()和tearDown()方法有什么用呢？设想你的测试需要启动一个数据库，这时，就可以在setUp()方法中连接数据库，在tearDown()方法中关闭数据库，这样，不必在每个测试方法中重复相同的代码。代码形如：

In [66]:
import unittest
class TestDict(unittest.TestCase):

    def setUp(self):
        print('setUp...')

    def tearDown(self):
        print('tearDown...')

另外，在unttest框架中，testcase中间不共享变量的值，不过有时候需要使用全局变量，如何处理？

如果执行的测试函数有顺序，参考[这里](https://www.programmersought.com/article/76813830678/)，可以这样做：

In [67]:
import unittest
class TestOrder(unittest.TestCase):
    def test_a(self):
        print("test_a")
    def test_z(self):
        print("test_z")
if __name__ == '__main__':
    suite = unittest.TestSuite()
    suite.addTest(TestOrder("test_z"))
    suite.addTest(TestOrder("test_a"))
    runner = unittest.TextTestRunner()
    runner.run(suite)

..
----------------------------------------------------------------------
Ran 2 tests in 0.003s

OK


test_z
test_a


最后，很多文档都有示例代码。Python内置的 **“文档测试”（doctest）模块可以直接提取注释中的代码并执行测试**。

In [69]:
!python mydict2.py

什么输出也没有。这说明我们编写的doctest运行都是正确的。接下来，就看看文档的具体内容。

## python代码文档

本部分主要参考以下资料以帮助了解python中代码文档相关的概念。

- [Documenting Python Code: A Complete Guide](https://realpython.com/documenting-python-code/)

我们都知道代码是有观众的——用户和协作开发者，还有当自己太长时间没碰自己写的代码时，跟看别人的代码也没什么区别了。为了让观众能明白自己的代码在干什么，文档就是必不可少的了。

在开始了解如何写文档前，需要明确两个概念：documenting 和 commenting，即文档和注释

通常来说，注释是指为开发者描述代码的文字，主要的观众是维护者和开发者，和良好的代码一起帮助读者更好地理解代码的设计、目的等。

> “Code tells you how; Comments tell you why.” 
> 
>    — Jeff Atwood (aka Coding Horror)

而文档则是对用户描述代码的用途和功能的，当然它对开发者也是有益的，但更主要的还是为了使用者。

下面先看看如何给自己写的代码写注释。

### 注释

首先，注释的标记是 # 。注释应该简洁明了，比如：

```Python
def hello_world():
    # A simple comment preceding a simple print statement
    print("Hello World")
```

根据 [PEP 8](http://pep8.org/#maximum-line-length)，一行注释不应该多于72个字符，如果超出了，就用多行注释。

注释的目的有：

- 计划和审阅代码：可以帮助自己梳理代码的思路并方便检查
- 描述代码：写清楚代码是怎么实现的对写好代码也是很重要的，尤其是复杂的代码
- 标记：标记未完成的为TODO，有bug为BUG、FIXME等能帮助开发顺利进行

注释应该特别注意简洁聚焦，不要写的太长；注意代码文档化，即代码本身就能起到一定的注释功能；不要用太复杂的形式，否则不好维护；另外python3.5以后，可以明确变量、函数返回等的类型，使注释更加简洁，比如：

```Python
def hello_name(name: str) -> str:
    return(f"Hello {name}")
```

### 文档

这里介绍 Docstrings，python代码文档中，它是一个很核心的概念。

Docstrings 是内置的字符串，当它被正确配置时，能够帮助用户还有开发者自己更好地处理项目文档。有了 docstrings，使用python的内置函数 help() 能直接在控制台给出 docstring：

```Shell
>>> help(str)
Help on class str in module builtins:

class str(object)
 |  str(object='') -> str
 |  str(bytes_or_buffer[, encoding[, errors]]) -> str
 |
 |  Create a new string object from the given object. If encoding or
 |  errors are specified, then the object must expose a data buffer
 |  that will be decoded using the given encoding and error handler.
 |  Otherwise, returns the result of object.__str__() (if defined)
 |  or repr(object).
 |  encoding defaults to sys.getdefaultencoding().
 |  errors defaults to 'strict'.
 # Truncated for readability
```

可以使用dir()命令检查其包含的属性：

In [70]:
dir(str)

['__add__',
 '__class__',
 '__contains__',
 '__delattr__',
 '__dir__',
 '__doc__',
 '__eq__',
 '__format__',
 '__ge__',
 '__getattribute__',
 '__getitem__',
 '__getnewargs__',
 '__gt__',
 '__hash__',
 '__init__',
 '__init_subclass__',
 '__iter__',
 '__le__',
 '__len__',
 '__lt__',
 '__mod__',
 '__mul__',
 '__ne__',
 '__new__',
 '__reduce__',
 '__reduce_ex__',
 '__repr__',
 '__rmod__',
 '__rmul__',
 '__setattr__',
 '__sizeof__',
 '__str__',
 '__subclasshook__',
 'capitalize',
 'casefold',
 'center',
 'count',
 'encode',
 'endswith',
 'expandtabs',
 'find',
 'format',
 'format_map',
 'index',
 'isalnum',
 'isalpha',
 'isascii',
 'isdecimal',
 'isdigit',
 'isidentifier',
 'islower',
 'isnumeric',
 'isprintable',
 'isspace',
 'istitle',
 'isupper',
 'join',
 'ljust',
 'lower',
 'lstrip',
 'maketrans',
 'partition',
 'removeprefix',
 'removesuffix',
 'replace',
 'rfind',
 'rindex',
 'rjust',
 'rpartition',
 'rsplit',
 'rstrip',
 'split',
 'splitlines',
 'startswith',
 'strip',
 'swapcase',


可以看到，有__doc__属性，进一步查看该属性：

In [71]:
print(str.__doc__)

str(object='') -> str
str(bytes_or_buffer[, encoding[, errors]]) -> str

Create a new string object from the given object. If encoding or
errors is specified, then the object must expose a data buffer
that will be decoded using the given encoding and error handler.
Otherwise, returns the result of object.__str__() (if defined)
or repr(object).
encoding defaults to sys.getdefaultencoding().
errors defaults to 'strict'.


能看到，这就是前面help(str)显示的内容，也就是 docstring 存储的地方。

同时这也意味着，我们可以操作该属性，不过要注意内置的是不能变的，会报错的：

In [72]:
str.__doc__ = "I'm a little string doc! Short and stout; here is my input and print me for my out"

TypeError: cannot set '__doc__' attribute of immutable type 'str'

对于一般的，则是可以的：

In [73]:
def say_hello(name):
    print(f"Hello {name}, is it me you're looking for?")

say_hello.__doc__ = "A simple function that says hello... Richie style"

如果在命令行执行 help(say_hello)，就会看到：

```Shell
say_hello(name)
    A simple function that says hello... Richie style
```

Python还有更简单的构建 docstring 的方式，即不去直接动 __doc__ ，而是通过 """ """ 三引号 写的注释 直接就被放入 __doc__ 了。

In [74]:
def say_hello(name):
    """A simple function that says hello... Richie style"""
    print(f"Hello {name}, is it me you're looking for?")

执行上述命令，同样会在调用hel(say_hello)后，有出现：

```Shell
say_hello(name)
    A simple function that says hello... Richie style
```

现在，继续看看更多不同类型的 docstrings，以及docstring 中究竟写些什么。

Docstring的约定在 [PEP 257](https://www.python.org/dev/peps/pep-0257/)，这里简单看看关键点。首先 docstring 一定是三引号的。单行docstring就是总结性质的一句表述。所有的多行docstring中都要有以下部分：

- 单行的总结性表述
- 一行空行隔开总结性表述和后续内容
- 更多细节表述
- 所有完了之后还要留一个空行

docstring可以主要分为以下几类：

- class类的：类的类方法
- 包package和模块module的：package、module和functions
- 脚本script的：script和functions

下面分别看这几种的例子。

In [75]:
class SimpleClass:
    """Class docstrings go here."""

    def say_hello(self, name: str):
        """Class method docstrings go here."""

        print(f'Hello {name}')

类的docstring应该包括：

- 类的目的和行为的简单总结
- 所有公共方法，都要有描述
- 所有类属性
- 子类会用到的接口

类方法docstring应该包括：

- 简单总结
- 所有参数
- 所有执行方法时会发生的side effect
- 所有抛出的异常
- 所有方法调用时有的限制

下面是个范例：

In [76]:
class Animal:
    """
    A class used to represent an Animal

    ...

    Attributes
    ----------
    says_str : str
        a formatted string to print out what the animal says
    name : str
        the name of the animal
    sound : str
        the sound that the animal makes
    num_legs : int
        the number of legs the animal has (default 4)

    Methods
    -------
    says(sound=None)
        Prints the animals name and what sound it makes
    """

    says_str = "A {name} says {sound}"

    def __init__(self, name, sound, num_legs=4):
        """
        Parameters
        ----------
        name : str
            The name of the animal
        sound : str
            The sound the animal makes
        num_legs : int, optional
            The number of legs the animal (default is 4)
        """

        self.name = name
        self.sound = sound
        self.num_legs = num_legs

    def says(self, sound=None):
        """Prints what the animals name is and what sound it makes.

        If the argument `sound` isn't passed in, the default Animal
        sound is used.

        Parameters
        ----------
        sound : str, optional
            The sound the animal makes (default is None)

        Raises
        ------
        NotImplementedError
            If no sound is set for the animal or passed in as a
            parameter.
        """

        if self.sound is None and sound is None:
            raise NotImplementedError("Silent Animals are not supported!")

        out_sound = self.sound if sound is None else sound
        print(self.says_str.format(name=self.name, sound=out_sound))

module的docstring：

- 简单总结描述
- 类，异常，函数等任意对象的列表

module 函数的docstring：

- 简单总结
- 任何参数
- 任何执行副作用
- 任何异常
- 任何限制

脚本是一个单独的可执行文件，其docstring放在最开头，用来表示脚本是干什么用的，怎么用，尤其是涉及到输入什么参数。

Docstring有多种格式：google docstring/reStructured Text/Numpy docstring/Epytext。

sphinx下默认的是 reStructured Text，ubuntu pycharm IDE下也是。不过写API文档，更直观常见的还是 Google 或者 Numpy style。实践中，在sphinx以及Pycharm中的配置可以参考：

- [sphinx.ext.napoleon](https://www.sphinx-doc.org/en/master/usage/extensions/napoleon.html)
- [how to change pycharm default commenting style for function?](https://intellij-support.jetbrains.com/hc/en-us/community/posts/115000784410-how-to-change-pycharm-default-commenting-style-for-function-)