# Python常见高级应用

这部分主要参考[python3-cookbook](https://python3-cookbook.readthedocs.io/zh_CN/latest/index.html)，主要记录一些在实际编写模型算法及开发应用程序的过程中值得一用的高级技巧。

目前主要分为以下部分：

- 5.1
    - 数据结构与算法
    - 字符串与文本
    - 迭代器与生成器
    - 函数
    - 类与对象
    - 元编程
    - 并发编程
- 5.2
    - 脚本编程与系统管理
    - 测试调试与异常

随着实践的加深，逐渐补充各类高级用法。

## 数据结构与算法

Python 提供了大量的内置数据结构，包括列表，集合以及字典。大多数情况下使用这些数据结构是很简单的。 不过在实际码代码的过程中也会经常碰到到诸如查询，排序和过滤等等这些普遍存在的问题。了解这些基本算法的过程是很有必要的。

首先是排序算法。参考：[排序指南](https://docs.python.org/zh-cn/3.7/howto/sorting.html#)。

Python 列表有一个内置的 list.sort() 方法可以直接修改列表。还有一个 sorted() 内置函数，它会从一个可迭代对象构建一个新的排序列表。

In [1]:
sorted([5, 2, 3, 1, 4])

[1, 2, 3, 4, 5]

In [2]:
a = [5, 2, 3, 1, 4]
a.sort()
a

[1, 2, 3, 4, 5]

给定一个数，寻找一个数组中与该数字最接近的

In [3]:
# Python3 program to find Closest number in a list 
  
def closest(lst, K): 
      
    return lst[min(range(len(lst)), key = lambda i: abs(lst[i]-K))] 
      
# Driver code 
lst = [3.64, 5.2, 9.42, 9.35, 8.5, 8] 
K = 9.1
print(closest(lst, K)) 

9.35


或者使用numpy也可以快速得到，这是本repo中第一次用到numpy，后面会对它做详细介绍，这里只是简单提及。安装numpy方式如下：

```Shell
conda install -c conda-forge numpy
```

In [4]:
import numpy as np
x = np.arange(100)
print("Original array:")
print(x)
a = np.random.uniform(0,100)
print("Value to compare:")
print(a)
index = (np.abs(x-a)).argmin()
print(x[index])

Original array:
[ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47
 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71
 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95
 96 97 98 99]
Value to compare:
34.6773731427386
35


判断一个数组是否递增：

In [5]:
l = range(10000)
print(all(x<y for x, y in zip(l, l[1:])))

True


In [6]:
x=1
y=[x]
type(y)

list

接下来，看一个示例，从字典中提取子集，即想构造一个字典，它是另外一个字典的子集。

最简单的方式是使用字典推导。

In [7]:
prices = {
    'ACME': 45.23,
    'AAPL': 612.78,
    'IBM': 205.55,
    'HPQ': 37.20,
    'FB': 10.75
}
# Make a dictionary of all prices over 200
p1 = {key: value for key, value in prices.items() if value > 200}
# Make a dictionary of tech stocks
tech_names = {'AAPL', 'IBM', 'HPQ', 'MSFT'}
p2 = {key: value for key, value in prices.items() if key in tech_names}
print(p1)
print(p2)

{'AAPL': 612.78, 'IBM': 205.55}
{'AAPL': 612.78, 'IBM': 205.55, 'HPQ': 37.2}


将一个整数拆分成最接近的两个整数相乘。主要参考：https://blog.csdn.net/qq_36607894/article/details/103595912

In [8]:
import numpy as np
def crack(integer):
    start = int(np.sqrt(integer))
    factor = integer / start
    while not is_integer(factor):
        start += 1
        factor = integer / start
    return int(factor), start


def is_integer(number):
    if int(number) == number:
        return True
    else:
        return False
    
print(crack(3))
print(crack(7))
print(crack(64))
print(crack(100))
print(crack(640))
print(crack(64000))

(3, 1)
(1, 7)
(8, 8)
(10, 10)
(20, 32)
(250, 256)


## 字符串与文本

重点关注文本的操作处理，比如提取字符串，搜索，替换以及解析等。

### 字符串搜索和替换

在字符串中搜索和匹配指定的文本模式。

对于简单的字面模式，直接使用 str.replace() 方法即可

In [9]:
text = 'yeah, but no, but yeah, but no, but yeah'
text.replace('yeah', 'yep')

'yep, but no, but yep, but no, but yep'

对于复杂的模式，请使用 re 模块中的 sub() 函数。 为了说明这个，假设你想将形式为 11/27/2012 的日期字符串改成 2012-11-27 

In [10]:
text = 'Today is 11/27/2012. PyCon starts 3/13/2013.'
import re
re.sub(r'(\d+)/(\d+)/(\d+)', r'\3-\1-\2', text)

'Today is 2012-11-27. PyCon starts 2013-3-13.'

sub() 函数中的第一个参数是被匹配的模式，第二个参数是替换模式。反斜杠数字比如 \3 指向前面模式的捕获组号。

### 拆分／拼接字符串

字符串拆分与拼接是很常用的操作：

In [11]:
text = 'geeks for geeks'

# Splits at space 
print(text.split()) 

word = 'geeks, for, geeks'

# Splits at ',' 
print(word.split(', ')) 

word = 'geeks:for:geeks'

# Splitting at ':' 
print(word.split(':')) 

word = 'CatBatSatFatOr'

# Splitting at 3 
print([word[i:i+3] for i in range(0, len(word), 3)]) 

['geeks', 'for', 'geeks']
['geeks', 'for', 'geeks']
['geeks', 'for', 'geeks']
['Cat', 'Bat', 'Sat', 'Fat', 'Or']


将几个小的字符串合并为一个大的字符串。想要合并的字符串是在一个序列或者 iterable 中，那么最快的方式就是使用 join() 方法。

In [12]:
parts = ['Is', 'Chicago', 'Not', 'Chicago?']
print(' '.join(parts))
print(','.join(parts))

Is Chicago Not Chicago?
Is,Chicago,Not,Chicago?


当使用加号(+)操作符去连接大量的字符串的时候是非常低效率的， 因为加号连接会引起内存复制以及垃圾回收操作。不应像下面这样写字符串连接代码：

In [13]:
s = ''
for p in parts:
    s += p

这种写法会比使用 join() 方法运行的要慢一些，因为每一次执行+=操作的时候会创建一个新的字符串对象。 你最好是先收集所有的字符串片段然后再将它们连接起来。所以能用join就尽量不用+了。

最后补充一个拆分后合并一部分的小例子：

In [14]:
text = '/geeks/for/geeks'
temp_list = text.split('/')
prefix = '/'.join(temp_list[:-1])
prefix

'/geeks/for'

### 字符串中插入变量

想创建一个内嵌变量的字符串，变量被它的值所表示的字符串替换掉。这在包括print结果，构建带参数的url等很多场景下都会用到。

Python并没有对在字符串中简单替换变量值提供直接的支持。 但是通过使用字符串的 format() 方法来解决这个问题。比如：

In [15]:
s = '{name} has {n} messages.'
s.format(name='Guido', n=37)

'Guido has 37 messages.'

或者，如果要被替换的变量能在变量域中找到， 那么可以结合使用format_map() 和 vars() 。就像下面这样：

In [16]:
name = 'Guido'
n = 37
s.format_map(vars())

'Guido has 37 messages.'

vars() 还有一个有意思的特性就是它也适用于对象实例。

In [17]:
class Info:
     def __init__(self, name, n):
            self.name = name
            self.n = n
            
a = Info('Guido',37)
s_out=s.format_map(vars(a))
print(s_out)

Guido has 37 messages.


format 和 format_map() 的一个缺陷就是它们并不能很好的处理变量缺失的情况，一种避免这种错误的方法是另外定义一个含有 __missing__() 方法的字典对象，就像下面这样：

In [18]:
class safesub(dict):
# """防止key找不到"""
    def __missing__(self, key):
        return '{' + key + '}'
    
del n # Make sure n is undefined
s.format_map(safesub(vars()))

'Guido has {n} messages.'

多年以来由于Python缺乏对变量替换的内置支持而导致了各种不同的解决方案。比如常见的%做占位符。不过format() 和 format_map() 相比较上面这些方案而已更加先进，因此应该被优先选择。 使用 format() 方法还有一个好处就是你可以获得对字符串格式化的所有支持(对齐，填充，数字格式化等待)， 而这些特性是使用像模板字符串之类的方案不可能获得的。

In [19]:
s = '{name} has {n} messages，{name}.'
s.format(name='Guido', n=37)

'Guido has 37 messages，Guido.'

## 迭代器与生成器

迭代是Python最强大的功能之一。初看起来，可能会简单的认为迭代只不过是处理序列中元素的一种方法。 然而，绝非仅仅就是如此。

### 手动遍历迭代器

遍历一个**可迭代对象**中的所有元素，但是却不想使用for循环。

为了手动的遍历可迭代对象，使用 next() 函数并在代码中捕获 StopIteration 异常。StopIteration 用来指示迭代的结尾。 比如:

In [20]:
items = [1, 2, 3]
it = iter(items)
next(it)

1

In [21]:
next(it)

2

In [22]:
next(it)

3

In [23]:
next(it)

StopIteration: 

再看一个完整的例子，手动读取一个文件中的所有行：

In [24]:
def manual_iter():
    with open('test.txt') as f:
        try:
            while True:
                line = next(f)
                print(line, end='')
        except StopIteration:
            pass

## 函数

给函数参数增加元信息：写好一个函数后，可以为这个函数的参数增加一些额外的信息，这样的话其他使用者就能清楚的知道这个函数应该怎么使用。这时候可以使用函数参数注解，这是一个很好的办法，它能提示程序员应该怎样正确使用这个函数。

In [26]:
def add(x:int, y:int) -> int:
    return x + y

python解释器不会对这些注解添加任何的语义。它们不会被类型检查，运行时跟没有加注解之前的效果也没有任何差距。 然而，对于那些阅读源码的人来讲就很有帮助啦。第三方工具和框架可能会对这些注解添加语义。同时它们也会出现在文档中。

In [27]:
help(add)

Help on function add in module __main__:

add(x: int, y: int) -> int



函数注解只存储在函数的 __annotations__ 属性中。例如：

In [28]:
add.__annotations__

{'x': int, 'y': int, 'return': int}

## 类与对象

### 在类中封装属性名

Python程序员**不去依赖语言特性去封装数据**，而是通过**遵循一定的属性和方法命名规约**来达到这个效果。比如：

In [29]:
class A:
    def __init__(self):
        self._internal = 0 # An internal attribute
        self.public = 1 # A public attribute

    def public_method(self):
        '''
        A public method
        '''
        pass

    def _internal_method(self):
        pass

注意Python并不会真的阻止别人访问内部名称。但是如果你这么做肯定是不好的，可能会导致脆弱的代码。同时还要注意到，使用下划线开头的约定同样适用于模块名和模块级别函数。 内部实现的代码要小心使用。在basic-python中提到过，各类"_"的使用带来的不同，这里重复说明下，有时候可能会遇到在类定义中使用两个下划线(__)开头的命名。比如：

In [30]:
class B:
    def __init__(self):
        self.__private = 0

    def __private_method(self):
        pass

    def public_method(self):
        pass
        self.__private_method()

这个时候双下划线的名称会在访问它时，被变成其他形式。比如，在前面的类B中，私有属性会被分别**重命名为 _B__private 和 _B__private_method**。 这时候你可能会问这样重命名的目的是什么，答案就是继承——这种属性通过继承是无法被覆盖的。比如：

In [31]:
class C(B):
    def __init__(self):
        super().__init__()
        self.__private = 1 # Does not override B.__private

    # Does not override B.__private_method()
    def __private_method(self):
        pass

私有名称 __private 和 __private_method 被重命名为 _C __private 和 _C __private_method ，这个跟父类B中的名称是完全不同的。

### 定义接口或抽象基类

定义一个接口或抽象类，并且通过执行类型检查来确保子类实现了某些特定的方法。使用 abc 模块可以很轻松的定义抽象基类。不过目前个人建议在实际编程中还是尽量先规避一些设计模式，看看从流程上能不能简化自己代码的pipeline，这样是更容易的方法，anyway，这里回到接口再看看。抽象类的目的就是让别的类继承它并实现特定的抽象方法：

In [32]:
from abc import ABCMeta, abstractmethod

class IStream(metaclass=ABCMeta):
    @abstractmethod
    def read(self, maxbytes=-1):
        pass

    @abstractmethod
    def write(self, data):
        pass

In [33]:
class SocketStream(IStream):
    def read(self, maxbytes=-1):
        pass

    def write(self, data):
        pass

抽象基类的一个主要用途是在代码中检查某些类是否为特定类型，实现了特定接口：

In [34]:
def serialize(obj, stream):
    if not isinstance(stream, IStream):
        raise TypeError('Expected an IStream')
    pass

## 元编程

这部分还重点参考了这个资料：[Python Metaclasses](https://realpython.com/python-metaclasses/)

术语元编程是指程序具有了解或操纵自身的潜力。Python支持一种称为metaclasses的类的元编程形式。

元类是一个比较复杂的面向对象概念，几乎隐藏在所有Python代码之后。无论是否知道，你都在使用它们。在大多数情况下，无需意识到这一点。大多数Python使用者很少（即使有的话）也不必考虑元类。

但是，当需要时，Python提供了并非所有面向对象的语言都支持的功能：我们可以深入了解并自定义元类。自定义元类的使用引起了一些争议，正如Python 禅意作者Tim Peters所引用的那样：

> 元类具有比99％的用户应该担心的更深的魔力。如果您想知道是否需要它们，则不需要（实际上需要它们的人肯定会知道他们需要它们，并且不需要解释原因）。”
— 蒂姆·彼得斯

有一些python使用者则认为永远不要使用自定义元类。这可能有点夸张，但是确实很可能不需要自定义元类。如果不是很明显有问题需要解决，如果能以更简单的方式解决问题，那么不用它可能会让代码更简洁，更易读。

尽管如此，理解 Python 元类还是值得的，因为通过元类可以更好地理解Python 类的内部。可能有一天会遇到一种情况：只需要一个自定义元类即可以解决问题。

### 两种类 NewClass Vs ClassicClass

Python类可以是以下两个变体之一：ClassicClass 或 NewClass，由于尚未确定官方术语，因此将它们非正式地称为旧类和新类。

对于旧类，类和类型不是一回事。旧类的实例始终由称为instance的一个内置类型实现。如果obj是旧类的一个实例，那么obl.\_\_class\_\_ 则给出了类，但是 type(obj) 则是instance。比如在python 2.7里面：

```Python
>>> class Foo:
...     pass
...
>>> x = Foo()
>>> x.__class__
<class __main__.Foo at 0x000000000535CC48>
>>> type(x)
<type 'instance'>
```

新类则统一了类和类型的概念。如果obj是新类的实例，那么type(obj)和obj.\_\_class\_\_ 是一样的

In [2]:
class Foo:
    pass
obj = Foo()
obj.__class__

__main__.Foo

In [3]:
type(obj)

__main__.Foo

In [4]:
n = 5
d = { 'x' : 1, 'y' : 2 }

class Foo:
    pass

x = Foo()

for obj in (n, d, x):
    print(type(obj) is obj.__class__)

True
True
True


### 类和类型

Python3中所有类都是新类。因此在Python 3中，对象的类型和类是可以互换着使用的。Python2.2之前是不支持新类的，之后python2默认的也是旧类。

记住，在python中，所有都是对象，类也是对象。所以类也得有类型。

In [5]:
class Foo:
    pass

x = Foo()

type(x)

__main__.Foo

In [6]:
type(Foo)

type

x的类型是class Foo。但是Foo类本身的类型是type。通常，新式类的类型都是type。

那些都比较熟悉的内置类的类型也是type，包括type自己：

In [7]:
for t in int, float, dict, list, tuple:
    print(type(t))

<class 'type'>
<class 'type'>
<class 'type'>
<class 'type'>
<class 'type'>


In [8]:
type(type)

type

type就是一个元类，其中的类是实例。就像普通对象是类的实例一样，Python中的任何新类或者说Python 3中的任何类都是type这一元类的实例。

![](pictures/class-chain.5cb031a299fe.png)

### 动态定义一个类

当传递一个参数时，内置函数type()将返回对象的类型。对于新类，通常与对象的\_\_class\_\_属性相同：

In [9]:
type(3)

int

In [10]:
type(['foo', 'bar', 'baz'])

list

In [11]:
t = (1, 2, 3, 4, 5)
type(t)

tuple

In [12]:
class Foo:
    pass

type(Foo())

__main__.Foo

还可以使用三参数调用的方式：type(<name>, <bases>, <dct>)：

- <name>指定类名称。该类的__name__属性。
- <bases>指定类继承的基类的元组。该类的__bases__属性。
- <dct>指定一个包含类主体定义的命名空间字典。该类的__dict__属性。

以这种方式调用type()会创建type元类的新实例。换句话说，它动态创建一个新类。

下面给出一些示例。每个示例最上面的代码段使用type()来动态定义一个类，而下面的代码段则使用class语句以通常的方式定义该类。每个例子中，这两个代码段在功能上是等效的。

在第一个示例中，传递给type()的<bases>和<dct>参数均为空。没有指定任何父类的继承，并且最初在命名空间字典中未放置任何内容。这是最简单的类定义：

In [13]:
Foo = type('Foo', (), {})

x = Foo()
x

<__main__.Foo at 0x19aa04bea00>

In [14]:
class Foo:
    pass

x = Foo()
x

<__main__.Foo at 0x19aa04be910>

例2里<bases>是一个具有单个元素Foo的元组，指定Bar继承的父类。属性attr放置在名称空间字典中：

In [22]:
Bar = type('Bar', (Foo,), dict(attr=100))

x = Bar()
print(x.attr)
print(x.__class__)
print(x.__class__.__bases__)

100
<class '__main__.Bar'>
(<class '__main__.Foo'>,)


In [23]:
class Bar(Foo):
    attr = 100


x = Bar()
print(x.attr)
print(x.__class__)
print(x.__class__.__bases__)

100
<class '__main__.Bar'>
(<class '__main__.Foo'>,)


这次，<bases>又是空的。通过<dct>参数将两个对象放入命名空间字典中。第一个是名为attr的属性，第二个是名为attr_val的函数，该函数成为已定义类的方法：

In [24]:
Foo = type(
    'Foo',
    (),
    {
        'attr': 100,
        'attr_val': lambda x : x.attr
    }
)

x = Foo()
print(x.attr)
print(x.attr_val())

100
100


In [25]:
class Foo:
    attr = 100
    def attr_val(self):
        return self.attr


x = Foo()
print(x.attr)
print(x.attr_val())

100
100


lambda在Python中只能定义非常简单的函数。在下面的示例中，在外部定义了一个稍微复杂一点的函数，然后通过名称attr_val在名称空间字典中将f分配给它：

In [29]:
def f(obj):
    print('attr =', obj.attr)

Foo = type(
    'Foo',
    (),
    {
        'attr': 100,
        'attr_val': f
    }
)

x = Foo()
print(x.attr)
x.attr_val()

100
attr = 100


In [28]:
def f(obj):
    print('attr =', obj.attr)

class Foo:
    attr = 100
    attr_val = f


x = Foo()
print(x.attr)
x.attr_val()

100
attr = 100


### 定制元类

再次考虑简单的Foo：

In [30]:
class Foo:
    pass

f = Foo()

表达式Foo()创建了类Foo的新实例。解释器遇到Foo()时，将发生以下情况：

- Foo的父类的\_\_call\_\_()方法被调用。由于Foo是标准的新类，因此其父类是type元类，因此调用type的\_\_call\_\_()方法。
- 该\_\_call\_\_()方法依次调用以下内容：
    - \_\_new\_\_()
    - \_\_init\_\_()
    
如果Foo未定义\_\_new\_\_()和\_\_init\_\_()，则默认方法继承自Foo的祖先。如果Foo中确实定义了这些方法，则它们会覆盖祖先中的方法，从而在实例化Foo时允许自定义行为。

在下面，定义了一个自定义方法new()，并将其指定为Foo的\_\_new\_\_()方法：

In [31]:
def new(cls):
    x = object.__new__(cls)
    x.attr = 100
    return x

Foo.__new__ = new

f = Foo()
f.attr

100

In [32]:
g = Foo()
g.attr

100

这会修改类Foo的实例化行为：每次Foo创建实例时，默认情况下都会使用名为attr的属性对其进行初始化，该属性的值为100。（这样的代码通常会出现在\_\_init\_\_()方法中，而通常不会出现在方法\_\_new\_\_()中，这个示例是为演示目的而设计的）

现在，正如已经重申的，类也是对象。假设您要在创建类似的类时，可以以类似的自定义方式完成Foo实例化行为。如果要遵循上述模式，需要再次定义一个自定义方法，并将其分配为\_\_new\_\_()方法。Foo是type元类的实例，因此代码如下所示：

In [33]:
def new(cls):
    x = type.__new__(cls)
    x.attr = 100
    return x

type.__new__ = new

TypeError: can't set attributes of built-in/extension type 'type'

如您所见，报错了，不能重新赋给元类type的\_\_new\_\_()方法。Python不允许这样做。

因为type是派生所有新类的元类。无论如何，不能这么做。但是，如果要自定义类的实例化，有什么办法？

一种可能的解决方案是自定义元类。该元类是从type派生的，然后就可以使用这个元类了。

第一步是定义一个从type派生的元类，如下所示：

In [34]:
class Meta(type):
    def __new__(cls, name, bases, dct):
        x = super().__new__(cls, name, bases, dct)
        x.attr = 100
        return x

“class Meta(type):”语句指定Meta从type派生。由于type是一个元类，因此现在构建了一个Meta元类。

请注意，已为Meta定义了自定义方法\_\_new\_\_()。无法直接对元类type执行此操作。该\_\_new\_\_()方法执行以下操作：

- 用父元类（即type）的代理--super()的__new__()方法创建一个新的类
- 将自定义属性attr分配给该类，其值为100
- 返回新创建的类

下面定义一个新类Foo，并指定其元类是自定义元类Meta，而不是标准元类type。使用类定义中的关键字metaclass来完成此操作，如下所示：

In [35]:
class Foo(metaclass=Meta):
    pass

Foo.attr

100

现在， Foo已经自动拿到Meta元类的attr属性。当然，类似定义的任何其他类也将这样做：

In [36]:
class Bar(metaclass=Meta):
    pass

class Qux(metaclass=Meta):
    pass

Bar.attr, Qux.attr

(100, 100)

与类充当创建对象的模板的方式相似，元类充当创建类的模板。元类有时称为类工厂。

比较以下两个示例：

对象工厂：

In [38]:
class Foo:
    def __init__(self):
        self.attr = 100


x = Foo()
print(x.attr)


y = Foo()
print(y.attr)


z = Foo()
print(z.attr)

100
100
100


类工厂：

In [39]:
class Meta(type):
    def __init__(
        cls, name, bases, dct
    ):
        cls.attr = 100

class X(metaclass=Meta):
    pass

print(X.attr)


class Y(metaclass=Meta):
    pass

print(Y.attr)


class Z(metaclass=Meta):
    pass

print(Z.attr)

100
100
100


### 真的需要元类么

上面的类工厂示例是元类如何工作的本质。它们允许自定义的类实例化。这个好处就是不必重复地去为每个类写attr，代码能更好地复用。

但是尽管如此，在每个新创建的类上赋予自定义attr属性仍然有很多麻烦。我们真的需要一个元类吗？

在 Python 中，至少有几种其他方法可以有效地完成同一件事：

In [40]:
class Base:
    attr = 100


class X(Base):
    pass


class Y(Base):
    pass


class Z(Base):
    pass


print(X.attr)

print(Y.attr)

print(Z.attr)


100
100
100


In [41]:
def decorator(cls):
    class NewClass(cls):
        attr = 100
    return NewClass

@decorator
class X:
    pass

@decorator
class Y:
    pass

@decorator
class Z:
    pass


print(X.attr)

print(Y.attr)

print(Z.attr)

100
100
100


正如蒂姆·彼得斯（Tim Peters）所建议的那样，元类很容易进入“从问题中寻找解决方案”的境界。通常不需要创建自定义元类。如果眼前的问题可以用更简单的方法解决，那就应该这样解决。尽管如此，理解元类还是有好处的，这样您就可以大致理解Python类，并可以识别何时才真正适合使用元类。

上面举得装饰器的例子，就是更常用的元编程方式。

### 装饰器

比如想在函数上添加一个包装器，增加额外的操作处理(比如日志、计时等)。这是很常用的功能。使用额外的代码包装一个函数，可以定义一个装饰器函数：

In [42]:
import time
from functools import wraps

def timethis(func):
    '''
    Decorator that reports the execution time.
    '''
    @wraps(func)
    def wrapper(*args, **kwargs):
        start = time.time()
        result = func(*args, **kwargs)
        end = time.time()
        print(func.__name__, end-start)
        return result
    return wrapper

In [43]:
@timethis
def countdown(n):
#       Counts down
    while n > 0:
        n -= 1

In [44]:
countdown(100000)

countdown 0.005995035171508789


实际上一个装饰器就是一个函数，它接受一个函数作为参数并返回一个新的函数。下面两个函数是等价的：

In [45]:
@timethis
def countdown(n):
    pass

In [46]:
def countdown(n):
    pass
countdown = timethis(countdown)

另外，内置的装饰器比如 @staticmethod, @classmethod,@property 原理也是一样的。

不过在使用装饰器时，要注意复制元信息。即任何时候你定义装饰器的时候，都应该使用 functools 库中的 @wraps 装饰器来注解底层包装函数。如果你忘记了使用 @wraps ， 那么你会发现被装饰函数丢失了所有有用的信息。

还可以定义带参数的装饰器，比如你想写一个装饰器，给函数添加日志功能，同时允许用户指定日志的级别和其他的选项。 下面是这个装饰器的定义和使用示例：

In [47]:
from functools import wraps
import logging

def logged(level, name=None, message=None):
    """
    Add logging to a function. level is the logging
    level, name is the logger name, and message is the
    log message. If name and message aren't specified,
    they default to the function's module and name.
    """
    def decorate(func):
        logname = name if name else func.__module__
        log = logging.getLogger(logname)
        logmsg = message if message else func.__name__

        @wraps(func)
        def wrapper(*args, **kwargs):
            log.log(level, logmsg)
            return func(*args, **kwargs)
        return wrapper
    return decorate

# Example use
@logged(logging.DEBUG)
def add(x, y):
    return x + y

@logged(logging.CRITICAL, 'example')
def spam():
    print('Spam!')

### 函数重载

python是不支持直接进行函数重载的，不过python允许参数注解。利用它可以简单实现基于类型的方法重载。

In [41]:
class Spam:
    def bar(self, x:int, y:int):
        print('Bar 1:', x, y)

    def bar(self, s:str, n:int = 0):
        print('Bar 2:', s, n)

s = Spam()
s.bar(2, 3) # Prints Bar 1: 2 3
s.bar('hello') # Prints Bar 2: hello 0

Bar 2: 2 3
Bar 2: hello 0


但是对于一般的函数重载会稍微麻烦一些，需要利用一些小技巧，这里给出一个参考资料：[Python 函数如何重载？](https://juejin.im/post/5cbcf38bf265da03af27d327)，就暂时不赘述了。

个人认为既然python不支持，那就尽量避免吧，直接换个名，或者用下if else也不是多大的事情。

## 并发编程

对于并发编程, Python有多种长期支持的方法, 包括**多线程**, **调用子进程**, 以及各种各样的关于**生成器函数**的技巧。这部分将会简单记录并发编程各种方面的技巧, 包括通用的**多线程技术**以及**并行计算的实现方法**。并发的程序有潜在的危险. 因此, 要注意能给出更加可信赖和易调试的代码。这里只是简单介绍，更多关于并行计算的内容会在7-parallel-programming文件夹中记录。

### 启动与停止线程

为需要并发执行的代码创建/销毁线程：**threading 库**可以**在单独的线程中执行任何的在 Python 中可以调用的对象**。可以创建一个 Thread 对象并将你要执行的对象以 target 参数的形式提供给该对象。

In [49]:
import time
def countdown(n):
    while n > 0:
        print('T-minus', n)
        n -= 1
        time.sleep(1)

# Create and launch a thread
from threading import Thread
t = Thread(target=countdown, args=(3,))
t.start()

T-minus 3


当创建好一个线程对象后，该对象**并不会立即执行**，除非你调用它的 **start() 方法**（当你调用 start() 方法时，它会调用你传递进来的函数，并把你传递进来的参数传递给该函数）。Python中的线程会在一个单独的系统级线程中执行（比如说一个 POSIX 线程或者一个 Windows 线程），这些线程将由操作系统来全权管理。线程一旦启动，将独立执行直到目标函数返回。

可以查询一个线程对象的状态，看它是否还在执行：

In [50]:
if t.is_alive():
    print('Still running')
else:
    print('Completed')

Still running
T-minus 2


Python解释器直到所有线程都终止前仍保持运行。对于需要长时间运行的线程或者需要一直运行的后台任务，你应当考虑使用后台线程。
```python
# 使用daemon
t = Thread(target=countdown, args=(10,), daemon=True)
t.start()
```

由于全局解释锁（GIL）的原因，Python 的线程被限制到同一时刻只允许一个线程执行这样一个执行模型。所以，Python 的线程更适用于处理I/O和其他需要并发执行的阻塞操作（比如等待I/O、等待从数据库获取数据等等），而**不是需要多处理器并行的计算密集型任务**。所以这块暂时不需要太多关注。

### 简单并行编程

有个程序要执行CPU密集型工作，想让他利用**多核CPU**的优势来运行的快一点。

concurrent.futures 库提供了一个 ProcessPoolExecutor 类， 可被用来在一个单独的Python解释器中执行计算密集型函数。 不过，要使用它，首先要有一些计算密集型的任务。一个脚本，在这些日志文件中查找出所有访问过robots.txt文件的主机(因为我没有日志文件，所以没运行结果)

In [51]:
# findrobots.py

import gzip
import io
import glob

def find_robots(filename):
    '''
    Find all of the hosts that access robots.txt in a single log file
    '''
    robots = set()
    with gzip.open(filename) as f:
        for line in io.TextIOWrapper(f,encoding='ascii'):
            fields = line.split()
            if fields[6] == '/robots.txt':
                robots.add(fields[0])
    return robots

def find_all_robots(logdir):
    '''
    Find all hosts across and entire sequence of files
    '''
    files = glob.glob(logdir+'/*.log.gz')
    all_robots = set()
    for robots in map(find_robots, files):
        all_robots.update(robots)
    return all_robots

if __name__ == '__main__':
    robots = find_all_robots('logs')
    for ipaddr in robots:
        print(ipaddr)

T-minus 1


前面的程序使用了通常的**map-reduce风格**来编写。 函数 find_robots() 在一个文件名集合上做map操作，并将结果汇总为一个单独的结果， 也就是 find_all_robots() 函数中的 all_robots 集合。 现在，假设你想要修改这个程序让它使用多核CPU。 很简单——只需要**将map()操作替换为一个 concurrent.futures 库中生成的类似操作即可**。

In [52]:
# findrobots.py

import gzip
import io
import glob
from concurrent import futures

def find_robots(filename):
    '''
    Find all of the hosts that access robots.txt in a single log file

    '''
    robots = set()
    with gzip.open(filename) as f:
        for line in io.TextIOWrapper(f,encoding='ascii'):
            fields = line.split()
            if fields[6] == '/robots.txt':
                robots.add(fields[0])
    return robots

def find_all_robots(logdir):
    '''
    Find all hosts across and entire sequence of files
    '''
    files = glob.glob(logdir+'/*.log.gz')
    all_robots = set()
    with futures.ProcessPoolExecutor() as pool:
        for robots in pool.map(find_robots, files):
            all_robots.update(robots)
    return all_robots

if __name__ == '__main__':
    robots = find_all_robots('logs')
    for ipaddr in robots:
        print(ipaddr)