# 类的快速技巧

编 者：杨岱川

时间：2020年4月

github：https://github.com/DrDavidS/basic_Machine_Learning

开源协议：[MIT](https://github.com/DrDavidS/basic_Machine_Learning/blob/master/LICENSE)

参考链接: [Python 使用 attrs 和 cattrs 实现面向对象编程的实践](https://www.jb51.net/article/162909.htm)

## Python 类简述

> 这里默认你已经知道类（Class）的基础知识了。

Python 是支持面向对象的，很多情况下使用面向对象编程会使得代码更加容易扩展，并且可维护性更高。

但是如果你写的多了或者某一对象非常复杂了，其中的一些写法会相当相当繁琐，而且我们会经常碰到对象和 JSON 序列化及反序列化的问题，原生的 Python 转起来还是很费劲的。

首先让我们定义一个对象吧，比如颜色。

>我们常用 RGB 三个原色来表示颜色，R、G、B 分别代表红、绿、蓝三个颜色的数值，范围是 0-255，也就是每个原色有 256 个取值。如 RGB(0, 0, 0) 就代表黑色，RGB(255, 255, 255) 就代表白色，RGB(255, 0, 0) 就代表红色，如果不太明白可以具体看看 RGB 颜色的定义。
>
>好，那么我们现在如果想定义一个颜色对象，那么正常的写法就是这样。创建这个对象的时候需要三个参数，就是 R、G、B 三个数值，定义如下：

In [1]:
class Color(object):
    """Color Object of RGB"""
    def __init__(self, r, g, b):
        self.r = r
        self.g = g
        self.b = b

对象一般就是这么定义的，初始化方法里面传入各个参数，然后定义全局变量并赋值这些值。

很常用语言比如 Java、PHP 里面都是这么定义的。但其实这种写法是比较冗余的，比如 r、g、b 这三个变量一写就写了三遍。

好，那么我们初始化一下这个对象，然后打印输出下，看看什么结果：

In [2]:
color = Color(255, 255, 255)
print(color)

<__main__.Color object at 0x00000272C7075308>


如上，结果是什么东西呀？或许我们也就能看懂一个 Color 吧，都没有什么有效信息。

我们知道，在 Python 里面想要定义某个对象本身的打印输出结果的时候，需要实现它的 `__repr__` 方法，所以我们比如我们添加这么一个方法：

In [3]:
class Color(object):
    """Color Object of RGB"""
    def __init__(self, r, g, b):
        self.r = r
        self.g = g
        self.b = b
    def __repr__(self):
        return f'{self.__class__.__name__}(r={self.r}, g={self.g}, b={self.b})'

这里使用了 Python 中的 `fstring` 来实现了 `__repr__` 方法。

在这里我们构造了一个字符串并返回，字符串中包含了这个 Color 类中的 r、g、b 属性，这个返回的结果就是 print 的打印结果，我们再重新执行一下，结果就变成这样子了：

In [4]:
color = Color(255, 255, 255)
print(color)

Color(r=255, g=255, b=255)


改完之后，这样打印的对象就会变成这样的字符串形式了，感觉看起来清楚多了。

但是总体来说还是比较繁杂的，有没有更简单的方法来完成类的初始化呢？

## attrs 和 cattrs

我们有专门为 Python 面向对象而专门诞生的库，没错，就是 `attrs` 和 `cattrs` 这两个库。

>attrs 库，其官方的介绍如下：
>
>attrs 是这样的一个 Python 工具包，它能将你从繁综复杂的实现上解脱出来，享受编写 Python 类的快乐。它的目标就是在不减慢你编程速度的前提下，帮助你来编写简洁而又正确的代码。
>
>其实意思就是用了它，定义和实现 Python 类变得更加简洁和高效。

### 安装

在 Anaconda 中，已经默认安装好了这两个库。

如果没有安装，则使用

```shell
pip3 install attrs cattrs
``` 

即可安装。

### 基本用法

首先明确一点，我们现在是装了 `attrs` 和 `cattrs` 这两个库，但是实际导入的时候是使用 `attr` 和 `cattr` 这两个包，是不带 s 的。

在 `attr` 这个库里面有两个比较常用的组件叫做 `attrs` 和 `attr`，前者是主要用来修饰一个自定义类的，后者是定义类里面的一个字段的。

有了它们，我们就可以将上文中的定义改写成下面的样子：

In [5]:
from attr import attrs, attrib

@attrs
class Color(object):
    r = attrib(type=int, default=0)
    g = attrib(type=int, default=0)
    b = attrib(type=int, default=0)

if __name__ == '__main__':
    color = Color(255, 255, 255)
    print(color)

Color(r=255, g=255, b=255)


怎么样，达成了一样的输出效果！

观察一下有什么变化，是不是变得更简洁了？

r、g、b 三个属性都只写了一次，同时还指定了各个字段的类型和默认值，另外也不需要再定义 __init__ 方法和 `__repr__` 方法了，一切都显得那么简洁。

实际上，主要是 attrs 这个修饰符起了作用，然后根据定义的 attrib 属性自动帮我们实现了 `__init__` 、 `__repr__` 、 `__eq__` 、 `__ne__` 、 `__lt__` 、 `__le__` 、 `__gt__` 、 `__ge__` 、 `__hash__` 这几个方法。

如使用 attrs 修饰的类定义是这样子：

In [6]:
from attr import attrs, attrib

@attrs
class SmartClass(object):
    a = attrib()
    b = attrib()

其实就相当于已经实现了这些方法：

In [7]:
class RoughClass(object):
    def __init__(self, a, b):
        self.a = a
        self.b = b
        
    def __repr__(self):
        return "RoughClass(a={}, b={})".format(self.a, self.b)
    
    def __eq__(self, other):
        if other.__class__ is self.__class__:
            return (self.a, self.b) == (other.a, other.b)
        else:
            return NotImplemented
    
    def __ne__(self, other):
        result = self.__eq__(other)
        if result is NotImplemented:
            return NotImplemented
        else:
            return not result
    
    def __lt__(self, other):
        if other.__class__ is self.__class__:
            return (self.a, self.b) < (other.a, other.b)
        else:
            return NotImplemented
    
    def __le__(self, other):
        if other.__class__ is self.__class__:
            return (self.a, self.b) <= (other.a, other.b)
        else:
            return NotImplemented
    
    def __gt__(self, other):
        if other.__class__ is self.__class__:
            return (self.a, self.b) > (other.a, other.b)
        else:
            return NotImplemented
    
    def __ge__(self, other):
        if other.__class__ is self.__class__:
            return (self.a, self.b) >= (other.a, other.b)
        else:
            return NotImplemented
    
    def __hash__(self):
        return hash((self.__class__, self.a, self.b))

总结一下：

- 库名：**attrs**
- 导入包名：**attr**
- 修饰类：**attrs**
- 定义属性：**attrib**

### 声明

再给出一个声明的例子。关于比较的例子请看原文参考链接。

比如叫做 Point，包含 x、y 的坐标，定义如下：

In [8]:
from attr import attrs, attrib

@attrs
class Point(object):
    x = attrib()
    y = attrib()

其中 `attrib` 里面什么参数都没有，如果我们要使用的话，参数可以顺次指定，也可以根据名字指定，如：

In [9]:
# 其效果都是一样的，打印输出结果如下：
p1 = Point(1, 2)
print(p1)

p2 = Point(x=1, y=2)
print(p2)

Point(x=1, y=2)
Point(x=1, y=2)


### 属性定义

现在看来，对于这个类的定义莫过于每个属性的定义了，也就是 `attrib` 的定义。对于 `attrib` 的定义，我们可以传入各种参数，不同的参数对于这个类的定义有非常大的影响。

下面我们就来详细了解一下每个属性的具体参数和用法。

首先让我们概览一下总共可能有多少可以控制一个属性的参数，我们用 `attrs` 里面的 `fields` 方法可以查看一下：

In [10]:
from attr import attrs, attrib, fields

@attrs
class Point(object):
    x = attrib()
    y = attrib()

print(fields(Point))

(Attribute(name='x', default=NOTHING, validator=None, repr=True, eq=True, order=True, hash=None, init=True, metadata=mappingproxy({}), type=None, converter=None, kw_only=False), Attribute(name='y', default=NOTHING, validator=None, repr=True, eq=True, order=True, hash=None, init=True, metadata=mappingproxy({}), type=None, converter=None, kw_only=False))


可以看到结果是一个元组，元组每一个元素都其实是一个 `Attribute` 对象，包含了各个参数，下面详细解释下几个参数的含义：

- name：属性的名字，是一个字符串类型。
- default：属性的默认值，如果没有传入初始化数据，那么就会使用默认值。如果没有默认值定义，那么就是 NOTHING，即没有默认值。
- validator：验证器，检查传入的参数是否合法。
- init：是否参与初始化，如果为 False，那么这个参数不能当做类的初始化参数，默认是 True。
- metadata：元数据，只读性的附加数据。
- type：类型，比如 int、str 等各种类型，默认为 None。
- converter：转换器，进行一些值的处理和转换器，增加容错性。
- kw_only：是否为强制关键字参数，默认为 False。

### 默认值

对于默认值，如果在初始化的时候没有指定，那么就会默认使用默认值进行初始化，我们看下面的一个实例：

In [11]:
from attr import attrs, attrib, fields

@attrs
class Point(object):
    x = attrib()
    y = attrib(default=100) 

if __name__ == '__main__':
    print(Point(x=1, y=3))
    print(Point(x=1))

Point(x=1, y=3)
Point(x=1, y=100)


可以看到结果，当设置了默认参数的属性没有被传入值时，他就会使用设置的默认值进行初始化。

那假如没有设置默认值但是也没有初始化呢？比如执行下：

In [12]:
Point()

TypeError: __init__() missing 1 required positional argument: 'x'

那么就会**报错**了。

所以说，如果一个属性，我们一旦没有设置默认值同时没有传入的话，就会引起错误。所以，一般来说，为了稳妥起见，设置一个默认值比较好，即使是 `None` 也可以的。

### 强制关键字

强制关键字是 Python 里面的一个特性，在传入的时候必须使用关键字的名字来传入，如果不太理解可以再了解下 Python 的基础。

设置了强制关键字参数的属性必须要放在后面，其后面不能再有非强制关键字参数的属性，否则会报这样的错误：

```shell
ValueError: Non keyword-only attributes are not allowed after a keyword-only attribute (unless they are init=False)
```

好，我们来看一个例子，我们将最后一个属性设置 kw_only 参数为 True：

In [13]:
from attr import attrs, attrib, fields

@attrs
class Point(object):
    x = attrib(default=0)
    y = attrib(kw_only=True)

if __name__ == '__main__':
    print(Point(1, y=3))

Point(x=1, y=3)


如果设置了 `kw_only` 参数为 `True`，那么在初始化的时候必须传入关键字的名字，这里就必须指定 y 这个名字，运行结果如上。

如果没有指定 y 这个名字，像这样调用，就会**报错**：

In [14]:
Point(1, 3)

TypeError: __init__() takes from 1 to 2 positional arguments but 3 were given

所以，这个参数就是设置初始化传参必须要用名字来传，否则会出现错误。

注意，如果我们将一个属性设置了 `init` 为 `False`，那么 `kw_only` 这个参数会被忽略。

### 验证器

有时候在设置一个属性的时候必须要满足某个条件，比如性别必须要是男或者女，否则就不合法。

对于这种情况，我们就需要有条件来控制某些属性不能为非法值。

下面我们看一个实例：

In [15]:
from attr import attrs, attrib, validators
  
def is_valid_gender(instance, attribute, value):
    if value not in ['male', 'female']:
        raise ValueError(f'gender {value} is not valid')
@attrs
class Person(object):
    name = attrib()
    gender = attrib(validator=is_valid_gender)

In [16]:
if __name__ == '__main__':
    print(Person(name='Mike', gender='male'))  # 正常
    print(Person(name='Mike', gender='mlae'))  # 错误

Person(name='Mike', gender='male')


ValueError: gender mlae is not valid

另外 attrs 库里面还给我们内置了好多 Validator，比如判断类型，这里我们再增加一个属性 age，必须为 int 类型：

In [17]:
@attrs
class Person(object):
    name = attrib()
    gender = attrib(validator=is_valid_gender)
    age = attrib(validator=validators.instance_of(int))

这时候初始化的时候就必须传入 int 类型，如缺失或者为其他类型，则直接**报错**：

In [18]:
if __name__ == '__main__':
    print(Person(name='Mike', gender='male'))  # 缺失 age

TypeError: __init__() missing 1 required positional argument: 'age'

In [19]:
if __name__ == '__main__':
    print(Person(name='Mike', gender='male', age=12.4))  # age值不是int而是float

TypeError: ("'age' must be <class 'int'> (got 12.4 that is a <class 'float'>).", Attribute(name='age', default=NOTHING, validator=<instance_of validator for type <class 'int'>>, repr=True, eq=True, order=True, hash=None, init=True, metadata=mappingproxy({}), type=None, converter=None, kw_only=False), <class 'int'>, 12.4)

In [20]:
if __name__ == '__main__':
    print(Person(name='Mike', gender='male', age=18))  # 正确

Person(name='Mike', gender='male', age=18)


另外 validator 参数还支持多个 Validator，比如我们要设置既要是数字，又要小于 100，那么可以把几个 Validator 放到一个列表里面并传入：

In [21]:
from attr import attrs, attrib, validators
  
def is_less_than_100(instance, attribute, value):
    if value > 100:
        raise ValueError(f'age {value} must less than 100')
        
@attrs
class Person(object):
    name = attrib()
    gender = attrib(validator=is_valid_gender)
    age = attrib(validator=[validators.instance_of(int), is_less_than_100])  # 验证器列表

if __name__ == '__main__':
    print(Person(name='Mike', gender='male', age=500))  # 报错：年龄超过上限

ValueError: age 500 must less than 100

### 转换器

其实很多时候我们会不小心传入一些形式不太标准的结果，比如本来是 int 类型的 100，我们传入了字符串类型的 100，那这时候直接抛错应该不好吧，所以我们可以设置一些转换器来增强容错机制，比如将 **字符串（string）** 自动转为 **数字（int）** 等等，看一个实例：

In [22]:
from attr import attrs, attrib

def to_int(value):
    """尝试类型转换"""
    try:
        return int(value)
    except:
        return None

@attrs
class Point(object):
    x = attrib(converter=to_int)
    y = attrib()

if __name__ == '__main__':
    print(Point('100', 3))

Point(x=100, y=3)


## 总结

到这里，比较常用的类方法就讲解完毕了。其实在参考链接 [Python 使用 attrs 和 cattrs 实现面向对象编程的实践](https://www.jb51.net/article/162909.htm) 中还有其他方法，但是那些方法比较少用，大多是针对 JSON 格式的处理。

此外我们也暂时没有涉及 `cattrs` 这个库。

希望这篇实践对你的 Python 类（class）的使用有所帮助。