现在我们将注意力转向最后一个与Python编程相关的主题：围绕模块和数据抽象，使用类来组织程序。

有许多不同的方式来使用类。在本书中，我们强调的是在**面向对象编程**的环境中使用它们。面向对象编程的关键是**把对象看作是既有数据又有数据操作方法的集合。

面向对象编程的基本思想已经有40多年的历史了，并且在过去的25年左右被广泛接受和实践。在20世纪70年代中期，人们开始撰写文章，解释这种编程方法的好处。大约在同一时间，编程语言`SmallTalk`(施乐PARC)和`CLU`(麻省理工学院)为这些想法提供了语言支持。但是，直到`c++`和`Java`的出现，它才真正在实践中起飞。

在本书的大部分内容中，我们一直隐含地依赖于面向对象编程。回到2.1.1节，我们说过“**对象是Python程序操作的核心。每个对象都有一个定义程序可以用该对象做的事情的类型**。”从第2章开始，我们就一直依赖于`list`和`dict`等内置类型以及跟这些类型相关的方法。但是，正如编程语言的设计者只能构建一小部分有用的函数一样，他们也只能构建一小部分有用的类型。我们已经研究了一种允许程序员定义新函数的机制。现在我们来看一种允许程序员定义新类型的机制。

## 8.1 抽象数据类型和类
抽象数据类型的概念非常简单。抽象数据类型是一组对象和这些对象上的操作。它们被绑定在一起，这样就可以将对象从程序的一个部分传递到另一个部分，这样做不仅提供了对对象数据属性的访问，还提供了对操作的访问，从而使操作数据变得更容易。

这些操作的规范定义了抽象数据类型和程序其余部分之间的接口。接口定义了操作的行为，即它们做什么，而不是如何做。因此，该接口提供了一个抽象屏障，将程序的其余部分与提供对类型抽象的实现所涉及的数据结构、算法和代码隔离开来。

**编程是以一种方便修改的方式管理复杂性**。有两种强大的机制可以实现这一点：**分解**和**抽象**。分解是在程序中创建结构，抽象是抑制细节。关键是要隐藏适当的细节。这就是**数据抽象**的切入点。可以创建提供方便抽象的特定领域类型。理想情况下，这些类型可以捕获跟程序的生命周期相关的概念。如果一个人通过设计几个月甚至几十年后的相关类型来开始编程，那么他在维护软件方面就有很大的优势。

在本书中，我们一直在使用抽象数据类型。我们编写了使用整数、列表、浮点数、字符串和字典的程序，而没有考虑这些类型可能如何实现。

在Python中，使用类实现数据抽象。图8.1包含一个类定义，它提供了一个名为`IntSet`的整数集抽象的简单实现。

In [1]:
class IntSet(object):
    """An intSet is a set of integers"""
    #Information about the implementation (not the abstraction)
    #Value of the set is represented by a list of ints, self.vals.
    #Each int in the set occurs in self.vals exactly once.
    def __init__(self):
        """Create an empty set of integers"""
        self.vals = []
    def insert(self, e):
        """Assumes e is an integer and inserts e into self"""
        if e not in self.vals:
            self.vals.append(e)
    def member(self, e):
        """Assumes e is an integer
        Returns True if e is in self, and False otherwise"""
        return e in self.vals
    def remove(self, e):
        """Assumes e is an integer and removes e from self
        Raises ValueError if e is not in self"""
        try:
            self.vals.remove(e)
        except:
            raise ValueError(str(e) + ' not found')
    def getMembers(self):
        """Returns a list containing the elements of self.
        Nothing can be assumed about the order of the elements"""
        return self.vals[:]
    def __str__(self):
        """Returns a string representation of self"""
        self.vals.sort()
        result = ''
        for e in self.vals:
            result = result + str(e) + ','
        return '{' + result[:-1] + '}' #-1 omits trailing comma
    

print(type(IntSet), type(IntSet.insert))
s = IntSet()
s.insert(3)
print(s.member(3)) 

<class 'type'> <class 'function'>
True


类定义创建一个类型为`type`的对象，并将一组类型为`instancemethod`的对象与该类对象关联起来。例如，表达式`IntSet.insert`是指在类`IntSet`的定义中定义的方法`insert`。代码：

In [2]:
print(type(IntSet), type(IntSet.insert))

<class 'type'> <class 'function'>


请注意：类定义顶部的文档字符串("""括起来的注释)描述的是类提供的抽象，而不是关于类如何实现的信息。相反，文档字符串下面的注释包含关于实现的信息。该信息针对的是那些可能想要修改类的实现或构建子类的程序员，而不是那些可能想要使用抽象的程序员。

当函数定义在类定义中出现时，定义的函数被称为**方法**并关联到该类。这些方法有时被称为**类的方法属性**。如果现在这看起来让人困惑，不要担心。在本章的后面，我们将对这个话题有更多的讨论。

类支持两种操作:
- 实例化用于创建类的实例。

  例如，语句`s = IntSet()`创建了一个类型为`IntSet`的新对象。这个对象被称为`IntSet`的一个实例。

- 属性引用使用点符号来访问与类相关的属性。

  例如，`s.member`引用与类型为`IntSet`的实例`s`相关联的方法`member`。
  
每个类定义都以保留字`class`开头，后跟类的名称以及它与其他类之间的关系的一些信息。在本例中，第一行表示`IntSet`是`object`的子类。现在，忽略子类的含义。我们很快就会讲到。

正如我们将看到的，Python有许多**特殊的方法名**，它们以两个下划线开始和结束。

我们首先要看的是`__init__`。每当一个类被实例化时，都会调用该类中定义的`__init__方法`。当执行如下代码时：

In [3]:
s = IntSet()

解释器将创建一个类型为`IntSet`的新实例，然后调用`IntSet.__init__`，将新创建的对象作为绑定到形式形参`self`的实际形参。当调用`IntSet.__init__`时，它创建了`vals`列表：它是一个`list`类型的对象，成为新创建的`IntSet`类型实例的一部分。注意，`vals`列表是用`[]`来创建的，`[]`是对`list()`的简写。`vals列表`称为IntSet实例的**数据属性**。注意：每个`IntSet`对象有不同的`vals`列表。

可使用点号来调用跟一个类的实例关联的方法。比如，

In [5]:
s = IntSet()
s.insert(3)
print(s.member(3))

True


上述代码创建了一个`IntSet`实例，向那个`IntSet`中插入了整数3，然后输出`True`。

乍一看，这里似乎有些不一致的地方。看起来好像调用每个方法时都少了一个参数。例如，`member`有两个形式参数，但我们似乎只用一个实际参数调用它。这是点符号的产物。点号前面跟表达式关联的对象作为第一个参数隐式地传递给方法。在整本书中，我们遵循使用self作为形式参数(实际参数要绑定到它)的名称的约定。Python程序员几乎普遍遵守这一约定，我们强烈建议您也使用它。

类不应与该类的实例相混淆，正如`list`类型的对象不应与`list`类型相混淆一样。属性可以与类本身相关联，也可以与类的实例相关联:
- 方法属性

    方法属性分为类属性和实例属性。
    
    方法属性是在类定义中定义的。
    
    例如，`IntSet.member`是类IntSet的属性。当类被实例化时(比如`s = IntSet()`)，实例属性被创建(比如`s.member`)。
    
    注意：
    
    `IntSet.member`和`s.member`是不同的对象。虽然`s.member`初始是被绑定到类`IntSet`中定义的`member`方法，但是该绑定可以在计算过程中被更改。例如，你可以(但不应该!)写`s.member=Insert.insert`。
- 数据属性
    
    数据属性也分为类属性和实例属性。
    
    类变量是跟类关联的数据属性。实例变量是跟实例关联的数据属性。
    
    例如，`vals`是一个实例变量，因为对于类`IntSet`的每个实例，`vals`被绑定到不同的列表。到目前为止，我们还没有看到类变量。
    


关键词：表示独立性 表示不变量

数据抽象实现了表示独立性。一个抽象类型的实现成有若干个组件：
- 类型方法的实现；
- 跟方法实现一起对类型值编码的数据结构；
- 关于如何使用数据结构来实现方法的约定。表示不变量捕获了关键的约定。

简单地总结一下，一个抽象数据类型的实现有哪些组件？
- 方法
- 数据结构
- 实现约定



关键词：表示不变量

**表示不变量**定义了数据属性的哪些值对应于类实例的有效表示。比如，`IntSet`的表示不变量是不包含重复项的`vals`。`__init__`的实现负责建立不变量(持有空列表)，其他方法负责维护该不变量。这就是为什么`insert`仅在`e`不在`self.vals`中时才附加它的原因。

`remove`的实现利用了进入`remove`时满足“表示不变量”这一假设。它只调用`list.remove`一次，因为表示不变量保证在`self.vals`中最多出现一次 `e`。

关键词：`__str__`方法

类中定义的最后一个方法`__str__`是另一种特殊的`__`方法。使用`print`命令时，它会自动调用与要打印的对象关联的`__str__`函数。例如，代码

In [6]:
s = IntSet()
s.insert(3)
s.insert(4)
print(s)

{3,4}


注意：
- 如果没有定义`__str__`方法，执行`print(s)`会导致诸如`<__main__.IntSet object at 0x1663510>`之类的东西被打印出来。

我们也可以通过写`print s.__str__()`或者`print IntSet.__str__(s)`来输出`s`的值，但使用这些形式不方便。 

当程序通过调用`str`将类的实例转换为字符串时，也会调用类的`__str__` 方法。

关键词：hashable

用户定义类的所有实例都是`hashable`的，因此可以用作字典的keys。 

如果没有提供`__hash__`方法，则对象的哈希值是从函数`id`派生的(参见第 5.3 节)。 

如果没有提供`__eq__`方法，则所有对象都被认为是不相等的(除了它们自己)。

如果提供了用户定义的`__hash__`，则应确保对象的哈希值在该对象的整个生命周期中保持不变。

### 8.1.1 使用抽象数据类型来设计程序
抽象数据类型很重要。它导致了对组织大型程序的不同思考方式。当我们思考世界时，我们依赖于抽象。在金融界，人们谈论股票和债券。在生物学领域，人们谈论蛋白质和残留物。当试图理解诸如此类的概念时，我们会在大脑中将这些对象的一些相关数据和特征收集到一个智力包中。例如，我们认为债券具有利率和到期日作为数据属性。我们还认为债券具有“设定价格”和“计算到期收益率”等操作。抽象数据类型允许我们将这种组织方式融入到程序设计中。

数据抽象鼓励程序设计人员**关注数据对象而不是函数**。**将程序更多地看作是类型的集合而不是函数的集合**，会导致一个完全不同的组织原则。除此之外，它鼓励人们将**编程看作是组合相对较大块的过程**，因为数据抽象通常包含比单个函数更多的功能。这反过来又使我们认为，**编程的本质不是编写单独的代码行，而是组成抽象的过程**。

**可重用抽象**的可用性不仅减少了开发时间，而且通常还会带来更可靠的程序，因为成熟的软件通常比新软件更可靠。多年来，唯一常用的程序库是统计的或科学的。然而，现在有大量可用的程序库(特别是针对Python的)，通常基于一组丰富的数据抽象，我们将在本书后面看到。


### 8.1.2 使用类来记录学生和教师
假设你要设计一个程序来跟踪一所大学的所有学生和教员。

两种实现方式：不使用数据抽象和使用数据抽象

不使用数据抽象：需要设计一堆数据结构，比如每个学生都有姓氏、名字、家庭地址、年份、成绩等数据结构。教员也需要一些类似的数据结构和一些不同的数据结构，比如跟踪薪资历史的数据结构等。


使用数据抽象：

先考虑一些可能有用的抽象，比如：是否存下一个涵盖学生、教授、工作人员共同属性的抽象？

In [9]:
import datetime

class Person(object):
    def __init__(self, name):
        """
        创建一个人
        """
        self.name = name
        try:
            lastBlank = name.rindex(' ')
            self.lastName = name[lastBlank+1:]
        except:
            self.lastName = name
        self.birthday = None
        
    def getName(self):
        """
        返回self的全名
        """
        return self.name
    
    def getLastName(self):
        """
        返回self的姓氏
        """
        return self.lastName
    
    def setBirthday(self, birthdate):
        """
        假设birthday是datetime.date类型
        设置self的birthday为birthdate
        """
        self.birthday = birthdate
        
    def getAge(self):
        """
        返回以天数的形式表示的self的年龄
        """
        if self.birthday == None:
            raise ValueError
        return (datetime.date.today() - self.birthday).days
    def __lt__(self, other):
        """
        如果按照字母表顺序，self比other早，就返回True，否则返回False。
        虽然是基于姓氏比较，但是如果姓氏相同，那么就比较全名。
        """
        if self.lastName == other.lastName:
            return self.name < other.name
        return self.lastName < other.lastName
    
    def __str__(self):
        """
        返回self的全名
        """
        return self.name

In [10]:
me = Person('Michael Guttag')
him = Person('Barack Hussein Obama')
her = Person('Madonna')
print(him.getLastName())
him.setBirthday(datetime.date(1961, 8, 4))
her.setBirthday(datetime.date(1958, 8, 16))
print(him.getName(), 'is', him.getAge(), 'days old')

Obama
Barack Hussein Obama is 21958 days old


注意：
- 每当`Person`被实例化时，都会向`__init__`函数提供一个参数。通常，在实例化一个类时，我们需要查看该类的`__init__`函数的规范，以了解要提供哪些参数以及这些参数应该具有哪些属性。

上述代码执行后，会出现`Person`类的三个实例。然后可以使用与它们关联的方法访问有关这些实例的信息。例如，`him.getLastName()·`返回`'Obama'`。表达式`him.lastName`也将返回`'Obama'`；然而，应该避免编写直接访问实例变量的表达式，这被认为是糟糕的形式。

同样，`Person`抽象的用户没有合适的方法来提取一个人的生日，尽管该实现包含具有该值的属性。但是，有一种方法可以根据人的生日提取信息，如上述代码中的最后一个`print`语句所示。

类`Person`定义了另一个特别命名的方法`__lt__`。此方法重载`<`运算符。只要`<`运算符的第一个参数是`Person`类型，就会调用`Person.__lt__`方法。`Person`类中的`__lt__`方法是使用`str`类型的二元`<`运算符实现的。表达式`self.name < other.name`是`self.name.__lt__(other.name)`的简写。由于`self.name`是`str`类型，所以这个`__lt__`方法是与`str`类型关联的方法。

除了提供编写使用`<`的中缀表达式的语法便利之外，这种重载还提供对使用`__lt__`定义的任何多态方法的自动访问。内置方法`sort`就是这样一种方法。因此，例如，如果`pList`是由`Person`类型的元素组成的列表，则调用`pList.sort()`将使用类`Person`中定义的`__lt__`方法对该列表进行排序。

In [12]:
pList = [me, him, her]

for p in pList:
    print(p)
    
pList.sort()
for p in pList:
    print(p)

Michael Guttag
Barack Hussein Obama
Madonna
Michael Guttag
Madonna
Barack Hussein Obama


## 8.2 继承
许多类型具有与其他类型相同的属性。例如，`list`和`str`类型都有表示相同含义的`len`函数。

继承为构建相关抽象组提供了一种方便的机制。它允许程序员创建一个类型层次结构，在这个层次结构中，每个类型从其上面的类型继承属性。


类对象位于层次结构的顶端。这是有意义的，因为**在Python中，在运行时存在的一切都是对象**。因为`Person`继承了`object`的所有属性，所以程序可以将变量绑定到`Person`，将`Person`添加到列表里等。

In [18]:
class MITPerson(Person):
    #类变量nextIdNum
    nextIdNum = 0 #identification number
    def __init__(self, name):
        Person.__init__(self, name)
        #实例变量idNum
        self.idNum = MITPerson.nextIdNum
        MITPerson.nextIdNum += 1
    def getIdNum(self): 
        return self.idNum
    def __lt__(self, other):
        return self.idNum < other.idNum

图8.3中的`MITPerson`类继承了其父类`Person`的属性，包括`Person`从其父类`object`继承的所有属性。

用面向对象编程的术语来说，`MITPerson`是`Person`的子类，因此继承了其父类的属性。除了它继承的内容外，子类还可以:
- 添加新属性 

  例如，子类`MITPerson`增加了类变量`nextIdNum`、实例变量`idNum`和方法`getIdNum`。
- 覆盖父类的属性

  例如，`MITPerson`覆盖了`__init__`和`__lt__`。
  
  当一个方法被覆盖时，执行的方法的版本基于用来调用该方法的对象。
  
  如果对象的类型是子类，则将使用子类中定义的版本。
  
  如果对象的类型是父类，则将使用超类中的版本。
  
`MITPerson.__init__ `方法首先调用`Person.__init__`来初始化继承的实例变量`self.name`。然后它初始化`self.idNum`这是一个`MITPerson`实例有但`Person`实例没有的实例变量。

实例变量`self.idNum`是使用类变量`nextIdNum`初始化的。注意：`nextIdNum`属于类`MITPerson`，而不是类的实例。创建`MITPerson`的实例时，不会创建`nextIdNum`的新实例。这允许`__init__`确保每个`MITPerson`实例都有一个唯一的`idNum`。

In [19]:
p1 = MITPerson('Barbara Beaver')
print(str(p1)+'\'s id number is '+str(p1.getIdNum()))

Barbara Beaver's id number is 0


解释：

第一行创建了一个新的`MITPerson`。 

第二行有点复杂。
当它尝试对表达式`str(p1)`求值时，运行时系统首先检查是否存在与类`MITPerson`关联的`__str__`方法。由于没有，它接下来检查是否有一个与`MITPerson`的父类`Person`相关联的`__str__`方法。有，所以它使用它。
当运行时系统尝试计算表达式`p1.getidNum()`时，它首先检查是否存在与类`MITPerson`关联的`getIdNum`方法。

In [20]:
p1 = MITPerson('Mark Guttag')
p2 = MITPerson('Billy Bob Beaver')
p3 = MITPerson('Billy Bob Beaver')
p4 = Person('Billy Bob Beaver')

我们创建了四个虚拟的人，其中三个名为`Billy Bob Beaver`。 两个 `Billy Bobs`是`MITPerson`类型，一个是`Person`类型。

In [22]:
print('p1 < p2 =', p1 < p2)
print('p3 < p2 =', p3 < p2)
print('p4 < p1 =', p4 < p1)
print('p1 < p4 =', p1 < p4)

p1 < p2 = True
p3 < p2 = False
p4 < p1 = True


AttributeError: 'Person' object has no attribute 'idNum'

由于`p1`、`p2`和`p3`都是`MITPerson`类型，解释器在评估前两个比较时将使用类`MITPerson`中定义的`__lt__`方法，因此排序将基于标识号。
在第三次比较中，`<`运算符应用于不同类型的操作数。由于表达式的第一个参数用于确定调用哪个`__lt__`方法，因此`p4 < p1`是`p4.__lt__(p1)`的简写。因此，解释器使用与`p4`关联的`Person`类的`__lt_`方法，"people"将将按名称排序。

### 8.2.1 多层继承
图 8.4向类层次结构添加了另外两层的继承。

In [None]:
class Student(MITPerson): 
    pass

class UG(Student):
    def __init__(self, name, classYear):
        MITPerson.__init__(self, name)
        self.year = classYear 
    
    def getClass(self):
        return self.year

class Grad(Student): 
    pass