# 1. 动态类型(Dynamic typing)

在我们学习列表等其它类型之前，掌握 Python 语言中最基本的动态类型概念很重要。动态类型以及它提供的多态性，无疑是 Python 语言简洁性和灵活性的基础。

## 1.1 缺少类型声明语句

如果你有静态编译类型语言 C/C++ 或 Java 的背景，你也许会有些困惑。到现在为止，我们使用变量时，都没有声明变量的类型，但变量还可以工作。例如，当输入 a = 3 时，Python 怎么知道那代表了一个整数呢？在这种情况下，Python 怎么知道 a 是什么？

你已经进入了 Python 动态类型模型的领域。当运行赋值语句 a = 3 时，即使没有告诉 Python 将 a 作为一个变量来使用，或者没有告诉它 a 应该作为一个整数类型对象，但一样也能工作。类型是在运行过程中自动决定的，而不是通过代码声明。这意味着没有必要事先声明变量。

- 变量创建
      一个变量名，就像 a，当代码第一次给它赋值时就创建了它。之后的赋值将会改变已创建的变量名的值。
    
- 变量类型
      变量永远不会有任何的和它关联的类型信息或约束。类型的概念是存在于对象中而不是变量名中。变量原本是通用的，它只是在一个特定的时间点，简单地引用了一个特定的对象而已。
      
- 变量使用
      当变量出现在表达式中时，它会马上被当前引用的对象所代替，无论这个对象是什么类型。此外，所有的变量必须在其使用前明确地赋值，使用未赋值的变量会产生错误。例如，必须把计数器变量初始化为 0，然后才能增加它。

动态类型与传统语言的类型相比有明显的不同。当我们执行
```
a = 3
```
Python 会执行三个不同的步骤去完成这个请求：

- 创建一个对象来代表数值3

- 创建一个变量 a（如果它还没有被创建的话）

- 将变量与新的对象 3 相连接。

![assignment](images/chapter03/assignment.png)

在 Python 中从变量到对象的连接称作**引用**。引用是一种关系，以内存中的指针形式实现。一旦变量被使用，Python 自动追踪这个变量到对象的连接。

- **变量**是一个系统表的元素，拥有指向对象的连接的空间。

- **对象**是分配的一块内存，有足够的空间去表示它们所代表的值。

- **引用**是自动形成的从变量到对象的指针。

## 1.2 类型属于对象，而不是变量

为了理解对象类型是如何使用的，先看对一个变量进行多次赋值后的结果：

In [1]:
a = 3                       # It's an integer
a = 'spam'                  # Now it's a string
a = 1.23                    # Now it's a floating point

这个例子对于 C/C++ 程序员来说特别奇怪，因为变量 a 的类型发生了改变。

事实并非如此。在 Python 中，情况很简单：变量名没有类型。我们没有改变变量 a 的类型，只是把 a 修改为对不同对象的引用。另一方面，对象知道自己的类型。每个对象都包含一个**头信息**，其中标记了这个对象的类型。例如，整数对象 3，包含了数值 3 以及一个头信息，用来告诉 Python 这是一个整数对象。

## 1.3 垃圾收集

我们把变量 a 赋值给了不同类型的对象，它前一个引用值发生了什么变化？

In [2]:
a = 3
a = 'spam'

答案是，之前的那个对象占用的空间就会被回收（如果它没有被其它的变量名或对象所引用的话）。这种自动回收对象空间的技术叫做**垃圾收集（GC, Garbage Collection）**。

在 Python 内部，它在每个对象中保持了一个计数器，计数器记录了当前指向该对象的引用的数目。一旦这个计数器被设置为零，这个对象的内容空间就会被自动回收。

垃圾收集最直接的好处是：在脚本中任意使用对象而不需要考虑释放内存空间。在程序运行时，Python 会自动清理那些不再使用的空间。

## 1.4 共享引用

现在引入另一个变量，看一下变量名和对象的变化：

In [3]:
a = 3
b = a

实际的效果就是变量 a 和 b 都引用了相同的对象（也就是说，指向了相同的内存空间）。多个变量名引用了同一个对象，这在 Python 中叫做共享引用。
![img](images/chapter03/shared_reference.png)

下一步，假设运行第三行语句，设置变量 a 对新的字符串进行引用。尽管这样，这并不会改变 b 的值，b 仍然引用原始的对象——整数 3。

In [4]:
a = 3
b = a
a = 'spam'

最终的引用结构如图所示：
![img](images/chapter03/shared_reference2.png)

思考下面这三条语句：

In [5]:
a = 3
b = a
a = a + 2

这里产生了同样的结果，最后的赋值将 a 设置为 5 的引用，而并不会产生改变了 b 的副作用。

不像其它的语言，在 Python 中，变量总是一个指向对象的指针，而不是可改变的内存区域的标签：给一个变量赋一个新的值，并不是替换了原始对象，而是让这个变量去引用完全不同的另一个对象。

## 1.5 共享引用和在原处修改

先看个列表对象的示例：

In [6]:
L1 = [2, 3, 4]
L2 = L1

L1 是一个包含对象 2、3 和 4 的列表，所以 L1[0] 引用对象 2，它是列表 L1 中的第一个元素。在运行两个赋值后，L1 和 L2 引用了相同的对象，就像我们之前例子中的 a 和 b 一样。如果接下来我们去修改 L1 列表：

In [7]:
L1 = [2, 3, 4]              # A mutable object
L2 = L1                     # Make a reference to the same object
L1[0] = 24                  # An in-place change
print(L1)
print(L2)

[24, 3, 4]
[24, 3, 4]


改变了 L1 所引用的对象的一个元素，这个在原处的改变不仅仅会对 L1 有影响，也会对 L2 产生影响，因为 L2 与 L1 都引用了相同的对象。

如果你不想要这样的现象发生，需要 Python 拷贝对象，而不是创建引用。

In [8]:
L1 = [2, 3, 4]
L2 = L1[:]                  # Make a copy of L1 (or list(L1), copy.copy(L1), etc.)
L1[0] = 24
print(L1)
print(L2)

[24, 3, 4]
[2, 3, 4]


这里，对 L1 的修改不会影响 L2，因为 L2 引用的是 L1 所引用对象的一个拷贝（两个变量指向不同的内存区域）。

## 1.6 共享引用和相等

由于 Python 的引用模型，在 Python 程序中有两种不同的方法去检查是否相等。

第一种是 **"=="** 操作符，**测试两个被引用对象是否有相同的值**。

第二种是 **"is"** 操作符，**检查对象的同一性**。如果两个变量名精确指向同一个对象，它会返回 **True**，所以是更严格形式的相等测试。

In [9]:
L = [1, 2, 3]
M = L                       # M and L reference the same object
L == M                      # Same values

True

In [10]:
L is M                      # Same objects

True

实际上，**is** 是代码中检测共享引用的一种方法。如果变量名引用值相等，但是是不同的对象，它的返回值是 **False**。

In [11]:
L = [1, 2, 3]
M = [1, 2, 3]
L == M

True

In [12]:
L is M

False

思考：

In [13]:
x = 3
y = 3
x is y

True

In [14]:
x = 10000
y = 10000
x is y

False

这是因为小的整数和字符串被缓存并复用了，所以 is 告诉我们 x 和 y 引用了一个相同的对象 3。

你可以向 Python 查询一个对象引用的次数：在 sys 模块中的 getrefcount() 函数会返回对象的引用次数。

In [15]:
import sys
sys.getrefcount(1)

2959

# 2. 列表(List)

列表是 Python 中最具有灵活性的**有序**集合对象类型。与字符串不同的是，列表可以包含任何种类的对象：数字、字符串甚至其它列表，并且列表属于可变对象。列表支持在原处修改的操作，可以通过指定的偏移值和分片、列表方法调用、删除语句等方法来实现。

- 任意对象的有序集合
      从功能上看，列表就是收集其它对象的地方。同事列表所包含的每一项都保持了从左到右的位置顺序（也就是说它们是序列）。

- 通过偏移读取
      就像字符串一样，你可以通过列表对象的偏移对其进行索引，从而读取对象的某一部分内容。由于列表的每一项都是有序的，那么你也可以执行诸如分片和合并之类的任务。
      
- 可变长度、异构以及任意嵌套
      与字符串不同的是，列表是可变长度的，并且可以包含任意类型的对象（字符串只能包含单个字符）。
      
- 属于可变序列
      列表支持在原处的修改，也可以响应所有针对字符串序列的操作，如索引、分片以及合并。列表支持字符串所不支持的序列操作，如删除和索引赋值操作，它们都是在原处修改列表。
      
- 对象引用数组
      从技术上来讲，列表包含了零个或多个其他对象的引用。从 Python 列表中读取一个项的速度与索引一个 C 语言数组差不多。实际上，在标准 CPython 解释器内部，列表就是 C 数组实现的。

## 2.1 基本操作

列表是序列，它支持很多与字符串相同的操作。例如，列表对 **+** 和 * 操作的响应与字符串很相似，产生的结果是一个新的列表。

In [16]:
L = []           # Empty list
L

[]

In [17]:
L = [1, 2, 3]
L

[1, 2, 3]

In [18]:
type([1, 2, 3])

list

In [19]:
len([1, 2, 3])    # Length

3

In [20]:
[1, 2, 3] + [4, 5, 6]    # Concatenation

[1, 2, 3, 4, 5, 6]

In [21]:
[4, 5, 6] * 4    # Repetition

[4, 5, 6, 4, 5, 6, 4, 5, 6, 4, 5, 6]

In [22]:
3 in [1, 2, 3]    # Membership

True

## 2.2 列表迭代和解析

for 循环从左到右遍历序列中的每一项，对每一项执行一条或多条语句。

In [23]:
for x in [1, 2, 3]:    # Iteration
    print(x, end=' ')

1 2 3 

In [24]:
res = [c * 4 for c in 'SPAM']    # List comprehensions
res

['SSSS', 'PPPP', 'AAAA', 'MMMM']

In [25]:
res = []
for c in 'SPAM':    # List comprehension equivalent
    res.append(c * 4)
res

['SSSS', 'PPPP', 'AAAA', 'MMMM']

## 2.3 索引、分片和矩阵

列表的索引和分片操作与字符串中的操作基本相同。

In [26]:
L = ['spam', 'Spam', 'SPAM!']    # Offsets start at zero
L[2], L[1:], L[-2]

('SPAM!', ['Spam', 'SPAM!'], 'Spam')

由于列表是可变的，它们支持原处改变列表对象的操作。可以将一个特定项或整个片段来改变列表的内容。Python 中的索引赋值与 C 及大多数其它语言极为相似：用一个新值取代指定偏移的对象引用。

In [27]:
L = ['spam', 'Spam', 'SPAM!']
L[1] = 'eggs'
L

['spam', 'eggs', 'SPAM!']

In [28]:
L[0:2] = ['eat', 'more']
L

['eat', 'more', 'SPAM!']

可以用嵌套列表来表示矩阵，下面一个基于列表的3x3的二维数组。如果使用一次索引，会得到一整行，如果使用两次索引，将会得到单个数值。

In [29]:
matrix = [[1, 2, 3], [4, 5, 6], [7, 8, 9]]
print(matrix[1])
print(matrix[2][0])

[4, 5, 6]
7


## 2.4 列表方法

Python 列表对象支持特定类型方法调用，其中很多方法可以在原处修改主体列表。

最常用的方法是 **append()**，它能简单的将一个单项加至列表末端。与合并不同的是，append 将参数视作为单一对象而不是列表。

In [30]:
L = ['eat', 'more', 'SPAM!']
L.append('please')     # Append method call: add item at end
L

['eat', 'more', 'SPAM!', 'please']

另一个常见方法是 **sort()**，它原地(in-place)对列表按照默认递增顺序进行排序。可以手动指定 reverse 参数为True，使得按照降序进行排序。

In [31]:
L.sort()              # Sort list items ('S' < 'e')
L

['SPAM!', 'eat', 'more', 'please']

In [32]:
L.sort(reverse=True)
print(L)

['please', 'more', 'eat', 'SPAM!']


注意：append() 和 sort() 都是原处修改列表，两个函数的返回值都是 None：

In [33]:
dummy = L.sort(reverse=True)
print(dummy)

None


再看一些更多的列表方法：

In [34]:
L = [1, 2]
L.extend([3, 4, 5])    # extend 在列表末端插入多个元素
L

[1, 2, 3, 4, 5]

In [35]:
print(L.pop())        # pop 弹出列表最后一个元素，可以与 append 方法联用，用来实现栈结构
print(L)

5
[1, 2, 3, 4]


In [36]:
L.reverse()           # reverse 原地反转列表
L

[4, 3, 2, 1]

In [37]:
L = ['spam', 'eggs', 'ham']
L.index('eggs')       # Index of an object (search/find)

1

In [38]:
L.insert(1, 'toast')  # Insert at position
L

['spam', 'toast', 'eggs', 'ham']

In [39]:
L.remove('eggs')      # Delete by value
L

['spam', 'toast', 'ham']

In [40]:
L.pop(1)              # Delete by position

'toast'

In [41]:
L

['spam', 'ham']

In [42]:
L.count('spam')      # Number of occurrences

1

In [43]:
L.clear()            # 清空列表
L

[]

# 3. 字典(Dictionary)

除了列表之外，字典也许是 Python 中最灵活的内置数据结构类型。如果把列表看作是有序的对象集合，那么就可以将字典当成是无序的集合。它们的主要差别在于：字典中的元素是通过键来存取的，而不是通过偏移存取。

字典可以取代需要搜索算法和数据结构，而这些在较低级的语言如 C/C++ 中不得不通过手工来实现。对字典进行索引是非常快速的搜索操作。字典有时也能执行其他语言中的记录、符号表的功能，可以表示稀疏的数据结构等。

- 通过键而不是偏移量来存取
      字典有时也叫 hash 表，它们通过键将一系列值联系起来，采用键作为索引从字典中获取内容。

- 任意对象的无序集合
      与列表不同，保存在字典中的项没有特定的顺序。实际上，Python 将各项随机排序，以便快速查找。键提供了字典项的象征性位置，而非物理性的位置。

- 可变长、异构、任意嵌套
      与列表类似，字典可以在原处增长或是缩短。它可以包含任何类型的对象，而且支持任意深度的嵌套。
      
- 属于可变映射类型
      通过给索引赋值，字典可以在原处修改，但不支持用于字符串和列表中的序列操作。实际上，因为字典是无序集合，所以根据固定顺序进行操作是行不通的。相反，字典是唯一内置的映射类型对象。
      
- 对象引用表
      字典是使用 hash 表实现的，一开始所占空间很小，并根据要求而增长。Python 采用最优化的 hash 算法来寻找键，因此搜索是很快速的。

## 3.1 字典的基本操作

通常情况下，创建字典并且通过键来存储、访问其中的某项：

In [44]:
D = {'spam': 2, 'ham': 1, 'eggs': 3}     # Make a dictionary
D['spam']                                # Fetch a value by key

2

In [45]:
D

{'spam': 2, 'ham': 1, 'eggs': 3}

在这里，字典被赋值给一个变量D，键 'spam' 的值为整数2。和利用偏移索引列表类似，字典用键对其进行索引操作，这也意味着用键来读取，而不是用位置来读取。

如果需要动态地创建字典，可以先构造一个空字典，然后逐一赋值：

In [46]:
D2 = {} # Assign by keys dynamically
D2['name'] = 'Bob'
D2['age'] = 40
D2

{'name': 'Bob', 'age': 40}

Python 内置函数 **len()** 也可以用于字典，它能够返回存储在字典中的键值对数目。字典的 **in** 成员关系表达式提供了键存在与否的测试方法，**keys** 方法能够返回字典中所有的键，将它们收集在一个列表中。

Python 2.x 中广泛使用的 has_key() 键存在测试方法已经在Python 3.x 中取消了，现在都应该用 **in** 表达式。

In [47]:
len(D)                       # Number of entries in dictionary

3

In [48]:
'ham' in D                  # Key membership test alternative
# D.has_key('ham')          # Deprecated

True

In [49]:
list(D.keys())               # Create a new list of D's keys

['spam', 'ham', 'eggs']

## 3.2 原处修改字典

与列表相同，字典也是可变的，因此可以在原处对它们进行修改、扩展以及缩短而不需要生成新字典。简单地给一个键赋值就可以改变或者生成元素。

In [50]:
D = {'spam': 2, 'ham': 1, 'eggs': 3}
D['ham'] = ['grill', 'bake', 'fry']      # Change entry (value=list)
D

{'spam': 2, 'ham': ['grill', 'bake', 'fry'], 'eggs': 3}

In [51]:
del D['eggs']                           # Delete entry
D

{'spam': 2, 'ham': ['grill', 'bake', 'fry']}

与列表不同的是，每当新字典键进行赋值（之前没有被赋值的键），就会在字典内生成一个新的元素。如果想扩充列表，需要使用 append() 方法或分片赋值来实现。

In [52]:
D['brunch'] = 'Bacon'                  # Add new entry
D

{'spam': 2, 'ham': ['grill', 'bake', 'fry'], 'brunch': 'Bacon'}

## 3.3 其它字典方法

In [53]:
dir(dict)

['__class__',
 '__class_getitem__',
 '__contains__',
 '__delattr__',
 '__delitem__',
 '__dir__',
 '__doc__',
 '__eq__',
 '__format__',
 '__ge__',
 '__getattribute__',
 '__getitem__',
 '__gt__',
 '__hash__',
 '__init__',
 '__init_subclass__',
 '__ior__',
 '__iter__',
 '__le__',
 '__len__',
 '__lt__',
 '__ne__',
 '__new__',
 '__or__',
 '__reduce__',
 '__reduce_ex__',
 '__repr__',
 '__reversed__',
 '__ror__',
 '__setattr__',
 '__setitem__',
 '__sizeof__',
 '__str__',
 '__subclasshook__',
 'clear',
 'copy',
 'fromkeys',
 'get',
 'items',
 'keys',
 'pop',
 'popitem',
 'setdefault',
 'update',
 'values']

字典 **values()** 和 **items()** 方法分别返回字典的值列表和 (key, value) 键值对。

In [54]:
D = {'spam': 2, 'ham': 1, 'eggs': 3}
list(D.values())

[2, 1, 3]

In [55]:
list(D.items())

[('spam', 2), ('ham', 1), ('eggs', 3)]

 **get()** 方法可以用来读取键值。读取不存在的键往往都会出错，但是使用 **get()** 方法能够返回默认值（None 或者用户定义的默认值）。这是在当键不存在时为了避免 missing-key 错误而填入默认值的一个简单方法：

In [56]:
D.get('spam')                      # A key that is there

2

In [57]:
print(D.get('toast'))              # A key that is missing

None


In [58]:
D.get('toast', 8)

8

字典的 **update()** 方法有点类似于合并，它把一个字典的键和值合并到另一个字典中，盲目的覆盖相同键的值。

In [59]:
D = {'spam': 2, 'ham': 1, 'eggs': 3}
D2 = {'toast':4, 'muffin':5}     # Lots of delicious scrambled order here
D.update(D2)
D

{'spam': 2, 'ham': 1, 'eggs': 3, 'toast': 4, 'muffin': 5}

字典 **pop()** 方法能够从字典中删除一个键并返回它的值，类似于列表的 pop() 方法。

In [60]:
D

{'spam': 2, 'ham': 1, 'eggs': 3, 'toast': 4, 'muffin': 5}

In [61]:
D.pop('muffin')        # pop a dictionary by key

5

In [62]:
D.pop('toast')         # Delete and return from a key

4

In [63]:
D

{'spam': 2, 'ham': 1, 'eggs': 3}

In [64]:
# pop a list by position
L = ['aa', 'bb', 'cc', 'dd']
L.pop()               # Delete and return from the end
print(L)
L.pop(1)              # Delete from a specific position
print(L)

['aa', 'bb', 'cc']
['aa', 'cc']


我们可以使用 for 循环对字典进行遍历。下面的例子能够生成一个表格，把程序语言名称（键）映射到它们的作者（值）。可以通过语言名称索引来读取作者的名字：

In [65]:
table = {'Python' : 'Guido van Rossum',
        'Perl':     'Larry Wall',
        'Tcl':      'John Ousterhout'}
for language in table:
    print(language, '\t', table[language])

Python 	 Guido van Rossum
Perl 	 Larry Wall
Tcl 	 John Ousterhout


## 3.4 字典用法注意事项

- 序列运算无效
      字典元素之间没有顺序的概念，类似分片（提取相邻片段）的运算是不能用的。

- 对新索引赋值会添加项
     

- 键不一定总是字符串
      此前的例子中都是用字符串作为键，但任何不可变对象都是可以的。例如可以用整数作为键，这样字典看起来很像列表。

### 使用字典模拟灵活的列表

当使用列表时，对列表末尾外的偏移复制是非法的：

In [66]:
L = []
# L[99] = 'spam'            # 空列表使用偏移值非法

In [67]:
D = {}
D[99] = 'spam'
print(D[99])
print(D)

spam
{99: 'spam'}


在这里，看起来似乎 D 是一个有100项的列表，但其实是一个由单个元素的字典。你可以像列表那样用偏移访问这一结构，但你不需要为将来可能会被赋值的位置提前分配空间。

### 字典用于稀疏数据结构

例如，多维数组中只有少数位置上有非零值：

In [68]:
Matrix = {}
Matrix[(2, 3, 4)] = 88
Matrix[(7, 8, 9)] = 99
Matrix

{(2, 3, 4): 88, (7, 8, 9): 99}

In [69]:
X = 2; Y = 3; Z = 4                           # ; separates statements
Matrix[(X, Y, Z)]

88

### 动态初始化字典

**zip()** 函数可以将两个列表动态构建成一个字典，并通过 for 循环并行步进处理。

In [70]:
D = dict(zip(['a', 'b', 'c'], [1, 2, 3]))      # Make a dict from zip result
D

{'a': 1, 'b': 2, 'c': 3}

In [71]:
D = {k: v for (k, v) in zip(['a', 'b', 'c'], [1, 2, 3])}
D

{'a': 1, 'b': 2, 'c': 3}

In [72]:
D = {x: x ** 2 for x in [1, 2, 3, 4]}         # Or: range(1, 5)
D

{1: 1, 2: 4, 3: 9, 4: 16}

In [73]:
D = {c: c * 4 for c in 'SPAM'} # Loop over any iterable
D

{'S': 'SSSS', 'P': 'PPPP', 'A': 'AAAA', 'M': 'MMMM'}

# 小结

本章探讨了Python 程序中两种最常见、最具有灵活性、功能最强大的两种集合体类型——列表和字典。

列表类型支持任意对象的以位置排序的集合体，而且可以任意嵌套，按需增长和缩短。

字典类型也是如此，不过它是以键来存储元素而不是位置，并且不会保持元素之间的顺序关系。

列表和字典都是可变的，所以它们支持各种不适用于字符串的原处修改操作。例如，列表可以通过 append() 方法来进行增长，而字典通过赋值给新键来实现增长。

# 练习

1. 举出两种方式来创建内含五个整数零的列表。

2. 创建一个字典，有26个键从"A"到"Z"，每个键关联的值是从1到26。