In [1]:
# 8. 对象引用、可变性和垃圾回收

# 8.1 变量不是盒子
# 示例 8-1 变量 a 和 b 引用同一个列表，而不是那个列表的副本
a = [1, 2, 3]
b = a
a.append(4)
b

[1, 2, 3, 4]

In [2]:
# 如果把变量想象为盒子，那么无法解释 Python 中的赋值; 应该把变量视作便利贴，这样示例 8-1 中的行为就好解释了

# 示例 8-2 证明赋值语句的右边先执行。
class Gizmo:
    def __init__(self):
        print(f'Gizmo id: {id(self)}')
        
x = Gizmo()

Gizmo id: 139870742709640


In [3]:
y = Gizmo() * 10

Gizmo id: 139870742590856


TypeError: unsupported operand type(s) for *: 'Gizmo' and 'int'

In [None]:
"""
由以上示例可以看出，赋值语句的右边先一步执行，然后左边的变量才会绑定到对象上，这就像是为对象贴上标注，忘了盒子，盒子不对。至少在python上不对

因为变量只不过是标注，所以无法阻止为对象贴上多个标注。贴的多个 标注，就是别名。
"""

In [5]:
# 8.2 标识、相等性和别名

# 示例 8-3 charles 和 lewis 指代同一个对象
charles = {'name': 'tom', 'born': 1832}
lewis = charles
lewis is charles

True

In [6]:
id(lewis), id(charles)

(139870719533488, 139870719533488)

In [7]:
lewis['balance'] = 950
charles

{'name': 'tom', 'born': 1832, 'balance': 950}

In [None]:
"""
每个变量都有标识、类型和值。对象一旦创建，它的标识绝不会 变;你可以把标识理解为对象在内存中的地址。
is 运算符比较两个 对象的标识;id() 函数返回对象标识的整数表示。

对象 ID 的真正意义在不同的实现中有所不同。在 CPython 中，id() 返 回对象的内存地址，但是在其他 Python 解释器中可能是别的值。
关键 是，ID 一定是唯一的数值标注，而且在对象的生命周期中绝不会变。

其实，编程中很少使用 id() 函数。标识最常使用 is 运算符检查，而 不是直接比较 ID。接下来讨论 is 和 == 的异同.
"""

In [8]:
# 8.2.1 在 == 和 is 之间选择
"""
== 运算符比较两个对象的值(对象中保存的数据)，而 is 比较对象的标识。

通常，我们关注的是值，而不是标识，因此 Python 代码中 == 出现的频率比is高。
然而，在变量和单例值之间比较时，应该使用 is。目前，最常使用 is检查变量绑定的值是不是 None。下面是推荐的写法:
"""
x is None

# 否定的正确写法是：
x is not None

False

In [None]:
"""
is 运算符比 == 速度快，因为它不能重载，所以 Python 不用寻找并调用 特殊方法，而是直接比较两个整数 ID。
而 a == b 是语法糖，等同于 a.__eq__(b)。继承自 object 的 __eq__ 方法比较两个对象的 ID，结 果与 is 一样。

但是多数内置类型使用更有意义的方式覆盖了 __eq__ 方法，会考虑对象属性的值。相等性测试可能涉及大量处理工作，
例 如，比较大型集合或嵌套层级深的结构时。
"""

In [9]:
# 8.2.2 元组的相对不可变性
"""
元组与多数 Python 集合(列表、字典、集，等等)一样，保存的是对象的引用。 
如果引用的元素是可变的，即便元组本身不可变，元素依然 可变。也就是说，元组的不可变性其实是指 tuple 数据结构的物理内容(即保存的引用)不可变，
与引用的对象无关。
"""

# 示例 8-5 表明，元组的值会随着引用的可变对象的变化而变。元组中不 可变的是元素的标识

t1 = (1, 2, [30, 40])
t2 = (1, 2, [30, 40])
t1 == t2

True

In [10]:
id(t1[-1])

139870751288968

In [11]:
t1[-1].append(99)  # t1 不可变，但是 t1[-1] 可变
t1

(1, 2, [30, 40, 99])

In [12]:
id(t1[-1])

139870751288968

In [13]:
t1 == t2

False

In [14]:
# 8.3 默认做浅复制

# 复制列表(或多数内置的可变集合)最简单的方式是使用内置的类型构造方法
l1 = [3, [55, 44], (7, 8 , 9)]
l2 = list(l1)  
l2

[3, [55, 44], (7, 8, 9)]

In [15]:
l2 == l1

True

In [16]:
l2 is l1

False

In [None]:
"""
list(l1) 创建 l1 的副本 对列表和其他可变序列来说，还能使用简洁的 l2 = l1[:] 语句创建副本

构造方法或 [:] 做的是浅复制(即复制了最外层容器，副本中 的元素是源容器中元素的引用)。
如果所有元素都是不可变的，那么这 样没有问题，还能节省内存。但是，如果有可变的元素，可能就会导致 意想不到的问题。
"""

In [17]:
# 示例 8-6 为一个包含另一个列表的列表做浅复制;把这段代码复 制粘贴到 Python Tutor [http://www.pythontutor.com/visualize.html#mode=edit]网站中
# 看看动画效果

l1 = [3, [55, 44], (7, 8 , 9)]
l2 = list(l1)
l1.append(100)
l1[1].remove(55)
print('l1:', l1)
print('l2:', l2)
l2[1] += [33, 22]
l2[2] += (10, 11)
print('l1:', l1)
print('l2:', l2)

l1: [3, [44], (7, 8, 9), 100]
l2: [3, [44], (7, 8, 9)]
l1: [3, [44, 33, 22], (7, 8, 9), 100]
l2: [3, [44, 33, 22], (7, 8, 9, 10, 11)]


In [25]:
# 为任意对象做深复制和浅复制
"""
copy 模块提供的 deepcopy 和 copy 函数能为任意对象做 深复制和浅复制。
为了演示 copy() 和 deepcopy() 的用法，示例 8-8 定义了一个简单的 类，Bus。这个类表示运载乘客的校车，在途中乘客会上车或下车。
"""
# 示例 8-8 校车乘客在途中上车和下车
class Bus:
    
    def __init__(self, passengers=None): 
        if passengers is None:
            self.passengers = [] 
        else:
            self.passengers = list(passengers)
        
    def pick(self, name): 
        self.passengers.append(name)
        
    def drop(self, name):
        self.passengers.remove(name)

In [26]:
"""
接下来，在示例 8-9 中的交互式控制台中，我们将创建一个 Bus 实例 (bus1)和两个副本，
一个是浅复制副本(bus2)，另一个是深复制 副本(bus3)，看看在 bus1 有学生下车后会发生什么。
"""
# 示例 8-9 使用 copy 和 deepcopy 产生的影响
import copy
bus1 = Bus(['Alice', 'Bill', 'Claire', 'David'])
bus2 = copy.copy(bus1)
bus3 = copy.deepcopy(bus1)
id(bus1), id(bus2), id(bus3)

(139870718038872, 139870718038592, 139870718038368)

In [27]:
bus1.drop('Bill')
bus2.passengers

['Alice', 'Claire', 'David']

In [28]:
id(bus1.passengers), id(bus2.passengers), id(bus3.passengers)

(139870717768456, 139870717768456, 139870370052936)

In [29]:
bus3.passengers

['Alice', 'Bill', 'Claire', 'David']

In [30]:
"""
注意，一般来说，深复制不是件简单的事。如果对象有循环引用，那么 这个朴素的算法会进入无限循环。
deepcopy 函数会记住已经复制的对 象，因此能优雅地处理循环引用，如示例 8-10 所示。
"""

# 示例 8-10 循环引用:b 引用 a，然后追加到 a 中;deepcopy 会 想办法复制 a
a = [10, 20]
b = [a, 30]
a.append(b)
a

[10, 20, [[...], 30]]

In [32]:
from copy import deepcopy
c = deepcopy(a)
c

[10, 20, [[...], 30]]

In [33]:
# 8.4 函数的参数作为引用时
"""
Python 唯一支持的参数传递模式是共享传参(call by sharing)。多数面 向对象语言都采用这一模式，包括 Ruby、Smalltalk 和 Java(Java 的引 用类型是这样，基本类型按值传参)。
共享传参指函数的各个形式参数获得实参中各个引用的副本。也就是 说，函数内部的形参是实参的别名。
这种方案的结果是，函数可能会修改作为参数传入的可变对象，但是无 法修改那些对象的标识(即不能把一个对象替换成另一个对象)。
示例 8-11 中有个简单的函数，它在参数上调用 += 运算符。分别把数字、列 表和元组传给那个函数，实际传入的实参会以不同的方式受到影响。

"""

# 示例 8-11 函数可能会修改接收到的任何可变对象
def f(a, b):
    a += b
    return a

x = 1
y = 2
f(x, y)

3

In [34]:
x, y

(1, 2)

In [35]:
a = [1, 2]
b = [3, 4]
f(a, b)

[1, 2, 3, 4]

In [36]:
a, b  # 发生了变化

([1, 2, 3, 4], [3, 4])

In [37]:
t = (10, 20)
u = (30, 40)
f(t, u)

(10, 20, 30, 40)

In [38]:
t, u

((10, 20), (30, 40))

In [None]:
# 8.4.1 不要使用可变类型作为参数的默认值
"""
可选参数可以有默认值，这是 Python 函数定义的一个很棒的特性，这样 我们的 API 在进化的同时能保证向后兼容。
然而，我们应该避免使用可 变的对象作为参数的默认值。

下面在示例 8-12 中说明这个问题。我们以示例 8-8 中的 Bus 类为基础 定义一个新类， HauntedBus，然后修改 __init__ 方法。
这一 次，passengers 的默认值不是 None，而是 []，这样就不用像之前那 样使用 if 判断了。这个“聪明的举动”会让我们陷入麻烦。

"""

In [62]:
# 示例 8-12 一个简单的类，说明可变默认值的危险

class HauntedBus: 
    """备受幽灵乘客折磨的校车"""
    def __init__(self, passengers=[]):  # 1
        self.passengers = passengers    # 2
        
    def pick(self, name): 
        self.passengers.append(name)    # 3
    
    def drop(self, name): 
        self.passengers.remove(name)

In [63]:
"""
如果没传入 passengers 参数，使用默认绑定的列表对象，一开始 是空列表。
❷ 这个赋值语句把 self.passengers 变成 passengers 的别名，而没 有传入 passengers 参数时，后者又是默认列表的别名。
❸ 在 self.passengers 上调用 .remove() 和 .append() 方法时，修 改的其实是默认列表，它是函数对象的一个属性。
HauntedBus 的诡异行为如示例 8-13 所示。
"""

# 示例 8-13 备受幽灵乘客折磨的校车
bus1 = HauntedBus(['Alice', 'Bill'])
bus1.passengers

['Alice', 'Bill']

In [64]:
bus1.pick('Charlie')

In [65]:
bus1.drop('Alice')
bus1.passengers

['Bill', 'Charlie']

In [66]:
bus2 = HauntedBus()
bus2.pick('Carrie')
bus2.passengers

['Carrie']

In [67]:
bus3 = HauntedBus()
bus3.passengers

['Carrie']

In [68]:
bus3.pick('Dave')
bus2.passengers

['Carrie', 'Dave']

In [69]:
bus2.passengers is bus3.passengers

True

In [70]:
bus1.passengers

['Bill', 'Charlie']

In [None]:
"""
问题在于，没有指定初始乘客的 HauntedBus 实例会共享同一个乘客列表。

这种问题很难发现。如示例 8-13 所示，实例化 HauntedBus 时，如果 传入乘客，会按预期运作。但是不为 HauntedBus 指定乘客的话，
奇怪 的事就发生了，这是因为 self.passengers 变成了 passengers 参数 默认值的别名。出现这个问题的根源是，
默认值在定义函数时计算(通 常在加载模块时)，因此默认值变成了函数对象的属性。
因此，如果默 认值是可变对象，而且修改了它的值，那么后续的函数调用都会受到影 响。

运行示例 8-13 中的代码之后，可以审查 HauntedBus.__init__ 对 象，看看它的 __defaults__ 属性中的那些幽灵学生:

"""

In [71]:
HauntedBus.__init__

<function __main__.HauntedBus.__init__(self, passengers=['Carrie', 'Dave'])>

In [72]:
HauntedBus.__init__.__defaults__[0] is bus2.passengers

True

In [75]:
# 8.4.2 防御可变参数

"""
如果定义的函数接收可变参数，应该谨慎考虑调用方是否期望修改传入的参数。

例如，如果函数接收一个字典，而且在处理的过程中要修改它，那么这 个副作用要不要体现到函数外部?具体情况具体分析。
这其实需要函数 的编写者和调用方达成共识。


在本章最后一个校车示例中，TwilightBus 实例与客户共享乘客列 表，这会产生意料之外的结果。
在分析实现之前，我们先从客户的角度 看看 TwilightBus 类是如何工作的。
"""

# 示例 8-14 从 TwilightBus 下车后，乘客消失了
basketball_team = ['Sue', 'Tina', 'Maya', 'Diana', 'Pat']
bus = TwilightBus(basketball_team)
bus.drop('Tina')
bus.drop('Pat')
basketball_team
# >>> ['Sue', 'Mayya', 'Diana']

['Sue', 'Maya', 'Diana']

In [None]:
"""
❶ basketball_team 中有 5 个学生的名字。
❷ 使用这队学生实例化 TwilightBus。
❸ 一个学生从 bus 下车了，接着又有一个学生下车了。 
❹ 下车的学生从篮球队中消失了!
TwilightBus 违反了设计接口的最佳实践，即“最少惊讶原则”。学生从 校车中下车后，她的名字就从篮球队的名单中消失了，这确实让人惊 讶。
"""

In [74]:
# 示例 8-15 一个简单的类，说明接受可变参数的风险    8-15 是 TwilightBus 的实现，随后解释了出现这个问题的原因

class TwilightBus:
    """让乘客销声匿迹的校车"""
    
    def __init__(self, passengers=None):
        if passengers is None:
            self.passengers = []                  # 1
        else:      
            self.passengers = passengers          # 2
            
    def pick(self, name):
        self.passengers.append(name)
        
    def drop(self, name):
        self.passengers.remove(name)              # 3

In [None]:
"""
❶ 这里谨慎处理，当 passengers 为 None 时，创建一个新的空列表。
❷ 然而，这个赋值语句把 self.passengers 变成 passengers 的别 名，而后者是传给 __init__ 方法的实参(即示例 8-14 中的 basketball_team)的别名。
❸ 在 self.passengers 上调用 .remove() 和 .append() 方法其实会 修改传给构造方法的那个列表。

这里的问题是，校车为传给构造方法的列表创建了别名。正确的做法 是，校车自己维护乘客列表。
修正的方法很简单:在 __init__ 中，传 入 passengers 参数时，应该把参数值的副本赋值给 self.passengers，像示例 8-8 中那样做(8.3 节)。
"""
def __init__(self, passengers=None): 
    if passengers is None:
        self.passengers = [] 
    else:
        self.passengers = list(passengers)  # 1
        
# 创建 passengers 列表的副本;如果不是列表，就把它转换成列 表。
"""
在内部像这样处理乘客列表，就不会影响初始化校车时传入的参数了。 
此外，这种处理方式还更灵活:
现在，传给 passengers 参数的值可以 是元组或任何其他可迭代对象，例如 set 对象，甚至数据库查询结果， 
因为 list 构造方法接受任何可迭代对象。自己创建并管理列表可以确 保支持所需的 .remove() 和 .append() 操作，这样 .pick() 和
.drop() 方法才能正常运作。
"""

In [None]:
# 8.5 del 和垃圾回收
"""
对象绝不会自行销毁;然而，无法得到对象时，可能会被当作垃圾回收。
                              —— Python 语言参考手册中“Data Model”一章
del 语句删除名称，而不是对象。del 命令可能会导致对象被当作垃圾 回收，但是仅当删除的变量保存的是对象的最后一个引用，或者无法得 到对象时。
重新绑定也可能会导致对象的引用数量归零，导致对象被 销毁。

> 如果两个对象相互引用，像示例 8-10 那样，当它们的引用只存在二者之间时，垃圾回收程序 会判定它们都无法获取，进而把它们都销毁。

"""


"""

在 CPython 中，垃圾回收使用的主要算法是引用计数。实际上，每个对 象都会统计有多少引用指向自己。当引用计数归零时，对象立即就被销 毁:
CPython 会在对象上调用 __del__ 方法(如果定义了)，然后释放 分配给对象的内存。CPython 2.0 增加了分代垃圾回收算法，
用于检测 引用循环中涉及的对象组——如果一组对象之间全是相互引用，即使再 出色的引用方式也会导致组中的对象不可获取。
Python 的其他实现有更 复杂的垃圾回收程序，而且不依赖引用计数，这意味着，对象的引用数 量为零时可能不会立即调用 __del__ 方法。

A. Jesse Jiryu Davis 写 的“PyPy, Garbage Collection, and a Deadlock”一文 
(https://emptysqua.re/blog/pypy-garbage-collection-and-a-deadlock/)对 __del__ 方法的恰当用法和不当用法做了讨论。
"""

In [76]:
# 为了演示对象生命结束时的情形，示例 8-16 使用 weakref.finalize 注册一个回调函数，在销毁对象时调用。
# 示例 8-16 没有指向对象的引用时，监视对象生命结束时的情形

import weakref
s1 = {1, 2, 3}
s2 = s1
def bye():
    print('Gone with the wind...')

ender = weakref.finalize(s1, bye)
ender.alive

True

In [77]:
del s1
ender.alive

True

In [78]:
s2 = 'spam'

Gone with the wind...


In [79]:
ender.alive

False

In [None]:
# 8.6 弱引用
"""
正是因为有引用，对象才会在内存中存在。当对象的引用数量归零后， 垃圾回收程序会把对象销毁。但是，有时需要引用对象，而不让对象存 在的时间超过所需时间。
这经常用在缓存中。
弱引用不会增加对象的引用数量。引用的目标对象称为所指对象 (referent)。因此我们说，弱引用不会妨碍所指对象被当作垃圾回收。
弱引用在缓存应用中很有用，因为我们不想仅因为被缓存引用着而始终 保存缓存对象。
"""

In [80]:
"""
示例 8-17 展示了如何使用 weakref.ref 实例获取所指对象。如果对象 存在，调用弱引用可以获取对象;否则返回 None。
  
 示例 8-17 是一个控制台会话，Python 控制台会自动把 _ 变量 绑定到结果不为 None 的表达式结果上。这对我想演示的行为有影 响，
 不过却凸显了一个实际问题:微观管理内存时，往往会得到意 外的结果，因为不明显的隐式赋值会为对象创建新引用。控制台中 的 _ 变量是一例。
 调用跟踪对象也常导致意料之外的引用。
"""

# 示例 8-17 弱引用是可调用的对象，返回的是被引用的对象;如果 所指对象不存在了，返回 None
import weakref
a_set = {0, 1}
wref = weakref.ref(a_set)
wref

<weakref at 0x7f361bd67138; to 'set' at 0x7f361bd54c88>

In [81]:
wref()

{0, 1}

In [82]:
a_set = {2, 3, 4}
wref()

{0, 1}

In [83]:
wref() is None

False

In [85]:
wref() is None  # True

False

In [None]:
"""
本节示例仍然来自于 《流畅的python》一书，此节 8-17 所示例中并未达到实际效果。见 第85行 注释。

查明原因不详。猜测是因为编译器的不同。若想达到书中效果。可以使用 python 自带的IDE。ipython 和 jupyter notebook 失败。其他未测
"""

In [92]:
# 8.6.1 WeakValueDictionary简介
"""
WeakValueDictionary 类实现的是一种可变映射，里面的值是对象的 弱引用。
被引用的对象在程序中的其他地方被当作垃圾回收后，对应的 键会自动从 WeakValueDictionary 中删除。
因 此，WeakValueDictionary 经常用于缓存。
"""

# 示例 8-18 Cheese 有个 kind 属性和标准的字符串表示形式
class Cheese:
    
    def __init__(self, kind):
        self.kind = kind
        
    def __repr__(self):
        return f'Cheese({self.kind})'

In [104]:
# 示例 8-19 顾客:“你们店里到底有没有奶酪?”
import weakref
stock = weakref.WeakValueDictionary()
catalog = [Cheese('Red Leicester'), Cheese('Tilsit'), Cheese('Brie'), Cheese('Parmesan')]

for cheese in catalog:
    stock[cheese.kind] = cheese

sorted(stock.keys())

['Brie', 'Parmesan', 'Red Leicester', 'Tilsit']

In [105]:
del catalog

In [106]:
sorted(stock.keys())

['Parmesan']

In [107]:
del cheese
sorted(stock.keys())

[]

In [None]:
# 20200602 注明，弱引用的使用委实有些看不懂，放弃。哪天见到再说