# 第14 章 随机游走与数据可视化

## 14.2 醉汉游走

开始这个设计过程时，我们应该先设计一些数据抽象，帮助建立这个模拟模型，这些数据抽象也可能应用于其他类型的随机游走过程的模拟。**一般来说，我们开发出的新数据类型应该对应于建模情形中出现的对象。**这个情形中有3个明显的类型：`Location`、`Field`和`Drunk`。我们介绍实现这些类型的类时，你应该思考每个类在我们即将建立的模拟模型中会起到什么作用。

我们从图14-2中的`Location`类开始，这个类虽然简单，但明确体现了两个重要的决策。首先，它告诉我们这个模拟中最多只有两个维度。例如，模拟模型中不会包含高度的变化，这和上面的图形是一致的。其次，因为提供给`deltaX`和`deltaY`的值可以是浮点数，不要求是整数，所以这个类没有限制醉汉可能的移动方向。这就对前面的非正式模型进行了扩展。在那个模型中，每一步都是一个长度单位，而且必须平行于X轴或Y轴。

图14-2中的`Field`类也很简单，但也体现了一些值得注意的决策。这个类的作用是将醉汉与位置进行映射。它对位置没有限制，所以可以认为`Field`的范围是无限的。它允许将多个醉汉以位置随机的方式添加到一个`Field`对象中。对醉汉移动的方式没有任何限制，没有禁止多个醉汉出现在同一位置，也没有禁止一个醉汉穿过被其他醉汉占据的空间。

图14-3中的`Drunk`类和`UsualDrunk`类定义了醉汉在田地中游走的方式。特别地，`UsualDrunk`类中的`stepChoices`的值引入了一个限制，即每一步都是一个长度单位，并且必须平行于X轴或Y轴。因为函数`random.choice`随机返回参数序列中的一个元素，所以4种游走方式都具有同样的概率，而且不受上一次游走的影响。稍后会介绍`Drunk`类的另一个子类，它具有不同的行为方式。

In [5]:
class Location(object):
    def __init__(self, x, y):
        """x和y为数值型"""
        self.x, self.y = x, y
        
    def move(self, deltaX, deltaY):
        """deltaX和deltaY为数值型"""
        return Location(self.x + deltaX, self.y + deltaY)
    
    def getX(self):
        return self.x
    
    def getY(self):
        return self.y
    
    # 和其他的距离
    def distFrom(self, other):
        ox, oy = other.x, other.y
        xDist, yDist = self.x - ox, self.y - oy
        return (xDist**2 + yDist**2)**0.5

    def __str__(self):
        return '<' + str(self.x) + ', ' + str(self.y) + '>'

In [6]:
# 定义醉汉的类
class Field(object):
    def __init__(self):
        self.drunks = {}
    
    def addDrunk(self, drunk, loc):
        if drunk in self.drunks:
            raise ValueError('Duplicate drunk')
        else:
            self.drunks[drunk] = loc
    
    def moveDrunk(self, drunk):
        if drunk not in self.drunks:
            raise ValueError('Drunk not in field')
        xDist, yDist = drunk.takeStep()    # 未知函数
        currentLocation = self.drunks[drunk]
        #使用Location的move方法获得一个新位置
        self.drunks[drunk] = currentLocation.move(xDist, yDist)
    
    def getLoc(self, drunk):
        if drunk not in self.drunks:
            raise ValueError('Drunk not in field')
        return self.drunks[drunk]

In [12]:
import random

class Drunk(object):
    def __init__(self, name = None):
        # 假设name是字符串
        self.name = name
    
    def __str__(self):
        if self != None:
            return self.name
        return 'Anonymous'

class UsualDrunk(Drunk):
    def takeStep(self):
        stepChoices = [(0,1), (0,-1), (1, 0), (-1, 0)]
        return random.choice(stepChoices)

（有bug的）醉汉游走:

In [16]:
# 下一步就是使用这些类建立一个模拟模型来回答最初的问题。
def walk(f, d, numSteps):
    """假设f是一个Field对象，d是f中的一个Drunk对象，numSteps是正整数。
    将d移动numSteps次；返回这次游走最终位置与开始位置之间的距离"""
    start = f.getLoc(d)
    for s in range(numSteps):
        f.moveDrunk(d)
    return start.distFrom(f.getLoc(d))

def simWalks(numSteps, numTrials, dClass):
    """假设numSteps是非负整数，numTrials是正整数，
        dClass是Drunk的一个子类。
        模拟numTrials次游走，每次游走numSteps步。
        返回一个列表，表示每次模拟的最终距离"""
    Homer = dClass()
    origin = Location(0, 0)
    distances = []
    for t in range(numTrials):
        f = Field()
        f.addDrunk(Homer, origin)
        distances.append(round(walk(f, Homer,numSteps), 1))
    return distances

def drunkTest(walkLengths, numTrials, dClass):
    """假设walkLengths是非负整数序列
        numTrials是正整数，dClass是Drunk的一个子类
        对于walkLengths中的每个步数，运行numTrials次simWalks函数，并输出结果"""
    for numSteps in walkLengths:
        distances = simWalks(numSteps, numTrials, dClass)
        print(dClass.__name__, 'random walk of', numSteps, 'steps')
        print(' Mean =', round(sum(distances)/len(distances), 4))
        print(' Max =', max(distances), 'Min =', min(distances))

函数walk模拟了numSteps步的一次游走。函数simWalks调用walk模拟numTrials次游走，每次numSteps步。函数drunkTest调用simWalks模拟多次不同长度的游走。

simWalks的参数dClass是一个class类型，用于在函数的第一行代码中创建一个合适的Drunk子类。然后，从`Field.moveDrunk`中调用`drunk.takeStep`时，会自动选择相应子类中的方法。

函数drunkTest中也有一个class类型的参数dClass，它被使用了两次，一次在调用simWalks时，一次在第一条print语句中。在print语句中，使用class类型的内置属性`__name__`得到一个字符串，这个字符串就是类名。


In [14]:
# 运行drunkTest((10, 100, 1000, 10000), 100, UsualDrunk)，输出以下结果：
drunkTest((10, 100, 1000, 10000), 100, UsualDrunk)

UsualDrunk random walk of 10 steps
 Mean = 8.756
 Max = 19.0 Min = 1.4
UsualDrunk random walk of 100 steps
 Mean = 8.292
 Max = 22.0 Min = 0.0
UsualDrunk random walk of 1000 steps
 Mean = 8.938
 Max = 21.6 Min = 0.0
UsualDrunk random walk of 10000 steps
 Mean = 8.411
 Max = 22.8 Min = 1.4


这真出乎意料，根据我们在前面得到的直观印象，平均距离应该随着步数的增加而增加。这个结果说明，或者我们的直观印象是错的，或者模拟过程有错误，也可能二者都错了。

首先要做的就是使用我们已经知道答案的值再做一次模拟，然后确定模拟得出的结果是否与预期结果相匹配。我们试一下走0步（这时与原点之间距离的均值、最小值和最大值都是0）和走1步（这时与原点之间距离的均值、最小值和最大值都是1）的结果。

In [15]:
# 运行drunkTest((0, 1), 100, UsualDrunk)后，得到的结果令人难以置信：
drunkTest((0, 1), 100, UsualDrunk)

UsualDrunk random walk of 0 steps
 Mean = 8.798
 Max = 18.9 Min = 0.0
UsualDrunk random walk of 1 steps
 Mean = 8.22
 Max = 21.0 Min = 1.4


走0步的平均距离怎么可能比8还大？我们的模拟模型中肯定至少有一个bug。进行了一番调查之后，问题清楚了。在simWalks中，函数调用`walk(f, Homer, numTrials)`应该是`walk(f, Homer,numSteps)`。

这件事给了我们一个非常重要的教训：看到模拟结果时，永远要持有一种怀疑态度。我们应该扪心自问，这个结果是否真的合理，还要使用对结果非常有把握的参数进行“冒烟测试”①。

使用修正过的模型运行那两个最简单的测试时，模型给出了完全符合我们预期的答案：

In [17]:
drunkTest((0, 1), 100, UsualDrunk)

UsualDrunk random walk of 0 steps
 Mean = 0.0
 Max = 0.0 Min = 0.0
UsualDrunk random walk of 1 steps
 Mean = 1.0
 Max = 1.0 Min = 1.0


现在运行步数更多的游走测试时，会输出以下结果：

In [None]:
drunkTest((0, 1), 10, UsualDrunk)
drunkTest((0, 1), 100, UsualDrunk)
drunkTest((0, 1), 1000, UsualDrunk)
drunkTest((0, 1), 10000, UsualDrunk)

正如我们所料，到原点的平均距离会随着步数的增加而增加。

下面看图14-5中到原点的平均距离的统计图形。为了感觉这个距离增长的速度，我们在图中放置了一条直线，表示步数的平方根（并将步数提高到100万）。从图14-5中可以看出，步数的平方根和到原点的距离都是一条直线，因为我们在两个坐标轴上都使用了对数标度。

![figure1.png](attachment:figure1.png)

我们能从这张图中得到一些信息，来预测醉汉的最终位置吗？这张图确实可以告诉我们，从平均意义上来说，醉汉应该位于以原点为圆心、到原点的期望距离为半径的圆上的某个位置。**但它几乎不能告诉我们，在一次具体的游走结束后，我们在哪个确切的位置能够找到醉汉。**下一节会继续讨论这个问题。

## 14.3 有偏随机游走

## 14.4 变幻莫测的田地