# 衡量离散度

离散衡量一组数据如何分布。这对于金融来说尤为重要，因为衡量风险的主要方式之一就是历史回报的离散程度。如果回报多在中心值附近，那么我们不必担心。如果回报四处分布，那么就有危险。

低离散度的数据在均值附近大量聚集，高离散度的数据有许多非常大和非常小的值。

In [1]:
import numpy as np
np.random.seed(121)

In [2]:
# Generate 20 random integers < 10
X = np.random.randint(100, size=20)

X = np.sort(X)
print('X: %s' %(X))

mu = np.mean(X)
print('Mean of X:', mu)

X: [ 3  8 34 39 46 52 52 52 54 57 60 65 66 75 83 85 88 94 95 96]
Mean of X: 60.2


# 值域

值域是数据集中最小值与最大值之差，它对异常值非常敏感。

In [3]:
# ptp: peak to peak
print('Range of X: %s' %(np.ptp(X)))

Range of X: 93


# 平均绝对偏差（MAD）

平均绝对偏差是观察值距算术均值距离的均值。

$$MAD = \frac{\sum_{i=1}^n |X_i - \mu|}{n}$$

其中 $n$ 为观察值的个数，$mu$ 为观察值的均值。

In [4]:
abs_dispersion = [np.abs(mu - x) for x in X]
MAD = np.sum(abs_dispersion)/len(abs_dispersion)
print('Mean absolute deviation of X:', MAD)

Mean absolute deviation of X: 20.52


# 方差和标准差

方差 $\sigma$ 定义为均值附近平方偏差的平均值：$$\sigma^2 = \frac{\sum_{i=1}^n (X_i - \mu)^2}{n}$$

这有时比平均绝对偏差更方便，因为绝对值不可微分，而平方平滑，并且一些优化算法依赖可微性。

标准差为方差的平方根 $\sigma$。

In [5]:
print('Variance of X:', np.var(X))
print('Standard deviation of X:', np.std(X))

Variance of X: 670.16
Standard deviation of X: 25.8874486962


应用标准差的一种方法是参考切比雪夫的不等式。对于所有 $k > 1$，标准差 $k$ 内的样本比例至少为 $1 - \frac{1}{k^2}$。

In [6]:
k = 1.25
dist = k*np.std(X)
l = [x for x in X if abs(x - mu) <= dist]
print('Observations within', k, 'stds of mean:', l)
print('Confirming that', float(len(l)) / len(X), '>', 1 - 1/k**2)

Observations within 1.25 stds of mean: [34, 39, 46, 52, 52, 52, 54, 57, 60, 65, 66, 75, 83, 85, 88]
Confirming that 0.75 > 0.36


这种情况下，切比雪夫不等式给出的界限相当宽松。这个界限很少严格，但是由于它适用于所有的数据集和分布，所有它很有用。