
# Vapnik-Chervonenkis 定理

## 经验概率分布

事实上，我们从 DKW 不等式出发，利用经验 CDF 来估计真实的 CDF 是一个更一般思想的特例。

令 $ X_1,\cdots,X_n\sim P $ 是来自概率测度 $ P $ 的一个独立同分布的样本，我么可以定义经验概率分布 $ \hat{\mathbb{P}}_n $ 为

$$
    \hat{\mathbb{P}}_n(A) = \frac{1}{n}\sum_{i=1}^n I_{X_i \in A}
$$

对于一个固定的 $ A $，我们有 $ n \hat{\mathbb{P}}_n(A) \xrightarrow{P} \text{Binomial}(n,p) $，其中 $ p = P(A) $。由 Hoeffding 不等式知，

$$
    \mathbb{P}\left( \left| \hat{\mathbb{P}}_n(A) - P(A) \right| > \epsilon \right) \leq 2e^{-2n\epsilon^2}
$$

我们更加感兴趣的是在整个集合上一致的行为，即对于某个集合类 $ \mathcal{A} $，

$$
    \mathbb{P}\left( \sup_{A \in \mathcal{A}} \left| \hat{\mathbb{P}}_n(A) - P(A) \right| > \epsilon \right) \leq 某个小的数目
$$

如果取 $ \mathcal{A} = \{ A = (-\infty, t] : t\in \mathbb{R}\} $ 时，我们就得到了 DKW 不等式意图的条件。

## Vapnik-Chervonenkis 定理

令 $ \mathcal{A} $ 为一个集合类，给定一个有穷的集合 $ R = \{x_1, x_2, \cdots, x_n\} $，令

$$
    N_{\mathcal{A}}(R) = \# \{ R \cap A : A \in \mathcal{A}\}
$$

为当 $ A $ 在 $ \mathcal{A} $ 中变化时，$ R $ 取出来的子集数目。在 $ N_{\mathcal{A}}(R) = 2^n $ 时，称 $ R $ 是被 $ \mathcal{A} $ 所粉碎的。粉碎系数定义为

$$
    s(\mathcal{A}, n) = \max_{R \in \mathcal{F}_n} N_{\mathcal{A}}(R)
$$

其中 $ \mathcal{F}_n $ 是包含所有大小为 $ n $ 的有穷集合。

我们在这里将这个定理重述一遍，因为这个定理的叙述有些晦涩。

首先我们要明确一下我们所取的元素所属的空间，例如 $\mathbb{R}$ 或者 $\mathbb{R}^2$ 等，那么定理中的 $ \mathcal{F}_n $ 是由空间中的所有元素构成的 $ n $ 元集合的集合族。而 $ s(\mathcal{A}, n) $ 是对所有的 $ R \in \mathcal{F}_n $ 中的最大的 $ N_{\mathcal{A}}(R) $ 的取值。而这里的 $ \mathcal{A} $ 在多数情况下可以是如上文介绍的 DKW 不等式中的集族一样的实数轴上的所有半轴，或是 $\mathbb{R}^2$ 中的半平面等等，而其中具体的每个 $ A $ 是 $ \mathcal{A} $ 中的一个实例。如果还是难以理解，可以结合后文的例子来理解。

现在我们来叙述 Vapnik-Chervonenkis 定理。

对于任意的 $ P, n $ 和 $ \epsilon > 0 $，

$$
    \mathbb{P} \left( \sup_{A \in \mathcal{A}} \left| \hat P_n(A) - P(A) \right| > \epsilon \right) \leq 8s(\mathcal{A}, n)e^{-n\epsilon^2 / 32}
$$

这一定理的证明可以参见 [V. N. Vapnik, A. Ja. Červonenkis (1997)](https://epubs.siam.org/doi/10.1137/1116025)。

## Vapnik-Chervonenkis 维度与粉碎系数的上界

Vapnik-Chervonenkis 定理中的不等式右边的粉碎系数 $ s(\mathcal{A}, n) $ 还是会随着 $ n $ 增大，我们期望它不随 $ n $ 而增长太快。很幸运，粉碎系数是随着 $ n $ 增长而多项式增长的。为了说明这一点，我们要引入 Vapnik-Chervonenkis (VC) 维度。

VC 维度定义为

$$
    \text{VC}(\mathcal{A}) = 
    \begin{cases}
        \infty, & \text{if}\space \forall n, s(\mathcal{A}, n) = 2^n \\
        \max_{k} s(\mathcal{A}, k) = 2^k, & \text{otherwise}
    \end{cases}
$$

通俗地来说，这样定义的 VC 维度就是被 $\mathcal{A}$ 粉碎的最大有穷集合 $ F $ 的大小。

通过如下的定理，如果 $\mathcal{A}$ 的 VC 维度有穷，那么粉碎系数作为一个多项式随着 $ n $ 增长。

如果 $\mathcal{A}$ 的 VC 维度为有穷的 $ v $，那么

$$
    s(\mathcal{A}, n) \leq n^v + 1
$$

此时，

$$
    \mathbb{P} \left( \sup_{A \in \mathcal{A}} \left| \hat P_n(A) - P(A) \right| > \epsilon \right) \leq 8(n^v + 1)e^{-n\epsilon^2 / 32}
$$

这一定理的证明仍可以参见 [V. N. Vapnik, A. Ja. Červonenkis (1997)](https://epubs.siam.org/doi/10.1137/1116025)。

如果要通俗地说粉碎和 VC 维度，我们可以用现在在互联网上能检索到的最多的例子来说明。我们将 VC 定理中的 $ \mathcal{A} $ 看作是一类分类器的集合，其中每个元素 $ A $ 是一个具体的分类器，而 $ R $ 则是某个空间中的一些样本点，一共 $ n $ 个，那么 $ \mathcal{F}_n $ 就是这个空间所有样本点所组成的 $ n $ 元集合。那么 $ N_{\mathcal{A} }(R) $ 的含义是这个样本被 $ \mathcal{A} $ 中的所有分类器能分出来的状况数，这也是为什么粉碎与 $2^n $ 有联系，粉碎就是能够把 $ n $ 个样本的所有情况都能够分出来，VC 维度就是这个分类器对应的最大的 $ n $。

## 一些例子

1. 令 $\mathcal{A}=\{(-\infty,x]:x\in\mathbb{R}\}$，则 $\mathcal{A}$ 粉碎每个单点集 $\{x\}$,但是不粉碎形为 $\{x,y\}$ 的集合。因此，$\text{VC}(\mathcal{A})=1$。因为 $\mathbb{P}((-\infty,x]) = F(x)$ 为 CDF，而且 $\hat{\mathbb{P}}((-\infty,x])=\hat{F}_n(x)$ 为经验 CDF，得到

    $$ \mathbb{P}\left(\sup_{x}|\hat{F}_{n}(x)-F(x)|>\epsilon\right)\leq 8(n+1)\mathrm{e}^{-n\epsilon^{2}/32} $$

    它较 DKW 界宽。这表明 Vapnik-Chervonenkis 定理中的不等式不是最紧凑的可能界限。

2. 令 $\mathcal{A}$ 为实轴上所有闭区间的集合。那么，$\mathcal{A}$ 粉碎 $S=\{x,y\}$，但是它不能粉碎有三个点的集合。考虑 $S=\{x,y,z\}$，这里 $ x<y<z $。无法找到一个区间$A$，使得 $A\bigcap S=\{x,y\}$。因此 $\text{VC}(\mathcal{A})=2$。

3. 令 $\mathcal{A}$ 为平面上所有线性半空间，任何 (不全在一条直线上的) 三点集合能够被粉碎，而没有四点集合能够被粉碎。例如，考虑形成菱形的四点， $T$ 为最左端和最右端的点，这个集合不能被取出，其他结构也能是不可粉碎的。因此 $\text{VC}(\mathcal{A})=3$。一般来说，在 $\mathbb{R}^d$ 上的半空间的 $\text{VC}$ 维度为 $d+ 1$。

4. 令 $\mathcal{A}$ 为平面上边平行于数轴的所有矩形，任何四点集合都是可粉碎的。令 $S$ 为一个五点集合，总有一点不是在最左边、最右边、最上边或最下边令 $T$ 为 $S$ 中除了该点之外的所有点，那么$T$不能被拣出。因此有 $\text{VC} (\mathcal{A})=4$。
