# La théorie de Vapnik et Chervonenkis ☕️☕️☕️☕️ (💆‍♂️)

## Introduction

La théorie de Vapnik et Chervonenkis, ou théorie VC, cherche à expliquer via des approches statistiques pourquoi l'apprentissage automatique fonctionne dans certains cas. Cette section du cours de *machine learning*, plus théorique, nous permettra de démontrer un résultat fondamental dans le cas d'un problème de classification binaire.

Notons $\mathcal{X}\subseteq\mathbb{R}^d$ notre espace d'entrée de dimension $d$ et $\mathcal{Y}=\{0, 1\}$ l'espace de nos labels que nous restreindrons dans cette section au cas binaire. La théorie VC se généralise bien sûr à bien d'autres choses que la classification binaire. Notons $\mathcal{H}$ l'ensemble des fonctions de $\mathcal{X}$ dans $\mathcal{Y}$ parmi lesquelles nous voulons réaliser notre apprentissage. Comme toujours, notre objectif est de trouver une fonction $h\in\mathcal{H}$ qui fait peu d'erreur relativement au risque suivant :

$$L(h)=\mathbb{E}\big[\textbf{1}\{h(X)\neq Y\}\big]=\mathbb{P}\big(h(X)\neq Y\big).$$

C'est tout simplement la probabilité que notre fonction $h\in\mathcal{H}$ prédise le mauvais label pour un $X$ observé. Bien sûr, nous ne connaissons pas le processus génératifs de nos données ni le modèle probabiliste le décrivant. Pour cela, nous devons estimer ce risque en échantillonnant. Notons $S_n=\{(X_i, Y_i)\}_{i\leq n}\sim\mathbb{P}^n$ un jeu de données de taille $n$ où les couples sont iid. Nous pouvons maintenant utiliser ce jeu de données afin de déterminer empiriquement le risque de chaque fonction $h\in\mathcal{H}$ de la manière suivante :

$$L_n(h)=\frac{1}{n}\sum_i \textbf{1}\{h(X_i)\neq Y_i\}.$$

C'est juste le nombre moyen d'erreurs commises par la fonction $h$ sur le jeu de données $S_n$. Notre objectif de vient donc :

$$h_n=\text{argmin}_{h\in\mathcal{H}}L_n(h),$$

où on appellera $h_n$ le minimiseur du risque empirique. C'est la fonction dans $\mathcal{H}$ qui fait le moins d'erreur en moyenne sur notre jeu de données. On espère qu'elle ne fera pas non plus beaucoup d'erreurs sur le vrai risque $L$. Nous pouvons quantifier ce "mauvais choix" via la formule suivante :

$$L(h_n)-\inf_{h\in\mathcal{H}}L(h).$$

C'est l'écart entre le vrai risque de notre minimiseur du risque empirique et le vrai risque de la meilleure fonction dans $\mathcal{H}$.

L'idée de la théorie VC est que finalement, si nous sommes capable d'estimer précisément le risque de chacune des fonctions en utilisant notre jeu de données, *a priori*, nous ne devrions pas faire un mauvais choix en choisissant le minimiseur du risque empirique. Le lemme suivant valide cette idée :

----
**Lemme :**

$$L(h_n)-\inf_{h\in\mathcal{H}}L(h)\leq 2\sup_{h\in\mathcal{H}}|L_n(h)-L(h)|$$

**Preuve :**

$$\begin{aligned}
L(h_n)-\inf_{h\in\mathcal{H}}L(h)&=L(h_n)-L_n(h_n)+L_n(h_n)-\inf_{h\in\mathcal{H}}L(h)\\
&\leq L(h_n)-L_n(h_n)+\sup_{h\in\mathcal{H}}|L_n(h)-L(h)|\\
&\leq 2\sup_{h\in\mathcal{H}}|L_n(h)-L(h)|
\end{aligned}$$


----

Dit autrement, $\sup_{h\in\mathcal{H}}|L_n(h)-L(h)|$ est la plus grosse erreur d'estimation du risque sur notre jeu de données $S_n$ dans notre classe de fonctions $\mathcal{H}$. Cette dernière permet de majorer le choix du minimiseur du risque empirique. Naïvement, si $\sup_{h\in\mathcal{H}}|L_n(h)-L(h)|=0$ (on estime parfaitement nos fonctions), alors $L(h_n)-\inf_{h\in\mathcal{H}}L(h)=0$ et on choisit la meilleure fonction par rapport au vrai risque.


L'objectif de la théorie VC va être de trouver des stratégies permettant de quantifier l'évolution de $\sup_{h\in\mathcal{H}}|L_n(h)-L(h)|$. La calculer exactement étant impossible, nous allons donc la majorer par des quantités plus simples à estimer. Et si nos quantités convergent vers $0$, alors $\sup_{h\in\mathcal{H}}|L_n(h)-L(h)|$, en étant majoré par quelque chose qui converge vers $0$ et en restant positif devra nécessairement converger vers $0$ également.

## I. Aparté sur les inégalités de concentration

La théorie VC fait souvent appel à ce qu'on appelle une inégalité de concentration. L'idée d'une inégalité de concentration est de constater que nos variables aléatoires ne peuvent finalement pas trop s'écarter de certaines valeurs où elles se retrouvent "concentrées". La plus simple d'entre elle est [inégalité de Markov](https://fr.wikipedia.org/wiki/Inégalité_de_Markov):

----
**L'inégalité de Markov :** Soit $X$ une variable aléatoire réelle **positive**, nous avons :

$$\forall a\in\mathbb{R}^+,\ \mathbb{P}\big(X\geq a\big)\leq \frac{\mathbb{E}\big[X\big]}{a}.$$

**Preuve :**

Soit $a\in\mathbb{R}^+$ et $\textbf{1}\{X\geq a\}$ la fonction qui vaut $1$ si $X$ est supérieur ou égal à $a$ et $0$ sinon. Nous avons nécessairement :

$$a \textbf{1}\{X\geq a\}\leq X\textbf{1}\{X\geq a\}\leq X,$$

quelque soit la réalisation de $X$. En effet si $X<a$ alors $\textbf{1}\{X\geq a\}$ vaut $0$. L'espérance étant croissante, nous avons :

$$\mathbb{E}\Big[a\textbf{1}\{X\geq a\}\Big]\leq\mathbb{E}\Big[X\Big].$$

Par définition de l'espérance, nous avons :

$$\mathbb{E}\Big[a\textbf{1}\{X\geq a\}\Big]=a \mathbb{P}\big(X\geq a\big) + 0\mathbb{P}\big(X< a\big)=a \mathbb{P}\big(X\geq a\big).$$

Ainsi, en combinant le tout, nous avons : 

$$a \mathbb{P}\big(X\geq a\big)\leq \mathbb{E}\Big[X\Big]\Leftrightarrow \mathbb{P}\big(X\geq a\big)\leq \frac{\mathbb{E}\big[X\big]}{a}.$$

----

En d'autres termes, pour une variable aléatoire $X$ de loi fixée sa masse ne se situe pas à l'infinie et plus $a$ sera grand, plus il sera improbable que $X$ soit au-delà.

Convainquons-nous du résultat précédent via une simulation.

In [None]:
import numpy as np

# on simule une variable uniforme entre 0 et 100
def simulate_random_variable(a, nb_times=1000):
    X = 100 * np.random.random(size=nb_times)
    empirical_expectation = X.mean()
    empirical_probability = (X>a).sum()/nb_times
    print('P(X>=a)<= E[X]/a :', empirical_probability, '<=', empirical_expectation/a)

In [None]:
simulate_random_variable(a=75)

Et c'est là tout l'intérêt ! Supposons que nous ne sachions pas calculer $\mathbb{P}\big(X\geq a)$ mais que nous sachions que $\mathbb{E}\big[X\big]$ alors on peut garantir un "pire scénario" de la vitesse à la quelle la probabilité converge vers $0$ lorsque $a$ augmente. Pour une variable uniforme entre $0$ et $100$, son espérance et $50$.

In [None]:
import matplotlib.pyplot as plt

a = np.linspace(1, 100, 999)

probability = 1 - a/100
expectation = 50/a

plt.figure(figsize=(12, 8))
plt.plot(a, probability, label='$\mathbb{P}(X\geq a)$ (inconnue)')
plt.plot(a, expectation, label=r'$\mathbb{E}[X]/a$')
plt.legend()
plt.ylim(0, 1)
plt.show()

La quantité $\mathbb{E}\big[X\big]/a$ est potentiellement supérieure à $1$ et nous avons contraint matplotlib à n'afficher que les valeurs entre $0$ et $1$. Pour cette exemple, nous aurions pu très naïvement calculer la probabilité nous-même et nous n'avions aucun intérêt à passer par une inégalité de concentration. Cependant, dans certains problèmes, c'est inévitable !

## II. En supposant $|\mathcal{H}|<\infty$

---
**Le Union Bound.**

Nous avons tous vu au lycée la formule suivante :

$$\mathbb{P}\big(A\cup B\big)=\mathbb{P}\big(A\big)+\mathbb{P}\big(B\big)-\mathbb{P}\big(A\cap B\big).$$

Si on élimine la probabilité liée à l'intersection, nous avons :

$$\mathbb{P}\big(A\cup B\big)\leq\mathbb{P}\big(A\big)+\mathbb{P}\big(B\big)$$


De manière plus générale, imaginons une famille d'évènements $A_i$, $i\leq N$, tels que $\forall i\leq N$, nous avons $\mathbb{P}(A_i)\leq K$ (la probabilité est majorée par une quantité $K$. Nous avons alors l'inégalité suivante :

$$\mathbb{P}\big(\cup_i A_i\big)\leq \sum_i \mathbb{P}\big(A_i\big)\leq \sum_i K\leq KN.$$

C'est ce qu'on appelle un *union bound* : on majore grâce à une inégalité liée à l'union.

---

Soit une famille de fonction $\mathcal{H}$ de $\mathcal{X}$ dans $\mathcal{Y}$ telle que $|\mathcal{H}|<\infty$. Et soit $h\in\mathcal{H}$. Nous avons défini le risque et le risque empirique notés respectivement $L_n$ et $L$. La probabilité que nous souhaiterions voir la plus petite possible est $\mathbb{P}\big(|L_n(h)-L(h)|>\epsilon)$. Nous pouvons la majorer grâce à l'[inégalité d'Hoeffding](https://fr.wikipedia.org/wiki/Inégalité_de_Hoeffding) : 

$$\mathbb{P}\big(|L_n(h)-L(h)|>\epsilon) \leq 2 e^{-2\epsilon^2n}.$$

Cela nous dit que la probabité que notre estimateur empirique s'écarte de plus de $\epsilon$ de son espérance décroît exponentiellement vite lorsque la taille du jeu de données augmente ! 

Cependant, pour pouvoir garantir que l'apprentissage se fera bien (i.e. qu'on choisira un bon minimiseur du risque empirique), nous devons majorer la probabilité que TOUTES les fonctions soient bien estimées. Pour cela, nous utilisons le *union bound* :


$$\begin{aligned}
\mathbb{P}\big(\sup_{h\in\mathcal{H}} |L_n(h)-L(h)|>\epsilon\big)&=\mathbb{P}\big(\cup_{h\in\mathcal{H}} |L_n(h)-L(h)|>\epsilon\big)\\
&\leq \sum_{h\in\mathcal{H}}\mathbb{P}\big(\sup_{h\in\mathcal{H}} |L_n(h)-L(h)|>\epsilon\big)\\
&\leq |\mathcal{H}|2 e^{-2\epsilon^2n}.
\end{aligned}$$


C'est un premier résultat fondamental qui nous permet de dire que si $|\mathcal{H}|<\infty$, alors on peut réduire uniformément (i.e. pour toutes fonctions de $\mathcal{H}$) les déviations entre le risque empirique et son espérance et donc que le choix du minimiseur empirique ne sera pas mauvais (pour peu que le jeu de données soit assez grand).

In [None]:
import numpy
import matplotlib.pyplot as plt

def plot(scale):
    H_size = np.linspace(10, 100, 3)
    epsilon = np.linspace(0.04, 0.1, 3)
    n = np.linspace(10, 2000, 100)
    plt.figure(figsize=(12, 8))
    for k in H_size:
        for i, e in enumerate(epsilon):
            plt.plot(n, k*2*np.exp(-2*(e**2)*n), label=r'$\epsilon=${}, $|H|=${}'.format(e, int(k)))
    plt.legend()
    plt.yscale(scale)
    plt.ylim(None if scale == 'log' else 0, 1)
    plt.show()

In [None]:
plot('linear')
plot('log')

## III. Le cas général : $|\mathcal{H}|=\infty$

Le cas général permet également de conclure pour des cas où le cardinal serait fini. 


L'intuition derrière le cas général est qu'au lieu de considérer toutes les fonctions de $\mathcal{H}$, nous pouvons discrétiser $\sup_{h\in\mathcal{H}}|L_n(h)-L(h)|$ de manière à ne considérer que les "valeurs effectives" que notre classe de fonctions peut prendre sur notre jeu de donnée. Ainsi, si on considère $S_1=\{(X_1, Y_1)\}$, alors, quelque soit $\mathcal{H}$, il ne peut y avoir au plus que deux fonctions différentes sur $S_1$ : celle qui retourne $1$ pour $X_1$ et celle qui retourne $0$ pour $X_1$.

*A priori*, le nombre de valeur que peut prendre $\mathcal{H}$ sur un jeu de données $S_n$ dépendra du tirage du jeu de données. Pour cela, nous pouvons majorer cette quantité en ne considérant que le "pire des cas". C'est l'objet de la définition suivante :

---
**La fonction de croissance :**

$$\tau_\mathcal{H}(n)=\max_{\{X_1, ..., X_n\}}|\{h(X_1), ..., h(X_n):\ h\in\mathcal{H}\}|.$$

C'est le plus grand nombre de manières différentes qu'une classe de fonction pourrait labéliser un jeu de données de taille $n$. C'est le plus grand nombre configuration de taille $n$ atteignables par notre classe de fonctions.

---


Notre objectif ici est de démontrer le résultat suivant : 

$$\mathbb{P}\Big(\sup_{h\in\mathcal{H}}|L_n(h)-L(h)|>\epsilon\Big)\leq 8 \tau_{\mathcal{H}}(n)e^{-n\epsilon^2/32}$$

---

### PREUVE


On remarque que si $n\epsilon^2<2$, alors la partie droite de l'inégalité est supérieure à $1$ et l'inégalité est trivialement vraie. Supposons $n\epsilon^2\geq 2$.


**Étape 1 : Symétrisation par un échantillon fantôme (échantillon de test).**

Construisons un jeu de données de test virtuel $S_n^\prime=\{(X_i^\prime, Y_i^\prime)\}_{i\leq n}$ tel que $S_n\sim S_n^\prime$. Notons $L_n^\prime$ le risque empirique associé à cet échantillon. Supposons $n\epsilon^2\geq 2$, alors nous avons : 

$$\mathbb{P}\Big(\sup_{h\in\mathcal{H}}|L_n(h)-L(h)|>\epsilon\Big)\leq 2 \mathbb{P}\Big(\sup_{h\in\mathcal{H}}|L_n(h)-L_n^\prime(h)|>\epsilon/2\Big)$$

Pour voir cela, notons $h^\star$ une fonction telle que $|L_n(h^\star)-L(h^\star)|>\epsilon$ si une telle fonction existe, sinon une fonction fixée au hasard. Nous avons alors :


$$\begin{aligned}
\mathbb{P}\Big(\sup_{h\in\mathcal{H}}|L_n(h)-L_n^\prime(h)|>\epsilon/2\Big)&\geq \mathbb{P}\Big(|L_n(h^\star)-L_n^\prime(h^\star)|>\epsilon/2\Big)\\
&\geq\mathbb{P}\Big(|L_n(h^\star)-L(h^\star)|>\epsilon, |L_n^\prime(h^\star)-L(h^\star)|<\epsilon/2\Big)\\
&=\mathbb{E}\Big[\textbf{1}\{|L_n(h^\star)-L(h^\star)|>\epsilon\}\mathbb{P}\Big(|L_n^\prime(h^\star)-L(h^\star)|<\epsilon/2|Z_1,\ldots, Z_n\Big)\Big]
\end{aligned}$$

où $Z_i=(X_i, Y_i)$. En utilisant l'[Inégalité de Bienaymé-Tchebychev](https://fr.wikipedia.org/wiki/Inégalité_de_Bienaymé-Tchebychev), nous avons :

$$\begin{aligned}
\mathbb{P}\Big(|L_n^\prime(h^\star)-L(h^\star)|<\epsilon/2|Z_1,\ldots, Z_n\Big)&\geq 1-\frac{L(h^\star)(1-L(h^\star))/n}{(\epsilon/2)^2}\\
&\geq 1-\frac{1/4}{n\epsilon^2/4}\geq \frac{1}{2}.
\end{aligned}$$

(car $n\epsilon^2>2$).
Ainsi : 

$$\mathbb{E}\Big[\textbf{1}\{|L_n(h^\star)-L(h^\star)|>\epsilon\}\mathbb{P}\Big(|L_n^\prime(h^\star)-L(h^\star)|<\epsilon/2|Z_1,\ldots, Z_n\Big)\Big] \geq \mathbb{E}\Big[\textbf{1}\{|L_n(h^\star)-L(h^\star)|>\epsilon\}\Big]\frac{1}{2}=\mathbb{P}\Big(|L_n(h^\star)-L(h^\star)|>\epsilon\Big)\frac{1}{2},$$

et nous obtenons le résultat voulu.

Cette première étape nous dit que comparer le score empirique de notre risque par rapport à son espérance est à peu près la même chose que le comparer avec un jeu de test. Testons cela au travers d'une petite expériences avec des tirages binomiaux normalisés.

---

In [None]:
import numpy as np

H = [0.25, 0.5, 0.75]
n = 50
epsilon_list = (0.01, 0.1, 0.2)
# on répète l'expérience pour calculer empiriquement la probabilité
size = 1000

for epsilon in epsilon_list:
    print('*' * 20)
    print('Epsilon={}'.format(epsilon))
    results = []
    for h in H:
        Ln = np.random.binomial(n=n, p=h, size=size)/n
        results.append(np.abs(Ln-h)>epsilon)
    empirical_probability_1 = ((np.array(results).sum(axis=0)>0).sum()) / size
    print('* P(sup |L_n-L|>epsilon)=', empirical_probability_1)

    results = []
    for h in H:
        binom = np.random.binomial(n=n, p=h, size=size)/n
        binom_ghost = np.random.binomial(n=n, p=h, size=size)/n
        results.append(np.abs(binom-binom_ghost)>epsilon/2)

    empirical_probability_2 = (np.array(results).sum(axis=0)>0).sum() / size
    print('* P(sup |L_n-L_n\'|>epsilon)=', empirical_probability_2)
    print('* 2xP(sup |L_n-L_n\'|>epsilon)=', 2*empirical_probability_2)

La seconde étape va nous permettre d'élimiter ce jeu fantôme auquel nous n'avons pas accès. Aussitôt mis, aussitôt retiré.

---
**Étape 2 : Symétrisation avec des signes aléatoires.**

Nous avons donc la variable suivante :

$$\sup_{h\in\mathcal{H}}|L_n(h)-L_n^\prime(h)|=\sup_{h\in\mathcal{H}}\frac{1}{n}|\sum_i\textbf{1}\{h(X_i)\neq Y_i\}-\textbf{1}\{h(X_i^\prime)\neq Y_i^\prime\}|$$

Puisque nos variables $\textbf{1}\{h(X_i)\neq Y_i\}$ et $\textbf{1}\{h(X_i^\prime)\neq Y_i^\prime\}$ sont iid, cela revient exactement à 

$$\sup_{h\in\mathcal{H}}\frac{1}{n}|\sum_i\sigma_i(\textbf{1}\{h(X_i)\neq Y_i\}-\textbf{1}\{h(X_i^\prime)\neq Y_i^\prime\})|,$$

où $\sigma_i$ est une variable de Rademacher (i.e. $\mathbb{P}\big(\sigma_i=-1\big)=\mathbb{P}\big(\sigma_i=+1\big)=0.5$).

Nous avons donc : 

$$\mathbb{P}\Big(\sup_{h\in\mathcal{H}}\frac{1}{n}|\sum_i\sigma_i\textbf{1}\{h(X_i)\neq Y_i\}-\sigma_i\textbf{1}\{h(X_i^\prime\neq Y_i^\prime\})|>\epsilon/2\Big)$$

Et au moins l'un deux deux termes $|\frac{1}{n}\sum_i\sigma_i\textbf{1}\{h(X_i)\neq Y_i\}|$ doit être supérieur à $\epsilon/4$ pour que la somme soit supérieure à $\epsilon/2$ (vérifier par contradiction). Ainsi, en appliquant le *union bound*, nous avons : 

$$\begin{aligned}
\mathbb{P}\Big(\sup_{h\in\mathcal{H}}\frac{1}{n}|\sum_i\sigma_i\textbf{1}\{h(X_i)\neq Y_i\}-\sigma_i\textbf{1}\{h(X_i^\prime\neq Y_i^\prime\})&|>\epsilon/2\Big) \\
&\leq\mathbb{P}\Big(\sup_{h\in\mathcal{H}}\frac{1}{n}|\sum_i\sigma_i\textbf{1}\{h(X_i)\neq Y_i\}|>\epsilon/4\Big)+\mathbb{P}\Big(\sup_{h\in\mathcal{H}}\frac{1}{n}|\sigma_i\textbf{1}\{h(X_i^\prime\neq Y_i^\prime\}|>\epsilon/4\Big)\\
&=2\mathbb{P}\Big(\sup_{h\in\mathcal{H}}\frac{1}{n}|\sum_i\sigma_i\textbf{1}\{h(X_i)\neq Y_i\}|>\epsilon/4\Big)
\end{aligned}$$


---

----
**Étape 3 : Conditionnement.**
Jusqu'ici, nous considérions le jeu de données comme une variable aléatoire. Fixons le et étudions un cas particulier. Notons $z_1, \ldots, z_n\in\mathcal{X}$ cette réalisation.


Nous avons donc :

$$\mathbb{P}\Big(\sup_{h\in\mathcal{H}}\frac{1}{n}|\sum_i\sigma_i\textbf{1}\{h(X_i)\neq Y_i\}|>\epsilon/4|Z_1=z_1, \ldots, Z_n=z_n\Big).$$

Le nombre de configuration à tester est justement la fonction de croissance qui nous indique toutes les valeurs que peut prendre notre classe de fonctions $\mathcal{H}$ sur un jeu de données fixé de taille $n$. En appliquant le *union bound* à nouveau, nous obtenons donc :


$$\begin{aligned}
\mathbb{P}\Big(\sup_{h\in\mathcal{H}}\frac{1}{n}|\sum_i\sigma_i\textbf{1}\{h(X_i)\neq Y_i\}|>\epsilon/4|Z_1, \ldots, Z_n\Big)\leq\tau_\mathcal{H}(n)\sup_{h\in\mathcal{H}}\mathbb{P}\Big(\frac{1}{n}|\sum_i\sigma_i\textbf{1}\{h(X_i)\neq Y_i\}|>\epsilon/4|Z_1, \ldots, Z_n\Big).
\end{aligned}$$

De plus, en appliquant [l'inégalité d'Hoeffding](https://fr.wikipedia.org/wiki/Inégalité_de_Hoeffding) , nous pouvons majorer la probabilité de droite quelque soit la fonction :

$$\mathbb{P}\Big(\frac{1}{n}|\sum_i\sigma_i\textbf{1}\{h(X_i)\neq Y_i\}|>\epsilon/4|Z_1, \ldots, Z_n\Big)\leq 2e^{-n\epsilon^2/32}$$

Cette variable ne dépend pas du conditionnement et nous pouvons donc prendre l'espérance :

$$\mathbb{P}\Big(\frac{1}{n}|\sum_i\sigma_i\textbf{1}\{h(X_i)\neq Y_i\}|>\epsilon/4\Big)=\mathbb{E}\Big[\mathbb{P}\Big(\frac{1}{n}|\sum_i\sigma_i\textbf{1}\{h(X_i)\neq Y_i\}|>\epsilon/4|Z_1, \ldots, Z_n\Big)\Big] \leq 2e^{-n\epsilon^2/32}$$

**Conclusion.**

En combinait les 3 étapes précédentes, nous obtenons ainsi : 

$$\mathbb{P}\Big(\sup_{h\in\mathcal{H}}|L_n(h)-L(h)|>\epsilon\Big)\leq 8 \tau_{\mathcal{H}}(n)e^{-n\epsilon^2/32}$$

----

Des résultats beaucoup plus stricts existent.

## IV. La dimension VC

Le théorème précédent est très intéressant, mais sans hypothèse sur notre classe de fonction $\mathcal{H}$, nous pourrions très bien avoir :

$$\tau_\mathcal{H}(n)=2^n,$$

et cela nous donnerait :

$$\lim_{n\rightarrow\infty}8 \cdot 2^ne^{-n\epsilon^2/32}=\infty,$$

ce qui nous empêcherait de conclure !

Il se trouve que pour certaines classes de fonctions (et nous verront des exemples), quand bien même $|\mathcal{H}|=\infty$, nous n'aurions pas $\tau_\mathcal{H}(n)=2^n$.

---

<span style="color:blue">**Exercice :**</span> **Soit $\mathcal{X}=\mathbb{R}$, $\mathcal{Y}=\{0, 1\}$ et $\mathcal{H}=\{h_s(x)=\textbf{1}\{x>s\}:\ s\in\mathbb{R}\}$, l'ensemble des fonctions seuil (on retourne $1$ si $x>s$ et $0$ sinon). Montrer que $\tau_\mathcal{H}(2)=3$ et non $2^2=4$.**

<span style="color:green">**Réponse :**</span> **Soit $x_1, x_2\in\mathcal{X}$ tels que $x_1<x_2$ sans perte de généralité. La configuration (1, 0) est atteignable si $s<x_1$ et $x_2 < s$ entraînant une contradiction. À l'inverse les configurations (0, 0), (0, 1) et (1, 1) sont facilement atteignables.**

---

Nous appelons la dimension VC ou VCdim d'une classe de fonctions $\mathcal{H}$ le plus grand jeu de données S_n tel que $\tau_\mathcal{H}(n)=2^n$. Plus formellement, nous avons :

$$\text{VCdim}(\mathcal{H})=\max_{\tau_{\mathcal{H}}(n)=2^n}n$$

L'intérêt clé de cette propriété nous vient du lemme suivant :

---
**Lemme de Sauer.**

Soit $\mathcal{H}$ notre classe de fonctions telle que $\text{VCdim}(\mathcal{H})\leq d<\infty$. Nous avons alors $\forall n>0$ :

$$\tau_\mathcal{H}(n)\leq \sum_{i=0}^d{n\choose i}.$$

De plus, si $n>d+1$, alors :

$$\tau_\mathcal{H}(n)\leq\Bigg(\frac{en}{d}\Bigg)^d.$$

---

Ainsi, la fonction de croissance ne croît plus exponentiellement vite mais polynomialement dès qu'on dépasse la dimension VC de notre classe de fonctions. Cela implique que notre majorant de généralisation converge vers $0$, qu'on puisse estimer l'erreur de nos fonctions correctement et donc que le choix du minimiseur du risque empirique est un bon choix : ce résultat est ce qu'on appelle le *théorème fondamental du machine learning*.

---
<span style="color:blue">**Exercice :**</span> **Soit $\mathcal{X}=\mathbb{R}^2$, $\mathcal{Y}=\{0, 1\}$ et $\mathcal{H}$ l'ensemble des classifieurs linéaires de $\mathbb{R}^2$. Démontrer que la dimension VC de $\mathcal{H}$ est au moins $3$.**
```{toggle}

<span style="color:green">**Réponse :**</span> **On vérifie facilement avec un dessin que $\mathcal{H}$ classifie bien toutes les configurations d'un jeu de données de taille $3$.**
```


---

---
<span style="color:blue">**Exercice :**</span> **Soit $\mathcal{H}_{=k}$ l'ensemble des classifieurs qui ne peuvent associer le label $1$ qu'à *exactement* $k$ éléments de $\mathcal{X}$. Trouver la dimension VC. On supposera que $|\mathcal{X}|\geq k$.**


```{toggle}
<span style="color:green">**Réponse :**</span> **La dimension VC d'un tel ensemble est $\text{VCdim}(\mathcal{H})=\text{min}(k, |\mathcal{X}|-k)$. Montrons (1) que $\text{VCdim}(\mathcal{H})\leq k$. Soit un jeu de données $S_{k+1}$, alors il n'est pas possible de mettre $1$ à tous les points. Montrons (2) que $\text{VCdim}(\mathcal{H})\leq |\mathcal{X}|-k$. Soit $S_{|\mathcal{X}|-k+1}$, alors, il n'est pas possible de mettre $0$ à tous les points. Montrons (3) maintenant que $\text{VCdim}(\mathcal{H})\geq \text{min}(k, |\mathcal{X}|-k)$. Soit $S_n$ tel que $n\leq \text{min}(k, |\mathcal{X}|-k)$ alors toutes les configurations sont atteignables. En effet, il y a au plus $k$ $1$ à mettre et il restera toujours au moins $k$ $1$ à l'extérieur de $S_k$.**
```

---