Estos apuntes son una adptación en su mayoría del contenido del libro cite:shwartz_understanding_ml
Damos unas notaciones/definiciones básicas que utilizaremos de aquí en adelante.
-
Dominio:
$\mathcal{X}$ , sobre el que tenemos definida una$σ$ álgebra de conjuntos$\mathscr{B}$ . Llamamos una instancia a$x∈ \mathcal{X}$ -
Conjunto de etiquetas:
$\mathcal{Y} \subseteq \mathbb{R}$ finito , que asumiremos como$\{0,1\}$ en lo que sigue hasta que se indique lo contrario. Esto nos restringe al paradigma de clasificación binario. -
Verdadero etiquetado: Asumimos la existencia de una función
$f: \mathcal{X} → \mathcal{Y}$ que devuelve el verdadero etiquetado de todas las instancias. -
Generación de instancias: Asumimos la existencia de una distribución de probabilidad
$\mathcal{D}$ sobre$\mathcal{X}$ , para la$σ$ álgebra de conjuntos mencionada anteriormente, que nos da información sobre la probabilidad de extraer cada posible instancia desde$\mathcal{X}$ . -
Conjunto de entrenamiento: Tenemos una muestra aleatoria simple
$S = (\mathcal{X}_1, \ldots ,\mathcal{X}_m)$ , idéntica e independientemente distribuida, donde$S ∼ \mathcal{D}^m$ , esto es cada$X_i$ sigue la misma distribución que$\mathcal{X}$ ,$X_i ∼ \mathcal{D}$ , y las distribuciones marginales son independientes entre sí. Notaremos$S_x$ a una realización muestral$(x_1, \ldots x_m)$ . Cada elemento$x_i$ de una realización muestral$S_x = (x_1, \ldots x_n)$ se etiqueta por$f$ , y llamando$f(x_i) = y_i$ definimos como conjunto de entrenamiento a la tupla$((x_1, y_1), \ldots ,(x_m, y_m))$ . La relación entre la realización muestral y el conjunto de entrenamiento asociado es biunívoca, por lo que por abuso de notación llamaremos indiferentemente conjunto de entrenamiento a ambas tuplas. -
Resultado del aprendizaje: disponemos de un algoritmo de aprendizaje $A: (\mathcal{X} × \mathcal{Y})^m → \mathcal{Y}\mathcal{X}$ que recibe un conjunto de entrenamiento y devuelve una función
$h: \mathcal{X} → \mathcal{Y}$ que llamaremos hipótesis/clasificador. El algoritmo “desconoce” el valor de la verdadera función de etiquetado$f$ en los puntos no pertenecientes al conjunto de entrenamiento. -
Error del clasificador: Definimos el error de un clasificador
$h: \mathcal{X} → \mathcal{Y}$ como:
\[L\mathcal{D,f}(h) := P (\{x∈ \mathcal{X} : h(x)≠ f(x)\}) = P[f≠ h]\]
Por simplificar la escritura, omitiremos a partir de ahora el hecho de que sobre
Para un conjunto de entrenamiento el riesgo empírico proporciona el error del clasificador sobre el conjunto de entrenamiento.
Un algoritmo que obtiene una hipótesis que minimiza el error empírico sobre un conjunto de entrenamiento recibe el nombre de ERM y notamos
Este error no es siempre óptimo. Pensemos en el siguiente ejemplo:
Sea
\[f(x) = \left\{\begin{array}{lcl}
1 && x∈ [0,1]
0 && x∈ \mathbb{R}\setminus [0,1]
\end{array}\right.\]
Sea
\[h(x) = \left\{\begin{array}{lcl}
y_i && ∃ i∈ \{1\ldots m\} : x=x_i
0 && \nexists i∈ \{1\ldots m\} : x=x_i
\end{array}\right.\]
Nótese que el conjunto de entrenamiento no puede tener elementos no repetidos puesto que se etiquetan mediante
Este clasificador es perfecto respecto a la minimización de riesgo empírico, pero $L\mathcal{D, f}(h) = 1/2$. Es decir, tiene el mismo nivel de acierto que el clasificador idénticamente 1. A este fenómeno, minimizar el riesgo empírico siendo un clasificador con un error muy alto, lo denominamos overfitting.
El hecho de tomar el error sobre el conjunto de entrenamiento como aproximación al verdadero error del clasificador se respalda por la siguiente proposición:
Llamamos $p=P [f ≠ h ] = L\mathcal{D,f}(h)$
\begin{align*}
\mathbb{E} [L_S(h)] &= ∑k=0^m \frac{k}{m} \binom{m}{k} p^k(1-p)m-k = ∑k=1^m \frac{k}{m} \binom{m}{k} p^k(1-p)m-k \\
&
∑k=1^m \binom{m-1}{k-1} p^k(1-p)m-k = ∑k=0m-1 \binom{m-1}{k} pk+1(1-p)m-1-k =
&= p⋅ ∑k=0m-1 \binom{m-1}{k} pk(1-p)m-1-k = p(1+(1-p))m-1 = p
\end{align*}
Con objeto de corregir el ERM, para evitar overfitting, usamos el conocimiento previo sobre el problema (la información que dispongamos sobre el dominio, la distribución, etc) restringiendo el espacio de búsqueda, esto es, la clase de hipótesis
Notaremos a un clasificador obtenido con este paradigma $hS_x := ERM\mathcal{H}(S_x)$, y lo definimos de manera que:
\[hS_x ∈ \underset{h∈ \mathcal{H}}{argmin} \{LS_x(h)\}\]
La existencia de $\underset{h∈ \mathcal{H}}{min} \{LS_x(h)\}$ está garantizada, ya que $m ⋅ LS_x(h) ∈ \mathbb{N}$ para todo
Enunciamos la propiedad de factibilidad, que usaremos más adelante.
La hipótesis de factibilidad implica que
\begin{align*}
P (\{(x_1, \ldots x_m): \bar{h}(x_i) = f(x_i), i=1, \ldots m\}) =
= ∏i=1^m P [h=f] = ∏i=1^m (1 - P[h≠ f]) = 1
\end{align*}
Por tanto
Para finalizar estos preliminares remarcamos que el valor de $L\mathcal{D,f}(hS_x)$ dependerá del conjunto de entrenamiento, extraído y etiquetado a partir del vector aleatorio
Llamamos a
Podemos considerar $m\mathcal{H}$ única en el sentido de que para cada
Nótese que las condiciones exigidas, cumplir la propiedad de factibilidad y que la hipótesis devuelta deba estar en
¿Hay ejemplos de clases infinitas PAC cognoscibles? Veamos un ejemplo.
Sea
Partiendo de la propiedad de factibilidad, debe existir un clasificador de rectángulo $\bar{h} = ha,b,c,d$ que haga el ERM nulo y que cumpla $L\mathcal{D,f}(\bar{h}) = 0$. Por tanto debe verificarse que $hS_x$ debe acertar en todas las instancias positivas (cuya etiqueta sea 1) del conjunto de entrenamiento, con probabilidad 1, ya que si valiese 0 en algún ejemplo positivo del conjunto de entrenamiento, el ERM sería mayor que 0.
El algoritmo que devuelve el mínimo rectángulo que engloba a todos los ejemplos positivos es por tanto un ERM.
Veamos que con este algoritmo minimizador del ERM la clase de rectángulos es PAC cognoscible.
Sea $R∗ = [a,b]× [c,d]$ el rectángulo que materializa la propiedad de factibilidad. Fijamos
Tomamos $R_1 = [a,b∗] × [c,d]$ un rectángulo verificando $L\mathcal{D,f}(\mathds{1}R_1) ≤ ε/4$, con $a≤ b∗ ≤ b$.
$R_2= [a∗,b] × [c,d], R_3=[a,b] × [c,d∗], R_4=[a,b] × [c∗,d]$ se definen de forma análoga.
Llamando $hR=A(S)$,
Supongamos
\[L\mathcal{D,f}(h_R) = Px∼ \mathcal{D} [h_R ≠ f] ≤ P \left(∪_i [h_R ≠ f] ∩ R_i\right) ≤ P \left(∪_i R_i\right) ≤ 4\frac{ε}{4} = ε\]
La demostración acaba probando que:
\[PS∼ \mathcal{D^m} [∃ i : R(S)∩ R_i = ∅] ≤ ∑i=1^4 P [R(S)∩ R_i = ∅] = 4(1-\frac{ε}{4})^m ≤ 4e-ε m/4\]
y tomando
Hasta ahora tenemos dos problemas en la definición de PAC. Intentamos buscar una hipótesis sobre una función de verdadero etiquetado,
Para paliar esto, podríamos considerar
\[L\mathcal{D}(h):= P(x,y) ∼ \mathcal{D} [h(x) ≠ y]\]
Con estos conceptos revisitados, podríamos asegurar que la hipótesis que menor error comete para
\[f\mathcal{D}(x) = \left\{\begin{array}{ll}
1 & P [y = 1 |x] >= 0.5
0 & \quad si \quad no
\end{array}\right.\]
Pero deseamos ir aún más allá, y generalizar la definición para una función de pérdida arbitraria.
Aumiendo ya como
\begin{align*}
L\mathcal{D} (h) := \mathbb{E}z∼ \mathcal{D}[l(h,z)]
LS_z (h) := \frac{1}{m} ∑i=1^m l(h,z_i)
\end{align*}
Donde los conjuntos de entrenamiento se generan a partir de una muestra aleatoria simple
Notamos desde esta definición tomando una función de pérdida 0-1:
\[l0-1 (h,(x,y)) := \left\{\begin{array}{ll}
0 & h(x) = y
1 & si \quad no
\end{array}\right.\]
equivale a la primera definición que dimos de aprendizaje PAC si asumimos propiedad de factibilidad. Por ello no distinguiremos en el uso de uno u otro concepto, sino que se deducirá de si estamos asumiendo propiedad de factibilidad o no.
Cuando permitimos que el algoritmo
Recordemos hasta ahora el resultado que habíamos obtenido era su carácter PAC cognoscible, donde agnósticamente PAC cognoscible y cognoscible con funciones de pérdida 0-1 era un término equivalente. El teorema que enunciamos a continuación, deducible a partir del teorema sobre el caracter agnóstico - PAC cognoscible de clases de funciones con propiedad de convergencia uniforme, en particular las finitas, generaliza el resultado para cualquier funciones de pérdida acotada.
Veamos que dado un algoritmo de aprendizaje no puede ser el óptimo para aprender todas las distribuciones.
Damos un lema previo, la desigualdad de Markov:
Como consecuencia del teorema, podemos decir que no hay un algoritmo de aprendizaje óptimo para todas las distribuciones, puesto que para una dada por el resultado del teorema, el algoritmo ERM con