# Lectura 7

## RafaCastle

## 7.1 Regularización - El Overfitting

Consideremos los siguientes ajustes para el mismo conjunto de datos:

![Title](Imágenes/7-1-1.png)

Es claro que el primer ajuste tienen un error alto en cuanto a la predicción de los datos, por lo que un ajuste lineal se consideraría "underfit". El segundo ajuste muestra una buena predicción, cometiendo algunos errores pero tomando una forma bastante adecuada para el comportamiento de los datos. El tercer ajuste se adapta perfectamente a los datos, pero es muy probable que al meter un dato extra, el ajuste de un error muy grande. 

Por lo tanto un modelo que se ajuste demasiado bien a los datos de entrenamiento, es decir:

$$
J(\theta) = \frac{1}{2m} \sum_{i=1}^{m} (h_\theta (x^{(i)}) - y^{(i)})^2 \approx 0
$$

probablemente comenta errores al probarlo con los datos de prueba. 

Lo mismo ocurre con un problema de clasificación, consideremos los siguientes conjuntos de datos:

![Title](Imágenes/7-1-2.png)

Igualmente se tiene un modelo con "underfiting" a la izquierda, un modelo que se adapta de manera general en el centro y un modelo con "overfitting" a la derecha, tratando "demasiado" en ajustar el modelo sin fallar, por lo que un dato nuevo probablemente quede fuera del rango con la desición más acertada.

Los ejemplos anteriores mostraban un método gráfico para escoger a la mejor función hipótesis, sin embargo esto no siempre es posible. Algunos conjuntos de datos se componen de muchos atributos y deja de ser posible graficar al conjunto de datos. Para resolver este problema se tienen 2 opciones:

 1. Reducir el número de atributos
  - Manualmente
  - Algoritmos de selección de modelos (el algoritmo decide que atributos eliminar)
 2. Regularización 
  - Conservar todos los atributos, pero reducir la magnitud de los parámetros $\theta_j$


## 7.2 Cost function

Consideremos la primera gráfica de la sección $7.1$, regularizar a la función de la derecha, deberíamos hacer más pequeños a los parámetros $\theta_3$ y $\theta_4$, para obtener una ecuación cuadrática con valores más similares a la gráfica del centro y por ende más precisa a la hora de meter un conjunto de datos de prueba.

La regularización consta de sumar un nuevo término en la ecuación para $J(\theta)$ de modo que la función quede descrita por:

$$
J(\theta) = \frac{1}{2m} \left[ \sum_{i=1}^m (h_\theta (x^{(i)}) - y^{(i)})^2 + \lambda \sum_{j=1}^n \theta_j^2 \right]
$$

Donde $\lambda$ es llamado el parámetro de regularización y en general no debe tomar valores muy altos. Parece contra intuitivo imaginar que al sumar dicho término el modelo se volvera más preciso pero en las siguientes secciones se analizarán los casos a fondo para desmenuzar el concepto.

## 7.3 Regresión lineal regularizada

El algoritmo gradient descent toma la forma:

$$
\theta_o := \theta_o - \alpha \frac{1}{m} \sum_{i=1}^m (h_\theta (x^{(i)}) - y^{(i)})x_o^{(i)}
$$

$$
\theta_j := \theta_j - \alpha \frac{1}{m}  \sum_{i=1}^m (h_\theta (x^{(i)}) - y^{(i)})x_j^{(i)} -\alpha \frac{\lambda}{m} \theta_j 
$$

Esta expresión puede reescribirse como:

$$
\theta_j := \theta_j \left( 1 - \alpha \frac{\lambda}{m} \right) - \alpha \frac{1}{m}  \sum_{i=1}^m (h_\theta (x^{(i)}) - y^{(i)})x_j^{(i)} 
$$

El término $1 - \alpha \frac{\lambda}{m}$ usualmente es un número menor a 1. Por lo que el producto $\theta_j\left( 1 - \alpha \frac{\lambda}{m} \right)$ es menor a $\theta_j$, por lo tanto se está minimizando aún más al nuevo valor $\theta_j^2$. De esta forma los valores $\theta_j$ se vuelven más pequeños y se efectúa la regularización.

Además del algoritmo gradient descent, tambíen es posible usar el algoritmo basado en la ecuación normal para el modelo de regresión lineal. Donde las matrices $X \in R^{m \times (n+1)}$ y $y \in R^m$ están dadas por:

$$
X = \left [
  \begin{array}{c}
    (x^{(1)})^T \\
    .\\
    .\\
    .\\
    (x^{(m)})^T
  \end{array}
\right ]
$$

$$
y = \left [
  \begin{array}{c}
    y^{(1)} \\
    .\\
    .\\
    .\\
    y^{(m)}
  \end{array}
\right ]
$$

Y la función para hallar los valores mínimos de $\theta$ tal que $J(\theta)$ es mínimo está dada (usando regularización) por:

$$
\theta = (X^T X + \lambda M)^{-1} X^T y
$$

con $M \in R^{(n+1) \times (n+1)}$

$$
M = \left [
  \begin{array}{cccccc}
    0 & 0 & 0 & . . . & 0 & 0  \\
    0 & 1 & 0 & . . . & 0 & 0  \\
    0 & 0 & 1 & . . . & 0 & 0  \\
    &  &  & .   &  &   \\
    &  &  & .   &  &   \\
    &  &  & .   &  &   \\
    0 & 0 & 0 & . . . & 1 & 0  \\
    0 & 0 & 0 & . . . & 0 & 1  \\
  \end{array}
\right ]
$$

Es posible demostrar matemáticamente que la matriz $(X^T X + \lambda M)$ es siempre invertible por lo que no existen excepciones para un caso regularizado en el que este algoritmo no sea válido.

## 7.4 Regresión logística regularizada

Para aplicar la regularización a la regresión logística, se obtiene la siguiente expresión para la función $J (\theta)$:

$$
J(\theta) = - \frac{1}{m} \left[ \sum_{i=1}^{m} y^{(i)} \log (h_\theta (x^{(i)})) + (1-y^{(i)}) \log(1-h_\theta (x^{(i)})) \right] + \frac{\lambda}{2m} \sum_{j=1}^n \theta_j^2
$$

análogamente el algoritmo toma la forma:

$$
\theta_o := \theta_o - \alpha \frac{1}{m} \sum_{i=1}^m (h_\theta (x^{(i)}) - y^{(i)})x_o^{(i)}
$$

$$
\theta_j := \theta_j \left( 1 - \alpha \frac{\lambda}{m} \right) - \alpha \frac{1}{m}  \sum_{i=1}^m (h_\theta (x^{(i)}) - y^{(i)})x_j^{(i)} 
$$


Que parece idéntico al algorimto para la regresión lineal, claramente la función hipótiesis es diferente para la regresión logística:

$$
h_\theta (x) = \frac{1}{1+ e^{-\theta^Tx}}
$$

Si se desea utilizar algín algorimto de optimización avanzada se debe considerar el nuevo factor en la función $J(\theta)$.