# Lectura 10
## RafaCastle
## 10.1 Decidiendo próximos intentos

En estas secciones se buscará transmitir las mejores recomendaciones para hacer más eficiente a un sistema de aprendizaje automático sin estar probando configuraciones aleatorias que pueden no llevar a ningún resultado. 

Para esto seguiremos usando el ejemplo de la predicción del precio de una casa. Supongamos que se ha implemendado una regresión lineal regularizada para predecir un precio:

$$
J(\Theta) = \frac{1}{2m} \left[ \sum_{i=1}^m (h_\theta (x^{(i)}) -y^{(i)})^2 + \lambda \sum_{j=1}^m \theta^2_j \right]
$$

Ahora imaginémos que al probar la hipótesis en un conjunto nuevo, se observan errores inaceptáblemente grandes en las predicciones. ¿Qué se debería hacer ahora?

- Conseguir más ejemplos de entrenamiento
- Tomar atributos más pequeños $x_1, x_2, ..., x_{100}$
- Tomás más atributos
- Agregar atributos polinómicos ($x_1^2, x_2^2,$ etc)
- Incrementar o decrementar $\lambda$

Para descartar las opciones que no aportarán una mejora al modelo existe una técnica simple llamada diagnóstico de aprendizaje de máquina. Esta técnica puede correrse para saber qué es lo que está y no está funcionando en el algoritmo de aprendizaje, de esta forma se puede mejorar su rendimiento sin intentar opciones que solo hagan perder el tiempo.

## 10.2 Evaluando una hipótesis

Para evaluar una hipótesis se debe dividir a un conjunto de datos en un conjunto de prueba y otro de entrenamiento generalmente en una proporción $30\% - 70\%$ respectivamente. Una vez que el algoritmo se a entrenado con los datos de entrenamiento, se pone a prueba con los datos de prueba. Supongamos que el conjunto de entrenamiento tiene $m$ datos y el de prueba $m_p$. En ese caso, si se quiere evaluar una hipótesis de regresión lineal se utiliza la ecuación:

$$
J_p (\theta)=\frac{1}{2m_p} \sum_{i=1}^{m_p}(h_\theta (x_p ^{(i)})-y_p ^{(i)})^2
$$

donde $x_p$ y $y_p$ son los datos del conjunto de prueba. 

Para el caso de un problema de clasificación, con regresión logística se tiene:

$$
J_p (\theta)=\frac{1}{m_p} \sum_{i=1}^{m_p} (y_p ^{(i)} \log [h_\theta (x_p ^{(i)})] + (1- y_p ^{(i)})\log [h_\theta (x_p ^{(i)})] )
$$

Existe otra prueba para los problemas de clasificación dada por:

$$
err(h_\theta (x),y) = \left\{ 
\begin{array}[ccc] \\
    1 &\text{si} & h_\theta(x) \geq 0.5 \text{ && } y=0 \\
    0 &\text{si} & h_\theta(x) < 0.5 \text{ && } y=1
\end{array} \right.
$$

asi, la prueba de error $p_e$ se calcula de la forma:

$$
p_e = \frac{1}{m_p} \sum_{i=1}^{m_p} err(h_\theta (x_p^{(i)}),y_p^{(i)}))
$$

## 10.3 Selección de modelos y de conjuntos de entrenamiento/validación/prueba

Para seleccionar cual es el mejor modelo para predecir una variable en un conjunto de datos se suele dividir el conjunto en 3 subconjuntos denominados:

- Conjunto de prueba $60\%$
- Conjunto de entrenamiento $20\%$
- Conjunto cross validation $20\%$

De esta forma se selecciona al mejor modelo evaluando la función 

$$
J_{cv} (\theta)=\frac{1}{2m_{cv}} \sum_{i=1}^{m_{cv}}(h_\theta (x_{cv} ^{(i)})-y_{cv} ^{(i)})^2
$$

y tomando el vector $\theta$ que arroje los valores $J(\theta)$ más pequeños. El subíndice $cv$ se refiere a los datos que están en el subconjunto cross validation y $m_{cv}$ es la cantidad de elementos en dicho conjunto.  Haciendo esto, el subconjunto de prueba puede apartarse únicamente para obtener el error del modelo.



## 10.4 Diagnosticando el sesgo vs la varianza

Cuando un algoritmo no haga una buena predicción, generalmente se debe a un sesgo o a una varianza grande, es decir, a un problema de overfitting o de underfitting. 

![Title](Imágenes/10-4-1.png)

Es claro que mientras de mayor grado sea el polinomio de la función hipótesis, será mayor el overfitting. Si se grafica el error vs el grado del polinomio para las funciones $J_{cv}$ (subconjunto cross validation) y $J_t$ (subonjunto de entrenamiento) se obitene una gráfica como la siguiente:

![Title](Imágenes/10-4-2.png)

En esta gráfica, es claro que si el polinomio tiene un grado pequeño, se trata de un problema de alto sesgo, es decir:

- $J_t$ tiene un valor alto
- $J_{cv} \approx J_t$

si el polinomio tiene un grado demasiado alto, se trata de un problema de alta varianza, es decir:

- $J_t$ será pequeña
- $J_{cv} \gt \gt J_t$

## 10.5 Regularización y sesgo/varianza

Si se tiene una función hipótesis de un grado alto (en este caso grado 4), debe escogerse un valor $\lambda$ justo, es decir, que no anule los valores de $\theta_1$, $\theta_2$, etc (caso de unferfitting). Pero que en efecto regularice a la función sin caer en el overfitting.

![Title](Imágenes/10-5-1.png)

La pregunta más natural es, ¿Cómo puede obtenerse el valor correcto de $\lambda$?

Una forma práctica de obtener el mejor valor de $\lambda$ es probar distitnos valores tales que $\lambda = 0, 0.01, 0.02, ..., 10$ y minimizar la función $J(\Theta)$ para obtener un conjunto de valores $\Theta^{(\lambda)}$. Ya obtenidos estos valores se escoge el vector $\Theta^{(k)}$ para el cual $J_{cv} (\Theta^{(k)})$ sea mínimo. Con este vector se puede finalmente hacer la prueba $J_{t} (\Theta^{(k)})$.

Al graficar las funciones $j_{cv} (\Theta)$ y $j_{t} (\Theta)$ para distintos valores de $\lambda$, es notorio que el punto donde ambas funciones llegan a un mejor acuerdo es en un valor de lambda mediano. En dicho punto se alcanza un mínimo en la función $J_{cv}$ y el valor de la función $J_t$ es aceptablemente bajo.  

![Title](Imágenes/10-5-2.png)

## 10.6 Curvas de aprendizaje

Las curvas de aprendizaje son una herramienta útil para diagnisticar el tipo de problema que presenta un modelo de apredizaje. Par agraficarlas se toman las funciones $J_{cv}$ y $J_t$, además se reduce artificialmente el tamaño del conjunto, es decir se retiran algunos datos del mismo. Tomemos el siguiente ejemplo:

![Title](Imágenes/10-6-0.png)

En este ejemplo es claro que la función hipótesis hara buenas predicciones para valores pequeños de $m$ (en el conjunto de entrenamiento), sin embargo al ir aumentando estos valores, la función incrementará su error.

Por otro lado, conforme incremente $m$, decrecerá el número de errores en la función de validación. Ambas funciones tendrán comportamientos distintos dependiendo si se trata de un problema de alta varianza o alto sesgo, comose mostrará a continuación.

![Title](Imágenes/10-6-2.png)

Para un algoritmo de aprendizaje que tiene mucho sesgo, no será útil agregar más datos al conjunto.

![Title](Imágenes/10-6-3.png)

Para un algoritmo de aprendizaje que tiene mucha varianza, puede ser útil agregar más datos al conjunto.

## 10.7 Decidiento las próximas acciones

Supongamos que se ha implementado una regresión lineal regularizada para predecir el precio de una casa. Sin embargo, cuando se prueba la hipótesis en un nuevo conjunto, se encuentran errores inaceptables en la predicción. ¿Qué se debería intentar a continuación?

- Añadir más datos de entrenamiento (varianza alta)
- Hacer más pequeños los atributos (varianza alta)
- Añadir atributos (sesgo alto)
- Añadir atributos polinómicos ($x_1^2, x_2^2$, etc) (sesgo alto)
- Aumentar $\lambda$ (sesgo alto)
- Disminuir $\lambda$ (varianza alta)

Por otro lado, una red neuronal pequeña (figura de la izquerda) tiende más a tener problemas de underfitting pero es más barata en términos computacionales. Una red neuronal larga (figura de la derecha) tiende más a tener problemas de overfitting y es computacionalmente más costosa, al usar regularización puede controlarse el problema del overfitting.