# Lectura 2 - Regresión lineal con una variable

## RafaCastle

## 2.1 Representación de modelos

### Definiciones

Sea $C$ un conjunto de datos, tal que $C = \{(x^{(1)},y^{(1)}), (x^{(2)},y^{(2)}), ... , (x^{(M)},y^{(M)}) \}$, se denota:

$X = (x^{(1)}, x^{(2)}, ... , x^{(M)})$ la variable input

$Y = (y^{(1)}, y^{(2)}, ... , y^{(M)})$ la variable target o output

$h: X \to Y$ la función hipótesis, que se representará en esta lectura como $h_\theta(x) = \theta_o + \theta_1 x$

La función hipótesis se construye con un subconjunto $T \subset C$ de $m$ elementos y busca estimar los valores de $Y$ lo mejor posible. No necesariamente $h$ debe ser una función lineal, solo se considerará lineal para el inicio de está lectura.

## 2.2 Cost Function

Dada la forma de $h$, ¿Cómo se escogen los valores $\theta_o$ y $\theta_1$ para un cierto conjunto de datos?, es claro que se deben escoger de modo que $h_\theta(x)$ sea próximo a $y$ para un elemento $(x,y) \in T$, por lo que se busca minimizar la siguiente expresión, denominada Cost Function $J$:

$$
J(\theta_o, \theta_1) = \frac{1}{2m}\sum_{i=1}^m \left( h_\theta(x^{(i)}) - y^{(i)} \right)^2
$$

## 2.3 Intuición sobre Cost Function #1

Para simplificar el problema es posible tomar $\theta_o = 0$, de modo que $h_\theta (x) = \theta_1 x$, por lo que se buscaría minimizar la función $J (\theta_1)$. En la siguiente gráfica se muestra como varía la función $J (\theta_1)$ al variar $\theta_1$ para un cierto conjunto de datos.

![Title](Imágenes/2-3-1.png)

La gráfica muestra una parábola cn vértice en $\theta_1 = 1$, por lo que ese valor es el que minimiza la función $J$.

## 2.4 Intuición sobre Cost Function #2

Retomando el problema original, donde $\theta_o, \theta_1 \neq 0$, la gráfica de $J(\theta_o, \theta_1)$ sería tridimensional, como se muestra en la siguiente figura:

![Title](Imágenes\2-4-1.png)

Es posible también ver las curvas de nivel de la función $J$ en 2 dimensiones, cada curva depresenta un área en el espacio $(\theta_1, \theta_o)$ donde la función $J$ tiene el mismo valor.

![Title](Imágenes/2-4-2.png)

En este caso se busca también minimizara $J$, para la gráfica en 3D es claro que el valor mínimo es el punto de mínima altura en la gráfica, para las curvas de nivel, el valor mínimo de $J$ se encuentra en el vértice de las elipses.

## 2.5 Gradient descent

Gradient descent es el algoritmo más general para minimizar el valor de la función $J(\theta_1, \theta_o)$, de hecho es un algoritmo que sirve para una función $J(\theta_o, \theta_1, ... , \theta_n)$, por ahora se considerará solo el caso $n=1$. 

El algoritmo parte de una posición inicial y encuentra un valor mínimo en $J$, de manera intuitiva el algoritmo funciona como se muestra en la siguiente figura:

![Title](Imágenes\2-5-1.png)

En la figura se observa que el algorimto encontró 2 mínimos diferentes para el valor de $J$ porque partió de 2 posiciones iniciales diferentes.

### Algoritmo

El siguiente algoritmo se repite hasta la convergencia para $j=0,1$

$$
\theta_j := \theta_j - \alpha \frac{\partial}{\partial \theta_j} J (\theta_o, \theta_1)
$$

o de manera computacional puede verse como:

![Title](Imágenes\2-5-2.png)

El valor de $\alpha$ determina el tamaño del paso, en la siguiente sección se profundizará más sobre este parámetro.

## 2.6 Intuición sobre Gradient descent

El valor de $\alpha$ debe escogerse con cuidado para evitar los siguientes errores:  

1. Un valor de $\alpha$ muy pequeño: El algoritmo puede tardarse demasiado en converger, pero el valor hallado será más preciso, como se muestra en la primera gráfica.

2. Un valor de $\alpha$ muy grande: Se aproximará más rápido se aproximará al valor mínimo de $J$ pero cuidado, el algoritmo se puede saltar el valor mínimo de $J$, como se muestra en la segunda gráfica.

![Title](Imágenes\2-6-1.png)

Es claro que la manera más eficiente de obtener a $\alpha$ es que sea un valor variable, que sea grande cuando esté lejos del mínimo pero conforme se acerca a él vaya reduciendo su valor, osea, que directamente proporcional a la magnitud de la pendiente en un punto de la gráfica de $J$, como se muestra en la figura:

![Title](Imágenes\2-6-2.png)

## 2.7 Gradient descent para la regresión lineal

Al aplicar el algoritmo gradient descent a la regresión lineal tenemos:
    
$\frac{\partial}{\partial \theta_o} J (\theta_o, \theta_1) = \frac{1}{m} \sum_{i=1}^m (h_\theta (x^{(i)})-y^{(i)})$ para $j=0$

$\frac{\partial}{\partial \theta_1} J (\theta_o, \theta_1) = \frac{1}{m} \sum_{i=1}^m (h_\theta (x^{(i)})-y^{(i)}) \cdot x^{(i)} $ para $j=1$

por lo tanto, para obtener a los valores $(\theta_o, \theta_1)$ se debe repetir hasta la convergencia el siguiente algoritmo:

$$\theta_o := \theta_o - \alpha \frac{1}{m} \sum_{i=1}^m (h_\theta (x^{(i)})-y^{(i)})$$

$$\theta_1 := \theta_1 - \alpha \frac{1}{m} \sum_{i=1}^m (h_\theta (x^{(i)})-y^{(i)}) \cdot x^{(i)}$$

Gráficamente así actúa el algoritmo en un espació $(\theta_o, \theta_1)$, aproximándose al vértice de las elipses, que corresponde al valor mínimo de $J$.

![Title](Imágenes\2-7-1.png)

## 2.8 ¿Qué sigue?

Existen 2 extenciones a este algoritmo:

1. Se puede hallar $\theta_o$ y $\theta_1$ de manera exacta, sin un algoritmo iterativo.
2. Se puede realizar un modelo con una mayor cantidad de atributos, no solo 2.

Para ampliar este algorimto se usará algebra linea, la lectura 3 del curso de Andrew Ng es un repaso de algebra lineal del cual no realizaré notas a menos que se toque algún tema puntual de Machine Learning. Si el lector no está familiarizado con temas básicos de algebra lineal recomiendo buscar la lectura 3 de Andrew Ng en YouTube antes de continuar con la lectura 4 en estas notas. Los temas que se ven en su repaso son:

 - Vectores y matrices
 - Operaciones básicas con vectores y matrices
 - Matrices inversas y transpuestas