# SEMANA 1
**SET DE ENTRENAMIENTO:** Conjunto de valores (x,y) para entrenar el algoritmo. <br>
   
<br>**HIPÓTESIS:** Intenta predecir valores a partir de una función lineal 
$$\theta_0+\theta_1\cdot x=h(x)$$
*Donde $\theta_k$ son los parámetros de la función.

<br>**FUNCIÓN COSTO (J):** Encontrar $\theta_0,\theta_1[,...,\theta_n]$ para minimizar esta función. (Error cuadrático)
$$\min_{\theta_n}\frac{1}{2m}\sum_{i=1}^m{\left(h(x^{(i)})-y^{(i)}\right)^2}=\min_{\theta_n}J(\theta)$$
*Donde $(x^{(i)},y^{(i)})$ es la i-ésima pareja del set de entrenamiento.

<br>**ALGORITMO - DESCENSO POR GRADIENTE:** <br>
*(para dos parámetros)*<br>
>1. Iniciar con *algún* $\theta_0,\theta_1$ <br>
>2. Ir cambiando $\theta_0,\theta_1$ simultaneamente para reducir $J(\theta_0,\theta_1)$ hasta encontrar su mínimo<br>

$$
\textrm{repetir hasta que }\Delta_{\theta_j}\lt\textrm{M} \\
\theta_j:=\theta_j-\alpha\frac{\partial}{\partial{\theta_j}}J(\theta_0,\theta_1) \\
\textrm{Para  } j=0,1
$$

Donde:
- $M$ es un umbral definido
- $\alpha$ es la *tasa de aprendizaje* del algoritmo (qué tan rápido cambian los valores de $\theta_j$)


<br>**DESCENSO POR GRADIENTE PARA REGRESIÓN LINEAL:**<br>
*(para dos parámetros)*<br>
Debido a naturaleza convexa de la función costo, descenso por gradiente siempre encuentra el mínimo global de la función. Entonces este algoritmo puede ser utilizado para minimizarla. <br><br>
Sabiendo que: 
$$
h(x)=\theta_0+\theta_1\cdot x \\
J(\Theta)=\frac{1}{2m}\sum_{i=1}^m{\left(h(x^{(i)})-y^{(i)}\right)^2}\\
\theta_0:=\theta_0-\alpha\frac{\partial}{\partial{\theta_0}}J(\theta_0,\theta_1)\\
\theta_1:=\theta_1-\alpha\frac{\partial}{\partial{\theta_1}}J(\theta_0,\theta_1)\\
$$
Hallando derivadas:
$$
\frac{\partial}{\partial{\theta_j}}J(\theta_0,\theta_1)= \frac{\partial}{\partial{\theta_j}}\frac{1}{2m}\sum_{i=1}^m{\left(\theta_0+\theta_1\cdot x^{(i)}-y^{(i)}\right)^2} \\
\frac{\partial}{\partial{\theta_0}}J(\theta_0,\theta_1)= \frac{1}{m}\sum_{i=1}^m{\left(\theta_0+\theta_1\cdot x^{(i)}-y^{(i)}\right)} \\
\frac{\partial}{\partial{\theta_1}}J(\theta_0,\theta_1)= \frac{1}{m}\sum_{i=1}^m{\left(\theta_0+\theta_1\cdot x^{(i)}-y^{(i)}\right)}\cdot x^{(i)}
$$
Entonces:
$$
\theta_0:=\theta_0-\alpha\frac{1}{m}\sum_{i=1}^m{\left(h(x^{(i)})-y^{(i)}\right)}\\
\theta_1:=\theta_1-\alpha\frac{1}{m}\sum_{i=1}^m{\left(h(x^{(i)})-y^{(i)}\right)}\cdot x^{(i)}
$$





In [None]:
#ver código en regresionLineal.py


# SEMANA 2
**MÚLTIPLES CARACTERÍSTICAS:** Ahora se tienen en cuenta $n$ parámetros para cada fila.<br>
 - $x^{(i)}$ es el vector de parámetros de entrada para la i-ésima fila. <br>
 - $x_j^{(i)}$ es el valor del j-ésimo parámetro de la i-ésima fila.

 Ahora hipótesis es:
 $$
 h_\theta(x)=\theta_0\cdot x_0+\theta_1\cdot x_1+\theta_2\cdot x_2+...+\theta_n\cdot x_n
 $$
 Donde $x_0=1$ <br>
 $x$ y $\theta$ se pueden representar como:
 $$
 x=
 \begin{bmatrix} 
    x_0  \\ 
    x_1  \\ 
    ...  \\
    x_n
 \end{bmatrix}
 $$
y
 $$
 \theta=
 \begin{bmatrix} 
    \theta_0  \\ 
    \theta_1  \\ 
    ...  \\
    \theta_n
 \end{bmatrix}
 
 $$

 Entonces:
 $$
 h(x)=\theta^T \cdot x
 $$

 **DESCENSO POR GRADIENTE PARA MÚLTIPLES CARACTERÍSTICAS:**<br>
 Función costo:
 $$
 J(\Theta)=\frac{1}{2m}\cdot \sum_{i=1}^m\left(h_\theta(x^{(i)})-y^{(i)}\right)^2
 $$
 Algoritmo:
 $$
\textrm{repetir hasta que }\Delta_{\theta_j}\lt\textrm{M} \\
\theta_j:=\theta_j-\alpha\frac{\partial}{\partial{\theta_j}}J(\Theta) \\
\rightarrow\theta_j:=\theta_j-\alpha\frac{1}{m}\sum_{i=1}^m\left( (h_\theta(x^{i})-y^{(i)})\cdot x_j^{(i)}\right) \\
\textrm{Para todo } j=0..n
$$
$$

**ESCALAMIENTO DE CARACTERÍSTICAS:**<br>
Si una característica de entrada tiene valores muy diferentes a otras características de entrada o salida, es conveniente normalizar estas características a valores cercanos a $-1 < x < 1$, de la forma:
$$
x=\frac{x-\mu_x}{\sigma_x}
$$
Donde, $\mu_x$ es la media de $x$ y $\sigma_x$ es la desviación estándar o el rango de valores de $x$ (Es decir, $x_{max}-x_{min}$)

**CARACTERÍSTICAS Y REGRESIÓN POLINOMIAL:**<br>
 - Es posible unir varias características para simplificar un modelo. Por ejemplo si dos de mis características son *Largo* y *Ancho*, puede ser que la nueva característica sea $Area=Largo\cdot Ancho$
 - Es posible convertir la regresión lineal en regresión polinomial, si simplemente escalamos las características a diferentes potencias. Por ejemplo (siendo x una característica de entrada): 
 $$
 y=\theta_0+x\cdot \theta_1+x^2\cdot \theta_2
 $$

 Se puede modelar de manera sencilla simplemente creando un arreglo con x^2. Este procedimiento puede ser replicado para otras funciones matemáticas, por ejemplo $\sqrt{x}$ o $\ln{x}$.
