# Lectura 4

## RafaCastle

## 4.1 Regresión lineal con múltiples variables

Supongamos que se tiene un conjunto de datos $C$ tal que $C = \{ (x_1^{(1)},x_2^{(1)},x_3^{(1)},x_4^{(1)},y^{(1)}), (x_1^{(2)},x_2^{(2)},x_3^{(2)},x_4^{(2)},y^{(2)}), ... , (x_1^{(M)},x_2^{(M)},x_3^{(M)},x_4^{(M)},y^{(M)}) \}$. 

En este caso se tiene un conjunto con 4 variables inputs $(x_1,x_2,x_3,x_4)$ y una variable target $y$. Por lo que la función hipótesis ahora tiene la forma:

$$
h_\theta (x) = \theta_o +\theta_1 x_1 +\theta_2 x_2 +\theta_3 x_3 +\theta_4 x_4
$$

Así, para un conjunto con $n$ variables inputs, donde $X = (x_1, x_2, ... , x_n)$ y $\Theta = (\theta_1, \theta_2, ... , \theta_n)$, la función hipótesis tiene la forma:

$$
h_\theta (x) = X \cdot \Theta = \sum_{i=0}^n \theta_i x_i 
$$

donde $x_o = 1$.

## 4.2 Gradient descent para múltiples variables

Con múltiples variables, la función $J$ pasa a ser función de la matriz $\Theta$, es decir $J = J(\Theta)$. El algoritmo para minimizar la función $J$ se convierte entonces en:

$$
\theta_j = \theta_j - \alpha \frac{1}{m} \sum_{i=1}{M}(h_\theta (x_j^{(i)})-y^{(i)})x_j^{(i)} 
$$

## 4.3 El gradiente en la escala práctica de características.

Resulta útil "escalar" las variables a una escala similar para evitar errores al momento de minimizar la función $J$, si por ejemplo una de las variables ($x_1$) toma valores entre $0$ y $3$ y otra ($x_2$) toma valores entre $10,000$ y $50,000$. El valor escogido de $\alpha$ puede ser muy grande para una y muy pequeño para la otra, por lo que hace falta reescalarlas:

$$
x_1 = \frac{x_1}{3} \hspace{1cm} y \hspace{1cm} x_2 = \frac{x_2 - 10,000}{50,000}
$$

de modo que ambas variables tomen solo valores entre $0$ y $1$. También es posible hacer una normalización de modo que los valores queden entre -1 y 1 con media en 0 si es conveniente.

## 4.4 Coeficiente de aprendizaje

Se puede verificar que el coeficiente de aprendizaje $\alpha$ este actuando correctamente al graficar su valor cada iteración:

![Title](Imágenes\4-4-1.png)

Como se muestra en la gráfica, el valor $J$ debe de disminuir tras cada iteración, para determinar si el algoritmo hace que la función converja, es posible definir una prueba, por ejemplo, si $J(\theta)$ disminuye menos de $10^{-3}$ en una iteración.

Si la función $J$ no disminuye su valor, probablemente el valor $\alpha$ sea demasiado grande y haya que disminuirlo. 

![Title](Imágenes\4-4-2.png)

Se puede probar de manera matemática que si el valor de $\alpha$ es lo suficientemente pequeño, entonces el valor de $J$ disminuirá tras cada iteración, o permanecerá igual si ya a convergido.

## 4.5 Atributos y regresión polinomial

A veces es posible mezclar atributos para obtener un mejor modelo, por ejemplo, supongamos que se busca predecir el precio de una casa por medio del ancho $x_1$ y del largo $x_2$ de la propiedad, en ese caso la función hipótesis tiene la forma:

$$
h_\theta (x) = \theta_o + \theta_1 x_1 + \theta_2 x_2
$$

Pero es posible definir un nuevo atributo llamado área tal que $x_3 =x_1 \cdot x_2$, de modo que el modelo que solo en función de $x_3$:

$$
h_\theta (x) = \theta_o + \theta_3 x_3
$$

Cuando el conjunto de puntos no muestra una conducta lineal, es posible que el mejor ajuste sea una función polinómica, como se muestra en la figura:

![Title](Imágenes\4-5-1.png)

En este caso es claro que el polinomio de grado 3 se ajusta mejor al conjunto de datos ya que el polinomio de grado 2 muewstra una conducta decreciente si el tamaño de la casa es muy grande y el conjunto de datos no actuaría así.

Para ajustar este tipo de modelo a la regresión lineal, es posible definir a la función hipótesis de la forma:

$$
h_\theta (x) = \theta_o + \theta_1 x_1 + \theta_2 x_2 + \theta_3 x_3
$$

Donde $x_1$ es el tamaño, $x_2 = x_1^2$ y $x_3=x_1^3$. Cabe señalar que la magnitud de las variables sería muy distinta, por lo que se requeriría escalar las variables antes de hacer la regresión.

## 4.6 Ecuación normal

La ecuación normal proporciona un método para hallar $\theta$ tal que $J(\theta)$ sea mínima de manera analítica. Si se tiene una única variable $\theta$, se deriva la función $J(\theta)$ con respecto a $\theta$ y se iguala a cero para obtener el mínimo.

$$
\frac{d}{d\theta} J(\theta) = 0
$$

Posteriormente se despeja el valor de $\theta$ obtenido, en el caso de que la función tenga un máximo, se vuelve a derivar la función $J$ y se observa si se tiene un signo negativo, si el signo es positivo se trata de un mínimo, si es negativo se trata de un máximo.

$$
\frac{d^2}{d \theta^2} J(\theta) > 0 \to \text{mínimo}
$$

$$
\frac{d^2}{d \theta^2} J(\theta) < 0 \to \text{máximo}
$$

En el caso de que la función $J$ dependa de varias variables, se deriva con respecto a cada una de ellas y se iguala a 0, si se tienen $n$ variables entonces se resuelve el sistema de $n$ incógnitas con $n$ ecuaciones.

$$
\frac{\partial}{\partial \theta_j} J(\theta_0, \theta_1, ... , \theta_n) = 0 \hspace{1cm} \text{para} \hspace{1cm} j=0,1,...,n
$$

### Ejemplo

Encontremos los valores de $\theta$ en un ejemplo, supongamos que se tiene el siguiente conjunto de datos:

In [11]:
import pandas as pd

tamaño = [2104,1416,1534,852]
dormitorios = [5,3,3,2]
pisos = [1,2,2,1]
años = [45,40,30,36] # antigüedad de la casa
precio = [460, 232, 315, 178] # en miles de dólares, variable a predecir

datos = {"Tamaño":tamaño, 
        "Número de dormitorios": dormitorios,
        "Número de pisos":pisos,
        "Edad de la casa":años,
        "Precio":precio}

df=pd.DataFrame(datos)
df

Unnamed: 0,Tamaño,Número de dormitorios,Número de pisos,Edad de la casa,Precio
0,2104,5,1,45,460
1,1416,3,2,40,232
2,1534,3,2,30,315
3,852,2,1,36,178


Vamos a agregar una columna con únicamente unos, que denominaremos $x_o$:

In [12]:
unos=[1,1,1,1]
df.insert(loc=0, column='xo', value=unos)
df

Unnamed: 0,xo,Tamaño,Número de dormitorios,Número de pisos,Edad de la casa,Precio
0,1,2104,5,1,45,460
1,1,1416,3,2,40,232
2,1,1534,3,2,30,315
3,1,852,2,1,36,178


Construyamos ahora una matriz $X$ únicamente con el conjunto de atributos:

In [23]:
import numpy as np
X = np.array(df.drop(columns='Precio'))
X

array([[   1, 2104,    5,    1,   45],
       [   1, 1416,    3,    2,   40],
       [   1, 1534,    3,    2,   30],
       [   1,  852,    2,    1,   36]], dtype=int64)

y denominemos $y$ al vector que contienen los valores de los precios:

In [24]:
y=np.array(df["Precio"])
y

array([460, 232, 315, 178], dtype=int64)

Los valores de $\Theta$ están dados entonces por la ecuación:

$$
\Theta = (X^T X)^{-1}X^T y
$$

In [32]:
XTX = np.matmul(X.T,X)
inv_XTX = np.linalg.inv(XTX)
inv_XTX_XT = np.matmul(inv_XTX,X.T)
valores_teta=np.matmul(inv_XTX_XT,y)
valores_teta 

array([-439.3984375 ,    0.52111816, -108.140625  ,  -40.484375  ,
         -7.94238281])

Finalmente, para decidir si usar el método del gradiente o la ecuación normal consideremos lo siguiente:

El método del gradiente
 - Necesita un valor $\alpha$
 - Se necesitan muchas iteraciones
 - Funciona correctamente aunque haya una cantidad inmensa de datos
 
La ecuación normal
 - No necesita un valor $\alpha$
 - No hace iteraciones
 - Puede ser muy lento para una cantidad inmensa de datos, ya que al programa le puede costar muchos recursos invertir una matriz muy grande

Por estas razones a veces es conveniente usar un método y a veces el otro, particularmente para conjuntos de datos grandes convienen mucho más obtener a los valores de $\theta$ mediante el método del gradiente.

## 4.7 Matriz no invertible

Puede darse la situación de que la matriz $X^T X$ no sea invertible, por lo que no pueda utilizarse la ecuación normal, es casi improbable que esa situación se presente, aún así, puede presentarse si el número de datos en el conjunto es menor o similar a la cantidad de atributos del conjunto.