### Derivadas parciales

Nuestro ejemplo en gradient_simple.ipynb es un ejemplo de modelo de regresión lineal en donde minimizamos una funcion de pérdida con un solo parámetro (w), donde fijamos b como una constante con valor b=0. 
Si agregamos el parámetro b a L, ahora nuestro problema se convierte en el de minimizar una función de dos variables (w,b).

### $$L(w,b) = \frac{1}{m} \sum_{i=1}^{m} (wx_{i} - y_i)^2$$ 
$$\text{Funcion de pérdida con b=0}$$

### $$L(w,b) = \frac{1}{m} \sum_{i=1}^{m} ([wx_{i} + b] - y_i)^2$$ 
$$\text{Función de pérdida con b como parametro}$$

Definamos el gradiente para funciones de dos parámetros:

Sea $f : \R ^2 \rightarrow \R$ 

Entonces el gradiente 

### $$\nabla f = [f_x, f_y]$$

Es el vector de derivadas parciales $f_x$ y $f_y$ de f. 
Y apunta en la dirección de la **MAYOR** tasa de crecimiento de f en un punto dado (notar que nosotros queremos ir hacia la dirección de la **MENOR** tasa de crecimiento, por lo que debemos ir en la dirección opuesta al gradiente).

Ahora calculemos el vector gradiente para L.
### $$L_w = \frac{\partial L(w,b)}{\partial w} = \frac{2}{m} \sum_{i=1}^{m} [x_i(wx_i + b - y_i)]$$ 

### $$L_b = \frac{\partial L(w,b)}{\partial b} = \frac{2}{m} \sum_{i=1}^{m} [(wx_i + b) - y_i] $$

Igual que en el caso de una variable, podemos actualizar w y b en la dirección opuesta al gradiente.

In [1]:
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sea

In [2]:
# Definamos en python la funcion que calcula el gradiente para esta funcion de pérdida

def predict(X,w,b):
	return X*w + b

def loss(X, Y, w, b):
	error = (predict(X, w, b) - Y)
	squared_error = error ** 2
	return np.average(squared_error)

def gradient(X, Y, w, b):
	L_w = np.average((predict(X,w,b) - Y) * X) * 2
	L_b = np.average(predict(X,w,b) - Y) * 2

	return (L_w, L_b)

In [3]:
# Y ahora la funcion train() que se va a encargar de entrenar el modelo ajustando los parametros w,b segun el gradiente

def train(X, Y, iterations, learning_rate):
	w = 0
	b = 0

	for i in range(iterations):
		l_w, l_b = gradient(X, Y, w, b)

		print(f'Iteracion: {i} Gradiente: [{l_w},{l_b}] Loss: {loss(X, Y, w, b)}')

		w -= l_w * learning_rate
		b -= l_b * learning_rate

	return (w,b)


In [4]:
# Cargamos los datos
X, Y = np.loadtxt('pizza.txt', skiprows=1, unpack=True)

# Llamamos a la funcion
w, b = train(X, Y, 20000, 0.001)

Iteracion: 0 Gradiente: [-806.8,-53.733333333333334] Loss: 812.8666666666667
Iteracion: 1 Gradiente: [-452.3830755555556,-33.186933333333336] Loss: 302.57695615644445
Iteracion: 2 Gradiente: [-253.579506048,-21.66018821925925] Loss: 141.98409032672075
Iteracion: 3 Gradiente: [-142.06438943317406,-15.192853689604744] Loss: 91.42137662111031
Iteracion: 4 Gradiente: [-79.51212699041373,-11.563503449918459] Loss: 75.47905765224317
Iteracion: 5 Gradiente: [-44.42467813201069,-9.526069225928135] Loss: 70.42988348520574
Iteracion: 6 Gradiente: [-24.743111894385887,-8.381591908132005] Loss: 68.80821027087441
Iteracion: 7 Gradiente: [-13.70319246772993,-7.738003222991297] Loss: 68.26501573143898
Iteracion: 8 Gradiente: [-7.510646028868871,-7.375379674029491] Loss: 68.06119337270614
Iteracion: 9 Gradiente: [-4.037144374893697,-7.170359215283414] Loss: 67.96418751616304
Iteracion: 10 Gradiente: [-2.0888408963197467,-7.053744172688877] Loss: 67.90082580727031
Iteracion: 11 Gradiente: [-0.996069267

El descenso de gradiente no funciona si:
- La función no es diferenciable
- La función no es convexa (tiene múltiples mínimos locales - en una funcion convexa todos los mínimos locales son globales)

Por ejemplo, la funcion de perdida implementada con error absoluto medio $y - \hat{y}$ no es diferenciable en 0. Por eso usamos la función de pérdida con error cuadrático $(y - \hat{y})^2$ que es diferenciable en todo el dominio.