In [None]:
# Gradiente de una regresión de un solo punto

En este cuaderno, calculamos el gradiente del coste cuadrático con respecto a los parámetros de un modelo de regresión en línea recta. Mantenemos las derivadas parciales lo más simples posible limitando el modelo al manejo de un único punto de datos.

In [1]:
import torch

Usemos los mismos datos que usamos en el cuaderno [*Regresión en PyTorch*](https://github.com/joanby/matematicas-ml/blob/master/notebooks/regression-in-pytorch.ipynb) así como para demostrar la Pseudoinversa de Moore-Penrose en el cuaderno [*Álgebra Lineal II*](https://github.com/joanby/matematicas-ml/blob/master/notebooks/2-linear-algebra-ii.ipynb):

In [6]:
xs=torch.tensor([0,1,2,3,4,5,6,7.])

In [7]:
ys=torch.tensor([1.86,1.31,.62,.33,.09,-.67,-1.23,-1.37])

La pendiente de la recta viene dada por $y = mx + b$:

In [5]:
def regression(my_x,my_m,my_b):
  return my_m*my_x+my_b

Inicialicemos $m$ y $b$ con los mismos valores «aleatorios» cercanos a cero que hicimos en el cuaderno *Regresión en PyTorch*:

In [2]:
m=torch.tensor([0.9]).requires_grad_()

In [3]:
b=torch.tensor([0.1]).requires_grad_()

Para mantener las derivadas parciales lo más simple posible, vamos a avanzar con una sola instancia $i$ de los ocho posibles puntos de datos:

In [8]:
i=7
x=xs[i]
y=ys[i]

In [12]:
x

tensor(7.)

In [13]:
y

tensor(-1.3700)

**Paso 1**: Paso hacia adelante

Podemos fluir el tensor escalar $x$ a través de nuestro modelo de regresión para producir $\hat{y}$, una estimación de $y$. Antes de cualquier modelo de formación, se trata de una estimación arbitraria:

In [11]:
yhat=regression(x,m,b)
yhat

tensor([6.4000], grad_fn=<AddBackward0>)

**Paso 2**: Comparar $\hat{y}$ con el valor real de $y$ para calcular el coste $C$

En el cuaderno *Regresión en PyTorch*, usamos el error cuadrático medio, que promedia el coste cuadrático sobre múltiples puntos de datos. Con un único punto de datos, aquí podemos usar sólo el coste cuadrático. Se define por: $$ C = (\hat{y} - y)^2 $$

In [14]:
def squared_error(my_yhat,my_y):
  return (my_yhat-my_y)**2

In [15]:
C=squared_error(yhat,y)
C

tensor([60.3729], grad_fn=<PowBackward0>)

**Paso 3**: Utilizar autodiff para calcular el gradiente de $C$ en función de los parámetros

In [16]:
C.backward()

La derivada parcial de $C$ Con respecto a $m$ ($\frac{\partial C}{\partial m}$) es:

In [18]:
m.grad

tensor([108.7800])

Y la derivada parcial de $C$ con respecto a $b$ ($\frac{\partial C}{\partial b}$) es:

In [19]:
b.grad

tensor([15.5400])