## a ) Computation Graphs and Automatic Differentiation

In [4]:
import torch
import torch.autograd as autograd
import torch.nn as nn
import torch.nn.functional as F
import torch.optim as optim

torch.manual_seed(1)

<torch._C.Generator at 0x116a0b750>

In [5]:
# Le añadimos requires_grad =  True
x = torch.tensor([1., 2., 3], requires_grad=True)

# con requires_grad, se puede seguir haciendo las operaciones de antes
y = torch.tensor([4., 5., 6], requires_grad=True)
z = x + y
print(z)

# Pero ahora z sabe algo extra
print(z.grad_fn)

tensor([5., 7., 9.], grad_fn=<AddBackward0>)
<AddBackward0 object at 0x110f1abe0>


Entonces los tensores saben lo que los creó. 
z sabe que no se leyó desde un archivo, no fue el resultado de una multiplicación o exponencial o lo que sea. (sabe que es producto de una suma -> "AddBackward0") 
Y si sigue siguiendo z.grad_fn, se encontrará en x e y.

Pero, ¿cómo nos ayuda eso a calcular un gradiente?

In [13]:
# Sumamos todas sus entradas
s = z.sum()
print(s)
print(s.grad_fn)

tensor(21., grad_fn=<SumBackward0>)
<SumBackward0 object at 0x110f1aa58>


Entonces, ¿cuál es la derivada de esta suma con respecto al primer componente de x? En matemáticas, queremos:
                            ∂s/∂x0

"s" sabe que fue creado como una suma del tensor "z". 

"z" sabe que fue la suma "x" + "y". Asi que

s=(x0+y0)[dieron z0]+(x1+y1)[dieron z1]+(x2+y2)[dieron z2]

Entonces "s" contiene suficiente información para determinar que la derivada que queremos es 1 (?)

Por supuesto, esto pasa por alto el desafío de cómo calcular realmente esa derivada. El punto aquí es que s lleva consigo suficiente información como para poder calcularla. En realidad, los desarrolladores de Pytorch programan las operaciones "sum ()" y "+" para saber cómo calcular sus gradientes y ejecutar el algoritmo de propagación inversa. Una discusión en profundidad de ese algoritmo está más allá del alcance de este tutorial.

Hagamos que Pytorch calcule el gradiente y veamos que teníamos razón: (tenga en cuenta que si ejecuta este bloque varias veces, el gradiente se incrementará. Esto se debe a que Pytorch acumula el gradiente en la propiedad .grad, ya que para muchos modelos esto es muy conveniente .)

In [15]:
'''
llamar a .backward () en cualquier variable 
ejecutará backprop, comenzando desde él.
'''
s.backward()
print(x.grad)
# si lo volvemos a hacer correr, seguira incrementandose

tensor([7., 7., 7.])


## b ) Gradients with Python

<u>Tensors with Gradients</u>
* Crear tensores con gradientes: Permite acumular gradientes

In [17]:
import torch

In [18]:
a = torch.ones((2, 2), requires_grad=True)

In [19]:
a

tensor([[1., 1.],
        [1., 1.]], requires_grad=True)

In [20]:
a.requires_grad

True

In [21]:
#Otro modo
a = torch.ones((2, 2))

#le pone por default:
a.requires_grad_()

# Revisa si requiere gradientes
a.requires_grad

True

In [23]:
#Esto no es una variable (no requiere gradientes)
no_gradient = torch.ones(2, 2)

no_gradient.requires_grad

False

In [24]:
#Con gradientes, puede realizar lo mismo que el tensor comun
b = torch.ones((2, 2), requires_grad=True)
print(a + b)
print(torch.add(a, b))

tensor([[2., 2.],
        [2., 2.]], grad_fn=<AddBackward0>)
tensor([[2., 2.],
        [2., 2.]], grad_fn=<AddBackward0>)


In [25]:
#absolutamente como cualquier tensor
print(a * b)
print(torch.mul(a, b))

tensor([[1., 1.],
        [1., 1.]], grad_fn=<MulBackward0>)
tensor([[1., 1.],
        [1., 1.]], grad_fn=<MulBackward0>)


### Pero que es realmente requires_grad
Permite el calculo de gradientes w.r.t. Eltensor que permite todas las acumulaciones de las gradientes(?)
<br>

In [36]:
x = torch.ones(2, requires_grad=True)
x

tensor([1., 1.], requires_grad=True)

In [27]:
#y = 5*(xi+1)^2
y = 5 * (x + 1) ** 2
y

tensor([20., 20.], grad_fn=<MulBackward0>)

Backward debe llamarse solo en un escalar (es decir, tensor de 1 elemento) o con gradiente w.r.t. La variable

Entonces reduzcamos y a un escalar ...

o = 1/2*(Sumatoria(yi))

In [29]:
o = (1/2) * torch.sum(y)
o

tensor(20., grad_fn=<MulBackward0>)

In [31]:
o.backward()

In [35]:
x.grad


tensor([10., 10.])

### Prueba con otro x 

In [46]:
xx = torch.tensor([1.0,2.0], requires_grad=True)

In [47]:
yy = 5 * (xx + 1) ** 2
yy

tensor([20., 45.], grad_fn=<MulBackward0>)

In [48]:
oo = (1/2) * torch.sum(yy)
oo

tensor(32.5000, grad_fn=<MulBackward0>)

In [49]:
oo.backward()
xx.grad

tensor([10., 15.])

![](img/explicacion.jpg)