# El gradiente y la diferenciación automática

Automátizar la diferenciación es útil para implementar algoritmos de aprendizaje supervisado, como la retropropagación para entrenar redes neuronales.

En esta actividad, exploraremos cómo ccular gradientes con TensorFlow.

In [1]:
import numpy as np
import matplotlib.pyplot as plt

import tensorflow as tf

2023-06-08 20:49:48.289544: I tensorflow/tsl/cuda/cudart_stub.cc:28] Could not find cuda drivers on your machine, GPU will not be used.
2023-06-08 20:49:48.331757: I tensorflow/tsl/cuda/cudart_stub.cc:28] Could not find cuda drivers on your machine, GPU will not be used.
2023-06-08 20:49:48.332172: I tensorflow/core/platform/cpu_feature_guard.cc:182] This TensorFlow binary is optimized to use available CPU instructions in performance-critical operations.
To enable the following instructions: AVX2 FMA, in other operations, rebuild TensorFlow with the appropriate compiler flags.


## Cálculo degradientes

Para implementar la diferenciación automática, TensorFlow necesita recordar qué operaciones suceden y en qué orden durante la propagación hacia adelante (Forward propagation). Posteriormente, durante la propagación hacia atrás (Backward propagation), TensorFlow recorre la lista de operaciones en orden inverso para calcular los gradientes.

## Cálculo de gradientes

Para diferenciar automáticamente, TensorFlow necesita recordar qué operaciones suceden y en qué orden durante el paso hacia adelante . Luego, durante el paso hacia atrás , TensorFlow recorre esta lista de operaciones en orden inverso para calcular los gradientes.

## Cintas de gradientes

TensorFlow proporciona la API **tf.GradientTape** para implementar la diferenciación automática; es decir, calcular el gradiente de una operación con respecto a algunas entradas, generalmente tensores tipo **tf.Variable**. 

TensorFlow graba las operaciones ejecutadas dentro del contexto de un **tf.GradientTape** en una "cinta". Posteriormente, TensorFlow utiliza la cinta para calcular los gradientes de una operación "grabada" mediante la diferenciación recorriendo la cinta en orden inverso [[1]](https://en.wikipedia.org/wiki/Automatic_differentiation).

Veamos un ejemplo del uso de **tf.GradientTape** para diferenciar una operación.

In [5]:
x = tf.Variable(3.0)
with tf.GradientTape() as tape:
    y=x**2


In [6]:
dy_dx = tape.gradient(y,x)
print(dy_dx.numpy())

6.0


En la celda anterior hemos alamacenado en la cinta **$x^2$**. Podemos utilizar tf.GradientTape.gradient(target, source) para calcular el gradiente sobre algún target, normalmente un costo (**loss**) relativo a un conjunto de **variables** (source).

Veamos un ejemplo, 

En el ejemplo anterior aplicamos la diferenciación sobre variables escalares, pero **tf.GradientTape** fácilmente se puede aplicar sobre cualquier **Tensor**. Veamos un ejemplo de la diferenciación automática sobre tensores 2D. 

Para obtener el gradiente del **loss** con respecto a las variables, podemos pasarlas como **sources** al método **gradient**. La cinta es flexible respecto a cuantas variables se pasan como **sources**, ya sea como lista o diccionario, retornando los gradientes estructurados de la misma forma.

El gradiente con respecto a cada **source** tiene la forma del mismo **source**.

En el ejemplo anterior las variables se encuentran estructuradas como una lista, veamos como pasar las variables como un diccionario. 

## Gradientes con respecto a un modelo

Veamos como podemos utilizar **GradienteTape** sobre un modelo.