##### Copyright 2020 Os autores do TensorFlow.

In [None]:
#@title Licensed under the Apache License, Version 2.0 (the "License");
# you may not use this file except in compliance with the License.
# You may obtain a copy of the License at
#
# https://www.apache.org/licenses/LICENSE-2.0
#
# Unless required by applicable law or agreed to in writing, software
# distributed under the License is distributed on an "AS IS" BASIS,
# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
# See the License for the specific language governing permissions and
# limitations under the License.

# Introdução aos gradientes e diferenciação automática

<table class="tfo-notebook-buttons" align="left">
  <td><a target="_blank" href="https://www.tensorflow.org/guide/autodiff"><img src="https://www.tensorflow.org/images/tf_logo_32px.png">Veja no TensorFlow.org</a></td>
  <td><a target="_blank" href="https://colab.research.google.com/github/tensorflow/docs/blob/master/site/en/guide/autodiff.ipynb"><img src="https://www.tensorflow.org/images/colab_logo_32px.png">Executar no Google Colab</a></td>
  <td><a target="_blank" href="https://github.com/tensorflow/docs/blob/master/site/en/guide/autodiff.ipynb"><img src="https://www.tensorflow.org/images/GitHub-Mark-32px.png">Ver fonte no GitHub</a></td>
  <td><a href="https://storage.googleapis.com/tensorflow_docs/docs/site/en/guide/autodiff.ipynb"><img src="https://www.tensorflow.org/images/download_logo_32px.png">Baixar caderno</a></td>
</table>

## Diferenciação Automática e Gradientes

[A diferenciação automática](https://en.wikipedia.org/wiki/Automatic_differentiation) é útil para implementar algoritmos de aprendizado de máquina, como [retropropagação](https://en.wikipedia.org/wiki/Backpropagation) , para treinar redes neurais.

Neste guia, discutiremos maneiras de calcular gradientes com o TensorFlow, especialmente na execução antecipada.

## Configuração

In [None]:
import numpy as np
import matplotlib.pyplot as plt

import tensorflow as tf

## Gradientes de computação

Para diferenciar automaticamente, o TensorFlow precisa lembrar quais operações acontecem em qual ordem durante o *encaminhamento* . Em seguida, durante a *passagem para trás* , o TensorFlow percorre essa lista de operações na ordem inversa para calcular gradientes.

## Fitas de gradiente

O TensorFlow fornece a API [tf.GradientTape](https://www.tensorflow.org/api_docs/python/tf/GradientTape) para diferenciação automática; isto é, calcular o gradiente de uma computação em relação a algumas entradas, geralmente `tf.Variable` s. O TensorFlow "grava" as operações relevantes executadas dentro do contexto de um `tf.GradientTape` em uma "fita". O TensorFlow usa essa fita para calcular os gradientes de uma computação "gravada" usando [a diferenciação de modo reverso](https://en.wikipedia.org/wiki/Automatic_differentiation) .

Aqui está um exemplo simples:

In [None]:
x = tf.Variable(3.0)

with tf.GradientTape() as tape:
  y = x**2

Depois de registrar algumas operações, use `GradientTape.gradient(target, sources)` para calcular o gradiente de algum destino (geralmente uma perda) em relação a alguma fonte (geralmente as variáveis do modelo).

In [None]:
# dy = 2x * dx
dy_dx = tape.gradient(y, x)
dy_dx.numpy()

O exemplo acima usa escalares, mas `tf.GradientTape` funciona facilmente em qualquer tensor:

In [None]:
w = tf.Variable(tf.random.normal((3, 2)), name='w')
b = tf.Variable(tf.zeros(2, dtype=tf.float32), name='b')
x = [[1., 2., 3.]]

with tf.GradientTape(persistent=True) as tape:
  y = x @ w + b
  loss = tf.reduce_mean(y**2)

Para obter o gradiente de `y` em relação a ambas as variáveis, você pode passar ambas como fontes para o método `gradient` . A fita é flexível sobre como as fontes são passadas e aceitará qualquer combinação aninhada de listas ou dicionários e retornará o gradiente estruturado da mesma maneira (consulte `tf.nest` ).

In [None]:
[dl_dw, dl_db] = tape.gradient(loss, [w, b])

O gradiente em relação a cada fonte tem a forma da fonte:

In [None]:
print(w.shape)
print(dl_dw.shape)

Aqui está o cálculo do gradiente novamente, desta vez passando um dicionário de variáveis:

In [None]:
my_vars = {
    'w': tf.Variable(tf.random.normal((3, 2)), name='w'),
    'b': tf.Variable(tf.zeros(2, dtype=tf.float32), name='b')
}

grad = tape.gradient(loss, my_vars)
grad['b']

## Gradientes em relação a um modelo

É comum coletar `tf.Variables` em um `tf.Module` ou em uma de suas subclasses ( `layers.Layer` , `keras.Model` ) para [verificação](checkpoint.ipynb) e [exportação](saved_model.ipynb) .

Na maioria dos casos, você desejará calcular gradientes em relação às variáveis treináveis de um modelo. Como todas as subclasses de `tf.Module` agregam suas variáveis na propriedade `Module.trainable_variables` , você pode calcular esses gradientes em poucas linhas de código: 

In [None]:
layer = tf.keras.layers.Dense(2, activation='relu')
x = tf.constant([[1., 2., 3.]])

with tf.GradientTape() as tape:
  # Forward pass
  y = layer(x)
  loss = tf.reduce_mean(y**2)

# Calculate gradients with respect to every trainable variable
grad = tape.gradient(loss, layer.trainable_variables)

In [None]:
for var, g in zip(layer.trainable_variables, grad):
  print(f'{var.name}, shape: {g.shape}')

<a id="watches"></a>

## Controlando o que a fita assiste

O comportamento padrão é gravar todas as operações após acessar uma `tf.Variable` treinável. As razões para isso são:

- A fita precisa saber quais operações gravar na passagem para frente para calcular os gradientes na passagem para trás.
- A fita contém referências a saídas intermediárias, portanto, você não deseja gravar operações desnecessárias.
- O caso de uso mais comum envolve o cálculo do gradiente de uma perda em relação a todas as variáveis treináveis de um modelo.

Por exemplo, o seguinte falha ao calcular um gradiente porque o `tf.Tensor` não é "observado" por padrão e o `tf.Variable` não é treinável:

In [None]:
# A trainable variable
x0 = tf.Variable(3.0, name='x0')
# Not trainable
x1 = tf.Variable(3.0, name='x1', trainable=False)
# Not a Variable: A variable + tensor returns a tensor.
x2 = tf.Variable(2.0, name='x2') + 1.0
# Not a variable
x3 = tf.constant(3.0, name='x3')

with tf.GradientTape() as tape:
  y = (x0**2) + (x1**2) + (x2**2)

grad = tape.gradient(y, [x0, x1, x2, x3])

for g in grad:
  print(g)

Você pode listar as variáveis que estão sendo observadas pela fita usando o método `GradientTape.watched_variables` :

In [None]:
[var.name for var in tape.watched_variables()]

`tf.GradientTape` fornece ganchos que dão ao usuário controle sobre o que é ou não observado.

Para gravar gradientes em relação a um `tf.Tensor` , você precisa chamar `GradientTape.watch(x)` :

In [None]:
x = tf.constant(3.0)
with tf.GradientTape() as tape:
  tape.watch(x)
  y = x**2

# dy = 2x * dx
dy_dx = tape.gradient(y, x)
print(dy_dx.numpy())

Por outro lado, para desabilitar o comportamento padrão de observar todos os `tf.Variables` , defina `watch_accessed_variables=False` ao criar a fita gradiente. Este cálculo usa duas variáveis, mas apenas conecta o gradiente para uma das variáveis:

In [None]:
x0 = tf.Variable(0.0)
x1 = tf.Variable(10.0)

with tf.GradientTape(watch_accessed_variables=False) as tape:
  tape.watch(x1)
  y0 = tf.math.sin(x0)
  y1 = tf.nn.softplus(x1)
  y = y0 + y1
  ys = tf.reduce_sum(y)

Como `GradientTape.watch` não foi chamado em `x0` , nenhum gradiente é calculado em relação a ele:

In [None]:
# dy = 2x * dx
grad = tape.gradient(ys, {'x0': x0, 'x1': x1})

print('dy/dx0:', grad['x0'])
print('dy/dx1:', grad['x1'].numpy())

## Resultados intermediários

Você também pode solicitar gradientes da saída em relação a valores intermediários calculados dentro do contexto `tf.GradientTape` .

In [None]:
x = tf.constant(3.0)

with tf.GradientTape() as tape:
  tape.watch(x)
  y = x * x
  z = y * y

# Use the tape to compute the gradient of z with respect to the
# intermediate value y.
# dz_dx = 2 * y, where y = x ** 2
print(tape.gradient(z, y).numpy())

Por padrão, os recursos mantidos por um `GradientTape` são liberados assim que o método `GradientTape.gradient()` é chamado. Para calcular vários gradientes no mesmo cálculo, crie uma fita de gradiente `persistent` . Isso permite várias chamadas para o método `gradient()` à medida que os recursos são liberados quando o objeto de fita é coletado como lixo. Por exemplo:

In [None]:
x = tf.constant([1, 3.0])
with tf.GradientTape(persistent=True) as tape:
  tape.watch(x)
  y = x * x
  z = y * y

print(tape.gradient(z, x).numpy())  # 108.0 (4 * x**3 at x = 3)
print(tape.gradient(y, x).numpy())  # 6.0 (2 * x)

In [None]:
del tape   # Drop the reference to the tape

## Notas sobre o desempenho

- Há uma pequena sobrecarga associada à execução de operações dentro de um contexto de fita de gradiente. Para a execução mais rápida, isso não será um custo perceptível, mas você ainda deve usar o contexto de fita nas áreas apenas onde for necessário.

- As fitas de gradiente usam memória para armazenar resultados intermediários, incluindo entradas e saídas, para uso durante a passagem para trás.

    Para eficiência, algumas operações (como `ReLU` ) não precisam manter seus resultados intermediários e são podadas durante o passe para frente. No entanto, se você usar `persistent=True` em sua fita, *nada será descartado* e seu pico de uso de memória será maior.

## Gradientes de alvos não escalares

Um gradiente é fundamentalmente uma operação em um escalar.

In [None]:
x = tf.Variable(2.0)
with tf.GradientTape(persistent=True) as tape:
  y0 = x**2
  y1 = 1 / x

print(tape.gradient(y0, x).numpy())
print(tape.gradient(y1, x).numpy())

Assim, se você solicitar o gradiente de vários alvos, o resultado para cada fonte será:

- O gradiente da soma dos alvos, ou equivalentemente
- A soma dos gradientes de cada alvo.

In [None]:
x = tf.Variable(2.0)
with tf.GradientTape() as tape:
  y0 = x**2
  y1 = 1 / x

print(tape.gradient({'y0': y0, 'y1': y1}, x).numpy())

Da mesma forma, se os alvos não forem escalares, o gradiente da soma é calculado:

In [None]:
x = tf.Variable(2.)

with tf.GradientTape() as tape:
  y = x * [3., 4.]

print(tape.gradient(y, x).numpy())

Isso simplifica a obtenção do gradiente da soma de uma coleção de perdas ou o gradiente da soma de um cálculo de perda por elemento.

Se você precisar de um gradiente separado para cada item, veja [Jacobians](advanced_autodiff.ipynb#jacobians) .

Em alguns casos, você pode pular o jacobiano. Para um cálculo elementar, o gradiente da soma fornece a derivada de cada elemento em relação ao seu elemento de entrada, uma vez que cada elemento é independente:

In [None]:
x = tf.linspace(-10.0, 10.0, 200+1)

with tf.GradientTape() as tape:
  tape.watch(x)
  y = tf.nn.sigmoid(x)

dy_dx = tape.gradient(y, x)

In [None]:
plt.plot(x, y, label='y')
plt.plot(x, dy_dx, label='dy/dx')
plt.legend()
_ = plt.xlabel('x')

## Controle de fluxo

Como as fitas gravam as operações à medida que são executadas, o fluxo de controle do Python (usando `if` s e `while` s, por exemplo) é manipulado naturalmente.

Aqui uma variável diferente é usada em cada ramificação de um `if` . O gradiente só se conecta à variável que foi usada:

In [None]:
x = tf.constant(1.0)

v0 = tf.Variable(2.0)
v1 = tf.Variable(2.0)

with tf.GradientTape(persistent=True) as tape:
  tape.watch(x)
  if x > 0.0:
    result = v0
  else:
    result = v1**2 

dv0, dv1 = tape.gradient(result, [v0, v1])

print(dv0)
print(dv1)

Apenas lembre-se de que as próprias instruções de controle não são diferenciáveis, portanto, são invisíveis para otimizadores baseados em gradiente.

Dependendo do valor de `x` no exemplo acima, a fita grava `result = v0` ou `result = v1**2` . O gradiente em relação a `x` é sempre `None` .

In [None]:
dx = tape.gradient(result, x)

print(dx)

## Obtendo um gradiente de `None`

Quando um destino não está conectado a uma fonte, você obterá um gradiente de `None` .


In [None]:
x = tf.Variable(2.)
y = tf.Variable(3.)

with tf.GradientTape() as tape:
  z = y * y
print(tape.gradient(z, x))

Aqui `z` obviamente não está conectado a `x` , mas existem várias maneiras menos óbvias de desconectar um gradiente.

### 1. Substituiu uma variável por um tensor.

Na seção sobre ["controlar o que a fita assiste"](#watches) , você viu que a fita assistirá automaticamente a um `tf.Variable` mas não a um `tf.Tensor` .

Um erro comum é substituir inadvertidamente um `tf.Variable` por um `tf.Tensor` , em vez de usar `Variable.assign` para atualizar o `tf.Variable` . Aqui está um exemplo:

In [None]:
x = tf.Variable(2.0)

for epoch in range(2):
  with tf.GradientTape() as tape:
    y = x+1

  print(type(x).__name__, ":", tape.gradient(y, x))
  x = x + 1   # This should be `x.assign_add(1)`

### 2. Fez cálculos fora do TensorFlow

A fita não pode gravar o caminho do gradiente se o cálculo sair do TensorFlow. Por exemplo:

In [None]:
x = tf.Variable([[1.0, 2.0],
                 [3.0, 4.0]], dtype=tf.float32)

with tf.GradientTape() as tape:
  x2 = x**2

  # This step is calculated with NumPy
  y = np.mean(x2, axis=0)

  # Like most ops, reduce_mean will cast the NumPy array to a constant tensor
  # using `tf.convert_to_tensor`.
  y = tf.reduce_mean(y, axis=0)

print(tape.gradient(y, x))

### 3. Tomou gradientes por meio de um inteiro ou string

Inteiros e strings não são diferenciáveis. Se um caminho de cálculo usar esses tipos de dados, não haverá gradiente.

Ninguém espera que as strings sejam diferenciáveis, mas é fácil criar acidentalmente uma constante ou variável `int` se você não especificar o `dtype` .

In [None]:
# The x0 variable has an `int` dtype.
x = tf.Variable([[2, 2],
                 [2, 2]])

with tf.GradientTape() as tape:
  # The path to x1 is blocked by the `int` dtype here.
  y = tf.cast(x, tf.float32)
  y = tf.reduce_sum(x)

print(tape.gradient(y, x))

O TensorFlow não converte automaticamente entre os tipos, portanto, na prática, você geralmente receberá um erro de tipo em vez de um gradiente ausente.

### 5. Levou gradientes por meio de um objeto com estado

O estado pára gradientes. Quando você lê de um objeto com estado, a fita só pode ver o estado atual, não o histórico que leva a ele.

Um `tf.Tensor` é imutável. Você não pode alterar um tensor depois de criado. Tem um *valor* , mas nenhum *estado* . Todas as operações discutidas até agora também são stateless: A saída de um `tf.matmul` depende apenas de suas entradas.

Uma `tf.Variable` tem um estado interno, seu valor. Quando você usa a variável, o estado é lido. É normal calcular um gradiente em relação a uma variável, mas o estado da variável impede que os cálculos de gradiente voltem mais para trás. Por exemplo:


In [None]:
x0 = tf.Variable(3.0)
x1 = tf.Variable(0.0)

with tf.GradientTape() as tape:
  # Update x1 = x1 + x0.
  x1.assign_add(x0)
  # The tape starts recording from x1.
  y = x1**2   # y = (x1 + x0)**2

# This doesn't work.
print(tape.gradient(y, x0))   #dy/dx0 = 2*(x1 + x2)

Da mesma forma, os iteradores `tf.data.Dataset` e `tf.queue` s são stateful e pararão todos os gradientes nos tensores que passam por eles.

## Nenhum gradiente registrado

Alguns `tf.Operation` s são **registrados como não diferenciáveis** e retornarão `None` . Outros **não possuem gradiente registrado** .

A página [tf.raw_ops](https://www.tensorflow.org/api_docs/python/tf/raw_ops) mostra quais operações de baixo nível têm gradientes registrados.

Se você tentar obter um gradiente por meio de uma operação flutuante que não tenha gradiente registrado, a fita gerará um erro em vez de retornar silenciosamente `None` . Dessa forma, você sabe que algo deu errado.

Por exemplo, a função `tf.image.adjust_contrast` envolve [raw_ops.AdjustContrastv2](https://www.tensorflow.org/api_docs/python/tf/raw_ops#.AdjustContrastv2) que pode ter um gradiente, mas o gradiente não é implementado:


In [None]:
image = tf.Variable([[[0.5, 0.0, 0.0]]])
delta = tf.Variable(0.1)

with tf.GradientTape() as tape:
  new_image = tf.image.adjust_contrast(image, delta)

try:
  print(tape.gradient(new_image, [image, delta]))
  assert False   # This should not happen.
except LookupError as e:
  print(f'{type(e).__name__}: {e}')


Se você precisar diferenciar por meio dessa operação, precisará implementar o gradiente e registrá-lo (usando `tf.RegisterGradient` ), ou reimplementar a função usando outras operações.

## Zeros em vez de Nenhum

Em alguns casos, seria conveniente obter 0 em vez de `None` para gradientes não conectados. Você pode decidir o que retornar quando tiver gradientes desconectados usando o argumento `unconnected_gradients` :

In [None]:
x = tf.Variable([2., 2.])
y = tf.Variable(3.)

with tf.GradientTape() as tape:
  z = y**2
print(tape.gradient(z, x, unconnected_gradients=tf.UnconnectedGradients.ZERO))