# Что такое TensorFlow и где его используют?

Автор лекции: [Килбас Игорь](https://github.com/oKatanaaa)

**TensorFlow - это библиотека машинного обучения, позволяющая обучать приозвольные модели глубокого обучения**: 
свёрточные нейронные сети, рекуррентные нейронные сети и прочие модели (вообще говоря, любые модели глубокого обучения). 
Однако **TensorFlow не ограничен только обучением нейронных сетей и может быть использован для решения любых математических 
задач**, где полезно утилизировать мощности GPU или же есть необходимость в автоматическом дифференцировании (вычисление 
производной).

**TensorFlow имеет очень широкое сообщество.** Для TensorFlow уже написано туториалов, большое множество ML проектов используют именно TensorFlow, собраны целые библиотеки предобученных моделей. 

**TensorFlow отлично подходит как для научной деятельности, так и для бизнеса.** TensorFlow имеет целую экосистему инструментов:
- [TensorFlow Lite](https://www.tensorflow.org/lite) - полезен при разработке и оптимизации моделей, что будут запускаться на мобильных девайсах.
- [TensorFlow.js](https://www.tensorflow.org/js) - разработка моделей, запускаемых прямо в браузере.
- [TensorFlow Extended](https://www.tensorflow.org/tfx) - набор инструментов для деплоинга моделей в виде бизнес решений.
- [TensorFlow Hub](https://www.tensorflow.org/hub) - библиотека предобученных моделей (детекторы объектов, классификаторы и т.д.).

Дабы не пугать новоприбывших, все вышеозвученные вещи знать необязательно. Чтобы эффективно использовать TensorFlow, достаточно лишь уметь пользоваться исходной библиотекой, это покроет 99% случаев. Остальное - вишенка на торте, упрощающая жизнь в сложных проектах.

В данной лекции будет рассматриваться TensorFlow 2.8 (последняя версия на момент написания лекции).

## TensorFlow 1.x vs TensorFlow 2.x

*Данный пункт является историческим экскурсом и не обязателен для чтения.*

До появления [PyTorch](https://pytorch.org/) с его возможностями динамических вычислений (eager execution) очень многие библиотеки (включая TensorFlow 1.x) использовали статические графы.
Например, в Pytorch вычисления происходят по ходу исполнения кода:
```python
x = torch.tensor([1, 2, 3])
x = torch.sin(x)  # Синус начинает вычисляться сразу после вызова функции
print(x)  # -> tensor([0.8415, 0.9093, 0.1411])
```

Однако в случае TensorFlow 1.x аналогичный код не будет производить какие-либо вычисления:
```python
x = tf.convert_to_tensor([1, 2, 3], dtype='float32')
x = tf.sin(x)  # Синус не вычисляется
print(x)  # -> Tensor("Sin_1:0", shape=(3,), dtype=float32)
```
В отличие от PyTorch, TensorFlow 1.x лишь записывает порядок вычислений, строя так называемый статический вычислительный граф. Ранее необходимо было сначала объявить порядок вычислений (построить статический граф), а после запустить граф, подавая данные в его отдельные узлы.
```python
sess = tf.Session()
x_val = sess.run(x)  # Запускает вычислительный граф
print(x_val)  # -> [0.84147096 0.9092974  0.14112   ]
```

Пример программы на TensorFlow 1.x:
```python
x = tf.placeholder(shape=[3], dtype='float32')  # Обозначает место входа данных в граф
y = tf.sin(x)
sess = tf.Session()  #  Является менеджером вычислений. Определяет где и как они будут проходить
y_val = sess.run(
    y,
    feed_dict={ x: [1., 2., 3.] }  # Запускаем граф, передавая в x данные
)
print(y_val)
```

Такой подход имеет преимущество в виде возможности оптимизации построенного графа, сильно ускоряя вычисления и снижая потребления по памяти. Однако статические графы не очень гибки и тем самым замедляют разработку моделей, поскольку результат вычислений можно увидеть только после того, как весь граф был построен и запущен. Помимо статических графов, в TensorFlow 1.x был не самый чистый API, а сам код программ с TF порой выглядел запутанно и громоздко (а порой просто нечитаемо). Говоря об отношении сообщества к TensorFlow 1.x, можно процитировать один из [твитов](https://twitter.com/karpathy/status/868178954032513024?lang=en): `Я пользуюсь PyTorch вот уже несколько месяцев и я еще никогда не чувствовал себя лучше. Я стал более энергичным. Моя кожа стала чиже. Моё зрение улучшилось.`

С выходом PyTorch стало возможным писать ML программы, рассуждая о них как об обычных программах, которые производят вычисления по ходу исполнения инструкций. PyTorch не отказывается от графов, поскольку они нужны для автоматического дифференцирования, однако он строит их динамически по ходу выполнения программы. В данном случае проводить оптимизации несколько сложнее, однако сама разработка моделей проходит существенно быстрее и комфортнее. 

TensorFlow 2 является переработкой первой версии: убран лишний и устаревший API, а динамические вычисления (eager execution) теперь являются стандартным поведением TensorFlow. По удобству TensorFlow 2.x не уступает PyTorch, оба фреймворка являются превосходными инструментами для ML специалиста.

# Установка TensorFlow

**Готовый Docker образ:**
```
docker pull tensorflow/tensorflow:latest-gpu-jupyter
docker run --rm -it --gpus all -p 8888:8888 tensorflow/tensorflow:latest-gpu-jupyter
```
Для корректного запуска данного контейнера на Windows необходима установка [NVIDIA Container Toolkit](https://github.com/NVIDIA/nvidia-docker).

**Установка через pip:**

TensorFlow 2.x требует Python версии 3.7 и выше.
```
pip install --upgrade pip
pip install tensorflow
```


Официальная инструкция: 
https://www.tensorflow.org/install

Дабы начать работу с TensorFlow прямо сейчас, можно воспользоваться Google Colab (он имеет предустановленный TF): 
https://colab.research.google.com/notebooks/welcome.ipynb

In [1]:
import tensorflow as tf
import numpy as np
tf.__version__

'2.8.0'

In [2]:
tf.config.list_physical_devices()

[PhysicalDevice(name='/physical_device:CPU:0', device_type='CPU'),
 PhysicalDevice(name='/physical_device:GPU:0', device_type='GPU')]

## 1. Основы работы с тензорами

### 1.1 Создание tf.Tensor

Подобно тензорам (np.ndarray) в Numpy, TensorFlow имеет собственные тензоры tf.Tensor для манипуляции над численными данными. Их можно создать целым рядом функций:
- [tf.zeros](https://www.tensorflow.org/api_docs/python/tf/zeros)
- [tf.ones](https://www.tensorflow.org/api_docs/python/tf/ones)
- [tf.range](https://www.tensorflow.org/api_docs/python/tf/range)
- [tf.linspace](https://www.tensorflow.org/api_docs/python/tf/linspace)
- [tf.eye](https://www.tensorflow.org/api_docs/python/tf/eye)
- [tf.random.normal](https://www.tensorflow.org/api_docs/python/tf/random/normal)
- [tf.random.uniform](https://www.tensorflow.org/api_docs/python/tf/random/uniform)
- [tf.random.poisson](https://www.tensorflow.org/api_docs/python/tf/random/poisson)

Возможно некоторые функции звучат знакомо, поскольку все они доступны также и в Numpy. 

Чтобы конвертировать существующий np.ndarray в tf.Tensor используется функция [tf.convert_to_tensor](https://www.tensorflow.org/api_docs/python/tf/convert_to_tensor)

In [3]:
x_np = np.random.normal(size=(3, 3)).astype('float32')
x_tf = tf.convert_to_tensor(x_np)

In [4]:
x_np

array([[ 0.59066963,  0.14386383, -0.22342394],
       [ 1.4184464 ,  1.4589547 , -0.24169374],
       [ 0.3076973 , -0.2605787 ,  0.73313737]], dtype=float32)

In [5]:
x_tf

<tf.Tensor: shape=(3, 3), dtype=float32, numpy=
array([[ 0.59066963,  0.14386383, -0.22342394],
       [ 1.4184464 ,  1.4589547 , -0.24169374],
       [ 0.3076973 , -0.2605787 ,  0.73313737]], dtype=float32)>

In [6]:
type(x_np), type(x_tf), x_np.dtype, x_tf.dtype

(numpy.ndarray,
 tensorflow.python.framework.ops.EagerTensor,
 dtype('float32'),
 tf.float32)

In [7]:
# Можно получить значение tf.Tensor в виде np.ndarray
x_tf.numpy()

array([[ 0.59066963,  0.14386383, -0.22342394],
       [ 1.4184464 ,  1.4589547 , -0.24169374],
       [ 0.3076973 , -0.2605787 ,  0.73313737]], dtype=float32)

In [8]:
type(x_tf.numpy())

numpy.ndarray

### 1.2 Арифметика tf.Tensor

Во много tf.Tensor аналогичен np.ndarray: 
- над ним можно производить все базовые арифметические операции;
- индексация и слайсинг;
- broadcasting; 
- манипуляция размерностью, а также конкатенация, транспонирование, решейп и т.д.

Если вы уже знакомы с Numpy, вы можете пропустить эту секцию.

In [9]:
# Умножение на константу

In [10]:
x_tf * 3

<tf.Tensor: shape=(3, 3), dtype=float32, numpy=
array([[ 1.7720089 ,  0.43159148, -0.6702718 ],
       [ 4.255339  ,  4.376864  , -0.7250812 ],
       [ 0.9230919 , -0.7817361 ,  2.199412  ]], dtype=float32)>

In [11]:
# Прибавление константы

In [12]:
x_tf + 3

<tf.Tensor: shape=(3, 3), dtype=float32, numpy=
array([[3.5906696, 3.143864 , 2.776576 ],
       [4.4184465, 4.458955 , 2.7583063],
       [3.3076973, 2.7394214, 3.7331374]], dtype=float32)>

In [13]:
# Сложение с тензором

In [14]:
x_tf + x_tf

<tf.Tensor: shape=(3, 3), dtype=float32, numpy=
array([[ 1.1813393 ,  0.28772765, -0.4468479 ],
       [ 2.8368928 ,  2.9179094 , -0.48338747],
       [ 0.6153946 , -0.5211574 ,  1.4662747 ]], dtype=float32)>

In [15]:
# Умножение на тензор

In [16]:
x_tf * x_tf

<tf.Tensor: shape=(3, 3), dtype=float32, numpy=
array([[0.3488906 , 0.0206968 , 0.04991826],
       [2.0119903 , 2.1285489 , 0.05841586],
       [0.09467763, 0.06790125, 0.5374904 ]], dtype=float32)>

TensorFlow позволяет "перемешивать" разные тензоры (np.ndarray, list) в арифметических операциях
при условии совместимости типов данных и размерностей тензоров.

In [17]:
# Сложение с np.ndarray
x_tf + x_np

<tf.Tensor: shape=(3, 3), dtype=float32, numpy=
array([[ 1.1813393 ,  0.28772765, -0.4468479 ],
       [ 2.8368928 ,  2.9179094 , -0.48338747],
       [ 0.6153946 , -0.5211574 ,  1.4662747 ]], dtype=float32)>

In [18]:
# Сложение с list
x_tf + [[ 1.3889265, -4.353553 ,  3.0287025],
       [-0.5747313,  3.4388134,  2.3083975],
       [ 1.8629724,  1.3481708, -1.8846952]]

<tf.Tensor: shape=(3, 3), dtype=float32, numpy=
array([[ 1.9795961 , -4.209689  ,  2.8052785 ],
       [ 0.84371513,  4.897768  ,  2.0667038 ],
       [ 2.1706696 ,  1.0875921 , -1.1515578 ]], dtype=float32)>

### 1.3 Индексация tf.Tensor

tf.Tensor можно индексировать аналогично тому, как это можно делать с тензорами в Numpy.

In [19]:
# Простая индексация
x_tf[0]

<tf.Tensor: shape=(3,), dtype=float32, numpy=array([ 0.59066963,  0.14386383, -0.22342394], dtype=float32)>

In [20]:
x_tf[0, 0]

<tf.Tensor: shape=(), dtype=float32, numpy=0.59066963>

In [21]:
# Взятие последнего элемента в первой строчке матрицы
x_tf[0, -1]

<tf.Tensor: shape=(), dtype=float32, numpy=-0.22342394>

In [22]:
# Слайсинг
x_tf[1:2]

<tf.Tensor: shape=(1, 3), dtype=float32, numpy=array([[ 1.4184464 ,  1.4589547 , -0.24169374]], dtype=float32)>

In [23]:
x_tf[1:]

<tf.Tensor: shape=(2, 3), dtype=float32, numpy=
array([[ 1.4184464 ,  1.4589547 , -0.24169374],
       [ 0.3076973 , -0.2605787 ,  0.73313737]], dtype=float32)>

In [24]:
x_tf[:, 1:]

<tf.Tensor: shape=(3, 2), dtype=float32, numpy=
array([[ 0.14386383, -0.22342394],
       [ 1.4589547 , -0.24169374],
       [-0.2605787 ,  0.73313737]], dtype=float32)>

### 1.4 Broadcasting

Broadcasting позволяет производить арифметические операции над тензорами разных размерностей. В TensorFlow broadcasting работает подобно broadcasting в Numpy.

In [25]:
print(x_tf)

tf.Tensor(
[[ 0.59066963  0.14386383 -0.22342394]
 [ 1.4184464   1.4589547  -0.24169374]
 [ 0.3076973  -0.2605787   0.73313737]], shape=(3, 3), dtype=float32)


In [26]:
x2_tf = tf.random.normal(dtype='float32', shape=(3,))
print(x2_tf)

tf.Tensor([ 1.8316137  -0.12416186  0.5447845 ], shape=(3,), dtype=float32)


In [27]:
# Прибавление значений 3-мерного вектора к колонкам матрицы
x_tf + tf.reshape(x2_tf, [3, 1])

<tf.Tensor: shape=(3, 3), dtype=float32, numpy=
array([[ 2.4222832,  1.9754775,  1.6081897],
       [ 1.2942846,  1.3347929, -0.3658556],
       [ 0.8524818,  0.2842058,  1.2779219]], dtype=float32)>

In [28]:
# Прибавление значений 3-мерного вектора к строкам матрицы
x_tf + tf.reshape(x2_tf, [1, 3])

<tf.Tensor: shape=(3, 3), dtype=float32, numpy=
array([[ 2.4222832 ,  0.01970197,  0.32136053],
       [ 3.25006   ,  1.3347929 ,  0.30309075],
       [ 2.1393108 , -0.38474056,  1.2779219 ]], dtype=float32)>

Broadcasting является очень мощным, но в то же время непростым инструментом при первом использовании. 
Больше о broadcasting можно почитать в [мануале Numpy](https://numpy.org/doc/stable/user/basics.broadcasting.html).

### 1.5 Манипуляция размерностью, конкатенация тензоров и т.д.

Для манипуляции размерностью тензоров в TensorFlow имеются следующие функции:
- [tf.reshape](https://www.tensorflow.org/api_docs/python/tf/reshape)
- [tf.transpose](https://www.tensorflow.org/api_docs/python/tf/transpose)
- [tf.expand_dims](https://www.tensorflow.org/api_docs/python/tf/expand_dims)
- [tf.squeeze](https://www.tensorflow.org/api_docs/python/tf/squeeze)

Выше перечисленные функции, опять-таки, могут показаться знакомыми, поскольку все они присутствуют также и в Numpy.

Функции по манипуляции над несколькими тензорами:
- [tf.concat](https://www.tensorflow.org/api_docs/python/tf/concat) - аналог np.concatenate
- [tf.stack](https://www.tensorflow.org/api_docs/python/tf/stack)
- [tf.split](https://www.tensorflow.org/api_docs/python/tf/split)

За редким исключением названия функций в TensorFlow отличаются от их аналогов в Numpy (np.concatenate -> tf.concat).

In [29]:
tf.reshape(x_tf, 9)

<tf.Tensor: shape=(9,), dtype=float32, numpy=
array([ 0.59066963,  0.14386383, -0.22342394,  1.4184464 ,  1.4589547 ,
       -0.24169374,  0.3076973 , -0.2605787 ,  0.73313737], dtype=float32)>

In [30]:
tf.reshape(x_tf, -1)

<tf.Tensor: shape=(9,), dtype=float32, numpy=
array([ 0.59066963,  0.14386383, -0.22342394,  1.4184464 ,  1.4589547 ,
       -0.24169374,  0.3076973 , -0.2605787 ,  0.73313737], dtype=float32)>

In [31]:
tf.reshape(x_tf, [1, 1, 9])

<tf.Tensor: shape=(1, 1, 9), dtype=float32, numpy=
array([[[ 0.59066963,  0.14386383, -0.22342394,  1.4184464 ,
          1.4589547 , -0.24169374,  0.3076973 , -0.2605787 ,
          0.73313737]]], dtype=float32)>

In [32]:
# Изменение порядка осей
tf.transpose(x_tf, [1, 0])

<tf.Tensor: shape=(3, 3), dtype=float32, numpy=
array([[ 0.59066963,  1.4184464 ,  0.3076973 ],
       [ 0.14386383,  1.4589547 , -0.2605787 ],
       [-0.22342394, -0.24169374,  0.73313737]], dtype=float32)>

In [33]:
tf.concat([x_tf, x_tf], axis=0)

<tf.Tensor: shape=(6, 3), dtype=float32, numpy=
array([[ 0.59066963,  0.14386383, -0.22342394],
       [ 1.4184464 ,  1.4589547 , -0.24169374],
       [ 0.3076973 , -0.2605787 ,  0.73313737],
       [ 0.59066963,  0.14386383, -0.22342394],
       [ 1.4184464 ,  1.4589547 , -0.24169374],
       [ 0.3076973 , -0.2605787 ,  0.73313737]], dtype=float32)>

In [34]:
tf.concat([x_tf, x_tf], axis=1)

<tf.Tensor: shape=(3, 6), dtype=float32, numpy=
array([[ 0.59066963,  0.14386383, -0.22342394,  0.59066963,  0.14386383,
        -0.22342394],
       [ 1.4184464 ,  1.4589547 , -0.24169374,  1.4184464 ,  1.4589547 ,
        -0.24169374],
       [ 0.3076973 , -0.2605787 ,  0.73313737,  0.3076973 , -0.2605787 ,
         0.73313737]], dtype=float32)>

# 2. Математика в TensorFlow

TensorFlow в своей сути является математическим движком, соответственно и математических инструментов в нём более чем достаточно.
В данном отношении API TensorFlow во многом следует Numpy:
- из корневого пакеты доступны функции "первой необходимости":
    - унарные функции (`tf.sin`, `tf.exp`, `tf.sqrt` и тд);
    - операции редукции (`tf.reduce_sum`, `tf.reduce_mean`; они являются аналогами `np.sum` и `np.mean` соответственно)
    - матричное умножение `tf.matmul`

In [35]:
tf.exp(x_tf)

<tf.Tensor: shape=(3, 3), dtype=float32, numpy=
array([[1.8051969 , 1.1547269 , 0.7997757 ],
       [4.130698  , 4.301461  , 0.7852966 ],
       [1.3602892 , 0.77060556, 2.0816011 ]], dtype=float32)>

In [36]:
tf.reduce_sum(x_tf, axis=1)

<tf.Tensor: shape=(3,), dtype=float32, numpy=array([0.5111095, 2.6357074, 0.780256 ], dtype=float32)>

In [37]:
tf.matmul(x_tf, x_tf)

<tf.Tensor: shape=(3, 3), dtype=float32, numpy=
array([[ 0.48420677,  0.35308632, -0.33054116],
       [ 2.8329136 ,  2.3955922 , -0.8467298 ],
       [ 0.03771491, -0.52694595,  0.53172374]], dtype=float32)>

Более продвинутые функции можно найти в соответствующих пакета:
- [tf.linalg](https://www.tensorflow.org/api_docs/python/tf/linalg) - пакет линейной алгебры;
- [tf.math](https://www.tensorflow.org/api_docs/python/tf/math) - пакет с базовыми (логарифм, тригонометрия), булевыми и специальными мат. функциями;
- [tf.signal](https://www.tensorflow.org/api_docs/python/tf/signal) - пакет с инструментами обработки сигналов (преобразование Фурье).

In [38]:
# Вычисление обратной матрицы
tf.linalg.inv(x_tf)

<tf.Tensor: shape=(3, 3), dtype=float32, numpy=
array([[ 1.631067  , -0.07656397,  0.47182757],
       [-1.8054953 ,  0.8130576 , -0.28218442],
       [-1.3262843 ,  0.32111853,  1.0656785 ]], dtype=float32)>

In [39]:
tf.math.reduce_std(x_tf, axis=1)

<tf.Tensor: shape=(3,), dtype=float32, numpy=array([0.33288038, 0.79231805, 0.40707743], dtype=float32)>

In [40]:
# Говоря о статистике, по историческим причинам чаще используют такой вариант
mean, var = tf.nn.moments(x_tf, axes=1)
mean, var

(<tf.Tensor: shape=(3,), dtype=float32, numpy=array([0.17036982, 0.8785691 , 0.2600853 ], dtype=float32)>,
 <tf.Tensor: shape=(3,), dtype=float32, numpy=array([0.11080935, 0.6277679 , 0.16571204], dtype=float32)>)

# 3. Автоматическое дифференцирование в TensorFlow

TensorFlow может автоматически дифференцировать выражения, эффективно вычисляя градиенты. 
Однако работает это непохоже на Matlab, поскольку приспособлено в основном для приложений глубого обучения.

Градиенты (производные) в TensorFlow считаются посредством [Reverse-Mode Differentiation](https://en.wikipedia.org/wiki/Automatic_differentiation).
Описывая в двух словах, данный подход к дифференцированию выражений использует 
[цепное правило дифференцирования сложной функции](https://ru.wikipedia.org/wiki/%D0%94%D0%B8%D1%84%D1%84%D0%B5%D1%80%D0%B5%D0%BD%D1%86%D0%B8%D1%80%D0%BE%D0%B2%D0%B0%D0%BD%D0%B8%D0%B5_%D1%81%D0%BB%D0%BE%D0%B6%D0%BD%D0%BE%D0%B9_%D1%84%D1%83%D0%BD%D0%BA%D1%86%D0%B8%D0%B8)
(chain rule), в котором целевая производная вычисляется как произведение производных
промежуточных выражений.

Однако понимать математику процесса не нужно, чтобы использовать функции TensorFlow. Всё, что нужно знать: для произвольной скалярной функции f(x) Tensorflow позволяет вычесть градиент df(x)/dx.

In [41]:
# Пример вычисления производной функции y = x^2

def f(x):
    return x ** 2

x = tf.Variable(3.0)
x2 = tf.Variable(3.0, trainable=False)

# Посчитаем градиент для "обучаемой переменной"
with tf.GradientTape() as tape:
    y = f(x)
    grad = tape.gradient(y, x)

print("Градиент обучаемой переменной:", grad)

# Посчитаем градиент для "необучаемой переменной"
with tf.GradientTape() as tape:
    y = f(x2)
    grad = tape.gradient(y, x2)

print("Градиент необучаемой переменной:", grad)

Градиент обучаемой переменной: tf.Tensor(6.0, shape=(), dtype=float32)
Градиент необучаемой переменной: None


Выше можно увидеть два нововведения: **tf.Variable** (переменная) и **tf.GradientTape**.

tf.Variable по сути является тензором, значение которого можно модифицировать 
(как обычный np.ndarray). Именно переменные используется для хранения весов нейронной сети.

tf.GradientTape является контекстным менеджером, внутри контекста которого TensorFlow "записывает" все вычисления на ленту (tape), 
а далее использует записанную информацию для вычисления производных посредством алгоритма обратного распространения.
Важно: **tf.GradientTape не может вычислять градиенты выражений, что были посчитаны вне его контекста!**

In [42]:
x = tf.constant(3.0)
y = f(x)
with tf.GradientTape() as tape:
    # y было вычислено вне контекста tape,
    # поэтому tape не может посчитать какой-либо градиент для y
    grad = tape.gradient(y, x)

print(grad)

None


In [43]:
# GradientTape по умолчанию не считает градиенты для обычных тензоров
x = tf.constant(3.0)

with tf.GradientTape() as tape:
    y = f(x)
    grad = tape.gradient(y, x)

print(grad)

None


In [44]:
# Но его можно заставить
x = tf.constant(3.0)

with tf.GradientTape() as tape:
    # Указывает tape "следить" за тензором 
    tape.watch(x)
    y = f(x)
    grad = tape.gradient(y, x)

print(grad)

tf.Tensor(6.0, shape=(), dtype=float32)


Более сложный пример: вычисление градиента весов логистической регрессии

In [46]:
N_INPUT_FEATURES = 128
N_CLASSES = 10

# Веса логистической регресии
w = tf.Variable(tf.random.normal((N_INPUT_FEATURES, N_CLASSES)))
b = tf.Variable(tf.zeros((N_CLASSES)))


def logistic_regression(x, w, b):
    x = tf.matmul(x, w) + b[None, :]  # аналогично tf.expand_dims(b, axis=0)
    return tf.nn.softmax(x)


def loss(out, i):
    # out - выходное значение логистической регрессии
    # i - номер класса, которому принадлежит экземпляр
    l = tf.math.log(out)[:, i]
    return -tf.reduce_mean(l)


x = tf.random.normal((1, N_INPUT_FEATURES))  # условный экземпляр данных из датасета
# x.shape - [batch_size, n_features]
i = 8  # номер класса, которому принадлежит экземпляр

with tf.GradientTape() as tape:
    out = logistic_regression(x, w, b)
    print('Out:', out.numpy())
    loss_val = loss(out, i)
    print('Loss before gradient update:', loss_val.numpy())
    # grads = [grad_w, grad_b]
    grads = tape.gradient(loss_val, [w, b])

print('Grad W:', grads[0].numpy())
print('Grad b:', grads[1].numpy())

# Модифицируем значение весов и посчитает значение функции ошибки

w.assign_sub(grads[0] * 0.1)
b.assign_sub(grads[1] * 0.1)

y = logistic_regression(x, w, b)
l = loss(y, i)

# Обратите внимание, что значение ошибки уменьшилось. Именно так и работает машинное обучение
print('Loss after gradient update:', l.numpy())

Out: [[5.8282370e-04 1.9058656e-06 1.3143158e-01 2.0507334e-06 8.6131585e-01
  6.6499999e-03 9.2988291e-12 1.5799737e-05 5.7696648e-13 2.0625839e-10]]
Loss before gradient update: 28.180992
Grad W: [[ 7.4684387e-04  2.4422206e-06  1.6841950e-01 ...  2.0246151e-05
  -1.2814233e+00  2.6430430e-10]
 [-6.5460760e-04 -2.1406029e-06 -1.4761944e-01 ... -1.7745722e-05
   1.1231657e+00 -2.3166236e-10]
 [ 2.6824832e-04  8.7718672e-07  6.0492218e-02 ...  7.2719290e-06
  -4.6025634e-01  9.4931729e-11]
 ...
 [-9.9156913e-04 -3.2424855e-06 -2.2360706e-01 ... -2.6880394e-05
   1.7013191e+00 -3.5091133e-10]
 [-4.9220258e-04 -1.6095296e-06 -1.1099577e-01 ... -1.3343094e-05
   8.4451371e-01 -1.7418804e-10]
 [-5.7030935e-04 -1.8649429e-06 -1.2860948e-01 ... -1.5460484e-05
   9.7852802e-01 -2.0182961e-10]]
Grad b: [ 5.8282370e-04  1.9058656e-06  1.3143158e-01  2.0507334e-06
  8.6131585e-01  6.6499999e-03  9.2988291e-12  1.5799737e-05
 -1.0000000e+00  2.0625839e-10]
Loss after gradient update: 12.726484


Больше информации об автоматическом дифференцировании можно найти на [официальном сайте TensorFlow](https://www.tensorflow.org/guide/autodiff).