# Семинар 5.
## Линейная алгебра и нейросети

## Нейросеть как суперпозиция функций

- Линейных и нелинейных
- Можно представить в виде графа вычислений
- С помощью этого графа можно [автоматически вычислять градиенты](https://en.wikipedia.org/wiki/Automatic_differentiation)

## Что такое градиент и как его вычислить?

- Если функция $f$ зависит от вектора или матрицы и вычисляет скаляр, то её градиент по аргументу - это вектор или матрица, элементы которых – производные выхода по соответствующему элементу аргумента
- Пример: $f(x) = x^{\top}Ax + b^{\top}x$. Чему равен градиент?
- Поэлементный пример: $f(x) = x^2$ поэлементно. Чему равен градиент (матрица Якоби)?

In [1]:
import torch

n = 5
A = torch.randn((n, n), requires_grad=True)
b = torch.randn((n,))
x = torch.randn((n,), requires_grad=True)

f = 0.5 * x @ A @ x - b @ x
f.backward()
print(f)
print(f.item())

tensor(-0.7636, grad_fn=<SubBackward0>)
-0.7635985612869263


In [2]:
manual_grad_x = 0.5 * (A + A.t()) @ x - b

print(manual_grad_x.data)
print(x.grad.data)

tensor([ 2.0715,  0.5242, -1.0325,  0.1036,  0.6989])
tensor([ 2.0715,  0.5242, -1.0325,  0.1036,  0.6989])


In [3]:
manual_grad_A = 0.5 * torch.ger(x, x)

print(manual_grad_A.data)
print(A.grad.data)
print(torch.norm(manual_grad_A.data - A.grad.data).item())

tensor([[ 4.5490e-05, -2.2977e-03,  6.6002e-04,  2.0815e-03, -3.3131e-03],
        [-2.2977e-03,  1.1605e-01, -3.3337e-02, -1.0514e-01,  1.6734e-01],
        [ 6.6002e-04, -3.3337e-02,  9.5763e-03,  3.0201e-02, -4.8070e-02],
        [ 2.0815e-03, -1.0514e-01,  3.0201e-02,  9.5245e-02, -1.5160e-01],
        [-3.3131e-03,  1.6734e-01, -4.8070e-02, -1.5160e-01,  2.4130e-01]])
tensor([[ 4.5490e-05, -2.2977e-03,  6.6002e-04,  2.0815e-03, -3.3131e-03],
        [-2.2977e-03,  1.1605e-01, -3.3337e-02, -1.0514e-01,  1.6734e-01],
        [ 6.6002e-04, -3.3337e-02,  9.5763e-03,  3.0201e-02, -4.8070e-02],
        [ 2.0815e-03, -1.0514e-01,  3.0201e-02,  9.5245e-02, -1.5160e-01],
        [-3.3131e-03,  1.6734e-01, -4.8070e-02, -1.5160e-01,  2.4130e-01]])
0.0


## Причём тут нейросети?

- Обучение с учителем (но не только!)
- Есть данные, есть ответы
- Нейросеть $\approx$ сложная композиция простых функций, которая по данным восстанавливает ответы
- Для обучения необходима целевая функция a.k.a. функция потерь или loss, который минимизируется каким-нибудь стохастическим методом первого порядка
- Поэтому нужны градиенты!

<img src="./pytorch_logo.png">

- Удобный фреймворк для построения и обучения нейросетей
- Реализует динамический граф вычислений
- Вы просто пишете функцию, которая вычисляет нужное вам выражение, вычисляете (вызываете) её в некоторой точке (с некоторым аргументом) и можете получить градиенты в этой точке бесплатно!
- Специальные инструменты для построения нейросетей: модуль с большинством популярных слоёв, для которых градиенты уже реализованы
- Пока плохо поддерживает операции с разреженными матрицами

## GPU vs. CPU

- CPU – мощный вычислитель, но мало памяти доступно здесь и сейчас (см. лекцию про иерархию памяти)
- GPU – ОЧЕНЬ много ядер для выполнения простых операций
- CPU распределяет задачи по ядрам, GPU - по кластерам ядер

Только использование GPU (или [TPU](https://habr.com/ru/post/422317/)) позволит за разумное время обучить сложные модели для задач компьютерного зрения, NLP, RL и других областей.

### Какие операции нужны для работы нейросетей?

- Умножение матрицы на вектор и векторное сложение - полносвязный слой
- Поэлементые операции - нелинейности
- Локальные операции типа [MaxPooling](https://deepai.org/machine-learning-glossary-and-terms/max-pooling)
- Получение из вектора или матрицы скаляра

### Пример реализации операции матричного умножения

- Пример исходного кода, реализующего матричное умножение на CUDA, доступен [тут](https://www.quantstart.com/articles/Matrix-Matrix-Multiplication-on-the-GPU-with-Nvidia-CUDA)
- Сравнение с помощью PyTorch доступно по ссылке ниже [![](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/drive/1aLpXukb3p-hzENDVaqBHltjRFfwpJ6f6)

## Резюме

- В основе нейросетей как и других вычислительных технологий лежит линейная алгебра
- Современные фреймворки (PyTorch, etc) позволяют вычислять градиенты автоматически
- GPU быстрее CPU для выполнения большого числа простых операций
- TPU ещё быстрее, но менее доступны
- [Colab](https://colab.research.google.com/) позволяет экспериментировать с этими технологиями удалённо