# Лекция NN.2: Введение в PyTorch



## Макрушин Сергей Вячеславович, Финансовый университет, 2020 г.

v 0.4

In [1]:
# загружаем стиль для оформления презентации
from IPython.display import HTML
from urllib.request import urlopen
html = urlopen("file:./lec_v1.css")
HTML(html.read().decode('utf-8'))

-----
### Современные инструменты для создание моделей на основе ИНС

* TensorFlow / Keras 
* PyTorch


-----
## Знакомство с PyTorch

-----
### Установка PyTorch

1. Стартуем консоль Анаконды:

<center> 
<img src="./img/lnnp2_anaconda_prompt1.png" alt="Запуск консоли Анаконды" style="width: 200px;"/><br/>
    <b>Запуск консоли Анаконды</b>    
</center> 

Далее в консоли:
2. Определяем текущую версию Python. Пример:

```console
(base) C:\Users\alpha>python --version
Python 3.7.6
```

3. Экспортируем текущую версию окружения (например, в файл `environment.yml` ). Пример:

```console
(base) C:\Users\alpha>conda env export > environment.yml
```
4. Создаем новое __виртуальное окружение__ для текущей версии Python (можете выбрать удобноее Вам имя виртуального окружения).
    * <em class="qs"></em> Что такое __virtualenv__ (виртуальное окружение Python) и зачем оно нужно?
    * <em class="an"></em> Базовые ответы есть тут: 
        * https://pythontips.com/2013/07/30/what-is-virtualenv/
        * https://stackoverflow.com/questions/41972261/what-is-a-virtualenv-and-why-should-i-use-one
        * Важно знать, что у Anaconda есть собственный инсрументарий для работы c __virtualenv__, и если вы пользуетесь анакондой, то предпочитительно пользоваться им:
            * Шпаргалка с кратким набором команд (см. раздел "Using environments"): https://docs.conda.io/projects/conda/en/4.6.0/_downloads/52a95608c49671267e40c689e0bc00ca/conda-cheatsheet.pdf
            * Документация: https://docs.conda.io/projects/conda/en/latest/user-guide/tasks/manage-environments.html
    * Пример (`pyTorch_1_5v2` - имя нового окружения, `-f=environment.yml` - импортируем окружение из файла, созданного на шаге 3):

```console
(base) C:\Users\alpha>conda-env create -n pyTorch_1_5v2 python=3.7 -f=environment.yml
Collecting package metadata (repodata.json): done
Solving environment: done


==> WARNING: A newer version of conda exists. <==
  current version: 4.8.2
  latest version: 4.8.3

Please update conda by running

    $ conda update -n base -c defaults conda



Downloading and Extracting Packages
anaconda-navigator-1 | 4.4 MB    | ############################################################################ | 100%
Preparing transaction: done
Verifying transaction: done
Executing transaction: done
#
# To activate this environment, use
#
#     $ conda activate pyTorch_1_5v2
#
# To deactivate an active environment, use
#
#     $ conda deactivate
```
            
4. С помощью `conda env list` Просматриваем список доступных виртуальных окружений. Пример:

```console
(base) C:\Users\alpha>conda env list
# conda environments:
#
base                  *  C:\ProgramData\Anaconda3
pyTorch_1_5              C:\Users\alpha\.conda\envs\pyTorch_1_5
pyTorch_1_5v2            C:\Users\alpha\.conda\envs\pyTorch_1_5v2
```

4. С помощью команды `activate` переходим в созданное окружение. В результате имя окружения перед приглашением должно измениться на имя выбранного окружения. Пример:

```console
(base) C:\Users\alpha>activate pyTorch_1_5v2

(pyTorch_1_5v2) C:\Users\alpha>
```

<!-- <center> 
<img src="./img/lnnp2_anaconda_prompt2.png" alt="Создание новго virtualenv" style="width: 600px;"/><br/>
    <b>Создание новго virtualenv</b>    
</center>  -->

5. На сайте https://pytorch.org выбираем конфигурацию в которой необходимо установить PyTorch и копируем строку из поля __Run this Command__  и выполняем ее в консоли в новом окружении, например:

```console
(pyTorch_1_5) C:\Users\alpha>conda install pytorch torchvision cpuonly -c pytorch
```

Соглашаемся на установку новых пакетов:

```console
The following NEW packages will be INSTALLED:

  blas               pkgs/main/win-64::blas-1.0-mkl
  cpuonly            pytorch/noarch::cpuonly-1.0-0
  freetype           pkgs/main/win-64::freetype-2.9.1-ha9979f8_1
  icc_rt             pkgs/main/win-64::icc_rt-2019.0.0-h0cc432a_1
  intel-openmp       pkgs/main/win-64::intel-openmp-2020.0-166
  jpeg               pkgs/main/win-64::jpeg-9b-hb83a4c4_2
  libpng             pkgs/main/win-64::libpng-1.6.37-h2a8f88b_0
  libtiff            pkgs/main/win-64::libtiff-4.1.0-h56a325e_0
  mkl                pkgs/main/win-64::mkl-2020.0-166
  mkl-service        pkgs/main/win-64::mkl-service-2.3.0-py37hb782905_0
  mkl_fft            pkgs/main/win-64::mkl_fft-1.0.15-py37h14836fe_0
  mkl_random         pkgs/main/win-64::mkl_random-1.1.0-py37h675688f_0
  ninja              pkgs/main/win-64::ninja-1.9.0-py37h74a9793_0
  numpy              pkgs/main/win-64::numpy-1.18.1-py37h93ca92e_0
  numpy-base         pkgs/main/win-64::numpy-base-1.18.1-py37hc3f5095_1
  olefile            pkgs/main/win-64::olefile-0.46-py37_0
  pillow             pkgs/main/win-64::pillow-7.0.0-py37hcc1f983_0
  pytorch            pytorch/win-64::pytorch-1.5.0-py3.7_cpu_0
  six                pkgs/main/win-64::six-1.14.0-py37_0
  tk                 pkgs/main/win-64::tk-8.6.8-hfa6e2cd_0
  torchvision        pytorch/win-64::torchvision-0.6.0-py37_cpu
  xz                 pkgs/main/win-64::xz-5.2.5-h62dcd97_0
  zstd               pkgs/main/win-64::zstd-1.3.7-h508b16e_0


Proceed ([y]/n)? y
```

6. Проверяем успешность установки PyTorch:
  
    * В консоли, в текущем виртуальном окружении стартуем консоль Python:

```console
(pyTorch_1_5) C:\Users\alpha>python
Python 3.7.7 (default, Apr 15 2020, 05:09:04) [MSC v.1916 64 bit (AMD64)] :: Anaconda, Inc. on win32
Type "help", "copyright", "credits" or "license" for more information.
>>>```
   
   * В консоли импортируем модуль torch, и пишем тривиальное выражение с использованием torch:
```console
>>> import torch
>>> x = torch.rand(3)
```

* для выхода из консоли Python пишем:
```console
>>> exit()
```

<!--
1. В новом виртуальном окружении выполняем комадну 

```console
(pyTorch_1_5) C:\Users\alpha>pip install ipykernel
```
-->

__Добавление нового виртуального окружения к Jupyter Notebook__

1. В новом виртуальном окружении выполняем комадну настройки ipykernel (в параемтре __name__ передаем имя нового виртуального окружения):
```console
(pyTorch_1_5v2) C:\Users\alpha>python -m ipykernel install --user --name=pyTorch_1_5v2
```
* настройка `ipykernel` позволяет jupyter работать с разными языками (например: julia, R; кстати JuPyteR, называется так именно из-за поддержки работы с этими (и многими другими) языками) и разными версями Python (и, естественно, разными virtualenv). Базовое описание архитектуры jupyter дано, например, тут: https://jupyter.readthedocs.io/en/latest/architecture/how_jupyter_ipython_work.html

* Примеры работы с `ipykernel` есть тут:
    * (ищите поиском по странице `ipykernel`)  https://www.datacamp.com/community/tutorials/tutorial-jupyter-notebook
    * и тут: http://queirozf.com/entries/jupyter-kernels-how-to-add-change-remove

2. Стартуем Jupyter Notebook для нового виртуалного окружения:

<center> 
<img src="./img/lnnp2_anaconda_2.png" alt="Старт Jupyter Notebook для нового виртуалного окружения" style="width: 300px;"/><br/>
    <b>Старт Jupyter Notebook для нового виртуалного окружения</b>    
</center>


3. Стратуем Jupyter Notebook и убеждаемся что при создании нового ноутбука есть возможность выбрать новое окружение:

<center> 
<img src="./img/lnnp2_jn2.png" alt="Создание ноутбука в новом virtualenv" style="width: 650px;"/><br/>
    <b>Создание ноутбука в новом virtualenv</b>    
</center>

4. Проверяем в каком окружении мы запустили ноутбук (звездочка должна стоять напротив нужного ноутбука):

In [2]:
conda env list

# conda environments:
#
pyTorch_1_5              C:\Users\alpha\.conda\envs\pyTorch_1_5
base                  *  C:\Users\alpha\.conda\envs\pyTorch_1_5v2


Note: you may need to restart the kernel to use updated packages.


5. Проверяем что в новом ноутбуке можно успешно работать с PyTorch:

In [3]:
import torch

In [4]:
x = torch.rand(3)

## Тензоры и опреации с ними в PyTorch

__Что понимается под тензором в TensorFlow, PyTorch и аналогичных инструментах?__

* <em class="df"></em> __Тензор (в линейной алгербре)__ — объект линейной алгебры, линейно преобразующий элементы одного линейного пространства в элементы другого. Частными случаями тензоров являются скаляры, векторы, билинейные формы и т. п.

* Часто тензор представляют как многомерную таблицу $ d \times d \times \cdots \times d $, заполненную числами - компонентами тензора (где $d$ — размерность векторного пространства, над которым задан тензор, а число размерностей совпадает рангом (валентностью) тензора. В случае ранга 2 запись тензора на письме выглядит как матрица.

* Запись тензора в виде многомерной таблицы возможна __только после выбора базиса (системы координат)__ (кроме скаляров - тензоров размерности 0). Сам тензор как "геометрическая сущность" от выбора базиса не зависит. Это можно наглядно видеть на примере вектора (тензора ранга 1) при смене системы координат: 
    * при смене системы координат __компоненты вектора__ (и в общем случае - тензора) __меняются__ определённым образом.
    * но сам __вектор__ — как "геометрическая сущность", образом которого может быть просто направленный отрезок — __при смене системы координат не изменяется__. Это же относится и к общему случаю - тензору.

* В TensorFlow, PyTorch и  аналогичных библиотеках ключевыми объектами являются __тензоры__, но:
    * __это не настоящие тензоры линейной алгебры__, а просто __многомерные таблицы__. В частности:
        * эти тензоры не прдедусматривают определение базиса и возможности его изменения.
    * для тензов (многомерных таблиц) в TensorFlow определены различные операции, важные для построения графа потока вычислений для численногомоделирования ИНС и ряда других приложений.
    
* Далее под тензорами мы будем иметь в виду то, что под ними понимается в TensorFlow, PyTorch и других аналогичных библиотеках.
* __Тензоры__ в TensorFlow, PyTorch и аналогичных библиотеках в очень многих аспектах __похожы на массивы NumPy__.
    
<center> 
<img src="./img/ker_5.png" alt=""Тензоры" в TensorFlow и аналогичных инструментах." style="width: 600px;"/><br/>
    <b>"Тензоры" в TensorFlow и аналогичных инструментах.</b>    
</center> 

Тензоры в TensorFlow по логике использования и интерфейсу очень близки к `ndarray` в NumPy.
* тензор размерности 0 - скаляр
* тензор размерности 1 - вектор (одномерный массив)
* тензор размерности 2 - матрица (двухмерный массив массив)
* тензор размерности N - N-мерный массив

In [4]:
import torch
import numpy as np

---
__Создание тензоров__

In [5]:
# В pytorch все основано на операциях с тензорами
# Тензоры могут иметь:
# 0 измерений - скаляры
# 1 измерение - векторы
# 2 измерения - матрицы
# 3, 4, ... измерения - тензоры

# Создание не инициализизированного тензора: torch.empty(size)
# Нужно помнить, что перед использованием такого тензора его обязательно нужно инициализировать!

x = torch.empty(1) # scalar
print(x)
x = torch.empty(3) # vector, 1D
print(x)
x = torch.empty(2,3) # matrix, 2D
print(x)
x = torch.empty(2,2,3) # tensor, 3 dimensions
print(x)
x = torch.empty(2,2,2,3) # tensor, 4 dimensions
print(x)

tensor([1.0469e-38])
tensor([ 0.0000e+00,  0.0000e+00, -5.4389e-27])
tensor([[4.3726e-05, 2.6881e-06, 4.2039e-45],
        [0.0000e+00, 1.4013e-45, 0.0000e+00]])
tensor([[[0., 0., 0.],
         [0., 0., 0.]],

        [[0., 0., 0.],
         [0., 0., 0.]]])
tensor([[[[8.9082e-39, 4.2246e-39, 1.0194e-38],
          [9.1837e-39, 8.4490e-39, 1.0102e-38]],

         [[1.0561e-38, 1.0286e-38, 7.7144e-39],
          [1.0469e-38, 9.5510e-39, 4.5001e-39]]],


        [[[4.8674e-39, 9.9184e-39, 9.0000e-39],
          [1.0561e-38, 1.0653e-38, 4.1327e-39]],

         [[8.9082e-39, 9.8265e-39, 9.4592e-39],
          [1.0561e-38, 1.0653e-38, 1.0469e-38]]]])


In [8]:
# Большинство операций с тензорами очень похожа на опреации с массивами NumPy, но часть имеют небольшие отличия: 
x_np = np.empty((2,2,3))
print(x_np)
# x_np = np.empty(2,2,3) # Ошибка!

[[[1.20556915e-311 3.16202013e-322 0.00000000e+000]
  [1.20556915e-311 4.37257913e-005 2.68810072e-006]]

 [[4.20389539e-045 1.40129846e-045 8.37699992e+169]
  [7.46072016e-038 8.24339157e-067 3.88813040e-033]]]


In [9]:
# Создание тензора, заполненного случайными значениями (равномерно распредленными в [0, 1]): torch.rand(size)
x = torch.rand(5, 3)
x

tensor([[0.7196, 0.0637, 0.9817],
        [0.7202, 0.5812, 0.4477],
        [0.9523, 0.2562, 0.3778],
        [0.4160, 0.3518, 0.2820],
        [0.6643, 0.2659, 0.4579]])

In [10]:
# Создание тензоров заполненных:
# нулями: 
x = torch.zeros(5, 3)
print(x)
# единицами: 
x = torch.ones(5, 3)
print(x)
# тензор c единицами на главной диагонали:
x = torch.eye(5, 3)
print(x)

tensor([[0., 0., 0.],
        [0., 0., 0.],
        [0., 0., 0.],
        [0., 0., 0.],
        [0., 0., 0.]])
tensor([[1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.]])
tensor([[1., 0., 0.],
        [0., 1., 0.],
        [0., 0., 1.],
        [0., 0., 0.],
        [0., 0., 0.]])


In [11]:
# определение размера тензора:
x.size()

torch.Size([5, 3])

In [12]:
# для каждого тензора задан тип значений:
print(x.dtype) # тип заданный автоматически

# явное указание типа:
x = torch.zeros(5, 3, dtype=torch.float16)
print(x)

torch.float32
tensor([[0., 0., 0.],
        [0., 0., 0.],
        [0., 0., 0.],
        [0., 0., 0.],
        [0., 0., 0.]], dtype=torch.float16)


<center> 
<img src="./img/lnnp2_types1.png" alt="Типы тензоров в PyTorch и массивов в NumPy" style="width: 600px;"/><br/>
    <b>Типы тензоров в PyTorch и массивов в NumPy</b>    
</center> 

In [13]:
x = torch.Tensor(2, 3) # аналогично torch.empty
x

tensor([[0.0000e+00, 0.0000e+00, 2.1019e-44],
        [0.0000e+00, 1.4013e-45, 0.0000e+00]])

In [14]:
# создание тензора из данных:
x = torch.Tensor([[0.6768, 0.5198, 0.6978], 
                  [0.1581, 0.2027, 0.3723]])
x

tensor([[0.6768, 0.5198, 0.6978],
        [0.1581, 0.2027, 0.3723]])

In [15]:
# создание тензора из данных:
x = torch.tensor([[6, 51, 6],
                  [15, 0, 37]])
print(x, type(x), x.dtype)

x = torch.tensor([[6, 51, 6],
                  [15, 0, 37]], dtype=torch.float64)
print(x, type(x), x.dtype)

tensor([[ 6, 51,  6],
        [15,  0, 37]]) <class 'torch.Tensor'> torch.int64
tensor([[ 6., 51.,  6.],
        [15.,  0., 37.]], dtype=torch.float64) <class 'torch.Tensor'> torch.float64


In [16]:
# создание тензора из массива numpy:
a = np.array([1, 2, 3])
x = torch.from_numpy(a)
x

tensor([1, 2, 3], dtype=torch.int32)

In [17]:
# Carful: If the Tensor is on the CPU (not the GPU),
# both objects will share the same memory location, so changing one
# will also change the other

a[0] += 10
print(a)
print(x)

[11  2  3]
tensor([11,  2,  3], dtype=torch.int32)


In [18]:
# torch to numpy with .numpy()
# Специфика использования общего массива данных сохраняется!
b = x.numpy()
b

array([11,  2,  3])

In [19]:
# заполнение тензора значениями:
x = torch.Tensor(2, 3)
x.fill_(0.5) # функции, оканчивающиеся на _ меняют значение тензора слева от точки
x

tensor([[0.5000, 0.5000, 0.5000],
        [0.5000, 0.5000, 0.5000]])

Справка по операциям создания тензоров тут: https://pytorch.org/docs/stable/torch.html#creation-ops

---
__Операции с тензорами__

Арифметические операции и математические функции:

In [20]:
x = torch.rand(2, 2)
print(f'x:\n {x}\n')
y = torch.rand(2, 2)
print(f'y:\n {y}\n')

# поэлементное сложение:
z = x + y
print(f'z = x + y:\n {z}\n')
z = torch.add(x,y)
print(f'z = torch.add(x,y):\n {z}\n')

x:
 tensor([[0.2830, 0.7729],
        [0.4965, 0.5944]])

y:
 tensor([[0.3583, 0.9232],
        [0.9019, 0.4403]])

z = x + y:
 tensor([[0.6412, 1.6961],
        [1.3984, 1.0347]])

z = torch.add(x,y):
 tensor([[0.6412, 1.6961],
        [1.3984, 1.0347]])



In [21]:
y2 = y.clone().detach() # копирование содержимого тензора в новый тензор
print(f'y2:\n {y2}\n')

# операции "in place" (помещают результат в объект слева от точки) в pytorch оканчиваются на _ :
y2.add_(x)
print(f'y2.add_(x) in place:\n {y2}\n')

y2:
 tensor([[0.3583, 0.9232],
        [0.9019, 0.4403]])

y2.add_(x) in place:
 tensor([[0.6412, 1.6961],
        [1.3984, 1.0347]])



In [22]:
# вычитание:
z = x - y
z = torch.sub(x, y)
print(f'z = torch.sub(x, y):\n {z}\n')

# умножение (поэлементное!):
z = x * y
z = torch.mul(x,y)
print(f'z = torch.mul(x,y):\n {z}\n')

# деление:
z = x / y
z = torch.div(x,y)
print(f'z = torch.div(x,y):\n {z}\n')

z = torch.sub(x, y):
 tensor([[-0.0753, -0.1504],
        [-0.4055,  0.1540]])

z = torch.mul(x,y):
 tensor([[0.1014, 0.7135],
        [0.4478, 0.2617]])

z = torch.div(x,y):
 tensor([[0.7898, 0.8371],
        [0.5505, 1.3498]])



In [23]:
print(f'x - y:\n {x - y}\n')

z = torch.abs(x - y) # полэлементный рассчет модуля
print(f'z = torch.abs(x - y):\n {z}\n')

z = x - y
z.abs_()
print(f'z.abs_():\n {z}\n')

x - y:
 tensor([[-0.0753, -0.1504],
        [-0.4055,  0.1540]])

z = torch.abs(x - y):
 tensor([[0.0753, 0.1504],
        [0.4055, 0.1540]])

z.abs_():
 tensor([[0.0753, 0.1504],
        [0.4055, 0.1540]])



In [24]:
torch.cos(x) # поэлементный рассчет cos 
# x.cos_()

tensor([[0.9602, 0.7159],
        [0.8793, 0.8285]])

In [25]:
torch.sigmoid(x) # рассчет сигмоиды
# x.sigmoid_()

tensor([[0.5703, 0.6841],
        [0.6216, 0.6444]])

Справка по математическим опреациям тут: https://pytorch.org/docs/stable/torch.html#math-operations

Операции среза:

In [26]:
# Операции среза (slicing) (работает аналогично NumPy):
x = torch.rand(5,3)
print(x)
print(x[1, 1]) # элемент с индексо 1, 1 (результат: тензор размерности 0!)
print(x[:, 0]) # все строки, столбец 0
print(x[1, :]) # строка 1, все столбцы

tensor([[0.7997, 0.4989, 0.1586],
        [0.1758, 0.5943, 0.3483],
        [0.4643, 0.4594, 0.6720],
        [0.3840, 0.4478, 0.9048],
        [0.2116, 0.7514, 0.1852]])
tensor(0.5943)
tensor([0.7997, 0.1758, 0.4643, 0.3840, 0.2116])
tensor([0.1758, 0.5943, 0.3483])


In [27]:
# тензор размерности 0 (скаляр), все равно остается типом 'torch.Tensor':
print(x[1,1], type(x[1,1])) 

tensor(0.5943) <class 'torch.Tensor'>


In [28]:
# получение самого значения из тензора размерности 0:
print(x[1,1].item())

0.5942692160606384


In [29]:
# итерирование по тензору:
for v in x[1, :]:
    print(v.item())

0.17581236362457275
0.5942692160606384
0.348280131816864


In [30]:
# Изменение формы тензора (reshape) с помощью torch.view():
x = torch.randn(4, 4) # матрица 4 на 4
print(x, x.size(), '\n')

tensor([[-0.8380, -0.5930,  0.4406,  1.3580],
        [ 1.4499,  0.3562,  0.7375,  0.7863],
        [ 1.1890,  1.4015,  1.5559, -1.4440],
        [-0.0319,  0.9698,  1.3826,  1.5762]]) torch.Size([4, 4]) 



In [31]:
y = x.view(16) # вектор из 16 компонент
print(y, y.size(), '\n')
z = x.view(2, 2, 4) # тензор 2 на 2 на 4
print(z, z.size(), '\n')

tensor([-0.8380, -0.5930,  0.4406,  1.3580,  1.4499,  0.3562,  0.7375,  0.7863,
         1.1890,  1.4015,  1.5559, -1.4440, -0.0319,  0.9698,  1.3826,  1.5762]) torch.Size([16]) 

tensor([[[-0.8380, -0.5930,  0.4406,  1.3580],
         [ 1.4499,  0.3562,  0.7375,  0.7863]],

        [[ 1.1890,  1.4015,  1.5559, -1.4440],
         [-0.0319,  0.9698,  1.3826,  1.5762]]]) torch.Size([2, 2, 4]) 



In [32]:
t = x.view(-1, 8)  # размер -1 означает, что размерность этой компоненты будет подобрана автоматически
print(t, t.size())

tensor([[-0.8380, -0.5930,  0.4406,  1.3580,  1.4499,  0.3562,  0.7375,  0.7863],
        [ 1.1890,  1.4015,  1.5559, -1.4440, -0.0319,  0.9698,  1.3826,  1.5762]]) torch.Size([2, 8])


<center> 
<img src="./img/lnnp2_resize1.png" alt="Операции изменения размера матриц" style="width: 300px;"/><br/>
    <b>Операции изменения размера матриц</b>    
</center> 

In [33]:
x1 = torch.rand(2,3)
print(x1)
y1 = torch.rand(2,3)
print(y1)

tensor([[0.1830, 0.2154, 0.6007],
        [0.4754, 0.8501, 0.3963]])
tensor([[0.3986, 0.9731, 0.0460],
        [0.7828, 0.7819, 0.3551]])


In [36]:
# Конкатенация (concatenation):

# Concatenates 2 tensors on zeroth dimension:
concat1 = torch.cat((x1, y1))
print(concat1, concat1.size())         

# Concatenates 2 tensors on zeroth dimension
x = torch.rand(2,3)
concat2 = torch.cat((x1, y1), dim=0)
print(concat2, concat2.size()) 

# Concatenates 2 tensors on first dimension
x = torch.rand(2,3)
concat3 = torch.cat((x1, y1), dim=1)
print(concat3, concat3.size())       

tensor([[0.1830, 0.2154, 0.6007],
        [0.4754, 0.8501, 0.3963],
        [0.3986, 0.9731, 0.0460],
        [0.7828, 0.7819, 0.3551]]) torch.Size([4, 3])
tensor([[0.1830, 0.2154, 0.6007],
        [0.4754, 0.8501, 0.3963],
        [0.3986, 0.9731, 0.0460],
        [0.7828, 0.7819, 0.3551]]) torch.Size([4, 3])
tensor([[0.1830, 0.2154, 0.6007, 0.3986, 0.9731, 0.0460],
        [0.4754, 0.8501, 0.3963, 0.7828, 0.7819, 0.3551]]) torch.Size([2, 6])


In [131]:
# Разбиение тензора (split): 
print(x1)

splitted1 = x1.split(split_size=1, dim=0)
print(splitted1, splitted1[0].size())       # 2 tensors of 2x2 and 1x2 size

splitted2 = x1.split(split_size=2, dim=1)
print(splitted2[0], splitted2[0].size(), '\n', splitted2[1], splitted2[1].size())       # 2 tensors of 2x2 and 1x2 size

tensor([[0.1249, 0.9633, 0.0452],
        [0.0543, 0.3090, 0.6743]])
(tensor([[0.1249, 0.9633, 0.0452]]), tensor([[0.0543, 0.3090, 0.6743]])) torch.Size([1, 3])
tensor([[0.1249, 0.9633],
        [0.0543, 0.3090]]) torch.Size([2, 2]) 
 tensor([[0.0452],
        [0.6743]]) torch.Size([2, 1])


In [39]:
# stack:
print(x1)
print(y1)

stacked1 = torch.stack((x1, y1), dim=0)
print(stacked1, stacked1.size()) # возвращает тензор: 2(в результате stak!) x 2 x 3 

tensor([[0.1830, 0.2154, 0.6007],
        [0.4754, 0.8501, 0.3963]])
tensor([[0.3986, 0.9731, 0.0460],
        [0.7828, 0.7819, 0.3551]])
tensor([[[0.1830, 0.2154, 0.6007],
         [0.4754, 0.8501, 0.3963]],

        [[0.3986, 0.9731, 0.0460],
         [0.7828, 0.7819, 0.3551]]]) torch.Size([2, 2, 3])


In [40]:
stacked2 = torch.stack((x1, y1), dim=1)
print(stacked2, stacked2.size()) # возвращает тензор: 2 x 2(в результате stak!) x 3 

tensor([[[0.1830, 0.2154, 0.6007],
         [0.3986, 0.9731, 0.0460]],

        [[0.4754, 0.8501, 0.3963],
         [0.7828, 0.7819, 0.3551]]]) torch.Size([2, 2, 3])


In [41]:
#sqeeze and unsqueeze
x2 = torch.rand(3, 2, 1) # a tensor of size 3x2x1
print(x2)
squeezed1 = x2.squeeze()
print(squeezed1)  # remove the 1 sized dimension

tensor([[[0.7298],
         [0.8666]],

        [[0.9598],
         [0.2414]],

        [[0.4696],
         [0.6808]]])
tensor([[0.7298, 0.8666],
        [0.9598, 0.2414],
        [0.4696, 0.6808]])


In [182]:
x3 = torch.rand(3)
print(x3)

with_fake_dimension1 = x3.unsqueeze(0)
print(with_fake_dimension1, with_fake_dimension1.size()) # added a fake zeroth dimensionz 

with_fake_dimension2 = x3.unsqueeze(1)
print(with_fake_dimension2, with_fake_dimension2.size()) # added a fake zeroth dimensionz 

tensor([0.3965, 0.5168, 0.6922])
tensor([[0.3965, 0.5168, 0.6922]]) torch.Size([1, 3])
tensor([[0.3965],
        [0.5168],
        [0.6922]]) torch.Size([3, 1])


In [44]:
# Распространение (broadcasting) - так же как в NumPy:

t1 = torch.arange(1.0, 5.0)
t3 = torch.arange(0.0, 3.0)
print(t1, t3)
tm = t1.ger(t3)
print(tm, tm.size())

tensor([1., 2., 3., 4.]) tensor([0., 1., 2.])
tensor([[0., 1., 2.],
        [0., 2., 4.],
        [0., 3., 6.],
        [0., 4., 8.]]) torch.Size([4, 3])


In [45]:
t1 * tm

RuntimeError: The size of tensor a (4) must match the size of tensor b (3) at non-singleton dimension 1

In [46]:
t1.size(), tm.size()

(torch.Size([4]), torch.Size([4, 3]))

In [50]:
print(t1.unsqueeze(1))
print(tm)

tensor([[1.],
        [2.],
        [3.],
        [4.]])
tensor([[0., 1., 2.],
        [0., 2., 4.],
        [0., 3., 6.],
        [0., 4., 8.]])


In [51]:
t1.unsqueeze(1) * tm

tensor([[ 0.,  1.,  2.],
        [ 0.,  4.,  8.],
        [ 0.,  9., 18.],
        [ 0., 16., 32.]])

In [52]:
t1.unsqueeze(1).size(), tm.size()

(torch.Size([4, 1]), torch.Size([4, 3]))

Операции агрегации:

In [53]:
mat = torch.tensor(
        [[0., 1., 2.],
        [0., 2., 4.],
        [0., 3., 6.],
        [0., 4., 8.]])

# суммирование по всем элементам:
mat.sum()

tensor(30.)

In [54]:
# суммирование по оси 0:
mat.sum(dim=0)

tensor([ 0., 10., 20.])

In [55]:
# суммирование по оси 1:
mat.sum(dim=1)

tensor([ 3.,  6.,  9., 12.])

In [56]:
# получение среднего значения:

print(mat.mean())
print(mat.mean(dim=0))
print(mat.mean(dim=1))

tensor(2.5000)
tensor([0.0000, 2.5000, 5.0000])
tensor([1., 2., 3., 4.])


Матричные операции:

In [57]:
# Умножение (поэлементное!):

x = torch.rand(2, 2)
print(f'x:\n {x}\n')
y = torch.rand(2, 2)
print(f'y:\n {y}\n')

z = x * y
print(f'z = torch.mul(x,y):\n {z}\n')
z = torch.mul(x,y)
print(f'z = torch.mul(x,y):\n {z}\n')

x:
 tensor([[0.7255, 0.9459],
        [0.0180, 0.9965]])

y:
 tensor([[0.5618, 0.6862],
        [0.2016, 0.1258]])

z = torch.mul(x,y):
 tensor([[0.4076, 0.6491],
        [0.0036, 0.1253]])

z = torch.mul(x,y):
 tensor([[0.4076, 0.6491],
        [0.0036, 0.1253]])



In [58]:
# Умножение матрицы на вектор:

# torch.mv(input, vec, out=None) → Tensor
# Performs a matrix-vector product of the matrix input and the vector vec.
# If input is a (n \times m)(n×m) tensor, vec is a 1-D tensor of size mm , out will be 1-D of size nn .

mat = torch.randn(2, 3)
print(mat, mat.size())
vec = torch.randn(3)
print(vec, vec.size())
res = torch.mv(mat, vec)
print(res, res.size())

tensor([[ 0.2450, -0.9958,  0.3320],
        [-1.1015,  1.3226,  3.2153]]) torch.Size([2, 3])
tensor([-0.0979,  2.0161, -0.1482]) torch.Size([3])
tensor([-2.0808,  2.2977]) torch.Size([2])


In [59]:
# Умножение матрицы на матрицу:

# torch.mm(input, mat2, out=None) → Tensor
# Performs a matrix multiplication of the matrices input and mat2.
# If input is a (n×m) tensor, mat2 is a (m×p) tensor, out will be a (n×p) tensor.

mat1 = torch.randn(2, 3)
print(mat1, mat1.size())
mat2 = torch.randn(3, 3)
print(mat2, mat2.size())
res = torch.mm(mat1, mat2)
print(res, res.size())

tensor([[-1.6114,  0.1754, -0.1479],
        [-0.8400, -1.4489, -0.1735]]) torch.Size([2, 3])
tensor([[-0.2815,  0.7116, -1.1436],
        [ 0.1062,  0.8233,  1.0840],
        [ 0.4111,  1.1746, -0.1564]]) torch.Size([3, 3])
tensor([[ 0.4115, -1.1759,  2.0561],
        [ 0.0113, -1.9944, -0.5829]]) torch.Size([2, 3])


In [60]:
mat1.mm(mat2)

tensor([[ 0.4115, -1.1759,  2.0561],
        [ 0.0113, -1.9944, -0.5829]])

In [61]:
# Outer product of 2 vectors
vec1 = torch.arange(1, 4)    # Size 3
print(vec1, vec1.size())
vec2 = torch.arange(1, 3)    # Size 2
print(vec2, vec2.size())
res = torch.ger(vec1, vec2) # vec1 - рассматривается как вектор-столбец; vec2 - рассматривается как вектор-строка
print(res, res.size()) # Size 3x2

tensor([1, 2, 3]) torch.Size([3])
tensor([1, 2]) torch.Size([2])
tensor([[1, 2],
        [2, 4],
        [3, 6]]) torch.Size([3, 2])


In [62]:
vec1.ger(vec2)

tensor([[1, 2],
        [2, 4],
        [3, 6]])

__Функция matmul__

* Matrix product of two tensors: `torch.matmul(input, other, out=None)` → Tensor
* The behavior depends on the dimensionality of the tensors as follows:
    * If __both tensors are 1-dimensional__, the __dot product (scalar) is returned__.
    * If __both arguments are 2-dimensional__, the __matrix-matrix product is returned__.
    * If the __first argument is 1-dimensional and the second argument is 2-dimensional__, a 1 is prepended to its dimension for the purpose of the matrix multiply. After the matrix multiply, the prepended dimension is removed.
    * If the __first argument is 2-dimensional and the second argument is 1-dimensional__, the matrix-vector product is returned.
    * If __both arguments are at least 1-dimensional and at least one argument is N-dimensional (where N > 2)__, then a batched matrix multiply is returned. If the first argument is 1-dimensional, a 1 is prepended to its dimension for the purpose of the batched matrix multiply and removed after. If the second argument is 1-dimensional, a 1 is appended to its dimension for the purpose of the batched matrix multiple and removed after. The non-matrix (i.e. batch) dimensions are broadcasted (and thus must be broadcastable). For example, if input is a $j \times 1 \times n \times m$ tensor and other is a $k \times m \times p$ tensor, out will be an $j \times k \times n \times p$ tensor.

In [63]:
torch.arange(4)

tensor([0, 1, 2, 3])

In [64]:
torch.arange(3*4).view(3, 4)

tensor([[ 0,  1,  2,  3],
        [ 4,  5,  6,  7],
        [ 8,  9, 10, 11]])

In [65]:
# vector x vector
tensor1 = torch.randn(3)
print(tensor1, tensor1.size())
tensor2 = torch.randn(3)
print(tensor2, tensor2.size())
res = torch.matmul(tensor1, tensor2)
print(res, res.size()) # результат: скаляр

tensor([-2.5219, -1.2146,  1.3170]) torch.Size([3])
tensor([ 0.2303,  0.9512, -0.0546]) torch.Size([3])
tensor(-1.8081) torch.Size([])


In [66]:
# Вызов функции matmul можно выполнять с помощью оператора @:
tensor1 @ tensor2

tensor(-1.8081)

In [72]:
# vector x matrix 
tensor1 = torch.arange(3*4).view(3, 4)
print(tensor1, tensor1.size())
tensor2 = torch.arange(3)
print(tensor2, tensor2.size())

res = torch.matmul(tensor2, tensor1)
print(res, res.size())

tensor([[ 0,  1,  2,  3],
        [ 4,  5,  6,  7],
        [ 8,  9, 10, 11]]) torch.Size([3, 4])
tensor([0, 1, 2]) torch.Size([3])
tensor([20, 23, 26, 29]) torch.Size([4])


In [71]:
# или:
tensor2 @ tensor1

tensor([20, 23, 26, 29])

In [279]:
# matrix x vector
tensor1 = torch.arange(3*4).view(3, 4)
print(tensor1, tensor1.size())
tensor2 = torch.arange(4)
print(tensor2, tensor2.size())

res = torch.matmul(tensor1, tensor2)
print(res, res.size())

tensor([[ 0,  1,  2,  3],
        [ 4,  5,  6,  7],
        [ 8,  9, 10, 11]]) torch.Size([3, 4])
tensor([0, 1, 2, 3]) torch.Size([4])
tensor([14, 38, 62]) torch.Size([3])


In [68]:
tensor1 @ tensor2

tensor([14, 38, 62])

In [73]:
# batched matrix x broadcasted vector
tensor1 = torch.randn(10, 3, 4)
print(tensor1, tensor1.size(), '\n------------')
tensor2 = torch.randn(4)
print(tensor2, tensor2.size(), '\n------------')
res = torch.matmul(tensor1, tensor2)
print(res, res.size())

tensor([[[-0.0254,  0.7122, -2.5060,  0.5180],
         [ 0.1458, -0.8855, -0.8308,  1.5698],
         [-0.7911,  0.8250, -0.9246, -0.1922]],

        [[-0.3259, -0.8213,  1.5900, -0.1392],
         [-0.5806, -0.1336, -2.4994, -0.2150],
         [-0.1507, -1.1597,  0.4157,  0.5377]],

        [[ 0.1935, -0.6100, -0.0840, -0.2509],
         [ 0.2435,  0.0852, -0.7656, -0.5838],
         [-1.1525,  1.2272, -0.6801,  1.1422]],

        [[ 1.5298,  0.4393,  1.0724, -1.3998],
         [ 0.5910,  1.0698,  0.0492, -0.4684],
         [-0.5860,  0.3775, -0.4975,  0.1747]],

        [[ 0.6234, -1.6125,  0.0581, -0.9023],
         [ 0.8492,  0.4678,  2.2095, -0.4018],
         [-0.4183,  1.1057,  0.4946,  0.2117]],

        [[-0.4135, -1.1620, -0.4104,  0.7465],
         [-1.5399,  0.3171,  0.6196, -1.0964],
         [-1.4138, -0.7486, -0.2011, -0.4922]],

        [[-0.1190,  0.5037,  1.6496,  0.6041],
         [ 0.0585,  1.0287, -0.0672,  0.6690],
         [-0.2793, -0.8093, -1.3930, -0.2564]],


In [74]:
# batched matrix x batched matrix
tensor1 = torch.randn(10, 3, 4)
print(tensor1.size(), '\n------------')
tensor2 = torch.randn(10, 4, 5)
print(tensor2.size(), '\n------------')
res = torch.matmul(tensor1, tensor2)
print(res.size())

torch.Size([10, 3, 4]) 
------------
torch.Size([10, 4, 5]) 
------------
torch.Size([10, 3, 5])


In [75]:
# batched matrix x broadcasted matrix
tensor1 = torch.randn(10, 3, 4)
print(tensor1.size(), '\n------------')
tensor2 = torch.randn(4, 5)
print(tensor2, tensor2.size(), '\n------------')
res = torch.matmul(tensor1, tensor2)
print(res.size())

torch.Size([10, 3, 4]) 
------------
tensor([[ 2.3362,  0.1706,  0.4528,  0.8596,  1.0453],
        [-0.0351,  0.2272, -0.4056, -0.2502,  0.9134],
        [-1.5136,  0.4217,  1.3492,  0.6766,  0.9003],
        [-1.6946, -1.3057,  1.5708,  0.5506, -2.0987]]) torch.Size([4, 5]) 
------------
torch.Size([10, 3, 5])


----
### Применение тензоров:  прямое распространение сигналов и оценка ошибки

__Постановка задачи__ 

* У нас есть набор данных $D$, состоящий из пар $(\pmb{x}, \pmb{y})$, где $\pmb{x}$ - признаки, а $\pmb{y}$ - правильный ответ. 
* Модель сети $f_L$, имеющей $L$ слоев с весами $\pmb{\theta}$ (совокупность весов нейронов из всех слоев) на этих данных делает некоторые предсказания $\hat{\pmb{y}} = f_L(\pmb{x}, \pmb{\theta})$
* Задана функция ошибки $E$, которую можно подсчитать на каждом примере: $E(f_L(\pmb{x}, \pmb{\theta}), \pmb{y})$ (например, это может быть квадрат или модуль отклонения $\hat{\pmb{y}}$ от $\pmb{y}$ в случае регрессии или перекрестная энтропия в случае классификации)
* Тогда суммарная ошибка на наборе данных $D$ будет функцией от параметров модели: $E(\pmb{\theta})$ и определяется как $E(\pmb{\theta})=\sum_{(\pmb{x}, \pmb{y}) \in D} E(f_L(\pmb{x}, \pmb{\theta}), \pmb{y})$

<center> 
<img src="./img/main_cycle_p2_v2.png" alt="Прямой проход и оценка ошибки" style="width: 600px;"/><br/>
    <b>Прямой проход и оценка ошибки</b>    
</center> 


__Прямое распространение сигналов__

* Модель нейронной сети это иерархия (она может быть простой и очень сложной) связанных (последовательно применяемых) функций слоев:
    * т.е. модель сети $f_L$ может быть представленна как суперпозиция из $L$ слоев $h^i\text{, }i \in \{1, \ldots, L\}$, каждый из которых параметризуется своими весами $w_i$:
$$f_L(\pmb{x}, \pmb{\theta})=f_L(\pmb{x}, \pmb{w}_1, \ldots, \pmb{w}_L )=h^L(h^{L-1}(\ldots h^1(\pmb{x}, \pmb{w}_1), \ldots, \pmb{w}_{L-1}),\pmb{w}_L)$$

<center> 
<img src="./img/ann_11.png" alt="многослойный перцептрон с двумя скрытыми слоями" style="width: 600px;"/><br/>
    <b><em class="ex"></em> пример модели сети: многослойный перцептрон с двумя скрытыми слоями</b>    
</center> 

* Прямое распространение сигналов по модели (в частности: нейронной сети) реализуется с помощощью __прямого прохода (forward pass)__: входящая информация (вектор $\pmb{x}$) распространяется через сеть $f_L$ с учетом весов связей $\pmb{\theta}$, расчитывается выходной вектор $\hat{\pmb{y}}=f_L(\pmb{x}, \pmb{\theta})$ .
    * Каждый слой нейронной сети - это последовательно применяемая функция слоя, которая рассчитывается при помощи операций с тензорами.

<center> 
<img src="./img/ann_12.png" alt="пример прямого прохода" style="width: 600px;"/><br/>
    <b><em class="ex"></em> пример прямого прохода</b>    
</center> 

In [158]:
# Почему Тензор?
# Персептрон на тензорах
# Два слоя перспетронов

* Для решения этой задачи и используется алгоритм обратного распространения ошибки (backpropagation).

In [86]:
# реализация на PyTorch
# Линейная регрессия
# Персептрон

* Последовательность операций с тензормаи используется для расчета результата:
    * Прямой проход (forward pass): входящая информация (вектор $\pmb{x}$) распространяется через сеть с учетом весов связей, расчитывается выходной вектор $\hat{\pmb{y}} = f_L(\pmb{x}, \pmb{\theta})= h^L(h^{L-1}(\ldots h^1(\pmb{x}, \pmb{w}_1), \ldots, \pmb{w}_{L-1}),\pmb{w}_L)$
    * Оценки ошибки $E(\hat{\pmb{y}}, \pmb{y})$ на множестве правильных ответов: $\pmb{y}$.

<center> 
<img src="./img/main_cycle_p2_v2.png" alt="Прямой проход и оценка ошибки" style="width: 600px;"/><br/>
    <b>Прямой проход и оценка ошибки</b>    
</center> 

In [86]:
# Модель линейной регрессии (с несколькими параметрами)
# f = X * w 

# Данные для обучения: 
# принзаки X: рассматривается 4 наблюдения (ось 0) и 2 признака (ось 1):

# вариант исходных данны #1 (2й признак всегда равен 0):
# X = torch.tensor([[1., 0.],
#                   [2., 0.],
#                   [3., 0.],
#                   [4., 0.]], dtype=torch.float32) # Size([4, 2])

# вариант исходных данны #2 (2й признак используется и существенно больше 1го):
X = torch.tensor([[1., 40.],
                  [2., 30.],
                  [3., 20.],
                  [4., 10.]], dtype=torch.float32) # Size([4, 2])

print(f'Матрица X: \n{X}')
print(f'X.size = {X.size()}') 

# истинное значение весов (используется только для получения обучающих правильных ответов):

# вариант #1:
# w_ans = torch.tensor([2., 0.], dtype=torch.float32)

# вариант #2:
w_ans = torch.tensor([2., 1.], dtype=torch.float32)

# Y - приавильные ответы: 
Y = X @ w_ans

torch.set_printoptions(precision=5) # точность вывода на печать значений тензоров
print(f'w true value = {w_ans}, Y = {Y}')

Матрица X: 
tensor([[ 1., 40.],
        [ 2., 30.],
        [ 3., 20.],
        [ 4., 10.]])
X.size = torch.Size([4, 2])
w true value = tensor([2., 1.]), Y = tensor([42., 34., 26., 18.])


In [87]:
# model (модель, в нашем случае: линейная регрессия)

# изначальное значение весов w
w = torch.tensor([0.0, 0.0], dtype=torch.float32, requires_grad=False)

print(f'w:\n{w}')

# прямое распространение:
def forward(X):
    return X @ w # Size([4])

# loss = MSE (функция потерь, в нашем слаучае: средняя квадратичная ошибка)
def loss(y, y_pred):
    return ((y_pred - y)**2).mean() # Size([])

# градиент: 
# рассчитан аналитически по модели и функции потерь:
# J = MSE = 1/N * (w*x - y)**2
# dJ/dw = 1/N * 2 * (w*x - y) * x
def gradient(x, y, y_pred):   
#     print(f'''y = {y},
#     y_pred = {y_pred},
#     (2* (y_pred - y)).unsqueeze(1) = {(2* (y_pred - y)).unsqueeze(1)},
#     x = {x},
#     ((2* (y_pred - y)).unsqueeze(1) * x) = {((2* (y_pred - y)).unsqueeze(1) * x)},
#     ((2* (y_pred - y)).unsqueeze(1) * x).mean(dim=0) = {((2* (y_pred - y)).unsqueeze(1) * x).mean(dim=0)}''')
    return ((2* (y_pred - y)).unsqueeze(1) * x).mean(dim=0)    

w:
tensor([0., 0.])


In [88]:
# Training

# вариант #1:
# learning_rate = 0.05
# n_iters = 20 + 1

# вариант #2:
learning_rate = 0.0013
n_iters = 1000 + 1

# основной цикл:
for epoch in range(n_iters):
    # predict = forward pass
    y_pred = forward(X)

    # loss
    l = loss(Y, y_pred)
    
    # calculate gradients
    dw = gradient(X, Y, y_pred)

    # update weights
    w -= learning_rate * dw

    if epoch % 5 == 0:
        print(f'epoch {epoch}: w = {w}, y_pred = {y_pred}, loss = {l:.8f}\ngradient = {dw}')

epoch 0: w = tensor([0.16900, 2.21000]), y_pred = tensor([0., 0., 0., 0.]), loss = 980.00000000
gradient = tensor([ -130., -1700.])
epoch 5: w = tensor([0.13813, 0.24422]), y_pred = tensor([81.70274, 61.57523, 41.44772, 21.32021]), loss = 646.58898926
gradient = tensor([  77.23860, 1378.76135])
epoch 10: w = tensor([0.33966, 1.82453]), y_pred = tensor([15.22918, 11.70162,  8.17406,  4.64650]), loss = 427.49359131
gradient = tensor([  -89.12970, -1114.91895])
epoch 15: w = tensor([0.34364, 0.53338]), y_pred = tensor([68.78387, 52.09386, 35.40386, 18.71385]), loss = 283.42648315
gradient = tensor([ 47.01929, 904.69324])
epoch 20: w = tensor([0.49880, 1.56850]), y_pred = tensor([25.13912, 19.37721, 13.61530,  7.85340]), loss = 188.61242676
gradient = tensor([ -61.92349, -731.13959])
epoch 25: w = tensor([0.52316, 0.72007]), y_pred = tensor([60.23328, 45.87371, 31.51414, 17.15457]), loss = 126.13953400
gradient = tensor([ 27.57071, 593.68567])
epoch 30: w = tensor([0.64554, 1.39771]), y_pr

gradient = tensor([-0.00186,  0.00025])
epoch 840: w = tensor([1.99979, 1.00001]), y_pred = tensor([42.00035, 34.00000, 25.99965, 17.99929]), loss = 0.00000019
gradient = tensor([-0.00177,  0.00000])
epoch 845: w = tensor([1.99980, 1.00001]), y_pred = tensor([42.00034, 34.00000, 25.99967, 17.99933]), loss = 0.00000017
gradient = tensor([-0.00167,  0.00015])
epoch 850: w = tensor([1.99981, 1.00001]), y_pred = tensor([42.00032, 34.00000, 25.99968, 17.99936]), loss = 0.00000015
gradient = tensor([-0.00158,  0.00020])
epoch 855: w = tensor([1.99982, 1.00001]), y_pred = tensor([42.00030, 34.00000, 25.99970, 17.99940]), loss = 0.00000014
gradient = tensor([-0.00151,  0.00000])
epoch 860: w = tensor([1.99983, 1.00001]), y_pred = tensor([42.00028, 33.99999, 25.99971, 17.99943]), loss = 0.00000012
gradient = tensor([-0.00145, -0.00031])
epoch 865: w = tensor([1.99984, 1.00001]), y_pred = tensor([42.00027, 34.00000, 25.99973, 17.99946]), loss = 0.00000011
gradient = tensor([-0.00134,  0.00018])


---
## Обучение модели нейронной сети

In [None]:
# requires_grad argument
# This will tell pytorch that it will need to calculate the gradients for this tensor
# later in your optimization steps
# i.e. this is a variable in your model that you want to optimize
x = torch.tensor([5.5, 3], requires_grad=True)

__Проблема обучения модели нейронной сети__

* <em class="nt"></em> __основная проблема__ это не применение модели к входным данным $\pmb{x}$ и оцнка ошибки на правильных ответах $\pmb{y}$, а __обучение модели__ (опредление наилучших параметров модели $\pmb{\theta}$). 
     * В случае нейронной сети обучение сводится к поиску весов слоев сети $\pmb{\theta}=(\pmb{w}_1, \ldots, \pmb{w}_L)$, которые в совокупности являются параметрами модели $\pmb{\theta}$.

* Формально: цель обучения - найти оптимальное значение параметров $\theta^{*}$, минимизирующих ошибку на обучающией выборке $D$: 
$$\theta^{*} = \arg \underset{\pmb{\theta}}{\min} \ E(\pmb{\theta}) = \arg \underset{\pmb{\theta}}{\min} \ \sum_{(\pmb{x}, \pmb{y}) \in D} E(f_L(\pmb{x}, \pmb{\theta}), \pmb{y})$$
* Т.е. задача обучения сводится к задаче оптимизации.
    * <em class="nt"></em> На самом деле __все сложнее__: хороший результат на $D$ может плохо обобщаться (модель может давать низкое качество на другой выборке из той же генеральной совокупности) - __проблема переобучения__.

<center> 
<img src="./img/main_cycle_p1_v1.png" alt="Приниципиальная логика обучения нейронной сети" style="width: 800px;"/><br/>
    <b>Приниципиальная логика обучения нейронной сети</b>    
</center>

__Прямой проход и оценка ошибки__

* __Прямой проход__ (forward pass): входящая информация (вектор $\pmb{x}$) распространяется через сеть с учетом весов связей, расчитывается выходной вектор $\hat{\pmb{y}} = f_L(\pmb{x}, \pmb{\theta})= h^L(h^{L-1}(\ldots h^1(\pmb{x}, \pmb{w}_1), \ldots, \pmb{w}_{L-1}),\pmb{w}_L)$

<center> 
<img src="./img/ann_12.png" alt="пример прямого прохода" style="width: 300px;"/><br/>
    <b><em class="ex"></em> пример прямого прохода</b>    
</center> 

* __Оценки ошибки__ $E(\hat{\pmb{y}}, \pmb{y})$ на множестве правильных ответов: $\pmb{y}$.

<center> 
<img src="./img/main_cycle_p2_v2.png" alt="Прямой проход и оценка ошибки" style="width: 400px;"/><br/>
    <b>Прямой проход и оценка ошибки в общей логике обучения нейронной сети</b>    
</center> 

__Задача оптимизации__

* Задача: корректировка весов сети (параметров модели $\pmb{\theta}$) на основе информации об ошибке на обучающих примерах $E(\hat{\pmb{y}}, \pmb{y})$.
    * Решение: использовать методы оптимизации, основанные на __методе градиентного спуска__.
    

* __Метод градиентныого спуска__ - метод нахождения локального экстремума (минимума или максимума) функции с помощью движения вдоль градиента. В нашем случае шаг метода градиентного спуска выглядит следующим образом:
$$\pmb{\theta}_t = \pmb{\theta}_{t-1}-\gamma\nabla_\theta E(\pmb{\theta}_{t-1}) = \pmb{\theta}_{t-1}-\gamma \sum_{(\pmb{x}, \pmb{y}) \in D} \nabla_\theta E(f_L(\pmb{x}, \pmb{\theta}), \pmb{y})$$

* <em class="nt"></em> Выполнение на каждом шаге градиентого спуска суммирование по всем $(\pmb{x}, \pmb{y}) \in D$ __обычно слшиком неэффективно__


* Для выпуклых функций __задача локальной оптимизации__ - найти локальный минимум (максимум) автоматически превращается в __задачу глобальной оптимизации__ - найти точку, в которой достигается наименьшее (наибольшее) значение функции, то есть самую низкую (высокую) точку среди всех.
* Оптимизировать веса одного перцептрона - выпуклая задача, но __для большой нейронной сети  целевая функция не является выпуклой__.

<center> 
<img src="./img/ann_15.png" alt="Прямой проход и оценка ошибки" style="width: 500px;"/><br/>
    <b>Пример работы градиентного спуска для функции двух переменных</b>    
</center>

* У нейронных сетей функция ошибки может задавать __очень сложный ландшафт__ с огромным числом локальных максимумов и минимумов. Это свойство необходимо для обеспечения выразительности нейронных сетей, позволяющей им решать так много разных задач.


* <em class="nt"></em> для использования методов, основанных на методе градиентного спуска __необходимо знать градиент функции потерь по параметрам модели__: $\nabla_\theta E(f_L(\pmb{x}, \pmb{\theta}), \pmb{y})$. Этот градиент определяет вектор ("направление") изменения параметров.

__Проблема поиска градиента__

* <em class="qs"></em> Проблема: как найти градиент для нейронной сети: $\nabla_\theta E(f_L(\pmb{x}, \pmb{\theta}), \pmb{y})$?

<center> 
<img src="./img/main_cycle_p3_v1.png" alt="Прямой проход и оценка ошибки" style="width: 400px;"/><br/>
    <b>Проблема поиска градиента в общей логике обучения нейронной сети</b>    
</center> 

* Для решения этой задачи и используется __алгоритм обратного распространения ошибки__ (backpropagation). Суть алгоритма:
    * рассчитывается ошибка между выходным вектором сети $\hat{\pmb{y}}$ и правильным ответом обучающего примера $\pmb{y}$
    * ошибка распростаняется от результата к источнику (в обратную сторону) для корректировки весов

<center> 
<img src="./img/ann_13.png" alt="Пример обратного распространения ошибки" style="width: 400px;"/><br/>
    <b><em class="ex"></em>Пример обратного распространения ошибки</b>    
</center>

__Рассчет градиента суперпозиции двух функций нескольких переменных__

* Сначала рассмотрим подзадачу: как рассчитать градиент для $f_L(\mathbf{x}, \mathbf{w}_1, \ldots, \mathbf{w}_L )=h^L(h^{L-1}(\ldots h^1(\mathbf{x}, \mathbf{w}_1), \ldots, \mathbf{w}_{L-1}),\mathbf{w}_L)$? 

* Для этого нам нужно будет __рассчитывать градиент суперпозиции (сложной функции)__ состоящей из последовательного применения функций слоев $h^i$.

* Вспомним, как рассчитать производную (градиент) суперпозиции нескольких функций.
    * Пусть $z=f(y)$, $y=g(x)$
    * Тогда производная суперпозиции функций (правило дифференцирования сложной функции (chain rule)): $\frac{\mathrm{d} z}{\mathrm{d} x}=\frac{\mathrm{d} z}{\mathrm{d} y}\frac{\mathrm{d} y}{\mathrm{d} x}$
    * Если $\mathbf{x} \in \mathbb{R}^n$, $\mathbf{y} \in \mathbb{R}^m$, а $\mathbf{z} \in \mathbb{R}$, то: $\frac{\partial z }{\partial x_i} = \sum_j \frac{\partial z}{\partial y_j} \frac{\partial y_j}{\partial x_i}$

<center> 
    
__Примеры рассчета градиента суперпозиции двух функций нескольких переменных:__

<img src="./img/ann_18.png" alt="Примеры иерархий в нейронных сетях" style="width: 500px;"/>
</center>
Т.е. нам нужны градиенты по всем возможным путям (рассмотренным в обработном порядке) завимиостей переменных.

Запись этой же задачи в векторной нотации: 
* $\frac{\mathrm{d} z}{\mathrm{d} \mathbf{x}} = \nabla_x (z)= \begin{pmatrix}
    \dfrac{\partial z}{\partial x_1} \\ \cdots \\ \dfrac{\partial z}{\partial x_n} \end{pmatrix}=\left ( \frac{\mathrm{d} \mathbf{y}}{\mathrm{d} \mathbf{x}} \right )^T \cdot \nabla_y (z) = J(\mathbf{y}(\mathbf{x}))^T \cdot \nabla_y (z)= J(\mathbf{y}(\mathbf{x}))^T \cdot \begin{pmatrix}
    \dfrac{\partial z}{\partial y_1} \\ \cdots \\ \dfrac{\partial z}{\partial y_m} \end{pmatrix}$    
* Где $J$ это Якобиан: $$J(\mathbf{y}(\mathbf{x})) = \begin{pmatrix}
    \dfrac{\partial y_1}{\partial x_1} & \cdots & \dfrac{\partial y_1}{\partial x_n}\\
    \vdots & \ddots & \vdots\\
    \dfrac{\partial y_m}{\partial x_1} & \cdots & \dfrac{\partial y_m}{\partial x_n} \end{pmatrix} $$ 

__Задача поиска градиента: $\nabla_\theta E(f_L(\mathbf{x}, \mathbf{\theta}), \mathbf{y})$__

* Перейдем от $f_L$ к последовательному рассчету функций слоев $h^i$:
$$\nabla_\theta E(f_L(\mathbf{x}, \mathbf{\theta}), \mathbf{y})=\nabla_{\mathbf{w}_i} E(f_L(\mathbf{x}, \mathbf{w}_1, \ldots, \mathbf{w}_L ), \mathbf{y})=\nabla_{\mathbf{w}_i} E(h^L(h^{L-1}(\ldots h^1(\mathbf{x}, \mathbf{w}_1), \ldots, \mathbf{w}_{L-1}),\mathbf{w}_L), \mathbf{y})$$

* Обозначим через $\mathbf{a}^l$ результат рассчета функции активации на слое $l$: $\mathbf{a}^l=h^l(\mathbf{x}_l,\mathbf{w}_l)$. Тогда: $\mathbf{x}_{l+1}=\mathbf{a}_l$ (вход следущего слоя является результатом рассчета функции активации предыдущего слоя)

* Тогда можно записать: $\nabla_\theta E(f_L(\mathbf{x}, \mathbf{\theta}), \mathbf{y})=\nabla_\theta E(\mathbf{a}^L, \mathbf{y})$. Функция потерь $E(\mathbf{a}^L, \mathbf{y})$ зависит от $\mathbf{a}^L$, $\mathbf{a}^L$ от $\mathbf{a}^{L-1}$, ..., $\mathbf{a}^{l+1}$ от $\mathbf{a}^{l}$

* Исходя из этого представления можно градиенты явесов $l$-го слоя можно записать как: 
$$\dfrac{\partial E}{\partial \mathbf{w}_l}=\color{blue}{ \dfrac{\partial E}{\partial \mathbf{a}_L} \cdot \dfrac{\partial \mathbf{a}_L}{\partial \mathbf{a}_{L-1}} \cdot \cdots \cdot \dfrac{\partial \mathbf{a}_{l+1}}{\partial \mathbf{a}_{l}}} \cdot \color{red}{ \dfrac{\partial \mathbf{a}_{l}}{\partial \mathbf{w}_{l}}}$$

* Произведение всех сомножетелей кроме последнего является градиентом функции потерь по результатам рассчета функции активации слоя $l$:
$$\color{blue} {\dfrac{\partial E}{\partial \mathbf{a}_L} \cdot \dfrac{\partial \mathbf{a}_L}{\partial \mathbf{a}_{L-1}} \cdot \cdots \cdot \dfrac{\partial \mathbf{a}_{l+1}}{\partial \mathbf{a}_{l}}} = \color{blue} {\dfrac{\partial E}{\partial \mathbf{a}_l}}$$

* Тогда:
$$\dfrac{\partial E}{\partial \mathbf{w}_l}=\left ( \color{red}{ \dfrac{\partial \mathbf{a}_{l}}{\partial \mathbf{w}_{l}}} \right )^T \cdot \color{blue}{\dfrac{\partial E}{\partial \mathbf{a}_l}}$$ для рассчета $\color{red}{\dfrac{\partial \mathbf{a}_{l}}{\partial \mathbf{w}_{l}}}$ нам нужен только якобиан функции активации $l$-го слоя по параметрам слоя $\mathbf{w}_{l}$. 

* Градиент функции потерь по результатам рассчета функции активации слоя  $l$ может быть рассчитан рекурсивно по результатам слоя $l$, собственно тут и происходит __обратное распространение__:
$\color{blue}{\dfrac{\partial E}{\partial \mathbf{a}_l}}=\left ( \dfrac{\partial \mathbf{a}_{l+1}}{\partial \mathbf{a}_{l}} \right )^T \cdot \dfrac{\partial E}{\partial \mathbf{a}_{l+1}}=\left ( \color{magenta}{\dfrac{\partial \mathbf{a}_{l+1}}{\partial \mathbf{x}_{l+1}}} \right )^T \cdot \color{blue}{\dfrac{\partial E}{\partial \mathbf{a}_{l+1}}}$ для рассчета $\color{magenta}{\dfrac{\partial \mathbf{a}_{l+1}}{\partial \mathbf{x}_{l+1}}}$ нам нужен только якобиан функции активации $l+1$-го слоя по входным значениям слоя $\mathbf{x}_{l+1}$

* Т.е. чтобы проводить обратное распространение ошибки, нам на каждом слое (например $l$-м) нужно рассчитывать два якобиана:
    * якобиан функции активации $l$-го слоя по параметрам слоя $\color{red}{\dfrac{\partial \mathbf{a}_{l}}{\partial \mathbf{w}_{l}}}$ - он позволит рассчитать градиент $\dfrac{\partial E}{\partial \mathbf{w}_l}$ и сделать очередной шаг градиентного спуска для параметров этого слоя: $\mathbf{w}_l^{t+1} = \mathbf{w}_l^{t}-\gamma\nabla_{w_l} E(\mathbf{w}^{t})=\mathbf{w}_l^{t}-\gamma \dfrac{\partial E(\mathbf{w}^{t})}{\partial \mathbf{w}_l}$
    * якобиан функции активации $l$-го слоя по входным значениям слоя: $\color{magenta}{\dfrac{\partial \mathbf{a}_{l}}{\partial \mathbf{x}_{l}}}$ - он позволит распространить ошибку на низлежащие слои.

Такми образом при обучении нам нужна только __очень локальная информация, содержащаяся в самом слое__. Т.е.:
* __нет нобходимости знать как устроены сосоедние слои__: между слоями __очень простой интерфейс__ 
* т.е. __можно создать модульную архитектуру для слоев нейронной сети__: каждый модуль рассчитывает значение функции активации на основе выходов на прямом проходе и распространяет ошибку пришедшую на выходы на обратном проходе; все модули станадртным образом стыкуются друг с другом
* при модульной архитектуре граф нейронной сети может быть очень сложным, но его __рассчет выполняется по одной простой и универсальной схеме__
* внутри __модули могут быть сложно устроены, это никак не меняет логику остальных модулей и всего процесса обучения__, главное чтобы модуль корректно выполнял прямой и обратный проход.

-----------

##  Дифференцируемое программирование и реализация обратного распространения ошибки

__Почему Tensor *Flow*?__

<em class="qs"></em> Как реализовать __алгоритм обратного распространения ошибки__ удобно для использования в задачах моделирования ИНС?

Основная абстракция TensorFlow, PyTorch и других аналогичных библиотеках - __граф потока вычислений__.

* Рассматриваемые библиотеки обычно:
    1. задают __граф потока вычислений__ (формирует объект отложенных вычислений)
    2. запускают __процедуру выполненния отложенных вычислений__ и получает __результаты__ вычислений (в т.ч. ошибку модели).
* Возможность в явном виде работать с графом потока вычислений дает большое приемущество для __автоматического решения задачи обратного распространения ошибки__, являющейся составляющей адачей обучения модели ИНС.

<center> 
<img src="./img/ker_6.png" alt="Принцип устройства графа потока вычислений в TensorFlow" style="width: 400px;"/><br/>
    <b>Принцип устройства графа потока вычислений в TensorFlow</b>    
</center>

* Нейронная сеть это иерархия (она может быть простой и очень сложной) связанных (последовательно применяемых) функций слоев ИНС. Модель сети $f_L$ может быть представленна как суперпозиция из $L$ слоев $h^i\text{, }i \in \{1, \ldots, L\}$, каждый из которых параметризуется своими весами $w_i$:
$$f_L(\pmb{x}, \pmb{\theta})=f_L(\pmb{x}, \pmb{w}_1, \ldots, \pmb{w}_L )=h^L(h^{L-1}(\ldots h^1(\pmb{x}, \pmb{w}_1), \ldots, \pmb{w}_{L-1}),\pmb{w}_L)$$

* Вычисление функций слоев и взаимосвязи между слоями формируют граф потока вычислений в библиотеке моделирования ИНС.

<center> 
<img src="./img/ann_16.png" alt="Примеры иерархий в нейронных сетях" style="width: 400px;"/><br/>
    <b>Примеры иерархий в нейронных сетях</b>    
</center>


* По сути, ИНС это композиция модулей, представляющих собой слои нейронной сети:
    * если сеть прямого распространения (feedforward), то все просто
    * если сеть является направленным ациклическим графом, то существует правильный порядок применения функций
    * в случае, если есть циклы, образующие рекуррентные связи, то существуют специальные подходы (будут рассмотрены позднее)


* На обратном проходе (при обратном распространении ошибки) нам необходимо __дифференциировать сложную функцию__ многослойной ИНС
$$\nabla_\theta E(f_L(\mathbf{x}, \mathbf{\theta}), \mathbf{y})=\nabla_{\mathbf{w}_i} E(f_L(\mathbf{x}, \mathbf{w}_1, \ldots, \mathbf{w}_L ), \mathbf{y})=\nabla_{\mathbf{w}_i} E(h^L(h^{L-1}(\ldots h^1(\mathbf{x}, \mathbf{w}_1), \ldots, \mathbf{w}_{L-1}),\mathbf{w}_L), \mathbf{y})$$
* алгоритм обратного распространения ошибки позволяет свести эту задачу к дифференциированию составляющих функций, но для этого необходимо __храниить информацию о виде и взаимосвязях функций задействованных в расчете модели ИНС__, именно эта информация и хранится в графе потока вычислений. Это позволяет организовать __автоматическое дифференциирование__ сложной функци многослойной ИНС.

__Дифференциируемое программирование__

<em class="df"></em> __Дифференциируемое программирование__ (differentiable programming) - парадигма программирования при которой программа (функция рассчета значения) может быть продифференциирована в любой точке, обычно с помощью __автоматического диффиренциирования__. 

Это свойство позволяет использовать к программе __методы оптимизации основанные на рассчете градиента__, обычно - __методы градиентного спуска__.

Дифференциируемое программирование используется в:
* глубоком обучении
* глубоком обучении комбинированном с физическими моделями в робототехнике
* специализированных методах трассировки лучей
* обработке изображений

Большинство фреймоврков для дифференциируемого программирования использует граф потока вычислений определяющий выполнение программы и ее структуры данных.

Основные классы фреймворков для дифференциируемого программирования:
* __статические__ - они компилируют граф потока вычислений. Типичные представители: TensorFlow, Theano и др. Плюсы и минусы
    * <em class="pl"></em> могут использовать оптимизацию при компиляции
    * <em class="pl"></em> легче масштабирются на большие системы
    * <em class="mn"></em> статичность ограничевает интерактивность
    * <em class="mn"></em> многие программы не могут реализовываться легко (в частности: циклы, рекурсия)
* __динамические__ - динамически исполняют граф потока вычислений. Используют перегрузку операторов для записи. Типичные представители: PyTorch, AutoGradrFlow. Плюсы и минусы:
    * <em class="pl"></em> более простая и понятная запись программы
    * <em class="mn"></em> накладные расходы интерпретатора
    * <em class="mn"></em> невозможно использовать оптимизацию компилятора
    * <em class="mn"></em> хуже масштабируемость
* статическая на основе разбора промежуточного представления синтаксического разбора исходной программы. Пример фрэймоврк Zygote (язык программирования Julia).

__Прямой проход__:
* Модули из графа обходятся один за одним начиная с узла входных данных и далее по мере готовности всех необходимых входных данных для очередного модуля, который еще не был обойден
* Рассчет функций активации для каждого модуля по входным данным: $a_l=h_l(x_l, w_l)$
* Промежуточные значения кэшируются, чтобы не рассчитывать их повторно (в сложном графе сети и при обратном проходе)
* Выходы одних модулей становятся входами других модулей: $x_{l+1}=a_l$
* Последним модулем рассчитывается сумма потерь для входных данных
<center> 
    
__Прямой и обратный проход процедуры обучения многослойной ИНС:__

<img src="./img/ann_19.png" alt="Прямой и обратный проход " style="width: 300px;"/>
</center>


__Обратный проход__:
* Сначала должен быть произведен прямой проход. На входе обратного прохода известна сумма потерь.
* Строится обратный порядок обхода графа зависимостей модулей.
* Модули из графа обходятся один за одним начиная с узла рассчета функции потерь и далее по мере готовности всех необходимых входных данных для очередного модуля, который еще не был обойден 
* Для каждого модуля рассчитыватся якобиан функции активации по параметрам слоя $\color{red}{\dfrac{\partial \mathbf{a}_{l}}{\partial \mathbf{w}_{l}}}$ и якобиан функции активации по входным значениям слоя: $\color{magenta}{\dfrac{\partial \mathbf{a}_{l}}{\partial \mathbf{x}_{l}}}$ 
* По пришедшму в модуль градиенту ошибки (полученному из модулей использовавших результаты данного модуля на прямом проходе) $\color{blue}{\dfrac{\partial E}{\partial \mathbf{a}_l}}$ рассчитывается:
    * Градиент для шага градиентного спуска по параметрам модуля $w_l$: $\dfrac{\partial E}{\partial \mathbf{w}_l}=\left ( \color{red}{ \dfrac{\partial \mathbf{a}_{l}}{\partial \mathbf{w}_{l}}} \right )^T \cdot \color{blue}{\dfrac{\partial E}{\partial \mathbf{a}_l}}$
    * Градиент ошбки, который передается в модули, поставившие данные в этот модуль во время прямого прохода: $\color{blue}{\dfrac{\partial E}{\partial \mathbf{a}_{l-1}}}=\left ( \color{magenta}{\dfrac{\partial \mathbf{a}_{l}}{\partial \mathbf{x}_{l}}} \right )^T \cdot \color{blue}{\dfrac{\partial E}{\partial \mathbf{a}_{l}}}$ 

<center> 
    
__Пример: прямой проход, шаг 1__

<img src="./img/bp_2.png" alt="Пример" style="width: 700px;"/>
</center>

<center> 
    
__Пример: прямой проход, шаг 2__

<img src="./img/bp_3.png" alt="Пример" style="width: 700px;"/>
</center>

<center> 
    
__Пример: прямой проход, шаг 3__

<img src="./img/bp_4.png" alt="Пример" style="width: 700px;"/>
</center>

<center> 
    
__Пример: обратный проход, шаг 1__

<img src="./img/bp_5.png" alt="Пример" style="width: 700px;"/>
</center>

<center> 
    
__Пример: обратный проход, шаг 2__

<img src="./img/bp_6.png" alt="Пример" style="width: 700px;"/>
</center>

<center> 
    
__Производные популярных функций активации__

<img src="./img/ann_17.png" alt="Пример" style="width: 500px;"/>
</center>


<center> 
    
__Пример: обратный проход, шаг 3__

<img src="./img/bp_7.png" alt="Пример" style="width: 700px;"/>
</center>

Автоматическое дифференциирование в PyTorch:

In [90]:
# The autograd package provides automatic differentiation 
# for all operations on Tensors

# requires_grad = True -> tracks all operations on the tensor. 
x = torch.randn(3, requires_grad=True)
y = x + 2

# y was created as a result of an operation, so it has a grad_fn attribute.
# grad_fn: references a Function that has created the Tensor
print(x) # created by the user -> grad_fn is None
print(y)
print(y.grad_fn)

tensor([ 0.21713,  1.01658, -0.62985], requires_grad=True)
tensor([2.21713, 3.01658, 1.37015], grad_fn=<AddBackward0>)
<AddBackward0 object at 0x00000238229A9408>


In [92]:
# Do more operations on y
z = y * y * 3
print(z)
z = z.mean()
print(z)

tensor([14.74698, 27.29934,  5.63190], grad_fn=<MulBackward0>)
tensor(15.89274, grad_fn=<MeanBackward0>)


In [93]:
# Let's compute the gradients with backpropagation
# When we finish our computation we can call .backward() and have all the gradients computed automatically.
# The gradient for this tensor will be accumulated into .grad attribute.
# It is the partial derivate of the function w.r.t. the tensor

z.backward()
print(x.grad) # dz/dx

# Generally speaking, torch.autograd is an engine for computing vector-Jacobian product
# It computes partial derivates while applying the chain rule

tensor([4.43426, 6.03317, 2.74029])


---

__Примеры рассчета градиента суперпозиции двух функций нескольких переменных:__

<img src="./img/ann_18.png" alt="Примеры иерархий в нейронных сетях" style="width: 500px;"/>
</center>
Т.е. нам нужны градиенты по всем возможным путям (рассмотренным в обработном порядке) завимиостей переменных.

Запись этой же задачи в векторной нотации: 
* $\frac{\mathrm{d} z}{\mathrm{d} \mathbf{x}} = \nabla_x (z)= \begin{pmatrix}
    \dfrac{\partial z}{\partial x_1} \\ \cdots \\ \dfrac{\partial z}{\partial x_n} \end{pmatrix}=\left ( \frac{\mathrm{d} \mathbf{y}}{\mathrm{d} \mathbf{x}} \right )^T \cdot \nabla_y (z) = J(\mathbf{y}(\mathbf{x}))^T \cdot \nabla_y (z)= J(\mathbf{y}(\mathbf{x}))^T \cdot \begin{pmatrix}
    \dfrac{\partial z}{\partial y_1} \\ \cdots \\ \dfrac{\partial z}{\partial y_m} \end{pmatrix}$    
* Где $J$ это Якобиан: $$J(\mathbf{y}(\mathbf{x})) = \begin{pmatrix}
    \dfrac{\partial y_1}{\partial x_1} & \cdots & \dfrac{\partial y_1}{\partial x_n}\\
    \vdots & \ddots & \vdots\\
    \dfrac{\partial y_m}{\partial x_1} & \cdots & \dfrac{\partial y_m}{\partial x_n} \end{pmatrix} $$ 

In [94]:
# Model with non-scalar output:
# If a Tensor is non-scalar (more than 1 elements), we need to specify arguments for backward() 
# specify a gradient argument that is a tensor of matching shape.
# needed for vector-Jacobian product

x = torch.randn(3, requires_grad=True)

y = x * 2
for _ in range(10):
    y = y * 2

print(y)
print(y.shape)

tensor([ 1292.58887, -2687.01343,   244.47513], grad_fn=<MulBackward0>)
torch.Size([3])


In [95]:
v = torch.tensor([0.1, 1.0, 0.0001], dtype=torch.float32)
y.backward(v)
print(x.grad)

tensor([2.04800e+02, 2.04800e+03, 2.04800e-01])


--- 
Stop a tensor from tracking history:
For example during our training loop when we want to update our weights
then this update operation should not be part of the gradient computation
* `x.requires_grad_(False)`
* `x.detach()`
* wrap in `with torch.no_grad():`

In [96]:
# .requires_grad_(...) changes an existing flag in-place.

a = torch.randn(2, 2)
print(f'a.requires_grad = {a.requires_grad}')

b = ((a * 3) / (a - 1))
print(f'b.grad_fn = {b.grad_fn}')
      
a.requires_grad_(True)
print(f'a.requires_grad = {a.requires_grad}')

b = (a * a).sum()
print(f'b.grad_fn = {b.grad_fn}')

a.requires_grad = False
b.grad_fn = None
a.requires_grad = True
b.grad_fn = <SumBackward0 object at 0x00000238229CC988>


In [97]:
# .detach(): get a new Tensor with the same content but no gradient computation:
a = torch.randn(2, 2, requires_grad=True)
print(a.requires_grad)

b = a.detach()
print(b.requires_grad)

True
False


In [98]:
# wrap in 'with torch.no_grad():'
a = torch.randn(2, 2, requires_grad=True)
print(a.requires_grad)

with torch.no_grad():
    print((x ** 2).requires_grad)

True
False


------

In [None]:
# backward() accumulates the gradient for this tensor into .grad attribute.
# !!! We need to be careful during optimization !!!
# Use .zero_() to empty the gradients before a new optimization step!

weights = torch.ones(4, requires_grad=True)

for epoch in range(3):
    # just a dummy example
    # 'forward pass'
    model_output = (weights*3).sum()
    
    
    model_output.backward()
    
    print(weights.grad)

    # optimize model, i.e. adjust weights...
    with torch.no_grad():
        weights -= 0.1 * weights.grad

    # this is important! It affects the final weights & output
    weights.grad.zero_()

print(weights)
print(model_output)

# Optimizer has zero_grad() method
# optimizer = torch.optim.SGD([weights], lr=0.1)
# During training:
# optimizer.step()
# optimizer.zero_grad()

-----

Автоматическое выполнение обратного прохода с помощью `l.backward()`:

In [99]:
# Модель линейной регрессии (с несколькими параметрами)
# f = X * w 

# Данные для обучения: 
# принзаки X: рассматривается 4 наблюдения (ось 0) и 2 признака (ось 1):

X = torch.tensor([[1., 40.],
                  [2., 30.],
                  [3., 20.],
                  [4., 10.]], dtype=torch.float32) # Size([4, 2])


# истинное значение весов (используется только для получения обучающих правильных ответов):
w_ans = torch.tensor([2., 1.], dtype=torch.float32)
# Y - приавильные ответы: 
Y = X @ w_ans

torch.set_printoptions(precision=5) # точность вывода на печать значений тензоров
print(f'w true value = {w_ans}, Y = {Y}')

# model (модель, в нашем случае: линейная регрессия)

# изначальное значение весов w
#!!! requires_grad=True
w = torch.tensor([0.0, 0.0], dtype=torch.float32, requires_grad=True)

# прямое распространение:
def forward(X):
    return X @ w # Size([4])

# loss = MSE (функция потерь, в нашем слаучае: средняя квадратичная ошибка)
def loss(y, y_pred):
    return ((y_pred - y)**2).mean() # Size([])


# Training
learning_rate = 0.0013
n_iters = 1000 + 1

# основной цикл:
for epoch in range(n_iters):
    # predict = forward pass
    y_pred = forward(X)

    # loss
    l = loss(Y, y_pred)
    
    #!!! backward pass        
    # calculate gradients = backward pass
    l.backward()
    
    # update weights
    #w.data = w.data - learning_rate * w.grad
    with torch.no_grad():
        w -= learning_rate * w.grad
    
    # zero the gradients after updating
    w.grad.zero_()    
    
    if epoch % 5 == 0:
        print(f'epoch {epoch}: w = {w}, y_pred = {y_pred}, loss = {l:.8f}\ngradient = {dw}')
    

w true value = tensor([2., 1.]), Y = tensor([42., 34., 26., 18.])
epoch 0: w = tensor([0.16900, 2.21000], requires_grad=True), y_pred = tensor([0., 0., 0., 0.], grad_fn=<MvBackward>), loss = 980.00000000
gradient = tensor([-0.00029,  0.00038])
epoch 5: w = tensor([0.13813, 0.24422], requires_grad=True), y_pred = tensor([81.70274, 61.57523, 41.44772, 21.32021], grad_fn=<MvBackward>), loss = 646.58898926
gradient = tensor([-0.00029,  0.00038])
epoch 10: w = tensor([0.33966, 1.82453], requires_grad=True), y_pred = tensor([15.22920, 11.70164,  8.17407,  4.64651], grad_fn=<MvBackward>), loss = 427.49307251
gradient = tensor([-0.00029,  0.00038])
epoch 15: w = tensor([0.34364, 0.53338], requires_grad=True), y_pred = tensor([68.78386, 52.09385, 35.40385, 18.71384], grad_fn=<MvBackward>), loss = 283.42614746
gradient = tensor([-0.00029,  0.00038])
epoch 20: w = tensor([0.49880, 1.56850], requires_grad=True), y_pred = tensor([25.13912, 19.37721, 13.61531,  7.85340], grad_fn=<MvBackward>), loss 

epoch 530: w = tensor([1.99392, 1.00041], requires_grad=True), y_pred = tensor([42.01033, 34.00007, 25.98981, 17.97955], grad_fn=<MvBackward>), loss = 0.00015719
gradient = tensor([-0.00029,  0.00038])
epoch 535: w = tensor([1.99425, 1.00039], requires_grad=True), y_pred = tensor([42.00978, 34.00006, 25.99035, 17.98063], grad_fn=<MvBackward>), loss = 0.00014103
gradient = tensor([-0.00029,  0.00038])
epoch 540: w = tensor([1.99455, 1.00037], requires_grad=True), y_pred = tensor([42.00927, 34.00006, 25.99086, 17.98165], grad_fn=<MvBackward>), loss = 0.00012652
gradient = tensor([-0.00029,  0.00038])
epoch 545: w = tensor([1.99484, 1.00035], requires_grad=True), y_pred = tensor([42.00878, 34.00006, 25.99134, 17.98262], grad_fn=<MvBackward>), loss = 0.00011353
gradient = tensor([-0.00029,  0.00038])
epoch 550: w = tensor([1.99511, 1.00033], requires_grad=True), y_pred = tensor([42.00831, 34.00005, 25.99179, 17.98354], grad_fn=<MvBackward>), loss = 0.00010187
gradient = tensor([-0.00029,  

------
Использование встроенного оптимизатора `optimizer = torch.optim.SGD([w], lr=learning_rate)` и функции потерь `loss = nn.MSELoss()`:

In [100]:
import torch
import torch.nn as nn

# Модель линейной регрессии (с несколькими параметрами)
# f = X * w 

#--------------------
# 0) Training samples

# Данные для обучения: 
# принзаки X: рассматривается 4 наблюдения (ось 0) и 2 признака (ось 1):
X = torch.tensor([[1., 40.],
                  [2., 30.],
                  [3., 20.],
                  [4., 10.]], dtype=torch.float32) # Size([4, 2])

# истинное значение весов (используется только для получения обучающих правильных ответов):
w_ans = torch.tensor([2., 1.], dtype=torch.float32)
# Y - приавильные ответы: 
Y = X @ w_ans

torch.set_printoptions(precision=5) # точность вывода на печать значений тензоров
print(f'w true value = {w_ans}, Y = {Y}')

#--------------------
# 1) Design Model: Weights to optimize and forward function

# изначальное значение весов w
w = torch.tensor([0.0, 0.0], dtype=torch.float32, requires_grad=True)


# model (модель, в нашем случае: линейная регрессия)
# прямое распространение:
def forward(X):
    return X @ w # Size([4])

#--------------------
# 2) Define loss and optimizer

# callable function
loss = nn.MSELoss()

# loss = MSE (функция потерь, в нашем слаучае: средняя квадратичная ошибка)
# def loss(y, y_pred):
#     return ((y_pred - y)**2).mean() # Size([])

learning_rate = 0.0013
optimizer = torch.optim.SGD([w], lr=learning_rate)


#--------------------
# 3) Training loop
# основной цикл:
n_iters = 1000 + 1

for epoch in range(n_iters):
    # predict = forward pass
    y_pred = forward(X)

    # loss
    l = loss(Y, y_pred)
         
    # calculate gradients = backward pass
    l.backward()
    
    # update weights
    optimizer.step()

    # zero the gradients after updating
    optimizer.zero_grad()    
    
    if epoch % 5 == 0:
        print(f'epoch {epoch}: w = {w}, y_pred = {y_pred}, loss = {l:.8f}\ngradient = {dw}')
    

w true value = tensor([2., 1.]), Y = tensor([42., 34., 26., 18.])
epoch 0: w = tensor([0.16900, 2.21000], requires_grad=True), y_pred = tensor([0., 0., 0., 0.], grad_fn=<MvBackward>), loss = 980.00000000
gradient = tensor([-0.00029,  0.00038])
epoch 5: w = tensor([0.13813, 0.24422], requires_grad=True), y_pred = tensor([81.70274, 61.57523, 41.44772, 21.32021], grad_fn=<MvBackward>), loss = 646.58898926
gradient = tensor([-0.00029,  0.00038])
epoch 10: w = tensor([0.33966, 1.82453], requires_grad=True), y_pred = tensor([15.22920, 11.70164,  8.17407,  4.64651], grad_fn=<MvBackward>), loss = 427.49307251
gradient = tensor([-0.00029,  0.00038])
epoch 15: w = tensor([0.34364, 0.53338], requires_grad=True), y_pred = tensor([68.78386, 52.09385, 35.40385, 18.71384], grad_fn=<MvBackward>), loss = 283.42614746
gradient = tensor([-0.00029,  0.00038])
epoch 20: w = tensor([0.49880, 1.56850], requires_grad=True), y_pred = tensor([25.13912, 19.37721, 13.61531,  7.85340], grad_fn=<MvBackward>), loss 

gradient = tensor([-0.00029,  0.00038])
epoch 460: w = tensor([1.98702, 1.00087], requires_grad=True), y_pred = tensor([42.02205, 34.00014, 25.97823, 17.95631], grad_fn=<MvBackward>), loss = 0.00071731
gradient = tensor([-0.00029,  0.00038])
epoch 465: w = tensor([1.98771, 1.00082], requires_grad=True), y_pred = tensor([42.02092, 34.00015, 25.97939, 17.95862], grad_fn=<MvBackward>), loss = 0.00064363
gradient = tensor([-0.00029,  0.00038])
epoch 470: w = tensor([1.98835, 1.00078], requires_grad=True), y_pred = tensor([42.01978, 34.00011, 25.98046, 17.96080], grad_fn=<MvBackward>), loss = 0.00057748
gradient = tensor([-0.00029,  0.00038])
epoch 475: w = tensor([1.98897, 1.00074], requires_grad=True), y_pred = tensor([42.01876, 34.00014, 25.98150, 17.96288], grad_fn=<MvBackward>), loss = 0.00051811
gradient = tensor([-0.00029,  0.00038])
epoch 480: w = tensor([1.98955, 1.00070], requires_grad=True), y_pred = tensor([42.01775, 34.00011, 25.98247, 17.96483], grad_fn=<MvBackward>), loss = 0

-----------
Использование модели:

`torch.nn.Linear(in_features, out_features, bias=True)`
Applies a linear transformation to the incoming data: $y = xA^T + b$

Parameters:
* `in_features` – size of each input sample
* `out_features` – size of each output sample
* `bias` – If set to False, the layer will not learn an additive bias. Default: True

In [101]:
# X_test = torch.tensor([[1], [2], [3], [4]], dtype=torch.float32) # torch.tensor([5], dtype=torch.float32)

X = torch.tensor([[1., 40.],
                  [2., 30.],
                  [3., 20.],
                  [4., 10.]], dtype=torch.float32) # Size([4, 2])

n_samples, n_features = X.shape

print(n_samples, n_features)

# n_samples, n_features = X_test.shape
# input_size = n_features
# output_size = n_features

class LinearRegression(nn.Module):
    def __init__(self, input_dim, output_dim):
        super(LinearRegression, self).__init__()
        # define diferent layers
        self.lin = nn.Linear(input_dim, output_dim, bias=False)
    def forward(self, x):
        return self.lin(x)
    
model = LinearRegression(n_features, 1)


print(f'Prediction before training: f(5) = {model(X)}')

4 2
Prediction before training: f(5) = tensor([[6.26964],
        [4.58868],
        [2.90772],
        [1.22675]], grad_fn=<MmBackward>)


In [102]:
X_test.shape

NameError: name 'X_test' is not defined

In [103]:
import torch
import torch.nn as nn

# Модель линейной регрессии (с несколькими параметрами)
# f = X * w 

#--------------------
# 0) Training samples

# Данные для обучения: 
# принзаки X: рассматривается 4 наблюдения (ось 0) и 2 признака (ось 1):
X = torch.tensor([[1., 40.],
                  [2., 30.],
                  [3., 20.],
                  [4., 10.]], dtype=torch.float32) # Size([4, 2])

print(f'X.shape = {X.shape}')
X_samples, X_features = X.shape

# истинное значение весов (используется только для получения обучающих правильных ответов):
w_ans = torch.tensor([2., 1.], dtype=torch.float32)
# Y - приавильные ответы: 
Y = X @ w_ans
print(f'Y.shape = {Y.shape}')
Y_features = 1

torch.set_printoptions(precision=5) # точность вывода на печать значений тензоров
print(f'w true value = {w_ans}, Y = {Y}')

#--------------------
# 1) Design Model, the model has to implement the forward pass!
# Here we can use a built-in model from PyTorch
input_size = n_features
output_size = n_features

# we can call this model with samples X
# model = nn.Linear(input_size, output_size)

class LinearRegression(nn.Module):
    def __init__(self, input_dim, output_dim):
        super(LinearRegression, self).__init__()
        # define diferent layers
        self.lin = nn.Linear(input_dim, output_dim, bias=False)
    def forward(self, x):
        return self.lin(x)
    
model = LinearRegression(X_features, Y_features)


print(f'Prediction before training: f({X}) = {model(X)}')


# # model (модель, в нашем случае: линейная регрессия)
# # прямое распространение:
# def forward(X):
#     return X @ w # Size([4])

#--------------------
# 2) Define loss and optimizer

# callable function
criterion  = nn.MSELoss()

learning_rate = 0.0013
optimizer = torch.optim.SGD([w], lr=learning_rate)

#--------------------
# 3) Training loop
# основной цикл:
n_iters = 1000 + 1

for epoch in range(n_iters):
    # Forward pass and loss
    y_predicted = model(X)
    loss = criterion(y_predicted, Y)

    
    # Backward pass and update
    loss.backward()
    optimizer.step()

    # zero grad before new step
    optimizer.zero_grad()    
    
    if epoch % 5 == 0:
        print(f'epoch {epoch}: w = {w}, y_pred = {y_pred}, loss = {l:.8f}\ngradient = {dw}')
    

X.shape = torch.Size([4, 2])
Y.shape = torch.Size([4])
w true value = tensor([2., 1.]), Y = tensor([42., 34., 26., 18.])
Prediction before training: f(tensor([[ 1., 40.],
        [ 2., 30.],
        [ 3., 20.],
        [ 4., 10.]])) = tensor([[-24.89012],
        [-18.63989],
        [-12.38966],
        [ -6.13942]], grad_fn=<MmBackward>)
epoch 0: w = tensor([1.99996, 1.00000], requires_grad=True), y_pred = tensor([42.00007, 34.00001, 25.99994, 17.99988], grad_fn=<MvBackward>), loss = 0.00000001
gradient = tensor([-0.00029,  0.00038])
epoch 5: w = tensor([1.99996, 1.00000], requires_grad=True), y_pred = tensor([42.00007, 34.00001, 25.99994, 17.99988], grad_fn=<MvBackward>), loss = 0.00000001
gradient = tensor([-0.00029,  0.00038])
epoch 10: w = tensor([1.99996, 1.00000], requires_grad=True), y_pred = tensor([42.00007, 34.00001, 25.99994, 17.99988], grad_fn=<MvBackward>), loss = 0.00000001
gradient = tensor([-0.00029,  0.00038])
epoch 15: w = tensor([1.99996, 1.00000], requires_grad=Tr

  return F.mse_loss(input, target, reduction=self.reduction)



epoch 465: w = tensor([1.99996, 1.00000], requires_grad=True), y_pred = tensor([42.00007, 34.00001, 25.99994, 17.99988], grad_fn=<MvBackward>), loss = 0.00000001
gradient = tensor([-0.00029,  0.00038])
epoch 470: w = tensor([1.99996, 1.00000], requires_grad=True), y_pred = tensor([42.00007, 34.00001, 25.99994, 17.99988], grad_fn=<MvBackward>), loss = 0.00000001
gradient = tensor([-0.00029,  0.00038])
epoch 475: w = tensor([1.99996, 1.00000], requires_grad=True), y_pred = tensor([42.00007, 34.00001, 25.99994, 17.99988], grad_fn=<MvBackward>), loss = 0.00000001
gradient = tensor([-0.00029,  0.00038])
epoch 480: w = tensor([1.99996, 1.00000], requires_grad=True), y_pred = tensor([42.00007, 34.00001, 25.99994, 17.99988], grad_fn=<MvBackward>), loss = 0.00000001
gradient = tensor([-0.00029,  0.00038])
epoch 485: w = tensor([1.99996, 1.00000], requires_grad=True), y_pred = tensor([42.00007, 34.00001, 25.99994, 17.99988], grad_fn=<MvBackward>), loss = 0.00000001
gradient = tensor([-0.00029, 

gradient = tensor([-0.00029,  0.00038])
epoch 995: w = tensor([1.99996, 1.00000], requires_grad=True), y_pred = tensor([42.00007, 34.00001, 25.99994, 17.99988], grad_fn=<MvBackward>), loss = 0.00000001
gradient = tensor([-0.00029,  0.00038])
epoch 1000: w = tensor([1.99996, 1.00000], requires_grad=True), y_pred = tensor([42.00007, 34.00001, 25.99994, 17.99988], grad_fn=<MvBackward>), loss = 0.00000001
gradient = tensor([-0.00029,  0.00038])


---
# Спасибо за внимание!

---
### Технический раздел:

 * И Введение в искусственные нейронные сети
     * Базовые понятия и история
 * И Машинное обучение и концепция глубокого обучения
 * И Почему глубокое обучение начало приносить плоды и активно использоваться только после 2010 г?
     * Производительность оборудования
     * Доступность наборов данных и тестов
     * Алгоритмические достижения в области глубокого обучения
         * Улчшенные подходы к регуляризации
         * Улучшенные схемы инициализации весов
         * (повтор) Усовершенствованные методы градиентного супска
         

* Обратное распространение ошибки
 * Оптимизация
     * Стохастический градиентный спуск
     * Усовершенствованные методы градиентного супска
* Введение в PyTorch

<br/> next <em class="qs"></em> qs line 
<br/> next <em class="an"></em> an line 
<br/> next <em class="nt"></em> an line 
<br/> next <em class="df"></em> df line 
<br/> next <em class="ex"></em> ex line 
<br/> next <em class="pl"></em> pl line 
<br/> next <em class="mn"></em> mn line 
<br/> next <em class="plmn"></em> plmn line 
<br/> next <em class="hn"></em> hn line 

* Работа с графом потока вычислений нужна  для того, чтобы решить __задачу обучения многослойной ИНС__. А эта задача требует после получения резуьтатов и оценки ошибки __выполнения обратного прохода__ дающего градиент ошибки для весов (параметров) модели и последующей процедуры оптимизации весов. 

<center> 
<img src="./img/ker_7.png" alt="" style="width: 500px;"/>
<img src="./img/ker_8.png" alt="" style="width: 500px;"/>    
<img src="./img/ker_9.png" alt="" style="width: 500px;"/>        
<img src="./img/ker_10.png" alt="" style="width: 500px;"/>        
<img src="./img/ker_11.png" alt="" style="width: 500px;"/>            
<img src="./img/ker_12.png" alt="" style="width: 500px;"/>                
</center>

In [None]:
|