<img src="https://s8.hostingkartinok.com/uploads/images/2018/08/308b49fcfbc619d629fe4604bceb67ac.jpg" width=500,>
<h3 style="text-align: center;"><b>Физтех-Школа Прикладной математики и информатики (ФПМИ) МФТИ</b></h3>

---

<h2 style="text-align: center;"><b>PyTorch. Основы: синтаксис, torch.cuda и torch.autograd</b></h2>

<p style="align: center;"><img src="https://raw.githubusercontent.com/pytorch/pytorch/master/docs/source/_static/img/pytorch-logo-dark.png", width=400, height=300></p>

На этом занятии мы рассмотрим основы фреймворка глубокого обучения PyTorch.  

Когда хочется написать какую-нибудь нейросеть, решающую определённую задачу, будь то какая-нибудь простая классификация чего-либо или обнаружение лиц людей на видео. Всё, конечно, всегда начинается со **сбора данных**, а уже потом реализуются модели и проводятся эксперименты.  

Однако люди быстро поняли, что писать свои нейронные сети каждый раз с нуля ну очень уж долго и неразумно, поэтому придумали так называемые **фреймворки** - модули, в которых есть функционал, с помощью которого можно быстро и просто решать типовые задачи, и уже с помощью этих средств писать решения к более сложным задачам.

Есть много различных фремворков глубокого обучения. Разница между ними прежде всего в том, каков общий принцип вычислений. 
Например, в **Caffe и Caffe2** вы пишете код, по сути, составляя его из готовых "кусочков", как в Lego, в **TensorFlow и Theano** вы сначала объявляете вычислительный граф, потом компилируете его и запускаете (sees.run()), в то время как в **Torch и PyTorch** вы пишете почти точно так же, как на NumPy, а граф вычислений создаётся только при запуске (то есть существует только во время выполнения, потом он "разрушается"). **Keras** позволяет как строить блоки, так и компилировать свой граф:

<p style="align: center;"><img src="https://habrastorage.org/web/e3e/c3e/b78/e3ec3eb78d714a7993a6b922911c0866.png", width=500, height=500></p>  
<p style="text-align: center;"><i>Картинка взята из отличной [статьи на Хабре](https://habr.com/post/334380/)</i><p>

<h3 style="text-align: center;"><b>Установка</b></h3>

Инструкция по установке PyTorch есть на официальном [Github'e Deep Learning School](https://github.com/deepmipt/dlschl/wiki/%D0%98%D0%BD%D1%81%D1%82%D1%80%D1%83%D0%BA%D1%86%D0%B8%D1%8F-%D0%BF%D0%BE-%D1%83%D1%81%D1%82%D0%B0%D0%BD%D0%BE%D0%B2%D0%BA%D0%B5-PyTorch).

<h3 style="text-align: center;">Синтаксис<b></b></h3>

In [1]:
import torch

Сначала немного фактов про PyTorch:  
- динамический граф вычислений
- удобные модули `torch.nn` и `torchvision для` написания нейросеток с минимальными усилиями
- в некоторых задачах даже быстрее TensorFlow (но не во всех)  
- легко проводить вычисления на GPU

Если PyTorch представить формулой, то она будет такой:  

$$PyTorch = NumPy + CUDA + Autograd$$

(CUDA - [wiki](https://ru.wikipedia.org/wiki/CUDA))

Посмотрим, как в PyTorch выполняются операции с векторами.  

Напоминание: **тензором** называется многомерный вектор, то есть есть:  

x = np.array([1,2,3]) - вектор = тензор размерности 1 (то есть (1,))  
y = np.array([[1, 2, 3], [4, 5, 6]]) - матрица = тензор размерности 2 (в данном случае тензор (2, 3))  
z = np.array([[[1, 2, 3], [4, 5, 6], [7, 8, 9]],  
    [[1, 2, 3], [4, 5, 6], [7, 8, 9]],  
              [[1, 2, 3], [4, 5, 6], [7, 8, 9]]]) - "кубик" (3, 3, 3) = тензор размерности 3 (в данном случае (3, 3, 3))

Простейшим примером 3-мерного тензора является **картинка** - это "параллелепипед" из чисел, у коготорого три размерности - высота, ширина и количество каналов, значит это тензор размерности 3.

Понятие тензора нужно знать потому, что в PyTorch мы оперируем переменными типа `torch.Tensor` (`FloatTensor`, `IntTensor`, `ByteTensor`), и пугаться их названий совершенно не нужно - это просто векторы, у которых несколько размерностей.

Все типы тензоров:

In [2]:
torch.HalfTensor      # 16 бит, с плавающей точкой
torch.FloatTensor     # 32 бита,  с плавающей точкой
torch.DoubleTensor    # 64 бита, с плавающей точкой

torch.ShortTensor     # 16 бит, целочисленный, знаковый
torch.IntTensor       # 32 бита, целочисленный, знаковый
torch.LongTensor      # 64 бита, целочисленный, знаковый

torch.CharTensor      # 8 бит, целочисленный, знаковый
torch.ByteTensor      # 8 бит, целочисленный, беззнаковый

torch.ByteTensor

Мы будем использовать только `torch.FloatTensor()` и `torch.IntTensor()`. 

Перейдём к делу:

* Создание тензоров:

In [3]:
a = torch.FloatTensor([1, 2])
a

tensor([1., 2.])

In [4]:
a.shape

torch.Size([2])

In [5]:
b = torch.FloatTensor([[1,2,3], [4,5,6]])
b

tensor([[1., 2., 3.],
        [4., 5., 6.]])

In [6]:
b.shape

torch.Size([2, 3])

In [7]:
x = torch.FloatTensor(2,3,4)

In [8]:
x

tensor([[[-1.1562e-13,  4.5611e-41, -1.1562e-13,  4.5611e-41],
         [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  0.0000e+00],
         [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  0.0000e+00]],

        [[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  0.0000e+00],
         [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  0.0000e+00],
         [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  0.0000e+00]]])

In [9]:
x = torch.FloatTensor(100)
x

tensor([-1.1562e-13,  4.5611e-41, -1.1562e-13,  4.5611e-41,  0.0000e+00,
         0.0000e+00,  0.0000e+00,  0.0000e+00,  0.0000e+00,  3.0716e-41,
         1.8788e+31,  1.7220e+22,  3.8678e-05,  3.3499e-09,  1.0358e-11,
         1.0682e-05,  2.1955e-04,  6.7950e+22,  6.6716e-10,  5.4930e-05,
         1.6521e-07,  3.1369e+27,  7.0800e+31,  3.1095e-18,  1.8590e+34,
         7.7767e+31,  7.1536e+22,  3.3803e-18,  1.9421e+31,  2.7491e+20,
         6.1949e-04,  2.6223e+20,  7.2707e+31,  1.2849e+31,  1.8395e+25,
         6.1963e-04,  2.7150e-06,  1.3353e-08,  3.4150e-06,  2.1142e+20,
         5.4693e-05,  6.6756e-07,  4.1915e+21,  1.3166e-08,  2.3077e-12,
         7.1429e+31,  2.5226e-18,  1.6898e-04,  1.0243e-11,  3.0880e-09,
         6.4111e-10,  4.1884e-11,  1.0605e-08,  2.9570e-18,  7.2646e+22,
         7.2250e+28,  2.5226e-18,  2.4283e-18,  1.7516e-43,  0.0000e+00,
         3.5873e-43,  0.0000e+00,  2.6905e-43,  0.0000e+00, -8.4934e-38,
         3.0716e-41,  1.7796e-43,  0.0000e+00,  0.0

In [10]:
x = torch.IntTensor(45, 57, 14, 2)
x.shape

torch.Size([45, 57, 14, 2])

**Обратите внимание** - если вы создаёте тензор через задание размерностей (как в примере выше), то он изначально заполняюстя случайным "мусором". Что инициализировать нулями, нужно написать .zero_() в конце:

In [11]:
x = torch.IntTensor(3, 2, 4)
x

tensor([[[-1442698264,       32549, -1442698264,       32549],
         [          0,           0,           0,           0]],

        [[          0,           0,           0,           0],
         [          0,           0,           0,           0]],

        [[          0,           0,           0,           0],
         [          0,           0,           0,           0]]],
       dtype=torch.int32)

In [12]:
x = torch.IntTensor(3, 2, 4).zero_()
x

tensor([[[0, 0, 0, 0],
         [0, 0, 0, 0]],

        [[0, 0, 0, 0],
         [0, 0, 0, 0]],

        [[0, 0, 0, 0],
         [0, 0, 0, 0]]], dtype=torch.int32)

Аналог функции `np.reshape()` == `torch.view()`:

In [13]:
b.view(3, 2)

tensor([[1., 2.],
        [3., 4.],
        [5., 6.]])

In [14]:
b

tensor([[1., 2., 3.],
        [4., 5., 6.]])

**Обратите внимание** - torch.view() создаёт новый тензор, а не изменяет старый!

In [15]:
b.view(-1)

tensor([1., 2., 3., 4., 5., 6.])

In [16]:
b

tensor([[1., 2., 3.],
        [4., 5., 6.]])

* Изменение типа тензора:

In [17]:
a = torch.FloatTensor([1.5, 3.2, -7])

In [18]:
a.type_as(torch.IntTensor())

tensor([ 1,  3, -7], dtype=torch.int32)

In [19]:
a.type_as(torch.ByteTensor())

tensor([  1,   3, 249], dtype=torch.uint8)

Обратите внимание, что при `.type_as()` создаётся новый тензор (старый не меняется), то есть это не in-place операция:

In [20]:
a

tensor([ 1.5000,  3.2000, -7.0000])

* Индексация точная такая же, как и в NumPy:

In [21]:
a = torch.FloatTensor([[100, 20, 35], [15, 163, 534], [52, 90, 66]])
a

tensor([[100.,  20.,  35.],
        [ 15., 163., 534.],
        [ 52.,  90.,  66.]])

In [22]:
a[0, 0]

tensor(100.)

In [23]:
a[0][0]

tensor(100.)

In [24]:
a[0:2, 0:2]

tensor([[100.,  20.],
        [ 15., 163.]])

### Задача 1

1). Создайте два вещественных тензора: `a` размером (3, 4) и `b` размером (12,)   
2). Создайте тензор `c`, являющийся тензором `b`, но размера (2, 2, 3)  
3). Выведите первый столбец матрицы `a` с помощью индексации

In [36]:
a = torch.FloatTensor(3,4)
b = torch.FloatTensor(12,)
c = b.view(2,2,3)

a[:,0]

tensor([-1.1561e-13,  0.0000e+00,  0.0000e+00])

**Арифметика и булевы операции** работаю также, как и в NumPy, **НО** лучше использовать не опреаторы `+`, `-`, `*`, `/`, а их аналоги:  

| Оператор | Аналог |
|:-:|:-:|
|`+`| `torch.add()` |
|`-`| `torch.sub()` |
|`*`| `torch.mul()` |
|`/`| `torch.div()` |

* Сложение:

In [37]:
a = torch.FloatTensor([[1, 2, 3], [10, 20, 30], [100, 200, 300]])
b = torch.FloatTensor([[-1, -2, -3], [-10, -20, -30], [100, 200, 300]])

In [38]:
a + b

tensor([[  0.,   0.,   0.],
        [  0.,   0.,   0.],
        [200., 400., 600.]])

Лучше:

In [39]:
a.add(b)

tensor([[  0.,   0.,   0.],
        [  0.,   0.,   0.],
        [200., 400., 600.]])

In [40]:
b = -a
b

tensor([[  -1.,   -2.,   -3.],
        [ -10.,  -20.,  -30.],
        [-100., -200., -300.]])

In [41]:
a + b

tensor([[0., 0., 0.],
        [0., 0., 0.],
        [0., 0., 0.]])

* Вычитание:

In [42]:
a - b

tensor([[  2.,   4.,   6.],
        [ 20.,  40.,  60.],
        [200., 400., 600.]])

Лучше:

In [43]:
a.sub(b)

tensor([[  2.,   4.,   6.],
        [ 20.,  40.,  60.],
        [200., 400., 600.]])

* Умножение (поэлементное):

In [44]:
a * b

tensor([[-1.0000e+00, -4.0000e+00, -9.0000e+00],
        [-1.0000e+02, -4.0000e+02, -9.0000e+02],
        [-1.0000e+04, -4.0000e+04, -9.0000e+04]])

Лучше:

In [45]:
a.mul(b)

tensor([[-1.0000e+00, -4.0000e+00, -9.0000e+00],
        [-1.0000e+02, -4.0000e+02, -9.0000e+02],
        [-1.0000e+04, -4.0000e+04, -9.0000e+04]])

* Деление (поэлементное):

In [46]:
a = torch.FloatTensor([[1, 2, 3], [10, 20, 30], [100, 200, 300]])
b = torch.FloatTensor([[-1, -2, -3], [-10, -20, -30], [100, 200, 300]])

In [47]:
a / b

tensor([[-1., -1., -1.],
        [-1., -1., -1.],
        [ 1.,  1.,  1.]])

Лучше:

In [48]:
a.div(b)

tensor([[-1., -1., -1.],
        [-1., -1., -1.],
        [ 1.,  1.,  1.]])

Заметьте, все эти операции **не меняют исходные тензоры**, а **создают новые**:

In [49]:
a

tensor([[  1.,   2.,   3.],
        [ 10.,  20.,  30.],
        [100., 200., 300.]])

In [50]:
b

tensor([[ -1.,  -2.,  -3.],
        [-10., -20., -30.],
        [100., 200., 300.]])

### Задача 2

1). Создайте два вещественных тензора: `a` размером (5, 2) и `b` размером (1,10)   
2). Создайте тензор `c`, являющийся тензором `b`, но размера (5, 2)  
3). Произведите все арифметические операции с тензорами `a` и `c`

In [51]:
a = torch.FloatTensor(5,2)
b = torch.FloatTensor(1,10)
c = b.view(5,2)


In [None]:
a = torch.FloatTensor(3,4)
b = torch.FloatTensor(12,)
c = b.view(2,2,3)


In [53]:
a.add(c)

tensor([[-2.3123e-13,  9.1222e-41],
        [-1.1561e-13,  7.6327e-41],
        [ 0.0000e+00,  0.0000e+00],
        [ 0.0000e+00,  0.0000e+00],
        [ 0.0000e+00,  0.0000e+00]])

In [54]:
a.sub(c)

tensor([[ 0.0000e+00,  0.0000e+00],
        [ 1.1561e-13, -1.4894e-41],
        [ 0.0000e+00,  0.0000e+00],
        [ 0.0000e+00,  0.0000e+00],
        [ 0.0000e+00,  0.0000e+00]])

In [55]:
a.mul(c)

tensor([[1.3367e-26, 0.0000e+00],
        [0.0000e+00, 0.0000e+00],
        [0.0000e+00, 0.0000e+00],
        [0.0000e+00, 0.0000e+00],
        [0.0000e+00, 0.0000e+00]])

In [56]:
a.div(c)

tensor([[1.0000e+00, 1.0000e+00],
        [7.3857e-25, 6.7345e-01],
        [       nan,        nan],
        [       nan,        nan],
        [       nan,        nan]])

* **Операторы сравнения**:

In [57]:
a = torch.FloatTensor([[1, 2, 3], [10, 20, 30], [100, 200, 300]])
b = torch.FloatTensor([[-1, -2, -3], [-10, -20, -30], [100, 200, 300]])

In [58]:
a == b

tensor([[0, 0, 0],
        [0, 0, 0],
        [1, 1, 1]], dtype=torch.uint8)

In [59]:
a != b

tensor([[1, 1, 1],
        [1, 1, 1],
        [0, 0, 0]], dtype=torch.uint8)

In [60]:
a < b

tensor([[0, 0, 0],
        [0, 0, 0],
        [0, 0, 0]], dtype=torch.uint8)

In [61]:
a > b

tensor([[1, 1, 1],
        [1, 1, 1],
        [0, 0, 0]], dtype=torch.uint8)

* **Булевы маски**:

In [62]:
a[a > b]

tensor([ 1.,  2.,  3., 10., 20., 30.])

In [63]:
b[a == b]

tensor([100., 200., 300.])

Опять же, тензоры не меняются:

In [64]:
a

tensor([[  1.,   2.,   3.],
        [ 10.,  20.,  30.],
        [100., 200., 300.]])

In [65]:
b

tensor([[ -1.,  -2.,  -3.],
        [-10., -20., -30.],
        [100., 200., 300.]])

Применение **стандартных функций** такое же, как и в numpy - поэлементное:

In [66]:
a = torch.FloatTensor([[1, 2, 3], [10, 20, 30], [100, 200, 300]])

In [67]:
a.sin()

tensor([[ 0.8415,  0.9093,  0.1411],
        [-0.5440,  0.9129, -0.9880],
        [-0.5064, -0.8733, -0.9998]])

In [68]:
torch.sin(a)

tensor([[ 0.8415,  0.9093,  0.1411],
        [-0.5440,  0.9129, -0.9880],
        [-0.5064, -0.8733, -0.9998]])

In [69]:
a.cos()

tensor([[ 0.5403, -0.4161, -0.9900],
        [-0.8391,  0.4081,  0.1543],
        [ 0.8623,  0.4872, -0.0221]])

In [70]:
a.exp()

tensor([[2.7183e+00, 7.3891e+00, 2.0086e+01],
        [2.2026e+04, 4.8517e+08, 1.0686e+13],
        [       inf,        inf,        inf]])

In [71]:
a.log()

tensor([[0.0000, 0.6931, 1.0986],
        [2.3026, 2.9957, 3.4012],
        [4.6052, 5.2983, 5.7038]])

In [72]:
b = -a
b

tensor([[  -1.,   -2.,   -3.],
        [ -10.,  -20.,  -30.],
        [-100., -200., -300.]])

In [73]:
b.abs()

tensor([[  1.,   2.,   3.],
        [ 10.,  20.,  30.],
        [100., 200., 300.]])

**Сумма, среднее, максимум, минимум**:

In [74]:
a.sum()

tensor(666.)

In [75]:
a.mean()

tensor(74.)

По осям:

In [76]:
a.sum(0)

tensor([111., 222., 333.])

In [77]:
a.sum(1)

tensor([  6.,  60., 600.])

In [78]:
a.max()

tensor(300.)

In [79]:
a.max(0)

(tensor([100., 200., 300.]), tensor([2, 2, 2]))

In [80]:
a.min()

tensor(1.)

In [81]:
a.min(0)

(tensor([1., 2., 3.]), tensor([0, 0, 0]))

Обратите внимание - второй тензор при вызове функций .max() и .min() - это индексы этих максимальных/минимальных элементов по указанной размерности (то есть в данном случае a.min() вернул (1, 2, 3) - минимумы по 0 оси (по столбцам), и их индексы по 0-ой оси (0,0,0) (номер каждого элемента в своём столбце)).

### Задача 3

Создайте тензор `a` размерности (100, 780, 780, 3) (можно интерпретировать это как 100 картинок размера 780х780 с тремя цветовыми каналами) и выведите первый элемент этого тензора как картинку (с помощью matplotlib.pyplot).

Выведите среднее элементов по 1-ой оси (по сути - средняя картинка по всем картинкам) и по 4-ой оси (по сути - усреднение каналов для каждой картинки).

In [91]:
a = torch.FloatTensor(100, 780, 780, 3)


In [92]:
a.mean(0).shape

torch.Size([780, 780, 3])

In [93]:
a.mean()

tensor(0.)

**Матричные операции:**

In [95]:
z = x.mm(y)
z = torch.mm(x, y)
# Матричное умножение.
z = x.mv(v)
z = torch.mv(x, v)
# Умножение матрицы на вектор.
z = x.dot(y)
z = torch.dot(x, y)
# Скалярное умножение тензоров.
bz = bx.bmm(by)
bz = torch.bmm(bx, by)
# Перемножает матрицы целыми батчами.

NameError: name 'y' is not defined

* Транспонирование матрицы (тензора):

In [96]:
a = torch.FloatTensor([[1, 2, 3], [10, 20, 30], [100, 200, 300]])
a

tensor([[  1.,   2.,   3.],
        [ 10.,  20.,  30.],
        [100., 200., 300.]])

In [97]:
a.t()

tensor([[  1.,  10., 100.],
        [  2.,  20., 200.],
        [  3.,  30., 300.]])

И снова - сам тензор не меняется (то есть при вызове создаётся новый):

In [98]:
a

tensor([[  1.,   2.,   3.],
        [ 10.,  20.,  30.],
        [100., 200., 300.]])

* Скалярное произведение векторов (1-мерных тензоров):

In [99]:
a = torch.FloatTensor([1, 2, 3, 4, 5, 6])
b = torch.FloatTensor([-1, -2, -4, -6, -8, -10])

In [100]:
a.dot(b)

tensor(-141.)

In [101]:
a @ b

tensor(-141.)

In [102]:
type(a)

torch.Tensor

In [103]:
type(b)

torch.Tensor

In [104]:
type(a @ b)

torch.Tensor

* Матричное умножение:

In [105]:
a = torch.FloatTensor([[1, 2, 3], [10, 20, 30], [100, 200, 300]])
b = torch.FloatTensor([[-1, -2, -3], [-10, -20, -30], [100, 200, 300]])

In [106]:
a.mm(b)

tensor([[  279.,   558.,   837.],
        [ 2790.,  5580.,  8370.],
        [27900., 55800., 83700.]])

In [107]:
a @ b

tensor([[  279.,   558.,   837.],
        [ 2790.,  5580.,  8370.],
        [27900., 55800., 83700.]])

Тензоры неизменны:

In [108]:
a

tensor([[  1.,   2.,   3.],
        [ 10.,  20.,  30.],
        [100., 200., 300.]])

In [109]:
b

tensor([[ -1.,  -2.,  -3.],
        [-10., -20., -30.],
        [100., 200., 300.]])

In [110]:
a = torch.FloatTensor([[1, 2, 3], [10, 20, 30], [100, 200, 300]])
b = torch.FloatTensor([[-1], [-10], [100]])

In [111]:
print(a.shape, b.shape)

torch.Size([3, 3]) torch.Size([3, 1])


In [112]:
a @ b

tensor([[  279.],
        [ 2790.],
        [27900.]])

Если "развернуть" тензор b просто в массив элементов (`torch.view(-1)`), умножение будет как на столбец:

In [113]:
b

tensor([[ -1.],
        [-10.],
        [100.]])

In [114]:
b.view(-1)

tensor([ -1., -10., 100.])

In [115]:
a @ b.view(-1)

tensor([  279.,  2790., 27900.])

In [116]:
a.mv(b.view(-1))

tensor([  279.,  2790., 27900.])

**Перевод из NumPy в PyTorch**:

In [117]:
import numpy as np

a = np.random.rand(3, 3)
a

array([[0.42249447, 0.93833984, 0.42595928],
       [0.57985271, 0.1400191 , 0.86466138],
       [0.34300863, 0.79993301, 0.73867901]])

In [118]:
b = torch.from_numpy(a)
b

tensor([[0.4225, 0.9383, 0.4260],
        [0.5799, 0.1400, 0.8647],
        [0.3430, 0.7999, 0.7387]], dtype=torch.float64)

**НО!** Обратите внимание - a и b в этом случае будут использовать одно и то же хранилище данных, то есть измение одного тензора будет менять и другой:

In [119]:
b -= b
b

tensor([[0., 0., 0.],
        [0., 0., 0.],
        [0., 0., 0.]], dtype=torch.float64)

In [120]:
a

array([[0., 0., 0.],
       [0., 0., 0.],
       [0., 0., 0.]])

**Перевод из PyTorch в NumPy:**

In [121]:
a = torch.FloatTensor(2, 3, 4)
a

tensor([[[-1.1561e-13,  4.5611e-41, -1.1561e-13,  4.5611e-41],
         [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  0.0000e+00],
         [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  0.0000e+00]],

        [[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  0.0000e+00],
         [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  0.0000e+00],
         [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  0.0000e+00]]])

In [122]:
type(a)

torch.Tensor

In [123]:
x = a.numpy()
x

array([[[-1.1561487e-13,  4.5610864e-41, -1.1561487e-13,  4.5610864e-41],
        [ 0.0000000e+00,  0.0000000e+00,  0.0000000e+00,  0.0000000e+00],
        [ 0.0000000e+00,  0.0000000e+00,  0.0000000e+00,  0.0000000e+00]],

       [[ 0.0000000e+00,  0.0000000e+00,  0.0000000e+00,  0.0000000e+00],
        [ 0.0000000e+00,  0.0000000e+00,  0.0000000e+00,  0.0000000e+00],
        [ 0.0000000e+00,  0.0000000e+00,  0.0000000e+00,  0.0000000e+00]]],
      dtype=float32)

In [124]:
x.shape

(2, 3, 4)

In [125]:
type(x)

numpy.ndarray

### Задача 4

Напишите функцию `forward_pass(X, w)` ($w_0$ входит в $w$) для одного нейрона (с сигмоидой) с помощью PyTorch (у вас уже должен быть код на NumPy).

In [0]:
def forward_pass(X, w):
    # Ваш код здесь

In [126]:
X = torch.FloatTensor([[-5, 5], [2, 3], [1, -1]])
w = torch.FloatTensor([[-0.5], [2.5]])
result = forward_pass(X, w)
print('result: {}'.format(result))

NameError: name 'forward_pass' is not defined

Должно получиться: 

|variable|value|
|-|-|
|**X**|torch.FloatTensor([[-5, 5], [15, 20], [100, -700]])|
|**w**|torch.FloatTensor([[-0.5], [150]])|
|**result**|torch.FloatTensor([[1.0000], [0.9985], [0.0474]])|   

<h3 style="text-align: center;">[CUDA](https://ru.wikipedia.org/wiki/CUDA)<b></b></h3>

[Краткое видео про то, как GPU используется в обучении нейросетей](https://www.youtube.com/watch?v=EobhK0UZm80)

Все вычисления в PyTorch можно проводить как на CPU, так и на GPU (Graphical Processing Unit) (если она у вас есть). В PyTorch переключение между ними делается очень просто, что является одной из ключевых его особенностей.

In [127]:
x = torch.FloatTensor(1024, 1024).uniform_()
x

tensor([[0.8566, 0.4751, 0.2670,  ..., 0.9673, 0.1466, 0.8188],
        [0.2756, 0.5602, 0.8770,  ..., 0.7764, 0.0332, 0.2774],
        [0.3757, 0.0683, 0.6812,  ..., 0.1738, 0.2436, 0.6759],
        ...,
        [0.1882, 0.3872, 0.5803,  ..., 0.4516, 0.5943, 0.4561],
        [0.6504, 0.1561, 0.4980,  ..., 0.6556, 0.1706, 0.4848],
        [0.7913, 0.0060, 0.4232,  ..., 0.1436, 0.4807, 0.9048]])

In [128]:
x.is_cuda

False

Переместим на GPU:

In [129]:
x = x.cuda()

AssertionError: 
Found no NVIDIA driver on your system. Please check that you
have an NVIDIA GPU and installed a driver from
http://www.nvidia.com/Download/index.aspx

In [130]:
x.is_cuda

False

In [131]:
x

tensor([[0.8566, 0.4751, 0.2670,  ..., 0.9673, 0.1466, 0.8188],
        [0.2756, 0.5602, 0.8770,  ..., 0.7764, 0.0332, 0.2774],
        [0.3757, 0.0683, 0.6812,  ..., 0.1738, 0.2436, 0.6759],
        ...,
        [0.1882, 0.3872, 0.5803,  ..., 0.4516, 0.5943, 0.4561],
        [0.6504, 0.1561, 0.4980,  ..., 0.6556, 0.1706, 0.4848],
        [0.7913, 0.0060, 0.4232,  ..., 0.1436, 0.4807, 0.9048]])

Перемножим две тензора на GPu и вернём результат вычисления на CPU:

In [0]:
a = torch.FloatTensor(10000, 10000).uniform_()
b = torch.FloatTensor(10000, 10000).uniform_()
c = a.cuda().mul(b.cuda()).cpu()

In [0]:
c


 1.3276e-01  4.6640e-02  3.6811e-03  ...   2.5005e-01  2.7425e-01  2.2217e-01
 7.6941e-02  2.2012e-01  8.5448e-02  ...   4.8152e-01  8.5428e-02  1.0293e-01
 1.8373e-01  2.2956e-01  6.7784e-02  ...   5.2270e-01  8.9739e-02  1.9734e-02
                ...                   ⋱                   ...                
 4.6043e-01  7.1955e-02  4.6278e-02  ...   1.6644e-01  8.8197e-02  1.0238e-01
 6.6998e-02  1.4303e-01  8.4953e-03  ...   1.1650e-01  1.1400e-01  6.0282e-01
 6.9519e-01  1.9520e-01  2.7402e-01  ...   1.5071e-01  1.6169e-01  2.4579e-01
[torch.FloatTensor of size 10000x10000]

In [0]:
a


 3.2185e-01  1.1987e-01  5.2117e-02  ...   8.2740e-01  6.0768e-01  8.3344e-01
 7.5668e-01  3.4455e-01  2.9262e-01  ...   5.0549e-01  1.3569e-01  2.9384e-01
 3.3093e-01  7.2330e-01  1.7693e-01  ...   5.6406e-01  9.8218e-02  6.4030e-02
                ...                   ⋱                   ...                
 5.8405e-01  2.0138e-01  9.9384e-01  ...   4.8946e-01  1.3532e-01  2.1701e-01
 5.6156e-01  3.5891e-01  6.3199e-01  ...   4.5497e-01  1.3874e-01  9.1001e-01
 8.4097e-01  8.8349e-01  4.3792e-01  ...   1.9193e-01  1.8535e-01  3.3038e-01
[torch.FloatTensor of size 10000x10000]

Тензоры, лежащие на CPU, и тензоры, лежащие на GPU, недоступны друг для друга:

In [0]:
a = torch.FloatTensor(1000, 1000).uniform_().cpu()
b = torch.FloatTensor(10000, 10000).uniform_().cuda()

In [0]:
a + b

TypeError: add received an invalid combination of arguments - got (torch.cuda.FloatTensor), but expected one of:
 * (float value)
      didn't match because some of the arguments have invalid types: ([31;1mtorch.cuda.FloatTensor[0m)
 * (torch.FloatTensor other)
      didn't match because some of the arguments have invalid types: ([31;1mtorch.cuda.FloatTensor[0m)
 * (torch.SparseFloatTensor other)
      didn't match because some of the arguments have invalid types: ([31;1mtorch.cuda.FloatTensor[0m)
 * (float value, torch.FloatTensor other)
 * (float value, torch.SparseFloatTensor other)


Вот ещё немного про то, как можно работать с GPU:

In [0]:
x = torch.FloatTensor(5, 5, 5).uniform_()

# проверяем, есть ли CUDA (то есть NVidia GPU)
if torch.cuda.is_available():
    # так можно получить имя устройства, которое связано с CUDA
    # (полезно в случае с несколькими видеокартами)
    device = torch.device('cuda')          # CUDA-device объект
    y = torch.ones_like(x, device=device)  # создаём тензор на GPU
    x = x.to(device)                       # тут можно просто ``.to("cuda")``
    z = x + y
    print(z)
    # с помощью``.to`` можно и изменить тип при перемещении
    print(z.to("cpu", torch.double))

tensor([[[ 1.4435,  1.3470,  1.3062,  1.4405,  1.2337],
         [ 1.7475,  1.2037,  1.7702,  1.0894,  1.2214],
         [ 1.5788,  1.3411,  1.7662,  1.4289,  1.4192],
         [ 1.2131,  1.8919,  1.9255,  1.7404,  1.2128],
         [ 1.2344,  1.8557,  1.0431,  1.2820,  1.1393]],

        [[ 1.4193,  1.3347,  1.5175,  1.5933,  1.4449],
         [ 1.6636,  1.0913,  1.6360,  1.1679,  1.3635],
         [ 1.1754,  1.6012,  1.4388,  1.4961,  1.8299],
         [ 1.2644,  1.3119,  1.2737,  1.5933,  1.4822],
         [ 1.2119,  1.5497,  1.3665,  1.6801,  1.2678]],

        [[ 1.2456,  1.1512,  1.3754,  1.0309,  1.1592],
         [ 1.8683,  1.9625,  1.5814,  1.9701,  1.7795],
         [ 1.9937,  1.1922,  1.8598,  1.9095,  1.0288],
         [ 1.2730,  1.5456,  1.1422,  1.0011,  1.5654],
         [ 1.5377,  1.6367,  1.6430,  1.8843,  1.1299]],

        [[ 1.8965,  1.1913,  1.9592,  1.4277,  1.1259],
         [ 1.4051,  1.4896,  1.7341,  1.3553,  1.3299],
         [ 1.7331,  1.4356,  1.8285,  1.29

<h3 style="text-align: center;">Autograd<b></b></h3>

Расшифровывается как Automatic Gradients (автоматическое взятие градиентов) - собственно, из названия понятно, что это модуль PyTorch, отвечающий за взятие производных.  

Возможно, для вас это бдет шок, но PyTorch (и любой фреймворк глубокого обучения) может продифференцировать функцию практически любой сложности.

Импортируем нужный класс:

In [132]:
from torch.autograd import Variable

Идея такая: оборачиваем тензор в класс Variable(), получаем тоже тензор, но он имеет способность вычислять себе градиенты.  

Если а - тензор, обёрнутый в Variable(), то при вызове a.backward() берутся градиенты по всем переменным, от которых зависит тензор a.

**ВНИМАНИЕ!**  

Если вы используете версию `pytorch 0.4.0` или более новую, то ***`torch.Tensor` и `torch.Variable` - одно и то же!*** То есть Вам больше не нужно оборачивать в `Variable()`, чтобы брать градиенты - они берутся и по `Tensor()` (`torch.Variable()` - deprecated).

Примеры:

In [133]:
x = torch.FloatTensor(3, 1).uniform_()
w = torch.FloatTensor(3, 3).uniform_() 
b = torch.FloatTensor(3, 1).uniform_()

x = Variable(x, requires_grad=True)
w = Variable(w, requires_grad=True)
b = Variable(b, requires_grad=False)

y = (w @ x).add_(b)

loss = y.sum()

# берём градиенты по всем "листьям" - в данном случае это тензоры x, w и b
loss.backward()

In [134]:
x.grad

tensor([[0.5309],
        [1.8369],
        [1.6856]])

In [135]:
w.grad

tensor([[0.0900, 0.7508, 0.5309],
        [0.0900, 0.7508, 0.5309],
        [0.0900, 0.7508, 0.5309]])

In [136]:
b.grad

In [137]:
y.grad

**Обратите внимание** - градиенты лежат в поле `.grad` у тех тензоров (Variable'ов), по которым брали эти градиенты. Градиенты **не лежат** в той Variable, от котороый они брались!

Получить тензор из `Variable()` можно с помощью поля `.data`:

In [138]:
x

tensor([[0.0900],
        [0.7508],
        [0.5309]], requires_grad=True)

In [139]:
x.data

tensor([[0.0900],
        [0.7508],
        [0.5309]])

### Задача 5

- Объявите тензор `a` размера (2, 3, 4) и тензор `b` размера (1, 8, 3), иницилизируйте их случайно равномерно (`.uniform_()`, как в примере выше)
- Создайте их копии на GPU, выведите их сумму и разность
- Затем измените форму тензора `b`, чтобы она совпадала с формой тензора `a`, получите тензор `c`  
- Переместите `c` на CPU, переместите `a` на CPU  
- Оберните их в `Variable()`
- Объявите тензор `L = torch.mean((c - a) `**` 2)` и посчитайте градиент `L` по `c` ( то есть $\frac{\partial{L}}{\partial{c}})$
- Получите тензор из `c` (то есть сейчас `c` - объект типа `Variable()`, вам нужно получить из него `FloatTensor()`)

In [0]:
# Ваш код здесь

<h3 style="text-align: center;">Полезные ссылки:<b></b></h3>

*1). Мегаполезная статья по PyTorch (на русском), на её основе делался этот ноутбук: https://habr.com/post/334380/*

*2). Туториалы от самих разработчиков фреймворка: https://pytorch.org/tutorials/beginner/blitz/tensor_tutorial.html#sphx-glr-beginner-blitz-tensor-tutorial-py*

*3). Статья на arXiv о сравнении фреймворков глубокого обучения: https://arxiv.org/pdf/1511.06435.pdf*

4). *Ещё туториалы: https://github.com/yunjey/pytorch-tutorial*

*5). Сайт Facebook AI Research - отдела, который разрабатывает PyTorch и другие крутые вещи в AI: https://facebook.ai/developers/tools*