# Тензори.
torch.Tensor це багатовимірні матриці, які містять у собі елементи одного типу даних. Обрахунки між тензорами можуть відбуватись тільки у випадку, якщо тензори містять елементи одного типу.

Для перевірки того, чи встановлений PyTorch імпортується бібліотека та перевіряється версія: 

In [3]:
import torch
import numpy as np
torch.__version__

'2.0.0'

## Створення тензорів.
Тензори можна створювати з NumPy масивів:

In [11]:
arr = np.array([1, 2, 3, 4, 5])
arr.dtype

dtype('int32')

In [12]:
x = torch.from_numpy(arr)
print(x)
print(x.type())

tensor([1, 2, 3, 4, 5], dtype=torch.int32)
torch.IntTensor


In [13]:
arr = np.arange(0., 12.).reshape(3, 4)
arr.dtype

dtype('float64')

In [14]:
x = torch.from_numpy(arr)
print(x)
print(x.type())

tensor([[ 0.,  1.,  2.,  3.],
        [ 4.,  5.,  6.,  7.],
        [ 8.,  9., 10., 11.]], dtype=torch.float64)
torch.DoubleTensor


<h2><a href='https://pytorch.org/docs/stable/tensors.html'>Типи тензорів</a></h2>
<table style="display: inline-block">
<tr><th>Тип</th><th>Ім'я</th><th>Еквівалент</th><th>Тип тензора</th></tr>
<tr><td>32-bit integer (signed)</td><td>torch.int32</td><td>torch.int</td><td>IntTensor</td></tr>
<tr><td>64-bit integer (signed)</td><td>torch.int64</td><td>torch.long</td><td>LongTensor</td></tr>
<tr><td>16-bit integer (signed)</td><td>torch.int16</td><td>torch.short</td><td>ShortTensor</td></tr>
<tr><td>32-bit floating point</td><td>torch.float32</td><td>torch.float</td><td>FloatTensor</td></tr>
<tr><td>64-bit floating point</td><td>torch.float64</td><td>torch.double</td><td>DoubleTensor</td></tr>
<tr><td>16-bit floating point</td><td>torch.float16</td><td>torch.half</td><td>HalfTensor</td></tr>
<tr><td>8-bit integer (signed)</td><td>torch.int8</td><td></td><td>CharTensor</td></tr>
<tr><td>8-bit integer (unsigned)</td><td>torch.uint8</td><td></td><td>ByteTensor</td></tr></table>

Створюючи тензори з масивів NumPy варто пам'ятати, що <a href='https://pytorch.org/docs/stable/torch.html#torch.from_numpy'>torch.from_numpy()</a> та <a href='https://pytorch.org/docs/stable/torch.html#torch.as_tensor'>torch.as_tensor()</a> методи використовують для тензора одну й ту саму пам'ять, що у свою чергу призводить до того, що зміни в масиві змінюють і тензор та навпаки. Метод <a href='https://pytorch.org/docs/stable/torch.html#torch.tensor'>torch.tensor()</a> завжди створює копію масиву, щоб уникнути такої поведінки. 

In [16]:
arr = np.arange(0, 5)
t = torch.from_numpy(arr)
print(t)
arr[2] = 77
print(t)

tensor([0, 1, 2, 3, 4], dtype=torch.int32)
tensor([ 0,  1, 77,  3,  4], dtype=torch.int32)


In [17]:
arr = np.arange(0, 5)
t = torch.tensor(arr)
print(t)
arr[2] = 77
print(t)

tensor([0, 1, 2, 3, 4], dtype=torch.int32)
tensor([0, 1, 2, 3, 4], dtype=torch.int32)


Також тензори можна створювати використовуючи конструктори <a href='https://pytorch.org/docs/stable/tensors.html'>torch.Tensor()</a>, <a href='https://pytorch.org/docs/stable/tensors.html'>torch.FloatTensor()</a>, тощо. Різниця між фабричним методом `torch.tensor(data)` та конструктором класу є у тому, що фабричний метод визначає тип даних з даних, які подані на вхід, або з переданого параметру `dtype`.
Конструктор `torch.Tensor()` є синонімом для `troch.FloatTensor(data)`.

In [38]:
data = np.array([1, 2, 3])
a = torch.Tensor(data)  # Еквівалент до cc = torch.FloatTensor(data)
print(a, a.type())

tensor([1., 2., 3.]) torch.FloatTensor


In [39]:
b = torch.tensor(data)
print(b, b.type())

tensor([1, 2, 3], dtype=torch.int32) torch.IntTensor


In [41]:
c = torch.tensor(data, dtype = torch.long)
print(c, c.type())

tensor([1, 2, 3]) torch.LongTensor


Тензори можна створювати з нуля.
### Неініціалізований тензор використовуючи метод .empty().
Метод <a href='https://pytorch.org/docs/stable/torch.html#torch.empty'>torch.empty()</a> повертає неінціалізований тензор. Це означає, що була виділена відповідна пам'ять і будь які значення, які були в цій пам'яті були повернуті. 

In [20]:
x = torch.empty(3, 4)
x

tensor([[0., 0., 0., 0.],
        [0., 0., 0., 0.],
        [0., 0., 0., 0.]])

### Тензор, ініціалізований нулями та одиницями.
Використовуються методи, аналогічні методам з NumPy <a href='https://pytorch.org/docs/stable/torch.html#torch.zeros'>torch.zeros()</a> та <a href='https://pytorch.org/docs/stable/torch.html#torch.zeros'>torch.ones()</a>. Для того, щоб вказати бажаний тип даних можна передати параметр `dtype`.

In [21]:
x = torch.zeros(4, 3, dtype = torch.int64)
x

tensor([[0, 0, 0],
        [0, 0, 0],
        [0, 0, 0],
        [0, 0, 0]])


In [37]:
x = torch.ones(4, 3, dtype = torch.float64)
x

tensor([[1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.]], dtype=torch.float64)


### Тензори з перечислень.
Методи <a href='https://pytorch.org/docs/stable/torch.html#torch.arange'>torch.arange(start, end, step)</a> та <a href='https://pytorch.org/docs/stable/torch.html#torch.linspace'>torch.linspace(start, end, steps)</a> працюють аналогічно до методів NumPy. Важливим є те, що `.arrange()` не включає параметр `end`, а `linspace` включає.

In [34]:
x = torch.arange(0, 18, 2).reshape(3, 3)
x

tensor([[ 0,  2,  4],
        [ 6,  8, 10],
        [12, 14, 16]])


In [35]:
x = torch.linspace(0, 18, 12).reshape(3, 4)
x

tensor([[ 0.0000,  1.6364,  3.2727,  4.9091],
        [ 6.5455,  8.1818,  9.8182, 11.4545],
        [13.0909, 14.7273, 16.3636, 18.0000]])


### Тензори з даних.
Тензори можна створювати напряму з даних. Тип тензора буде визначений з даних, які передаються в метод.

In [31]:
x = torch.tensor([1, 2, 3, 4])
print(x)
print(x.dtype)
print(x.type())

tensor([1, 2, 3, 4])
torch.int64
torch.LongTensor


In [32]:
x = torch.FloatTensor([5, 6, 7])
print(x)
print(x.dtype)
print(x.type())

tensor([5., 6., 7.])
torch.float32
torch.FloatTensor


In [33]:
x = torch.tensor([8, 9, -3], dtype = torch.int)
print(x)
print(x.dtype)
print(x.type())

tensor([ 8,  9, -3], dtype=torch.int32)
torch.int32
torch.IntTensor


### Зміна типу тензору.

In [25]:
print(x.type())

x = x.type(torch.float64)

print(x.type())

torch.IntTensor
torch.DoubleTensor


### Тензори з випадковими числами.
<a href='https://pytorch.org/docs/stable/torch.html#torch.rand'>torch.rand(size)</a> повертає випадкові числа з рівномірним розподілом в межах у [0, 1)<br>
<a href='https://pytorch.org/docs/stable/torch.html#torch.randn'>torch.randn(size)</a> повертає значення з стандартним нормальним розподілом [σ = 1]<br>
<a href='https://pytorch.org/docs/stable/torch.html#torch.randint'>torch.randint(low, high, size)</a> повертає випадкові значення у межах від low (включно) до high (невключно).

In [28]:
x = torch.rand(4, 3)
print(x)

tensor([[0.2337, 0.9980, 0.2331],
        [0.8824, 0.8877, 0.7146],
        [0.4948, 0.6464, 0.9081],
        [0.5721, 0.9201, 0.7462]])


In [29]:
x = torch.randn(4, 3)
print(x)

tensor([[ 0.4676, -0.0862,  1.0362],
        [ 0.1018,  1.0535,  0.1426],
        [-0.9884, -1.0833, -0.9470],
        [ 0.2671, -1.3191, -0.9588]])


In [30]:
x = torch.randint(0, 5, (4, 3))
print(x)

tensor([[4, 0, 0],
        [4, 3, 3],
        [2, 1, 1],
        [0, 4, 2]])


Також є методи, які заповнюють тензор випадковими значеннями відповідно до розміру тензора, який подається на вхід методу.<br>
<a href='https://pytorch.org/docs/stable/torch.html#torch.rand_like'>torch.rand_like(input)</a><br>
<a href='https://pytorch.org/docs/stable/torch.html#torch.randn_like'>torch.randn_like(input)</a><br>
<a href='https://pytorch.org/docs/stable/torch.html#torch.randint_like'>torch.randint_like(input, low, high)</a>

In [42]:
x = torch.zeros(2, 5)
x

tensor([[0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0.]])


In [43]:
x2 = torch.randn_like(x)
x2

tensor([[ 1.8475, -0.3971,  0.9809,  1.3076, -0.8601],
        [-0.5531, -0.7485, -0.3886,  0.9682,  1.0534]])


Такий самий синтаксис може бути використаний і для методів: <br> <a href='https://pytorch.org/docs/stable/torch.html#torch.zeros_like'>torch.zeros_like(input)</a><br>
<a href='https://pytorch.org/docs/stable/torch.html#torch.ones_like'>torch.ones_like(input)</a>

In [44]:
x3 = torch.ones_like(x2)
x3

tensor([[1., 1., 1., 1., 1.],
        [1., 1., 1., 1., 1.]])


### Встановлюючи випадкове зерно (seed). 
<a href='https://pytorch.org/docs/stable/torch.html#torch.manual_seed'>torch.manual_seed(int)</a> використовується для того, щоб отримати результати, які можна повторити. 

In [45]:
torch.manual_seed(42)
x = torch.rand(2, 3)
x

tensor([[0.8823, 0.9150, 0.3829],
        [0.9593, 0.3904, 0.6009]])


In [46]:
torch.manual_seed(42)
x = torch.rand(2, 3)
x

tensor([[0.8823, 0.9150, 0.3829],
        [0.9593, 0.3904, 0.6009]])


### Властивості тензорів.
Є багато різних <a href='https://pytorch.org/docs/stable/tensor_attributes.html'>властивостей тензора</a> які є корисними. Наприклад:

In [47]:
x.shape

torch.Size([2, 3])

In [48]:
x.size()  # еквівалентне x.shape

torch.Size([2, 3])

In [49]:
x.device

device(type='cpu')

PyTorch може працювати використовуючи різні пристрою, додаючи потужність одного або більше GPU до CPU.

## Операції над тензорами.

### Індексування та відтинання.

Ці операції працюють аналогічно до операцій над NumPy масивами.

In [50]:
x = torch.arange(6).reshape(3, 2)
x

tensor([[0, 1],
        [2, 3],
        [4, 5]])


In [51]:
x[:, 1]

tensor([1, 3, 5])

### Зміна форми тензорів.
<a href='https://pytorch.org/docs/master/tensors.html#torch.Tensor.view'>view()</a> та <a href='https://pytorch.org/docs/master/torch.html#torch.reshape'>reshape()</a> методи повертають тензор зі зміненою формою без зміни оригінального тензору.

In [53]:
x = torch.arange(10)
x

tensor([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])


In [54]:
x.view(2, 5)

tensor([[0, 1, 2, 3, 4],
        [5, 6, 7, 8, 9]])

In [55]:
x

tensor([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

`view` показує найновіші дані:

In [57]:
z = x.view(2, 5)
x[0] = 32
z

tensor([[32,  1,  2,  3,  4],
        [ 5,  6,  7,  8,  9]])


`view` може бути приведений до правильних розмірів. Якщо передати -1 заміть одного з параметрів, PyTorch вирахує правильне значення;

In [58]:
x.view(2, -1)

tensor([[32,  1,  2,  3,  4],
        [ 5,  6,  7,  8,  9]])

In [59]:
x.view(-1, 5)

tensor([[32,  1,  2,  3,  4],
        [ 5,  6,  7,  8,  9]])

<a href='https://pytorch.org/docs/master/tensors.html#torch.Tensor.view_as'>view_as(input)</a> дозволяє скопіювати розміри з іншого тензора:

In [61]:
x.view_as(z)

tensor([[32,  1,  2,  3,  4],
        [ 5,  6,  7,  8,  9]])

## Арифметика тензорів.
Додавання тензорів може виконуватись різними способами в залежності від бажаного результату.
### Просте додавання.

In [63]:
a = torch.tensor([1, 2, 3], dtype = torch.float)
b = torch.tensor([4, 5, 6], dtype = torch.float)
a + b

tensor([5., 7., 9.])


### Як аргумент операції від `torch`.

In [64]:
print(torch.add(a, b))

tensor([5., 7., 9.])


### З вихідним тензором переданим як аргумент.

In [65]:
result = torch.empty(3)
torch.add(a, b, out = result)
result

tensor([5., 7., 9.])


### Змінюючи тензор, який викликає метод.

In [66]:
a.add_(b)
a

tensor([5., 7., 9.])


### Базові операції з тензорами.
<table style="display: inline-block">
<caption style="text-align: center"><strong>Арифметичні</strong></caption>
<tr><th>Операція</th><th>Функція</th><th>Опис</th></tr>
<tr><td>a + b</td><td>a.add(b)</td><td>поелементне додавання</td></tr>
<tr><td>a - b</td><td>a.sub(b)</td><td>віднімання</td></tr>
<tr><td>a * b</td><td>a.mul(b)</td><td>множення</td></tr>
<tr><td>a / b</td><td>a.div(b)</td><td>ділення</td></tr>
<tr><td>a % b</td><td>a.fmod(b)</td><td>залишок після ділення</td></tr>
<tr><td>a<sup>b</sup></td><td>a.pow(b)</td><td>піднесення до степеню</td></tr>
</table>

<table style="display: inline-block">
<caption style="text-align: center"><strong>Операції з одночленами</strong></caption>
<tr><th>Операція</th><th>Функція</th><th>Опис</th></tr>
<tr><td>|a|</td><td>torch.abs(a)</td><td>модуль числа</td></tr>
<tr><td>1/a</td><td>torch.reciprocal(a)</td><td>протилежність</td></tr>
<tr><td>$\sqrt{a}$</td><td>torch.sqrt(a)</td><td>корінь квадратний</td></tr>
<tr><td>log(a)</td><td>torch.log(a)</td><td>натуральний логарифм</td></tr>
<tr><td>e<sup>a</sup></td><td>torch.exp(a)</td><td>експонента</td></tr>
<tr><td>12.34  ==>  12.</td><td>torch.trunc(a)</td><td>взяття цілих чисел</td></tr>
<tr><td>12.34  ==>  0.34</td><td>torch.frac(a)</td><td>взяття чисел після коми</td></tr>
</table>

<table style="display: inline-block">
<caption style="text-align: center"><strong>Тригонометрія</strong></caption>
<tr><th>Операція</th><th>Функція</th><th>Опис</th></tr>
<tr><td>sin(a)</td><td>torch.sin(a)</td><td>синус</td></tr>
<tr><td>cos(a)</td><td>torch.sin(a)</td><td>косинус</td></tr>
<tr><td>tan(a)</td><td>torch.sin(a)</td><td>тангенс</td></tr>
<tr><td>arcsin(a)</td><td>torch.asin(a)</td><td>Арксинус</td></tr>
<tr><td>arccos(a)</td><td>torch.acos(a)</td><td>Арккосинус</td></tr>
<tr><td>arctan(a)</td><td>torch.atan(a)</td><td>Арктангенс</td></tr>
<tr><td>sinh(a)</td><td>torch.sinh(a)</td><td>Гіперболічний синус</td></tr>
<tr><td>cosh(a)</td><td>torch.cosh(a)</td><td>Гіперболічний косинус</td></tr>
<tr><td>tanh(a)</td><td>torch.tanh(a)</td><td>Гіперболічний тангенс</td></tr>
</table>

<table style="display: inline-block">
<caption style="text-align: center"><strong>Статистика</strong></caption>
<tr><th>Операція</th><th>Функція</th><th>Опис</th></tr>
<tr><td>$\sum a$</td><td>torch.sum(a)</td><td>сума</td></tr>
<tr><td>$\bar a$</td><td>torch.mean(a)</td><td>середнє</td></tr>
<tr><td>a<sub>max</sub></td><td>torch.max(a)</td><td>максимум</td></tr>
<tr><td>a<sub>min</sub></td><td>torch.min(a)</td><td>мінімум</td></tr>
<tr><td colspan="3">torch.max(a, b) повертає тензор розміру а<br>який містить поелементний максимум між значеннями a та b</td></tr>
</table>

 ## Скалярний добуток.
 Скалярний добуток це сума добутків відповідних елементів у одновимірному тензорі. У тензорах, які є векторами, скалярний добуток - це:

$\begin{bmatrix} a & b & c \end{bmatrix} \;\cdot\; \begin{bmatrix} d & e & f \end{bmatrix} = ad + be + cf$

Скалярний добуток може бути обрахований з допомогою методу <a href='https://pytorch.org/docs/stable/torch.html#torch.dot'><strong><tt>torch.dot(a,b)</tt></strong></a> або `a.dot(b)` або `b.dot(a)`

In [71]:
a = torch.tensor([1, 2, 3], dtype = torch.float)
b = torch.tensor([4, 5, 6], dtype = torch.float)
print(a.mul(b))
print()
print(a.dot(b))

tensor([ 4., 10., 18.])

tensor(32.)


### Множення матриць.
Множення матриць є можливим тоді, коли кількість стовпців у тензорі А дорівнює кількістю рядків у матриці B. Тоді матриця рахується так:

$\begin{bmatrix} a & b & c \\
d & e & f \end{bmatrix} \;\times\; \begin{bmatrix} m & n \\ p & q \\ r & s \end{bmatrix} = \begin{bmatrix} (am+bp+cr) & (an+bq+cs) \\
(dm+ep+fr) & (dn+eq+fs) \end{bmatrix}$</div></div>

 Множення матриць відбувається з використанням методу <a href='https://pytorch.org/docs/stable/torch.html#torch.mm'><strong><tt>torch.mm(a,b)</tt></strong></a> або `a.mm(b)` або `a @ b`:

In [72]:
a = torch.tensor([[0, 2, 4],[1, 3, 5]], dtype = torch.float)
b = torch.tensor([[6, 7],[8, 9],[10, 11]], dtype = torch.float)

print('a: ', a.size())
print('b: ', b.size())
print('a x b: ', torch.mm(a, b).size())

a:  torch.Size([2, 3])
b:  torch.Size([3, 2])
a x b:  torch.Size([2, 2])


In [73]:
print(torch.mm(a, b))

tensor([[56., 62.],
        [80., 89.]])


In [74]:
print(a.mm(b))

tensor([[56., 62.],
        [80., 89.]])


In [75]:
print(a @ b)

tensor([[56., 62.],
        [80., 89.]])


### L2 або Евклідова норма.
Обраховується методом <a href='https://pytorch.org/docs/stable/torch.html#torch.norm'>torch.norm()</a>.

Евклідова норма повертає вектор $x$ де $x=(x_1, x_2,..., x_n)$.<br>
Обраховується<br>

${\displaystyle \left\|{\boldsymbol {x}}\right\|_{2}:={\sqrt {x_{1}^{2}+\cdots +x_{n}^{2}}}}$


У випадку матриці, <tt>torch.norm()</tt> повертає <a href='https://en.wikipedia.org/wiki/Matrix_norm#Frobenius_norm'>норму фробеніуса</a> по замовчуванню.

In [78]:
x = torch.tensor([2.,5.,8.,14.])
x.norm()

tensor(17.)

### Кількість елементів.
<a href='https://pytorch.org/docs/stable/torch.html#torch.numel'>torch.numel()</a> повертає кількість елементів у тензорі.

In [79]:
x = torch.ones(3, 7)
x.numel()

21

## PyTorch градієнти.

Використовуються такі інструменти як<br>
* <a href='https://pytorch.org/docs/stable/autograd.html#torch.autograd.backward'>torch.autograd.backward()</a>
* <a href='https://pytorch.org/docs/stable/autograd.html#torch.autograd.grad'>torch.autograd.grad()</a>

### Autograd - автоматична диференціація.

Пакет <a href='https://pytorch.org/docs/stable/autograd.html'>autograd</a> з PyTorch забезпечує автоматичне розрізення операцій на тенсорах. Це тому, що операції стають атрибутами самих тензорів. Коли атрибут тензора <tt>.requires_grad</tt> встановлений у  True, він починає слідкувати за всіма операціями над ним.Коли операція завершується можна викликати метод <tt>.backward()</tt> де всі градієнти обраховуються автоматично. Градієнти будуть зібрані у атрибут тензора <tt>.grad</tt>.

### Однокрокове back-propagation.

$\begin{split}Функція:\quad y &= 2x^4 + x^3 + 3x^2 + 5x + 1 \\
Похідна:\quad y' &= 8x^3 + 3x^2 + 6x + 5\end{split}$

Створюємо тензор та ставимо атрибут `requires_grad` у True.

In [85]:
x = torch.tensor(2.0, requires_grad = True)

Визначаєм функцію:

In [86]:
y = 2*x**4 + x**3 + 3*x**2 + 5*x + 1
y

tensor(63., grad_fn=<AddBackward0>)


Оскільки $y$ був створений як результат операції, він має асоційований градієнт функції, до якого можна доступитись через <tt>y.grad_fn</tt><br>
Обрахунки $y$:<br>

$\quad y=2(2)^4+(2)^3+3(2)^2+5(2)+1 = 32+8+12+10+1 = 63$

Це значення $y$ коли $x=2$. <br>
Виконання backprop та виведення значення градієнту:

In [87]:
y.backward()
x.grad

tensor(93.)


Якщо провести обрахунки вручну: <br>

$\quad y'=8(2)^3+3(2)^2+6(2)+5 = 64+12+12+5 = 93$

Це схил поліному у точці $(2, 63)$.

### Багатокрокове back-propagation.
Нехай тепер буде складніша система, яка буде мати різні шари $y$ та $z$ між $x$ та вихідним шаром $out$. <br> Створення тензора:

In [89]:
x = torch.tensor([[1., 2, 3],[3 , 2, 1]], requires_grad = True)
x

tensor([[1., 2., 3.],
        [3., 2., 1.]], requires_grad=True)


Створення першого шару $y = 3x+2$:

In [90]:
y = 3*x + 2
y

tensor([[ 5.,  8., 11.],
        [11.,  8.,  5.]], grad_fn=<AddBackward0>)


Створення другого шару $z = 2y^2$:

In [91]:
z = 2 * y**2
z

tensor([[ 50., 128., 242.],
        [242., 128.,  50.]], grad_fn=<MulBackward0>)


Створення останнього шару як середнього значення тензора:

In [93]:
out = z.mean()
out

tensor(140., grad_fn=<MeanBackward0>)


Тепер відбувається алгоритм back-propagation щоб знайти градієнт:

In [94]:
out.backward()
x.grad

tensor([[10., 16., 22.],
        [22., 16., 10.]])


Розглядаємо тензор 2x3. У випадку виклику фінального тензора <tt>out</tt> tensor "$o$", можна обрахувати значення похідної $o$  щодо $x_i$:<br>

$o = \frac {1} {6}\sum_{i=1}^{6} z_i$<br>

$z_i = 2(y_i)^2 = 2(3x_i+2)^2$<br>

Щоб знайти похідну $z_i$ використовується правило послідовності, де $f(g(x)) = f'(g(x))g'(x)$<br>

Тоді:<br>

$$\begin{split} f(g(x)) = 2(g(x))^2, \quad &f'(g(x)) = 4g(x) \\
g(x) &= 3x+2, g'(x) = 3 \\
\frac {dz} {dx} = 4g(x)\times 3 &= 12(3x+2) \end{split}$$

Отже,<br>

$\frac{\partial o}{\partial x_i} = \frac{1}{6}\times 12(3x+2)$<br>

$\frac{\partial o}{\partial x_i}\bigr\rvert_{x_i=1} = 2(3(1)+2) = 10$

$\frac{\partial o}{\partial x_i}\bigr\rvert_{x_i=2} = 2(3(2)+2) = 16$

$\frac{\partial o}{\partial x_i}\bigr\rvert_{x_i=3} = 2(3(3)+2) = 22$

### Відключення слідкування.
Бувають випадки, коли нема необхідності слідкувати за історією розрахунків. Тоді можна відключити слідкування через властивість `.requires_grad_(True)` (або False) як потрібно. Без обрахунків, часто зручно обгорнути набір операцій у `with torch.no_grad():`. Менш використовуваний спосіб - це виклик методу `.detach()` на тензорі щоб уникнути враховування майбутніх обрахунків. Може бути корисно при клонуванні тензора.

Розглядаємо тензор 2x3. У випадку виклику фінального тензора <tt>out</tt> tensor "$o$", часткові похідні $o$ відносно $x_i$ можна обрахувати:<br>

$o = \frac {1} {6}\sum_{i=1}^{6} z_i$<br>

$z_i = 2(y_i)^2 = 2(3x_i+2)^2$<br>

Щоб знайти похідну $z_i$ використовується <a href='https://en.wikipedia.org/wiki/Chain_rule'>chain rule</a>, де похідна $f(g(x)) = f'(g(x))g'(x)$<br>

Тоді:<br>

$$\begin{split} f(g(x)) = 2(g(x))^2, \quad &f'(g(x)) = 4g(x) \\
g(x) &= 3x+2, g'(x) = 3 \\
\frac {dz} {dx} = 4g(x)\times 3 &= 12(3x+2) \end{split}$$

Отже,<br>

$\frac{\partial o}{\partial x_i} = \frac{1}{6}\times 12(3x+2)$<br>

$\frac{\partial o}{\partial x_i}\bigr\rvert_{x_i=1} = 2(3(1)+2) = 10$

$\frac{\partial o}{\partial x_i}\bigr\rvert_{x_i=2} = 2(3(2)+2) = 16$

$\frac{\partial o}{\partial x_i}\bigr\rvert_{x_i=3} = 2(3(3)+2) = 22$

## Набори даних для PyTorch.

In [96]:
import pandas as pd

In [98]:
df = pd.read_csv('iris.csv')
df.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),target
0,5.1,3.5,1.4,0.2,0.0
1,4.9,3.0,1.4,0.2,0.0
2,4.7,3.2,1.3,0.2,0.0
3,4.6,3.1,1.5,0.2,0.0
4,5.0,3.6,1.4,0.2,0.0


In [99]:
df.shape

(150, 5)

### Класичний спосіб розбиття даних на тестовий та тренувальний набір.

In [100]:
from sklearn.model_selection import train_test_split

train_X, test_X, train_y, test_y = train_test_split(df.drop('target',axis = 1).values,
                                                    df['target'].values, test_size = 0.2,
                                                    random_state = 33)

X_train = torch.FloatTensor(train_X)
X_test = torch.FloatTensor(test_X)
y_train = torch.LongTensor(train_y).reshape(-1, 1)
y_test = torch.LongTensor(test_y).reshape(-1, 1)

In [101]:
print(f'Training size: {len(y_train)}')
labels, counts = y_train.unique(return_counts=True)
print(f'Labels: {labels}\nCounts: {counts}')

Training size: 120
Labels: tensor([0, 1, 2])
Counts: tensor([42, 42, 36])


In [102]:
X_train.size()

torch.Size([120, 4])

In [103]:
y_train.size()

torch.Size([120, 1])

У такому випадку на розробника полягає обов'язок запам'ятати які колонки відповідають яким властивостям.

### Розбиття даних на тестовий та тренувальний набір використовуючи класи Dataset та DataLoader з пакету PyTorch.

Кращою альтернативою є використання класів <a href='https://pytorch.org/docs/stable/data.html'><strong><tt>Dataset</tt></strong></a> та <a href='https://pytorch.org/docs/stable/data.html#torch.utils.data.DataLoader'><strong><tt>DataLoader</strong></tt></a>.

Зазвичай, щоб створити набір даних, специфічний до завдання створюється власний класс, який успадкований від <tt>torch.utils.data.Dataset</tt> Але для простих завдань можна використати вбудовний <a href='https://pytorch.org/docs/stable/data.html#torch.utils.data.TensorDataset'><strong><tt>TensorDataset</tt></strong></a> клас.

In [104]:
from torch.utils.data import TensorDataset, DataLoader

data = df.drop('target',axis = 1).values
labels = df['target'].values

iris = TensorDataset(torch.FloatTensor(data), torch.LongTensor(labels))

In [105]:
len(iris)

150

In [106]:
type(iris)

torch.utils.data.dataset.TensorDataset

In [107]:
for i in iris:
    print(i)

(tensor([5.1000, 3.5000, 1.4000, 0.2000]), tensor(0))
(tensor([4.9000, 3.0000, 1.4000, 0.2000]), tensor(0))
(tensor([4.7000, 3.2000, 1.3000, 0.2000]), tensor(0))
(tensor([4.6000, 3.1000, 1.5000, 0.2000]), tensor(0))
(tensor([5.0000, 3.6000, 1.4000, 0.2000]), tensor(0))
(tensor([5.4000, 3.9000, 1.7000, 0.4000]), tensor(0))
(tensor([4.6000, 3.4000, 1.4000, 0.3000]), tensor(0))
(tensor([5.0000, 3.4000, 1.5000, 0.2000]), tensor(0))
(tensor([4.4000, 2.9000, 1.4000, 0.2000]), tensor(0))
(tensor([4.9000, 3.1000, 1.5000, 0.1000]), tensor(0))
(tensor([5.4000, 3.7000, 1.5000, 0.2000]), tensor(0))
(tensor([4.8000, 3.4000, 1.6000, 0.2000]), tensor(0))
(tensor([4.8000, 3.0000, 1.4000, 0.1000]), tensor(0))
(tensor([4.3000, 3.0000, 1.1000, 0.1000]), tensor(0))
(tensor([5.8000, 4.0000, 1.2000, 0.2000]), tensor(0))
(tensor([5.7000, 4.4000, 1.5000, 0.4000]), tensor(0))
(tensor([5.4000, 3.9000, 1.3000, 0.4000]), tensor(0))
(tensor([5.1000, 3.5000, 1.4000, 0.3000]), tensor(0))
(tensor([5.7000, 3.8000, 1.7

Коли набір даних вже сформовано, його оможна обгорнути у DataLoader клас. Це дає потужний самплер, який надає можливість одно- або багатопроцесорної ітерації через набір даних.

In [108]:
iris_loader = DataLoader(iris, batch_size = 105, shuffle = True)

In [109]:
for i_batch, sample_batched in enumerate(iris_loader):
    print(i_batch, sample_batched)

0 [tensor([[5.1000, 3.8000, 1.6000, 0.2000],
        [4.9000, 2.5000, 4.5000, 1.7000],
        [4.8000, 3.4000, 1.6000, 0.2000],
        [7.7000, 3.0000, 6.1000, 2.3000],
        [6.5000, 3.0000, 5.5000, 1.8000],
        [6.9000, 3.1000, 4.9000, 1.5000],
        [7.2000, 3.0000, 5.8000, 1.6000],
        [5.2000, 3.5000, 1.5000, 0.2000],
        [6.3000, 2.5000, 5.0000, 1.9000],
        [4.5000, 2.3000, 1.3000, 0.3000],
        [6.0000, 2.2000, 4.0000, 1.0000],
        [6.3000, 2.7000, 4.9000, 1.8000],
        [5.7000, 4.4000, 1.5000, 0.4000],
        [6.4000, 3.2000, 5.3000, 2.3000],
        [6.7000, 2.5000, 5.8000, 1.8000],
        [6.4000, 2.9000, 4.3000, 1.3000],
        [6.0000, 2.2000, 5.0000, 1.5000],
        [6.7000, 3.3000, 5.7000, 2.1000],
        [6.7000, 3.0000, 5.0000, 1.7000],
        [6.3000, 3.3000, 6.0000, 2.5000],
        [6.5000, 3.0000, 5.8000, 2.2000],
        [6.0000, 2.9000, 4.5000, 1.5000],
        [6.3000, 2.9000, 5.6000, 1.8000],
        [5.4000, 3.9000, 1.3000

In [110]:
list(iris_loader)[0][1].bincount()

tensor([35, 34, 36])

In [111]:
next(iter(iris_loader))

[tensor([[5.2000, 4.1000, 1.5000, 0.1000],
         [4.9000, 2.4000, 3.3000, 1.0000],
         [5.5000, 2.3000, 4.0000, 1.3000],
         [5.7000, 3.0000, 4.2000, 1.2000],
         [6.2000, 2.8000, 4.8000, 1.8000],
         [6.6000, 2.9000, 4.6000, 1.3000],
         [6.5000, 3.0000, 5.2000, 2.0000],
         [6.9000, 3.1000, 5.1000, 2.3000],
         [7.7000, 2.8000, 6.7000, 2.0000],
         [4.4000, 3.2000, 1.3000, 0.2000],
         [6.2000, 2.9000, 4.3000, 1.3000],
         [7.1000, 3.0000, 5.9000, 2.1000],
         [6.3000, 2.7000, 4.9000, 1.8000],
         [7.2000, 3.6000, 6.1000, 2.5000],
         [6.9000, 3.1000, 5.4000, 2.1000],
         [5.6000, 3.0000, 4.5000, 1.5000],
         [5.5000, 2.5000, 4.0000, 1.3000],
         [6.7000, 3.0000, 5.0000, 1.7000],
         [6.4000, 2.7000, 5.3000, 1.9000],
         [6.7000, 3.1000, 4.4000, 1.4000],
         [6.6000, 3.0000, 4.4000, 1.4000],
         [6.5000, 3.2000, 5.1000, 2.0000],
         [6.1000, 3.0000, 4.6000, 1.4000],
         [5