# Automatick√© derivov√°n√≠ (autograd)

- √ökolem cviƒçen√≠ je naprogramovat algoritmus zpƒõtn√© propagace pro obecn√Ω p≈ô√≠pad obdobn√Ωm zp≈Øsobem, jako je navr≈æen v knihovnƒõ PyTorch.
- Implementujeme t≈ô√≠du `ans.autograd.Variable`, kter√° bude imitovat n√°vrh PyTorche a≈æ do verze [0.4.0](https://pytorch.org/blog/pytorch-0_4_0-migration-guide/), kdy do≈°lo ke slouƒçen√≠ t≈ô√≠d `torch.autograd.Variable` a `torch.Tensor`.

**Pozn√°mka**
- Tento notebook nezap√≠n√° [autoreload extension](https://ipython.org/ipython-doc/3/config/extensions/autoreload.html), proto≈æe testov√°n√≠ vyu≈æ√≠v√° type checking pomoc√≠ `isinstance` a [to p≈ôi reloadu modulu selh√°v√°](https://github.com/ipython/ipython/issues/12399).
- P≈ôi ka≈æd√© modifikaci modulu `ans.autograd` je proto bohu≈æel nutn√© notebook restartovat üòü

In [1]:
import sys
sys.path.append('..')  # import tests

import torch

import ans
from tests import test_autograd

# T≈ô√≠da `Variable`

- T≈ô√≠da `Variable` se bude chovat podobnƒõ jako `torch.Tensor` ƒçi `numpy.ndarray`, bude ov≈°em nav√≠c obalen√° informacemi o v√Ωpoƒçetn√≠m grafu.
- T≈ô√≠da `Variable` obsahuje atributy
  
  | atribut   | typ                                                  | role                                                            |
  |-----------|------------------------------------------------------|-----------------------------------------------------------------|
  | `data`    | `torch.Tensor`                                       | dr≈æ√≠ hodnotu promƒõnn√©                                           |
  | `grad`    | `torch.Tensor`                                       | obsahuje gradient na promƒõnnou                                  |
  | `parents` | `tuple[Variable, ...]`                               | odkazuje na p≈ô√≠m√© p≈ôedky promƒõnn√©                               |
  | `grad_fn` | `Callable[[torch.Tensor], tuple[torch.Tensor, ...]]` | odkazuje na zpƒõtn√Ω pr≈Øchod operace, jej√≠≈æ v√Ωsledkem promƒõnn√° je |

- Kostra t≈ô√≠dy `Variable` je ji≈æ p≈ôipraven√° a lze vytvo≈ôit jej√≠ instance.
- Vytvo≈ôme dvƒõ promƒõnn√© `f` a `g`.

In [None]:
f = ans.autograd.Variable(torch.tensor(2.))
f

In [None]:
g = ans.autograd.Variable(torch.tensor(3.))
g

# Operace sƒç√≠t√°n√≠ nad objekty typu `Variable`

- Nyn√≠ bychom chtƒõli, abychom mohli promƒõnn√© `f` a `g` nap≈ô. sƒç√≠tat jako
  ``` python
  h = f + g
  ```
- V√Ωsledn√° promƒõnn√° `h` by mƒõla b√Ωt tak√© typu `Variable` a jej√≠ atributy by mƒõly b√Ωt
  
  | atribut   | hodnota                       | koment√°≈ô                                                                                   |
  |-----------|-------------------------------|--------------------------------------------------------------------------------------------|
  | `data`    | `torch.tensor(5.)`            | 2 + 3 = 5                                                                                  |
  | `grad`    | `None`                        | je≈°tƒõ neprobƒõhla zpƒõtn√° propagace                                                          |
  | `parents` | `(f, g)`                      | `h` je potomkem `f` a `g`                                                                  |
  | `grad_fn` | `<function add_backward ...>` | funkce, kter√° provede zpƒõtn√Ω pr≈Øchod operace sƒç√≠t√°n√≠ v p≈ô√≠padƒõ, ≈æe zavol√°me `h.backward()` |

- V Pythonu lze n√°soben√≠ pro u≈æivatelsky definovanou t≈ô√≠du definovat pomoc√≠ magick√© metody `__add__`, nap≈ô.
  ``` python
  def __add__(self, other: Self) -> Self:
      def grad_fn(dout: torch.Tensor) -> tuple[torch.Tensor, torch.Tensor]:
          return dout.clone(), dout.clone()
      return self.__class__(
          self.data + other.data,
          parents = (self, other),
          grad_fn = grad_fn
      )
  ```

### TODO: implementujte metodu [`ans.autograd.Variable.__add__`](../ans/autograd.py) (prozat√≠m pouze skal√°ry)

(staƒç√≠ pouze zkop√≠rovat k√≥d)

In [None]:
h = f + g
h

In [None]:
print(h.data)  # tensor(5.)
print(h.parents[0] is f)  # True
print(h.parents[1] is g)  # True
print(h.grad_fn)  # <function ...> s jednim parametrem (prichozim gradientem)

- `grad_fn` je funkce zpƒõtn√©ho pr≈Øchodu sƒç√≠t√°n√≠, kterou m≈Ø≈æeme zavolat s p≈ô√≠choz√≠m gradientem.
- Mƒõli bychom dostat gradienty na vstupy (p≈ôedky `h`).

In [None]:
df, dg = h.grad_fn(torch.tensor(1.))  # prichozi gradient dh/dh = 1.0
print(df)  # tensor(1.) ... df znamena dh/df
print(dg)  # tensor(1.) ... dg znamena dh/dg

In [None]:
test_autograd.TestAddScalars.eval()

# Odeƒç√≠t√°n√≠ `Variable`

- Obdobnƒõ m≈Ø≈æeme definovat i operaci odeƒç√≠t√°n√≠.
- Rozd√≠l bude pouze ve v√Ωpoƒçtu `data` a gradient na druh√Ω operand by mƒõl b√Ωt p≈ôen√°soben minus jedniƒçkou (`-dout`).

### TODO: implementujte metodu [`ans.autograd.Variable.__sub__`](../ans/autograd.py) (prozat√≠m pouze skal√°ry)

In [None]:
test_autograd.TestSubScalars.eval()

# N√°soben√≠ `Variable`

- Je≈°te jednou pro n√°soben√≠ `h = f * g`.

### TODO: implementujte metodu [`ans.autograd.Variable.__mul__`](../ans/autograd.py) (prozat√≠m pouze skal√°ry)

In [None]:
test_autograd.TestMulScalars.eval()

# Dƒõlen√≠ `Variable`

- A tak√©  pro dƒõlen√≠ `h = f / g`.

### TODO: implementujte metodu [`ans.autograd.Variable.__truediv__`](../ans/autograd.py) (prozat√≠m pouze skal√°ry)

In [None]:
test_autograd.TestDivScalars.eval()

# Operace nad tensory a built-in typy a podpora broadcastingu

Takto navr≈æen bude k√≥d fungovat jen v ide√°ln√≠ch p≈ô√≠padech. Existuj√≠ n√°sleduj√≠c√≠ p≈ô√≠pady, kdy pravdƒõpodobnƒõ sel≈æe.

1. **`Variable` * `float`**
- Prvn√≠ p≈ô√≠pad, kdy se k√≥d rozbije, je pokud argument `other` nen√≠ `Variable`.
- Jedn√° se p≈ôitom o zcela oƒçek√°vateln√Ω use case.
- P≈ô√≠klad:
  ``` python
  v = ans.autograd.Variable(torch.tensor(2.))
  v * 3  # `AttributeError: 'int' object has no attribute 'data'`
  ```

2. **`float` * `Variable`**
- N√°soben√≠, kde prvn√≠ z operand≈Ø nen√≠ `Variable`, pokr√Ωv√° oper√°tor `__rmul__`, nikoliv `__mul__`.
- Je proto nutn√© doplnit implementaci oper√°tor≈Ø s `Variable` *na prav√© stranƒõ*, tj. u `__rmul__`, `__radd__`, `__rsub__` a `__rtruediv__`.
- P≈ô√≠klad:
  ``` python
  v = ans.autograd.Variable(torch.tensor(2.))
  3 * v  #  NotImplementedError / TypeError: unsupported operand type(s) for *: 'float' and 'Variable'
  ```

3. **Broadcasting**
- Druh√Ω p≈ô√≠pad m≈Ø≈æe b√Ωt, ≈æe `self.data` a `other.data` nebudou m√≠t stejn√Ω rozmƒõr, p≈ôitom ale budou ["broadcastable"](https://pytorch.org/docs/stable/notes/broadcasting.html).
- Jde tedy nap≈ô. o vektor + skal√°r, matice + skal√°r, matice + vektor apod.
- Pokud dop≈ôedn√Ω pr≈Øchod prov√°d√≠ broadcasting, je nutn√© ve zpƒõtn√©m pr≈Øchodu gradient p≈ôes nadbyteƒçn√© dimenze *seƒç√≠st*, aby v√Ωsledn√Ω gradient mƒõl rozmƒõr shodn√Ω s odpov√≠daj√≠c√≠ promƒõnnou.
- P≈ô√≠klad:
  ``` python
  u = ans.autograd.Variable(torch.tensor([2., 3.]))  # (1, 2)
  v = ans.autograd.Variable(torch.tensor(3.))  # ()
  w = u * v  # (1, 2)
  du, dv = w.grad_fn()  # pokud dv = tensor([2., 3.]), neni to spravny vysledek, spravne je dv = tensor(5.0)
  ```

4. **`dtype` a `device`**
- Sp√≠≈°e okrajov√Ω p≈ô√≠pad je pou≈æit√≠ `dtype` jin√©ho ne≈æ `float32` a `device` jin√© ne≈æ `'cpu'`.
- Implementace by mƒõla tyto parametry respektovat a nemƒõla by p≈ôetypov√°vat ani p≈ôesouvat tensory na jin√° `device`.
- Gradient by mƒõl b√Ωt rovnƒõ≈æ v≈ædy stejn√©ho typu a tvaru jako odpov√≠daj√≠c√≠ `Variable`.

**√ökolem je nyn√≠ upravit a doplnit implementaci `Variable` tak, aby podporovala v≈°echny popsan√© p≈ô√≠pady**.

*Pozn√°mky:*
- Je mo≈æn√© (a doporuƒçen√©) libovolnƒõ p≈ôid√°vat metody a funkce do t≈ô√≠dy `Variable` ƒçi do souboru `autograd`, nap≈ô. pro ƒçasto opakuj√≠c√≠ se kusy k√≥du.
- Takov√© metody pova≈æujte za priv√°tn√≠ a jejich n√°zev zaƒç√≠nejte jedn√≠m podtr≈æ√≠tkem (nap≈ô. `_my_aux_func`), abychom zamezili p≈ô√≠p. koliz√≠m jmen pro dal≈°√≠ cviƒçen√≠.

### TODO: implementujte metody [`ans.autograd.Variable.__add__`](../ans/autograd.py) a [`ans.autograd.Variable.__radd__`](../ans/autograd.py)

In [None]:
test_autograd.TestAddTensors.eval()

### TODO: implementujte metody [`ans.autograd.Variable.__sub__`](../ans/autograd.py) a [`ans.autograd.Variable.__rsub__`](../ans/autograd.py)

In [None]:
test_autograd.TestSubTensors.eval()

### TODO: implementujte metody [`ans.autograd.Variable.__mul__`](../ans/autograd.py) a [`ans.autograd.Variable.__rmul__`](../ans/autograd.py)

In [None]:
test_autograd.TestMulTensors.eval()

### TODO: implementujte metody [`ans.autograd.Variable.__truediv__`](../ans/autograd.py) a [`ans.autograd.Variable.__rtruediv__`](../ans/autograd.py)

In [None]:
test_autograd.TestDivTensors.eval()

# Zpƒõtn√° propagace

- Zpƒõtnou propagaci, tj. v√Ωpoƒçet gradient≈Ø na v≈°echny vstupy libovolnƒõ slo≈æit√© funkce sest√°vaj√≠c√≠ z operac√≠ v√Ω≈°e, bude implementovat metoda `Variable.backprop`.
- Bude m√≠t tedy obdobnou funkci jako metoda `torch.Tensor.backward` v PyTorchi, tzn. vypln√≠ atribut `grad` spr√°vnƒõ vypoƒçten√Ωm gradientem pro v≈°echny promƒõnn√© p≈ôedch√°zej√≠c√≠ v grafu promƒõnnou, ze kter√© jsme `backprop` zavolali.
- Princip je vysvƒõtlen v notebooku [pytorch_autograd](../notebooks/pytorch_autograd.ipynb).
- Jeden z mo≈æn√Ωch postup≈Ø implementace je v sekci *"Reverzn√≠ automatick√© derivov√°n√≠"* v p≈ôedn√°≈°ce [ans-03-backprop](../slides/ans-03-backprop.pdf) (slide 57).
- Pro splnƒõn√≠ test≈Ø je d≈Øle≈æit√©, aby
  - sedƒõly vypoƒçten√© gradienty a to *pro v≈°echny promƒõnn√© v grafu*, nejen ty na zaƒç√°tku;
  - p≈ôi zpƒõtn√©m pr≈Øchodu grafem byla funkce pro v√Ωpoƒçet lok√°ln√≠ho ≈ôet√≠zkov√©ho pravidla `grad_fn` pro ka≈æd√Ω uzel zavol√°na max. jednou. Nestaƒç√≠ tedy depth-first proch√°zen√≠ grafu.

### TODO: implementujte metodu [`ans.autograd.Variable.backprop`](../ans/autograd.py)

In [None]:
test_autograd.TestBackprop.eval()