In [12]:
# docker file used for this notebook for pytorch 2.0
# docker pull cnstark/pytorch:2.0.1-py3.10.11-cuda11.8.0-ubuntu22.04

In [None]:
import torch
print(torch.__version__)

2.8.0+cu128



# Семинар torch.compile 

Cеминар основан на документации [1] и ноутбуке [2].<br>

[1] https://pytorch.org/tutorials/intermediate/torch_compile_tutorial.html <br>
[2] https://colab.research.google.com/github/PyTorchKorea/tutorials-kr/blob/master/docs/_downloads/96ad88eb476f41a5403dcdade086afb8/torch_compile_tutorial.ipynb <br>

``torch.compile`` компилятор для ускорения кода на PyTorch. <br>
Это JIT-компилятор с использованием оптимизированных кернелей,
который требует минимального изменения кода. <br>

В этом семинаре мы рассмотрим базовое использование ``torch.compile``, а так же сравним его с [TorchScript](https://pytorch.org/docs/stable/jit.html) и
[FX Tracing](https://pytorch.org/docs/stable/fx.html#torch.fx.symbolic_trace).

**Содержание**

- Базовый пример
- Ускорение с помощью ``torch.compile``
- Сравнение с TorchScript и FX Tracing
- Заключение

**Required pip Dependencies**

- ``torch >= 2.0``
- ``torchvision``
- ``numpy``
- ``scipy``
- ``tabulate``

docker file used for this notebook for pytorch 2.0: <br>
``docker pull cnstark/pytorch:2.0.1-py3.10.11-cuda11.8.0-ubuntu22.04``





ПРИМЕЧАНИЕ. Результаты зависят от версии GPU, что бы воспроизвести результаты команда ``torch.compile`` рекомендует использование NVIDIA (H100, A100 или V100). 

## Базовый пример

Произвольные функции Python можно оптимизировать, передав вызываемый объект в
``torch.compile``. Затем мы можем вызвать возвращенную оптимизированную
функцию вместо исходной.



In [2]:
import torch

def foo(x, y):
    a = torch.sin(x)
    b = torch.cos(y)
    return a + b

opt_foo = torch.compile(foo, mode="reduce-overhead")

print(opt_foo(torch.randn(10, 10), torch.randn(10, 10)))

tensor([[ 1.6352,  0.1857,  0.0740, -0.4863,  1.8509,  1.7964, -0.0620,  0.6544,
          0.0944,  0.9559],
        [ 0.1674, -0.0336, -0.0334,  1.2959,  0.4591, -0.2954, -0.0570, -0.1148,
          0.4841, -0.2492],
        [ 0.1447,  0.2761, -0.1473, -0.7150,  1.1797,  0.5904,  0.3331,  1.8464,
          0.6466, -0.2535],
        [ 1.7171, -0.1993,  0.0469, -0.4911,  1.7177,  1.4847, -0.0325,  0.8958,
          0.7596,  0.0168],
        [ 1.5366,  0.5491,  0.1756,  1.9479,  0.1811,  0.5740,  0.3248, -0.1600,
          1.8390, -0.3832],
        [ 0.8006,  0.2091,  0.3956,  0.2849,  1.3961, -1.0198,  0.2505,  1.2042,
          0.7112, -0.0866],
        [-0.3998,  0.6672, -0.7326, -0.3391, -1.0476,  1.9506,  1.9878,  0.0147,
          0.6609,  0.0998],
        [ 0.7453,  1.1299,  1.3311, -0.0453,  0.7384,  1.1451,  0.1119, -0.4683,
          0.8938, -0.9898],
        [-0.3994,  0.3500, -0.3668,  0.2339,  1.5797,  1.8695,  0.7725,  1.5706,
          0.3532,  0.5393],
        [ 1.1865,  

Так же можно использовать декоратор

In [3]:
@torch.compile
def opt_foo2(x, y):
    a = torch.sin(x)
    b = torch.cos(x)
    return a + b
print(opt_foo2(torch.randn(10, 10), torch.randn(10, 10)))

tensor([[ 0.0216,  0.8236, -0.0800,  1.3616,  0.3467,  0.6772,  1.1725,  0.6339,
         -0.5163, -0.4689],
        [ 0.3637,  0.1992,  0.6906,  0.5518,  0.9222,  0.2214,  0.6669,  0.1902,
          0.5889,  1.2270],
        [ 1.2645, -0.1075,  1.4089,  1.2838,  0.7862,  0.3223,  0.8583,  0.7529,
          1.3731,  0.8473],
        [-1.2567,  1.2449,  0.5708,  0.7421, -1.3997,  0.0709,  0.4909, -0.1481,
          1.2914,  1.2498],
        [-0.2320,  0.5279,  0.3847,  1.2982,  1.1093,  0.4014,  0.8330, -0.7034,
          1.2978, -0.2055],
        [ 0.8160,  1.4101,  1.2808,  0.9755,  1.3606,  1.3977, -1.0441,  1.3285,
          0.4506,  1.3495],
        [ 1.3300,  0.0136,  1.3491,  1.1906,  0.1516,  0.5141,  1.2092, -0.2840,
          0.7946,  1.3874],
        [-1.1460,  1.3090,  0.1367,  1.3307,  0.6485,  1.3776,  1.1717,  0.3967,
          1.3531,  0.5396],
        [ 1.2288,  0.6895,  0.6485, -0.0027,  1.3040,  1.1375,  1.3653, -0.2066,
          1.2562,  0.6762],
        [ 0.8897,  

Мы можем оптимизировать целый модуль ``torch.nn.Module``.



In [4]:
class MyModule(torch.nn.Module):
    def __init__(self):
        super().__init__()
        self.lin = torch.nn.Linear(100, 10)

    def forward(self, x):
        return torch.nn.functional.relu(self.lin(x))

mod = MyModule()

opt_mod = torch.compile(mod)
print(opt_mod(torch.randn(10, 100)))

tensor([[0.9214, 0.1234, 0.0000, 1.2199, 0.0483, 0.0000, 0.0000, 0.0000, 0.0000,
         0.8235],
        [0.0000, 0.0000, 0.0032, 0.1981, 0.4047, 0.3385, 0.5461, 0.0199, 0.0000,
         0.7072],
        [0.0440, 0.0000, 0.0000, 0.1268, 0.0000, 0.6880, 0.0000, 0.4817, 0.0000,
         0.2749],
        [0.7224, 0.0000, 0.0000, 0.4522, 0.0000, 0.7452, 0.4587, 0.0000, 0.0000,
         0.0000],
        [0.2188, 0.6227, 0.0000, 0.0000, 0.0000, 0.0000, 0.1338, 0.9624, 1.3247,
         0.1275],
        [0.0000, 0.0000, 0.1050, 0.0000, 0.9411, 0.3243, 0.3638, 0.0000, 0.2424,
         0.6723],
        [0.1361, 0.0000, 0.1325, 0.0108, 0.0000, 0.1441, 0.5468, 0.0756, 0.2464,
         0.4229],
        [0.0000, 0.3414, 0.7600, 0.0000, 0.0000, 0.6526, 0.0000, 0.0000, 0.0000,
         0.0000],
        [0.0428, 0.0000, 0.1614, 0.0000, 0.2998, 0.0000, 0.5597, 0.3135, 0.0000,
         0.0000],
        [0.0432, 0.0000, 1.1653, 0.3189, 0.1734, 0.6611, 0.0000, 0.5189, 0.0000,
         0.0000]], grad_fn=<


## Ускорение для инференса

Давайте теперь посмтрим, как использование ``torch.compile`` может ускорить <br>
модели. Мы сравним стандартный eager режим и ``torch.compile`` для инфиренса и для обучения ResNet-18 на случайных данных.

Но прежде чем мы начнем, нам нужно определить некоторые служебные функции.


In [5]:
# Returns the result of running `fn()` and the time it took for `fn()` to run,
# in seconds. We use CUDA events and synchronization for the most accurate
# measurements.
def timed(fn):
    start = torch.cuda.Event(enable_timing=True)
    end = torch.cuda.Event(enable_timing=True)
    start.record()
    result = fn()
    end.record()
    torch.cuda.synchronize()
    return result, start.elapsed_time(end) / 1000

# Generates random input and targets data for the model, where `b` is
# batch size.
def generate_data(b):
    return (
        torch.randn(b, 3, 128, 128).to(torch.float32).cuda(),
        torch.randint(1000, (b,)).cuda(),
    )

from torchvision.models import densenet121
def init_model():
    return densenet121().to(torch.float32).cuda()

  warn(


Первым делом мы сравним инфиренс, но прежде посмотрим сколько времени занимает компиляция.

В  ``torch.compile`` мы используем некотрые параметры для переменной ``mode``, мы обсудим их позже.


In [None]:
def evaluate(mod, inp):
    return mod(inp)

model = init_model()

# Reset since we are using a different model.
import torch._dynamo
torch._dynamo.reset()

evaluate_opt = torch.compile(evaluate, mode="reduce-overhead")

inp = generate_data(16)[0]

# One Iteration for each function 
print("eager:", timed(lambda: evaluate(model, inp))[1])
print("compile:", timed(lambda: evaluate_opt(model, inp))[1])

eager: 0.046881568908691405


Обратите внимание, что выполнение ``torch.compile`` занимает намного больше времени <br>
по сравнению с ``eager mode``. Это потому, что ``torch.compile`` занимается компиляцией и  <br>
оптимизирует ядра по мере ее выполнения.  Здесь мы запускаем нашу модель один раз. <br>

Если мы будем запускать нашу модель несколько раз, то после компиляции, которая происходит на первом этапе мы увидим ускорение. <br>

In [8]:
N_ITERS = 10

eager_times = []
compile_times = []
for i in range(N_ITERS):
    inp = generate_data(16)[0]
    _, eager_time = timed(lambda: evaluate(model, inp))
    eager_times.append(eager_time)
    print(f"eager eval time {i}: {eager_time}")

print("~" * 10)

compile_times = []
for i in range(N_ITERS):
    inp = generate_data(16)[0]
    _, compile_time = timed(lambda: evaluate_opt(model, inp))
    compile_times.append(compile_time)
    print(f"compile eval time {i}: {compile_time}")
print("~" * 10)

import numpy as np
eager_med = np.median(eager_times)
compile_med = np.median(compile_times)
speedup = eager_med / compile_med
print(f"(eval) eager median: {eager_med}, compile median: {compile_med}, speedup: {speedup}x")
print("~" * 10)

eager eval time 0: 0.054615585327148435
eager eval time 1: 0.05438348770141602
eager eval time 2: 0.036580703735351563
eager eval time 3: 0.032374176025390625
eager eval time 4: 0.029442752838134766
eager eval time 5: 0.03387801742553711
eager eval time 6: 0.032400287628173825
eager eval time 7: 0.03371033477783203
eager eval time 8: 0.030859039306640624
eager eval time 9: 0.030277631759643556
~~~~~~~~~~
compile eval time 0: 1.0211390380859375
compile eval time 1: 3.091590576171875




compile eval time 2: 4.35934619140625
compile eval time 3: 5.84192626953125
compile eval time 4: 7.35546240234375
compile eval time 5: 8.88073828125
compile eval time 6: 10.3750078125
compile eval time 7: 11.8548642578125
compile eval time 8: 13.2116494140625


Exception ignored in: <bound method IPythonKernel._clean_thread_parent_frames of <ipykernel.ipkernel.IPythonKernel object at 0x7fd2197c3700>>
Traceback (most recent call last):
  File "/root/.local/lib/python3.10/site-packages/ipykernel/ipkernel.py", line 781, in _clean_thread_parent_frames
    def _clean_thread_parent_frames(
KeyboardInterrupt: 


compile eval time 9: 14.6436181640625
~~~~~~~~~~
(eval) eager median: 0.033055311203002924, compile median: 8.118100341796875, speedup: 0.004071803723934558x
~~~~~~~~~~


In [11]:
N_ITERS = 10

model = init_model()
opt = torch.optim.Adam(model.parameters())

def train(mod, data):
    opt.zero_grad(True)
    pred = mod(data[0])
    loss = torch.nn.CrossEntropyLoss()(pred, data[1])
    loss.backward()
    opt.step()

eager_times = []
for i in range(N_ITERS):
    inp = generate_data(16)
    _, eager_time = timed(lambda: train(model, inp))
    eager_times.append(eager_time)
    print(f"eager train time {i}: {eager_time}")
print("~" * 10)

model = init_model()
opt = torch.optim.Adam(model.parameters())
train_opt = torch.compile(train, mode="reduce-overhead")

compile_times = []
for i in range(N_ITERS):
    inp = generate_data(16)
    _, compile_time = timed(lambda: train_opt(model, inp))
    compile_times.append(compile_time)
    print(f"compile train time {i}: {compile_time}")
print("~" * 10)

eager_med = np.median(eager_times)
compile_med = np.median(compile_times)
speedup = eager_med / compile_med
print(f"(train) eager median: {eager_med}, compile median: {compile_med}, speedup: {speedup}x")
print("~" * 10)

eager train time 0: 0.5008097229003906
eager train time 1: 0.10047811126708985
eager train time 2: 0.1026502685546875
eager train time 3: 0.10525702667236328
eager train time 4: 0.0994986572265625
eager train time 5: 0.09828585815429687
eager train time 6: 0.10154486083984375
eager train time 7: 0.09657961273193359
eager train time 8: 0.09731625366210937
eager train time 9: 0.09987833404541016
~~~~~~~~~~


W0317 16:35:04.733000 98012 site-packages/torch/_logging/_internal.py:1089] [3/0] Profiler function <class 'torch.autograd.profiler.record_function'> will be ignored


compile train time 0: 292.30371875
compile train time 1: 20.210583984375
compile train time 2: 0.07088556671142578
compile train time 3: 0.04021247863769531
compile train time 4: 0.034896446228027345
compile train time 5: 0.03495731353759766
compile train time 6: 0.042008224487304686
compile train time 7: 0.036060543060302735
compile train time 8: 0.03296867370605469
compile train time 9: 0.03908393478393555
~~~~~~~~~~
(train) eager median: 0.10017822265625001, compile median: 0.039648206710815426, speedup: 2.526677269086244x
~~~~~~~~~~


Опять, мы видим, что ``torch.compile`` первая итерация занимает больше времени.
итерации, так как она должна скомпилировать модель, но на последующих итерациях мы видим
значительное ускорение по сравнению с нетерпеливым.


## Cравнение с TorchScript и FX Tracing

Мы видели что ``torch.compile`` может ускорить вычисления. <br>


Прежде всего, преимущество ``torch.compile`` заключается в его способности работать
почти с произвольным кодом на Python с его минимальными изменениями. <br>

А так же ``torch.compile`` может работать с data-dependent control flow ``if x.sum() < 0:``.



In [14]:
def f1(x):
    if x < 10:
        return torch.tensor(0.)
    return x

# Test that `fn1` and `fn2` return the same result, given
# the same arguments `args`. Typically, `fn1` will be an eager function
# while `fn2` will be a compiled function (torch.compile, TorchScript, or FX graph).
def test_fns(fn1, fn2, args):
    out1 = fn1(*args)
    out2 = fn2(*args)
    return print(out1, out2)

inp1 = torch.tensor(5)
inp2 = torch.tensor(15)

TorchScript tracing ``f1`` привдет к неправильным результатам, так  ак зафиксируется детерменированный проход по данным.



In [15]:
traced_f1 = torch.jit.trace(f1, (inp1))
f1(inp1),traced_f1(inp1) 

  if x < 10:
  return torch.tensor(0.)


(tensor(0.), tensor(0.))

In [16]:
f1(inp2),traced_f1(inp2) 

(tensor(15), tensor(0.))

```
TracerWarning: Converting a tensor to a Python boolean might cause the trace to be incorrect. We can't record the data flow of Python values, so this value will be treated as a constant in the future. This means that the trace might not generalize to other inputs!
  if x.sum() < 0:
```

FX tracing ``f1`` приводит к ошибке из-за присутствия поток управления, зависящий от данных.



In [17]:
import traceback as tb
try:
    torch.fx.symbolic_trace(f1)
except:
    tb.print_exc()

Traceback (most recent call last):
  File "/tmp/ipykernel_98012/1451191637.py", line 3, in <module>
    torch.fx.symbolic_trace(f1)
  File "/usr/local/lib/python3.10/site-packages/torch/fx/_symbolic_trace.py", line 1307, in symbolic_trace
    graph = tracer.trace(root, concrete_args)
  File "/usr/local/lib/python3.10/site-packages/torch/_dynamo/eval_frame.py", line 745, in _fn
    return fn(*args, **kwargs)
  File "/usr/local/lib/python3.10/site-packages/torch/fx/_symbolic_trace.py", line 843, in trace
    (self.create_arg(fn(*args)),),
  File "/tmp/ipykernel_98012/2755518421.py", line 2, in f1
    if x < 10:
  File "/usr/local/lib/python3.10/site-packages/torch/fx/proxy.py", line 549, in __bool__
    return self.tracer.to_bool(self)
  File "/usr/local/lib/python3.10/site-packages/torch/fx/proxy.py", line 360, in to_bool
    raise TraceError(
torch.fx.proxy.TraceError: symbolically traced variables cannot be used as inputs to control flow


Если мы предоставим значение для ``x`` при попытке  FX  trace ``f1``, тогда
мы сталкиваемся с той же проблемой, что и при TorchScript, из за зависимости графа от данных.

In [18]:
fx_f1 = torch.fx.symbolic_trace(f1, concrete_args={"x": inp1})
fx_f1(inp1), fx_f1(inp2)



(tensor(0.), tensor(0.))

В это время ``torch.compile`` корректно обрабатывает динамический control-flow.



In [19]:
# Reset since we are using a different mode.
torch._dynamo.reset()

compile_f1 = torch.compile(f1)
compile_f1(inp1), compile_f1(inp2)

(tensor(0.), tensor(15))

TorchScript scripting может работать в этой ситуации, но нам нужно будет адаптировать код и убедиться что у нас используется статическое типизирование данных.



In [20]:
def f2(x, y):
    return x + y

inp1 = torch.randn(5, 5)
inp2 = 3

script_f2 = torch.jit.script(f2)
try:
    script_f2(inp1, inp2)
except:
    tb.print_exc()

Traceback (most recent call last):
  File "/tmp/ipykernel_98012/895162831.py", line 9, in <module>
    script_f2(inp1, inp2)
RuntimeError: f2() Expected a value of type 'Tensor (inferred)' for argument 'y' but instead found type 'int'.
Inferred 'y' to be of type 'Tensor' because it was not annotated with an explicit type.
Position: 1
Value: 3
Declaration: f2(Tensor x, Tensor y) -> Tensor
Cast error details: Unable to cast 3 to Tensor


In [21]:
def f2(x: torch.Tensor, y: torch.Tensor) -> torch.Tensor:
    return x + y

inp2 = torch.tensor(3.0) 


script_f2 = torch.jit.script(f2)
try:
    script_f2(inp1, inp2)
except:
    tb.print_exc()

Другое преимущество ``torch.compile``  это возможность использлвать больше функций.


In [35]:
import scipy

def f3(x):
    x = x * 2
    x = scipy.fft.dct(x.numpy())
    x = torch.from_numpy(x)
    x = x * 2
    return x

TorchScript обрабатывает результаты вызовов функций, отличных от PyTorch.
как константы, и поэтому результаты могут быть ошибочными.

In [34]:
inp1 = torch.randn(5, 5)
inp2 = torch.randn(5, 5)
traced_f3 = torch.jit.trace(f3, (inp1,))
print("traced 3:", np.allclose(f3(inp2), traced_f3(inp2)))

traced 3: False


  x = scipy.fft.dct(x.numpy())
  x = torch.from_numpy(x)


``torch.compile`` 


In [37]:
compile_f3 = torch.compile(f3)
compile_f3(inp1)

InternalTorchDynamoError: AttributeError: 'str' object has no attribute 'IF_NEEDED'

from user code:
   File "/usr/local/lib/python3.10/site-packages/scipy/fft/_realtransforms_backend.py", line 15, in torch_dynamo_resume_in__execute_at_12
    return xp.asarray(y)
  File "/usr/local/lib/python3.10/site-packages/scipy/_lib/array_api_compat/numpy/_aliases.py", line 116, in asarray
    return np.array(obj, copy=copy, dtype=dtype, **kwargs)

Set TORCH_LOGS="+dynamo" and TORCHDYNAMO_VERBOSE=1 for more information


You can suppress this exception and fall back to eager by setting:
    import torch._dynamo
    torch._dynamo.config.suppress_errors = True


## TorchDynamo и FX Graphs

Одна из важных компонент ``torch.compile`` это TorchDynamo.
TorchDynamo отвечает за JIT компиляцию кода на Python в
[FX graphs](https://pytorch.org/docs/stable/fx.html#torch.fx.Graph), который далее может быть оптимизирован. TorchDynamo выделяет FX графы анализруя Питоновский байткод во время выполнения, а так же отслеживает вызовы к функциям PyTorch.

TorchInductor, другая компонента ``torch.compile``,
конвертирует FX граф в оптимизированные кернели, а
TorchDynamo позволяет использовать различные бекнеды.  <br>


Давайте создадим свой бекенд, который выводит FX граф и не оптимизированный forward (что-то типа принта, но вызывывается он TorchDynamo). 

In [38]:
from typing import List
def custom_backend(gm: torch.fx.GraphModule, example_inputs: List[torch.Tensor]):
    print("custom backend called with FX graph:")
    gm.graph.print_tabular()
    return gm.forward

# Reset since we are using a different backend.
torch._dynamo.reset()

opt_model = torch.compile(init_model(), backend=custom_backend)
opt_model(generate_data(16)[0])

custom backend called with FX graph:
opcode         name                                                                                                         target                                                                                                       args                                                                                                                                                                                                                                                                                                                                                                                                                                                     kwargs
-------------  -----------------------------------------------------------------------------------------------------------  -----------------------------------------------------------------------------------------------------------  -------------------------------------------------

tensor([[-0.0251,  0.0084,  0.0519,  ...,  0.1633,  0.3277,  0.0878],
        [ 0.0400, -0.0222,  0.2016,  ..., -0.0506,  0.4578,  0.0986],
        [ 0.0268,  0.0764,  0.1694,  ..., -0.1103,  0.4405, -0.1039],
        ...,
        [ 0.0060,  0.0704,  0.0093,  ...,  0.1739,  0.2738,  0.0825],
        [-0.0475,  0.1589,  0.0680,  ...,  0.1442,  0.4245,  0.2973],
        [-0.0910,  0.1010,  0.1912,  ..., -0.0925,  0.3350,  0.0731]],
       device='cuda:0', grad_fn=<AddmmBackward0>)


Используя наш собственный бэкэнд, мы теперь можем увидеть, как TorchDynamo работает с ситуацией, когда есть зависимость от данных. Рассмотрим:
``if b.sum() < 0``. 



In [43]:
def bar(a, b):
    x = a / (torch.abs(a) + 1)
    if b.sum() < 0:
        b = b * -1
    return x * b

opt_bar = torch.compile(bar, backend=custom_backend)
inp1 = torch.randn(10)
inp2 = torch.randn(10)
opt_bar(inp1, inp2)
opt_bar(inp1, -inp2)

custom backend called with FX graph:
opcode         name    target                                                  args         kwargs
-------------  ------  ------------------------------------------------------  -----------  --------
placeholder    l_a_    L_a_                                                    ()           {}
placeholder    l_b_    L_b_                                                    ()           {}
call_function  abs_1   <built-in method abs of type object at 0x7f254ae1fec0>  (l_a_,)      {}
call_function  add     <built-in function add>                                 (abs_1, 1)   {}
call_function  x       <built-in function truediv>                             (l_a_, add)  {}
call_method    sum_1   sum                                                     (l_b_,)      {}
call_function  lt      <built-in function lt>                                  (sum_1, 0)   {}
output         output  output                                                  ((x, lt),)   {}
cus

tensor([ 0.5387,  0.9556,  0.5176, -0.0084, -0.3768,  0.4251,  0.0960,  0.2894,
        -0.3305,  0.6156])

Мы видим что TorchDynamo разбил наш код на три части, которые соотвествуют:


1. ``x = a / (torch.abs(a) + 1)``
2. ``b = b * -1; return x * b``
3. ``return x * b``

Когда TorchDynamo встречает не поддерживаемые в функции, например зависящие от входных данных, он  разбивает код на части, дает передает все в стандатный Python интерпритатор, а потом возвращается к графу.

Давайте на примере разберемся, как TorchDynamo пройдет через ``<``.
Если ``b.sum() < 0``, то TorchDynamo запустит граф 1, даст
Python определить результат условного выражения, а затем запустит
граф 2. С другой стороны, если ``не b.sum() < 0``, то TorchDynamo
запустил бы граф 1, позволил Python определить результат условного выражения, затем
запустил график 3. <br>


Это подчеркивает основное различие между TorchDynamo и предыдущим  компиляторами для PyTorch.

Предыдущие решения либо упадут с ошибков, либо не правильно скомпилируются и ничего не произойдет.
TorchDynamo, с другой стороны, просто разобьет граф вычислений на части.

Что бы посмотреть как TorchDynamo разбивает граф на части мы можем вызвать: ``torch._dynamo.explain``



In [46]:
# Reset since we are using a different backend.
torch._dynamo.reset()
a  = torch._dynamo.explain(
    bar, torch.randn(10), torch.randn(10)
)

  return func(*newargs, **newkeywargs)


Чтобы максимизировать ускорение, разрывы графика должны быть ограничены.
Мы можем заставить TorchDynamo выдавать ошибку на первом разрыве графа ``fullgraph=True``:


In [50]:
a.break_reasons

[GraphCompileReason(reason='generic_jump TensorVariable()', user_stack=[<FrameSummary file /tmp/ipykernel_98012/3263660924.py, line 3 in bar>], graph_break=True)]

И действительно, мы видим, что запуск нашей модели с помощью ``torch.compile``
приводит к значительному ускорению. Ускорение в основном достигается за счет сокращения накладных расходов Python и
Чтение/запись графического процессора, поэтому наблюдаемое ускорение может варьироваться в зависимости от таких факторов, как 
архитектура модели и ее размер. <br>

<br>
Например, если архитектура модели простя, 
но занимает много памяти, то узким местом будет 
вычисления графического процессора и наблюдаемое ускорение может быть менее значительными. <br>


``torch.compile`` поддерживает разные режими компиляции. Подробнее про разные режимы можно посмотреть тут: [here](https://pytorch.org/get-started/pytorch-2.0/#user-experience).


```python
# default: optimizes for large models, low compile-time
#          and no extra memory usage
torch.compile(model)

# reduce-overhead: optimizes to reduce the framework overhead
#                and uses some extra memory. Helps speed up small models
torch.compile(model, mode="reduce-overhead")

# max-autotune: optimizes to produce the fastest model,
#               but takes a very long time to compile
torch.compile(model, mode="max-autotune")
```



В целом, для тестирования моделей PyTorch лучше использовать ``torch.utils.benchmark`` вместо самопальной timed. <br>

<br>

В этом примере нам нужна была такая функция что бы показать задержки на компиляцию.

<br>
<br>

**Посмотрим на сравнение скорости обучения.**


In [40]:
opt_bar = torch.compile(bar, fullgraph=True)
try:
    opt_bar(torch.randn(10), torch.randn(10))
except:
    tb.print_exc()

Traceback (most recent call last):
  File "/tmp/ipykernel_98012/3610564610.py", line 3, in <module>
    opt_bar(torch.randn(10), torch.randn(10))
  File "/usr/local/lib/python3.10/site-packages/torch/_dynamo/eval_frame.py", line 574, in _fn
    return fn(*args, **kwargs)
  File "/usr/local/lib/python3.10/site-packages/torch/_dynamo/convert_frame.py", line 1380, in __call__
    return self._torchdynamo_orig_callable(
  File "/usr/local/lib/python3.10/site-packages/torch/_dynamo/convert_frame.py", line 547, in __call__
    return _compile(
  File "/usr/local/lib/python3.10/site-packages/torch/_dynamo/convert_frame.py", line 986, in _compile
    guarded_code = compile_inner(code, one_graph, hooks, transform)
  File "/usr/local/lib/python3.10/site-packages/torch/_dynamo/convert_frame.py", line 715, in compile_inner
    return _compile_inner(code, one_graph, hooks, transform)
  File "/usr/local/lib/python3.10/site-packages/torch/_utils_internal.py", line 95, in wrapper_function
    return f

TorchDynamo не ломает граф модели, который мы использовали для анализа ускорения.

In [52]:
opt_model = torch.compile(init_model(), fullgraph=True)
print(opt_model(generate_data(16)[0]))

tensor([[ 0.2997,  0.2615, -0.4498,  ...,  0.1433,  0.0313, -0.2083],
        [ 0.2242,  0.2964, -0.5499,  ...,  0.0456, -0.1640,  0.0183],
        [ 0.4297,  0.4480, -0.5371,  ...,  0.0713, -0.2565, -0.0274],
        ...,
        [ 0.2017,  0.2067, -0.5698,  ...,  0.1729, -0.1877, -0.1754],
        [ 0.4003,  0.2157, -0.5115,  ...,  0.1436, -0.2207, -0.1239],
        [ 0.3524,  0.3577, -0.3242,  ..., -0.0349,  0.0997, -0.0593]],
       device='cuda:0', grad_fn=<CompiledFunctionBackward>)


Наконец, если мы просто хотим, чтобы TorchDynamo выдал на torch FX граф,
мы можем использовать torch._dynamo.export. Обратите внимание, что ``torch._dynamo.export`` с
``fullgraph=True``, выдает ошибку, если TorchDynamo находит место разрывы графа.