# 12. Hiệu năng Tính toán
Trong học sâu, các tập dữ liệu thường rất lớn và mô hình tính toán rất phức tạp. Vì vậy, ta luôn cần quan tâm tới vấn đề hiệu năng tính toán. Trong chương này, ta sẽ tập trung vào các yếu tố then chốt ảnh hưởng đến hiệu năng tính toán: lập trình mệnh lệnh, lập trình ký hiệu, lập trình bất đồng bộ, tính toán song song tự động và tính toán đa GPU. Qua đó, độc giả có thể cải thiện nhiều hơn về hiệu năng tính toán của mô hình đã được triển khai trong các chương trước, như là giảm thời gian huấn luyện mà không ảnh hưởng tới độ chính xác của mô hình.

## 12.1. Trình biên dịch và Trình thông dịch
Cho đến nay, ta mới chỉ tập trung vào lập trình mệnh lệnh, kiểu lập trình sử dụng các câu lệnh như print, + hay if để thay đổi trạng thái của chương trình. Hãy cùng xét ví dụ đơn giản sau về lập trình mệnh lệnh.

In [1]:
def add(a, b):
    return a + b

def fancy_func(a, b, c, d):
    e = add(a, b)
    f = add(c, d)
    g = add(e, f)
    return g

print(fancy_func(1, 2, 3, 4))

10


Python là một ngôn ngữ thông dịch. Khi thực hiện hàm `fancy_func`, nó thực thi các lệnh trong thân hàm một cách tuần tự. Như vậy, nó sẽ chạy lệnh `e = add(a, b)` rồi sau đó lưu kết quả vào biến `e`, làm cho trạng thái chương trình thay đổi. Hai câu lệnh tiếp theo `f = add(c, d)` và `g = add(e, f)` sẽ được thực thi tương tự, thực hiện phép cộng và lưu kết quả vào các biến. Fig. 12.1.1 sẽ minh họa luồng dữ liệu.

![](images/computegraph.svg)

Mặc dù lập trình mệnh lệnh rất thuận tiện, nhưng nó lại không quá hiệu quả. Ở đây nếu hàm `add` được gọi nhiều lần trong `fancy_func`, Python cũng sẽ thực thi ba lần gọi hàm độc lập. Nếu điều này xảy ra, giả sử trên một GPU (hay thậm chí nhiều GPU), chi phí phát sinh từ trình thông dịch Python có thể sẽ rất lớn. Hơn nữa, nó sẽ cần phải lưu giá trị các biến `e` và `f` cho tới khi tất cả các lệnh trong `fancy_func` thực thi xong. Điều này là do ta không biết liệu biến `e` và `f` có được sử dụng bởi các phần chương trình khác sau hai lệnh `e = add(a, b)` và `f = add(c, d)` nữa hay không.

### 12.1.1. Lập trình Ký hiệu
Lập trình ký hiệu là kiểu lập trình mà ở đó các tính toán thường chỉ được thực hiện một khi chương trình đã được định nghĩa đầy đủ. Cơ chế này được sử dụng trong nhiều framework, bao gồm: Theano, Keras và TensorFlow (hai framework sau đã hỗ trợ lập trình mệnh lệnh). Lập trình ký hiệu thường gồm những bước sau:

1. Khai báo các thao tác sẽ được thực thi.
2. Biên dịch các thao tác thành chương trình có thể chạy được.
3. Thực thi bằng cách cung cấp đầu vào và gọi chương trình đã được biên dịch.

Quy trình trên cho phép chúng ta tối ưu hóa chương trình một cách đáng kể. Đầu tiên, ta có thể bỏ qua trình thông dịch Python trong nhiều trường hợp, từ đó loại bỏ được vấn đề nghẽn cổ chai có thể ảnh hưởng nghiêm trọng tới tốc độ tính toán khi sử dụng nhiều GPU tốc độ cao với một luồng Python duy nhất trên CPU. Thứ hai, trình biên dịch có thể tối ưu và viết lại mã nguồn thành `print((1 + 2) + (3 + 4))` hoặc thậm chí `print(10)`. Điều này hoàn toàn khả thi bởi trình biên dịch có thể thấy toàn bộ mã nguồn rồi mới dịch sang mã máy. Ví dụ, nó có thể giải phóng bộ nhớ (hoặc không cấp phát) bất cứ khi nào một biến không còn được dùng đến. Hoặc nó có thể chuyển toàn bộ mã nguồn thành một đoạn tương đương. Để hiểu rõ hơn vấn đề, dưới đây ta sẽ thử mô phỏng quá trình lập trình mệnh lệnh (dựa trên Python).

In [2]:
def add_():
    return '''
def add(a, b):
    return a + b
'''

def fancy_func_():
    return '''
def fancy_func(a, b, c, d):
    e = add(a, b)
    f = add(c, d)
    g = add(e, f)
    return g
'''

def evoke_():
    return add_() + fancy_func_() + 'print(fancy_func(1, 2, 3, 4))'

prog = evoke_()
print(prog)
y = compile(prog, '', 'exec')
exec(y)


def add(a, b):
    return a + b

def fancy_func(a, b, c, d):
    e = add(a, b)
    f = add(c, d)
    g = add(e, f)
    return g
print(fancy_func(1, 2, 3, 4))
10


Sự khác biệt giữa lập trình mệnh lệnh (thông dịch) và lập trình ký hiệu như sau:

* Lập trình mệnh lệnh dễ hơn. Khi lập trình mệnh lệnh được sử dụng trong Python, mã nguồn trông rất trực quan và dễ viết. Mã nguồn của lập trình mệnh lệnh cũng dễ gỡ lỗi hơn. Điều này là do ta có thể dễ dàng lấy và in ra giá trị của các biến trung gian liên quan, hoặc sử dụng công cụ gỡ lỗi có sẵn của Python.
* Lập trình ký hiệu lại hiệu quả hơn và dễ sử dụng trên nền tảng khác. Nó giúp việc tối ưu mã nguồn trong quá trình biên dịch trở nên dễ dàng hơn, đồng thời cho phép ta chuyển đổi chương trình sang một định dạng khác không phụ thuộc vào Python. Do đó chương trình có thể chạy trong các môi trường khác ngoài Python, từ đó tránh được mọi vấn đề tiềm ẩn về hiệu năng liên quan tới trình thông dịch Python.

### 12.1.2. Lập trình Hybrid
Trong quá khứ, hầu hết các framework đều chọn một trong hai phương án tiếp cận: lập trình mệnh lệnh hoặc lập trình ký hiệu. Ví dụ như Theano, TensorFlow, Keras và CNTK đều xây dựng mô hình dạng ký hiệu. Ngược lại, Chainer và PyTorch tiếp cận theo hướng lập trình mệnh lệnh. Mô hình kiểu mệnh lệnh đã được bổ sung vào TensorFlow 2.0 (thông qua chế độ Eager) và Keras trong những bản cập nhật sau này. 

Như đã đề cập ở trên, PyTorch dựa trên lập trình mệnh lệnh và sử dụng đồ thị tính toán động. Trong nỗ lực tận dụng tính di động và hiệu quả của lập trình ký hiệu, các nhà phát triển đã xem xét liệu có thể kết hợp các lợi ích của cả hai mô hình lập trình hay không. Điều này dẫn đến một torchscript cho phép người dùng phát triển và gỡ lỗi bằng cách sử dụng lập trình mệnh lệnh thuần túy, đồng thời có khả năng chuyển đổi hầu hết các chương trình thành các chương trình ký hiệu để chạy khi hiệu suất và triển khai tính toán cấp sản phẩm được yêu cầu.

### 12.1.3. HybridSequential
Cách đơn giản nhất để hiểu cách hoạt động của phép hybrid hóa là xem xét các mạng sâu đa tầng. Thông thường, trình thông dịch Python sẽ thực thi mã nguồn cho tất cả các tầng để sinh một lệnh mà sau đó có thể được truyền tới CPU hoặc GPU. Đối với thiết bị tính toán đơn (và nhanh), quá trình trên không gây ra vấn đề lớn nào cả. Mặt khác, nếu ta sử dụng một máy chủ tiên tiến có 8 GPU, ví dụ như P3dn.24xlarge trên AWS, Python sẽ gặp khó khăn trong việc tận dụng tất cả các GPU cùng lúc. Lúc này trình thông dịch Python đơn luồng sẽ trở thành nút nghẽn cổ chai. Hãy xem làm thế nào để giải quyết vấn đề trên cho phần lớn đoạn mã nguồn bằng cách thay Sequential bằng HybridSequential. Chúng ta bắt đầu với việc định nghĩa một mạng MLP đơn giản.

In [3]:
from d2l import torch as d2l
import torch
from torch import nn

# Factory for networks
def get_net():
    net = nn.Sequential(nn.Linear(512, 256),
            nn.ReLU(),
            nn.Linear(256, 128),
            nn.ReLU(),
            nn.Linear(128, 2))
    return net

x = torch.randn(size=(1, 512))
net = get_net()
net(x)

tensor([[-0.0791, -0.0796]], grad_fn=<AddmmBackward>)

Bằng cách gọi hàm `torch.jit.script`, ta có thể biên dịch và tối ưu hóa các tính toán trong MLP. Kết quả tính toán của mô hình vẫn không thay đổi.

In [4]:
net = torch.jit.script(net)
net(x)

tensor([[-0.0791, -0.0796]], grad_fn=<AddBackward0>)

Bằng cách chuyển đổi mô hình bằng cách sử dụng `torch.jit.script`. Điều này có vẻ tốt đến mức khó tin: viết mã giống như trước đây và chỉ cần chuyển đổi mô hình bằng cách sử dụng `torch.jit.script`. Khi điều này xảy ra, mạng sẽ được tối ưu hóa (chúng tôi sẽ đánh giá hiệu suất bên dưới).

### 12.1.3.1. Tăng tốc bằng Hybrid hóa
Để minh hoạ những cải thiện đạt được từ quá trình biên dịch, ta hãy so sánh thời gian cần thiết để đánh giá net(x) trước và sau phép hybrid hóa. Đầu tiên hãy định nghĩa một hàm để đo thời gian trên. Hàm này sẽ hữu ích trong suốt chương này khi chúng ta đo (và cải thiện) hiệu năng.

In [5]:
#@save
class Benchmark:
    def __init__(self, description='Done'):
        self.description = description

    def __enter__(self):
        self.timer = d2l.Timer()
        return self

    def __exit__(self, *args):
        print(f'{self.description}: {self.timer.stop():.4f} sec')

Bây giờ ta có thể gọi mạng hai lần với có hybrid hóa và không hybrid hóa.

In [6]:
net = get_net()
with Benchmark('Without torchscript'):
    for i in range(1000): net(x)

net = torch.jit.script(net)
with Benchmark('With torchscript'):
    for i in range(1000): net(x)

Without torchscript: 0.1610 sec
With torchscript: 0.1934 sec


Như được quan sát trong kết quả ở trên, sau khi một phiên bản nn.Sequential được tập lệnh bằng cách sử dụng hàm `torch.jit.script`, hiệu suất tính toán được cải thiện thông qua việc sử dụng lập trình ký hiệu.

### 12.1.3.2. Chuỗi hóa
Một trong những lợi ích của việc biên dịch các mô hình là ta có thể chuỗi hóa (**serialize**) mô hình và các tham số mô hình để lưu trữ. Điều này cho phép ta lưu trữ mô hình mà không phụ thuộc vào ngôn ngữ **front-end**. Điều này cũng cho phép ta sử dụng các mô hình đã huấn luyện trên các thiết bị khác và dễ dàng sử dụng các ngôn ngữ lập trình **front-end** khác. Đồng thời, mã nguồn này thường thực thi nhanh hơn so với khi lập trình mệnh lệnh. Hãy xem xét phương thức `save` sau.

In [7]:
net.save('my_mlp')
!ls -lh my_mlp*

'ls' is not recognized as an internal or external command,
operable program or batch file.


Điều này khá khác biệt so vớinhững gì ta đã thấy trước đó. Tất cả các lệnh in được định nghĩa trong hybrid_forward đều bị bỏ qua. Thật vậy, sau khi hybrid hóa, việc thực thi lệnh `net(x)` không còn liên quan gì tới trình thông dịch của Python nữa. Nghĩa là bất cứ đoạn mã Python nào không cần thiết cho tính toán sẽ bị bỏ qua (chẳng hạn như các lệnh in) để việc thực thi trôi chảy hơn và hiệu năng tốt hơn. Và thay vì gọi Python, MXNet gọi trực tiếp back-end C++.
Cũng nên lưu ý rằng một số hàm không được hỗ trợ trong mô-đun symbol (như asnumpy) và các toán tử thực thi tại chỗ (in-place) như `a += b` và `a[:] = a + b` phải được viết lại là `a = a + b`. Tuy nhiên, việc biên dịch mô hình vẫn đáng để thực hiện bất cứ khi nào ta quan tâm đến tốc độ. Lợi ích về tốc độ này có thể tăng từ vài phần trăm tới hơn hai lần, tùy thuộc vào sự phức tạp của mô hình, tốc độ của CPU, tốc độ và số lượng GPU.

### 12.1.4. Tóm tắt
* Lập trình mệnh lệnh khiến việc thiết kế mô hình mới dễ dàng hơn vì ta có thể viết mã với luồng điều khiển và được sử dụng hệ sinh thái phần mềm của Python.
* Lập trình ký hiệu đòi hỏi chúng ta định nghĩa và biên dịch chương trình trước khi thực thi nó. Lợi ích là hiệu năng được cải thiện.
* MXNet có thể kết hợp những ưu điểm của cả hai phương pháp khi cần thiết.
* Mô hình được xây dựng bởi các lớp `HybridSequential` và `HybridBlock` có thể chuyển đổi các chương trình mệnh lệnh thành các chương trình ký hiệu bằng cách gọi phương thức hybridize.

### 12.1.5. Bài tập
1. Hãy thiết kế một mạng bằng cách sử dụng lớp `HybridConcurrent`, có thể thử với `GoogleNet` trong :ref: sec_googlenet.
2. Hãy thêm `x.asnumpy()` vào dòng đầu tiên của hàm `hybrid_forward` trong lớp `HybridNet`, rồi thực thi mã nguồn và quan sát các lỗi bạn gặp phải. Tại sao các lỗi này xảy ra?
3. Điều gì sẽ xảy ra nếu ta thêm luồng điều khiển, cụ thể là các lệnh Python `if` và `for` trong hàm `hybrid_forward`?
4. Hãy lập trình các mô hình bạn thích trong các chương trước bằng cách sử dụng lớp `HybridBlock`hoặc `HybridSequential`.

## 12.2. Tính toán Bất đồng bộ
Máy tính ngày nay là các hệ thống có tính song song cao, được cấu thành từ nhiều lõi CPU (mỗi lõi thường có nhiều luồng), nhiều phần tử xử lý trong mỗi GPU và thường có nhiều GPU trong mỗi máy. Nói ngắn gọn, ta có thể xử lý nhiều tác vụ cùng một lúc, thường là trên nhiều thiết bị khác nhau. Tiếc thay, Python không phải là một ngôn ngữ phù hợp để viết mã tính toán song song và bất đồng bộ, nhất là khi không có sự trợ giúp từ bên ngoài. Xét cho cùng, Python là ngôn ngữ đơn luồng, và có lẽ trong tương lai sẽ không có gì thay đổi. Các framework học sâu như MXNet và TensorFlow tận dụng mô hình lập trình bất đồng bộ để cải thiện hiệu năng (PyTorch sử dụng bộ định thời của chính Python nên có tiêu chí đánh đổi hiệu năng khác). Do đó, việc hiểu rõ cách lập trình bất đồng bộ giúp ta phát triển các chương trình hiệu quả hơn bằng cách chủ động giảm thiểu yêu cầu tính toán và các quan hệ phụ thuộc tương hỗ. Việc này cho phép ta giảm chi phí tính toán phụ trợ và tăng khả năng tận dụng vi xử lý. Ta bắt đầu bằng việc nhập các thư viện cần thiết.

In [1]:
from d2l import torch as d2l
import numpy, os, subprocess
import torch
from torch import nn
import numpy

### 12.2.1. Bất đồng bộ qua Back-end
Để khởi động, hãy cùng xét một bài toán nhỏ - ta muốn sinh ra một ma trận ngẫu nhiên và nhân nó lên nhiều lần. Hãy thực hiện việc này bằng cả NumPy và NumPy của Pytorch để xem xét sự khác nhau.

In [2]:
# warmup for gpu computation
device = d2l.try_gpu()
a = torch.randn(size=(1000, 1000), device=device)
b = torch.mm(a, a)

with d2l.Benchmark('numpy'):
    for _ in range(10):
        a = numpy.random.normal(size=(1000, 1000))
        b = numpy.dot(a, a)

with d2l.Benchmark('torch'):
    for _ in range(10):
        a = torch.randn(size=(1000, 1000), device=device)
        b = torch.mm(a, a)

AttributeError: module 'd2l.torch' has no attribute 'Benchmark'

NumPy của Pytorch nhanh hơn tới cả hàng trăm hàng ngàn lần. Ít nhất là có vẻ là như vậy. Do cả hai thư viện đều được thực hiện trên cùng một bộ xử lý, chắc hẳn phải có gì đó ảnh hướng đến kết quả. Nếu ta ép Pytorch phải hoàn thành tất cả phép tính trước khi trả về kết quả, ta có thể thấy rõ điều gì đã xảy ra ở trên: phần tính toán được thực hiện bởi back-end trong khi front-end đã trả lại quyền điều khiển cho Python.

In [3]:
with d2l.Benchmark():
    for _ in range(10):
        a = torch.randn(size=(1000, 1000), device=device)
        b = torch.mm(a, a)
    torch.cuda.synchronize(device)

AttributeError: module 'd2l.torch' has no attribute 'Benchmark'

Nhìn chung, Pytorch có front-end cho phép tương tác trực tiếp với người dùng thông qua Python, cũng như back-end được sử dụng bởi hệ thống nhằm thực hiện nhiệm vụ tính toán. Như ở Fig. 12.2.1, người dùng có thể viết chương trình MXNet bằng nhiều ngôn ngữ front-end như Python, R, Scala và C++. Dù sử dụng ngôn ngữ front-end nào, chương trình Pytorch chủ yếu thực thi trên back-end lập trình bằng C++. Các thao tác đưa ra bởi ngôn ngữ front-end được truyền vào back-end để thực thi. Back-end tự quản lý các luồng xử lý bằng việc liên tục tập hợp và thực thi các tác vụ trong hàng đợi. Chú ý rằng, back-end cần phải có khả năng theo dõi quan hệ phụ thuộc giữa các bước trong đồ thị tính toán để có thể hoạt động. Nghĩa là ta không thể song song hóa các thao tác phụ thuộc lẫn nhau.

![](images/frontends.png)

Hãy xét một ví dụ đơn giản để có thể hiểu rõ hơn đồ thị quan hệ phụ thuộc (**dependency graph**).

In [4]:
x = torch.ones((1, 2), device=device)
y = torch.ones((1, 2), device=device)
z = x * y + 2
z

tensor([[3., 3.]], device='cuda:0')

![](images/asyncgraph.svg)
<center>Fig. 12.2.2 Quan hệ phụ thuộc.</center>
Đoạn mã trên cũng được mô tả trong Fig. 12.2.2. Mỗi khi luồng front-end của Python thực thi một trong ba câu lệnh đầu tiên, nó sẽ chỉ đưa tác vụ đó vào hàng chờ của back-end. Khi kết quả của câu lệnh cuối cùng cần được in ra, luồng front-end của Python sẽ chờ luồng xử lý back-end C++ tính toán xong kết quả của biến z. Lợi ích của thiết kế này nằm ở việc luồng front-end Python không cần phải đích thân thực hiện việc tính toán. Do đó, hiệu năng tổng thể của chương trình cũng ít bị ảnh hưởng bởi hiệu năng của Python. Fig. 12.2.3 mô tả cách front-end và back-end tương tác với nhau.

![](images/threading.svg)
<center>Fig. 12.2.3 Front-end và Back-end</center>

### 12.2.2. Lớp cản và Bộ chặn
Có khá nhiều thao tác buộc Python phải chờ cho đến khi nó hoàn thành:

* Hiển nhiên nhất là lệnh npx.waitall() chờ đến khi toàn bộ phép toán đã hoàn thành, bất chấp thời điểm câu lệnh tính toán được đưa ra. Trong thực tế, trừ khi thực sự cần thiết, việc sử dụng thao tác này là một ý tưởng tồi do nó có thể làm giảm hiệu năng.
* Nếu ta chỉ muốn chờ đến khi một biến cụ thể nào đó sẵn sàng, ta có thể gọi z.wait_to_read(). Trong trường hợp này MXNet chặn việc trả luồng điều khiển về Python cho đến khi biến z đã được tính xong. Các thao tác khác sau đó mới có thể tiếp tục.

Hãy xem cách các lệnh chờ trên hoạt động trong thực tế:

Cả hai thao tác hoàn thành với thời gian xấp xỉ nhau. Ngoài các thao tác chặn (blocking operation) tường minh, bạn đọc cũng nên biết về việc chặn ngầm. Rõ ràng việc in một biến ra yêu cầu biến đó phải sẵn sàng và do đó nó là một bộ chặn. Cuối cùng, ép kiểu sang NumPy bằng `z.asnumpy()` và ép kiểu sang số vô hướng bằng `z.item()` cũng là bộ chặn, do trong NumPy không có khái niệm bất đồng bộ. Có thể thấy việc ép kiểu cũng cần truy cập giá trị, giống như hàm `print`. Việc thường xuyên sao chép một lượng nhỏ dữ liệu từ phạm vi của MXNet sang NumPy và ngược lại có thể làm giảm đáng kể hiệu năng của một đoạn mã đáng lẽ sẽ có hiệu năng tốt, do mỗi thao tác như vậy buộc đồ thị tính toán phải tính toàn bộ các giá trị trung gian để suy ra các số hạng cần thiết trước khi thực hiện bất cứ thao tác nào khác.

### 12.2.3. Cải thiện Năng lực Tính toán
Trong một hệ thống đa luồng lớn (ngay cả laptop phổ thông cũng có 4 luồng hoặc hơn, và trên các máy trạm đa socket, số luồng có thể vượt quá 256), chi phí phụ trợ từ việc định thời các thao tác có thể trở nên khá lớn. Đó là lý do tại sao hai quá trình tính toán và định thời nên xảy ra song song và bất đồng bộ. Để minh hoạ cho lợi ích của việc này, hãy so sánh khi liên tục cộng 1 vào một biến theo cách đồng bộ và bất đồng bộ. Ta mô phỏng quá trình thực thi đồng bộ bằng cách chèn một lớp cản wait_to_read() giữa mỗi phép cộng.

Ta có thể tóm tắt đơn giản sự tương tác giữa luồng front-end Python và luồng back-end C++ như sau:

* Front-end ra lệnh cho back-end đưa tác vụ tính `y = x + 1` vào hàng đợi.
* Back-end sau đó nhận các tác vụ tính toán từ hàng đợi và thực hiện các phép tính.
* Back-end trả kết quả tính toán về cho front-end.

Giả sử thời gian thực hiện mỗi giai đoạn trên lần lượt là  $t_1,t_2$  và  $t_3$ . Nếu ta không áp dụng lập trình bất đồng bộ, tổng thời gian để thực hiện 1000 phép tính xấp xỉ bằng  $1000 (t_1+ t_2 + t_3)$ . Còn nếu ta áp dụng lập trình bất đồng bộ, tổng thời gian để thực hiện 1000 phép tính có thể giảm xuống còn $t_1 + 1000 t_2 + t_3$  (giả sử  $1000 t_2 > 999t_1$ ), do front-end không cần phải chờ back-end trả về kết quả tính toán sau mỗi vòng lặp.

12.2.4. Cải thiện Mức chiếm dụng Bộ nhớ
Cùng hình dung với trường hợp ta liên tục thêm các tính toán vào back-end bằng cách thực thi mã Python trên front-end. Ví dụ, trong một khoảng thời gian rất ngắn, front-end liên tục thêm vào một lượng lớn các tác vụ trên minibatch. Xét cho cùng, công việc trên có thể hoàn thành nhanh chóng nếu không có phép tính nào thật sự diễn ra trên Python. Nếu tất cả tác vụ trên cùng được khởi động một cách nhanh chóng thì có thể dẫn đến dung lượng bộ nhớ sử dụng tăng đột ngột. Do dung lượng bộ nhớ có sẵn trên GPU (và ngay cả CPU) là có hạn, điều này có thể gây ra sự tranh chấp tài nguyên hoặc thậm chí làm sập chương trình. Độc giả có lẽ đã nhận ra rằng ở các quy trình huấn luyện trước, ta áp dụng các thao tác đồng bộ như item hay ngay cả asnumpy.

Chúng tôi khuyến nghị nên sử dụng các thao tác này một cách cẩn thận, ví dụ như với từng minibatch, ta cần đảm bảo sao cho hiệu năng tính toán và mức chiếm dụng bộ nhớ (**memory footprint**) được cân bằng. Để minh họa, hãy cùng lập trình một vòng lặp huấn luyện đơn giản, đo lượng bộ nhớ tiêu hao và thời gian thực thi, sử dụng hàm sinh dữ liệu và mạng học sâu dưới đây.

Mặc dù thời gian để đưa ra chỉ dẫn cho back-end nhỏ hơn đến hàng chục lần, ta vẫn cần thực hiện các bước tính toán. Hậu quả là một lượng lớn các kết quả trung gian không được đưa ra sử dụng và có thể chất đống trong bộ nhớ. Dù rằng việc này không gây ra bất cứ vấn đề nào trong ví dụ nhỏ trên, nó có thể dẫn đến tình trạng cạn kiệt bộ nhớ nếu không được kiểm tra trong viễn cảnh thực tế.

### 12.2.5. Tóm tắt
* MXNet tách riêng khối front-end Python khỏi khối back-end thực thi. Điều này cho phép nhanh chóng chèn các câu lệnh một cách bất đồng bộ vào khối back-end và kết hợp tính toán song song.
* Sự bất đồng bộ giúp front-end phản ứng nhanh hơn. Tuy nhiên, cần phải áp dụng cẩn thận để không làm tràn các tác vụ ở trạng thái đợi, gây chiếm dụng bộ nhớ.
* Nên đồng bộ theo từng minibatch một để giữ cho front-end và back-end được đồng bộ tương đối.
* Nên nhớ rằng việc chuyển quản lý bộ nhớ từ MXNet sang Python sẽ buộc back-end phải chờ cho đến khi biến đó sẵn sàng. `print`, `asnumpy` và `item` đều gây ra hiệu ứng trên. Điều này có thể có ích đôi lúc, tuy nhiên lạm dụng chúng có thể làm sụt giảm hiệu năng.
* Nhà sản xuất vi xử lý cung cấp các công cụ phân tích hiệu năng tinh vi, cho phép đánh giá hiệu năng của học sâu một cách chi tiết hơn rất nhiều.

### 12.2.6. Bài tập
1. Như đã đề cập ở trên, sử dụng tính toán bất đồng bộ có thể giảm tổng thời gian cần thiết để thực hiện  1000  phép tính xuống  $t_1 + 1000 t_2 + t_3$ . Tại sao ở đó ta lại phải giả sử  $1000 t_2 > 999 t_1$ ?
2. Bạn có thể chỉnh sửa vòng lặp huấn luyện như thế nào nếu muốn xử lý 2 batch cùng lúc (đảm bảo batch  $b_t$  hoàn thành trước khi batch $b_{t+2}$ bắt đầu)?
3. Chuyện gì sẽ xảy ra nếu thực thi mã nguồn đồng thời trên cả CPU và GPU? Liệu có nên tiếp tục đồng bộ sau khi xử lý mỗi minibatch?
4. So sánh sự khác nhau giữa `waitall` và `wait_to_read`. Gợi ý: thực hiện một số lệnh và đồng bộ theo kết quả trung gian.