# 2.3.1. Số vô hướng

Trong mã nguồn MXNet, một số vô hướng được biễu diễn bằng một ndarray với chỉ một phần tử. Trong đoạn mã dưới đây, chúng ta khởi tạo hai số vô hướng và thực hiện các phép tính quen thuộc như cộng, trừ, nhân, chia và lũy thừa với chúng.

In [40]:
import torch

x = torch.tensor(3.0)
y = torch.tensor(2.0)

x + y, x * y, x / y, x**y

(tensor(5.), tensor(6.), tensor(1.5000), tensor(9.))

# 2.3.2 Vector

Trong MXNet, chúng ta làm việc với vector thông qua các ndarray  **1** -chiều. Thường thì ndarray có thể có chiều dài bất kỳ, tùy thuộc vào giới hạn bộ nhớ máy tính.

In [41]:
x = torch.arange(4)
x, x[3]

(tensor([0, 1, 2, 3]), tensor(3))

## 2.3.2.1 Độ dài, chiều và kích thước

Cũng giống như một dãy thông thường trong Python, chúng ta có thể xem độ dài của của một ndarray bằng cách gọi hàm `len()` có sẵn của Python.

In [42]:
len(x)

4

Khi một ndarray biễu diễn một vector (với chính xác một trục), ta cũng có thể xem độ dài của nó qua thuộc tính .shape (kích thước). Kích thước là một tuple liệt kê độ dài (số chiều) dọc theo mỗi trục của ndarray. Với các ndarray có duy nhất một trục, kích thước của nó chỉ có một phần tử.

In [43]:
x.shape, x.ndim

(torch.Size([4]), 1)

Ở đây cần lưu ý rằng, từ “chiều” là một từ đa nghĩa và khi đặt vào nhiều ngữ cảnh thường dễ làm ta bị nhầm lẫn. Để làm rõ, chúng ta dùng số chiều của một vector hoặc của một trục để chỉ độ dài của nó, tức là số phần tử trong một vector hay một trục. Tuy nhiên, chúng ta sử dụng số chiều của một ndarray để chỉ số trục của ndarray đó. Theo nghĩa này, chiều của một trục của một ndarray là độ dài của trục đó.

# 2.3.3. Ma trận

Ta có thể tạo một ma trận  m×n  trong MXNet bằng cách khai báo kích thước của nó với hai thành phần  m  và  n  khi sử dụng bất kỳ hàm khởi tạo ndarray nào mà ta thích.

In [60]:
A = torch.arange(6, dtype=torch.float32).reshape(2, 3)
A

tensor([[0., 1., 2.],
        [3., 4., 5.]])

Trong mã nguồn, ta lấy chuyển vị của một ma trận thông qua thuộc tính T.

In [61]:
A.T

tensor([[0., 3.],
        [1., 4.],
        [2., 5.]])

Là một biến thể đặc biệt của ma trận vuông, ma trận đối xứng (symmetric matrix)  A  có chuyển vị bằng chính nó:  $A=A^⊤$ .

In [62]:
B = torch.tensor([[1, 2, 3], [2, 0, 4], [3, 4, 5]])
B

tensor([[1, 2, 3],
        [2, 0, 4],
        [3, 4, 5]])

In [63]:
B == B.T

tensor([[True, True, True],
        [True, True, True],
        [True, True, True]])

# 2.3.4. Tensor

Giống như vector khái quát hoá số vô hướng và ma trận khái quát hoá vector, ta có thể xây dựng những cấu trúc dữ liệu với thậm chí nhiều trục hơn. Tensor cho chúng ta một phương pháp tổng quát để miêu tả các ndarray với số trục bất kỳ

Tensor sẽ trở nên quan trọng hơn khi ta bắt đầu làm việc với hình ảnh, thường được biểu diễn dưới dạng ndarray với 3 trục tương ứng với chiều cao, chiều rộng và một trục kênh (channel) để xếp chồng các kênh màu (đỏ, xanh lá và xanh dương).


In [83]:
X = torch.arange(24, dtype=torch.float32).reshape(2,3,4)
X

tensor([[[ 0.,  1.,  2.,  3.],
         [ 4.,  5.,  6.,  7.],
         [ 8.,  9., 10., 11.]],

        [[12., 13., 14., 15.],
         [16., 17., 18., 19.],
         [20., 21., 22., 23.]]])

# 2.3.5. Các thuộc tính Cơ bản của Phép toán Tensor

Số vô hướng, vector, ma trận và tensor với một số trục bất kỳ có một vài thuộc tính rất hữu dụng. Ví dụ, ta có thể để ý từ định nghĩa của phép toán theo từng phần tử (elementwise), bất kỳ phép toán theo từng phần tử một ngôi nào cũng không làm thay đổi kích thước của toán hạng của nó. Tương tự, cho hai tensor bất kỳ có cùng kích thước, kết quả của bất kỳ phép toán theo từng phần tử hai ngôi sẽ là một tensor có cùng kích thước. Ví dụ, cộng hai ma trận có cùng kích thước sẽ thực hiện phép cộng theo từng phần tử giữa hai ma trận này.

In [65]:
B = A.clone()
A, A+B, A*2, A*2 == A+B, A*B

(tensor([[0., 1., 2.],
         [3., 4., 5.]]), tensor([[ 0.,  2.,  4.],
         [ 6.,  8., 10.]]), tensor([[ 0.,  2.,  4.],
         [ 6.,  8., 10.]]), tensor([[True, True, True],
         [True, True, True]]), tensor([[ 0.,  1.,  4.],
         [ 9., 16., 25.]]))

Nhân hoặc cộng một tensor với một số vô hướng cũng sẽ không thay đổi kích thước của tensor, mỗi phần tử của tensor sẽ được cộng hoặc nhân cho số vô hướng đó.



In [86]:
a = 2
X = torch.arange(24, dtype = torch.float32).reshape(2, 3, 4)
a + X, (a * X).shape

(tensor([[[ 2.,  3.,  4.,  5.],
          [ 6.,  7.,  8.,  9.],
          [10., 11., 12., 13.]],
 
         [[14., 15., 16., 17.],
          [18., 19., 20., 21.],
          [22., 23., 24., 25.]]]), torch.Size([2, 3, 4]))

# 2.3.6 Rút gọn

Một phép toán hữu ích mà ta có thể thực hiện trên bất kỳ tensor nào là phép tính tổng các phần tử của nó. Trong mã nguồn, ta chỉ cần gọi hàm sum.

In [98]:
x = torch.arange(3, dtype = torch.float32)
x, x.sum()

(tensor([0., 1., 2.]), tensor(3.))

In [70]:
A.sum(), A.shape

(tensor(15.), torch.Size([2, 3]))

Theo mặc định, hàm sum sẽ rút gọn tensor dọc theo tất cả các trục của nó và trả về kết quả là một số vô hướng. Ta cũng có thể chỉ định các trục được rút gọn bằng phép tổng. Lấy ma trận làm ví dụ, để rút gọn theo chiều hàng (trục  0 ) bằng việc tính tổng tất cả các hàng, ta đặt axis=0 khi gọi hàm sum.

In [71]:
A_sum_axis0 = A.sum(axis=0)
A_sum_axis0, A_sum_axis0.shape

(tensor([3., 5., 7.]), torch.Size([3]))

Việc đặt axis=1 sẽ rút gọn theo cột (trục  1 ) bằng việc tính tổng tất cả các cột. Do đó, kích thước trục  1  của đầu vào sẽ không còn trong kích thước của đầu ra.

In [72]:
A_sum_axis1 = A.sum(axis=1)
A_sum_axis1, A_sum_axis1.shape

(tensor([ 3., 12.]), torch.Size([2]))

Việc rút gọn ma trận dọc theo cả hàng và cột bằng phép tổng tương đương với việc cộng tất cả các phần tử trong ma trận đó lại.

In [73]:
A.sum(axis=[0, 1]) == A.sum()  # Same as A.sum()

tensor(True)

Một đại lượng liên quan là trung bình cộng. Ta tính trung bình cộng bằng cách chia tổng các phần tử cho số lượng phần tử. Trong mã nguồn, ta chỉ cần gọi hàm mean với đầu vào là các tensor có kích thước tùy ý.

In [74]:
A.mean(), A.sum() / A.numel()

(tensor(2.5000), tensor(2.5000))

Giống như sum, hàm mean cũng có thể rút gọn tensor dọc theo các trục được chỉ định.

In [None]:
A.mean(axis=0), A.sum(axis=0) / A.shape[0]

(array([ 8.,  9., 10., 11.]), array([ 8.,  9., 10., 11.]))

## 2.3.6.1. Tổng không rút gọn

Tuy nhiên, việc giữ lại số các trục đôi khi là cần thiết khi gọi hàm sum hoặc mean, bằng cách đặt `keepdims=True`.

In [75]:
sum_A = A.sum(axis=1, keepdims=True)
sum_A

tensor([[ 3.],
        [12.]])

Ví dụ, vì sum_A vẫn giữ lại  2  trục sau khi tính tổng của mỗi hàng, chúng ta có thể chia A cho sum_A thông qua cơ chế lan truyền.

In [76]:
A / sum_A, A

(tensor([[0.0000, 0.3333, 0.6667],
         [0.2500, 0.3333, 0.4167]]), tensor([[0., 1., 2.],
         [3., 4., 5.]]))

Nếu chúng ta muốn tính tổng tích lũy các phần tử của A dọc theo các trục, giả sử axis=0 (từng hàng một), ta có thể gọi hàm `cumsum`. Hàm này không rút gọn chiều của tensor đầu vào theo bất cứ trục nào.

In [77]:
A.cumsum(axis=0)

tensor([[0., 1., 2.],
        [3., 5., 7.]])

# 2.3.7 Tích vô hướng

Một trong nhưng phép tính căn bản nhất của đại số tuyến tính là tích vô hướng

In [89]:
y = torch.ones(3, dtype = torch.float32)
x, y, torch.dot(x,y)

(tensor([0., 1., 2., 3.]), tensor([1., 1., 1., 1.]), tensor(6.))

Lưu ý rằng chúng ta có thể thể hiện tích vô hướng của hai vector một cách tương tự bằng việc thực hiện tích từng phần tử tương ứng rồi lấy tổng:

In [90]:
x*y, sum(x*y)

(tensor([0., 1., 2., 3.]), tensor(6.))

# 2.3.8. Tích giữa Ma trận và Vector

Giờ đây, khi đã biết cách tính toán tích vô hướng, chúng ta có thể bắt đầu hiểu tích giữa ma trận và vector.

Khi lập trình, để thực hiện nhân ma trận với vector ndarray, chúng ta cũng sử dụng hàm dot giống như tích vô hướng. Việc gọi np.dot(A, x) với ma trận A và một vector x sẽ thực hiện phép nhân vô hướng giữa ma trận và vector. Lưu ý rằng chiều của cột A (chiều dài theo trục  1 ) phải bằng với chiều của vector x (chiều dài của nó).

In [99]:
A.shape, x.shape, torch.mv(A, x), A@x

(torch.Size([2, 3]), torch.Size([3]), tensor([ 5., 14.]), tensor([ 5., 14.]))

# 2.3.9. Phép nhân Ma trận

Nếu ta đã quen với tích vô hướng và tích ma trận-vector, tích ma trận-ma trận cũng tương tự như thế.

Ta có thể coi tích hai ma trận  AB  như việc tính  m  phép nhân ma trận và vector, sau đó ghép các kết quả với nhau để tạo ra một ma trận  n×m . Giống như tích vô hướng và phép nhân ma trận-vector, ta có thể tính phép nhân hai ma trận bằng cách sử dụng hàm dot. Trong đoạn mã dưới đây, chúng ta tính phép nhân giữa A và B. Ở đây, A là một ma trận với  5  hàng  4  cột và B là một ma trận với 4 hàng 3 cột. Sau phép nhân này, ta thu được một ma trận với  5  hàng  3  cột.

In [100]:
B = torch.ones(3, 4)
torch.mm(A, B), A@B

(tensor([[ 3.,  3.,  3.,  3.],
         [12., 12., 12., 12.]]), tensor([[ 3.,  3.,  3.,  3.],
         [12., 12., 12., 12.]]))

# 2.3.10. Chuẩn

Một trong những toán tử hữu dụng nhất của đại số tuyến tính là chuẩn (norm). Nói dân dã thì, các chuẩn của một vector cho ta biết một vector lớn tầm nào. Thuật ngữ kích thước đang xét ở đây không nói tới số chiều không gian mà đúng hơn là về độ lớn của các thành phần.


Trong đại số tuyến tính, chuẩn của một vector là hàm số  f  ánh xạ một vector đến một số vô hướng, thỏa mãn các tính chất sau. Cho vector  **x**  bất kỳ, tính chất đầu tiên phát biểu rằng nếu chúng ta co giãn toàn bộ các phần tử của một vector bằng một hằng số  **α** , chuẩn của vector đó cũng co giãn theo **giá trị tuyệt đối** của hằng số đó:

$$\|\alpha \mathbf{x}\| = |\alpha| \|\mathbf{x}\|.$$

Tính chất thứ hai cũng giống như bất đẳng thức tam giác:

 $$\|\mathbf{x} + \mathbf{y}\| \leq \|\mathbf{x}\| + \|\mathbf{y}\|.$$

Tính chất thứ ba phát biểu rằng chuẩn phải không âm:

$$\|\mathbf{x}\| > 0 \text{ với mọi } \mathbf{x} \neq 0.$$

Chuẩn  $\ell_2$  của  x  là căn bậc hai của tổng các bình phương của các thành phần trong vector:

(**$$\|\mathbf{x}\|_2 = \sqrt{\sum_{i=1}^n x_i^2}.$$**)

Ở đó, chỉ số dưới  **2**  thường được lược đi khi viết chuẩn  $\ell_2$ , ví dụ,  $\|\mathbf{x}\|$  cũng tương đương với  $\|\mathbf{x}\|_2$ . Khi lập trình, ta có thể tính chuẩn  $\ell_2$  của một vector bằng cách gọi hàm `linalg.norm`.

In [101]:
u = torch.tensor([3.0, -4.0])
torch.norm(u)

tensor(5.)

Trong học sâu, chúng ta thường gặp chuẩn  $\ell_2$  bình phương hơn. Bạn cũng sẽ thường xuyên gặp chuẩn  $\ell_1$ , chuẩn được biểu diễn bằng tổng các giá trị tuyệt đối của các thành phần trong vector:

**$$\|\mathbf{x}\|_1 = \sum_{i=1}^n \left|x_i \right|.$$**

So với chuẩn  $\ell_2$ , nó ít bị ảnh ưởng bởi các giá trị ngoại biên hơn. Để tính chuẩn  $\ell_1$ , chúng ta dùng hàm giá trị tuyệt đối rồi lấy tổng các thành phần.

In [102]:
torch.abs(u).sum()

tensor(7.)

Cả hai chuẩn  $\ell_2$  và  $\ell_1$  đều là trường hợp riêng của một chuẩn tổng quát hơn, chuẩn  $\ell_p$ :

$$\|\mathbf{x}\|_p = \left(\sum_{i=1}^n \left|x_i \right|^p \right)^{1/p}.$$

Tương tự với chuẩn  $\ell_2$  của vector, chuẩn Frobenius của một ma trận  $X∈R^{m×n}$  là căn bậc hai của tổng các bình phương của các thành phần trong ma trận:

$$\|\mathbf{X}\|_F = \sqrt{\sum_{i=1}^m \sum_{j=1}^n x_{ij}^2}.$$

Chuẩn Frobenius thỏa mãn tất cả các tính chất của một chuẩn vector. Nó giống chuẩn  $\ell_2$  của một vector nhưng ở dạng của ma trận. Ta dùng hàm `linalg.norm` để tính toán chuẩn Frobenius của ma trận.

In [103]:
torch.norm(torch.ones((4, 9)))

tensor(6.)

## 2.3.10.1. Chuẩn và Mục tiêu

Tuy không muốn đi quá nhanh nhưng chúng ta có thể xây dựng phần nào trực giác để hiểu tại sao những khái niệm này lại hữu dụng. Trong học sâu, ta thường cố giải các bài toán tối ưu: cực đại hóa xác suất xảy ra của dữ liệu quan sát được; cực tiểu hóa khoảng cách giữa dự đoán và nhãn gốc. Gán các biểu diễn vector cho các đối tượng (như từ, sản phẩm hay các bài báo) để cực tiểu hóa khoảng cách giữa các đối tượng tương tự nhau và cực đại hóa khoảng cách giữa các đối tượng khác nhau. Mục tiêu, thành phần quan trọng nhất của một thuật toán học sâu (bên cạnh dữ liệu), thường được biễu diễn diễn theo chuẩn (norm)

# 2.3.11. Tóm tắt



* Số vô hướng, vector, ma trận, và
tensor là các đối tượng toán học cơ bản trong đại số tuyến tính.
* Vector là dạng tổng quát của số vô hướng và ma trận là dạng tổng quát của vector.
* Trong cách biểu diễn ndarray, các số vô hướng, vector, ma trận và tensor lần lượt có 0, 1, 2 và một số lượng tùy ý các trục.
* Một tensor có thể thu gọn theo một số trục bằng sum và mean.
*Phép nhân theo từng phần tử của hai ma trận được gọi là tích Hadamard của chúng. Phép toán này khác với phép nhân ma trận.
* Trong học sâu, chúng ta thường làm việc với các chuẩn như chuẩn  ℓ1 , chuẩn  ℓ2  và chuẩn Frobenius.
* Chúng ta có thể thực hiện một số lượng lớn các toán tử trên số vô hướng, vector, ma trận và tensor với các hàm của ndarray.



In [None]:
A / A.sum(axis = 1, keepdims= True)

array([[0.        , 0.16666667, 0.33333334, 0.5       ],
       [0.18181819, 0.22727273, 0.27272728, 0.3181818 ],
       [0.21052632, 0.23684211, 0.2631579 , 0.28947368],
       [0.22222222, 0.24074075, 0.25925925, 0.2777778 ],
       [0.22857143, 0.24285714, 0.25714287, 0.27142859]])

In [None]:
torch.tensor([
              [[]],
              [[]]
              ])

TypeError: ignored