Cần có các thư viện bổ sung sau để chạy Notebook này.

In [None]:
!pip install -U mxnet-cu101==1.7.0

# Thao tác với Dữ liệu

Muốn thực hiện bất cứ điều gì, chúng ta đều cần một cách nào đó để lưu trữ và thao tác với dữ liệu. Thường sẽ có hai điều quan trọng chúng ta cần làm với dữ liệu: 
1. thu thập dữ liệu.
2. xử lý sau khi đã có dữ liệu trên máy tính.

Sẽ thật vô nghĩa khi thu thập dữ liệu mà không có cách để lưu trữ nó, vậy nên trước tiên hãy cùng làm quen với dữ liệu tổng hợp. Để bắt đầu, chúng ta sẽ tìm hiểu về  mảng $n$ chiều (ndarray) – công cụ chính trong `MXNET` để lưu trữ và biến đổi dữ liệu. Trong `MXNet`, ndarray là một lớp và mỗi thực thể của lớp đó là “một ndarray” (còn gọi khác là *tensor*).

Nếu bạn từng làm việc với `NumPy`, gói tính toán phổ biến nhất trong `Python`, bạn sẽ thấy mục này quen thuộc. Việc này là có chủ đích. Việc thiết kế `ndarray` trong `MXNet` là một dạng mở rộng của ndarray trong NumPy với một vài tính năng đặc biệt. Thứ nhất, ndarray trong MXNet hỗ trợ tính toán phi đồng bộ trên CPU, GPU, và các kiến trúc phân tán đám mây, trong khi NumPy chỉ hỗ trợ tính toán trên CPU. Thứ hai, ndaray trong MXNet hỗ trợ tính vi phân tự động. Những tính chất này khiến ndarray của MXNet phù hợp với Deep Learning. 

## Bắt đầu 

Trong mục này, mục tiêu là trang bị cho bạn các kiến thức toán cơ bản và cài đặt các công cụ tính toán thường dùng trong Machine Learning. 


Để bắt đầu, ta cần khai báo modul `np` (numpy) và `npx` (numpy_extension) từ MXNet. Ở đây, modul `np` bao gồm các hàm hỗ trợ bởi NumPy, trong khi modul `npx` chứa một tập các hàm mở rộng được phát triển để hỗ trợ học sâu trong một môi trường giống với NumPy. 

Khi sử dụng ndarray, ta luôn cần gọi hàm `set_np`: điều này nhằm đảm bảo sự tương thích của việc xử lý ndarray bằng các thành phần khác của MXNet.

In [None]:
from mxnet import np, npx
npx.set_np()

Một ndarray biểu diễn một mảng (có thể đa chiều) các giá trị số. 

- Với một trục, một ndarray tương ứng (trong toán) với một vector. 
- Với hai trục, một ndarray tương ứng với một ma trận. 
- Các mảng với nhiều hơn hai trục không có tên toán học cụ thể – chúng được gọi chung là **tensor**.

Để bắt đầu, chúng ta sử dụng `arange` để tạo một vector hàng `x` chứa  12  số nguyên đầu tiên bắt đầu từ  0, nhưng được khởi tạo mặc định dưới dạng số thực. Mỗi giá trị trong một ndarray được gọi là một phần tử của ndarray đó. Như vậy, có 12 phần tử trong ndarray x. Nếu không nói gì thêm, một ndarray mới sẽ được lưu trong bộ nhớ chính và được tính toán trên CPU.



In [None]:
x = np.arange(12)
x

array([ 0.,  1.,  2.,  3.,  4.,  5.,  6.,  7.,  8.,  9., 10., 11.])

Chúng ta có thể lấy kích thước (độ dài theo mỗi trục) của ndarray bằng thuộc tính `shape`.

In [None]:
x.shape

(12,)

Nếu chỉ muốn biết tổng số phần tử của một ndarray, nghĩa là tích của tất cả các thành phần trong `shape`, ta có thể sử dụng thuộc tính `size`. Vì ta đang làm việc với một vector, cả shape và size của nó đều chứa cùng một phần tử duy nhất.

In [None]:
x.size

12

Để thay đổi kích thước của một ndarray mà không làm thay đổi số lượng phần tử cũng như giá trị của chúng, ta có thể gọi hàm `reshape`. 

Ví dụ, ta có thể biến đổi ndarray x trong ví dụ trên, từ một vector hàng với kích thước `( 12 ,)` sang một ma trận với kích thước `( 3 ,  4 )`. ndarray mới này chứa  12  phần tử y hệt, nhưng được xem như một ma trận với  3  hàng và  4  cột. Mặc dù kích thước thay đổi, các phần tử của x vẫn giữ nguyên. Chú ý rằng size giữ nguyên khi thay đổi kích thước.


In [None]:
X = x.reshape(3, 4)
X

array([[ 0.,  1.,  2.,  3.],
       [ 4.,  5.,  6.,  7.],
       [ 8.,  9., 10., 11.]])

Việc chỉ định cụ thể mọi chiều khi thay đổi kích thước là không cần thiết. Nếu kích thước mong muốn là một ma trận với kích thước (chiều_cao, chiều_rộng), thì sau khi biết chiều_rộng thì chiều_cao có thể được ngầm suy ra. 

Tại sao ta lại cần phải tự làm phép tính chia? Trong ví dụ trên, để có được một ma trận với  3  hàng, chúng ta phải chỉ định rõ rằng nó có  3  hàng và  4  cột. May mắn thay, ndarray có thể tự động tính một chiều từ các chiều còn lại. Ta có thể dùng chức năng này bằng cách đặt `-1` cho chiều mà ta muốn ndarray tự suy ra. Trong trường hợp vừa rồi, thay vì gọi `x.reshape(3, 4)`, ta có thể gọi `x.reshape(-1, 4)` hoặc `x.reshape(3, -1)`.





In [None]:
X = x.reshape(-1, 4)
X

array([[ 0.,  1.,  2.,  3.],
       [ 4.,  5.,  6.,  7.],
       [ 8.,  9., 10., 11.]])

Thông thường ta muốn khởi tạo các ma trận với các giá trị bằng không, bằng một, bằng hằng số nào đó hoặc bằng các mẫu ngẫu nhiên lấy từ một phân phối cụ thể. Ta có thể tạo một ndarray biểu diễn một tensor với tất cả các phần tử bằng  0  và có kích thước ( 2 ,  3 ,  4 ) như sau:

In [None]:
np.zeros((2, 3, 4))

array([[[0., 0., 0., 0.],
        [0., 0., 0., 0.],
        [0., 0., 0., 0.]],

       [[0., 0., 0., 0.],
        [0., 0., 0., 0.],
        [0., 0., 0., 0.]]])

Tương tự, ta có thể tạo các tensor với các phần tử bằng 1 như sau:

In [None]:
np.ones((2, 3, 4))

array([[[1., 1., 1., 1.],
        [1., 1., 1., 1.],
        [1., 1., 1., 1.]],

       [[1., 1., 1., 1.],
        [1., 1., 1., 1.],
        [1., 1., 1., 1.]]])



Ta thường muốn lấy mẫu ngẫu nhiên cho mỗi phần tử trong một ndarray từ một phân phối xác suất. Ví dụ, khi xây dựng các mảng để chứa các tham số của một mạng nơ-ron, ta thường khởi tạo chúng với các giá trị ngẫu nhiên. Đoạn mã dưới đây tạo một ndarray có kích thước ( 3 ,  4 ) với các phần tử được lấy mẫu ngẫu nhiên từ một phân phối Gauss (phân phối chuẩn) với trung bình bằng  0  và độ lệch chuẩn  1 .


In [None]:
np.random.normal(0, 1, size=(3, 4))

array([[ 2.2122064 ,  1.1630787 ,  0.7740038 ,  0.4838046 ],
       [ 1.0434403 ,  0.29956347,  1.1839255 ,  0.15302546],
       [ 1.8917114 , -1.1688148 , -1.2347414 ,  1.5580711 ]])

Ta cũng có thể khởi tạo giá trị cụ thể cho mỗi phần tử trong ndarray mong muốn bằng cách đưa vào một mảng Python (hoặc mảng của mảng) chứa các giá trị số. Ở đây, mảng ngoài cùng tương ứng với trục  0 , và mảng bên trong tương ứng với trục  1 .


In [None]:
np.array([[2, 1, 4, 3], [1, 2, 3, 4], [4, 3, 2, 1]])

array([[2., 1., 4., 3.],
       [1., 2., 3., 4.],
       [4., 3., 2., 1.]])

## Phép toán

Trong MXNet, các phép toán tiêu chuẩn (`+`, `-`, `*`, `/`, và `**`) là các phép toán theo từng phần tử trên các tensor đồng kích thước bất kỳ. Ta có thể gọi những phép toán theo từng phần tử lên hai tensor đồng kích thước. Trong ví dụ dưới đây, các dấu phẩy được sử dụng để tạo một tuple  5  phần tử với mỗi phần tử là kết quả của một phép toán theo từng phần tử.


In [None]:
x = np.array([1, 2, 4, 8])
y = np.array([2, 2, 2, 2])
x + y, x - y, x * y, x / y, x ** y  # The ** operator is exponentiation

(array([ 3.,  4.,  6., 10.]),
 array([-1.,  0.,  2.,  6.]),
 array([ 2.,  4.,  8., 16.]),
 array([0.5, 1. , 2. , 4. ]),
 array([ 1.,  4., 16., 64.]))


Rất nhiều các phép toán khác có thể được áp dụng theo từng phần tử, bao gồm các phép toán đơn ngôi như hàm mũ cơ số  𝑒 .

In [None]:
np.exp(x)

array([2.7182817e+00, 7.3890562e+00, 5.4598148e+01, 2.9809580e+03])



Ta cũng có thể nối nhiều `ndarray` với nhau, xếp chồng chúng lên nhau để tạo ra một `ndarray` lớn hơn. Ta chỉ cần cung cấp một danh sách các ndarray và khai báo chúng được nối theo trục nào. 

Ví dụ dưới đây thể hiện cách nối hai ma trận theo hàng (trục  0 , phần tử đầu tiên của kích thước) và theo cột (trục  1 , phần tử thứ hai của kích thước). 

Ta có thể thấy rằng:
- Cách thứ nhất tạo một ndarray với độ dài trục  0  ( 6 ) bằng tổng các độ dài trục  0  của hai ndarray đầu vào ( 3+3 )
- Cách thứ hai tạo một ndarray với độ dài trục  1  ( 8 ) bằng tổng các độ dài trục  1  của hai ndarray đầu vào ( 4+4 ).


In [None]:
X = np.arange(12).reshape(3, 4)
Y = np.array([[2, 1, 4, 3], [1, 2, 3, 4], [4, 3, 2, 1]])

# Cách 1
np.concatenate([X, Y], axis=0)

array([[ 0.,  1.,  2.,  3.],
       [ 4.,  5.,  6.,  7.],
       [ 8.,  9., 10., 11.],
       [ 2.,  1.,  4.,  3.],
       [ 1.,  2.,  3.,  4.],
       [ 4.,  3.,  2.,  1.]])

In [None]:
# Cách 2 
np.concatenate([X, Y], axis=1)

array([[ 0.,  1.,  2.,  3.,  2.,  1.,  4.,  3.],
       [ 4.,  5.,  6.,  7.,  1.,  2.,  3.,  4.],
       [ 8.,  9., 10., 11.,  4.,  3.,  2.,  1.]])


Đôi khi, ta muốn tạo một ndarray nhị phân thông qua các mệnh đề logic. Lấy `x == y` làm ví dụ. Với mỗi vị trí, nếu giá trị của x và y tại vị trí đó bằng nhau thì phần tử tương ứng trong ndarray mới lấy giá trị  `1` , nghĩa là mệnh đề logic x == y là đúng tại vị trí đó; ngược lại vị trí đó lấy giá trị  `0` .

In [None]:
X == Y

array([[False,  True, False,  True],
       [False, False, False, False],
       [False, False, False, False]])

Lấy tổng mọi phần tử trong một ndarray tạo ra một ndarray với chỉ một phần tử.

In [None]:
X.sum()

array(66.)

## Cơ chế Lan truyền (Broadcasting Mechanism)

Trong mục trên, ta đã thấy cách thực hiện các phép toán theo từng phần tử với hai ndarray đồng kích thước. Trong những điều kiện nhất định, thậm chí khi kích thước khác nhau, ta vẫn có thể thực hiện các phép toán theo từng phần tử bằng cách sử dụng cơ chế lan truyền (broadcasting mechanism). Cơ chế này hoạt động như sau: 
- Thứ nhất, mở rộng một hoặc cả hai mảng bằng cách lặp lại các phần tử một cách hợp lý sao cho sau phép biến đổi này, hai ndarray có cùng kích thước. 
- Thứ hai, thực hiện các phép toán theo từng phần tử với hai mảng mới này.

Trong hầu hết các trường hợp, chúng ta lan truyền một mảng theo trục có độ dài ban đầu là  1 , như ví dụ dưới đây:


In [None]:
a = np.arange(3).reshape(3, 1)
b = np.arange(2).reshape(1, 2)
a, b

(array([[0.],
        [1.],
        [2.]]), array([[0., 1.]]))


Vì `a` và `b` là các ma trận có kích thước lần lượt là  `3×1`  và  `1×2` , kích thước của chúng không khớp nếu ta muốn thực hiện phép cộng. Ta lan truyền các phần tử của cả hai ma trận thành các ma trận  `3×2`  như sau: lặp lại các cột trong ma trận `a` và các hàng trong ma trận `b` trước khi cộng chúng theo từng phần tử.


In [None]:
a + b

array([[0., 1.],
       [1., 2.],
       [2., 3.]])

## Chỉ số và Cắt chọn mảng

Cũng giống như trong bất kỳ mảng Python khác, các phần tử trong một ndarray có thể được truy cập theo chỉ số. Tương tự, phần tử đầu tiên có chỉ số  0  và khoảng được cắt chọn bao gồm phần tử đầu tiên nhưng không tính phần tử cuối cùng. Và trong các danh sách Python tiêu chuẩn, chúng ta có thể truy cập các phần tử theo vị trí đếm ngược từ cuối danh sách bằng cách sử dụng các chỉ số âm.

Vì vậy, `[-1]` chọn phần tử cuối cùng và `[1:3]` chọn phần tử thứ hai và phần tử thứ ba như sau:


In [None]:
X[-1], X[1:3]

(array([ 8.,  9., 10., 11.]), array([[ 4.,  5.,  6.,  7.],
        [ 8.,  9., 10., 11.]]))

Ngoài việc đọc, chúng ta cũng có thể viết các phần tử của ma trận bằng cách chỉ định các chỉ số.

In [None]:
X[1, 2] = 9
X

array([[ 0.,  1.,  2.,  3.],
       [ 4.,  5.,  9.,  7.],
       [ 8.,  9., 10., 11.]])

Nếu chúng ta muốn gán cùng một giá trị cho nhiều phần tử, chúng ta chỉ cần trỏ đến tất cả các phần tử đó và gán giá trị cho chúng. Chẳng hạn, `[0:2 ,:]` truy cập vào hàng thứ nhất và thứ hai, trong đó `:` lấy tất cả các phần tử dọc theo trục  1  (cột). Ở đây chúng ta đã thảo luận về cách truy cập vào ma trận, nhưng tất nhiên phương thức này cũng áp dụng cho các vector và tensor với nhiều hơn  2  chiều.


In [None]:
X[0:2, :] = 12
X

array([[12., 12., 12., 12.],
       [12., 12., 12., 12.],
       [ 8.,  9., 10., 11.]])

## Tiết kiệm Bộ nhớ

Ở ví dụ trước, mỗi khi chạy một phép tính, chúng ta sẽ cấp phát bộ nhớ mới để lưu trữ kết quả của lượt chạy đó. Cụ thể hơn, nếu viết `y = x + y`, ta sẽ ngừng tham chiếu đến ndarray mà `y` đã chỉ đến trước đó và thay vào đó gán `y` vào bộ nhớ được cấp phát mới. Trong ví dụ tiếp theo, chúng ta sẽ minh họa việc này với hàm `id()` của Python - hàm cung cấp địa chỉ chính xác của một đối tượng được tham chiếu trong bộ nhớ. Sau khi chạy `y = y + x`, chúng ta nhận ra rằng `id(y)` chỉ đến một địa chỉ khác. Đó là bởi vì Python trước hết sẽ tính `y + x`, cấp phát bộ nhớ mới cho kết quả trả về và gán `y` vào địa chỉ mới này trong bộ nhớ.


In [None]:
before = id(Y)
Y = Y + X
id(Y) == before

False

Đây có thể là điều không mong muốn vì hai lý do. 
- Thứ nhất, không phải lúc nào chúng ta cũng muốn cấp phát bộ nhớ không cần thiết. Trong học máy, ta có thể có đến hàng trăm megabytes tham số và cập nhật tất cả chúng nhiều lần mỗi giây, và thường thì ta muốn thực thi các cập nhật này tại chỗ. 
- Thứ hai, chúng ta có thể trỏ đến cùng tham số từ nhiều biến khác nhau. Nếu không cập nhật tại chỗ, các bộ nhớ đã bị loại bỏ sẽ không được giải phóng, dẫn đến khả năng một số chỗ trong mã nguồn sẽ vô tình tham chiếu lại các tham số cũ.

May mắn thay, ta có thể dễ dàng thực hiện các phép tính tại chỗ với MXNet. Chúng ta có thể gán kết quả của một phép tính cho một mảng đã được cấp phát trước đó bằng ký hiệu cắt chọn (slice notation).

Ví dụ, `y[:] = <expression>`. 

Để minh họa khái niệm này, đầu tiên chúng ta tạo một ma trận mới z có cùng kích thước với ma trận y, sử dụng zeros_like để gán giá trị khởi tạo bằng  0 .


In [None]:
Z = np.zeros_like(Y)
print('id(Z):', id(Z))
Z[:] = X + Y
print('id(Z):', id(Z))

id(Z): 140257831962664
id(Z): 140257831962664


Nếu các tính toán tiếp theo không tái sử dụng giá trị của `x`, chúng ta có thể viết `x[:] = x + y` hoặc `x += y` để giảm thiểu việc sử dụng bộ nhớ không cần thiết trong quá trình tính toán.


In [None]:
before = id(X)
X += Y
id(X) == before

True

## Chuyển đổi sang các Đối Tượng Python Khác

Chuyển đổi một MXNet ndarray sang NumPy ndarray hoặc ngược lại là khá đơn giản. Tuy nhiên, kết quả của phép chuyển đổi này không chia sẻ bộ nhớ với đối tượng cũ. Điểm bất tiện này tuy nhỏ nhưng lại khá quan trọng: khi bạn thực hiện các phép tính trên CPU hoặc GPUs, bạn không muốn MXNet dừng việc tính toán để chờ xem liệu gói Numpy của Python có sử dụng cùng bộ nhớ đó để làm việc khác không. Hàm array và asnumpy sẽ giúp bạn giải quyết vấn đề này.


In [None]:
A = X.asnumpy()
B = np.array(A)
type(A), type(B)

(numpy.ndarray, mxnet.numpy.ndarray)

Để chuyển đổi một mảng ndarray chứa một phần tử sang số vô hướng Python, ta có thể gọi hàm `item` hoặc các hàm có sẵn trong Python.

In [None]:
a = np.array([3.5])
a, a.item(), float(a), int(a)

(array([3.5]), 3.5, 3.5, 3)

## Tổng kết 

* MXNet ndarray là phần mở rộng của NumPy ndarray với một số ưu thế vượt trội giúp cho nó phù hợp với học sâu.
* MXNet ndarray cung cấp nhiều chức năng bao gồm các phép toán cơ bản, cơ chế lan truyền (broadcasting), chỉ số (indexing), cắt chọn (slicing), tiết kiệm bộ nhớ và khả năng chuyển đổi sang các đối tượng Python khác.

