In [1]:
import numpy
from numpy import array

### 2.0 Mảng nhiều chiều
Trong Numpy, người ta thường dùng mảng numpy hai chiều để thể hiện một ma trận. Mảng hai chiều có thể coi là một mảng của các mảng một chiều. Trong đó, mỗi mảng nhỏ một chiều tương ứng với một hàng của ma trận. <br>
Nói cách khác, ma trận có thể được coi là mảng của các vector hàng - mỗi vector hàng được biểu diễn bằng một mảng numpy một chiều. <br>

In [2]:
array([[1, 2],
       [3, 4]])

array([[1, 2],
       [3, 4]])

Ở đây chúng ta có thể nhìn thấy ba mảng, mỗi mảng được thể hiện bằng một cặp đóng mở ngoặc vuông []:
- Hai mảng [1, 2] và [3, 4] thể hiện các hàng của ma trận. Chúng là các mảng một chiều.
- Mảng [[1, 2], [3, 4]] có hai phân tử, mỗi phần tử là một hàng của ma trận.

Theo quy ước của Numpy, chúng ta cần đi từ mảng ngoài cùng tới các mảng trong:
- Mảng lớn nhất là [[1, 2], [3, 4]] được coi là mảng ứng với axis = 0. Trong mảng này, thành phần thứ nhất là [1, 2], thành phần thứ hai là [3, 4].
- Hai mảng lớn thứ hai là [1, 2] và [3, 4] được coi là các mảng ứng với axis = 1.

<img src="./images/array2d.png" align="center" width="400">

**Chú ý:**
1. Một mảng numpy hoàn toàn có thể có nhiều hơn hai chiều. Khi đó ta vẫn đi từ cặp ngoặc vuông ngoài cùng vào tới trong cùng, axis cũng đi từ 0, 1, ... theo thứ tự đó.

2. Mỗi mảng con phải có số phần tử bằng nhau, thể hiện cho việc mỗi hàng của ma trận phải có số chiều như nhau, không có hàng nào thò ra thụt vào.

3. Khi làm việc với các thư viện cho Machine Learning, mỗi điểm dữ liệu thường được coi là một mảng một chiều. Tập hợp các điểm dữ liệu thường được lưu trong một ma trận - tức mảng của các mảng một chiều. Trong ma trận này, mỗi hàng tương ứng với một điểm dữ liệu.

### 2.1 Khởi tạo một ma trận

#### 2.1.1 Khởi tạo một ma trận
Cách đơn giản nhất để khởi tạo một ma trận là nhập vào từng phần tử của ma trận đó.

In [3]:
A = numpy.array([[1, 2],
                 [3, 4]])
print(A)

[[1 2]
 [3 4]]


Khi khai báo một mảng numpy nói chung, nếu ít nhất một phần tử của mảng là float, type của mọi phần tử trong mảng sẽ được coi là 'numpy.float64'

Ngược lại, nếu toàn bộ các phần tử là số nguyên, type của mọi phần tử trong mảng sẽ được coi là 'numpy.int64'

Nếu muốn chỉ định type của các phần tử trong mảng, ta cần đặt giá trị cho dtype

In [4]:
B = numpy.array([[1, 2, 3], [4, 5, 6]], dtype = numpy.float64)
print(type(B[0][0]))

<class 'numpy.float64'>


### 2.2 Ma trận đơn vị và ma trận đường chéo

#### 2.2.1 Ma trận đơn vị
Để tạo một ma trận đơn vị có số chiều bằng n, chúng ta sử dụng hàm numpy.eye

In [5]:
numpy.eye(3, dtype = numpy.int64)

array([[1, 0, 0],
       [0, 1, 0],
       [0, 0, 1]])

Hàm numpy.eye cũng được dùng để tạo các ma trận toàn 1 ở một đường chéo phụ nào đó, các thành phần còn lại bằng 0

In [6]:
print(numpy.eye(3, k = 1,dtype = numpy.int64))
print(numpy.eye(4, k = -2,dtype = numpy.int64))

[[0 1 0]
 [0 0 1]
 [0 0 0]]
[[0 0 0 0]
 [0 0 0 0]
 [1 0 0 0]
 [0 1 0 0]]


[Thông tin thêm về cách sử dụng hàm numpy.eye](https://docs.scipy.org/doc/numpy-1.13.0/reference/generated/numpy.eye.html)

#### 2.2.2 Ma trận đường chéo
Để khai báo một ma trận đường chéo, hoặc muốn trích xuất đường chéo của một ma trận, ta dùng hàm numpy.diag

In [7]:
A = numpy.diag([1, 3, 4])
print(A)
print(numpy.diag(A,k = 0))

[[1 0 0]
 [0 3 0]
 [0 0 4]]
[1 3 4]


- Nếu đầu vào là một mảng một chiều, trả về một mảng hai chiều thể hiện ma trận có đường chéo là các phần tử thuộc mảng đó.

- Nếu đầu vào là một mảng hai chiều (có thể không vuông), trả về mảng một chiều chứa các giá trị ở hàng thứ $i$, cột thứ i với $0 <= i <= min(m, n)$. Trong đó $m$, $n$ lần lượt là số hàng và số cột của ma trận được biểu diễn bằng mảng hai chiều ban đầu.

### 2.3 Kích thước của ma trận
Để tìm kích thước của mảng hai chiều, ta sử dụng thuộc tính shape

In [8]:
A = numpy.array([[1, 2, 3, 4],
                 [5, 6, 7, 7],
                 [9,10,11,12]])
print(A.shape)

(3, 4)


### 2.4 Truy cập vào từng phần tử của ma trận

#### 2.4.1 Truy cập vào từng phần tử
Để truy cập vào phần từ ở hàng thứ $i$, cột thứ $j$ của ma trận, ta có thể coi đó là phần từ thứ $j$ của mảng $i$ trong mảng hai chiều ban đầu

In [9]:
# A[i][j] hoặc A[i,j]
A = numpy.array([[1, 2, 3],
                 [4, 5, 6],
                 [7, 8, 9]])

print(A[1][2])
print(A[1,2])

6
6


#### 2.4.2 Truy cập vào hàng/cột
Để truy cập vào hàng có chỉ số $i$ của một ma trận $A$, ta chỉ cần dùng $A[i]$ hoặc $A[i,:]$ hoặc $A[i][:]$

In [10]:
print(A[2])
print(A[0][:])

[7 8 9]
[1 2 3]


Để truy cập vào cột có chỉ số $j$, ta dùng $A[:,j]$

In [11]:
print(A[:,1])

[2 5 8]


**Lưu ý:**
- *Trong Numpy, kết quả trả về của một cột hay hàng đều là một mảng một chiều, không phải là một vector cột như trong Matlab. Tuy nhiên, khi lấy một ma trận nhân với nó, nó vẫn được coi là một vector cột.*

- Nếu sử dụng $A[:][i]$, kết quả trả về là hàng $i$ chứ không phải cột $i$. Trong trường hợp này, $A[:]$ vẫn được hiểu là cả ma trận $A$, vì vậy nên $A[:][i]$ tương đương với $A[i]$.

- Có sự khác nhau căn bản giữa $A$ và $A[:]$

### 2.5 Truy cập vào nhiều phần tử của ma trận

#### 2.5.1 Nhiều phần tử trong cùng một hàng

In [12]:
A = numpy.array([[1, 2, 3, 4],
                 [5, 6, 7, 8],
                 [9, 10, 11, 12]])
print(A[0,2:])
print(A[-1,range(0, A.shape[1], 2)])

[3 4]
[ 9 11]


trong đó, $range(0, A.shape[1], 2)$ tạo ra một list các phần tử là cấp số cộng với công sai là 2, bắt đầu từ 0 và kết thúc tại số lớn nhất có thể không vượt quá số cột của $A$. Số cột của $A$ chính là $A.shape[1]$

#### 2.5.2 Nhiều phần tử trong cùng một cột
Tương tự với nhiều phần tử trong cùng một hàng

#### 2.5.3 Nhiều hàng, nhiều cột

In [13]:
A[[1, 2]][:,[0,3]]


array([[ 5,  8],
       [ 9, 12]])

$A[[1, 2]][:, [0,3]]$ có thể hiểu được là: đầu tiên lấy hai hàng có chỉ số $1$ và $2$ bằng $A[[1, 2]]$, ta được một ma trận, sau đó lấy hai cột có chỉ số $0$ và $3$ của ma trận mới này.

In [14]:
Mat = A[0:A.shape[0]:2][:,0:A.shape[1]:2]
print(Mat)

[[ 1  3]
 [ 9 11]]


#### 2.5.4 Cặp các tọa độ

In [15]:
A[[1, 2], [0, 3]]

array([ 5, 12])

Câu lệnh này sẽ trả về một mảng một chiều gồm các phần tử: $A[1][0]$ và $A[2][3]$ , tức $[1, 2]$ và $[0, 3]$ là list các toạ độ theo mỗi chiều. Hai list này phải có độ dài bằng nhau hoặc một list có độ dài bằng 1. Khi một list có độ dài bằng 1, nó sẽ được cặp với mọi phần tử của list còn lại.

In [16]:
A[[1, 2], [0]]

array([5, 9])

### 2.6 Numpy.max, numpy.min, numpy.sum, numpy.mean cho mảng nhiều chiều
Nhắc lại về cách quy ước $axis$ của ma trận, $axis = 0$ là tính theo chiều từ trên xuống dưới, nghĩa là phương của nó cùng với phương của các cột. Tương tự $axis = 1$ sẽ có phương cùng với phương của các hàng.

<img src="./images/array2d.png" align="center" width="400">

In [17]:
A = numpy.array([[1, 2, 3, 4],
                 [5, 6, 7, 8],
                 [9, 10, 11, 12]])
# Khi axis bằng 0
print('Sum with axis = 0: {}'.format(numpy.sum(A, axis = 0)))
print('Min with axis = 0: {}'.format(numpy.min(A, axis = 0)))
print('Max with axis = 0: {}'.format(numpy.max(A, axis = 0)))
print('Average with axis = 0: {}'.format(numpy.mean(A, axis = 0)))
print('-----------------------------------------')
# Khi axis bằng 1
print(f'Sum with axis = 1: {numpy.sum(A, axis = 1)}')
print(f'Min with axis = 1: {numpy.min(A, axis = 1)}')
print(f'Max with axis = 1: {numpy.max(A, axis = 1)}')
print(f'Average with axis = 1: {numpy.mean(A, axis = 1)}')

Sum with axis = 0: [15 18 21 24]
Min with axis = 0: [1 2 3 4]
Max with axis = 0: [ 9 10 11 12]
Average with axis = 0: [5. 6. 7. 8.]
-----------------------------------------
Sum with axis = 1: [10 26 42]
Min with axis = 1: [1 5 9]
Max with axis = 1: [ 4  8 12]
Average with axis = 1: [ 2.5  6.5 10.5]


Khi không đề cập tới axis, kết quả được tính trên toàn bộ ma trận

In [18]:
print('Sum: {}'.format(numpy.sum(A)))
print('Min: {}'.format(numpy.min(A)))
print('Max: {}'.format(numpy.max(A)))
print('Average: {}'.format(numpy.mean(A)))

Sum: 78
Min: 1
Max: 12
Average: 6.5


Thuộc tính $keepdims$: <br>
Đôi khi, để thuận tiện cho việc tính toán về sau, chúng ta muốn kết quả trả về khi $axis = 0$ là các vector hàng **thực sự**, khi $axis = 1$ là các vector cột **thực sự**. Để làm được việc đó, Numpy cung cấp thuộc tính $keepdims$ = $True$ (mặc định là $False$). Khi keepdims = True, nếu sử dụng $axis = 0$, kết quả sẽ là một mảng hai chiều có chiều thứ nhất bằng 1 (coi như ma trận một hàng). Tương tự, nếu sử dụng $axis = 1$, kết quả sẽ là một mảng hai chiều có chiều thứ hai bằng 1 (một ma trận có số cột bằng 1).

In [19]:
print(numpy.sum(A, axis = 0, keepdims = True))
print(numpy.mean(A, axis = 1, keepdims = True))

[[15 18 21 24]]
[[ 2.5]
 [ 6.5]
 [10.5]]


### 2.7 Các phép toán tác động đến mọi phần tử của ma trận

#### 2.7.1 Tính toán giữa một mảng hai chiều và một số vô hướng

In [20]:
A = numpy.array([[1, 2, 3, 4],
                 [5, 6, 7, 8],
                 [9, 10, 11, 12]])
print(A + 2)
print(A * 2)
print(2 ** A)

[[ 3  4  5  6]
 [ 7  8  9 10]
 [11 12 13 14]]
[[ 2  4  6  8]
 [10 12 14 16]
 [18 20 22 24]]
[[   2    4    8   16]
 [  32   64  128  256]
 [ 512 1024 2048 4096]]


#### 2.7.2 numpy.abs, numpy.sin, numpy.exp,...

In [21]:
A = numpy.random.randn(3,4)
print(A)
print(numpy.abs(A))

[[ 2.27726742  0.79515644  0.17406847  0.08115392]
 [ 0.82998138  1.18687824 -1.0040884  -0.16232969]
 [ 0.07336832  0.53324641  1.02692534 -0.42735789]]
[[2.27726742 0.79515644 0.17406847 0.08115392]
 [0.82998138 1.18687824 1.0040884  0.16232969]
 [0.07336832 0.53324641 1.02692534 0.42735789]]


**Frobenious Norm**

![](./images/Frobenious-Norm.png)

In [22]:
A = numpy.array([[1, 2],
                 [3, 5]])
print(numpy.sqrt(numpy.sum(A**2)))
print(numpy.linalg.norm(A, ord = 'fro'))

6.244997998398398
6.244997998398398


### 2.8 Các phép toán giữa hai ma trận
Các phép toán cộng, trừ, nhân, chia, luỹ thừa (+, -, *, /, **) giữa hai mảng **cùng kích thước** cũng được thực hiện dựa trên từng cặp phần tử. Kết quả trả về là một mảng cùng chiều với hai mảng đã cho

In [23]:
A = numpy.array([[1., 5],
                 [2, 3]])
B = numpy.array([[5., 8],
                 [7, 3]])
print(A * B)
print(A ** B)

[[ 5. 40.]
 [14.  9.]]
[[1.00000e+00 3.90625e+05]
 [1.28000e+02 2.70000e+01]]


### 2.9 Chuyển vị ma trận, Reshape ma trận

#### 2.9.1 Chuyển vị ma trận
Có hai cách để lấy chuyển vị của một ma trận: dùng thuộc tính .T hoặc dùng hàm numpy.transpose

In [24]:
A = numpy.array([[1, 2, 3],
                 [4, 5, 6]])
print(A.T)

[[1 4]
 [2 5]
 [3 6]]


#### 2.9.2 Reshape
Khi làm việc với ma trận, chúng ta sẽ phải thường xuyên làm việc với các phép biến đổi kích thước của ma trận. Phép biến đổi kích thước có thể coi là việc sắp xếp lại các phần tử của một ma trận vào một ma trận khác có tổng số phần tử như nhau.

Trong numpy, để làm được việc này chúng ta dùng phương thức .reshape hoặc hàm np.reshape.

In [25]:
print(numpy.reshape(A, (1,-1)))
print(A.reshape(3,2))
print(A.reshape(6)) # to 1d array and size is 6

[[1 2 3 4 5 6]]
[[1 2]
 [3 4]
 [5 6]]
[1 2 3 4 5 6]


#### 2.9.3 Thứ tự của phép toán reshape
- Có một điểm quan trọng cần nhớ là thứ tự của phép toán reshape: các phần tử trong mảng mới được sắp xếp như thế nào. Có hai cách sắp xếp chúng ta cần lưu ý: mặc định là 'C'-order, và một cách khác là 'F'-order

- Trong 'C'-order, các thành phần của mảng nguồn được quét từ axis trong ra ngoài (axis = 1 rồi mới tới axis = 0 trong mảng hai chiều, tức từng hàng một), sau đó chúng được xếp vào mảng đích cũng theo thứ tự đó.

- Trong 'F'-oder (Fortran) các thành phần của mảng nguồn được quét từ axis ngoài vào trong (trong mảng hai chiều là từng cột một), sau đó chúng được sắp xếp vào mảng đích cũng theo thứ tự đó - từng cột một.

In [26]:
print(A.reshape(3, -1, order = 'C'))
print(A.reshape(3, -1, order = 'F'))

[[1 2]
 [3 4]
 [5 6]]
[[1 5]
 [4 3]
 [2 6]]


### 2.10 Các phép toán giữa ma trận và vector

In [27]:
A = numpy.arange(12).reshape(3, -1)
B = array([1, 2, 3, 4])
print(A)
print(A + B)
print(A * B)

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]
[[ 1  3  5  7]
 [ 5  7  9 11]
 [ 9 11 13 15]]
[[ 0  2  6 12]
 [ 4 10 18 28]
 [ 8 18 30 44]]


### 2.11 Tích giữa hai ma trận, tích giữa ma trận và vector
![](./images/mat-mul.png)

Cho hai mảng numpy hai chiều A, B trong đó $A.shape[1] == B.shape[0]$. Nếu hai mảng này mô tả hai ma trận thì tích của hai ma trận (theo ĐSTT) có thể được thực hiện bằng thuộc tính .dot hoặc hàm numpy.dot hoặc có thể dùng toán tử @

In [28]:
A = numpy.arange(12).reshape(4,3)
B = numpy.arange(15).reshape(3,-1)
print(A @ B)

[[ 25  28  31  34  37]
 [ 70  82  94 106 118]
 [115 136 157 178 199]
 [160 190 220 250 280]]


#### 2.11.2 Tích giữa một ma trận và một vector
Trong ĐSTT, tích giữa một ma trận và một vector cột được coi là một trường hợp đặc biệt của tích giữa một ma trận và một ma trận có số cột bằng một. Khi làm việc với numpy, ma trận được mô tả bởi mảng hai chiều, vector được mô tả bởi các mảng một chiều.

In [29]:
A = numpy.arange(12).reshape(4,3)
b = numpy.array([1, 3, 4])
print(A @ b)

[11 35 59 83]


Tích của mảng hai chiều $A$ và mảng một chiều $b$ với $A.shape[1] == b.shape[0]$ theo ĐSTT được thực hiện bằng phương thức $.dot()$ của mảng numpy A. Kết quả trả về là một mảng một chiều có $shape[0] == 4$. Chúng ta cần chú ý một chút ở đây là kết quả trả về là một mảng một chiều chứ không phải một vector cột (được biểu diễn bởi một mảng hai chiều có $shape[1] = 1$) như trên lý thuyết.

In [30]:
print(b @ A)

ValueError: matmul: Input operand 1 has a mismatch in its core dimension 0, with gufunc signature (n?,k),(k,m?)->(n?,m?) (size 4 is different from 3)

Ta thấy rằng nếu đặt b lên trước A thì có lỗi xảy ra vì xung đột chiều. <br>

**Lưu ý:**
- Nếu mảng một chiều được nhân vào sau một mảng hai chiều, nó được coi như một vector cột. Nếu nó được nhân vào trước một mảng hai chiều, nó lại được coi là một vector hàng.

### 2.12 Softmax III - Phiên bản tổng quát
![](./images/softmax-general.png)