# Đại số tuyến tính

## 1.1 Số vô hướng
Trong cuộc sống hàng ngày của chúng ta sẽ gặp rất nhiều số vô hướng (scalar). Giá trị của tiền thuê nhà mà bạn phải trả là một số vô hướng. Bạn vừa thực hiện một bài kiểm tra, bạn được 9 điểm thì điểm số này cũng là một số vô hướng...

=> Tóm lại số vô hướng là một con số cụ thể. Số vô hướng sẽ khác với biến số vì biến số có thể nhận nhiều giá trị trong khi số vô hướng chỉ nhận một giá trị duy nhất. VD: khi giá nhà y theo diện tích x theo phương trình: y = 20x + 200 thì các số vô hướng là *20, 200*, và các biến là *x, y*

Số vô hướng có thể được coi như hằng số trong một phương trình. Chúng ta có thể thực hiện các phép toán cộng/trừ/nhân/chia với số vô hướng như với hằng số

In [43]:
import numpy as np

a = np.array(20)
b = np.array(200)
print("diện tích x = 50 --> giá nhà y = a*50+b = ", a*50+b)

diện tích x = 50 --> giá nhà y = a*50+b =  1200


## 1.2. Vector
Vector là một khái niệm cơ bản nhất của toán học. Chúng ta có thể coi vector là một tập hợp nhiều giá trị của số vô hướng. 

Vector là một đại lượng biểu diễn cho cả độ lớn và hướng. Ví dụ như để biểu diễn một lực nào đó tác dụng lên vật, ta có một vector gồm có 2 thành phần – độ lớn lực tác động lên vật đó và hướng tác động. Hay ta có thể dùng vector để biểu diễn vận tốc – tốc độ và hướng. Ngoài ra, ta còn có dạng vector thuần chỉ hướng

Trong khoa học máy tính và dữ liệu, chúng ta khái quát ý tưởng đó để coi vector như là một danh sách các thuộc tính của một đối tượng. Ví dụ một ngôi nhà có một số các thuộc tính như diện tích mặt sàn (100m2), số lượng phòng ngủ(3 pn), số lượng phòng tắm(2pt), và giá của nó(3tỷ)... từ đó ta có thể dùng vector để biểu diễn chúng:
[100, 3, 2, 3]. Ngoài ra vector cũng có thể được sử dụng để thể hiện cho sự thay đổi của một thuộc tính riêng.

$$\begin{split}\mathbf{x}=\begin{bmatrix} 
100\\ 
3\\ 
2\\ 
3\\ 
\end{bmatrix}.\end{split}$$

In [44]:
x = np.array([100, 3, 2, 3])
x

array([100,   3,   2,   3])

### 1.2.1 Các thuộc tính của vector
Một vector sẽ có độ dài và định dạng dữ liệu xác định. Ngoài ra nếu coi một biến số là một vector thì trong thông kê mô tả chúng sẽ quan tâm tới tổng, trung bình, phương sai, giá trị lớn nhất, nhỏ nhất...

In [45]:
# Độ dài
print("length of vector: ", x.shape) # or len(x)

# Định dạng của véc tơ
print("vector type: ", x.dtype)

# Tổng của các phần tử 
print("sum of vector: ", x.sum())

# Trung bình các phần tử
print("mean of vector: ", x.mean())

# Giá trị nhỏ nhất
print("min of vector: ", x.min())

# Giá trị lớn nhất
print("max of vector: ", x.max())

length of vector:  (4,)
vector type:  int64
sum of vector:  108
mean of vector:  27.0
min of vector:  2
max of vector:  100


### 1.2.2 các phép tính trên vector
Chúng ta có thể thực hiện các phép tính trên vector như phép cộng, trừ, tích vô hướng, tích có hướng giữa hai vector... Lưu ý là chúng phải có cùng độ dài và chúng có tính chất giao hoán.

In [46]:
import numpy as np
x = np.array([100, 3, 2, 3])
y = np.array([60, 2, 1, 2])
print("x + y: ", x + y)
print("x - y: ", x - y)
print("x * y: ", x * y)

x + y:  [160   5   3   5]
x - y:  [40  1  1  1]
x * y:  [6000    6    2    6]


Véc tơ có thể thực hiện các phép cộng, trừ, nhân, chia với một số vô hướng. Giá trị thu được là một véc tơ cùng kích thước mà mỗi phần tử của nó là kết quả được thực hiện trên từng phần tử của véc tơ với số vô hướng đó.

In [47]:
x = np.array([1, 2, 1.5, 1.8, 1.9])
print("x + 5: ", x + 5)
print("x - 5: ", x - 5)
print("x * 5: ", x * 5)

x + 5:  [6.  7.  6.5 6.8 6.9]
x - 5:  [-4.  -3.  -3.5 -3.2 -3.1]
x * 5:  [ 5.  10.   7.5  9.   9.5]


### 1.2.3. Các phép tính nâng cao
* **Module** của một vector là giá trị chiều dài của vector đó. Nó có thể được tính bằng công thức sau:

$$||\vec{v}|| = \sqrt{\sum_{i=1}^{n} v_i^2}$$

Trong đó, $||\vec{v}||$ là module của vector $\vec{v}$ = $(v_1, v_2, ..., v_n)$ và n là số chiều của vector.
Công thức trên là tính khoảng cách của vector v từ gốc tọa độ về điểm trên vector tương đương với độ dài của vector.

In [48]:
x = np.array([3, 4])
module = np.linalg.norm(x)
print(module)

5.0


* **Nhân vô hướng (scalar product)** của hai vector A và B, được tính bằng cách nhân giá trị chiều dài của hai vector và góc giữa chúng. Kết quả của nhân vô hướng là một số thực.

Có hai cách chính để tính nhân vô hướng:

sử dụng công thức cộng sảnh: $\vec{A} \cdot \vec{B} = |\vec{A}|\ |\vec{B}| \ \cos(\theta)$

sử dụng dot product: $\vec{A} \cdot \vec{B} = \sum_{i=1}^n A_i B_i =A_1B_1 + A_2B_2 +....+ A_nB_n$

Trong đó, $|\vec{A}|$ và $|\vec{B}|$ là module của vector A và B tương ứng, $\theta$ là góc giữa hai vector, $A_i$ và $B_i$ là các phần tử của vector A và B tương ứng, và n là số chiều của hai vector.

Chúng ta có thể bắt gặp tích vô hướng rất nhiều trong machine learning. Bên dưới là một số tình huống thường gặp:

- Tích vô hướng có thể được sử dụng để tính giá trị ước lượng của phương trình hồi qui tuyến tính. Ví dụ nếu bạn biết giá nhà được biểu diễn theo diện tích $x_1$ và số phòng ngủ $x_2$ theo công thức: 

$$y=20x_1 + 10x_2+ 200$$

Thì một cách khái quát bạn có thể ước lượng $y$ theo tích vô hướng giữa véc tơ đầu vào $\mathbf{x}^{\top} = (x_1, x_2, 1)$ và véc tơ hệ số $\mathbf{w} = (20, 10, 200)$ như sau:
 
$$\hat{y} = \mathbf{x}^{\top}\mathbf{w}$$

- Tích vô hướng cũng được sử dụng để tính trung bình có trọng số của $\mathbf{x}$:

$$\bar{\mathbf{x}} = \sum_{i=1}^{n} x_i q_i= \mathbf{x}^{\top}\mathbf{q}$$
với $\sum_{i=1}^{n} q_i= 1$


- Ngoài ra ta có thể tính cos giữa hai véc tơ $\mathbf{x}$ và $\mathbf{y}$ sẽ bằng tích vô hướng giữa hai véc tơ.

$$\cos({\mathbf{x}, \mathbf{y}}) = \frac{\sum_{i=1}^{d} x_i y_i}{ \sqrt{\sum_{i=1}^{d} x_i^2} \sqrt{\sum_{i=1}^d y_i^2}}= \frac{\langle \mathbf{x}, \mathbf{y} \rangle}{\mathbf{||x||}\ \mathbf{||y||}}
$$


Hàm dot trong numpy có thể sử dụng để tính nhân vô hướng với cú pháp : `numpy.dot(A, B)` hoặc `A.dot(B)`

In [49]:
x = np.array([1, 2, 3])
y = np.array([2, 3, 4])
print("x.dot(y) = ", x.dot(y))
print("np.dot(x, y) = ", np.dot(x, y))

x.dot(y) =  20
np.dot(x, y) =  20


* **Vector Projection** là một khái niệm trong toán học để miêu tả sự chiếu của một vector A lên một vector B. Nó có thể được tính bằng cách tìm sự tương đồng giữa hai vector và sau đó nhân với vector B. Kết quả cuối cùng là một vector mà chiếu của A lên B.

Công thức tính projection của vector A vào B là:

$$proj_B(A) = \frac{A \cdot B}{||B||^2} * B$$

Trong đó,

$A.B$ là tích vô hướng của vector A và B, được viết là $A \cdot B$

$||B||^2$ là bình phương độ dài của B, được viết là $||B||^2$.

$proj_B(A)$ là vector projection của A vào B, chú ý khi viết sử dụng ký tự _ để chỉ rõ là projection của A vào B




Vector projection có rất nhiều ứng dụng trong machine learning. Một trong những ứng dụng chính là trong việc giảm chiều dữ liệu (dimensionality reduction). Khi số chiều của dữ liệu quá cao, thì việc xử lý và huấn luyện mô hình trở nên khó khăn và tốn thời gian. Giảm chiều dữ liệu sẽ giúp giảm số chiều của dữ liệu mà không mất nhiều thông tin quan trọng.

Có nhiều cách để tính projection trong numpy:

In [50]:
import numpy as np

def vector_projection(a, b):
    # Tính tích vô hướng giữa hai vector
    dot = np.dot(a, b)
    # Tính độ dài của vector B
    norm_b = np.linalg.norm(b)
    # Tính projection của A lên B
    projection = (dot / (norm_b ** 2)) * b
    return projection

def vector_projection_2(a, b):
    # Tính projection của A lên B
    projection = (np.inner(a,b)/np.inner(b,b)) * b
    return projection

def vector_projection_3(a, b):
    # Tính projection của A lên B
    projection = np.matmul(a,b)/np.matmul(b,b) * b
    return projection


In [51]:


a = np.array([1, 2, 3])
b = np.array([2, 3, 4])

p1 = vector_projection(a, b)
p2 = vector_projection_2(a, b)
p3 = vector_projection_3(a, b)
print(p1)
print(p2)
print(p3)

[1.37931034 2.06896552 2.75862069]
[1.37931034 2.06896552 2.75862069]
[1.37931034 2.06896552 2.75862069]


### 1.2.4. Hệ toạ độ cơ sở


#### 1.2.4.1. Tổ hợp tuyến tính và không gian sinh

- **Thế nào là một tổ hợp tuyến tính?**

Giả sử $\mathbf{a}_1, \mathbf{a}_2, \dots, \mathbf{a}_n$ là các véc tơ thuộc không gian $\mathbb{R}^m$ và $k_1, k_2, \dots, k_n$ là những số vô hướng. Khi đó _tổ hợp tuyến tính_ (_linear combination_) của $n$ véc tơ $\mathbf{a}_1, \mathbf{a}_2, \dots, \mathbf{a}_n$ tương ứng với các hệ số $k_i$ là một véc tơ được tính theo phương trình tuyến tính dạng:

$$k_1 \mathbf{a}_1 + k_2 \mathbf{a}_2 + \dots + k_n \mathbf{a}_n = \mathbf{b} \tag{1}$$

Nếu xét ma trận $\mathbf{A} = [\mathbf{a}_1, \mathbf{a}_2 \dots ,\mathbf{a}_n] \in \mathbb{R}^{m \times n}$ có các cột là những véc tơ $\mathbf{a}_i \in \mathbb{R}^{m}$. Khi đó tổ hợp tuyến tính có thể biểu diễn dưới dạng một phép nhân ma trận với véc tơ:

$$\mathbf{A}\mathbf{k} = \mathbf{b}$$

Lưu ý rằng biểu diễn tổ hợp tuyến tính đối với véc tơ $\mathbf{b}$ có thể là không duy nhất. Tập hợp tất cả các véc tơ $\mathbf{b}$ trong phương trình $(1)$ ở trên được gọi là _không gian sinh_ (_span space_) của hệ véc tơ $\{\mathbf{a}_1, \mathbf{a}_2, \dots, \mathbf{a}_n\}$, kí hiệu $\text{span}(\mathbf{a}_1, \dots, \mathbf{a}_n)$


- **Hệ véc tơ độc lập tuyến tính là gì?**

Một hệ véc tơ $\{\mathbf{a}_1, \mathbf{a}_2, \dots, \mathbf{a}_n\}$ gồm các véc tơ khác 0 là độc lập tuyến tính nếu phương trình:

$$k_1 \mathbf{a}_1 + k_2 \mathbf{a}_2 + \dots + k_n \mathbf{a}_n = 0  \tag{2}$$

có một nghiệm duy nhất là $k_1 = k_2 = \dots = k_n = 0$

Trái lại, nếu tồn tại một nghiệm mà phần tử $k_j \neq 0$ thì hệ véc tơ là _phụ thuộc tuyến tính_.

- **Một số tính chất của tổ hợp tuyến tính**

1-. Một hệ véc tơ là phụ thuộc tuyến tính khi và chỉ khi tồn tại một véc tơ trong hệ là tổ hợp tuyến tính của những véc tơ còn lại. Thật vậy, giả sử hệ véc tơ là phụ thuộc tuyến tính, khi đó tồn tại một phần tử $k_j \neq 0$ sao cho phương trình $(2)$ được thoả mãn. Khi đó:

$$\mathbf{a}_j = \frac{-k_1}{k_j} \mathbf{a}_1 + \dots + \frac{-k_{j-1}}{k_{j}} \mathbf{a}_{j-1}+ \frac{-k_{j+1}}{k_j} \mathbf{a}_{j+1}+ \dots +\frac{-k_n}{k_j} \mathbf{a}_n \tag{3}$$

Như vậy $\mathbf{a}_{j}$ là tổ hợp tuyến tính của những véc tơ còn lại. Trong trường hợp phương trình $(3)$ được thoả mãn thì ta cũng suy ra được phương trình $(2)$ có nghiệm $k_j \neq 0$ và hệ véc tơ là _phụ thuộc tuyến tính_.

2-. Tập con khác rỗng của một hệ véc tơ độc lập tuyến tính là một hệ độc lập tuyến tính.

3-. Tập hợp các dòng hoặc cột của một ma trận khả nghịch sẽ tạo thành một hệ các véc tơ độc lập tuyến tính.

4-. Nếu $\mathbf{A}$ là một ma trận cao chiều, tức số hàng lớn hơn số cột thì tồn tại véc tơ $\mathbf{b}$ sao cho $\mathbf{A}\mathbf{x} = \mathbf{b}$ vô nghiệm.

5-. Nếu $n > m$ thì $n$ véc tơ bất kì trong không gian $m$ chiều tạo thành một hệ véc tơ phụ thuộc tuyến tính.

#### 1.2.4.2. Cơ sở của một không gian
Một hệ các véc tơ $\{\mathbf{a}_1, \mathbf{a}_2, \dots, \mathbf{a}_n \}$ trong không gian véc tơ $m$ chiều, kí hiệu là $V = \mathbb{R}^{m}$ được gọi là một cơ sở (_basic_) nếu như điều kiện kiện sau được thoả mãn:

1. $V \equiv \text{span}(\mathbf{a}_1, \dots, \mathbf{a}_n)$

2. ${\mathbf{a}_1, \mathbf{a}_2, \dots, \mathbf{a}_n}$ là một hệ véc tơ độc lập tuyến tính.

Mỗi một véc tơ đều có một biểu diễn duy nhất dưới dạng một tổ hợp tuyển tính của những véc tơ của các $\mathbf{a}_i$.

Ví dụ, trong không gian $R^3$, một cơ sở thông dụng là cơ sở địa phương, bao gồm các vector cơ bản (1,0,0), (0,1,0), (0,0,1), mà mỗi vector cơ bản biểu diễn cho một chiều trong không gian.

#### 1.2.4.3. Biến đổi hệ cơ sở của véc tơ

Trong không gian $m$ chiều thì mọi véc tơ đều có thể biểu diễn thông qua hệ véc tơ đơn vị $(\mathbf{e}_1, \mathbf{e}_2, \dots , \mathbf{e}_m)$. Trong đó véc tơ $\mathbf{e}_i$ được gọi là véc tơ đơn vị có phần tử thứ $i$ là 1, các phần tử còn lại bằng 0.

Bản chất của một phép nhân ma trận với một véc tơ là một phép biến đổi hệ cơ sở mà ở đó mỗi một cột của ma trận được xem như một véc tơ cơ sở. Giả sử ma trận $\mathbf{A} \in \mathbb{R}^{m \times n}$ nhân với véc tơ $\mathbf{x}\in \mathbb{R}^{n}$.

$$\mathbf{A} \mathbf{x} = \mathbf{a}^{(1)} x_1 + \mathbf{a}^{(2)} x_2 + \dots + \mathbf{a}^{(m)}  x_m = \mathbf{y}$$

Trong đó $\mathbf{a}^{(i)}$ có thể được xem như là một véc tơ cột thứ $i$ của ma trận $\mathbf{A}$. Ta có thể xem như véc tơ $\mathbf{y}$ được biểu diễn thông qua các véc tơ cơ sở cột mà toạ độ tương ứng với mỗi chiều trong hệ cơ sở là các $x_i$.

## 1.3. Ma trận

Ma trận (Matrix) là một cấu trúc dữ liệu quan trọng trong đại số tuyến tính, nó là một bảng số các số thực hoặc phức. Mỗi phần tử của ma trận được gọi là một phần tử và có thể được xác định bằng số hàng và số cột tương ứng.

Ma trận A có kích thước m x n có thể được biểu diễn bằng công thức sau:

$$\begin{split}\mathbf{A}=\begin{bmatrix} 
a_{11} & a_{12} & \cdots & a_{1n} \\ 
a_{21} & a_{22} & \cdots & a_{2n} \\ 
\vdots & \vdots & \ddots & \vdots \\ 
a_{m1} & a_{m2} & \cdots & a_{mn} \\ 
\end{bmatrix}.\end{split}$$

Trong đó, $a_{ij}$ là phần tử thứ i trong hàng và thứ j trong cột của ma trận A.

Ma trận có rất nhiều ứng dụng trong toán học và khoa học máy tính, nó được sử dụng để mô tả quan hệ giữa các biến số, tính toán các hàm số, và giải các phương trình hệ phương trình.

In [102]:
import numpy as np

X = np.array([[100, 120, 80, 90, 105, 95], 
              [2, 3, 2, 2, 3, 2]])
              
X

array([[100, 120,  80,  90, 105,  95],
       [  2,   3,   2,   2,   3,   2]])

### 1.3.1. Các ma trận đặc biệt
* Ma trận vuông: Ma trận vuông là ma trận có số dòng bằng số cột. Ma trận vuông rất quan trọng vì khi tìm nghiệm cho hệ phương trình, từ ma trận vuông ta có thể chuyển sang ma trận tam giác. Ma trận vuông cũng là ma trận có thể tính được giá trị định thức. Tóm lại ma trận $\mathbf{A} \in \mathbb{R}^{m \times n}$ vuông nếu $m=n$. 

* Ma trận đơn vị: Là ma trận có đường chéo chính bằng 1, các phần tử còn lại bằng $0$. Ví dụ ma trận đơn vị kích thước $3 \times 3$ được ký hiệu là $\mathbf{I}_3$ có gía trị là:

$$\begin{split}\mathbf{I}_3=
\begin{bmatrix} 
1 & 0 & 0 \\ 
0 & 1 & 0 \\ 
0 & 0 & 1 
\end{bmatrix}
\end{split}$$

Tóm lại, $\mathbf{A}$ là ma trận đơn vị nếu nó là ma trận vuông và $a_{ij} = 1$ nếu $i=j$ và $a_{ij} = 0$ nếu $i \neq j$.

* Ma trận đường chéo: Là ma trận có các phần tử trên đường chéo chính khác 0 và các phần tử còn lại bằng 0. Ví dụ về ma trận đường chéo:


$$\begin{split}\mathbf{A}=
\begin{bmatrix} 
1 & 0 & 0 \\ 
0 & 2 & 0 \\ 
0 & 0 & 3 
\end{bmatrix}
\end{split}$$


* Ma trận chuyển vị: $\mathbf{B}$ là ma trận chuyển vị của $\mathbf{A}$ nếu $b_{ij} = a_{ji}$ với mọi $i, j$. Dễ hiểu hơn, tức là mọi dòng của ma trận $A$ sẽ là cột của ma trận $\mathbf{B}$. Ví dụ:

$$\begin{split}\mathbf{A}=
\begin{bmatrix} 
1 & 2 & 3 \\ 
3 & 2 & 1
\end{bmatrix}
\end{split}, \begin{split}\mathbf{B}=
\begin{bmatrix} 
1 & 3 \\
2 & 2 \\ 
3 & 1\end{bmatrix}
\end{split}$$


Ký hiệu chuyển vị của ma trận $\mathbf{A}$ là $\mathbf{A}^{\intercal}$

### 1.3.2. Các thuộc tính của ma trận
Một ma trận được đặc trưng bởi dòng và cột.

In [103]:
import numpy as np
A = np.array([[1, 2, 3], 
              [3, 2, 1]])

# shape của matrix A
A.shape

(2, 3)

### 1.3.3. Các phép tính trên ma trận
Hai ma trận có cùng kích thước chúng ta có thể thực hiện các phép:

- Cộng trừ hai ma trận: cho phép ta thực hiện phép cộng hoặc trừ hai ma trận cùng kích thước với nhau.
- Nhân ma trận với một số (scalar): cho phép ta nhân mỗi phần tử của ma trận với một số.
- Nhân ma trận với ma trận: Ma trận thu được cũng có cùng kích thước và các phần tử của nó được tính dựa trên các phần tử có cùng vị trí trên cả hai ma trận $A$ và $B$.

#### 1.3.3.1. Tích hadamard hoặc element-wise

$$
\begin{split}\mathbf{A} \odot \mathbf{B} =
\begin{bmatrix}
    a_{11}  b_{11} & a_{12}  b_{12} & \dots  & a_{1n}  b_{1n} \\
    a_{21}  b_{21} & a_{22}  b_{22} & \dots  & a_{2n}  b_{2n} \\
    \vdots & \vdots & \ddots & \vdots \\
    a_{m1}  b_{m1} & a_{m2}  b_{m2} & \dots  & a_{mn}  b_{mn}
\end{bmatrix}\end{split}
$$


In [104]:
import numpy as np
A = np.array([[1, 2, 3], 
              [3, 2, 1]])

B = np.array([[2, 1, 2], 
             [1, 3, 0]])

A*B

array([[2, 2, 6],
       [3, 6, 0]])

Các phép cộng và trừ cũng tương tự

In [105]:
print("A-B: \n", A-B)
print("A+B: \n", A+B)

A-B: 
 [[-1  1  1]
 [ 2 -1  1]]
A+B: 
 [[3 3 5]
 [4 5 1]]


#### 1.3.3.2 Tích thông thường
Tích thông thường giữa hai ma trận $\mathbf{A}$ có kích thước $m \times n$ và $\mathbf{B}$ có kích thước $n \times p$ là một ma trận có kích thước $m \times p$. Ma trận output $\mathbf{C}$ có giá trị tại phần tử $c_{ij} = \mathbf{A}^{(i)} \mathbf{B}_{j}$ (dòng thứ $i$ của ma trận $\mathbf{A}$ nhân với cột thứ $j$ của ma trận $\mathbf{B}$).

$$
\begin{split}\mathbf{A}_{m \times n} \mathbf{B}_{n \times p} =
\begin{bmatrix}
    \mathbf{A}^{(1)}  \mathbf{B}_{1} & \mathbf{A}^{(1)}  \mathbf{B}_{2} & \dots  & \mathbf{A}^{(1)}  \mathbf{B}_{p} \\
    \mathbf{A}^{(2)}  \mathbf{B}_{1} & \mathbf{A}^{(2)}  \mathbf{B}_{2} & \dots  & \mathbf{A}^{(2)}  \mathbf{B}_{p} \\
    \vdots & \vdots & \ddots & \vdots \\
    \mathbf{A}^{(m)}  \mathbf{B}_{1} & \mathbf{A}^{(m)}  \mathbf{B}_{2} & \dots  & \mathbf{A}^{(m)}  \mathbf{B}_{p} \\
\end{bmatrix}\end{split}_{m \times p}
$$

Với $\mathbf{A}^{(i)}$ là véc tơ dòng và $\mathbf{A}_{j}$ là véc tơ cột.

In [106]:
import numpy as np
A = np.array([[1, 2, 3], 
              [3, 2, 1]])

B = np.array([[2, 1], 
              [1, 3],
              [1, 1]])

A@B

array([[ 7, 10],
       [ 9, 10]])

#### 1.3.3.3. Tích giữa ma trận với vector
Bản chất của phép nhân một ma trận với một véc tơ là một **phép biến hình(Transformer)**. Giả sử bạn có ma trận $\mathbf{A} \in \mathbb{R}^{m \times n}$ và véc tơ $\mathbf{x} \in \mathbb{R}^{n}$. Khi đó tích giữa ma trận $\mathbf{A}$ với véc tơ $\mathbf{x}$ là một véc tơ $\mathbf{y}$ trong không gian mới $\mathbf{y} \in \mathbb{R}^{m}$. $\mathbf{y}$ được xem như ảnh của $\mathbf{x}$ khi chiếu lên không gian $m$ chiều thông qua hàm ánh xạ $f(\mathbf{x}) = \mathbf{A}\mathbf{x}$.

$$\mathbf{A}\mathbf{x} =
\begin{bmatrix}
\mathbf{a}^\top_{1} \\
\mathbf{a}^\top_{2} \\
\vdots \\
\mathbf{a}^\top_m \\
\end{bmatrix} \mathbf{x} = \begin{bmatrix}
\mathbf{a}^\top_{1} \mathbf{x} \\
\mathbf{a}^\top_{2} \mathbf{x} \\
\vdots \\
\mathbf{a}^\top_m \mathbf{x} \\
\end{bmatrix} = \begin{bmatrix}
y_1 \\
y_2 \\
\vdots \\
y_m
\end{bmatrix} = \mathbf{y}$$

Như vậy thông qua ma trận $\mathbf{A}$ chúng ta đã biến đổi véc tơ $\mathbf{x}$ từ không gian $n$ chiều sang véc tơ $\mathbf{y}$ trong không gian $m$ chiều. Khi lựa chọn số chiều $m$ trong không gian mới nhỏ hơn, chúng ta thu được một đầu ra $\mathbf{y}$ là hình ảnh giảm chiều của véc tơ đầu vào $\mathbf{x}$. Phép biến đổi này thường xuyên được áp dụng trong machine learning để nhằm giảm chiều dữ liệu, đặc biệt là ở những layer fully connected cuối cùng của mạng nơ ron. Trong _phân tích suy biến_ (_singular decomposition_) chúng ta cũng sử dụng phép biến đổi không gian để tạo thành một véc tơ mới sao cho tích vô hướng giữa hai véc tơ bất kì được bảo toàn. Bạn sẽ được đọc thêm về phép phân tích suy biến ở những chương sau. Các phép xoay ảnh cũng biến đổi toạ độ các điểm sang không gian mới bằng cách nhân véc tơ toạ độ của chúng với ma trận xoay rotation.

Một ứng dụng đặc biệt quan trọng của phép nhân ma trận với một véc tơ là trong hồi qui tuyến tính. Để tính được giá trị dự báo của biến mục tiêu $\hat{y}$ chúng ta cần nhân ma trận đầu vào $\mathbf{X}$ với véc tơ hệ số ước lượng $\mathbf{w}$. Ví dụ, khi đã biết được các biến đầu vào gồm: diện tích và số phòng ngủ như các dòng của ma trận bên dưới:

In [107]:
import numpy as np

X = np.array([[100, 120, 80, 90, 105, 95], 
              [2, 3, 2, 2, 3, 2]])

Và hệ số hồi qui tương ứng với với chúng lần lượt là $\mathbf{w} = (10, 100)$. Khi đó giá nhà có thể được ước lượng bằng tích $\mathbf{y} = \mathbf{X}^{\top}\mathbf{w}$

In [108]:
w = np.array([[10], [100]])
y = X.T@w
y

array([[1200],
       [1500],
       [1000],
       [1100],
       [1350],
       [1150]])

Các trường hợp **Transformer** đặc biệt
- **Phép tịnh tiến**:
$$P' = Px + T =
\begin{bmatrix} 
x\\ 
y 
\end{bmatrix} +
\begin{bmatrix} 
tx\\ 
ty 
\end{bmatrix}$$

In [8]:
import numpy as np

# Tạo ma trận 3x3
m = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])

# Tạo ma trận tịnh tiến
T = np.array([[1, 0, 2], [0, 1, 3], [0, 0, 1]])

# Tịnh tiến ma trận
translated_m = m + T

print(translated_m)

[[ 2  2  5]
 [ 4  6  9]
 [ 7  8 10]]


- Phép quay: là một phép biến đổi thông dụng trong transformer khi sử dụng ma trận. Nó cho phép xoay một đối tượng hoặc hình ảnh theo một góc quanh một trục hoặc một điểm.

Trong ma trận, phép quay được thực hiện bằng cách sử dụng một ma trận quay.

Trong 2 chiều có thể sử dụng ma trận quay theo công thức:

$$ P' = S.P = \begin{bmatrix} cos(\theta) & -sin(\theta) \\ sin(\theta) & cos(\theta) \end{bmatrix} \begin{bmatrix} x \\ y \end{bmatrix} = \begin{bmatrix} x' \\ y' \end{bmatrix} $$

Trong công thức ma trận quay trong 2 chiều đã cho, giá trị $\theta$ là góc quay của đối tượng hoặc hình ảnh. Nó xác định mức độ xoay của đối tượng hoặc hình ảnh theo góc đơn vị radian.

Ví dụ, nếu giá trị $\theta$ là $\frac{\pi}{4}$ radian, điều đó có nghĩa là đối tượng hoặc hình ảnh sẽ được quay 45 độ theo chiều kim đồng hồ.

Còn nếu giá trị $\theta$ là $\frac{\pi}{2}$ radian, điều đó có nghĩa là đối tượng hoặc hình ảnh sẽ được quay 90 độ.

Các góc quay nhỏ hơn 0 radian hoặc lớn hơn 2pi radian sẽ được chuyển về trong khoảng từ 0 đến 2pi radian.

- Phép tỉ lệ: Phép tỉ lệ là một phép biến đổi thông dụng trong transformer khi sử dụng ma trận, nó cho phép tăng hoặc giảm kích thước của một đối tượng hoặc hình ảnh theo tỷ lệ nhất định. Trong 2 chiều, phép tỉ lệ được thực hiện bằng cách sử dụng ma trận tỉ lệ $\begin{bmatrix} s_x & 0 \\ 0 & s_y \end{bmatrix}$ , trong đó $s_x$ và $s_y$ là tỷ lệ tăng hoặc giảm kích thước theo chiều $x$ và $y$ tương ứng:

$$P' = S.P = \begin{bmatrix} s_x & 0 \\ 0 & s_y \end{bmatrix}\begin{bmatrix} x \\ y \end{bmatrix} = \begin{bmatrix} x' \\ y' \end{bmatrix}$$


- Phép đối xứng: Phép đối xứng theo góc theta là một loại biến đổi thông dụng trong transformer khi sử dụng ma trận. Nó cho phép đối xứng một đối tượng hoặc hình ảnh qua một đường thẳng góc với trục tọa độ.

Công thức ma trận đối xứng qua góc theta trong 2 chiều là :

$$P' = S.P = \begin{bmatrix}\cos{2\theta} & \sin{2\theta} \\ \sin{2\theta} & -\cos{2\theta}\end{bmatrix}\begin{bmatrix}x \\ y\end{bmatrix} = \begin{bmatrix}x' \\ y'\end{bmatrix}$$

#### 1.3.3.4. Ma trận đơn vị
Hàm numpy.eye() nhận vào một tham số là số hàng (hoặc cột) của ma trận đơn vị và trả về ma trận đơn vị với kích thước nxn, trong đó giá trị trên đường chéo chính là 1, còn lại là 0.

Ví dụ:

In [None]:
import numpy as np

I = np.eye(3)
print(I)


[[1. 0. 0.]
 [0. 1. 0.]
 [0. 0. 1.]]


#### 1.3.3.5. Phương pháp khử

Ví dụ: Tìm nghiệm hệ phương trình sau bằng phương pháp khử:

$\begin{cases}
3x + 2y - z = 1 \\
2x - 2y + 4z = -2 \\
-x + \frac{1}{2}y - z = 0
\end{cases}$

Bước 1: Chuyển hệ phương trình thành dạng ma trận:
$\begin{bmatrix}
3 & 2 & -1 \\
2 & -2 & 4 \\
-1 & \frac{1}{2} & -1 \\
\end{bmatrix}
\begin{bmatrix}
x \\
y \\
z
\end{bmatrix} =
\begin{bmatrix}
1 \\
-2 \\
0
\end{bmatrix}$

Bước 2: Giảm hệ phương trình bằng cách sử dụng các phép nhân và cộng trên các hàng của ma trận. Ví dụ, để giảm hàng thứ hai, ta có thể nhân hàng thứ nhất với 2 và trừ đi hàng thứ hai.

$\begin{bmatrix}
3 & 2 & -1 \\
0 & -8 & 10 \\
-1 & \frac{1}{2} & -1 \\
\end{bmatrix}
\begin{bmatrix}
x \\
y \\
z
\end{bmatrix} =
\begin{bmatrix}
1 \\
-6 \\
0
\end{bmatrix}$

Bước 3: Tiếp tục giảm hệ phương trình bằng cách sử dụng các phép nhân và cộng trên các hàng của ma trận cho đến khi hệ phương trình trở nên dễ giải được.

$\begin{bmatrix}
3 & 2 & -1 \\
0 & -8 & 10 \\
0 & -1 & -1 \\
\end{bmatrix}
\begin{bmatrix}
x \\
y \\
z
\end{bmatrix} =
\begin{bmatrix}
1 \\
-6 \\
-1
\end{bmatrix}$

#### 1.3.3.5. Ma trận nghịch đảo
- là một ma trận mà khi nhân với ma trận ban đầu sẽ cho kết quả là ma trận đơn vị. Chỉ có ma trận vuông mới có thể tìm được ma trận nghịch đảo.

 Ma trận đảo của một ma trận A là một ma trận $A^-1$ sao cho $$A * A^-1 = I$$ ($I$ là ma trận đơn vị)

Trong Numpy, bạn có thể sử dụng hàm `numpy.linalg.inv()` để tính ma trận đảo của một ma trận cho trước.

In [9]:
import numpy as np

# Tạo ma trận 3x3
m = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])

# Tính ma trận đảo
inverse_m = np.linalg.inv(m)
print(inverse_m)

[[ 3.15251974e+15 -6.30503948e+15  3.15251974e+15]
 [-6.30503948e+15  1.26100790e+16 -6.30503948e+15]
 [ 3.15251974e+15 -6.30503948e+15  3.15251974e+15]]


#### 1.3.3.6. Chuyển vị ma trận
- Công thức chuyển vị ma trận là:

$$(A^T){i,j} = A{j,i}$$

Trong đó,

A là ma trận ban đầu cần chuyển vị
A^T là ma trận chuyển vị của A
Với i và j là vị trí của từng phần tử trong ma trận A.

In [10]:
import numpy as np

A = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
A_T = np.transpose(A)
print(A_T)

A_T = A.T
print(A_T)

A_T = A.transpose()
print(A_T)


[[1 4 7]
 [2 5 8]
 [3 6 9]]
[[1 4 7]
 [2 5 8]
 [3 6 9]]
[[1 4 7]
 [2 5 8]
 [3 6 9]]


#### 1.3.3.7. Định thức của ma trận
là một số thực mà ta dùng để xác định tính đối xứng hay không của ma trận, được ký hiệu bằng $|A|$ hoặc $det(A)$. Định thức của ma trận có thể được tính bằng cách tính dãy tích các phần tử trên chéo chính của ma trận cộng lại.

Giả sử ta có một ma trận vuông $\mathbf{A}$ như sau:

$$\mathbf{A}=\begin{bmatrix} 
a_{11} & a_{12} & \dots & a_{1n} \\ 
a_{21} & a_{22} & \dots & a_{2n} \\ 
\dots & \dots & \ddots & \dots \\ 
a_{n1} & a_{n2} & \dots & a_{nn} \\ 
\end{bmatrix}$$

Định thức của một ma trận $\mathbf{A}$  được tính theo công thức:

$$\det(\mathbf{A})= \sum_{(\sigma_1, \sigma_2, \dots, \sigma_n) \in \mathcal{S}} \text{sgn}(\sigma) a_{1\sigma_1}a_{2\sigma_2}\cdots a_{n\sigma_n}$$

Trong đó $\sigma=(\sigma_1, \sigma_2, \dots, \sigma_n)$ là một phép hoán vị các thành phần của tập hợp $n$ số tự nhiên đầu tiên $O = \{1, 2, \dots, n\}$. Tập hợp tất cả các hoán vị của $n$ số tự nhiên này còn được kí hiệu là $\mathcal{S}$. Hàm $\text{sgn}(\sigma)$ là một hàm nhận hai gía trị $\{1, -1\}$. Nếu số lần hoán vị $\sigma$ để biến đổi trở về tập $O$ là chẵn thì nhận giá trị 1 và lẻ thì nhận giá trị -1.

Ngoài ra định thức của ma trận $\mathbf{A}$ có thể được khai triển theo các _ma trận phần bù_ $\mathbf{A}_{ij}$ của ma trận $\mathbf{A}$. Trong đó ma trận phần bù $\mathbf{A}_{ij}$ là ma trận được tạo thành bằng cách xoá đi dòng thứ $i$ và cột thứ $j$ của ma trận $\mathbf{A}$.

$$|A| = \sum_{k=1}^n (-1)^{i+k} A_{i,k} M_{i,k} $$

Trong đó:

$A$ là ma trận cần tính định thức.

$M_{i,k}$ là ma trận con của $A$ với dòng $i$ và cột $k$ đã bị loại bỏ.

$i$,$k$ là vị trí của phần tử trong ma trận $A$

Trong `numpy`, định thức có thể được tính toán khá dễ dàng thông qua hàm `np.linalg.det()`.

In [11]:
import numpy as np

A = np.array([[1, 2],
              [3, 4]])

# Định thức của ma trận
np.linalg.det(A)

-2.0000000000000004

Định thức có vai trò rất quan trọng trong đại số tuyến tính. Thông qua định thức, chúng ta có thể biết được hệ các véc tơ dòng (hoặc cột) của một ma trận là độc lập tuyến tính hay phụ thuộc tuyến tính? Hệ phương trình tương ứng với ma trận có thể có bao nhiêu nghiệm? Bên dưới là một số tính chất của định thức:

1-. Định thức chỉ tồn tại trên những ma trận vuông.

2-. $\text{det}(\mathbf{A}) = \text{det}(\mathbf{A}^{\intercal})$

3-. $\det(\mathbf{I}) = 1$

4-. Một ma trận đường chéo thì có định thức bằng tích các phần tử nằm trên đường chéo. Ma trận đường chéo còn được kí hiệu thông qua các phần tử trên đường chéo là $\text{diag}(a_1, a_2, \dots, a_m)$. Tức là nếu:

$$\mathbf{A} = \text{diag}(a_1, a_2, \dots, a_m)=\begin{bmatrix} 
a_{1} & 0 & \dots & 0\\ 
0 & a_{2} & \dots & 0\\ 
\dots & \dots & \ddots & \dots\\ 
0 & 0 & \dots & a_{m}\\ 
\end{bmatrix}$$

thì:

$$\text{det}(\mathbf{A}_{m \times m}) = a_1.a_2 \dots a_m$$


5-. Nếu $\mathbf{A}, \mathbf{B}$ là những ma trận vuông cùng kích thước thì 

$$\text{det}(\mathbf{AB}) = \text{det}(\mathbf{BA}) = \det({\mathbf{A}}) \det({\mathbf{B}})$$

Cũng từ tính chất này ta suy ra:

$$\det{(\mathbf{A} \mathbf{B} \mathbf{C})} = \det(\mathbf{A}) \det(\mathbf{B}) \det(\mathbf{C})$$

6-. Ma trận vuông $\mathbf{A}$ khả nghịch thì 

$$\text{det}(\mathbf{A}) = \frac{1}{\text{det}{(\mathbf{A}^{-1})}}$$

Từ tính chất này ta cũng suy ra một ma trận khả nghịch thì định thức của nó phải khác 0 bởi nếu định thức của nó bằng 0 thì $\det(\mathbf{A}) = 0$, điều này là vô lý vì vế phải của phương trình trên không thể bằng 0.

7-. Nếu một ma trận tồn tại một véc tơ dòng hoặc véc tơ cột có toàn bộ các phần tử bằng 0 thì định thức của ma trận bằng 0.

8-. Trong một ma trận nếu đổi vị trí của hai dòng bất kì hoặc hai cột bất kì và các vị trí còn lại dữ nguyên thì định thức đổi dấu. Tức là nếu bên dưới ta có hai ma trận vuông:

$$\mathbf{A}=\begin{bmatrix} 
\mathbf{A}_{1:} \\ 
\dots \\ 
\mathbf{A}_{i:} \\
\dots \\ 
\mathbf{A}_{j:} \\
\dots \\ 
\mathbf{A}_{n:} \\
\end{bmatrix} ~ \text{and} ~ 
\mathbf{A'}=\begin{bmatrix} 
\mathbf{A}_{1:} \\ 
\dots \\ 
\mathbf{A}_{j:} \\
\dots \\ 
\mathbf{A}_{i:} \\
\dots \\ 
\mathbf{A}_{n:} \\
\end{bmatrix}$$

Trong đó ma trận $\mathbf{A'}$ thu được bằng cách thay đổi vị trí dòng $\mathbf{A}_{i:}$ cho dòng $\mathbf{A}_{j:}$ của ma trận $\mathbf{A}$ thì $\det({\mathbf{A}}) = -\det(\mathbf{A'})$.

9-. Khi cộng vào một dòng tích của một dòng khác với hệ số $\alpha$ hoặc cộng vào một cột với tích của một cột khác với hệ số $\alpha$ thì định thức không đổi. 

10-. Khi nhân một dòng hoặc một cột bất kì của ma trận với hệ số $\alpha$ và các dòng và cột khác giữa nguyên thì định thức của ma trận mới tăng gấp $\alpha$ lần. Như vậy ta suy ra một tính chất khá quan trọng đối với ma trận $\mathbf{A} \in \mathbb{R}^{n \times n}$:

$$\det(\alpha \mathbf{A}) = \alpha^{n} \det(\mathbf{A})$$