# Đại số tuyến tính với numpy

## Bài 1: Làm quen với numpy

**BS Lê Ngọc Khả Nhi**

# Giới thiệu

Chào các bạn, trước khi chạm đến Đại số tuyến tính (ĐSTT), chúng ta cùng chuẩn bị một số kỹ năng cho thư viện numpy, vì numpy sẽ là công cụ chính cho dự án này.

**Về thư viện numpy**

numpy là một thư viện tính toán trên cấu trúc dữ liệu array, nó được xây dựng bởi Travis Oliphant từ năm 2006 và là một bộ phận của hệ sinh thái Tính toán khoa học Scipy trong ngôn ngữ Python (gồm 3 thư viện numpy, scipy và matplotlib).

**Tại sao cần phải học numpy ?**

1) Bản thân ngôn ngữ Python không cho phép thực hiện tính toán một cách tối ưu trên vector hoặc matrix (nó chỉ có một số cấu trúc dữ liệu hạn chế như list, tuple, set..., tốc độ thi hành chậm, kích thước object nặng, không có sẵn đầy đủ các toán tử đại số và hàm thống kê...). 

numpy khắc phục những hạn chế này và tối ưu hóa các quy trình tính toán trên dữ liệu lớn và đa chiều (thông qua array), tốc độ thi hành rất nhanh (numpy được viết bằng ngôn ngữ C), hỗ trợ hoàn chỉnh thống kê và đại số tuyến tính.

2) numpy là nền tảng phổ quát cho mọi thư viện thống kê, phân tích dữ liệu khác và chúng tương thích lẫn nhau. Bản thân scipy và matplotlib dựa trên numpy, các thư viện thống kê và machine learning như statsmodels, pingouin, pandas, scikit-learn, tensorflow,... đều dựa trên numpy.

3) numpy là công cụ tiện lợi để học và thực hành đại số tuyến tính, bản thân đại số tuyến tính rất quan trọng và cần thiết cho thống kê và machine learning. Sử dụng thành thạo numpy cho phép code thủ công những thuật toán thống kê quy ước.

4) Các thủ thuật trong numpy còn có nhiều ứng dụng trong việc thao tác trên dữ liệu hằng ngày (ngay cả khi bạn đã có pandas.

### Gọi thư viện numpy

Dùng **import** để gọi numpy, theo quy ước tên viết tắt là **np**

In [2]:
import numpy as np

**Xem phiên bản của thư viện**

Hiện nay phiên bản mới nhất là 1.21; ta có thể cập nhật nếu muốn, bằng cách install từ conda terminal theo cú pháp:

*pip3 install --upgrade numpy*

In [3]:
print(np.__version__)

1.21.0


### numpy array

Cấu trúc dữ liệu chính của numpy là ndarray (mảng N chiều), ta thường gọi tắt là array. 

array là một cấu trúc bộ nhớ có kích thước cố định (do ta quy định khi tạo lập), và chỉ chứa duy nhất dữ liệu cùng kiểu (nếu chỉ dùng con số, tất cả cùng là float hoặc int; nếu dùng chữ: tất cả là object hay string). 
Cho ứng dụng thống kê, ta quan tâm đến 3 kiểu data type là integer, float và boolean

array có thể tạo lập trực tiếp, hoặc hoán chuyển từ data structure của thư viện khác (pandas dataframes/series, tensor, arviz), từ data structure sơ cấp của Python như list, tuple.

3 thuộc tính cơ bản của array là shape, dtype và size

shape cho biết cấu trúc (chiều) của array, trong thống kê ta thường làm việc với scalar (vô hướng) = 1 con số, vector (array 1 chiều) và matrix (array 2 chiều), trong machine learning ta có thể cần đến array đa chiều để biểu diễn các tensors. Trong bài này Nhi chỉ giới hạn thí dụ đến array 2 chiều

**array 1 chiều**

Sau này, ta sẽ biết array 1 chiều tương đương với vector

In [4]:
a = np.array([1., 2., 3., 4., 5.])

a

array([1., 2., 3., 4., 5.])

In [5]:
a.shape

(5,)

In [6]:
a.size

5

In [7]:
a.dtype

dtype('float64')

**Có thể tạo array 1 chiều từ Python list hoặc tuple**

In [10]:
tupl = (1,2,3,4,5)
lst = [1,2,3,4,5]

a = np.array(lst)
b = np.array(tupl)

a == b

array([ True,  True,  True,  True,  True])

In [11]:
a

array([1, 2, 3, 4, 5])

In [12]:
b

array([1, 2, 3, 4, 5])

**array 2 chiều (ma trận)**

Thí dụ sau về 1 array 2 chiều có kích thước 3x3, tương ứng với 1 matrix 3 hàng và 3 cột

In [13]:
mat = np.array([[1.,2.,3.],
                [4.,5.,6.],
                [7.,8.,9.]])

mat

array([[1., 2., 3.],
       [4., 5., 6.],
       [7., 8., 9.]])

In [14]:
mat.shape

(3, 3)

In [17]:
mat.ndim

2

In [18]:
mat.size

9

**Liên hệ giữa 2D array và dataframe**

pandas dataframe là 1 cấu trúc dữ liệu phổ biến khi làm thống kê, nó cũng có cấu trúc bảng 2 chiều. Dù pandas tương thích hoàn toàn với numpy và có thể hoán chuyển qua lại giữa 2 cấu trúc: values của dataframe chính là numpy array, tuy nhiên có khác biệt: 

+ dataframe cho phép chứa nhiều kiểu dữ liệu khác nhau cho mỗi cột (biến): string, object, int, float; trái lại numpy array chỉ chứa dữ liệu đồng kiểu (float,int, hoặc object).

+ đơn vị list trong pandas dataframe/series tương ứng với cột (biến), còn list con trong 1 nested list khi đưa vào numpy array lại tương ứng với hàng (instance)

Để hình dung liên hệ giữa 1 matrix (array 2 chiều) và bảng dữ liệu (dataframe), ta sẽ hoán chuyển 1 dataframe 3 biến (cột) và 5 quan sát (hàng) thành array, chú ý vị trí và tương quan hàng/cột.

Kết quả ta có 1 array 5x3; con số đầu chỉ hàng, con số sau chỉ cột

In [19]:
import pandas as pd

df = pd.DataFrame({'A':[1,2,3,4,5],
                  'B':[6,7,8,9,10],
                  'C':[11,12,13,14,15]})

df

Unnamed: 0,A,B,C
0,1,6,11
1,2,7,12
2,3,8,13
3,4,9,14
4,5,10,15


In [20]:
a = df.values

a

array([[ 1,  6, 11],
       [ 2,  7, 12],
       [ 3,  8, 13],
       [ 4,  9, 14],
       [ 5, 10, 15]], dtype=int64)

In [21]:
a.shape

(5, 3)

Để khởi tạo ra array như trên một cách trực tiếp: ta sử dụng nested list, chú ý là mỗi list tương ứng với 1 hàng, và mỗi con số trong list tương ứng 1 cột, theo thứ tự (khác với cú pháp pandas - mỗi list là 1 cột/biến).

In [22]:
b = np.array([[1,6,11],
             [2,7,12],
             [3,8,13],
             [4,9,14],
             [5,10,15]])

b

array([[ 1,  6, 11],
       [ 2,  7, 12],
       [ 3,  8, 13],
       [ 4,  9, 14],
       [ 5, 10, 15]])

In [23]:
b == a

array([[ True,  True,  True],
       [ True,  True,  True],
       [ True,  True,  True],
       [ True,  True,  True],
       [ True,  True,  True]])

Khi chuyển 1 dataframe hỗn hợp chữ/số thành numpy, nó chỉ có thể nhận data type object, tất cả sẽ thành string và không dùng được để tính toán

In [24]:
df = pd.DataFrame({'A':[1,2,3,4,5],
                  'B':['Y','N','Y','N','N'],
                  'C':[11,12,13,14,15]})

df

Unnamed: 0,A,B,C
0,1,Y,11
1,2,N,12
2,3,Y,13
3,4,N,14
4,5,N,15


In [25]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   A       5 non-null      int64 
 1   B       5 non-null      object
 2   C       5 non-null      int64 
dtypes: int64(2), object(1)
memory usage: 248.0+ bytes


In [26]:
df.values

array([[1, 'Y', 11],
       [2, 'N', 12],
       [3, 'Y', 13],
       [4, 'N', 14],
       [5, 'N', 15]], dtype=object)

### Những array rỗng 

Trong quá trình làm việc, đôi khi ta cần tạo ra những array rỗng, hoặc chỉ chứa giá trị duy nhất (0,1, một con số giống nhau) với nhiều mục đích, thí dụ:

+ Khởi tạo array như một ngăn chứa với kích thước nhất định, để nhận kết quả xuất ra từ vòng lặp sau đó (bootstrap, cross-validation,...)

+ Tạo vector intercept (toàn giá trị = 1) cho design matrix khi dựng mô hình hồi quy,

+ Dán nhãn hàng loạt (con số bất kì, 0,1,n...)

vv

numpy có nhiều method cho phép làm việc này, bao gồm:

**array toàn số 0**

In [27]:
np.zeros(shape = (4,3), dtype = 'float32')

array([[0., 0., 0.],
       [0., 0., 0.],
       [0., 0., 0.],
       [0., 0., 0.]], dtype=float32)

**array toàn số 0, theo mẫu 1 array khác**

method zero_like sẽ sao chép kích thước và data type của 1 array mẫu

In [28]:
a = np.array([[1.,2.,3.],[4,5,6]])

b = np.zeros_like(a)

b

array([[0., 0., 0.],
       [0., 0., 0.]])

**array toàn số 1**

Tương tự, ta có np.ones và np.ones_like

In [29]:
np.ones(shape = (3,6), dtype = 'float32')

array([[1., 1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1., 1.]], dtype=float32)

In [30]:
c = np.ones_like(a)

c

array([[1., 1., 1.],
       [1., 1., 1.]])

**array toàn giá trị giống nhau**

method np.full() và np.full_like cho phép nhận toàn 1 giá trị duy nhất tùy chọn

In [31]:
np.full((4,4), 5.)

array([[5., 5., 5., 5.],
       [5., 5., 5., 5.],
       [5., 5., 5., 5.],
       [5., 5., 5., 5.]])

In [32]:
np.full_like(a, 8.)

array([[8., 8., 8.],
       [8., 8., 8.]])

**array rỗng**

method empty() và empty_like() tạo array với giá trị ngẫu nhiên, vô nghĩa theo kích thước xác định

In [33]:
np.empty(shape = (3,3), dtype = 'float64')

array([[1., 2., 3.],
       [4., 5., 6.],
       [7., 8., 9.]])

In [34]:
np.empty_like(a)

array([[40.,  0., 40.],
       [ 0., 40.,  0.]])

**array có đường chéo = 1 (identity)**

Tương đương với ma trận đơn vị

In [35]:
np.identity(n=5) # ta chỉ cần kích thước n hàng hoặc cột (ma trận vuông)

array([[1., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0.],
       [0., 0., 1., 0., 0.],
       [0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 1.]])

In [36]:
np.eye(N=5,M=3) # Kích thước tùy chọn, N = hàng, M = cột

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.],
       [0., 0., 0.],
       [0., 0., 0.]])

**array chuỗi số theo thứ tự**

np.arrange(start = i, stop = k, step = n) cho phép tạo ra chuỗi số từ i đến k-1, cách biệt n

In [37]:
np.arange(start = 1, stop = 10)

array([1, 2, 3, 4, 5, 6, 7, 8, 9])

In [38]:
np.arange(start = 1, stop = 10, step = 2)

array([1, 3, 5, 7, 9])

In [39]:
np.arange(start = 1, stop = 10+1, dtype = 'float')

array([ 1.,  2.,  3.,  4.,  5.,  6.,  7.,  8.,  9., 10.])

**array chia đều giá trị trong 1 khoảng thành N phần**

Ứng dụng: dùng để chọn mẫu, tạo thang đo cho biểu đồ, định tính hóa biến liên tục...

In [40]:
np.linspace(start = 1, stop = 100, num=10, 
            endpoint=False, dtype = 'float')

array([ 1. , 10.9, 20.8, 30.7, 40.6, 50.5, 60.4, 70.3, 80.2, 90.1])

In [41]:
np.linspace(start = 1, stop = 100, num=20, 
            endpoint=True, dtype = 'float')

array([  1.        ,   6.21052632,  11.42105263,  16.63157895,
        21.84210526,  27.05263158,  32.26315789,  37.47368421,
        42.68421053,  47.89473684,  53.10526316,  58.31578947,
        63.52631579,  68.73684211,  73.94736842,  79.15789474,
        84.36842105,  89.57894737,  94.78947368, 100.        ])

## Ghép nối arrays

numpy cho phép ghép nối giữa các array nhỏ thành array lớn hơn bằng 3 cách: 

**concatenate**: Lưu ý: 2 array phải có cùng dimension (1 hoặc 2 chiều)), axis = 0 hoặc 1 cho phép ghép hàng/cột; nhưng chiều còn lại phải như nhau

In [42]:
a = np.array([[1.,2.,3.,4],[5.,6.,7.,8.]])

b = np.array([[9.,10.,11.,12.]])

c = np.array([9,10,11,12])

In [43]:
a.shape, b.shape, c.shape 
#array c là 1 chiều, arrays a và b là 2 chiều

((2, 4), (1, 4), (4,))

In [44]:
np.concatenate([a,b], axis = 0) 
# axis = 0: ghép hàng, lưu ý: số cột phải bằng nhau

array([[ 1.,  2.,  3.,  4.],
       [ 5.,  6.,  7.,  8.],
       [ 9., 10., 11., 12.]])

In [45]:
np.concatenate([a,c])

ValueError: all the input arrays must have same number of dimensions, but the array at index 0 has 2 dimension(s) and the array at index 1 has 1 dimension(s)

In [46]:
c = np.array([[1,2],[3,4],[5,6]])

d = np.array([[7,8,9],[10,11,12],[13,14,15]])

a.shape, b.shape

((2, 4), (1, 4))

In [47]:
np.concatenate([c,d], axis = 1) 
# axis = 1: ghép cột, số hàng phải bằng nhau

array([[ 1,  2,  7,  8,  9],
       [ 3,  4, 10, 11, 12],
       [ 5,  6, 13, 14, 15]])

**vstack và hstack**

vstack cho phép chồng 2 array theo chiều dọc (ghép hàng), hstack cho phép nối dài theo chiều ngang (ghép cột)

In [48]:
a

array([[1., 2., 3., 4.],
       [5., 6., 7., 8.]])

In [49]:
b

array([[ 9., 10., 11., 12.]])

In [50]:
c

array([[1, 2],
       [3, 4],
       [5, 6]])

In [51]:
d

array([[ 7,  8,  9],
       [10, 11, 12],
       [13, 14, 15]])

In [52]:
np.vstack([a,b])

array([[ 1.,  2.,  3.,  4.],
       [ 5.,  6.,  7.,  8.],
       [ 9., 10., 11., 12.]])

In [53]:
np.hstack([c,d])

array([[ 1,  2,  7,  8,  9],
       [ 3,  4, 10, 11, 12],
       [ 5,  6, 13, 14, 15]])

**Ghép nối 1 array rỗng và 1 array có giá trị**

In [54]:
np.hstack([np.array([]), np.array([1,2,3,4])])

array([1., 2., 3., 4.])

In [55]:
np.concatenate([np.array([]), np.array([1,2,3,4])])

array([1., 2., 3., 4.])

In [56]:
np.vstack([np.zeros((2,2)),
           np.array([[1,2],[3,4]])])

array([[0., 0.],
       [0., 0.],
       [1., 2.],
       [3., 4.]])

In [57]:
np.hstack([np.zeros((2,3)),
           np.array([[1,2],[3,4]])])

array([[0., 0., 0., 1., 2.],
       [0., 0., 0., 3., 4.]])

## Truy xuất dữ liệu: định vị, cắt lớp và lấy mẫu

Trong nhiều trường hợp, chúng ta không làm việc trên toàn bộ array (vector hoặc ma trận) nhưng có nhu cầu truy xuất một bộ phận nhỏ - thí dụ rút ngẫu nhiên 1 hay nhiều tập dữ liệu nhỏ từ 1 tập lớn hơn, cắt dữ liệu thành 2-3 phần để dựng và kiểm định mô hình, tái chọn mẫu bootstrap, lựa chọn cột (biến số) khi khớp mô hình, hoặc truy nhập để sửa chữa/thay thế cho giá trị tại một số vị trí nhất định nào đó. 

Cho ma trận 2 chiều, ta lại có nhu cầu truy xuất vị trí hàng, cột, ô, đường chéo, các góc ma trận...

Quy trình này có thể thực hiện bằng 3 cơ chế:

+ Indexing: định vị rời rạc (vị trí trong array 1 chiều, hàng/cột/giao điểm hàng và cột trong matrix 2 chiều)

+ Slicing: cắt lớp hàng loạt và liên tiếp (từ vị trí khởi đầu đến kết thúc, từ hàng này đến hàng khác, từ cột này đến cột khác...)

+ Masking: Lọc dữ liệu theo giá trị logic (True,False) sinh ra từ 1 điều kiện, tiêu chí nào đó).

Trong bài này, Nhi chỉ bàn về 2 cơ chế đầu tiên là indexing và sclicing. Qua đó ta sẽ nhận ra rằng có thể truy xuất dữ liệu tại một vị trí xác định trên array 1 chiều hay vector theo cùng cơ chế như với Pythonlist hoặc pandas series (cước số: index)

**Định vị (Indexing) trên array 1 chiều**

In [58]:
vect = np.arange(1,11, dtype = 'float32')

vect

array([ 1.,  2.,  3.,  4.,  5.,  6.,  7.,  8.,  9., 10.], dtype=float32)

Trong thí dụ này, ta có 1 vector gồm 10 phần tử (giá trị), được lưu trong array 1 chiều vect

In [59]:
vect.shape

(10,)

In [60]:
len(vect)

10

array cũng sử dụng hệ thống index (cước số) xuôi chiều bắt đầu từ index = 0, và kết thúc ở index = len - 1, hoặc index ngược chiều từ -1 đến -(length)

In [61]:
vect[0]

1.0

In [62]:
vect[5]

6.0

In [63]:
vect[9]

10.0

In [64]:
vect[10] # vị trí thứ 10 không tồn tại, nên Python báo lỗi IndexError

IndexError: index 10 is out of bounds for axis 0 with size 10

In [65]:
vect[-1]

10.0

In [66]:
vect[-2]

9.0

**Lấy mẫu tại nhiều vị trí**

Ta có thể lấy mẫu ngẫu nhiên tại nhiều vị trí, bằng cách đưa hàng loạt indices vào 1 list; một vị trí có thể lặp lại nhiều lần

In [67]:
vect[[0,1,1,3,5,3,0]]

array([1., 2., 2., 4., 6., 4., 1.], dtype=float32)

**Lấy mẫu ngẫu nhiên có/không có lặp lại**

Sử dụng cơ chế indexing, ta có thể lấy mẫu ngẫu nhiên hoặc tái chọn mẫu có lặp lại (bootstrapping) bằng method random.choice từ chính numpy: 

Quy trình này như sau:

+ Sử dụng np.arange hoặc range() để tạo ra danh sách tất cả index từ 0 đến n-1 của 1 array a có n phần tử (size = n)

+ Sử dụng method np.random.choice để chọn ngẫu nhiên n phần tử từ danh sách index

+ Dùng danh sách indices được chọn để làm indexing 

In [69]:
np.random.seed(123)

a = np.arange(0,100)

a.size

100

In [70]:
lst_idx = np.arange(0,a.size)

lst_idx

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
       17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33,
       34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50,
       51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67,
       68, 69, 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80, 81, 82, 83, 84,
       85, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99])

In [71]:
# Chọn ngẫu nhiên 20 phần tử kg lặp lại từ a:

a1 = a[np.random.choice(lst_idx, 20, replace = False)]

a1

array([ 8, 70, 82, 28, 63,  0,  5, 50, 81,  4, 23, 65, 76, 60, 24, 42, 77,
       38, 56, 75])

In [72]:
# Chọn ngẫu nhiên 30% từ a:

a2 = a[np.random.choice(lst_idx, int(0.3*a.size), 
                        replace = False)]

a2

array([88, 72, 12, 64, 34, 69, 78, 93, 91, 19, 99, 82, 52, 61, 43, 80, 62,
       32, 94, 20,  4, 16, 22, 21, 74, 47, 48, 87, 71, 31])

In [73]:
# Chọn ngẫu nhiên 50 phần tử, có lặp lại:

a2 = a[np.random.choice(lst_idx, int(0.5*a.size), 
                        replace = True)]

a2

array([85, 25, 17, 58, 66, 45, 10,  8, 96, 25, 99, 67, 65,  7, 70, 99, 97,
       39, 82, 92, 38,  5,  9, 40, 68, 87, 21, 89, 50, 36, 44, 92, 99, 83,
       81, 61, 14, 78, 23, 62, 28, 80, 24, 15, 49, 80, 84, 90,  4, 21])

**Indexing cho array 2 chiều (matrix)**

Trên array 2 chiều, ta có thể truy xuất theo hàng, cột, hoặc cả 2:

In [74]:
mat = np.array([[11,12,13],
                [21,22,23],
                [31,32,33]
               ])

mat

array([[11, 12, 13],
       [21, 22, 23],
       [31, 32, 33]])

Định vị theo hàng:

In [75]:
mat[1,:] # hàng thứ 2, như array 1 chiều

array([21, 22, 23])

In [76]:
mat[1,] # hàng thứ 2, như array 1 chiều

array([21, 22, 23])

In [77]:
mat[[1],] # hàng thứ 2, như array 2 chiều

array([[21, 22, 23]])

Chọn đồng loạt nhiều hàng

In [78]:
mat[[0,2]] # Hàng thứ 1 VÀ thứ 3

array([[11, 12, 13],
       [31, 32, 33]])

Định vị cột

In [79]:
mat[:,2] # Cột thứ 3, như 1 array 1 chiều

array([13, 23, 33])

In [80]:
mat[:,[2]] # Cột thứ 3, như array 2 chiều

array([[13],
       [23],
       [33]])

Chọn đồng loạt nhiều cột

In [81]:
mat[:,[0,2]] # Cộr 1 và cột 3

array([[11, 13],
       [21, 23],
       [31, 33]])

Định vị giao điểm giữa hàng và cột (ô)

In [82]:
mat[1,2] # Hàng 2, cột 3

23

Chọn hàng loạt nhiều ô

In [83]:
mat[[0,2,1],[1,2,0]] 

# ô thứ 1: hàng 1 và cột 2 
# ô thứ 2: hàng 3, cột 3
# ô thứ 3: hàng 2, cột 1

array([12, 33, 21])

In [84]:
# 4 góc của ma trận

mat[[0,-1,0,-1],[0,0,-1,-1]]

array([11, 31, 13, 33])

**Cắt lớp (slicing) array 1 chiều**

Sử dụng cú pháp array[i:j]: truy xuất tất cả giá trị từ index = i đến index = j-1 (chú ý: tính từ i, nhưng không gồm j)

In [85]:
vect = np.arange(1,10)

vect

array([1, 2, 3, 4, 5, 6, 7, 8, 9])

In [86]:
vect[1:5] # vị trí thứ 2 đến thứ 5

array([2, 3, 4, 5])

In [87]:
vect[3:] # từ vị trí thứ 4 đến hết

array([4, 5, 6, 7, 8, 9])

In [88]:
vect[:-1] # từ vị trí 0 đến áp chót

array([1, 2, 3, 4, 5, 6, 7, 8])

In [89]:
vect[1:] # từ vị trí thứ nhì đến hết

array([2, 3, 4, 5, 6, 7, 8, 9])

In [90]:
vect[-3:] # 3 vị trí sau cùng

array([7, 8, 9])

In [91]:
vect[:5] # 5 vị trí đầu tiên

array([1, 2, 3, 4, 5])

**Thủ thuật: đảo ngược array**

In [92]:
vect[::-1]

array([9, 8, 7, 6, 5, 4, 3, 2, 1])

**Cắt lớp trên array 2 chiều (matrix)**

In [93]:
mat = np.array([[11,12,13,14,15],
               [21,22,23,24,25],
               [31,32,33,34,35],
               [41,42,43,44,45],
               [51,52,53,54,55],]
              )

mat

array([[11, 12, 13, 14, 15],
       [21, 22, 23, 24, 25],
       [31, 32, 33, 34, 35],
       [41, 42, 43, 44, 45],
       [51, 52, 53, 54, 55]])

**Slicing cột**

In [94]:
mat[:,:-1] # Cột thứ 1 đến cột áp chót

array([[11, 12, 13, 14],
       [21, 22, 23, 24],
       [31, 32, 33, 34],
       [41, 42, 43, 44],
       [51, 52, 53, 54]])

In [95]:
mat[:3,:] # 3 hàng đầu tiên

array([[11, 12, 13, 14, 15],
       [21, 22, 23, 24, 25],
       [31, 32, 33, 34, 35]])

In [96]:
mat[:3,:2] # 3 hàng đầu tiên, 2 cột đầu tiên

array([[11, 12],
       [21, 22],
       [31, 32]])

**Trích dữ liệu trên đường chéo ma trận**

In [98]:
np.diag(mat) # Đường chéo 11 đến 55

array([11, 22, 33, 44, 55])

In [99]:
np.diagonal(mat)

array([11, 22, 33, 44, 55])

In [100]:
np.diag(mat[::-1]) # Đường chéo còn lại (từ 15 đến 51)

array([51, 42, 33, 24, 15])

**Lấy danh sách index của đường chéo**

Một cách làm khác, đó là tạo 1 tuple chứa index hàng/cột của đường chéo của ma trận n cạnh - 2 chiều) trước, sau đó slicing matrix mat bằng hệ thống index này;

In [101]:
np.diag_indices(n = 5, ndim=2)

(array([0, 1, 2, 3, 4]), array([0, 1, 2, 3, 4]))

In [102]:
mat[np.diag_indices(n = 5, ndim=2)]

array([11, 22, 33, 44, 55])

Đây là cơ chế cho phép thay thế toàn bộ đường chéo bằng 1 giá trị nào đó

In [103]:
mat[np.diag_indices(n = 5, ndim=2)] = 999

mat

array([[999,  12,  13,  14,  15],
       [ 21, 999,  23,  24,  25],
       [ 31,  32, 999,  34,  35],
       [ 41,  42,  43, 999,  45],
       [ 51,  52,  53,  54, 999]])

In [104]:
mat[np.diag_indices(n = 5, ndim=2)] = 0

mat

array([[ 0, 12, 13, 14, 15],
       [21,  0, 23, 24, 25],
       [31, 32,  0, 34, 35],
       [41, 42, 43,  0, 45],
       [51, 52, 53, 54,  0]])

**Góc nửa trên của ma trận**

In [105]:
mat = np.array([[11,12,13,14,15],
               [21,22,23,24,25],
               [31,32,33,34,35],
               [41,42,43,44,45],
               [51,52,53,54,55],]
              )

In [106]:
np.triu(mat)

array([[11, 12, 13, 14, 15],
       [ 0, 22, 23, 24, 25],
       [ 0,  0, 33, 34, 35],
       [ 0,  0,  0, 44, 45],
       [ 0,  0,  0,  0, 55]])

**Góc nửa dưới của ma trận**

In [None]:
np.tril(mat)

**Truy nhập giá trị của nửa trên và nửa dưới ma trận**

Ta dùng 2 method triu_indices và tril_indices để truy nhập/xuất và thay thế lần lượt tất cả giá trị của nửa trên và dưới ma trận

In [107]:
# Truy xuất nửa trên, bao gồm đường chéo
triu_idx = np.triu_indices(n=5,k=0)
mat[triu_idx]

array([11, 12, 13, 14, 15, 22, 23, 24, 25, 33, 34, 35, 44, 45, 55])

In [108]:
# Truy xuất nửa trên, không bao gồm đường chéo

triu_idx = np.triu_indices(n=5,k=1)
mat[triu_idx]

array([12, 13, 14, 15, 23, 24, 25, 34, 35, 45])

In [109]:
# Truy xuất nửa dưới, bao gồm đường chéo
tril_idx = np.tril_indices(n=5,k=0)
mat[tril_idx]

array([11, 21, 22, 31, 32, 33, 41, 42, 43, 44, 51, 52, 53, 54, 55])

In [110]:
# Truy xuất nửa dưới, không bao gồm đường chéo

tril_idx = np.tril_indices(n=5,k=1)
mat[tril_idx]

array([11, 12, 21, 22, 23, 31, 32, 33, 34, 41, 42, 43, 44, 45, 51, 52, 53,
       54, 55])

## Hình dạng array và các phép biến hình

**Hình dạng của array 1 và 2 chiều**

shape là thuộc tính về cấu trúc (hình dạng) của array, được trình bày bằng 1 tuple gồm nhiều con số. Kích thước của shape (tuple) cho biết số chiều array. Trong thống kê ta chỉ quan tâm đến ma trận (2 chiều) và vector (1 chiều), như vậy shape của vector chỉ có 1 con số là (n,) shape của matrix gồm 2 con số là (n,m), n cho biết số hàng (số trường hợp), m cho biết số cột (biến)

In [111]:
vec = np.array([1,2,3,4,
               5,6,7,8,
               9,10,11,12])

mat = np.array([[1,2,3,4],
                [5,6,7,8],
                [9,10,11,12]])

In [112]:
vec

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12])

In [113]:
mat

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12]])

In [114]:
vec.shape

(12,)

In [115]:
mat.shape

(3, 4)

Dùng cú pháp array.shape[0] cho biết số hàng trong 1 ma trận hoặc số phần tử trong 1 vector

In [116]:
mat.shape[0]

3

In [117]:
vec.shape[0]

12

Cú pháp array.shape[1] cho biết số cột trong ma trận

In [118]:
mat.shape[1]

4

Khi ta truy nhập vượt quá kích thước của shape tuple, Python sẽ báo IndexError

In [120]:
vec.shape[1]

IndexError: tuple index out of range

method reshape

Ta lại thấy rằng, số phần tử của array (thuộc tính size) chính là tích của số hàng n và số cột m;

Trong thí dụ này, cả vector vec và matrix mat đều có 12 phần tử ...

In [121]:
mat.size

12

In [122]:
mat.shape[0] *  mat.shape[1] 

12

Hãy hình dung về một khối đất sét dẻo, hình dạng của nó có thể thay đổi nhưng thể tích là cố định không đổi. Một array cũng có thể thay đổi hình dạng theo cơ chế tương tự như vậy:

Một array 1 chiều 12 phần tử có thể hoán chuyển thành 1 array 2 chiều có 1 hàng x 12 cột, 1 cột * 12 hàng, 3 hàng x 4 cột, 4 hàng x 3 cột, 2 hàng x 6 cột ...

method reshape cho phép thực hiện hoán chuyển này

In [123]:
mat.reshape((2,6))

array([[ 1,  2,  3,  4,  5,  6],
       [ 7,  8,  9, 10, 11, 12]])

In [124]:
mat.reshape((6,2))

array([[ 1,  2],
       [ 3,  4],
       [ 5,  6],
       [ 7,  8],
       [ 9, 10],
       [11, 12]])

In [125]:
mat.reshape((1,12)) # Chú ý, đây là ma trận 1 hàng 12 cột

array([[ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12]])

In [126]:
mat.reshape((12,1)) # Chú ý, đây là ma trận 12 hàng 1 cột

array([[ 1],
       [ 2],
       [ 3],
       [ 4],
       [ 5],
       [ 6],
       [ 7],
       [ 8],
       [ 9],
       [10],
       [11],
       [12]])

In [127]:
vec.reshape((3,4)) == mat 
# Từ vector (array 1 chiều), có thể biến thành matrix 3x4, tương đương với mat

array([[ True,  True,  True,  True],
       [ True,  True,  True,  True],
       [ True,  True,  True,  True]])

In [128]:
vec.reshape((3,4))

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12]])

Một matrix 4x3 có thể chuyển thành array 1 chiều có 12 phần tử.

In [129]:
mat.reshape(12)

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12])

i ta không biết kích thước của array là bao nhiêu, nhưng muốn tạo nhanh 1 array 2 chiều, có thể dùng cú pháp sau:

In [130]:
vec.reshape(vec.shape[0],1)

array([[ 1],
       [ 2],
       [ 3],
       [ 4],
       [ 5],
       [ 6],
       [ 7],
       [ 8],
       [ 9],
       [10],
       [11],
       [12]])

**Tạo array 2 chiều nhanh với np.atleast()** 

method np.atleast_2d() tạo nhanh 1 array hoạc list A 1 chiều ở đầu vào thành 1 array mới B có 2 chiều:

In [131]:
np.atleast_2d(vec)

array([[ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12]])

In [132]:
np.atleast_2d([1,2,3,4,5])

array([[1, 2, 3, 4, 5]])

**Method reshape từ numpy**

method reshape có thể gọi trực tiếp từ object ndarray, nhưng cũng có thể dùng từ numpy, với array là argument:

Kết quả sẽ tương tự

In [133]:
np.reshape(mat,(6,2))

array([[ 1,  2],
       [ 3,  4],
       [ 5,  6],
       [ 7,  8],
       [ 9, 10],
       [11, 12]])

**Hoán chuyển nhanh 2 chiều thành 1 chiều**

Sử dụng 2 method ravel hoặc flatten để hoán chuyển nhanh 1 matrix 2 chiều thành 1 vector 1 chiều:

In [134]:
a = mat.flatten()

a

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12])

In [135]:
b = mat.ravel()

b

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12])

Sự khác biệt giữa flatten và ravel, đó là kết quả b của ravel có liên hệ với aray gốc là mat, nếu ta thay đổi nội dung của b, thì mat cũng thay đổi theo, còn flatten sẽ tạo ra 1 bản sao a độc lập vối mat

In [136]:
a[0] = 999

a

array([999,   2,   3,   4,   5,   6,   7,   8,   9,  10,  11,  12])

In [137]:
mat

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12]])

In [138]:
b[1] = 999

b

array([  1, 999,   3,   4,   5,   6,   7,   8,   9,  10,  11,  12])

In [139]:
mat 
# phần tử thứ 2 của mat bị đồi thành 999 
# vì mọi thay đổi trên b sẽ ghi lại trong mat

array([[  1, 999,   3,   4],
       [  5,   6,   7,   8],
       [  9,  10,  11,  12]])

Bài thực hành đến đây tạm dừng, ta đã nắm được hầu hết những thao tác quan trọng nhất trong numpy, sẵn sàng dùng numpy cho mục tiêu thực hành Đại số tuyến tính.

Trong bài tiếp theo, ta sẽ tìm hiểu về Scalar và Vector.