In [1]:
import numpy as np

### Tạo một mảng `numpy`
Mảng `numpy` có thể là mảng một chiều (vector), ma trận (mảng hai chiều, matrix), và mảng đa chiều (từ 3 chiều trở lên). Một mảng có thể được hình thành từ một danh sách, một hàm, hoặc đọc từ file (phần tự tìm hiểu).
#### Sử dụng danh sách

In [2]:
v = np.array([2, 0, 1, 7])
m = np.array([[2, 0], [1, 7]])
print(v)
print(m)
print(type(v))
print(v.shape)
print(m.shape)
print(m.size)
print(m.dtype)

[2 0 1 7]
[[2 0]
 [1 7]]
<class 'numpy.ndarray'>
(4,)
(2, 2)
4
int64


Mỗi một numpy array có _attribute_ là:
- `shape` (hình dạng) mô tả kích thước mỗi chiều của array
- `size` (kích thước) mô tả số phần tử của array
- `dtype` kiểu dữ liệu của mỗi phần tử trong array

Trong ví dụ trên chúng ta thử tạo một matrix `m` bằng một nested list `2 x 2`. Tuy nhiên sẽ như thế nào nếu chúng ta "nhập thiếu" một phần tử, khiến matrix có một "lỗ hổng"? Xem ví dụ sau:

In [3]:
m = np.array([[1], [2,3]])
print(m)
print(m.dtype)

[list([1]) list([2, 3])]
object


Vậy, khi nhận ra nested list cung cấp không đủ điều kiện cấu thành một matrix (hay multi-dimensional array) thì `numpy` sẽ tìm nhiều cách "nhận dạng" dữ liệu và cuối cùng vẫn tạo thành một array hoàn chỉnh!

Chúng ta có thể cố ý gán kiểu dữ liệu cho các phần tử của một array **từ lệnh khởi tạo**. Chẳng hạn như danh sách truyền vào gồm các số nguyên (int), nhưng bạn muốn array nhận dạng nó như là số thực (float):

In [4]:
m = np.array([[2, 0], [1, 7]], dtype=float)
print(m)

[[ 2.  0.]
 [ 1.  7.]]


Sau bước khởi tạo, mọi thay đổi lên array gây ra mâu thuẫn với kiểu dữ liệu hiện tại sẽ gặp lỗi.

In [5]:
m[0, 0] = 1 + 2j # Số phức gán vào phần tử số thực

TypeError: can't convert complex to float

#### Sử dụng hàm
Một array có thể được tạo nhanh bằng hàm có sẵn như:
- `np.arange(begin, end, step)`: khá giống với hàm `range` đã giới thiệu.
- `np.rand(shape)` và `np.randn(shape)`: sinh ngẫu nhiên các số thực.
- `np.diag(list, offset)`: tạo ma trận vuông với đường chéo cho trước bởi `list` sao cho đường chéo này lệnh với đường chéo chính một số bằng `offset`.
- `np.zeros(shape)` và `np.ones(shape)`: array toàn 0 hoặc 1.

Tham khảo các ví dụ sau đây:

In [6]:
v1 = np.arange(1, 10, 2)
v2 = np.arange(1, 10, 0.5)
print(v1)
print(v2)

[1 3 5 7 9]
[ 1.   1.5  2.   2.5  3.   3.5  4.   4.5  5.   5.5  6.   6.5  7.   7.5  8.
  8.5  9.   9.5]


In [7]:
m1 = np.random.rand(2,2) # Random khoảng [0; 1]
m2 = np.random.randn(2,3) # Random không có giới hạn
print(m1)
print(m2)

[[ 0.08505417  0.36823415]
 [ 0.08447887  0.59031621]]
[[-0.32345271 -1.56624429 -1.73611476]
 [ 0.33199158 -1.43788374 -1.45922628]]


In [8]:
m1 = np.diag([1,2,3])
m2 = np.diag([1,2,3], 1)
m3 = np.diag([1,2,3], -1)
print(m1, '\n') # Ký tự xuống dòng khi in
print(m2, '\n') # để giản cách
print(m3, '\n') # giữa các ma trận

[[1 0 0]
 [0 2 0]
 [0 0 3]] 

[[0 1 0 0]
 [0 0 2 0]
 [0 0 0 3]
 [0 0 0 0]] 

[[0 0 0 0]
 [1 0 0 0]
 [0 2 0 0]
 [0 0 3 0]] 



In [9]:
m1 = np.zeros((2,3)) # Tham số là tuple
m2 = np.ones((3,2)) # biểu thị kích thước array cần tạo
print(m1, '\n')
print(m2, '\n')

[[ 0.  0.  0.]
 [ 0.  0.  0.]] 

[[ 1.  1.]
 [ 1.  1.]
 [ 1.  1.]] 



Hoặc tận dụng phương pháp tạo nhanh `list` để truyền vào array (ghi chú: đoạn code sau không dùng lệnh `print` nhưng vẫn hiện được kết quả)

In [10]:
nested_list = [[i*5+j+1 for j in range(5)] for i in range(5)]
arr = np.array(nested_list)
arr

array([[ 1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10],
       [11, 12, 13, 14, 15],
       [16, 17, 18, 19, 20],
       [21, 22, 23, 24, 25]])

### Thêm cột hoặc hàng vào `numpy` array
Bạn đọc tự nghiên cứu thêm tại https://stackoverflow.com/a/8505658/6543459.

### Truy xuất phần tử trong `numpy` array
Trong list 2 chiều (nested list), để gọi một phần tử chúng ta phải cung cấp từng chỉ số theo kiểu `list[1][2]...`, nhưng đối với `numpy` array, công việc trở nên gọn hơn một tí: `array[1, 2, ...]`.

Ngoài ra, thay vì đưa vào các chỉ số như 1 hoặc 2, `numpy` array còn nhận chỉ số dạng 1 list và ghép kết quả lại với nhau. Ví dụ sau lần lượt chọn ra các phần tử `arr[2, 1], arr[0, 2], arr[4, 0]`:

In [11]:
row_indices = [2, 0, 4]
col_indices = [1, 2, 0]
arr[row_indices, col_indices]

array([12,  3, 21])

Hoặc có thể chọn ra các dòng/cột rời rạc rồi ghép lại với nhau thành một array mới:

In [12]:
arr[row_indices]

array([[11, 12, 13, 14, 15],
       [ 1,  2,  3,  4,  5],
       [21, 22, 23, 24, 25]])

_Câu hỏi:_ Nối tiếp đoạn code trên, dự đoán kết quả của `arr[row_indices][col_indices]`



### Cắt mảng (slice)
Cách cắt `numpy` vector không quá khác biệt so với `list`. Nhưng cần chú ý về mảng đa chiều. Giả sử muốn lấy một hình vuông `3x3` từ mảng `arr` có ô trái trên là ô `[1,2]` (số 7).

In [13]:
arr[1:4, 2:5]

array([[ 8,  9, 10],
       [13, 14, 15],
       [18, 19, 20]])

In [14]:
nested_list[1:4][2:5]

[[16, 17, 18, 19, 20]]

_Câu hỏi:_ Giải thích vì sao cắt `nested_list` không cho ra một mảng vuông như mong đợi?

### Đại số tuyến tính

#### Cộng, trừ, nhân, chia một mảng với một số
Khi đó mỗi phần tử của mảng sẽ bị cộng, trừ, nhân, chia với số đó.

#### Cộng, trừ, nhân, chia một mảng với một mảng thích hợp (Element-wise operations)
Nếu `shape` của hai mảng như nhau thì phép toán được áp dụng giữa hai phần tử cùng vị trí. Còn nhiều cách khác để `numpy` nhận dạng độ thích hợp giữa hai mảng và thực hiện phép toán, tuy nhiên chủ đề này rộng và khá phức tạp.

In [15]:
arr

array([[ 1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10],
       [11, 12, 13, 14, 15],
       [16, 17, 18, 19, 20],
       [21, 22, 23, 24, 25]])

In [16]:
arr * arr

array([[  1,   4,   9,  16,  25],
       [ 36,  49,  64,  81, 100],
       [121, 144, 169, 196, 225],
       [256, 289, 324, 361, 400],
       [441, 484, 529, 576, 625]])

Trên mỗi hàng, từ trái sang các phần tử lần lượt nhân với 1, 2, 3, 4, 5.

In [17]:
arr * np.array([1, 2, 3, 4, 5])

array([[  1,   4,   9,  16,  25],
       [  6,  14,  24,  36,  50],
       [ 11,  24,  39,  56,  75],
       [ 16,  34,  54,  76, 100],
       [ 21,  44,  69,  96, 125]])

Trên mỗi cột, từ trên xuống các phần tử lần lượt nhân với 1, 2, 3, 4, 5.

In [18]:
arr * np.array([[1], [2], [3], [4], [5]])

array([[  1,   2,   3,   4,   5],
       [ 12,  14,  16,  18,  20],
       [ 33,  36,  39,  42,  45],
       [ 64,  68,  72,  76,  80],
       [105, 110, 115, 120, 125]])

### Ma trận

Mặc dù đã thảo luận nhiều về ma trận qua các array hai chiều, chúng ta vẫn chưa sử dụng đến lớp `matrix` trong thư viện `numpy` mạnh mẽ này. Khi đã có sẵn array hai chiều, chỉ cần truyền nó vào hàm khởi tạo ma trận là được. Hoặc cũng có thể truyền list / nested-list vào cũng được

Khi đang ở kiểu dữ liệu `matrix`, các phép toán cộng, trừ, nhân, chia được thay đổi để phù hợp các phép toán ma trận mà bạn được học.

In [19]:
v = np.matrix([1, 2, 3, 4, 5]) # Dùng list để khởi tạo
v

matrix([[1, 2, 3, 4, 5]])

In [20]:
M = np.matrix(arr) # Dùng np.array để khởi tạo
M + M

matrix([[ 2,  4,  6,  8, 10],
        [12, 14, 16, 18, 20],
        [22, 24, 26, 28, 30],
        [32, 34, 36, 38, 40],
        [42, 44, 46, 48, 50]])

In [21]:
M * M

matrix([[ 215,  230,  245,  260,  275],
        [ 490,  530,  570,  610,  650],
        [ 765,  830,  895,  960, 1025],
        [1040, 1130, 1220, 1310, 1400],
        [1315, 1430, 1545, 1660, 1775]])

Ma trận `M` được tạo từ np.array `arr` nhưng kết quả của `M*M` khác so với `arr*arr` ở phần trước. Đó là vì `M*M` là nhân ma trận, còn `arr*arr` là nhân theo kiểu element-wise.

Tất nhiên nếu hai ma trận nhân với nhau mà không có số cột và dòng tương thích thì sẽ sinh ra lỗi.

Ngoài ra, thư viện `numpy` giúp chúng ta tính ma trận chuyển vị và ma trận nghịch đảo thông qua thuộc tính `T` (hoặc hàm `np.matrix.transpose(Matrix)`) và thuộc tính `I` (hoặc hàm `np.matrix.inverse(Matrix)`).

In [22]:
M2 = M[0:3, 1:3]
M2

matrix([[ 2,  3],
        [ 7,  8],
        [12, 13]])

In [23]:
M2.T

matrix([[ 2,  7, 12],
        [ 3,  8, 13]])

In [24]:
M2.I

matrix([[-1.13333333, -0.33333333,  0.46666667],
        [ 1.03333333,  0.33333333, -0.36666667]])

Tính định thức ma trận:

In [25]:
print(M[0:2, 0:2])
np.linalg.det(M[0:2, 0:2])

[[1 2]
 [6 7]]


-4.9999999999999991

### Ma trận số phức

`numpy` hỗ trợ thêm các hàm nhận một ma trận số phức như `np.matrix.conjugate` (lấy số phức liên hợp), `np.real` (lấy phần thực), `np.imag` (lấy phần ảo), `np.angle` (lấy argument). Các bạn tự tìm hiểu thêm.

### Thống kê

In [26]:
data = np.random.randn(20)
data

array([-0.28180827, -1.60755982,  0.24484165,  0.69211047,  0.40448546,
       -0.56704428,  1.03392534,  0.09980076, -0.55093309, -0.12183676,
       -1.62183064,  0.44527402, -0.50937277, -0.62967169, -0.5582324 ,
       -1.44847   ,  0.06682618,  1.21392528, -0.11920692, -0.83961869])

- `np.var`: Phương sai (variance)
- `np.std`: Độ lệch chuẩn (standard deviation)
- `np.min`: Giá trị nhỏ nhất
- `np.max`: Giá trị lớn nhất
- `np.mean`: Giá trị trung bình

In [27]:
print(np.var(data))
print(np.std(data))
print(np.min(data))
print(np.max(data))
print(np.mean(data))

0.604671457221
0.777606235328
-1.62183063943
1.21392527962
-0.232719807776


- Kiểm tra có ít nhất một (any) hoặc tất cả (all) các phần tử trong array có thỏa điều kiện cho trước hay không

In [28]:
print((data > 2).any())
print((data < 5).all())

False
True


- Chọn ra một vài phần tử thỏa mãn điều kiện bằng cách dùng "mặt nạ" theo cú pháp: `data[bool_array]`. Ví dụ cần chọn ra các số lớn hơn 0 và nhỏ hơn 1 trong `data`:

In [29]:
mask = (data > 0) * (data < 1)
data[mask]

array([ 0.24484165,  0.69211047,  0.40448546,  0.09980076,  0.44527402,
        0.06682618])

_Câu hỏi:_ Giải thích cách làm trên.

### Pass by reference

Khi "sao chép" một biến B sang một biến A khác, để tiếp kiệm bộ nhớ, Python không hoàn toàn cấp cho A một khoảng bộ nhớ cần thiết cho dữ liệu mà chỉ đưa cho A địa chỉ tham chiếu (reference) của B. Do đó việc thay đổi biến A sẽ thay đổi biến B và ngược lại.

In [30]:
v = np.array([1,2,3,4,5])
print(v)
copy_v = v
copy_v[0] = 7
print(v)

[1 2 3 4 5]
[7 2 3 4 5]


### Vector hóa một hàm

Xét hàm sau:

In [31]:
def f(x):
    if x**2 > 1:
        if x > 0:
            return 1.0
        else:
            return -1.0
    else:
        return x

Làm sao áp dụng hàm `f` này với mọi phần tử trong mảng `data` nói trên? Cách đơn giản là dùng dòng `for`, nhưng fan của `numpy` lại lựa chọn cách làm sau:

In [32]:
vf = np.vectorize(f)
vf(data)

array([-0.28180827, -1.        ,  0.24484165,  0.69211047,  0.40448546,
       -0.56704428,  1.        ,  0.09980076, -0.55093309, -0.12183676,
       -1.        ,  0.44527402, -0.50937277, -0.62967169, -0.5582324 ,
       -1.        ,  0.06682618,  1.        , -0.11920692, -0.83961869])