# THỐNG KÊ MÁY TÍNH VÀ ỨNG DỤNG (ĐTTX)

**Khoa Công nghệ Thông tin - ĐH Khoa học Tự nhiên TP. HCM ([fit@hcmus](https://www.fit.hcmus.edu.vn/))**

*Giảng viên: Vũ Quốc Hoàng (vqhoang@fit.hcmus.edu.vn)*

# BÀI 3 - XỬ LÝ MẢNG SỐ VỚI NUMPY (Phần 1)

**Nội dung**

* [Giới thiệu](#gioi_thieu)
* [Tạo mảng](#tao_mang)
* [Truy cập các phần tử](#truy_cap)
* [Nối và tách mảng](#noi_tach)

**Tài liệu tham khảo**

* Chương 4, 5 [Python Data Science Handbook (Jake VanderPlas)](https://www.amazon.com/Python-Data-Science-Handbook-Essential-dp-1098121228/dp/1098121228/)

## <a name="gioi_thieu"/>Giới thiệu

[**NumPy** (Numerical Python)](https://numpy.org/) là thư viện nền tảng cho tính toán khoa học và phân tích dữ liệu trong Python.

NumPy hỗ trợ hiệu quả việc lưu trữ và thao tác trên các **mảng số** (numerical array) **đồng nhất** (homogeneous) với kích thước cố định (fixed size).

Tham khảo: [NumPy user guide](https://numpy.org/doc/stable/user/index.html), [NumPy Reference](https://numpy.org/doc/stable/reference/index.html#reference).

In [1]:
import numpy as np

In [2]:
np.__version__

'1.24.3'

Các mảng số trong NumPy được gọi là `ndarray` (n-dimensional array).

In [4]:
a = np.array([1, 2, 3, 4, 5])
a

array([1, 2, 3, 4, 5])

In [4]:
type(a)

numpy.ndarray

Số chiều (dimension, rank) được truy cập qua thuộc tính `ndim`. Mỗi chiều còn được gọi là trục (axis).

Các 1D array được gọi là **vector**, 2D array được gọi là **matrix** (ma trận), 3D array trở lên được gọi là **tensor**.

Như vậy mảng `a` tạo ở trên còn được gọi là một vector.

In [5]:
a.ndim

1

Thuộc tính `shape` cho biết kích thước mỗi chiều.

In [6]:
a.shape

(5,)

Thuộc tính `size` cho biết số lượng phần tử.

In [7]:
a.size

5

Tất cả các phần tử trong mảng đều cùng kiểu, xác định qua thuộc tính `dtype`.

In [8]:
a.dtype

dtype('int32')

Kích thước mỗi phần tử (tính theo byte) được xác định qua thuộc tính `itemsize`.

In [9]:
a.itemsize

4

In [10]:
a = np.array([1.0, 2, 3])
print(a)
print(a.dtype)

[1. 2. 3.]
float64


Sau đây tạo mảng `b` 2D, còn gọi là một ma trận.

In [11]:
b = np.array([[1.0, 2, 3], 
              [4, 5, 6]])
b

array([[1., 2., 3.],
       [4., 5., 6.]])

In [12]:
print(b.ndim)
print(b.shape)
print(b.size)
print(b.dtype)
print(b.itemsize)

2
(2, 3)
6
float64
8


Sau đây tạo mảng `c` 3D, còn gọi là một tensor.

In [13]:
c = np.array([
    [[1, 2, 3],
     [4, 5, 6]],
    
    [[3, 2, 1],
     [6, 5, 4]]
], dtype=np.float32)
c

array([[[1., 2., 3.],
        [4., 5., 6.]],

       [[3., 2., 1.],
        [6., 5., 4.]]], dtype=float32)

**Bài tập**

Cho biết giá trị các thuộc tính `ndim`, `shape`, `size`, `dtype`, `itemsize` của tensor `c`.

In [14]:
# TODO:


## <a name="tao_mang"/>Tạo mảng

`ndarray` có thể được tạo bằng nhiều cách, tham khảo: [Array creation](https://numpy.org/doc/stable/user/basics.creation.html).

In [15]:
np.array(range(10))

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [16]:
np.array([[i*j for j in range(4)] for i in range(3)])

array([[0, 0, 0, 0],
       [0, 1, 2, 3],
       [0, 2, 4, 6]])

In [17]:
np.arange(1, 10, 2)

array([1, 3, 5, 7, 9])

In [18]:
np.linspace(1, 10, 5)

array([ 1.  ,  3.25,  5.5 ,  7.75, 10.  ])

In [19]:
np.diag([1, 2, 3])

array([[1, 0, 0],
       [0, 2, 0],
       [0, 0, 3]])

In [20]:
np.random.rand(5)

array([0.15251507, 0.11304939, 0.12676333, 0.33637843, 0.12668192])

In [21]:
np.random.randint(0, 10, size=(2, 4))

array([[2, 8, 8, 9],
       [8, 8, 1, 6]])

In [22]:
a = np.zeros((2, 3, 4))
a

array([[[0., 0., 0., 0.],
        [0., 0., 0., 0.],
        [0., 0., 0., 0.]],

       [[0., 0., 0., 0.],
        [0., 0., 0., 0.],
        [0., 0., 0., 0.]]])

In [23]:
np.ones_like(a)

array([[[1., 1., 1., 1.],
        [1., 1., 1., 1.],
        [1., 1., 1., 1.]],

       [[1., 1., 1., 1.],
        [1., 1., 1., 1.],
        [1., 1., 1., 1.]]])

Mảng có thể được thay đổi kích thước với phương thức `reshape`.

In [24]:
a.reshape(2, 4, 3)

array([[[0., 0., 0.],
        [0., 0., 0.],
        [0., 0., 0.],
        [0., 0., 0.]],

       [[0., 0., 0.],
        [0., 0., 0.],
        [0., 0., 0.],
        [0., 0., 0.]]])

In [25]:
a

array([[[0., 0., 0., 0.],
        [0., 0., 0., 0.],
        [0., 0., 0., 0.]],

       [[0., 0., 0., 0.],
        [0., 0., 0., 0.],
        [0., 0., 0., 0.]]])

In [26]:
np.arange(15).reshape(3, 5)

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

In [27]:
a = np.arange(3)
print(a)
print(a.shape)

[0 1 2]
(3,)


In [28]:
b = a.reshape(a.size, 1)
print(b)
print(b.shape)

[[0]
 [1]
 [2]]
(3, 1)


In [29]:
c = a.reshape(1, a.size)
print(c)
print(c.shape)

[[0 1 2]]
(1, 3)


In [30]:
a.reshape(-1, 1)

array([[0],
       [1],
       [2]])

In [31]:
a.reshape(1, -1)

array([[0, 1, 2]])

In [32]:
a[:, np.newaxis]

array([[0],
       [1],
       [2]])

In [33]:
a[np.newaxis, :]

array([[0, 1, 2]])

In [34]:
c = a[np.newaxis, :][np.newaxis, :, :]
print(c)
print(c.ndim)
print(c.shape)

[[[0 1 2]]]
3
(1, 1, 3)


**Bài tập**

Tạo một ma trận kích thước 2x10, gồm toàn số 10.

In [35]:
# TODO:


**Bài tập**

Tạo một tensor 3D kích thước 3x4x5, gồm các số chia đều từ 0 đến 20.

In [36]:
# TODO:


**Bài tập**

1. Thay đổi kích thước của tensor trên thành vector

1. Thay đổi kích thước của tensor trên thành ma trận có 2 dòng

In [37]:
# TODO:


## <a name="truy_cap"/>Truy cập các phần tử

Truy cập phần tử của các mảng 1D (vector) có cú pháp tương tự danh sách (`list`) của Python: có thể dùng chỉ số (index) hay slice.

In [38]:
a = np.arange(10)
a

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [39]:
print(a[0])
print(a[-1])

0
9


In [40]:
print(a[:5])
print(a[-5:])

[0 1 2 3 4]
[5 6 7 8 9]


In [41]:
a[::-1]

array([9, 8, 7, 6, 5, 4, 3, 2, 1, 0])

Các phần tử cũng có thể được thay đổi qua việc truy cập chỉ số hay slice.

In [42]:
a[2] *= 10
a

array([ 0,  1, 20,  3,  4,  5,  6,  7,  8,  9])

In [43]:
a[1::2] = 100
a

array([  0, 100,  20, 100,   4, 100,   6, 100,   8, 100])

Với mảng nhiều chiều (2D trở lên) ta dùng chỉ số hay slice cho từng chiều phân cách bởi dấu `,`.

In [44]:
a = np.arange(15).reshape(3, 5)
a

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

In [45]:
a[1] # dòng 1

array([5, 6, 7, 8, 9])

In [46]:
print(a.shape)
print(a[1].shape)

(3, 5)
(5,)


In [47]:
print(a[0][-1]) # phần tử cuối dòng 0
print(a[0, -1]) # phần tử cuối dòng 0

4
4


In [48]:
a[:, 1] # cột 1

array([ 1,  6, 11])

In [49]:
a[:, -2:] # 2 cột cuối

array([[ 3,  4],
       [ 8,  9],
       [13, 14]])

In [50]:
a[0, :] = 1
a

array([[ 1,  1,  1,  1,  1],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

In [51]:
for r in a: # duyệt qua các dòng trong a
    r[0] = 100
a

array([[100,   1,   1,   1,   1],
       [100,   6,   7,   8,   9],
       [100,  11,  12,  13,  14]])

In [52]:
for c in range(a.shape[1]): # duyệt qua các cột trong a
    a[:, c][-1] = -100
a

array([[ 100,    1,    1,    1,    1],
       [ 100,    6,    7,    8,    9],
       [-100, -100, -100, -100, -100]])

Lưu ý là kích thước và kiểu của mảng là cố định.

In [53]:
a.dtype

dtype('int32')

In [54]:
a[-1, -1] = 100.5
a

array([[ 100,    1,    1,    1,    1],
       [ 100,    6,    7,    8,    9],
       [-100, -100, -100, -100,  100]])

In [55]:
b = a.astype(np.float64)
b

array([[ 100.,    1.,    1.,    1.,    1.],
       [ 100.,    6.,    7.,    8.,    9.],
       [-100., -100., -100., -100.,  100.]])

In [56]:
b.dtype

dtype('float64')

In [57]:
b[-1, -1] = 100.5
b

array([[ 100. ,    1. ,    1. ,    1. ,    1. ],
       [ 100. ,    6. ,    7. ,    8. ,    9. ],
       [-100. , -100. , -100. , -100. ,  100.5]])

Lưu ý là ta có thể sửa các phần tử của mảng với index và slice nên có thể hình dung index và slice trả về một "view" trên mảng gốc.

In [58]:
c = b[-2:, -2:]
c

array([[   8. ,    9. ],
       [-100. ,  100.5]])

In [59]:
c[:, :] = 0
c

array([[0., 0.],
       [0., 0.]])

In [60]:
b

array([[ 100.,    1.,    1.,    1.,    1.],
       [ 100.,    6.,    7.,    0.,    0.],
       [-100., -100., -100.,    0.,    0.]])

Để sao chép mảng ta có thể dùng phương thức `copy`.

In [61]:
d = b[-2:, -2:].copy()
d[:, :] = 0
d

array([[0., 0.],
       [0., 0.]])

In [62]:
b

array([[ 100.,    1.,    1.,    1.,    1.],
       [ 100.,    6.,    7.,    0.,    0.],
       [-100., -100., -100.,    0.,    0.]])

**Bài tập**

Tạo ma trận `a` kích thước 4x4, với dòng i (i=0..4) có các số đều là i.

1. Xuất ra dòng 2

1. Xuất ra cột 0

1. Xuất ra phần tử ở dòng cuối, cột cuối

1. Xuất ra nửa trên phải

1. Đặt tất cả các phần tử của dòng cuối là 0

1. Đặt tất cả các phần tử của nửa phải là 0

In [63]:
# TODO:


## <a name="noi_tach"/>Nối và tách mảng

Các mảng (với kích thước phù hợp) có thể được **"nối lại"** (concatenation, joining) để tạo thành mảng mới với các hàm `np.concatenate`, `np.vstack`, `np.hstack`.

In [64]:
a = np.arange(0, 7, 2)
b = np.arange(1, 8, 2)
np.concatenate([a, b, a])

array([0, 2, 4, 6, 1, 3, 5, 7, 0, 2, 4, 6])

In [65]:
np.hstack([a[:, np.newaxis], b[:, np.newaxis], a[:, np.newaxis]])

array([[0, 1, 0],
       [2, 3, 2],
       [4, 5, 4],
       [6, 7, 6]])

In [66]:
np.vstack([a.reshape(1, -1), b.reshape(1, -1), a.reshape(1, -1)])

array([[0, 2, 4, 6],
       [1, 3, 5, 7],
       [0, 2, 4, 6]])

In [67]:
a = 2*np.arange(6).reshape(2, 3)
b = 2*np.arange(6).reshape(2, 3) + 1

print(a)
print(b)
print(np.concatenate([a, b]))
print(np.concatenate([a, b], axis=1))

[[ 0  2  4]
 [ 6  8 10]]
[[ 1  3  5]
 [ 7  9 11]]
[[ 0  2  4]
 [ 6  8 10]
 [ 1  3  5]
 [ 7  9 11]]
[[ 0  2  4  1  3  5]
 [ 6  8 10  7  9 11]]


Ngược lại, các mảng có thể được **"tách"** (splitting) thành các mảng con với các hàm `np.split`, `np.vsplit`, `np.hsplit`.

In [68]:
a = np.arange(10)
a1, _, a2 = np.split(a, [3, 6])
print(a)
print(a1)
print(a2)

[0 1 2 3 4 5 6 7 8 9]
[0 1 2]
[6 7 8 9]


In [69]:
a = np.arange(12).reshape(3, 4)
a

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [70]:
top, bottom = np.vsplit(a, [1])
print(top)
print(bottom)

[[0 1 2 3]]
[[ 4  5  6  7]
 [ 8  9 10 11]]


In [71]:
left, right = np.hsplit(a, [1])
print(left)
print(right)

[[0]
 [4]
 [8]]
[[ 1  2  3]
 [ 5  6  7]
 [ 9 10 11]]


In [72]:
for row in np.vsplit(a, range(1, a.shape[0])):
    print(row.reshape(-1))

[0 1 2 3]
[4 5 6 7]
[ 8  9 10 11]


**Bài tập**

1. Tạo vector `a` gồm các bội số của 3 là [0, 3, 6, 9]

1. Tạo vector `b` gồm các bội số của 4 là [0, 4, 8, 12]

1. Tạo vector `c` gồm các bội số của 5 là [0, 5, 10, 15]

1. Tạo ma trận `d` gồm các cột `a`, `b`, `c` (như vậy `d` có kích thước là 4x3)

1. Tạo ma trận `e` gồm các dòng `a`, `b`, `c` (như vậy `e` có kích thước là 3x4)

In [73]:
# TODO:
