# NumPy (1)

(Thư viện NumPy - Phần 1)

## Giới thiệu

**NumPy** (Numerical Python) (https://numpy.org/) là thư viện nền tảng cho tính toán khoa học và phân tích dữ liệu trong Python.

NumPy hỗ trợ hiệu quả việc lưu trữ và thao tác trên các **mảng số** (numerical array) đồng nhất (homogeneous) với kích thước cố định (fixed size).

Tài liệu tham khảo: [NumPy user guide](https://numpy.org/doc/stable/user/index.html), [NumPy Reference](https://numpy.org/doc/stable/reference/index.html#reference).

In [1]:
import numpy as np

In [2]:
np.__version__

'1.25.2'

In [4]:
import matplotlib.pyplot as mpl 
mpl.__version__

ImportError: dlopen(/Users/admin/Library/Python/3.9/lib/python/site-packages/kiwisolver/_cext.cpython-39-darwin.so, 0x0002): tried: '/Users/admin/Library/Python/3.9/lib/python/site-packages/kiwisolver/_cext.cpython-39-darwin.so' (mach-o file, but is an incompatible architecture (have (x86_64), need (arm64e)))

Các mảng số trong NumPy được gọi là `ndarray` (n-dimensional array).

In [None]:
a = np.array([1, 2, 3, 4, 5])
a

array([1, 2, 3, 4, 5])

In [None]:
type(a)

numpy.ndarray

Số chiều (dimension, rank) được truy cập qua thuộc tính `ndim`. Mỗi chiều còn được gọi là trục (axis).

Các 1D array được gọi là **vector**, 2D array được gọi là **matrix** (ma trận), 3D array trở lên được gọi là **tensor**.

Như vậy mảng `a` tạo ở trên còn được gọi là một vector.

In [None]:
a.ndim

1

Thuộc tính `shape` cho biết kích thước mỗi chiều.

In [None]:
a.shape

(5,)

Thuộc tính `size` cho biết số lượng phần tử.

In [None]:
a.size

5

Tất cả các phần tử trong mảng đều cùng kiểu, xác định qua thuộc tính `dtype`.

In [None]:
a.dtype

dtype('int64')

Kích thước mỗi phần tử (tính theo byte) được xác định qua thuộc tính `itemsize`.

In [None]:
a.itemsize

8

In [None]:
a = np.array([1.0, 2, 3])
print(a)
print(a.dtype)

[1. 2. 3.]
float64


Sau đây tạo mảng `b` 2D, còn gọi là một ma trận.

In [None]:
b = np.array([[1.0, 2, 3], 
              [4, 5, 6]])
b

array([[1., 2., 3.],
       [4., 5., 6.]])

In [None]:
print(b.ndim)
print(b.shape)
print(b.size)
print(b.dtype)
print(b.itemsize)

2
(2, 3)
6
float64
8


Sau đây tạo mảng `c` 3D, còn gọi là một tensor.

In [None]:
c = np.array([
    [[1, 2, 3],
     [4, 5, 6],
     [7, 8, 9]],
    
    [[3, 2, 1],
     [6, 5, 4],
    [0, 1, 2],]
], dtype=np.float32)
print (c)
print(c.shape)

[[[1. 2. 3.]
  [4. 5. 6.]
  [7. 8. 9.]]

 [[3. 2. 1.]
  [6. 5. 4.]
  [0. 1. 2.]]]
(2, 3, 3)


**Bài tập**

Cho biết giá trị các thuộc tính `ndim`, `shape`, `size`, `dtype`, `itemsize` của tensor `c`.

In [None]:
print(c.ndim)
print(c.shape)
print(c.size)
print(c.dtype)
print(c.itemsize)

3
(2, 3, 3)
18
float32
4


## Tạo mảng

`ndarray` có thể được tạo bằng nhiều cách (https://numpy.org/doc/stable/user/basics.creation.html).

In [None]:
np.array(range(10))

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [None]:
np.array([[i*j for j in range(4)] for i in range(3)])

array([[0, 0, 0, 0],
       [0, 1, 2, 3],
       [0, 2, 4, 6]])

In [None]:
np.arange(1, 10, 2)

array([1, 3, 5, 7, 9])

In [None]:
np.linspace(1, 10, 5)

array([ 1.  ,  3.25,  5.5 ,  7.75, 10.  ])

In [None]:
np.diag([1, 2, 3])

array([[1, 0, 0],
       [0, 2, 0],
       [0, 0, 3]])

In [None]:
np.random.rand(3,2,5)

array([[[0.74370297, 0.70950005, 0.0814584 , 0.10470056, 0.09505308],
        [0.08839432, 0.42597147, 0.54463279, 0.96577141, 0.41678384]],

       [[0.30152011, 0.08950659, 0.01413804, 0.79321487, 0.49186161],
        [0.63516303, 0.59848172, 0.57174719, 0.42082519, 0.74055463]],

       [[0.60479139, 0.47712443, 0.74536538, 0.19306901, 0.92498131],
        [0.07286949, 0.90759577, 0.84702337, 0.64357043, 0.36292761]]])

In [None]:
np.random.randint(0, 10, size=(2, 4))

array([[6, 4, 2, 2],
       [1, 4, 0, 8]])

In [None]:
a = np.zeros((2, 3, 4))
a

array([[[0., 0., 0., 0.],
        [0., 0., 0., 0.],
        [0., 0., 0., 0.]],

       [[0., 0., 0., 0.],
        [0., 0., 0., 0.],
        [0., 0., 0., 0.]]])

In [None]:
np.ones_like(a)

array([[[1., 1., 1., 1.],
        [1., 1., 1., 1.],
        [1., 1., 1., 1.]],

       [[1., 1., 1., 1.],
        [1., 1., 1., 1.],
        [1., 1., 1., 1.]]])

Mảng có thể được thay đổi kích thước với phương thức `reshape`.

In [None]:
a.reshape(2, 4, 3)

array([[[0., 0., 0.],
        [0., 0., 0.],
        [0., 0., 0.],
        [0., 0., 0.]],

       [[0., 0., 0.],
        [0., 0., 0.],
        [0., 0., 0.],
        [0., 0., 0.]]])

In [None]:
a

array([[[0., 0., 0., 0.],
        [0., 0., 0., 0.],
        [0., 0., 0., 0.]],

       [[0., 0., 0., 0.],
        [0., 0., 0., 0.],
        [0., 0., 0., 0.]]])

In [None]:
np.arange(15).reshape(3, 5)

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

In [None]:
a = np.arange(3)
print(a)
print(a.shape)

[0 1 2]
(3,)


In [None]:
b = a.reshape(a.size, 1)
print(b)
print(b.shape)

[[0]
 [1]
 [2]]
(3, 1)


In [None]:
c = a.reshape(1, a.size)
print(c)
print(c.shape)

[[0 1 2]]
(1, 3)


In [None]:
a.reshape(-1, 1)

array([[0],
       [1],
       [2]])

In [None]:
a.reshape(1, -1)

array([[0, 1, 2]])

In [None]:
a[:, np.newaxis]

array([[0],
       [1],
       [2]])

In [None]:
a[np.newaxis, :]

array([[0, 1, 2]])

In [None]:
c = a[np.newaxis, :][np.newaxis, :, :]
print(c)
print(c.ndim)
print(c.shape)

[[[0 1 2]]]
3
(1, 1, 3)


**Bài tập**

Tạo một ma trận kích thước 2x10, gồm toàn số 10.

In [None]:
ten= np.full((2,10),10)
print(ten)

[[10 10 10 10 10 10 10 10 10 10]
 [10 10 10 10 10 10 10 10 10 10]]


**Bài tập**

Tạo một tensor 3D kích thước 3x4x5, gồm các số chia đều từ 0 đến 20.

In [None]:
a345= np.linspace(0, 20, 60).reshape(3, 4, 5) #60 = 3x4x5
print (a345.ndim)
print (a345.shape)
print (a345.size)
a345


3
(3, 4, 5)
60


array([[[ 0.        ,  0.33898305,  0.6779661 ,  1.01694915,
          1.3559322 ],
        [ 1.69491525,  2.03389831,  2.37288136,  2.71186441,
          3.05084746],
        [ 3.38983051,  3.72881356,  4.06779661,  4.40677966,
          4.74576271],
        [ 5.08474576,  5.42372881,  5.76271186,  6.10169492,
          6.44067797]],

       [[ 6.77966102,  7.11864407,  7.45762712,  7.79661017,
          8.13559322],
        [ 8.47457627,  8.81355932,  9.15254237,  9.49152542,
          9.83050847],
        [10.16949153, 10.50847458, 10.84745763, 11.18644068,
         11.52542373],
        [11.86440678, 12.20338983, 12.54237288, 12.88135593,
         13.22033898]],

       [[13.55932203, 13.89830508, 14.23728814, 14.57627119,
         14.91525424],
        [15.25423729, 15.59322034, 15.93220339, 16.27118644,
         16.61016949],
        [16.94915254, 17.28813559, 17.62711864, 17.96610169,
         18.30508475],
        [18.6440678 , 18.98305085, 19.3220339 , 19.66101695,
         20

**Bài tập**

1. Thay đổi kích thước của tensor trên thành vector

1. Thay đổi kích thước của tensor trên thành ma trận có 2 dòng

In [None]:
vector = a345.reshape(-1)
matrix = a345.reshape(2,-1)
vector
matrix

array([[ 0.        ,  0.33898305,  0.6779661 ,  1.01694915,  1.3559322 ,
         1.69491525,  2.03389831,  2.37288136,  2.71186441,  3.05084746,
         3.38983051,  3.72881356,  4.06779661,  4.40677966,  4.74576271,
         5.08474576,  5.42372881,  5.76271186,  6.10169492,  6.44067797,
         6.77966102,  7.11864407,  7.45762712,  7.79661017,  8.13559322,
         8.47457627,  8.81355932,  9.15254237,  9.49152542,  9.83050847],
       [10.16949153, 10.50847458, 10.84745763, 11.18644068, 11.52542373,
        11.86440678, 12.20338983, 12.54237288, 12.88135593, 13.22033898,
        13.55932203, 13.89830508, 14.23728814, 14.57627119, 14.91525424,
        15.25423729, 15.59322034, 15.93220339, 16.27118644, 16.61016949,
        16.94915254, 17.28813559, 17.62711864, 17.96610169, 18.30508475,
        18.6440678 , 18.98305085, 19.3220339 , 19.66101695, 20.        ]])

## Truy cập các phần tử

Truy cập phần tử của các mảng 1D (vector) có cú pháp tương tự danh sách (`list`) của Python: có thể dùng chỉ số (index) hay slice.

In [None]:
a = np.arange(10)
a

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [None]:
print(a[0])
print(a[-1])

0
9


In [None]:
print(a[:5])
print(a[-5:])

[0 1 2 3 4]
[5 6 7 8 9]


In [None]:
a[::-1]

array([9, 8, 7, 6, 5, 4, 3, 2, 1, 0])

Các phần tử cũng có thể được thay đổi qua việc truy cập chỉ số hay slice.

In [None]:
a[2] *= 10
a

array([ 0,  1, 20,  3,  4,  5,  6,  7,  8,  9])

In [None]:
a[1::2] = 100
a

array([  0, 100,  20, 100,   4, 100,   6, 100,   8, 100])

Với mảng nhiều chiều (2D trở lên) ta dùng chỉ số hay slice cho từng chiều phân cách bởi dấu `,`.

In [None]:
a = np.arange(15).reshape(3, 5)
a

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

In [None]:
a[1] # dòng 1
a[:,1] # cột 1

array([ 1,  6, 11])

In [None]:
print(a.shape)
print(a[1].shape)

(3, 5)
(5,)


In [None]:
print(a[0][-1]) # phần tử cuối dòng 0
print(a[0, -1]) # phần tử cuối dòng 0

4
4


In [None]:
a[:, 1] # cột 1

array([ 1,  6, 11])

In [None]:
a[:, -2:] # 2 cột cuối

array([[ 3,  4],
       [ 8,  9],
       [13, 14]])

In [None]:
a[0, :] = 1
a

array([[ 1,  1,  1,  1,  1],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

In [None]:
for r in a: # duyệt qua các dòng trong a
    r[0] = 100
a

array([[100,   1,   1,   1,   1],
       [100,   6,   7,   8,   9],
       [100,  11,  12,  13,  14]])

In [None]:
for c in range(a.shape[1]): # duyệt qua các cột trong a
    a[:, c][-1] = -100
a

array([[ 100,    1,    1,    1,    1],
       [ 100,    6,    7,    8,    9],
       [-100, -100, -100, -100, -100]])

Lưu ý là kích thước và kiểu của mảng là cố định.

In [None]:
a.dtype

dtype('int64')

In [None]:
a[-1, -1] = 100.5
a

array([[ 100,    1,    1,    1,    1],
       [ 100,    6,    7,    8,    9],
       [-100, -100, -100, -100,  100]])

In [None]:
b = a.astype(np.float64)
b

array([[ 100.,    1.,    1.,    1.,    1.],
       [ 100.,    6.,    7.,    8.,    9.],
       [-100., -100., -100., -100.,  100.]])

In [None]:
b.dtype

dtype('float64')

In [None]:
b[-1, -1] = 100.5
b

array([[ 100. ,    1. ,    1. ,    1. ,    1. ],
       [ 100. ,    6. ,    7. ,    8. ,    9. ],
       [-100. , -100. , -100. , -100. ,  100.5]])

Lưu ý là ta có thể sửa các phần tử của mảng với index và slice nên có thể hình dung index và slice trả về một "view" trên mảng gốc.

In [None]:
c = b[-2:, -2:]
c

array([[   8. ,    9. ],
       [-100. ,  100.5]])

In [None]:
c[:, :] = 0
c

array([[0., 0.],
       [0., 0.]])

In [None]:
b

array([[ 100.,    1.,    1.,    1.,    1.],
       [ 100.,    6.,    7.,    0.,    0.],
       [-100., -100., -100.,    0.,    0.]])

Để sao chép mảng ta có thể dùng phương thức `copy`.

In [None]:
d = b[-2:, -2:].copy()
d[:, :] = 0
d

array([[0., 0.],
       [0., 0.]])

In [None]:
b

array([[ 100.,    1.,    1.,    1.,    1.],
       [ 100.,    6.,    7.,    0.,    0.],
       [-100., -100., -100.,    0.,    0.]])

**Bài tập**

Tạo ma trận `a` kích thước 4x4, với dòng i (i=0..4) có các số đều là i.

1. Xuất ra dòng 2

1. Xuất ra cột 0

1. Xuất ra phần tử ở dòng cuối, cột cuối

1. Xuất ra nửa trên phải

1. Đặt tất cả các phần tử của dòng cuối là 0

1. Đặt tất cả các phần tử của nửa phải là 0

## Nối và tách mảng

Các mảng (với kích thước phù hợp) có thể được **"nối lại"** (concatenation, joining) để tạo thành mảng mới với các hàm `np.concatenate`, `np.vstack`, `np.hstack`.

In [6]:
a = np.arange(0, 7, 2)
b = np.arange(1, 8, 2)
np.concatenate([a, b, a])


array([0, 2, 4, 6, 1, 3, 5, 7, 0, 2, 4, 6])

In [7]:
np.hstack([a[:, np.newaxis], b[:, np.newaxis], a[:, np.newaxis]])

array([[0, 1, 0],
       [2, 3, 2],
       [4, 5, 4],
       [6, 7, 6]])

In [8]:
np.vstack([a.reshape(1, -1), b.reshape(1, -1), a.reshape(1, -1)])

array([[0, 2, 4, 6],
       [1, 3, 5, 7],
       [0, 2, 4, 6]])

In [None]:
a = 2*np.arange(6).reshape(2, 3)
b = 2*np.arange(6).reshape(2, 3) + 1

print(a)
print(b)
print(np.concatenate([a, b]))
print(np.concatenate([a, b], axis=1))

[[ 0  2  4]
 [ 6  8 10]]
[[ 1  3  5]
 [ 7  9 11]]
[[ 0  2  4]
 [ 6  8 10]
 [ 1  3  5]
 [ 7  9 11]]
[[ 0  2  4  1  3  5]
 [ 6  8 10  7  9 11]]


Ngược lại, các mảng có thể được **"tách"** (splitting) thành các mảng con với các hàm `np.split`, `np.vsplit`, `np.hsplit`.

In [11]:
a = np.arange(10)
a1, _, a2 = np.split(a, [3, 6])
print(a)
print(a1)
print(a2)

[0 1 2 3 4 5 6 7 8 9]
[0 1 2]
[6 7 8 9]


In [13]:
a = np.arange(12).reshape(3, 4)
a

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [24]:
top, bottom = np.vsplit(a, [1])
print(top)
print('\n\n\n')
print(bottom)

[[0 1 2 3]]




[[ 4  5  6  7]
 [ 8  9 10 11]]


In [36]:
left,right = np.hsplit(a, [2])
print(left)
print('\n\n')
print(right)

[[0 1]
 [4 5]
 [8 9]]



[[ 2  3]
 [ 6  7]
 [10 11]]


In [27]:
for row in np.vsplit(a, range(1, a.shape[0])):
    print(row.reshape(-1))

[0 1 2 3]
[4 5 6 7]
[ 8  9 10 11]


**Bài tập**

1. Tạo vector `a` gồm các bội số của 3 là [0, 3, 6, 9]

1. Tạo vector `b` gồm các bội số của 4 là [0, 4, 8, 12]

1. Tạo vector `c` gồm các bội số của 5 là [0, 5, 10, 15]

1. Tạo ma trận `d` gồm các cột `a`, `b`, `c` (như vậy `d` có kích thước là 4x3)

1. Tạo ma trận `e` gồm các dòng `a`, `b`, `c` (như vậy `e` có kích thước là 3x4)

## Đọc bảng số liệu từ tập tin vào mảng

Dữ liệu `Iris Data Set`: https://archive.ics.uci.edu/ml/datasets/Iris.

Tập tin dữ liệu: https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data.

Tham khảo thêm: https://en.wikipedia.org/wiki/Iris_flower_data_set.

In [None]:
iris_names = ["sepal_length", "sepal_width", "petal_length", "petal_width", "class"]
iris_table = np.loadtxt('iris.data', delimiter = ',', skiprows = 0,
                  dtype={'names': iris_names,
                         'formats': ('f4', 'f4', 'f4', 'f4', 'U20')}) 

In [None]:
iris_table[:5]

array([(5.1, 3.5, 1.4, 0.2, 'Iris-setosa'),
       (4.9, 3. , 1.4, 0.2, 'Iris-setosa'),
       (4.7, 3.2, 1.3, 0.2, 'Iris-setosa'),
       (4.6, 3.1, 1.5, 0.2, 'Iris-setosa'),
       (5. , 3.6, 1.4, 0.2, 'Iris-setosa')],
      dtype=[('sepal_length', '<f4'), ('sepal_width', '<f4'), ('petal_length', '<f4'), ('petal_width', '<f4'), ('class', '<U20')])

In [None]:
iris_table[-5:]

array([(6.7, 3. , 5.2, 2.3, 'Iris-virginica'),
       (6.3, 2.5, 5. , 1.9, 'Iris-virginica'),
       (6.5, 3. , 5.2, 2. , 'Iris-virginica'),
       (6.2, 3.4, 5.4, 2.3, 'Iris-virginica'),
       (5.9, 3. , 5.1, 1.8, 'Iris-virginica')],
      dtype=[('sepal_length', '<f4'), ('sepal_width', '<f4'), ('petal_length', '<f4'), ('petal_width', '<f4'), ('class', '<U20')])

Trích riêng "cột" class là "nhãn lớp".

In [None]:
iris_classes = iris_table["class"]
print(iris_classes.dtype)
print(iris_classes.shape)
print(iris_classes[:5])
print(iris_classes[100])

<U20
(150,)
['Iris-setosa' 'Iris-setosa' 'Iris-setosa' 'Iris-setosa' 'Iris-setosa']
Iris-virginica


Trích riêng cột sepal length vào biến `sepal_length`.

In [None]:
sepal_length = iris_table["sepal_length"]
sepal_length[:10]

array([5.1, 4.9, 4.7, 4.6, 5. , 5.4, 4.6, 5. , 4.4, 4.9], dtype=float32)

Trích riêng các cột số đo (tất cả các cột trừ class) thành ma trận (thường gọi là ma trận đặc trưng).

In [None]:
iris_features = np.hstack([iris_table[n].reshape(-1, 1) for n in iris_names if n != "class"])
print(iris_features.dtype)
print(iris_features.shape)
print(iris_features[:5,:])

float32
(150, 4)
[[5.1 3.5 1.4 0.2]
 [4.9 3.  1.4 0.2]
 [4.7 3.2 1.3 0.2]
 [4.6 3.1 1.5 0.2]
 [5.  3.6 1.4 0.2]]


**Bài tập**

Tương tự cột sepal length, tách riêng cột sepal width vào biến tương ứng.

## Các phép toán vector hóa với ufunc

Các tính toán trên `ndarray` được thực hiện rất nhanh nhờ kỹ thuật **vector hóa** (vectorized) thông qua các **universal function** (ufunc). Đây là các tính toán **trên từng phần tử** (element-wise) của mảng nhưng được tối ưu hóa.

In [None]:
b_list = [1/x for x in range(1, 5)]
b_array = 1/np.arange(1, 5)

In [None]:
b_list

[1.0, 0.5, 0.3333333333333333, 0.25]

In [None]:
b_array

array([1.        , 0.5       , 0.33333333, 0.25      ])

In [None]:
%timeit [1/x for x in range(1, 100_000)]

3.23 ms ± 173 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


In [None]:
%timeit (1/np.arange(1, 100_000))

67.6 µs ± 683 ns per loop (mean ± std. dev. of 7 runs, 10,000 loops each)


Numpy đã nạp chồng các toán tử thông dụng của Python để thực hiện vector hóa bằng cách gọi các ufunc tương ứng.

In [None]:
a = np.arange(1, 11).reshape(2, 5)
a

array([[ 1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10]])

In [None]:
print(1/a)
print(np.divide(1, a))

[[1.         0.5        0.33333333 0.25       0.2       ]
 [0.16666667 0.14285714 0.125      0.11111111 0.1       ]]
[[1.         0.5        0.33333333 0.25       0.2       ]
 [0.16666667 0.14285714 0.125      0.11111111 0.1       ]]


In [None]:
print(-a)
print(np.negative(a))

[[ -1  -2  -3  -4  -5]
 [ -6  -7  -8  -9 -10]]
[[ -1  -2  -3  -4  -5]
 [ -6  -7  -8  -9 -10]]


In [None]:
print(a ** 2)
print(np.power(a, 2))

[[  1   4   9  16  25]
 [ 36  49  64  81 100]]
[[  1   4   9  16  25]
 [ 36  49  64  81 100]]


In [None]:
print(2 ** a)
print(np.power(2, a))

[[   2    4    8   16   32]
 [  64  128  256  512 1024]]
[[   2    4    8   16   32]
 [  64  128  256  512 1024]]


In [None]:
b = a + 1
b

array([[ 2,  3,  4,  5,  6],
       [ 7,  8,  9, 10, 11]])

In [None]:
c = a * b
c

array([[  2,   6,  12,  20,  30],
       [ 42,  56,  72,  90, 110]])

In [None]:
c //= a # c = c // a
c

array([[ 2,  3,  4,  5,  6],
       [ 7,  8,  9, 10, 11]])

In [None]:
np.cos(np.linspace(0, np.pi, 10))

array([ 1.        ,  0.93969262,  0.76604444,  0.5       ,  0.17364818,
       -0.17364818, -0.5       , -0.76604444, -0.93969262, -1.        ])

In [None]:
a = np.random.rand(6).reshape(2, 3)
b = np.random.rand(6).reshape(2, 3)

print(np.log(a*b))
print(np.log(a) + np.log(b))

[[-0.81928428 -3.03559468 -1.61663542]
 [-4.20969913 -0.85919762 -2.32290193]]
[[-0.81928428 -3.03559468 -1.61663542]
 [-4.20969913 -0.85919762 -2.32290193]]


Sau đây vẽ đồ thị hàm số $y = x^2$ và $y = |x|$ với $x \in [-2, 2]$.

In [None]:
import matplotlib.pyplot as plt
x = np.linspace(-2, 2, 100)
y = x**2

plt.plot(x, y)
plt.plot(x, np.abs(x))
plt.show()

ImportError: dlopen(/Users/admin/Library/Python/3.9/lib/python/site-packages/PIL/_imaging.cpython-39-darwin.so, 0x0002): tried: '/Users/admin/Library/Python/3.9/lib/python/site-packages/PIL/_imaging.cpython-39-darwin.so' (mach-o file, but is an incompatible architecture (have (x86_64), need (arm64e)))

Tham khảo thêm ufunc tại https://numpy.org/doc/stable/reference/ufuncs.html#ufuncs.

**Bài tập**

Vẽ đồ thị các hàm số $\sin(x)$ và $\cos(x)$ với $x \in [0, 2\pi]$.

**Bài tập**

Đối với dữ liệu `Iris`, các feature đều là số đo tính theo cm. Tạo một vector mới `sepal_length_inch` là sepal length nhưng tính theo đơn vị inch.

## Các hàm tổng hợp và thu gọn

Python hỗ trợ việc **tính thu gọn** (reduce) hay **tổng hợp** (aggregate) một mảng thành một số dựa trên các phép toán rất hiệu quả.

In [None]:
a = sum(range(10))
b = np.sum(np.arange(10))
print(a)
print(b)

45
45


In [None]:
%timeit sum(range(100_000))

2.54 ms ± 99.3 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


In [None]:
%timeit np.sum(np.arange(100_000))

85.1 µs ± 3.81 µs per loop (mean ± std. dev. of 7 runs, 10,000 loops each)


In [None]:
a = np.arange(1, 11)

print(np.sum(a))
print(np.add.reduce(a))

55
55


In [None]:
print(np.prod(a))
print(np.min(a))
print(np.max(a))

3628800
1
10


In [None]:
print(np.mean(a))
print(a.mean())
print(a.sum()/a.size)

5.5
5.5
5.5


Các hàm tổng hợp cũng làm việc trên mảng nhiều chiều, khi đó ta cũng có thể chọn trục (axis) để thực hiện việc tổng hợp.

In [None]:
a = np.arange(12).reshape(3, 4)
a

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [None]:
np.sum(a, axis=0) # tổng các cột (tổng hợp theo axis 0)

array([12, 15, 18, 21])

In [None]:
np.sum(a, axis=1) # tổng các dòng (tổng hợp theo axis 1)

array([ 6, 22, 38])

In [None]:
# tổng tất cả các phần tử
print(a.sum())
print(a.sum(axis=0).sum())
print(a.sum(axis=1).sum())

66
66
66


**Bài tập**

Từ ma trận `a` trên, tính:

1. Tích mỗi dòng

1. Số lớn nhất trên mỗi cột

1. Tổng các số lớn nhất trên mỗi cột

1. Vị trí số lớn nhất