# A.5. Structured and Record Arrays

Bạn có thể đã nhận thấy cho đến bây giờ rằng ndarray là một kiểu dữ liệu đồng nhất; nghĩa là, nó biểu diễn một khối bộ nhớ mà mỗi phần tử chiếm cùng một số byte, được xác định bởi kiểu dữ liệu. Nhìn bề ngoài, điều này có vẻ như không cho phép bạn biểu diễn dữ liệu không đồng nhất hoặc dạng bảng. Một mảng có cấu trúc (structured array) là một ndarray mà mỗi phần tử có thể được xem như là một struct trong C (do đó có tên “structured”) hoặc một dòng trong bảng SQL với nhiều trường có tên khác nhau:

In [2]:
# import thư viện
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np

In [3]:
dtype = [('x', np.float64), ('y', np.int32)]

In [4]:
sarr = np.array([(1.5, 6), (np.pi, -2)], dtype=dtype)

In [5]:
sarr

array([(1.5       ,  6), (3.14159265, -2)],
      dtype=[('x', '<f8'), ('y', '<i4')])

Có nhiều cách để xác định kiểu dữ liệu có cấu trúc (xem tài liệu trực tuyến của NumPy). Một cách phổ biến là sử dụng danh sách các tuple với dạng (tên_trường, kiểu_dữ_liệu_trường). Bây giờ, các phần tử của mảng là các đối tượng giống tuple, các phần tử của chúng có thể được truy cập như một từ điển:

In [8]:
sarr[0]

np.void((1.5, 6), dtype=[('x', '<f8'), ('y', '<i4')])

In [9]:
sarr[0]['y']

np.int32(6)

Tên các trường được lưu trong thuộc tính dtype.names. Khi bạn truy cập một trường trên mảng có cấu trúc, bạn sẽ nhận được một view dạng strided trên dữ liệu, do đó không có dữ liệu nào bị sao chép:

In [10]:
sarr['x']

array([1.5       , 3.14159265])

## Kiểu dữ liệu lồng nhau và các trường đa chiều



Khi xác định kiểu dữ liệu có cấu trúc, bạn cũng có thể truyền thêm một shape (dưới dạng số nguyên hoặc tuple):

In [11]:
dtype = [('x', np.int64, 3), ('y', np.int32)]

In [12]:
arr = np.zeros(4, dtype=dtype)

In [13]:
arr

array([([0, 0, 0], 0), ([0, 0, 0], 0), ([0, 0, 0], 0), ([0, 0, 0], 0)],
      dtype=[('x', '<i8', (3,)), ('y', '<i4')])

Trong trường hợp này, trường x bây giờ sẽ là một mảng có độ dài 3 cho mỗi bản ghi:

In [14]:
arr[0]['x']

array([0, 0, 0])

Thuận tiện là, khi truy cập arr['x'] thì sẽ trả về một mảng hai chiều thay vì một mảng một chiều như các ví dụ trước:

In [16]:
arr['x']

array([[0, 0, 0],
       [0, 0, 0],
       [0, 0, 0],
       [0, 0, 0]])

Điều này cho phép bạn biểu diễn các cấu trúc lồng nhau phức tạp hơn dưới dạng một khối bộ nhớ duy nhất trong một mảng. Bạn cũng có thể lồng các kiểu dữ liệu để tạo ra các cấu trúc phức tạp hơn. Dưới đây là một ví dụ:

In [17]:
dtype = [('x', [('a', 'f8'), ('b', 'f4')]), ('y', np.int32)]

In [18]:
data = np.array([((1, 2), 5), ((3, 4), 6)], dtype=dtype)

In [19]:
data['x']

array([(1., 2.), (3., 4.)], dtype=[('a', '<f8'), ('b', '<f4')])

In [20]:
data['y']

array([5, 6], dtype=int32)

In [21]:
data['x']['a']

array([1., 3.])

pandas DataFrame không hỗ trợ tính năng này theo cách tương tự, mặc dù nó khá giống với chỉ mục phân cấp (hierarchical indexing).

# A.6. More About Sorting

Giống như kiểu list tích hợp sẵn của Python, phương thức sort của ndarray sẽ sắp xếp tại chỗ, nghĩa là nội dung của mảng sẽ được sắp xếp lại mà không tạo ra một mảng mới:

In [26]:
rng = np.random.default_rng()

In [27]:
arr = rng.standard_normal(6)

In [28]:
arr.sort()

In [29]:
arr

array([-0.87872261, -0.73847083, -0.69647456,  0.34883797,  0.41289716,
        1.35347772])

Khi sắp xếp mảng tại chỗ, hãy nhớ rằng nếu mảng đó là một view của một ndarray khác, thì mảng gốc cũng sẽ bị thay đổi:

In [30]:
arr

array([-0.87872261, -0.73847083, -0.69647456,  0.34883797,  0.41289716,
        1.35347772])

Mặt khác, numpy.sort sẽ tạo ra một bản sao mới đã được sắp xếp của mảng. Ngoài ra, nó chấp nhận các tham số giống như phương thức sort của ndarray (ví dụ như kind):

In [32]:
arr = rng.standard_normal(5)

In [33]:
arr

array([ 0.39482212, -0.4303359 , -1.81212302, -0.2530782 , -0.38087369])

In [34]:
np.sort(arr)

array([-1.81212302, -0.4303359 , -0.38087369, -0.2530782 ,  0.39482212])

In [35]:
arr

array([ 0.39482212, -0.4303359 , -1.81212302, -0.2530782 , -0.38087369])

Tất cả các phương thức sắp xếp này đều nhận tham số axis để sắp xếp độc lập các phần dữ liệu dọc theo trục được truyền vào:

In [36]:
arr = rng.standard_normal((3, 5))

In [37]:
arr

array([[-1.41680289e+00,  7.85309956e-01,  7.08438872e-01,
         3.20518967e-02, -1.47516397e+00],
       [-3.01965154e-01, -9.96236650e-01,  1.14257540e+00,
        -1.08151576e-03,  5.17724262e-01],
       [ 1.43957692e-01, -7.14910782e-01,  1.96831965e-02,
         1.71500542e+00, -9.09857068e-01]])

In [38]:
arr.sort(axis=1)

In [39]:
arr

array([[-1.47516397e+00, -1.41680289e+00,  3.20518967e-02,
         7.08438872e-01,  7.85309956e-01],
       [-9.96236650e-01, -3.01965154e-01, -1.08151576e-03,
         5.17724262e-01,  1.14257540e+00],
       [-9.09857068e-01, -7.14910782e-01,  1.96831965e-02,
         1.43957692e-01,  1.71500542e+00]])

Nhận thấy rằng không có phương thức sắp xếp nào có tùy chọn để sắp xếp theo thứ tự giảm dần. Đây là một vấn đề trong thực tế vì việc cắt mảng sẽ tạo ra các view, do đó không tạo ra một bản sao hoặc không cần bất kỳ thao tác tính toán nào. Nhiều người dùng Python quen với “mẹo” rằng với một danh sách các giá trị, values[::-1] sẽ trả về danh sách theo thứ tự ngược lại. Điều này cũng đúng với ndarray:



In [40]:
arr[:, ::-1]

array([[ 7.85309956e-01,  7.08438872e-01,  3.20518967e-02,
        -1.41680289e+00, -1.47516397e+00],
       [ 1.14257540e+00,  5.17724262e-01, -1.08151576e-03,
        -3.01965154e-01, -9.96236650e-01],
       [ 1.71500542e+00,  1.43957692e-01,  1.96831965e-02,
        -7.14910782e-01, -9.09857068e-01]])

## Sắp xếp gián tiếp: argsort và lexsort

Trong phân tích dữ liệu, bạn có thể cần sắp xếp lại các bộ dữ liệu theo một hoặc nhiều khóa. Ví dụ, một bảng dữ liệu về các sinh viên có thể cần được sắp xếp theo họ, sau đó là tên. Đây là một ví dụ về sắp xếp gián tiếp, và nếu bạn đã đọc các chương liên quan đến pandas, bạn đã thấy nhiều ví dụ cấp cao hơn. Khi có một hoặc nhiều khóa (một mảng giá trị hoặc nhiều mảng giá trị), bạn muốn nhận được một mảng các chỉ số nguyên (thường gọi là indexers) cho biết cách sắp xếp lại dữ liệu để có thứ tự mong muốn. Hai phương pháp cho việc này là argsort và numpy.lexsort. Ví dụ:

In [42]:
values = np.array([5, 0, 1, 3, 2])

In [43]:
indexer = values.argsort()

In [44]:
indexer

array([1, 2, 4, 3, 0])

In [45]:
values[indexer]

array([0, 1, 2, 3, 5])

Là một ví dụ phức tạp hơn, đoạn mã này sẽ sắp xếp lại một mảng hai chiều dựa trên hàng đầu tiên của nó:

In [47]:
arr = rng.standard_normal((3, 5))

In [48]:
arr[0] = values

In [49]:
arr

array([[ 5.        ,  0.        ,  1.        ,  3.        ,  2.        ],
       [ 0.90731116, -1.20703181, -1.70631191,  1.13994985, -0.70625983],
       [-1.39534688,  0.60677022, -0.30496205,  0.06618859,  0.8367133 ]])

In [50]:
arr[:, arr[0].argsort()]

array([[ 0.        ,  1.        ,  2.        ,  3.        ,  5.        ],
       [-1.20703181, -1.70631191, -0.70625983,  1.13994985,  0.90731116],
       [ 0.60677022, -0.30496205,  0.8367133 ,  0.06618859, -1.39534688]])

lexsort tương tự như argsort, nhưng nó thực hiện sắp xếp gián tiếp theo thứ tự từ điển trên nhiều mảng khóa. Giả sử chúng ta muốn sắp xếp một số dữ liệu được xác định bởi tên và họ:

In [51]:
first_name = np.array(['Bob', 'Jane', 'Steve', 'Bill', 'Barbara'])

In [52]:
last_name = np.array(['Jones', 'Arnold', 'Arnold', 'Jones', 'Walters'])

In [53]:
sorter = np.lexsort((first_name, last_name))

In [54]:
sorter

array([1, 2, 3, 0, 4])

In [55]:
list(zip(last_name[sorter], first_name[sorter]))

[(np.str_('Arnold'), np.str_('Jane')),
 (np.str_('Arnold'), np.str_('Steve')),
 (np.str_('Jones'), np.str_('Bill')),
 (np.str_('Jones'), np.str_('Bob')),
 (np.str_('Walters'), np.str_('Barbara'))]

lexsort có thể gây nhầm lẫn khi bạn sử dụng lần đầu, vì thứ tự các khóa được dùng để sắp xếp dữ liệu bắt đầu từ mảng cuối cùng được truyền vào. Trong ví dụ này, last_name được sử dụng trước first_name.

## Các thuật toán sắp xếp thay thế



Một thuật toán sắp xếp ổn định sẽ giữ nguyên vị trí tương đối của các phần tử bằng nhau. Điều này đặc biệt quan trọng trong các phép sắp xếp gián tiếp, nơi thứ tự tương đối có ý nghĩa:

In [61]:
values = np.array(['2:first', '2:second', '1:first', '1:second', '1:third'])

In [62]:
key = np.array([2, 2, 1, 1, 1])

In [63]:
indexer = key.argsort(kind='mergesort')

In [64]:
indexer

array([2, 3, 4, 0, 1])

In [67]:
values.take(indexer)

array(['1:first', '1:second', '1:third', '2:first', '2:second'],
      dtype='<U8')

Thuật toán sắp xếp ổn định duy nhất có sẵn là mergesort, với hiệu suất đảm bảo O(n log n), nhưng hiệu suất trung bình của nó thường kém hơn so với phương pháp quicksort mặc định. Xem Bảng A-3 để biết tóm tắt các phương pháp có sẵn và hiệu suất tương đối (cũng như các đảm bảo về hiệu suất). Đây không phải là điều mà hầu hết người dùng cần quan tâm, nhưng biết về nó cũng hữu ích.

## Sắp xếp một phần mảng

Một trong những mục tiêu của việc sắp xếp có thể là xác định các phần tử lớn nhất hoặc nhỏ nhất trong một mảng. NumPy có các phương thức nhanh, numpy.partition và np.argpartition, để phân vùng một mảng xung quanh phần tử nhỏ nhất thứ k:

In [68]:
rng = np.random.default_rng(12345)

In [69]:
arr = rng.standard_normal(20)

In [70]:
arr

array([-1.42382504,  1.26372846, -0.87066174, -0.25917323, -0.07534331,
       -0.74088465, -1.3677927 ,  0.6488928 ,  0.36105811, -1.95286306,
        2.34740965,  0.96849691, -0.75938718,  0.90219827, -0.46695317,
       -0.06068952,  0.78884434, -1.25666813,  0.57585751,  1.39897899])

In [71]:
np.partition(arr, 3)

array([-1.95286306, -1.42382504, -1.3677927 , -1.25666813, -0.87066174,
       -0.75938718, -0.74088465, -0.46695317, -0.25917323, -0.07534331,
       -0.06068952,  0.36105811,  0.57585751,  0.6488928 ,  0.78884434,
        0.90219827,  0.96849691,  1.26372846,  1.39897899,  2.34740965])

In [72]:
indices = np.argpartition(arr, 3)

In [73]:
indices

array([ 9,  0,  6, 17,  2, 12,  5, 14,  3,  4, 15,  8, 18,  7, 16, 13, 11,
        1, 19, 10])

In [74]:
arr.take(indices)

array([-1.95286306, -1.42382504, -1.3677927 , -1.25666813, -0.87066174,
       -0.75938718, -0.74088465, -0.46695317, -0.25917323, -0.07534331,
       -0.06068952,  0.36105811,  0.57585751,  0.6488928 ,  0.78884434,
        0.90219827,  0.96849691,  1.26372846,  1.39897899,  2.34740965])

numpy.searchsorted: Tìm phần tử trong một mảng đã được sắp xếp

In [75]:
arr = np.array([0, 1, 7, 12, 15])

In [76]:
arr.searchsorted(9)

np.int64(3)

Bạn cũng có thể truyền vào một mảng giá trị để nhận lại một mảng các chỉ số:

In [77]:
arr.searchsorted([0, 8, 11, 16])

array([0, 3, 3, 5])

Bạn có thể đã nhận thấy rằng searchsorted trả về 0 cho phần tử 0. Điều này là do hành vi mặc định là trả về chỉ số ở phía bên trái của một nhóm các giá trị bằng nhau:

In [78]:
arr = np.array([0, 0, 0, 1, 1, 1, 1])

In [79]:
arr.searchsorted([0, 1])

array([0, 3])

In [80]:
arr.searchsorted([0, 1], side='right')

array([3, 7])

Là một ứng dụng khác của searchsorted, giả sử chúng ta có một mảng các giá trị nằm trong khoảng từ 0 đến 10.000, và một mảng riêng các “cạnh của các thùng” mà chúng ta muốn dùng để phân nhóm dữ liệu:

In [81]:
data = np.floor(rng.uniform(0, 10000, size=50))

In [82]:
bins = np.array([0, 100, 1000, 5000, 10000])

In [83]:
data

array([ 815., 1598., 3401., 4651., 2664., 8157., 1932., 1294.,  916.,
       5985., 8547., 6016., 9319., 7247., 8605., 9293., 5461., 9376.,
       4949., 2737., 4517., 6650., 3308., 9034., 2570., 3398., 2588.,
       3554.,   50., 6286., 2823.,  680., 6168., 1763., 3043., 4408.,
       1502., 2179., 4743., 4763., 2552., 2975., 2790., 2605., 4827.,
       2119., 4956., 2462., 8384., 1801.])

Để gán nhãn cho mỗi điểm dữ liệu thuộc về khoảng nào (trong đó 1 nghĩa là thuộc thùng 0, 100)), chúng ta chỉ cần sử dụng searchsorted:

In [85]:
labels = bins.searchsorted(data)

In [86]:
labels

array([2, 3, 3, 3, 3, 4, 3, 3, 2, 4, 4, 4, 4, 4, 4, 4, 4, 4, 3, 3, 3, 4,
       3, 4, 3, 3, 3, 3, 1, 4, 3, 2, 4, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3,
       3, 3, 3, 3, 4, 3])

Điều này, kết hợp với groupby của pandas, có thể được sử dụng để phân nhóm dữ liệu theo các thùng (bin):

In [87]:
pd.Series(data).groupby(labels).mean()

1      50.000000
2     803.666667
3    3079.741935
4    7635.200000
dtype: float64