# Advanced NumPy


## A.5 Structured and Record Arrays


### 1. Giới thiệu

Notebook này dùng để tìm hiểu và thực hành về `Structured Arrays` trong NumPy. Đây là một kiểu mảng đặc biệt cho phép lưu trữ các loại dữ liệu không đồng nhất (heterogeneous), tương tự như một `struct` trong ngôn ngữ C hay một dòng trong bảng SQL.

Chúng ta sẽ khám phá:

1.  Cách tạo và truy cập một mảng có cấu trúc cơ bản.
2.  Cách làm việc với các kiểu dữ liệu lồng nhau và các trường đa chiều.
3.  Ưu điểm và trường hợp sử dụng của `Structured Arrays`.


#### Nạp thư viện


In [1]:
import numpy as np
print(f"NumPy version: {np.__version__}")

NumPy version: 1.23.5


### 2. Mảng có cấu trúc cơ bản

`Structured Array` là một `ndarray` mà mỗi phần tử của nó bao gồm nhiều trường (fields), mỗi trường có một tên và một kiểu dữ liệu riêng.

Để tạo, chúng ta cần định nghĩa một `dtype` đặc biệt, thường là một danh sách các tuple `(tên_trường, kiểu_dữ_liệu)`.


**Định nghĩa dtype và tạo mảng**


In [6]:
# Định nghĩa kiểu dữ liệu có cấu trúc với hai trường: 'x' và 'y'
dtype_basic = [('x', np.float64), ('y', np.int32)]

# Tạo mảng với dữ liệu và kiểu dữ liệu đã định nghĩa
sarr = np.array([(1.5, 6), (np.pi, -2)], dtype=dtype_basic)

**Hiển thị mảng**


In [8]:
# In mảng để xem kết quả
print("Mảng có cấu trúc sarr:")
print(sarr)
print("\nKiểu dữ liệu của sarr:")
print(sarr.dtype)

Mảng có cấu trúc sarr:
[(1.5       ,  6) (3.14159265, -2)]

Kiểu dữ liệu của sarr:
[('x', '<f8'), ('y', '<i4')]


#### 3. Truy cập dữ liệu

Chúng ta có thể truy cập dữ liệu theo từng phần tử (record) hoặc theo từng trường (field).

- **Truy cập theo record**: Giống như mảng NumPy thông thường.
- **Truy cập theo field**: Sử dụng tên trường như một key của dictionary.


**Truy cập record và field**


In [9]:
# Truy cập phần tử đầu tiên (record/hàng đầu tiên)
print(f"\nPhần tử đầu tiên sarr[0]: {sarr[0]}")

# Truy cập trường 'y' của phần tử đầu tiên
print(f"Giá trị trường 'y' của phần tử đầu tiên sarr[0]['y']: {sarr[0]['y']}")

# Truy cập tất cả giá trị của trường 'x' (truy cập theo cột)
# Kết quả trả về là một view, không phải bản sao (copy)
print("\nTất cả giá trị của trường 'x' sarr['x']:")
print(sarr['x'])


Phần tử đầu tiên sarr[0]: (1.5, 6)
Giá trị trường 'y' của phần tử đầu tiên sarr[0]['y']: 6

Tất cả giá trị của trường 'x' sarr['x']:
[1.5        3.14159265]


### 4. Kiểu dữ liệu lồng nhau và Trường đa chiều

`Structured Arrays` còn mạnh mẽ hơn khi cho phép định nghĩa các trường là mảng đa chiều hoặc thậm chí là một cấu trúc lồng nhau khác.

**Trường đa chiều**:
Ta có thể thêm một shape (dạng tuple) vào định nghĩa `dtype` để mỗi record chứa một mảng.


In [10]:
print("\n## 2. Mảng có cấu trúc với trường đa chiều ##")

# Định nghĩa kiểu dữ liệu mà trường 'x' là một mảng 1D có 3 phần tử
dtype_multi = [('x', np.int64, 3), ('y', np.int32)]

# Tạo một mảng gồm 4 phần tử với toàn số 0 theo cấu trúc trên
arr = np.zeros(4, dtype=dtype_multi)

print("\nMảng arr với trường 'x' là mảng 3 chiều:")
print(arr)

# Truy cập trường 'x' của phần tử đầu tiên
print(f"\nGiá trị trường 'x' của phần tử đầu tiên arr[0]['x']: {arr[0]['x']}")

# Truy cập tất cả các giá trị của trường 'x' sẽ trả về một mảng 2D
print("\nTất cả giá trị của trường 'x' arr['x']:")
print(arr['x'])


## 2. Mảng có cấu trúc với trường đa chiều ##

Mảng arr với trường 'x' là mảng 3 chiều:
[([0, 0, 0], 0) ([0, 0, 0], 0) ([0, 0, 0], 0) ([0, 0, 0], 0)]

Giá trị trường 'x' của phần tử đầu tiên arr[0]['x']: [0 0 0]

Tất cả giá trị của trường 'x' arr['x']:
[[0 0 0]
 [0 0 0]
 [0 0 0]
 [0 0 0]]


**Kiểu dữ liệu lồng nhau (Nested Data Types)**


In [11]:
print("\n## 3. Mảng có cấu trúc với kiểu dữ liệu lồng nhau ##")

# Định nghĩa kiểu dữ liệu lồng nhau: trường 'x' lại là một cấu trúc khác
dtype_nested = [('x', [('a', 'f8'), ('b', 'f4')]), ('y', np.int32)]

# Tạo mảng với dữ liệu tương ứng
data = np.array([((1, 2), 5), ((3, 4), 6)], dtype=dtype_nested)

print("\nMảng data với cấu trúc lồng nhau:")
print(data)

# Truy cập trường cấp 1 ('x' và 'y')
print("\nTruy cập trường 'x':")
print(data['x'])

print("\nTruy cập trường 'y':")
print(data['y'])

# Truy cập trường cấp 2 ('a' bên trong 'x')
print("\nTruy cập trường 'a' bên trong 'x' (data['x']['a']):")
print(data['x']['a'])


## 3. Mảng có cấu trúc với kiểu dữ liệu lồng nhau ##

Mảng data với cấu trúc lồng nhau:
[((1., 2.), 5) ((3., 4.), 6)]

Truy cập trường 'x':
[(1., 2.) (3., 4.)]

Truy cập trường 'y':
[5 6]

Truy cập trường 'a' bên trong 'x' (data['x']['a']):
[1. 3.]


### 5. Tại sao nên sử dụng Structured Arrays?

So với `pandas.DataFrame`, `Structured Arrays` là một công cụ ở cấp thấp hơn. Ưu điểm chính của nó nằm ở hiệu năng và cách biểu diễn dữ liệu trong bộ nhớ:

- **Hiệu quả bộ nhớ**: Mỗi phần tử trong mảng được biểu diễn dưới dạng một khối byte cố định, giúp việc đọc/ghi dữ liệu từ đĩa (disk), gửi qua mạng (network) rất hiệu quả.
- **Tương thích với C/C++**: Cấu trúc bộ nhớ của nó tương tự như `struct` trong C. Điều này rất hữu ích khi làm việc với các thư viện C hoặc đọc các file nhị phân (binary files) được tạo từ các hệ thống cũ.


## A.6 More About Sorting

Notebook này minh họa các phương pháp sắp xếp mảng (array) trong NumPy. Chúng ta sẽ tìm hiểu sự khác biệt cốt lõi giữa:

- **Sắp xếp tại chỗ (in-place)** với phương thức `arr.sort()`
- **Sắp xếp tạo bản sao (out-of-place)** với hàm `np.sort(arr)`
- Sắp xếp mảng đa chiều theo **trục (axis)**
- Mẹo để **sắp xếp giảm dần**


**Nạp thư viện và khởi tạo ngẫu nhiên**


In [12]:
import numpy as np

# Khởi tạo bộ sinh số ngẫu nhiên (Random Number Generator)
# Đây là cách làm hiện đại và được khuyến nghị trong NumPy
rng = np.random.default_rng()

print(f"NumPy version: {np.__version__}")

NumPy version: 1.23.5


### 1. Sắp xếp tại chỗ (In-place) với `arr.sort()`

Phương thức `.sort()` được gọi trực tiếp từ một đối tượng `ndarray`. Nó sẽ sắp xếp và **thay đổi vĩnh viễn** dữ liệu bên trong mảng gốc.


In [13]:
# Tạo một mảng ngẫu nhiên
arr_inplace = rng.standard_normal(6)
print("Mảng ban đầu:", arr_inplace)

# Sắp xếp tại chỗ
arr_inplace.sort() 
print("Mảng sau khi sắp xếp:", arr_inplace)

Mảng ban đầu: [ 0.36009701  1.95291121  0.34066975 -0.12261662  1.02687093 -1.07001222]
Mảng sau khi sắp xếp: [-1.07001222 -0.12261662  0.34066975  0.36009701  1.02687093  1.95291121]


**Chú ý**: Sắp xếp trên một "View" sẽ thay đổi mảng gốc

Khi bạn lấy một lát cắt (slice) của mảng, NumPy thường trả về một "view" chứ không phải một bản sao. "View" này trỏ đến vùng nhớ của mảng gốc. Do đó, nếu bạn sắp xếp "view" này tại chỗ, mảng gốc cũng sẽ bị thay đổi theo.


In [14]:
arr_original = rng.standard_normal((3, 5))
print("Mảng gốc ban đầu:\n", arr_original)

# Lấy view của cột đầu tiên (arr_original[:, 0]) và sắp xếp nó
first_column_view = arr_original[:, 0]
first_column_view.sort()

print("\nMảng gốc sau khi sắp xếp cột đầu tiên:\n", arr_original)

Mảng gốc ban đầu:
 [[ 0.1997401   0.29471387 -1.10915511 -0.62614298 -2.31793807]
 [ 2.2113833  -1.03346402 -1.35021532 -0.73989496 -0.677089  ]
 [-2.00535526  0.21102371 -0.21703376  0.98224644  0.07948854]]

Mảng gốc sau khi sắp xếp cột đầu tiên:
 [[-2.00535526  0.29471387 -1.10915511 -0.62614298 -2.31793807]
 [ 0.1997401  -1.03346402 -1.35021532 -0.73989496 -0.677089  ]
 [ 2.2113833   0.21102371 -0.21703376  0.98224644  0.07948854]]


### 2. Sắp xếp tạo bản sao với `np.sort()`

Hàm `np.sort()` của thư viện NumPy sẽ trả về một **bản sao (copy)** mới của mảng đã được sắp xếp. Mảng gốc sẽ **không bị thay đổi**.


In [15]:
arr_copy = rng.standard_normal(5)
print("Mảng gốc:", arr_copy)

# Gọi hàm np.sort()
sorted_arr = np.sort(arr_copy)
print("Bản sao đã được sắp xếp:", sorted_arr)

# Kiểm tra lại mảng gốc
print("Mảng gốc sau khi gọi np.sort():", arr_copy)

Mảng gốc: [ 0.84961047  0.80706123 -0.28794717 -0.20197991 -0.54492885]
Bản sao đã được sắp xếp: [-0.54492885 -0.28794717 -0.20197991  0.80706123  0.84961047]
Mảng gốc sau khi gọi np.sort(): [ 0.84961047  0.80706123 -0.28794717 -0.20197991 -0.54492885]


### 3. Sắp xếp theo trục (Sorting Along an Axis)

Với mảng đa chiều, bạn có thể chỉ định trục để sắp xếp bằng tham số `axis`.

- `axis=1`: Sắp xếp các phần tử trên **từng hàng**.
- `axis=0`: Sắp xếp các phần tử trên **từng cột**.


In [16]:
arr_axis = rng.standard_normal((3, 5))
print("Mảng đa chiều ban đầu:\n", arr_axis)

# Sắp xếp tại chỗ theo hàng (axis=1)
arr_axis.sort(axis=1)
print("\nMảng sau khi sắp xếp theo hàng (axis=1):\n", arr_axis)

Mảng đa chiều ban đầu:
 [[-0.69213856 -0.83097068  0.79844201  0.60803362 -0.04653087]
 [ 0.52478846 -3.36912958  0.94493549  1.18538202  0.52224066]
 [-0.68978245 -1.11171541  0.81575813 -0.13502659  0.93307333]]

Mảng sau khi sắp xếp theo hàng (axis=1):
 [[-0.83097068 -0.69213856 -0.04653087  0.60803362  0.79844201]
 [-3.36912958  0.52224066  0.52478846  0.94493549  1.18538202]
 [-1.11171541 -0.68978245 -0.13502659  0.81575813  0.93307333]]


### 4. Sắp xếp giảm dần (Descending Sort)

NumPy không có tham số `reverse=True` như list của Python. Mẹo phổ biến là **sắp xếp tăng dần trước, sau đó đảo ngược mảng** bằng kỹ thuật slicing `[::-1]`.


In [17]:
# Tận dụng mảng arr_axis đã được sắp xếp tăng dần ở bước trên
print("Mảng đã sắp xếp tăng dần theo hàng:\n", arr_axis)

# Dùng slicing [:, ::-1] để đảo ngược thứ tự các cột trên mỗi hàng
arr_descending = arr_axis[:, ::-1]
print("\nMảng sau khi đảo ngược để có thứ tự giảm dần:\n", arr_descending)

Mảng đã sắp xếp tăng dần theo hàng:
 [[-0.83097068 -0.69213856 -0.04653087  0.60803362  0.79844201]
 [-3.36912958  0.52224066  0.52478846  0.94493549  1.18538202]
 [-1.11171541 -0.68978245 -0.13502659  0.81575813  0.93307333]]

Mảng sau khi đảo ngược để có thứ tự giảm dần:
 [[ 0.79844201  0.60803362 -0.04653087 -0.69213856 -0.83097068]
 [ 1.18538202  0.94493549  0.52478846  0.52224066 -3.36912958]
 [ 0.93307333  0.81575813 -0.13502659 -0.68978245 -1.11171541]]


### 5. Sắp xếp gián tiếp (Indirect Sorts): `argsort` và `lexsort`

Đôi khi, thay vì sắp xếp trực tiếp giá trị của một mảng, chúng ta lại cần tìm ra **thứ tự chỉ số (indices)** để có thể sắp xếp mảng đó. Kết quả này được gọi là "sắp xếp gián tiếp". Các chỉ số này sau đó có thể được dùng để sắp xếp đồng bộ nhiều mảng khác nhau.


#### `argsort`: Sắp xếp trên một mảng duy nhất

Phương thức `argsort` trả về một mảng chứa các chỉ số (indexer) mà theo đó mảng gốc sẽ được sắp xếp theo thứ tự tăng dần.


In [18]:
values = np.array([5, 0, 1, 3, 2])
indexer = values.argsort()

print(f"Mảng gốc: {values}")
print(f"Chỉ số sắp xếp (indexer): {indexer}")

# Dùng indexer để truy cập mảng gốc theo thứ tự đã sắp xếp
print(f"Mảng sau khi sắp xếp bằng indexer: {values[indexer]}")

Mảng gốc: [5 0 1 3 2]
Chỉ số sắp xếp (indexer): [1 2 4 3 0]
Mảng sau khi sắp xếp bằng indexer: [0 1 2 3 5]


Ứng dụng `argsort` rất hữu ích khi bạn muốn sắp xếp lại các cột của một mảng 2D dựa trên giá trị của một hàng cụ thể.


In [19]:
# Tạo một mảng 2D ngẫu nhiên
arr_2d = rng.standard_normal((3, 5))

# Gán hàng đầu tiên bằng mảng `values` ở trên
arr_2d[0] = values
print("Mảng 2D ban đầu:\n", arr_2d)

# Sắp xếp lại các cột của arr_2d dựa trên thứ tự của hàng đầu tiên
sorted_by_row0 = arr_2d[:, arr_2d[0].argsort()]
print("\nMảng 2D sau khi sắp xếp các cột theo hàng đầu tiên:\n", sorted_by_row0)

Mảng 2D ban đầu:
 [[ 5.          0.          1.          3.          2.        ]
 [ 0.89690726 -0.50633349  0.10618985  0.26087189  1.38950148]
 [-0.03002971  1.98663892 -0.5277864  -0.20758013  0.06218009]]

Mảng 2D sau khi sắp xếp các cột theo hàng đầu tiên:
 [[ 0.          1.          2.          3.          5.        ]
 [-0.50633349  0.10618985  1.38950148  0.26087189  0.89690726]
 [ 1.98663892 -0.5277864   0.06218009 -0.20758013 -0.03002971]]


#### `lexsort`: Sắp xếp từ điển trên nhiều mảng

`numpy.lexsort` thực hiện sắp xếp gián tiếp dựa trên nhiều mảng khóa (key arrays), tương tự như việc bạn sort trong Excel theo nhiều cột.

**Lưu ý quan trọng:** Thứ tự sắp xếp được ưu tiên từ **key cuối cùng** đến key đầu tiên được truyền vào. Tức là, mảng cuối cùng trong tuple bạn truyền vào sẽ là khóa sắp xếp chính (primary key).


In [20]:
first_name = np.array(['Bob', 'Jane', 'Steve', 'Bill', 'Barbara'])
last_name = np.array(['Jones', 'Arnold', 'Arnold', 'Jones', 'Walters'])

# Sắp xếp theo last_name (khóa chính), sau đó theo first_name (khóa phụ)
# Do đó, last_name phải được đặt ở cuối trong tuple
sorter = np.lexsort((first_name, last_name))

print(f"Các khóa sắp xếp (keys):\n- last_name: {last_name}\n- first_name: {first_name}")
print(f"\nIndexer trả về từ lexsort: {sorter}")

# Dùng indexer để hiển thị kết quả đã sắp xếp
sorted_full_names = list(zip(last_name[sorter], first_name[sorter]))

print("\nDanh sách đã được sắp xếp:")
for last, first in sorted_full_names:
    print(f"- {last}, {first}")

Các khóa sắp xếp (keys):
- last_name: ['Jones' 'Arnold' 'Arnold' 'Jones' 'Walters']
- first_name: ['Bob' 'Jane' 'Steve' 'Bill' 'Barbara']

Indexer trả về từ lexsort: [1 2 3 0 4]

Danh sách đã được sắp xếp:
- Arnold, Jane
- Arnold, Steve
- Jones, Bill
- Jones, Bob
- Walters, Barbara


### 6. Các Thuật toán Sắp xếp Thay thế (Alternative Sort Algorithms)

#### Sắp xếp Ổn định (Stable Sort)

Một thuật toán sắp xếp được gọi là **ổn định (stable)** nếu nó giữ nguyên thứ tự tương đối của các phần tử có giá trị bằng nhau. Điều này đặc biệt quan trọng trong các phép sắp xếp gián tiếp.

Trong NumPy, `mergesort` là thuật toán sắp xếp ổn định duy nhất. Mặc dù nó được đảm bảo có hiệu năng O(n log n), nhưng trong thực tế thường chậm hơn so với `quicksort` (thuật toán mặc định).


In [21]:
# Ví dụ về sắp xếp ổn định
values = np.array(['2:first', '2:second', '1:first', '1:second', '1:third'])
key = np.array([2, 2, 1, 1, 1])

# Dùng 'mergesort' để đảm bảo tính ổn định
# Thứ tự của các phần tử '1:...' và '2:...' sẽ được giữ nguyên
indexer = key.argsort(kind='mergesort')

print(f"Key để sắp xếp: {key}")
print(f"Indexer (dùng mergesort): {indexer}")

# values.take(indexer) tương đương với values[indexer]
print("\nKết quả sau khi sắp xếp ổn định:")
print(values.take(indexer))

Key để sắp xếp: [2 2 1 1 1]
Indexer (dùng mergesort): [2 3 4 0 1]

Kết quả sau khi sắp xếp ổn định:
['1:first' '1:second' '1:third' '2:first' '2:second']


Bảng dưới đây tóm tắt các thuật toán sắp xếp có sẵn trong NumPy:

| Kind (`loại`) | Tốc độ (trung bình) | Ổn định (Stable) | Bộ nhớ phụ (Work space) | Trường hợp tệ nhất (Worst case) |
| :------------ | :-----------------: | :--------------: | :---------------------: | :-----------------------------: |
| `'quicksort'` |   1 (Nhanh nhất)    |      Không       |            0            |              O(n²)              |
| `'mergesort'` |   2 (Trung bình)    |        Có        |          n / 2          |           O(n log n)            |
| `'heapsort'`  |    3 (Chậm nhất)    |      Không       |            0            |           O(n log n)            |


### 7. Sắp xếp một phần (Partially Sorting Arrays)

Đôi khi, mục tiêu của bạn không phải là sắp xếp toàn bộ mảng mà chỉ là tìm ra _k_ phần tử nhỏ nhất hoặc lớn nhất. NumPy cung cấp các hàm `numpy.partition` và `numpy.argpartition` rất nhanh cho việc này.

Hàm này sẽ "phân hoạch" mảng xung quanh phần tử nhỏ thứ _k_. Kết quả là:

- Phần tử tại vị trí _k_ sẽ đúng là phần tử nhỏ thứ _k_.
- Tất cả các phần tử trước vị trí _k_ đều nhỏ hơn hoặc bằng nó.
- Tất cả các phần tử sau vị trí _k_ đều lớn hơn hoặc bằng nó.
- Các phần tử trong hai nhóm trước và sau _k_ không được sắp xếp.


In [22]:
# Khởi tạo rng với một seed để kết quả có thể tái lập
rng = np.random.default_rng(12345)
arr_part = rng.standard_normal(20)
print("Mảng ban đầu:\n", arr_part)

# Tìm 4 phần tử nhỏ nhất (k=3, vì index bắt đầu từ 0)
# Kết quả là 4 phần tử nhỏ nhất sẽ nằm ở 4 vị trí đầu tiên
partitioned_arr = np.partition(arr_part, 3)
print("\nMảng sau khi partition tại vị trí 3:\n", partitioned_arr)
print("-> Bốn phần tử đầu tiên là 4 giá trị nhỏ nhất (thứ tự ngẫu nhiên).")

# np.argpartition hoạt động tương tự nhưng trả về chỉ số (indexer)
indices = np.argpartition(arr_part, 3)
print("\nCác chỉ số (indices) từ argpartition:\n", indices)
print("\nÁp dụng indices vào mảng gốc sẽ cho kết quả tương tự:\n", arr_part.take(indices))

Mảng ban đầu:
 [-1.42382504  1.26372846 -0.87066174 -0.25917323 -0.07534331 -0.74088465
 -1.3677927   0.6488928   0.36105811 -1.95286306  2.34740965  0.96849691
 -0.75938718  0.90219827 -0.46695317 -0.06068952  0.78884434 -1.25666813
  0.57585751  1.39897899]

Mảng sau khi partition tại vị trí 3:
 [-1.95286306 -1.42382504 -1.3677927  -1.25666813 -0.87066174 -0.75938718
 -0.74088465 -0.06068952  0.36105811 -0.07534331 -0.25917323 -0.46695317
  0.57585751  0.90219827  0.96849691  0.6488928   0.78884434  1.26372846
  1.39897899  2.34740965]
-> Bốn phần tử đầu tiên là 4 giá trị nhỏ nhất (thứ tự ngẫu nhiên).

Các chỉ số (indices) từ argpartition:
 [ 9  0  6 17  2 12  5 15  8  4  3 14 18 13 11  7 16  1 19 10]

Áp dụng indices vào mảng gốc sẽ cho kết quả tương tự:
 [-1.95286306 -1.42382504 -1.3677927  -1.25666813 -0.87066174 -0.75938718
 -0.74088465 -0.06068952  0.36105811 -0.07534331 -0.25917323 -0.46695317
  0.57585751  0.90219827  0.96849691  0.6488928   0.78884434  1.26372846
  1.39897899

### 8. `numpy.searchsorted`: Tìm vị trí chèn trong mảng đã sắp xếp

`searchsorted` là một phương thức cực kỳ hiệu quả để tìm kiếm trong một mảng **đã được sắp xếp**. Nó sử dụng thuật toán **tìm kiếm nhị phân (binary search)** để trả về vị trí (chỉ số) mà một giá trị mới có thể được chèn vào mà vẫn duy trì được thứ tự của mảng.

[Image of a binary search algorithm visualization]

**Điều kiện tiên quyết:** Mảng bạn tìm kiếm trên đó **bắt buộc** phải được sắp xếp từ trước.


In [23]:
arr_sorted = np.array([0, 1, 7, 12, 15])
print(f"Mảng đã sắp xếp: {arr_sorted}")

# Tìm vị trí nên chèn số 9 để giữ nguyên thứ tự
position = arr_sorted.searchsorted(9)
print(f"Vị trí để chèn số 9 là: {position}")

# Bạn cũng có thể truyền vào một mảng các giá trị cần tìm
positions = arr_sorted.searchsorted([0, 8, 11, 16])
print(f"Vị trí để chèn các số [0, 8, 11, 16] lần lượt là: {positions}")

Mảng đã sắp xếp: [ 0  1  7 12 15]
Vị trí để chèn số 9 là: 3
Vị trí để chèn các số [0, 8, 11, 16] lần lượt là: [0 3 3 5]


#### Tham số `side`: 'left' và 'right'

Khi giá trị tìm kiếm đã tồn tại trong mảng, `searchsorted` có hai cách xử lý:

- `side='left'` (mặc định): Trả về chỉ số ở **bên trái nhất** của nhóm các giá trị bằng nhau.
- `side='right'`: Trả về chỉ số ở **bên phải nhất** (ngay sau nhóm giá trị bằng nhau).


In [24]:
arr_duplicates = np.array([0, 0, 0, 1, 1, 1, 1])
print(f"Mảng có các giá trị trùng lặp: {arr_duplicates}")

# Mặc định side='left'
print(f"Tìm [0, 1] với side='left': {arr_duplicates.searchsorted([0, 1])}")

# Dùng side='right'
print(f"Tìm [0, 1] với side='right': {arr_duplicates.searchsorted([0, 1], side='right')}")

Mảng có các giá trị trùng lặp: [0 0 0 1 1 1 1]
Tìm [0, 1] với side='left': [0 3]
Tìm [0, 1] với side='right': [3 7]


#### Ứng dụng thực tế: Phân loại dữ liệu (Binning)

Một trong những ứng dụng mạnh mẽ nhất của `searchsorted` là để phân loại (hay "bin") một tập dữ liệu lớn vào các khoảng đã được định nghĩa trước.


In [25]:
import pandas as pd

# Giả lập 50 điểm dữ liệu từ 0 đến 10000
data = np.floor(rng.uniform(0, 10000, size=50))

# Định nghĩa các "cạnh" của thùng chứa (bins)
bins = np.array([0, 100, 1000, 5000, 10000])

print("Các thùng chứa (bins):", bins)
print("10 điểm dữ liệu đầu tiên:", data[:10].astype(int))

# Tìm xem mỗi điểm dữ liệu thuộc về thùng nào
labels = bins.searchsorted(data)
print("Nhãn (chỉ số thùng) của 10 điểm dữ liệu đầu tiên:", labels[:10])

# Kết hợp với Pandas để tính giá trị trung bình cho mỗi thùng
print("\nGiá trị trung bình của dữ liệu trong mỗi thùng:")
series_data = pd.Series(data)
print(series_data.groupby(labels).mean())

Các thùng chứa (bins): [    0   100  1000  5000 10000]
10 điểm dữ liệu đầu tiên: [ 815 1598 3401 4651 2664 8157 1932 1294  916 5985]
Nhãn (chỉ số thùng) của 10 điểm dữ liệu đầu tiên: [2 3 3 3 3 4 3 3 2 4]

Giá trị trung bình của dữ liệu trong mỗi thùng:
1      50.000000
2     803.666667
3    3079.741935
4    7635.200000
dtype: float64


## Tổng kết: NumPy Nâng cao (A.5 & A.6)

**A.5: Mảng có cấu trúc (Structured Arrays)**

Mảng có cấu trúc là công cụ cho phép bạn lưu trữ các loại dữ liệu không đồng nhất (heterogeneous) trong một mảng NumPy duy nhất, tương tự như một `struct` trong C hay một bảng dữ liệu.

* **Mục đích**: Để xử lý dữ liệu dạng bảng hoặc các bản ghi phức tạp.
* **Cách tạo**: Định nghĩa một `dtype` đặc biệt, là một danh sách các tuple `(tên_trường, kiểu_dữ_liệu)`.
    * Ví dụ: `dtype = [('product_id', 'i4'), ('price', 'f8'), ('name', 'U20')]`
* **Truy cập dữ liệu**:
    * Theo **record (hàng)**: Giống mảng thường, ví dụ `data[0]`.
    * Theo **field (cột)**: Dùng tên trường như key, ví dụ `data['price']`.
* **Tính năng nâng cao**: Hỗ trợ các trường đa chiều và các cấu trúc lồng nhau.
* **Khi nào nên dùng**: Khi cần hiệu suất bộ nhớ cao, đọc/ghi dữ liệu nhị phân, hoặc tương tác với các thư viện C/C++.

---

**A.6: Các kỹ thuật Sắp xếp (More About Sorting)**

Phần này bao gồm các phương pháp sắp xếp và tìm kiếm hiệu quả trong NumPy.

**Sắp xếp trực tiếp**:
* `arr.sort()`: Sắp xếp **tại chỗ (in-place)**, làm thay đổi mảng gốc.
* `np.sort(arr)`: Trả về một **bản sao (copy)** đã được sắp xếp, mảng gốc không đổi.

**Sắp xếp gián tiếp (Lấy chỉ số)**:
* `arr.argsort()`: Trả về **chỉ số (indices)** để sắp xếp một mảng.
* `np.lexsort((key_phu, key_chinh))`: Sắp xếp theo nhiều khóa, với khóa chính là mảng **cuối cùng**.

**Các tùy chọn và kỹ thuật khác**:
* **Sắp xếp Ổn định**: Dùng `kind='mergesort'` để giữ nguyên thứ tự tương đối của các phần tử bằng nhau.
* **Sắp xếp một phần**: `np.partition(arr, k)` giúp tìm `k+1` phần tử nhỏ nhất một cách nhanh chóng mà không cần sắp xếp toàn bộ mảng.
* **Sắp xếp giảm dần**: Sắp xếp tăng dần rồi đảo ngược với slicing `[::-1]`.

**Tìm kiếm trong mảng đã sắp xếp**:
* `arr.searchsorted(value)`: Dùng **tìm kiếm nhị phân** để tìm vị trí chèn một giá trị mới. Cực kỳ hữu ích cho việc **phân loại (binning)** dữ liệu.