# M03 Slicing

## Mục đích

Giới thiệu về slicing cho mảng trong NumPy.


## Slicing bằng chỉ mục

Việc slicing bằng chỉ mục cho mảng giống như cho danh sách. Tất cả các kĩ thuật slicing bằng chỉ mục bạn đã làm quen ở [B10](../01_basic//10_slicing.ipynb) đều áp dụng được cho mảng.

In [1]:
import numpy as np

a = np.arange(10)
print(a)

print(a[0])
print(a[1:4])
print(a[6:])
print(a[:5])

print(a[-1])
print(a[:-4])
print(a[-6:])

print(a[3:9:2])
print(a[9:2:-3])

[0 1 2 3 4 5 6 7 8 9]
0
[1 2 3]
[6 7 8 9]
[0 1 2 3 4]
9
[0 1 2 3 4 5]
[4 5 6 7 8 9]
[3 5 7]
[9 6 3]


## Slicing bằng điều kiện logic

Bên cạnh các phép toán số học, bạn cũng có thể sử dụng toán tử logic cho mảng.

In [2]:
print(a < 4)

[ True  True  True  True False False False False False False]


Kết quả của phép toán logic trên mảng là một mảng của các giá trị `True` và `False`, trong đó các giá trị `True` thể hiện phần tử tương ứng trong mảng gốc thỏa mãn điều kiện của chúng ta. NumPy cho phép sử dụng mảng này để "lọc" các phần tử thỏa mãn một điều kiện nào đó.

In [3]:
print(a[a < 4])

[0 1 2 3]


Để thay đổi một số giá trị thỏa mãn điều kiện, chúng ta dùng hàm `np.where()`. Cú pháp của hàm này như sau:

`where(<điều_kiện>, <giá_trị_nếu_đúng>, <giá_trị_nếu_sai>)`

Ví dụ dưới đây đổi các số nhỏ hơn 4 thành số âm.

In [4]:
b = np.where(a < 4, -a, a)
print(a)
print(b)

[0 1 2 3 4 5 6 7 8 9]
[ 0 -1 -2 -3  4  5  6  7  8  9]


### Một số hàm liên quan đến mảng điều kiện logic

Bạn có thể kiểm tra xem "có bất kì giá trị nào thỏa mãn điều kiện hay không".

In [5]:
np.any(a < 4), np.any(a > 20)

(True, False)

Và kiểm tra "tất cả các giá trị có thỏa mãn điều kiện hay không".

In [6]:
np.all(a < 20), np.all(a > 5)

(True, False)

## Giá trị NA

Trong quá trình xử lí số liệu, chúng ta sẽ gặp một loại giá trị gọi là "NA" (not available). Ví dụ, câu hỏi đúng/sai và đối tượng nghiên cứu không trả lời câu này (chúng ta không thể mặc định không trả lời nghĩa là đúng hay sai), hoặc một kết quả xét nghiệm nào đó của bệnh nhân không được tiến hành (chúng ta không thể mặc định nó bằng 0 hoặc một giá trị nào đó). NumPy ghi nhận trường hợp này trong một giá trị riêng là `np.nan` (not a number).

Bạn có thể kiểm tra một giá trị có phải là NA hay không bằng hàm `np.isnan()`.

In [7]:
c = np.array([1, 2, 3, np.nan, 5, 6, 7])
np.isnan(c)

array([False, False, False,  True, False, False, False])

Để kiểm tra điều kiện ngược lại ("không phải là NA"), chúng ta dùng thêm toán tử "NOT".

In [8]:
~np.isnan(c)

array([ True,  True,  True, False,  True,  True,  True])

Các phép tính số học khi thực hiện với NA sẽ trả về NA.

In [9]:
print(c + 1)
print(c * 0)

[ 2.  3.  4. nan  6.  7.  8.]
[ 0.  0.  0. nan  0.  0.  0.]


Tuy nhiên, bạn phải rất cẩn thận với các phép tính logic.

In [10]:
c > 2

array([False, False,  True, False,  True,  True,  True])

Bởi vì nó có thể dẫn đến các thao tác sai lầm, đặc biệt sau này khi bạn xử lí số liệu trên data frame (ví dụ, recode các biến, tạo biến danh mục cho các nhóm từ giá trị liên tục, v.v.).

In [11]:
d = np.where(c > 2, "c > 2", "c <= 2")
print(d)

['c <= 2' 'c <= 2' 'c > 2' 'c <= 2' 'c > 2' 'c > 2' 'c > 2']


Trong trường hợp trên, bạn có thể làm tiếp như sau.

In [12]:
d[np.isnan(c)] = ""
# Hoặc: d = np.where(np.isnan(c), "", d)
print(d)

['c <= 2' 'c <= 2' 'c > 2' '' 'c > 2' 'c > 2' 'c > 2']


Với mảng có phần tử kiểu chuỗi kí tự, bạn không thể sử dụng giá trị NA (`np.nan`) được. Giá trị đó là kiểu `float` (đó là lí do vì sao bạn thấy tất cả các phần tử trong mảng `c` đều là kiểu `float` mặc dù lúc khai báo thì chúng ta sử dụng `int`).

In [13]:
c.dtype

dtype('float64')

## Kết hợp nhiều điều kiện logic

Bạn có thể kết hợp các điều kiện logic bằng toán tử `&` (AND) và `|` (OR). Chú ý dùng dấu ngoặc tròn `()` để bao các điều kiện. Chẳng hạn:

In [14]:
print(c[(c > 2) & (c < 6)])
print(c[np.isnan(c) | (c > 5)])

[3. 5.]
[nan  6.  7.]


Kết hợp nhiều điều kiện rất phổ biến trong công việc xử lí số liệu. Chẳng hạn, bạn muốn thay các giá trị NA và giá trị rất lớn của bộ số liệu bằng trung bình của các giá trị còn lại.

In [15]:
data = np.array([1, 2, 3, 4, 5, 6, np.nan, 8, 9, 1000])
mask = np.isnan(data) | (data > 10)
print(data[mask])

data[mask] = np.mean(data[~mask])
# Hoặc: data = np.where(mask, np.mean(data[~mask]), data)
print(data)

[  nan 1000.]
[1.   2.   3.   4.   5.   6.   4.75 8.   9.   4.75]


## Slicing cho mảng nhiều chiều

Bạn sẽ cần cung cấp nhiều chỉ mục hơn cho mảng nhiều chiều.

In [16]:
a = np.array([
    [1, 2, 3],
    [7, 8, 9],
    [54, 55, 56],
    [65, 66, 67]
])

a[1, 2]
a[0:3, 2]
a[2, :]

array([54, 55, 56])

Mảng điều kiện logic cũng hoạt động tương tự như mảng một chiều.

In [17]:
a > 55

array([[False, False, False],
       [False, False, False],
       [False, False,  True],
       [ True,  True,  True]])

Nhưng kết quả của slicing sẽ phức tạp hơn một chút. Bạn sẽ nhận được mảng một chiều thay vì hai chiều cho slicing dưới đây.

In [18]:
a[a > 55]

array([56, 65, 66, 67])

Muốn slice một phần của ma trận bằng điều kiện, chúng ta phải áp dụng điều kiện cho từng chiều không gian.

In [19]:
a[[False, True, True, False], :]

array([[ 7,  8,  9],
       [54, 55, 56]])

Một ví dụ cho điều kiện trên là dòng có bất kì số nào chia hết cho 9. Chúng ta vẫn dùng hàm `np.any()`, nhưng phải thiết lập thêm đối số `axis` để chỉ ra chiều không gian mà chúng ta sẽ tiến hành lệnh điều kiện. Ví dụ, `axis=1` nghĩa là chúng ta sẽ tiến hành điều kiện trên các giá trị ở chiều không gian thứ 1 ("cột") theo tất cả các chiều không gian còn lại; trong trường hợp của chúng ta là chiều không gian thứ 0 ("hàng").

In [20]:
np.any(a % 9 == 0, axis=1)

array([False,  True,  True, False])

Bạn có thể lồng điều kiện này vào trong slicing.

In [21]:
a[np.any(a % 9 == 0, axis=1), :]

array([[ 7,  8,  9],
       [54, 55, 56]])

NumPy có nhiều hàm khác cho phép thao tác trên các chiều không gian. Ví dụ hàm `np.amax()` để tìm giá trị lón nhất dọc theo một chiều không gian nào đó.

In [22]:
np.amax(a, axis=1)

array([ 3,  9, 56, 67])

Bạn có thể lựa chọn một hoặc nhiều chiều không gian.

In [23]:
a = np.round(np.random.rand(3, 3, 3), 2)
print(a, end="\n\n")

print(np.amax(a, axis=2), end="\n\n")
print(np.amax(a, axis=(1, 2)))

[[[0.87 0.07 0.72]
  [0.76 0.21 0.86]
  [0.8  0.3  0.22]]

 [[0.55 0.5  0.11]
  [0.21 0.27 0.24]
  [0.   0.49 0.17]]

 [[0.02 0.19 0.86]
  [0.9  0.94 0.19]
  [0.6  0.94 0.4 ]]]

[[0.87 0.86 0.8 ]
 [0.55 0.27 0.49]
 [0.86 0.94 0.94]]

[0.87 0.55 0.94]


Chúng ta có thể tận dụng các hàm này để lập điều kiện. Chẳng hạn, lọc ra các cột có tổng của cột nhỏ hơn 10.

In [24]:
a = np.array([
    [1, 2, 3, 4],
    [2, 1, 2, 1],
    [3, 4, 5, 6],
    [0, 1, 1, 0]
])

a[:, np.sum(a, axis=0) < 10]

array([[1, 2],
       [2, 1],
       [3, 4],
       [0, 1]])

Đối với mảng vuông (số cột bằng số hàng), rất cẩn thận khi lọc theo cột hoặc hàng, vì bạn có thể để mảng điều kiện vào nhầm chiều không gian.

In [25]:
a[np.sum(a, axis=0) < 10, :]

array([[1, 2, 3, 4],
       [2, 1, 2, 1]])

---

[Bài trước](./02_random.ipynb) - [Danh sách bài](../README.md) - [Bài sau]()