# Chương 5: Kiến thức cơ bản về NumPy
<hr>

`NumPy`, là viết tắt của Numerical Python, là một trong những thư viện nền tảng quan trọng nhất cho tính toán số học trong Python. Hầu hết các thư viện tính toán cung cấp các chức năng khoa học, như `SciPy` và `pandas`, đều sử dụng cấu trúc mảng từ `NumPy` làm nền tảng. Mặc dù `pandas` cung cấp các cấu trúc dữ liệu bậc cao phong phú và tiện lợi được xây dựng dựa trên `NumPy`, nhưng trong nhiều trường hợp chúng ta vẫn cần phải làm việc trực tiếp với các mảng `NumPy`.

Dưới đây là một số tính năng mà NumPy cung cấp:

*   `ndarray`, một đối tượng mảng N-chiều hiệu quả, cung cấp các phép toán **vector hóa** nhanh chóng và khả năng lan truyền linh hoạt.
*   Các hàm chuẩn để thực hiện các phép toán trên toàn bộ mảng hoặc trên từng phần tử dữ liệu mà không cần viết vòng lặp.
*   Các công cụ để đọc và ghi dữ liệu mảng vào đĩa và làm việc với các tệp được **ánh xạ bộ nhớ** (memory-mapped files).
*   Các phép toán đại số tuyến tính, biến đổi Fourier và sinh số ngẫu nhiên.

Ngoài các khả năng tính toán mạnh mẽ mà `NumPy` bổ sung cho Python, một trong những mục tiêu chính của thư viện này khi được tạo ra là để giải quyết vấn đề "hai ngôn ngữ" của Python. Điều này đề cập đến tình huống mà các nhà phát triển cần viết mã `C` hoặc `Fortran` hiệu suất cao để xử lý một lượng lớn dữ liệu, sau đó đưa các câu lệnh đó vào trong Python để dễ sử dụng. `NumPy` được thiết kế để làm cho việc tính toán trên dữ liệu lớn trở nên hiệu quả trong khi vẫn duy trì được tính dễ sử dụng của Python.

Đối với hầu hết các ứng dụng phân tích dữ liệu, mối quan tâm chính đến `NumPy` sẽ tập trung vào các tính năng xử lý mảng của nó, đặc biệt là:

*   Chuẩn bị dữ liệu: làm sạch, thao tác, chuẩn hóa, định hình lại, sắp xếp và lọc.
*   Phân tích và mô hình hóa dữ liệu: áp dụng các phép toán và hàm thống kê và tổng hợp cho toàn bộ tập dữ liệu hoặc các tập con cụ thể. Các thuật toán học máy thường yêu cầu dữ liệu đầu vào phải ở dạng mảng `NumPy`.
*   Mô phỏng: tạo dữ liệu ngẫu nhiên theo các phân phối đã biết và chạy các mô hình mô phỏng trên dữ liệu đó.
*   Các loại thuật toán số khác: ví dụ, xử lý tín hiệu và lọc.

Mặc dù `NumPy` cung cấp nền tảng tính toán cho nhiều loại ứng dụng khoa học dữ liệu, nhưng bạn đọc sẽ thường sử dụng thư viện `pandas` làm cơ sở cho hầu hết các công việc phân tích dữ liệu, đặc biệt là đối với dữ liệu dạng bảng. `pandas` cũng cung cấp một số chức năng dành riêng cho miền cụ thể hơn, chẳng hạn như xử lý chuỗi thời gian, mà `NumPy` không có. Như vậy, `NumPy` là thành phần quan trọng nhất của hệ sinh thái khoa học dữ liệu Python, nhưng bạn sẽ không nhất thiết phải sử dụng trực tiếp các hàm của `NumPy` mọi lúc.

Trong chương này và xuyên suốt cuốn sách, tôi sẽ sử dụng quy ước chuẩn là nhập `NumPy` dưới tên `np`:

In [2]:
import numpy as np

Một số người có thể đề xuất không thực hiện `import numpy as np` và thay vào đó thực hiện `from numpy import *`. Thực tế thì không gian tên `numpy` rất lớn và chứa nhiều hàm có tên trùng với các hàm Python tích hợp sẵn (như `min` và `max`). Kết quả có thể dẫn đến các vấn đề khó theo dõi nếu bạn không cẩn thận.

Khi bạn thấy `np.some_function`, điều này có nghĩa là một hàm hoặc đối tượng trong không gian tên cấp cao nhất của `NumPy`. Chúng ta sẽ thảo luận chi tiết về một số thành phần chính của `NumPy`, nhưng bạn đọc có thể khám phá không gian tên bằng cách sử dụng IPython hoặc Jupyter với tính năng tự động hoàn thành bằng phím Tab. Ví dụ, nếu bạn nhập `np.<TAB>`, bạn sẽ thấy một danh sách các mô-đun con (như `np.random`, `np.fft`, `np.linalg`, v.v.) và cả các hàm thường được sử dụng.

## Đối tượng `ndarray` của NumPy

Một trong những đặc điểm quan trọng của `NumPy` là đối tượng mảng N-chiều, hay `ndarray`. Đây là một đối tượng chứa đa chiều, nhanh chóng và linh hoạt cho các tập dữ liệu lớn trong Python. Các mảng cho phép bạn thực hiện các phép toán toán học trên toàn bộ khối dữ liệu bằng cách sử dụng cú pháp tương tự như các phép toán giữa các phần tử vô hướng (scalar elements). Có rất nhiều điều cần học về các mảng `NumPy`, nhưng chúng ta sẽ bắt đầu với những dạng cơ bản nhất.

Để thấy cách các mảng `NumPy` tạo điều kiện cho các phép toán theo batch với cú pháp tối thiểu, trước tiên hãy xem xét một mảng `NumPy` nhỏ. Giả sử chúng ta có một số dữ liệu trong một danh sách Python:

In [None]:
my_arr = np.arange(1_000_000)
my_list = list(range(1_000_000))

Bây giờ, giả sử chúng ta muốn nhân mỗi phần tử với 2. Nếu làm điều này với Python thông thường, chúng ta phải lặp qua danh sách đó:

In [None]:
for _ in range(10): my_list2 = [x * 2 for x in my_list]

Nếu chúng ta thực hiện thao tác tương tự trên một mảng `NumPy`, nó sẽ trông như thế này:

In [None]:
for _ in range(10): my_arr2 = my_arr * 2

Vấn đề cốt lõi ở đây là thời gian thực hiện phép tính. Chúng ta có thể đo thời gian giữa việc không sử dụng và có sử dụng `NumPy` như sau:

In [None]:
import time
t0 = time.time()
for _ in range(10): my_list2 = [x * 2 for x in my_list]
t1 = time.time()
print(f"List comprehension: {t1 - t0:.4f} s")

t0 = time.time()
for _ in range(10): my_arr2 = my_arr * 2
t1 = time.time()
print(f"NumPy array: {t1 - t0:.4f} s")

Các phép toán trên véc-tơ của NumPy thường nhanh hơn so với các vòng lặp Python thuần túy trong bất kỳ loại tính toán nào. Trong các phần sau, chúng ta sẽ được tìm hiểu về cơ chế **broadcasting**, hay lan truyền, một tập hợp các quy tắc mạnh mẽ để áp dụng các phép toán giữa các mảng có kích thước khác nhau.

Một `ndarray` là một đối tượng chứa dữ liệu đồng nhất; nghĩa là, tất cả các phần tử của nó phải có cùng một kiểu. Mỗi đối tượng có một `shape`, một `tuple` biểu thị kích thước của mỗi chiều, và một `dtype`, một đối tượng mô tả **kiểu dữ liệu** của mảng:

In [None]:
data = np.array([[1.5, -0.1, 3], [0, -3, 6.5]])
data

Sau đó chúng ta có thể viết:

In [None]:
data * 10

In [None]:
data + data

Và kiểm tra `shape` và `dtype` của nó:

In [None]:
data.shape

In [None]:
data.dtype

Phần này sẽ giúp bạn làm quen với những điều cơ bản về việc sử dụng mảng `NumPy`.

### Tạo một ndarray
<hr>

Cách dễ nhất để tạo một mảng là sử dụng hàm `array`. Chúng ta có thể tạo một mảng như sau:

In [4]:
data1 = [6, 7.5, 8, 0, 1]
arr1 = np.array(data1)
arr1

(5,)

Khi các danh sách lồng nhau sẽ, Python sẽ chuyển đổi thành một mảng nhiều chiều:

In [5]:
data2 = [[1, 2, 3, 4], [5, 6, 7, 8]]
arr2 = np.array(data2)
arr2

(2, 4)

Có thể hiểu `data2` là một danh sách các danh sách, mảng `arr2` có hai chiều với `shape` được suy ra từ dữ liệu. Chúng ta có thể xác nhận điều này bằng cách kiểm tra các thuộc tính `ndim` và `shape`:

In [None]:
arr2.ndim

In [None]:
arr2.shape

Trừ khi được chỉ định rõ ràng, hàm `np.array` cố gắng suy ra kiểu dữ liệu phù hợp cho mảng mà nó tạo ra. Kiểu dữ liệu được lưu trữ trong một đối tượng `dtype`. Trong hai ví dụ trước chúng ta có:

In [6]:
arr1.dtype

dtype('float64')

In [7]:
arr2.dtype

dtype('int64')

Ngoài `np.array`, có một số hàm khác để tạo mảng mới. Ví dụ, `np.zeros` và `np.ones` tạo ra các mảng chỉ có các số 0 hoặc số 1 tương ứng với một chiều dài hoặc `shape` cho trước. `np.empty` tạo ra một mảng mà không khởi tạo các giá trị của nó cho bất kỳ giá trị cụ thể nào. Để tạo một mảng có `shape` cao hơn, hãy gán một `tuple` cho `shape`:

In [None]:
np.zeros(10)

In [8]:
np.zeros((3, 6))

array([[0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0.]])

In [None]:
np.empty((2, 3, 2))

> **Chú ý:** Có thể an toàn khi cho rằng `np.empty` sẽ trả về một mảng chứa toàn các giá trị rác. Trong một số trường hợp, nó có thể trả về các mảng chưa được khởi tạo chứa các giá trị 0 hoặc khác 0. Xem tài liệu để biết thêm chi tiết.

`np.arange` là một phiên bản giống như `range` tích hợp sẵn của Python, nhưng trả về một mảng `Numpy` thay vì một danh sách của Python:

In [9]:
np.arange(15)

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14])

Xem Bảng ... để biết danh sách một phần các hàm tạo mảng chuẩn.

**Bảng ...: Một số hàm tạo mảng NumPy quan trọng**

| Hàm | Mô tả |
|---|---|
| `array` | Chuyển đổi dữ liệu đầu vào (danh sách, tuple, mảng hoặc chuỗi khác) thành một ndarray, suy ra một dtype cho ndarray hoặc chỉ định rõ ràng một dtype. Dữ liệu được sao chép theo mặc định. |
| `asarray` | Chuyển đổi đầu vào thành ndarray, nhưng không sao chép nếu đầu vào đã là một ndarray có dtype phù hợp. |
| `arange` | Giống như `range` tích hợp sẵn nhưng trả về một ndarray thay vì một danh sách. |
| `ones`, `ones_like` | Tạo một mảng chứa toàn số 1 với `shape` và `dtype` cho trước. `ones_like` lấy một mảng khác và tạo ra một mảng chứa toàn số 1 có cùng `shape` và `dtype`. |
| `zeros`, `zeros_like` | Giống như `ones` và `ones_like` nhưng tạo ra các mảng chứa toàn số 0. |
| `empty`, `empty_like` | Tạo các mảng mới bằng cách cấp phát bộ nhớ mới, nhưng không điền bất kỳ giá trị nào như `ones` và `zeros`. |
| `full`, `full_like` | Tạo một mảng có `shape` và `dtype` cho trước với tất cả các giá trị được đặt thành "giá trị điền" được chỉ định. `full_like` lấy một mảng khác và tạo ra một mảng được điền có cùng `shape` và `dtype`. |
| `eye`, `identity` | Tạo một ma trận đơn vị (identity matrix) vuông N × N (1 trên đường chéo và 0 ở những nơi khác). |

### Kiểu dữ liệu cho ndarray

*Kiểu dữ liệu* hay `dtype` là một đối tượng đặc biệt chứa thông tin (hoặc *siêu dữ liệu*, dữ liệu về dữ liệu) mà `ndarray` cần để diễn giải một khối bộ nhớ là một loại dữ liệu cụ thể:

In [None]:
arr1_dtype = np.array([1, 2, 3], dtype=np.float64)
arr2_dtype = np.array([1, 2, 3], dtype=np.int32)
arr1_dtype.dtype

In [None]:
arr2_dtype.dtype

Các `dtype` là lý do tại sao `NumPy` rất mạnh mẽ và linh hoạt. Trong hầu hết các trường hợp, `dtype` giúp dễ dàng đọc và ghi dữ liệu dưới dạng nhị phân vào máy và cũng dễ dàng kết nối với các câu lệnh được viết bằng các ngôn ngữ như `C` hoặc `Fortran`.

Các `dtype` kiểu số được đặt tên giống nhau: một tên kiểu, `float` hoặc `int`, theo sau là một số cho biết số bit trên mỗi phần tử. Bạn đọc xem Bảng dưới đây để biết danh sách đầy đủ các `dtype` được hỗ trợ. 

**Bảng ...: Các kiểu dữ liệu NumPy**

| Kiểu | Mã kiểu | Mô tả |
|---|---|---|
| `int8`, `uint8` | `i1`, `u1` | Số nguyên 8 bit có dấu và không dấu |
| `int16`, `uint16` | `i2`, `u2` | Số nguyên 16 bit có dấu và không dấu |
| `int32`, `uint32` | `i4`, `u4` | Số nguyên 32 bit có dấu và không dấu |
| `int64`, `uint64` | `i8`, `u8` | Số nguyên 64 bit có dấu và không dấu |
| `float16` | `f2` | Số thực dấu phẩy động nửa độ chính xác (half-precision) |
| `float32` | `f4` hoặc `f` | Số thực dấu phẩy động đơn độ chính xác (single-precision) tiêu chuẩn; tương thích với `float` trong C |
| `float64` | `f8` hoặc `d` | Số thực dấu phẩy động độ chính xác kép (double-precision) tiêu chuẩn; tương thích với `double` trong C và `float` trong Python |
| `float128` | `f16` hoặc `g` | Số thực dấu phẩy động độ chính xác mở rộng (extended-precision) |
| `complex64`, `complex128`, `complex256` | `c8`, `c16`, `c32` | Số phức được biểu diễn bằng hai số thực dấu phẩy động 32, 64, hoặc 128 bit tương ứng |
| `bool` | `?` | Kiểu Boolean lưu trữ các giá trị `True` và `False` |
| `object` | `O` | Kiểu đối tượng Python; một giá trị có thể là bất kỳ đối tượng Python nào |
| `string_` | `S` | Kiểu chuỗi ASCII có độ dài cố định (ví dụ, để khớp với `dtype` khi đọc một tệp). Độ dài của chuỗi được chỉ định bởi số theo sau, ví dụ, `S10` là một chuỗi 10 ký tự. NumPy không cung cấp `dtype` chuỗi Unicode có độ dài cố định. |
| `unicode_` | `U` | Kiểu Unicode có độ dài cố định (ví dụ, `U10`). NumPy không cung cấp `dtype` chuỗi Unicode có độ dài thay đổi, không giống như pandas. |

Bạn có thể chuyển đổi (cast) một mảng từ `dtype` này sang `dtype` khác bằng cách sử dụng phương thức `astype` của `ndarray`:

In [None]:
arr_astype = np.array([1, 2, 3, 4, 5])
arr_astype.dtype

In [None]:
float_arr = arr_astype.astype(np.float64)
float_arr.dtype

Trong ví dụ này, các số nguyên được đổi kiểu thành số thực dấu phẩy động. Nếu tôi ép kiểu một số số thực dấu phẩy động thành kiểu số nguyên, phần thập phân sẽ bị cắt bỏ:

In [None]:
arr_fp_to_int = np.array([3.7, -1.2, -2.6, 0.5, 12.9, 10.1])
arr_fp_to_int

In [None]:
arr_fp_to_int.astype(np.int32)

Nếu bạn có một mảng các chuỗi biểu diễn các số, bạn có thể sử dụng `astype` để chuyển đổi chúng thành dạng số:

In [None]:
numeric_strings = np.array(["1.25", "-9.6", "42"], dtype=np.string_)
numeric_strings.astype(float) # NumPy sẽ tự động suy ra np.float64

> **Chú ý:** Việc gọi `astype` *luôn* tạo ra một mảng mới (một bản sao của dữ liệu), ngay cả khi `dtype` mới giống với `dtype` cũ.

Bạn đọc cần lưu ý khi sử dụng `dtype` `numpy.string_`, vì dữ liệu chuỗi trong `Numpy` có độ dài cố định và có thể bị cắt bớt mà không có cảnh báo. 

Nếu việc đổi kiểu không thành công vì một lý do nào đó, một `ValueError` sẽ được đưa ra.

In [None]:
int_array = np.arange(10)
calibers = np.array([.22, .270, .357, .380, .44, .50], dtype=np.float64)
int_array.astype(calibers.dtype)

Bạn cũng có thể sử dụng mã kiểu `dtype`:

In [None]:
empty_uint32 = np.empty(8, dtype="u4")
empty_uint32

> **Lưu ý:** Nếu bạn gặp khó khăn trong việc tìm ra `dtype` nào nên sử dụng với dữ liệu của mình thì không cần phải quá quan tâm. Bạn có thể dung `float64` cho hầu hết dữ liệu số thực dấu phẩy động. Việc sử dụng các `dtype` như `float32` thường là để tiết kiệm bộ nhớ khi làm việc với các tập dữ liệu rất lớn.

### Các phép toán số học với mảng `NumPy`

Các mảng rất quan trọng vì chúng cho phép chúng ta thể hiện các phép toán theo nhóm trên dữ liệu mà không cần viết bất kỳ vòng lặp `for` nào. `NumPy` gọi tính năng này là **véc-tơ hóa** (vectorization). Bất kỳ phép toán số học nào giữa các mảng có kích thước bằng nhau đều áp dụng phép toán đó theo từng phần tử (element-wise):

In [None]:
arr_arith = np.array([[1., 2., 3.], [4., 5., 6.]])
arr_arith

In [None]:
arr_arith * arr_arith

In [None]:
arr_arith - arr_arith

Các phép toán số học với các đại lượng vô hướng (scalar) truyền giá trị vô hướng đó cho mỗi phần tử trong mảng khi thực hiện phép toán:

In [None]:
1 / arr_arith

In [None]:
arr_arith ** 2

Các phép so sánh giữa các mảng có cùng kích thước tạo ra một mảng kiểu logic

In [None]:
arr2_arith = np.array([[0., 4., 1.], [7., 2., 12.]])
arr2_arith

In [None]:
arr2_arith > arr_arith

Việc thực hiện các phép toán giữa các mảng có kích thước khác nhau được gọi là *broadcasting* và sẽ được thảo luận chi tiết hơn trong phần sau

### Chỉ số của mảng

Chỉ số của mảng `NumPy` là một chủ đề rộng, vì có nhiều cách bạn có thể chọn một tập con dữ liệu của mình hoặc các phần tử riêng lẻ. Các mảng một chiều khá đơn giản; về bề ngoài, chúng hoạt động tương tự như một `list` trong Python:

In [None]:
arr_slice_basic = np.arange(10)
arr_slice_basic

In [None]:
arr_slice_basic[5]

In [None]:
arr_slice_basic[5:8]

In [None]:
arr_slice_basic[5:8] = 12
arr_slice_basic

Như bạn thấy, nếu bạn gán một giá trị vô hướng cho một lát cắt, như trong `arr[5:8] = 12`, giá trị đó được truyền (hoặc *broadcasted*) cho toàn bộ lựa chọn. Sự khác biệt quan trọng đầu tiên so với danh sách Python tích hợp sẵn là các lát cắt mảng là các *khung nhìn* (views) trên mảng gốc. Điều này có nghĩa là dữ liệu không được sao chép, và bất kỳ sửa đổi nào đối với khung nhìn sẽ được phản ánh trong mảng nguồn. Để cung cấp cho bạn một ví dụ về điều này, trước tiên tôi tạo một lát cắt của `arr_slice_basic`:

In [None]:
arr_slice_view = arr_slice_basic[5:8]
arr_slice_view

Bây giờ, khi tôi thay đổi các giá trị trong `arr_slice_view`, các thay đổi đó được phản ánh trong mảng gốc `arr_slice_basic`:

In [None]:
arr_slice_view[1] = 12345
arr_slice_basic

Gán `[:]` sẽ gán cho tất cả các giá trị trong một mảng:

In [None]:
arr_slice_view[:] = 64
arr_slice_basic

Nếu bạn muốn một bản sao của một lát cắt của một `ndarray` thay vì một khung nhìn, bạn sẽ cần phải sao chép mảng một cách rõ ràng—ví dụ, `arr_slice_basic[5:8].copy()`.

Với các mảng có chiều cao hơn, bạn có nhiều tùy chọn hơn. Trong một mảng hai chiều, các phần tử tại mỗi chỉ mục không phải là các đại lượng vô hướng mà là các mảng một chiều:

In [None]:
arr2d = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
arr2d[2]

Do đó, các phần tử riêng lẻ có thể được truy cập bằng cách sử dụng các chỉ mục đệ quy. Nhưng điều đó hơi dài dòng, vì vậy bạn có thể truyền một danh sách các chỉ mục được phân tách bằng dấu phẩy để chọn một phần tử riêng lẻ. Vì vậy, những điều sau đây là tương đương:

In [None]:
arr2d[0][2]

In [None]:
arr2d[0, 2]

Xem Hình 4.1 để biết minh họa về việc chỉ mục hóa trên một mảng hai chiều. Tôi thấy hữu ích khi nghĩ về trục 0 là "hàng" và trục 1 là "cột".

**Hình 4.1: Chỉ mục hóa các phần tử trong một mảng NumPy**

```
          Trục 1
        -------->
       | 0  1  2
Trục 0 | --------
  |    | 0 |  |  |
  |    | 1 |  |  |
  V    | 2 |  |  |
       --------
```
(Hình ảnh này khó tái tạo chính xác bằng văn bản, nhưng ý tưởng là `arr2d[hàng, cột]`)

Trong các mảng đa chiều, nếu bạn bỏ qua các chỉ mục sau, đối tượng được trả về sẽ là một `ndarray` có chiều thấp hơn bao gồm tất cả dữ liệu dọc theo các chiều cao hơn. Vì vậy, trong mảng 2 × 2 × 3 `arr3d`:

In [None]:
arr3d = np.array([[[1, 2, 3], [4, 5, 6]], [[7, 8, 9], [10, 11, 12]]])
arr3d

`arr3d[0]` là một mảng 2 × 3:

In [None]:
arr3d[0]

Cả các giá trị vô hướng và các mảng đều có thể được gán cho `arr3d[0]`:

In [None]:
old_values = arr3d[0].copy()
arr3d[0] = 42
arr3d

In [None]:
arr3d[0] = old_values
arr3d

Tương tự, `arr3d[1, 0]` cung cấp cho bạn tất cả các giá trị có chỉ mục bắt đầu bằng `(1, 0)`, tạo thành một mảng một chiều:

In [None]:
arr3d[1, 0]

Biểu thức này giống như khi chúng ta chỉ mục hóa `arr3d[1]` và sau đó chỉ mục hóa kết quả đó:

In [None]:
x = arr3d[1]
x

In [None]:
x[0]

Lưu ý rằng trong tất cả các trường hợp chọn dữ liệu này, các mảng được trả về là các khung nhìn.

#### Chỉ mục hóa bằng lát cắt (Indexing with Slices)

Giống như các đối tượng một chiều như danh sách Python, `ndarray` có thể được cắt lát bằng cú pháp quen thuộc:

In [None]:
arr_slice_basic # arr_slice_basic đã được định nghĩa ở trên: np.arange(10) và đã bị thay đổi

In [None]:
arr_slice_basic[1:6]

Hãy xem xét `arr2d` từ trước. Bạn có thể truyền nhiều lát cắt giống như bạn có thể truyền nhiều chỉ mục:

In [None]:
arr2d # arr2d đã được định nghĩa ở trên

In [None]:
arr2d[:2]

Bạn có thể truyền nhiều lát cắt (cùng với việc trộn các chỉ mục). Ví dụ:

In [None]:
arr2d[:2, 1:]

Khi cắt lát như thế này, bạn luôn nhận được các khung nhìn mảng có cùng số chiều. Bằng cách trộn các chỉ mục số nguyên và lát cắt, bạn có thể nhận được các lát cắt có chiều thấp hơn.

Ví dụ, tôi có thể chọn hàng thứ hai nhưng chỉ hai cột đầu tiên:

In [None]:
arr2d[1, :2]

Tương tự, tôi có thể chọn cột thứ ba nhưng chỉ hai hàng đầu tiên:

In [None]:
arr2d[:2, 2]

Xem Hình 4.2 để biết minh họa. Lưu ý rằng dấu hai chấm (`:`) một mình có nghĩa là lấy toàn bộ trục, vì vậy bạn có thể cắt lát chỉ các chiều cao hơn như sau:

In [None]:
arr2d[:, :1]

**Hình 4.2: Các lựa chọn mảng hai chiều từ các lát cắt**

```
      arr2d = np.array([,,])

      arr2d[:2, 1:]   ->  [,]
      arr2d        -> 
      arr2d[2, :]     -> 
      arr2d[2, 1:]    -> 
      arr2d[:, :2]    ->  [,,]
      arr2d[1, :2]    -> 
      arr2d[1:2, :2]  ->  []
```
(Hình ảnh trực quan hóa các lát cắt khác nhau trên một mảng 3x3)

Tất nhiên, việc gán cho một biểu thức lát cắt sẽ gán cho toàn bộ lựa chọn:

In [None]:
arr2d_copy = arr2d.copy() # Tạo bản sao để không ảnh hưởng arr2d gốc cho các ví dụ sau
arr2d_copy[:2, 1:] = 0
arr2d_copy

### Chỉ mục hóa Boolean (Boolean Indexing)

Hãy xem xét một ví dụ trong đó chúng ta có một số dữ liệu trong một mảng và một mảng các tên với các bản sao. Tôi sẽ sử dụng các hàm của `numpy.random` để tạo một số dữ liệu ngẫu nhiên được phân phối chuẩn:

In [None]:
names = np.array(["Bob", "Joe", "Will", "Bob", "Will", "Joe", "Joe"])
data_bool = np.array([[4, 7], [0, 2], [-5, 6], [0, 0], [1, 2], [-12, -4], [3, 4]])
names

In [None]:
data_bool

Giả sử mỗi tên tương ứng với một hàng trong mảng `data_bool` và chúng ta muốn chọn tất cả các hàng có tên tương ứng là `'Bob'`. Giống như các phép toán số học, các phép so sánh với các mảng (chẳng hạn như `==`) cũng được vector hóa. Do đó, việc so sánh `names` với chuỗi `'Bob'` tạo ra một mảng boolean:

In [None]:
names == "Bob"

Mảng boolean này có thể được truyền khi chỉ mục hóa mảng:

In [None]:
data_bool[names == "Bob"]

Mảng boolean phải có cùng độ dài với trục mảng mà nó đang chỉ mục hóa. Bạn thậm chí có thể trộn và kết hợp các mảng boolean và các lát cắt hoặc các số nguyên (một sự pha trộn mà sẽ được thảo luận chi tiết hơn trong Phụ lục A).

> **Chú ý:** Chỉ mục hóa boolean, không giống như cắt lát, *luôn* tạo ra một bản sao của dữ liệu, ngay cả khi mảng được trả về không thay đổi.

> **Mẹo:** Từ khóa `and` và `or` của Python không hoạt động với các mảng boolean. Thay vào đó, hãy sử dụng `&` (và) và `|` (hoặc).

Trong những trường hợp này, tôi chọn các hàng mà `names == "Bob"` và chỉ mục hóa các cột:

In [None]:
data_bool[names == "Bob", 1:]

In [None]:
data_bool[names == "Bob", 0]

Để chọn mọi thứ ngoại trừ `'Bob'`, bạn có thể sử dụng `!=` hoặc phủ định điều kiện bằng `~`:

In [None]:
names != "Bob"

In [None]:
~(names == "Bob") # cách viết khác

In [None]:
data_bool[~(names == "Bob")]

Toán tử `~` có thể hữu ích khi bạn muốn đảo ngược một điều kiện chung:

In [None]:
cond = names == "Bob"
data_bool[~cond]

Để chọn hai trong ba tên, hãy kết hợp nhiều điều kiện boolean bằng toán tử số học `|` (hoặc):

In [None]:
mask = (names == "Bob") | (names == "Will")
mask

In [None]:
data_bool[mask]

Việc chọn dữ liệu từ một mảng bằng chỉ mục hóa boolean luôn tạo ra một bản sao của dữ liệu, ngay cả khi mảng được trả về giống hệt mảng gốc.

Việc đặt giá trị bằng mảng boolean hoạt động theo cách thông thường. Để đặt tất cả các giá trị âm trong `data_bool` thành 0, chúng ta chỉ cần làm:

In [None]:
data_bool_copy = data_bool.copy() # Tạo bản sao để không ảnh hưởng data_bool gốc
data_bool_copy[data_bool_copy < 0] = 0
data_bool_copy

Đặt toàn bộ hàng hoặc cột bằng cách sử dụng một mảng boolean một chiều cũng dễ dàng:

In [None]:
data_bool_copy[names != "Joe"] = 7 # Sử dụng data_bool_copy đã được sửa đổi
data_bool_copy

Như bạn sẽ thấy sau, các loại hoạt động này trên dữ liệu hai chiều cũng tiện lợi để thực hiện với pandas.

### Chỉ mục hóa nâng cao (Fancy Indexing)

*Chỉ mục hóa nâng cao* (Fancy indexing) là một thuật ngữ được NumPy sử dụng để mô tả việc chỉ mục hóa bằng cách sử dụng các mảng số nguyên. Giả sử chúng ta có một mảng 8 × 4:

In [None]:
arr_fancy = np.zeros((8, 4))
for i in range(8):
    arr_fancy[i] = i
arr_fancy

Để chọn một tập con các hàng theo một thứ tự cụ thể, bạn có thể chỉ cần truyền một danh sách hoặc `ndarray` các số nguyên chỉ định thứ tự mong muốn:

In [None]:
arr_fancy[[4, 3, 0, 6]]

Hy vọng rằng điều này được đặt tên một cách khéo léo. Việc sử dụng các chỉ mục âm sẽ chọn các hàng từ cuối:

In [None]:
arr_fancy[[-3, -5, -7]]

Việc truyền nhiều mảng chỉ mục sẽ làm một điều hơi khác; nó chọn một mảng một chiều các phần tử tương ứng với mỗi tuple chỉ mục:

In [None]:
arr_fancy_reshape = np.arange(32).reshape((8, 4))
arr_fancy_reshape

In [None]:
arr_fancy_reshape[[1, 5, 7, 2], [0, 3, 1, 2]]

Ở đây các phần tử `(1, 0)`, `(5, 3)`, `(7, 1)`, và `(2, 2)` đã được chọn. Kết quả của chỉ mục hóa nâng cao luôn là một bản sao một chiều của dữ liệu, bất kể số chiều của mảng (so với cắt lát).

Đây là một ví dụ khác về cách chọn một tập hợp con hình chữ nhật của các hàng và cột:

In [None]:
arr_fancy_reshape[[1, 5, 7, 2]][:, [0, 3, 1, 2]]

Hãy nhớ rằng chỉ mục hóa nâng cao, không giống như cắt lát, luôn sao chép dữ liệu vào một mảng mới. Nếu bạn cần một khung nhìn, bạn sẽ cần sử dụng các phương pháp khác, chẳng hạn như một tập hợp các lát cắt.

Hành vi này có vẻ hơi khác thường đối với một số người dùng, nhưng nó cung cấp một cách mạnh mẽ và linh hoạt để định hình lại dữ liệu mảng.

Việc gán với chỉ mục hóa nâng cao hoạt động như mong đợi:

In [None]:
arr_fancy_reshape_copy = arr_fancy_reshape.copy()
arr_fancy_reshape_copy[[1, 5, 7, 2], [0, 3, 1, 2]] = 0
arr_fancy_reshape_copy

Như một ví dụ cuối cùng, giả sử chúng ta muốn chọn các hàng theo một thứ tự cụ thể, và sau đó sắp xếp lại các cột. Một cách để làm điều này là:

In [None]:
arr_fancy_ix = np.arange(32).reshape((8, 4))
arr_fancy_ix[[1, 5, 7, 2]] # Chọn các hàng

In [None]:
arr_fancy_ix[[1, 5, 7, 2]][:, [0, 3, 1, 2]] # Chọn các hàng và sau đó sắp xếp lại các cột

Để làm điều này theo một cách ngắn gọn hơn, bạn có thể sử dụng `np.ix_`. Hàm này chuyển đổi hai mảng số nguyên một chiều thành một bộ chỉ mục chọn một vùng hình vuông từ một mảng:

In [None]:
arr_fancy_ix[np.ix_([1, 5, 7, 2], [0, 3, 1, 2])]

`np.ix_` trả về một đối tượng có thể được sử dụng để chỉ mục hóa mảng. Trong trường hợp này, nó tạo ra một đối tượng chỉ mục chọn các hàng 1, 5, 7, 2 và các cột 0, 3, 1, 2. Điều này tương đương với việc chọn các hàng với `arr[[1, 5, 7, 2], :]` và sau đó chọn các cột với `[:, [0, 3, 1, 2]]` trên kết quả.

### Chuyển vị mảng và Hoán đổi trục (Transposing Arrays and Swapping Axes)

Chuyển vị là một dạng đặc biệt của việc định hình lại (reshaping) mà cũng trả về một khung nhìn (view) của dữ liệu cơ bản mà không sao chép bất cứ thứ gì. Các mảng có thuộc tính `T` và phương thức `transpose`:

In [None]:
arr_T = np.arange(15).reshape((3, 5))
arr_T

In [None]:
arr_T.T

Khi thực hiện các phép toán đại số ma trận, bạn có thể làm điều này rất thường xuyên—ví dụ, khi tính toán tích trong (inner product) của ma trận bằng `np.dot`:

In [None]:
arr_dot_T = np.array([[0, 1, 0], [1, 2, -2], [6, 3, 2], [-1, 0, -1], [1, 0, 1]])
arr_dot_T

In [None]:
np.dot(arr_dot_T.T, arr_dot_T)

Phương thức `transpose` có thể nhận một tuple các số trục để hoán vị các trục (đối với các mục đích nâng cao hơn):

In [None]:
arr_transpose_axes = np.arange(16).reshape((2, 2, 4))
arr_transpose_axes

In [None]:
arr_transpose_axes.transpose((1, 0, 2))

Ở đây, các trục đã được sắp xếp lại với trục thứ hai là trục đầu tiên, trục đầu tiên là trục thứ hai và trục cuối cùng không thay đổi.

Chỉ mục hóa đơn giản bằng `arr[i]` sẽ chọn dữ liệu dọc theo trục 0. Để chọn dữ liệu dọc theo các trục khác, bạn có thể cần phải thực hiện một số định hình lại hoặc chuyển vị. Các mảng `ndarray` có một phương thức `swapaxes` nhận một cặp số trục và chuyển đổi các trục được chỉ định để sắp xếp lại dữ liệu:

In [None]:
arr_transpose_axes # arr_transpose_axes từ ô trên

In [None]:
arr_transpose_axes.swapaxes(0, 1)

`swapaxes` tương tự cũng trả về một khung nhìn trên dữ liệu mà không tạo bản sao.

## 4.2 Hàm phổ quát: Các hàm mảng tính toán theo từng phần tử nhanh chóng

Một hàm phổ quát, hay *ufunc*, là một hàm thực hiện các phép toán theo từng phần tử (element-wise) trên dữ liệu trong `ndarray`. Bạn có thể coi chúng là các *wrapper* (trình bao bọc) được vector hóa nhanh chóng cho các hàm đơn giản nhận một hoặc nhiều giá trị vô hướng và tạo ra một hoặc nhiều kết quả vô hướng.

Nhiều ufunc rất đơn giản, thực hiện theo từng phần tử, như `np.sqrt` hoặc `np.exp`:

In [None]:
arr_ufunc = np.arange(10)
arr_ufunc

In [None]:
np.sqrt(arr_ufunc)

In [None]:
np.exp(arr_ufunc)

Những hàm này được gọi là *ufunc đơn phân* (unary ufuncs). Những hàm khác, chẳng hạn như `np.add` hoặc `np.maximum`, nhận hai mảng (do đó, *ufunc nhị phân* (binary ufuncs)) và trả về một mảng duy nhất làm kết quả:

In [None]:
x_ufunc = np.random.standard_normal(8)
y_ufunc = np.random.standard_normal(8)
x_ufunc

In [None]:
y_ufunc

In [None]:
np.maximum(x_ufunc, y_ufunc)

Ở đây, `np.maximum` đã tính toán giá trị lớn nhất theo từng phần tử trong `x_ufunc` và `y_ufunc`.

Trong khi không phổ biến, một ufunc có thể trả về nhiều mảng. `np.modf` là một ví dụ: một ufunc đơn phân trả về phần phân số và phần nguyên của một mảng dấu phẩy động:

In [None]:
arr_modf = np.random.standard_normal(7) * 5
arr_modf

In [None]:
remainder, whole_part = np.modf(arr_modf)
remainder

In [None]:
whole_part

Ufunc chấp nhận một đối số `out` tùy chọn cho phép chúng hoạt động tại chỗ trên các mảng:

In [None]:
arr_modf # arr_modf từ ô trước

In [None]:
out_arr = np.zeros_like(arr_modf)
np.add(arr_modf, 1, out=out_arr) # out_arr += arr + 1, không tạo mảng mới
out_arr

Bảng 4.3 và 4.4 liệt kê nhiều ufunc đơn phân và nhị phân của NumPy. Một số trong số này sẽ được sử dụng trong các ví dụ trong suốt cuốn sách.

**Bảng 4.3: Một số ufunc đơn phân**

| Hàm | Mô tả |
|---|---|
| `abs`, `fabs` | Tính giá trị tuyệt đối theo từng phần tử cho số nguyên, số thực dấu phẩy động hoặc số phức. Sử dụng `fabs` cho dữ liệu số thực dấu phẩy động không phức (trả về một mảng số thực dấu phẩy động). |
| `sqrt` | Tính căn bậc hai theo từng phần tử. Tương đương với `arr ** 0.5`. |
| `square` | Tính bình phương theo từng phần tử. Tương đương với `arr ** 2`. |
| `exp` | Tính lũy thừa e^x theo từng phần tử. |
| `log`, `log10`, `log2`, `log1p` | Logarit tự nhiên (cơ số e), logarit cơ số 10, logarit cơ số 2, và log(1 + x) tương ứng. |
| `sign` | Tính dấu của mỗi phần tử: 1 (dương), 0 (zero), hoặc –1 (âm). |
| `ceil` | Tính trần theo từng phần tử (giá trị nguyên nhỏ nhất lớn hơn hoặc bằng mỗi phần tử). |
| `floor` | Tính sàn theo từng phần tử (giá trị nguyên lớn nhất nhỏ hơn hoặc bằng mỗi phần tử). |
| `rint` | Làm tròn các phần tử đến số nguyên gần nhất, giữ nguyên `dtype`. |
| `modf` | Trả về phần phân số và phần nguyên của mảng dưới dạng các mảng riêng biệt. |
| `isnan` | Trả về một mảng boolean cho biết mỗi giá trị có phải là `NaN` (Not a Number) hay không. |
| `isfinite`, `isinf` | Trả về các mảng boolean cho biết mỗi phần tử có hữu hạn (không-`inf`, không-`NaN`) hoặc vô hạn tương ứng. |
| `cos`, `cosh`, `sin`, `sinh`, `tan`, `tanh` | Các hàm lượng giác thông thường và các hàm hypebolic tương ứng. |
| `arccos`, `arccosh`, `arcsin`, `arcsinh`, `arctan`, `arctanh` | Các hàm lượng giác nghịch đảo. |
| `logical_not` | Tính giá trị chân lý của `not x` theo từng phần tử. Tương đương với `~arr`. |

**Bảng 4.4: Một số ufunc nhị phân**

| Hàm | Mô tả |
|---|---|
| `add` | Cộng các phần tử tương ứng trong các mảng. |
| `subtract` | Trừ các phần tử trong mảng thứ hai khỏi mảng thứ nhất, theo từng phần tử. |
| `multiply` | Nhân các phần tử của mảng, theo từng phần tử. |
| `divide`, `floor_divide` | Chia hoặc chia lấy phần nguyên (làm tròn xuống). |
| `power` | Nâng các phần tử trong mảng thứ nhất lên lũy thừa của các phần tử tương ứng trong mảng thứ hai, theo từng phần tử. |
| `maximum`, `fmax` | Tối đa theo từng phần tử. `fmax` bỏ qua `NaN`. |
| `minimum`, `fmin` | Tối thiểu theo từng phần tử. `fmin` bỏ qua `NaN`. |
| `mod` | Phần dư theo từng phần tử (tương đương với toán tử `%` của Python). |
| `copysign` | Sao chép dấu của các giá trị trong mảng thứ hai vào các giá trị trong mảng thứ nhất, theo từng phần tử. |
| `greater`, `greater_equal`, `less`, `less_equal`, `equal`, `not_equal` | Thực hiện các phép so sánh theo từng phần tử, tạo ra một mảng boolean. Tương đương với các toán tử infix như `>` , `>=` , `==` , v.v. |
| `logical_and`, `logical_or`, `logical_xor` | Thực hiện các phép toán logic AND, OR, và XOR theo từng phần tử. Tương đương với các toán tử infix `&`, `|`, `^`. |

## 4.3 Xử lý dữ liệu dựa trên mảng

Sử dụng mảng NumPy cho phép bạn thể hiện nhiều loại tác vụ xử lý dữ liệu dưới dạng các biểu thức mảng súc tích, nếu không thì sẽ yêu cầu viết vòng lặp. Việc thực hành viết các thuật toán dưới dạng các phép toán mảng thay vì các vòng lặp trên các phần tử riêng lẻ được gọi là *vector hóa*. Nói chung, các phép toán mảng được vector hóa thường nhanh hơn nhiều so với các phép toán tương đương trong Python thuần túy. Sau đây là một ví dụ đơn giản trong đó chúng ta muốn đánh giá hàm `sqrt(x^2 + y^2)` trên một lưới các giá trị đều nhau. Hàm `np.meshgrid` nhận hai mảng 1D và tạo ra hai mảng 2D tương ứng với tất cả các cặp `(x, y)` trong hai mảng đó:

In [None]:
points = np.arange(-5, 5, 0.01) # 1000 điểm cách đều nhau
xs, ys = np.meshgrid(points, points)
ys

Bây giờ, việc đánh giá hàm chỉ đơn giản là vấn đề viết cùng một biểu thức như bạn sẽ viết với hai điểm:

In [None]:
z = np.sqrt(xs ** 2 + ys ** 2)
z

Là một bản xem trước nhanh, tôi đã vẽ biểu đồ kết quả của việc đánh giá hàm này với Matplotlib:

In [None]:
import matplotlib.pyplot as plt
plt.imshow(z, cmap=plt.cm.gray); plt.colorbar()
plt.title("Image plot of $\sqrt{x^2 + y^2}$ for a grid of values")
plt.show() # Sử dụng plt.show() để hiển thị trong notebook

Hình 4.3 cho thấy hình ảnh kết quả.

**Hình 4.3: Biểu đồ hình ảnh của sqrt(x^2 + y^2)**

(Hình ảnh hiển thị một biểu đồ hình ảnh 2D của hàm z)

### Thể hiện logic có điều kiện dưới dạng các phép toán mảng

Hàm `numpy.where` là một phiên bản vector hóa của biểu thức tam phân (ternary expression) `x if condition else y`. Giả sử chúng ta có một mảng boolean và hai mảng các giá trị:

In [None]:
xarr = np.array([1.1, 1.2, 1.3, 1.4, 1.5])
yarr = np.array([2.1, 2.2, 2.3, 2.4, 2.5])
cond_where = np.array([True, False, True, True, False])

Giả sử chúng ta muốn lấy một giá trị từ `xarr` bất cứ khi nào giá trị tương ứng trong `cond_where` là `True` và nếu không thì lấy giá trị từ `yarr`. Một danh sách hiểu (list comprehension) để làm điều này có thể trông như sau:

In [None]:
result_lc = [(x if c else y)
             for x, y, c in zip(xarr, yarr, cond_where)]
result_lc

Điều này có nhiều vấn đề. Thứ nhất, nó sẽ không nhanh đối với các mảng lớn (vì tất cả công việc được thực hiện trong Python thuần túy được diễn giải). Thứ hai, nó sẽ không hoạt động với các mảng đa chiều. Với `np.where`, bạn có thể viết điều này rất ngắn gọn:

In [None]:
result_where = np.where(cond_where, xarr, yarr)
result_where

Các đối số thứ hai và thứ ba cho `np.where` không cần phải là mảng; một hoặc cả hai có thể là các đại lượng vô hướng. Một công dụng điển hình của `where` trong phân tích dữ liệu là tạo ra một mảng mới các giá trị dựa trên một mảng khác. Giả sử bạn có một ma trận dữ liệu được tạo ngẫu nhiên và bạn muốn thay thế tất cả các giá trị dương bằng 2 và tất cả các giá trị âm bằng –2. Điều này rất dễ thực hiện với `np.where`:

In [None]:
arr_rand_where = np.random.standard_normal((4, 4))
arr_rand_where

In [None]:
arr_rand_where > 0

In [None]:
np.where(arr_rand_where > 0, 2, -2)

Bạn có thể kết hợp các đại lượng vô hướng và mảng khi sử dụng `np.where`. Ví dụ, tôi có thể đặt tất cả các giá trị dương trong `arr_rand_where` thành 2 như sau:

In [None]:
np.where(arr_rand_where > 0, 2, arr_rand_where) # đặt chỉ các giá trị dương thành 2

Các mảng được truyền cho đối số thứ hai và thứ ba của `where` không nhất thiết phải có cùng `shape`, nhưng chúng phải có thể lan truyền (broadcastable) đến một `shape` chung. Chúng ta sẽ thảo luận chi tiết hơn về các quy tắc lan truyền trong Phụ lục A. Mặc dù `where` không bị giới hạn ở việc sử dụng trên các mảng boolean, nhưng nó đặc biệt hữu ích cho việc đó.

### Các phương thức thống kê toán học

Một tập hợp các hàm toán học tính toán các thống kê về toàn bộ một mảng hoặc về dữ liệu dọc theo một trục là các phép toán mảng có thể truy cập được dưới dạng các phương thức của lớp mảng. Bạn có thể lấy các tổng hợp (thường được gọi là *réductions*) như `sum`, `mean`, và `std` (độ lệch chuẩn) bằng cách gọi phương thức của instance mảng hoặc sử dụng hàm NumPy cấp cao nhất. Khi bạn sử dụng hàm cấp cao nhất, bạn thường phải truyền mảng mà bạn muốn tính toán thống kê làm đối số đầu tiên.

Ở đây tôi tạo một số dữ liệu được phân phối chuẩn ngẫu nhiên và tính toán một số thống kê tổng hợp:

In [None]:
arr_stats = np.random.standard_normal((5, 4))
arr_stats

In [None]:
arr_stats.mean()

In [None]:
np.mean(arr_stats)

In [None]:
arr_stats.sum()

Các hàm như `mean` và `sum` nhận một đối số `axis` tùy chọn để tính toán thống kê trên trục được chỉ định, dẫn đến một mảng có ít hơn một chiều:

In [None]:
arr_stats.mean(axis=1)

In [None]:
arr_stats.sum(axis=0)

Ở đây, `arr_stats.mean(axis=1)` có nghĩa là "tính trung bình trên các cột" và `arr_stats.sum(axis=0)` có nghĩa là "tính tổng trên các hàng". Các phương thức khác như `cumsum` và `cumprod` không tổng hợp, thay vào đó tạo ra một mảng các kết quả trung gian:

In [None]:
arr_cumsum = np.array([0, 1, 2, 3, 4, 5, 6, 7])
arr_cumsum.cumsum()

Trong các mảng đa chiều, các hàm tích lũy như `cumsum` trả về một mảng có cùng kích thước nhưng với các tổng hoặc tích một phần được tính toán dọc theo trục được chỉ định theo các phần tử "thấp hơn" trong lát cắt 1D:

In [None]:
arr_cumsum_2d = np.array([[0, 1, 2], [3, 4, 5], [6, 7, 8]])
arr_cumsum_2d

In [None]:
arr_cumsum_2d.cumsum(axis=0)

In [None]:
arr_cumsum_2d.cumsum(axis=1)

Bảng 4.5 cung cấp một danh sách các phương thức tổng hợp và thống kê mảng có sẵn. Chúng ta sẽ xem xét nhiều phương thức này chi tiết hơn trong các chương sau.

**Bảng 4.5: Các phương thức thống kê mảng cơ bản**

| Phương thức | Mô tả |
|---|---|
| `sum` | Tổng của tất cả các phần tử trong mảng hoặc dọc theo một trục. Các mảng có kích thước zero có tổng là 0. |
| `mean` | Trung bình số học. Các mảng có kích thước zero có `NaN` làm trung bình. |
| `std`, `var` | Độ lệch chuẩn và phương sai, tương ứng, với khả năng điều chỉnh bậc tự do của mẫu số. |
| `min`, `max` | Giá trị tối thiểu và tối đa. |
| `argmin`, `argmax` | Chỉ mục của các phần tử tối thiểu và tối đa, tương ứng. |
| `cumsum` | Tổng tích lũy của các phần tử bắt đầu từ 0. |
| `cumprod` | Tích tích lũy của các phần tử bắt đầu từ 1. |

### Các phương thức cho mảng Boolean

Các giá trị boolean được ép kiểu thành 1 (`True`) và 0 (`False`) trong các phương thức trước đó. Do đó, `sum` thường được sử dụng như một phương tiện để đếm các giá trị `True` trong một mảng boolean:

In [None]:
arr_bool_sum = np.random.standard_normal(100)
(arr_bool_sum > 0).sum() # Số lượng các giá trị dương

In [None]:
(arr_bool_sum <= 0).sum() # Số lượng các giá trị không dương

Có hai phương thức bổ sung, `any` và `all`, đặc biệt hữu ích cho các mảng boolean. `any` kiểm tra xem có ít nhất một giá trị `True` trong mảng hay không, trong khi `all` kiểm tra xem mọi giá trị có phải là `True` hay không:

In [None]:
bools = np.array([False, False, True, False])
bools.any()

In [None]:
bools.all()

Các phương thức này cũng hoạt động với các mảng không phải boolean, trong đó các phần tử khác không được coi là `True`.

### Sắp xếp (Sorting)

Giống như kiểu danh sách tích hợp sẵn của Python, các mảng NumPy có thể được sắp xếp tại chỗ (in-place) bằng phương thức `sort`:

In [None]:
arr_sort = np.random.standard_normal(6)
arr_sort

In [None]:
arr_sort.sort()
arr_sort

Bạn có thể sắp xếp mỗi phần 1D của một mảng đa chiều tại chỗ dọc theo một trục bằng cách truyền số trục cho `sort`:

In [None]:
arr_sort_2d = np.random.standard_normal((5, 3))
arr_sort_2d

In [None]:
arr_sort_2d_copy = arr_sort_2d.copy()
arr_sort_2d_copy.sort(axis=0) # Sắp xếp các cột
arr_sort_2d_copy

In [None]:
arr_sort_2d_copy_2 = arr_sort_2d.copy()
arr_sort_2d_copy_2.sort(axis=1) # Sắp xếp các hàng
arr_sort_2d_copy_2

Hàm cấp cao nhất `np.sort` trả về một bản sao đã sắp xếp của một mảng thay vì sửa đổi mảng tại chỗ. Một cách nhanh chóng và hiệu quả để tính toán các phân vị (quantiles) của một mảng là sắp xếp nó và chọn giá trị tại một hạng cụ thể. Ví dụ:

In [None]:
large_arr_sort = np.random.standard_normal(1000)
large_arr_sort.sort()
large_arr_sort[int(0.05 * len(large_arr_sort))] # 5% quantile

Để biết thêm chi tiết về việc sử dụng các tính năng sắp xếp của NumPy, và các thuật toán nâng cao hơn như sắp xếp gián tiếp (indirect sorts), xem Phụ lục A. Một số hàm khác của NumPy liên quan đến sắp xếp, như `lexsort`, không được đề cập ở đây vì chúng ít được sử dụng trong phân tích dữ liệu hàng ngày.

### Các phép toán tập hợp (Set Operations) cho Mảng 1D

NumPy có một số phép toán tập hợp cơ bản cho các mảng 1D. Một hàm thường được sử dụng là `np.unique`, trả về các phần tử duy nhất đã được sắp xếp trong một mảng:

In [None]:
names_set = np.array(["Bob", "Joe", "Will", "Bob", "Will", "Joe", "Joe"])
np.unique(names_set)

In [None]:
ints_set = np.array([3, 3, 3, 2, 2, 1, 1, 4, 4])
np.unique(ints_set)

Hãy đối chiếu `np.unique` với Python thuần túy:

In [None]:
sorted(set(names_set))

Một hàm khác, `np.in1d`, kiểm tra tư cách thành viên của các giá trị trong một mảng trong một mảng khác, trả về một mảng boolean:

In [None]:
values_set = np.array([6, 0, 0, 3, 2, 5, 6])
np.in1d(values_set, [2, 3, 6])

Xem Bảng 4.6 để biết danh sách các hàm tập hợp của NumPy cho các mảng 1D.

**Bảng 4.6: Các phép toán tập hợp mảng**

| Phương thức | Mô tả |
|---|---|
| `unique(x)` | Tính toán các phần tử duy nhất đã được sắp xếp trong `x`. |
| `intersect1d(x, y)` | Tính toán các phần tử chung đã được sắp xếp trong `x` và `y`. |
| `union1d(x, y)` | Tính toán hợp của các phần tử đã được sắp xếp. |
| `in1d(x, y)` | Tính toán một mảng boolean cho biết liệu mỗi phần tử của `x` có chứa trong `y` hay không. |
| `setdiff1d(x, y)` | Hiệu tập hợp; các phần tử trong `x` không có trong `y`. |
| `setxor1d(x, y)` | Hiệu đối xứng tập hợp; các phần tử nằm trong một trong các mảng nhưng không nằm trong cả hai. |

## 4.4 Nhập và Xuất file với Mảng

NumPy có thể lưu và tải dữ liệu vào và từ đĩa ở định dạng văn bản hoặc nhị phân. Trong các phần sau, tôi sẽ thảo luận về các công cụ tích hợp sẵn của NumPy để đọc và ghi các mảng, nhưng hãy nhớ rằng pandas cung cấp nhiều hàm tuyệt vời để đọc các tệp văn bản hoặc dạng bảng vào các đối tượng `DataFrame`; những hàm đó sẽ được đề cập chi tiết hơn trong Chương 6.

Các mảng được lưu vào đĩa ở định dạng nhị phân bằng `np.save` và được tải bằng `np.load`:

In [None]:
arr_io = np.arange(10)
np.save("some_array", arr_io)

Nếu tệp chưa có phần mở rộng `.npy`, nó sẽ được tự động thêm vào. Sau đó, mảng trên đĩa có thể được tải bằng `np.load`:

In [None]:
np.load("some_array.npy")

Bạn lưu nhiều mảng trong một kho lưu trữ zip không nén bằng `np.savez` và truyền các mảng dưới dạng đối số từ khóa:

In [None]:
np.savez("array_archive.npz", a=arr_io, b=arr_io)

Khi tải một tệp `.npz`, bạn nhận được một đối tượng giống từ điển (dictionary-like object) tải các mảng riêng lẻ một cách lười biếng (lazily):

In [None]:
arch = np.load("array_archive.npz")
arch["b"]

Nếu dữ liệu của bạn nén tốt, bạn có thể muốn sử dụng `numpy.savez_compressed` thay thế:

In [None]:
np.savez_compressed("arrays_compressed.npz", a=arr_io, b=arr_io)

Như một lưu ý phụ, nếu bạn thấy mình làm việc với dữ liệu đã được lưu trữ trong các định dạng tệp cũ của Fortran, bạn có thể muốn xem xét `scipy.io`.

### Lưu và tải tệp văn bản

Việc tải dữ liệu văn bản từ các tệp có thể được thực hiện bằng các hàm như `np.loadtxt` hoặc hàm `np.genfromtxt` tổng quát hơn. Các hàm này có nhiều tùy chọn, nhưng cách sử dụng điển hình là tải các tệp văn bản được phân tách bằng dấu phân cách (như CSV). Hãy xem xét một tệp CSV trông như thế này:

```
1,2,3,4,foo
5,6,7,8,bar
9,10,11,12,baz
```

Tệp này có thể được tải vào một mảng NumPy hai chiều như sau:

In [None]:
# Để chạy ví dụ này, bạn cần tạo một file tên là array_ex.txt
# với nội dung như sau:
# 1,2,3,4, # Bỏ qua foo vì loadtxt mặc định chỉ đọc số
# 5,6,7,8,
# 9,10,11,12

# with open("array_ex.txt", "w") as f:
#     f.write("1,2,3,4\n")
#     f.write("5,6,7,8\n")
#     f.write("9,10,11,12\n")

# arr_loadtxt = np.loadtxt("array_ex.txt", delimiter=",")
# arr_loadtxt

# np.savetxt("my_array_saved.csv", arr_loadtxt, delimiter=",")

`np.savetxt` thực hiện thao tác ngược lại: ghi một mảng vào một tệp văn bản được phân tách bằng dấu phân cách. Hàm `np.genfromtxt` tương tự như `np.loadtxt` nhưng hướng đến các mảng có cấu trúc và xử lý dữ liệu bị thiếu. Chúng ta sẽ không sử dụng các hàm này nhiều trong cuốn sách này, vì các công cụ của pandas để đọc các tệp văn bản (như `pandas.read_csv`) thường thuận tiện hơn. Đối với dữ liệu rất lớn, những hàm này có thể không đủ nhanh, vì vậy bạn có thể cần phải phát triển một trình phân tích tệp tùy chỉnh hoặc sử dụng một công cụ khác.

## 4.5 Đại số tuyến tính

Đại số tuyến tính, như nhân ma trận, phân rã, định thức và các hàm toán học ma trận vuông khác, là một phần quan trọng của bất kỳ thư viện mảng nào. Không giống như một số ngôn ngữ như MATLAB, việc nhân hai mảng hai chiều bằng `*` là một phép nhân theo từng phần tử thay vì một phép nhân ma trận. Do đó, có một hàm `dot`, cả dưới dạng một hàm trong không gian tên `numpy` và một phương thức `ndarray`, để thực hiện nhân ma trận:

In [None]:
x_linalg = np.array([[1., 2., 3.], [4., 5., 6.]])
y_linalg = np.array([[6., 23.], [-1, 7], [8, 9]])
x_linalg

In [None]:
y_linalg

In [None]:
x_linalg.dot(y_linalg)

`x_linalg.dot(y_linalg)` tương đương với `np.dot(x_linalg, y_linalg)`:

In [None]:
np.dot(x_linalg, y_linalg)

Một phép nhân ma trận giữa một mảng 2D và một mảng 1D có kích thước phù hợp sẽ dẫn đến một mảng 1D:

In [None]:
np.dot(x_linalg, np.ones(3))

Toán tử `@` cũng hoạt động như một toán tử infix thực hiện nhân ma trận:

In [None]:
x_linalg @ np.ones(3)

`numpy.linalg` có một tập hợp chuẩn các phép phân rã ma trận và những thứ như nghịch đảo và định thức. Chúng được triển khai dưới các hàm được tìm thấy trong các thư viện đại số tuyến tính tiêu chuẩn ngành như BLAS, LAPACK, hoặc Intel Math Kernel Library (MKL) độc quyền (nếu bạn đã xây dựng NumPy bằng nó).

In [None]:
from numpy.linalg import inv, qr
X_inv = np.random.standard_normal((5, 5))
mat_inv = X_inv.T @ X_inv # .T là một bí danh cho transpose
inv(mat_inv)

In [None]:
mat_inv @ inv(mat_inv)

Hàm `inv` tính toán nghịch đảo của một ma trận vuông. Phép nhân `mat_inv @ inv(mat_inv)` phải tạo ra ma trận đơn vị (identity matrix) hoặc một ma trận rất gần với nó.

Phân rã QR tính toán phân rã QR của một ma trận:

In [None]:
q, r = qr(mat_inv)
r

Bảng 4.7 liệt kê một phần các hàm đại số tuyến tính thường được sử dụng. Tham khảo tài liệu của `numpy.linalg` để biết thêm chi tiết.

**Bảng 4.7: Các hàm `numpy.linalg` thường được sử dụng**

| Hàm | Mô tả |
|---|---|
| `diag` | Trả về các phần tử đường chéo (hoặc ngoài đường chéo) của một mảng vuông dưới dạng một mảng 1D, hoặc chuyển đổi một mảng 1D thành một mảng vuông với các phần tử đó trên đường chéo, các phần tử khác bằng không. |
| `dot` | Nhân ma trận. |
| `trace` | Tính tổng các phần tử đường chéo. |
| `det` | Tính định thức ma trận. |
| `eig` | Tính các giá trị riêng (eigenvalues) và các vector riêng (eigenvectors) của một ma trận vuông. |
| `inv` | Tính nghịch đảo của một ma trận vuông. |
| `pinv` | Tính nghịch đảo giả Moore-Penrose của một ma trận. |
| `qr` | Tính phân rã QR. |
| `svd` | Tính phân rã giá trị suy biến (Singular Value Decomposition - SVD). |
| `solve` | Giải hệ phương trình tuyến tính Ax = b cho x, trong đó A là một ma trận vuông. |
| `lstsq` | Tính nghiệm bình phương tối thiểu theo phương pháp bình phương tối thiểu cho Ax = b. |

## 4.6 Sinh số Giả ngẫu nhiên (Pseudorandom Number Generation)

Mô-đun `numpy.random` bổ sung cho mô-đun `random` tích hợp sẵn của Python bằng các hàm để tạo hiệu quả toàn bộ mảng các giá trị mẫu từ nhiều loại phân phối xác suất. Ví dụ, bạn có thể lấy một mảng 4 × 4 các mẫu từ phân phối chuẩn (trung bình 0, độ lệch chuẩn 1) bằng `numpy.random.standard_normal`:

In [None]:
samples_rng = np.random.standard_normal(size=(4, 4))
samples_rng

Mô-đun `random` tích hợp sẵn của Python, ngược lại, chỉ lấy mẫu một giá trị tại một thời điểm. Như bạn có thể thấy từ phép đo benchmark này, `numpy.random` nhanh hơn nhiều để tạo ra số lượng lớn các số ngẫu nhiên:

In [None]:
from random import normalvariate
N = 1_000_000
# %timeit samples = [normalvariate(0, 1) for _ in range(N)]
# %timeit np.random.standard_normal(N)

# Chạy các lệnh trên trong Jupyter Notebook / IPython để thấy kết quả timeit
# Ví dụ:
t0 = time.time()
samples_py_rng = [normalvariate(0, 1) for _ in range(N)]
t1 = time.time()
print(f"Python random: {t1 - t0:.4f} s")

t0 = time.time()
samples_np_rng = np.random.standard_normal(N)
t1 = time.time()
print(f"NumPy random: {t1 - t0:.4f} s")

Chúng ta nói rằng những con số này là *giả ngẫu nhiên* (pseudorandom) vì chúng được tạo ra bởi một thuật toán với hành vi xác định dựa trên *mầm* (seed) của trình tạo số ngẫu nhiên. Bạn có thể thay đổi mầm sinh số ngẫu nhiên của NumPy bằng `numpy.random.seed` (cách cũ) hoặc sử dụng `numpy.random.default_rng` (cách mới được khuyến nghị):

In [None]:
rng = np.random.default_rng(seed=12345)
data_rng = rng.standard_normal((2,3))
data_rng

Trình tạo số ngẫu nhiên (RNG) trong `numpy.random` là một đối tượng lưu trữ trạng thái bên trong. Khi bạn gọi các hàm như `rng.standard_normal`, trình tạo này sẽ nâng cao trạng thái của nó. Bạn có thể lấy một phiên bản trình tạo riêng biệt với các phiên bản khác trong mã của mình:

In [None]:
rng2 = np.random.default_rng(seed=12345)
data2_rng = rng2.standard_normal((2,3))
data2_rng

Như bạn có thể thấy, `data_rng` và `data2_rng` là giống hệt nhau. Các hàm dữ liệu trong `numpy.random` (ví dụ, `standard_normal`, `uniform`, `randn`) sử dụng một trình tạo ngẫu nhiên toàn cục, được tạo ngầm. Để có khả năng tái tạo tốt hơn trên các phiên bản NumPy, tôi khuyên bạn nên sử dụng một thể hiện của `numpy.random.Generator`, được tạo bằng `numpy.random.default_rng`.

Xem Bảng 4.8 để biết danh sách một phần các hàm có sẵn trong `numpy.random`. Tôi sẽ quay lại các hàm này trong các ví dụ sau của cuốn sách.

**Bảng 4.8: Một số hàm `numpy.random`**

| Hàm | Mô tả |
|---|---|
| `seed` | Gieo mầm cho trình tạo số ngẫu nhiên. Không được sử dụng với `default_rng`. |
| `permutation` | Trả về một hoán vị ngẫu nhiên của một chuỗi, hoặc trả về một phạm vi đã hoán vị. |
| `shuffle` | Hoán vị ngẫu nhiên một chuỗi tại chỗ. |
| `uniform` | Rút các mẫu từ một phân phối đều. |
| `integers` | Rút các số nguyên ngẫu nhiên từ một phạm vi cho trước. |
| `standard_normal` | Rút các mẫu từ một phân phối chuẩn với trung bình 0 và độ lệch chuẩn 1 (dạng ma trận). |
| `binomial` | Rút các mẫu từ một phân phối nhị thức. |
| `normal` | Rút các mẫu từ một phân phối chuẩn (Gaussian). |
| `beta` | Rút các mẫu từ một phân phối beta. |
| `chisquare` | Rút các mẫu từ một phân phối chi bình phương. |
| `gamma` | Rút các mẫu từ một phân phối gamma. |
| `poisson` | Rút các mẫu từ một phân phối Poisson. |
| `rand` | Rút các mẫu từ một phân phối đều [0, 1). |
| `randn` | Rút các mẫu từ một phân phối "chuẩn" bình thường (trung bình 0, độ lệch chuẩn 1). |

## 4.7 Ví dụ: Bước đi ngẫu nhiên (Random Walks)

Hãy xem xét một ví dụ ứng dụng đơn giản của việc sử dụng các phép toán mảng: mô phỏng các bước đi ngẫu nhiên. Hãy bắt đầu với trường hợp đơn giản của một bước đi ngẫu nhiên bắt đầu từ 0 với các bước có kích thước 1 và –1 xảy ra với xác suất bằng nhau. Đây là cách triển khai Python thuần túy của một bước đi ngẫu nhiên 1.000 bước đơn lẻ bằng cách sử dụng mô-đun `random` tích hợp sẵn:

In [None]:
import random
position = 0
walk = [position]
nsteps = 1000
for _ in range(nsteps):
    step = 1 if random.randint(0, 1) else -1
    position += step
    walk.append(position)

Hình 4.4 cho thấy một mẫu của 100 giá trị đầu tiên cho một bước đi ngẫu nhiên này.

In [None]:
plt.plot(walk[:100])
plt.title("Python Random Walk (first 100 steps)")
plt.show()

**Hình 4.4: Một bước đi ngẫu nhiên 1D đơn giản**

(Hình ảnh hiển thị biểu đồ đường của 100 bước đầu tiên của một bước đi ngẫu nhiên)

Bạn có thể nhận thấy rằng `walk` chỉ đơn giản là tổng tích lũy của các bước ngẫu nhiên và mỗi bước có thể được tạo ra bằng cách sử dụng `rng.integers(0, 2)` để rút ra các giá trị 0 hoặc 1; sau đó, giá trị 0 được biến đổi thành –1. Do đó, tôi có thể diễn đạt điều này dưới dạng một phép toán mảng:

In [None]:
rng_walk = np.random.default_rng(seed=12345) # fresh random number generator
nsteps_walk = 1000
draws_walk = rng_walk.integers(0, 2, size=nsteps_walk) # 0 hoặc 1
steps_walk = np.where(draws_walk == 0, -1, 1)
walk_np = steps_walk.cumsum()

Từ điều này, chúng ta có thể bắt đầu trích xuất các thống kê như giá trị tối thiểu và tối đa đạt được:

In [None]:
walk_np.min()

In [None]:
walk_np.max()

Một thống kê phức tạp hơn là *thời gian chạm lần đầu* (first passage time), thời điểm mà bước đi ngẫu nhiên đạt đến một giá trị cụ thể. Ở đây chúng ta có thể muốn biết mất bao lâu để bước đi ngẫu nhiên cách xa điểm gốc (0) ít nhất 10 bước. `np.abs(walk_np) >= 10` cung cấp cho chúng ta một mảng boolean cho biết vị trí là tại hoặc vượt quá 10, nhưng chúng ta muốn chỉ mục của `True` *đầu tiên*. Điều này có thể được tính toán bằng `argmax`, trả về chỉ mục đầu tiên của giá trị lớn nhất trong mảng boolean (`True` là giá trị lớn nhất):

In [None]:
(np.abs(walk_np) >= 10).argmax()

> **Chú ý:** Lưu ý rằng việc sử dụng `argmax` ở đây không phải lúc nào cũng hiệu quả vì nó luôn quét toàn bộ mảng. Trong trường hợp này, một khi một `True` được quan sát, chúng ta biết đó là giá trị lớn nhất.


### Mô phỏng nhiều bước đi ngẫu nhiên cùng một lúc

Nếu mục tiêu của bạn là mô phỏng nhiều bước đi ngẫu nhiên, giả sử 5.000, bạn có thể tạo tất cả các bước đi ngẫu nhiên cùng một lúc với một chút sửa đổi nhỏ cho đoạn mã trước. Nếu bạn truyền một tuple 2 chiều cho các hàm `numpy.random`, nó sẽ tạo ra một mảng 2D các lần rút, và chúng ta có thể tính toán tổng tích lũy trên các hàng (để có được tất cả 5.000 bước đi ngẫu nhiên cùng một lúc):

In [None]:
nwalks = 5000
nsteps_multi = 1000
draws_multi = rng_walk.integers(0, 2, size=(nwalks, nsteps_multi)) # 0 hoặc 1
steps_multi = np.where(draws_multi > 0, 1, -1)
walks_multi = steps_multi.cumsum(axis=1)
walks_multi

Bây giờ, chúng ta có thể tính toán giá trị tối đa và tối thiểu thu được trên tất cả các bước đi:

In [None]:
walks_multi.max()

In [None]:
walks_multi.min()

Trong số các bước đi này, hãy tính toán thời gian chạm lần đầu tối thiểu là 30 hoặc –30. Điều này hơi phức tạp vì không phải tất cả 5.000 bước đi đều đạt đến 30. Chúng ta có thể kiểm tra điều này bằng phương thức `any`:

In [None]:
hits30 = (np.abs(walks_multi) >= 30).any(axis=1)
hits30

In [None]:
hits30.sum() # Số lượng các bước đi chạm đến 30 hoặc -30

Chúng ta có thể sử dụng mảng boolean này để chọn ra các hàng của `walks_multi` thực sự vượt qua mức tuyệt đối 30 và gọi `argmax` trên `axis=1` để lấy thời gian chạm qua:

In [None]:
crossing_times = (np.abs(walks_multi[hits30]) >= 30).argmax(axis=1)
crossing_times

Cuối cùng, chúng ta có thể tính toán thời gian trung bình tối thiểu để chạm đến 30:

In [None]:
crossing_times.mean()

Hãy thử nghiệm với các phân phối khác cho các bước thay vì chỉ các lần lật đồng xu bằng nhau. Ví dụ, chúng ta có thể sử dụng các bước được rút ra từ một phân phối chuẩn với trung bình 0 và độ lệch chuẩn 0.25:

In [None]:
steps_normal_dist = rng_walk.normal(loc=0, scale=0.25,
                                     size=(nwalks, nsteps_multi))
walks_normal_dist = steps_normal_dist.cumsum(axis=1)
print(f"Max value for normal distribution walk: {walks_normal_dist.max()}")
print(f"Min value for normal distribution walk: {walks_normal_dist.min()}")

Trong chương này, bạn đã học được những điều cơ bản về cách sử dụng các mảng `ndarray` của NumPy và đã thấy nhiều loại công thức tính toán vector hóa. Trong chương tiếp theo, chúng ta sẽ tìm hiểu về pandas, một thư viện được xây dựng dựa trên NumPy, cung cấp một bộ công cụ hiệu quả và biểu cảm để thao tác và phân tích dữ liệu dạng bảng.

## 4.8 Kết luận

Trong khi nhiều tính năng của NumPy được sử dụng nội bộ trong pandas và các thư viện khác, việc hiểu rõ hơn về các mảng NumPy và tính toán hướng mảng sẽ giúp bạn sử dụng các công cụ như pandas hiệu quả hơn. Các `ndarray` cung cấp một đối tượng lưu trữ dữ liệu mạnh mẽ, linh hoạt và hiệu suất cao, có thể dễ dàng định hình lại và xử lý bằng nhiều loại thuật toán. Khả năng thực hiện các phép toán toán học phức tạp trên toàn bộ khối dữ liệu mà không cần viết vòng lặp `for` làm cho NumPy trở thành một thành phần trung tâm trong hệ sinh thái tính toán khoa học của Python.

Tiếp theo, chúng ta sẽ đi sâu vào pandas, nơi chúng ta sẽ áp dụng nhiều khái niệm này vào các tình huống phân tích dữ liệu thực tế hơn.

In [None]:
# Đoạn mã dọn dẹp các tệp đã tạo (nếu có)
import os
if os.path.exists("some_array.npy"): 
    os.remove("some_array.npy")
    print("Đã xóa some_array.npy")
if os.path.exists("array_archive.npz"): 
    os.remove("array_archive.npz")
    print("Đã xóa array_archive.npz")
if os.path.exists("arrays_compressed.npz"): 
    os.remove("arrays_compressed.npz")
    print("Đã xóa arrays_compressed.npz")
# if os.path.exists("array_ex.txt"): 
#     os.remove("array_ex.txt")
#     print("Đã xóa array_ex.txt")
# if os.path.exists("my_array_saved.csv"): 
#     os.remove("my_array_saved.csv")
#     print("Đã xóa my_array_saved.csv")