# Các thư viện Python được dùng phổ biến trong Khoa học Dữ liệu

## Thư viện Numpy

### Giới thiệu chung về Numpy

**🧮 Thư viện NumPy trong Khoa học Dữ liệu**

- `NumPy` (viết tắt của *Numerical Python*) là **thư viện nền tảng** cho tính toán số học trong Python.
- Nhiều thư viện khoa học dữ liệu khác như `SciPy` và `pandas` sử dụng cấu trúc mảng của `NumPy` làm nền tảng.

**🔧 Các tính năng chính của NumPy**

- `ndarray`: đối tượng mảng N-chiều hiệu quả, hỗ trợ **phép toán vector hóa** và lan truyền linh hoạt.
- Tập hợp các **hàm chuẩn** để thực hiện phép toán trên toàn bộ mảng hoặc từng phần tử, **không cần viết vòng lặp**.
- Công cụ để **đọc/ghi dữ liệu mảng**, bao gồm hỗ trợ tệp **ánh xạ bộ nhớ** (*memory-mapped files*).
- Cung cấp các công cụ cho:
  - **Đại số tuyến tính**
  - **Biến đổi Fourier**
  - **Sinh số ngẫu nhiên**

**📌 Ứng dụng điển hình của NumPy**

- **Chuẩn bị dữ liệu**: làm sạch, thao tác, chuẩn hóa, định hình lại, sắp xếp và lọc mảng.
- **Phân tích và mô hình hóa dữ liệu**: áp dụng các phép toán, thống kê và hàm tổng hợp cho toàn bộ tập dữ liệu hoặc các tập con cụ thể.
- **Mô phỏng**: tạo dữ liệu ngẫu nhiên theo các phân phối đã biết và chạy mô hình mô phỏng.
- **Các thuật toán số khác**: xử lý tín hiệu, lọc, và các tác vụ tính toán số hiệu năng cao.

**📘 Quy ước sử dụng**

- Trong chương này và xuyên suốt cuốn sách, `NumPy` sẽ được nhập khẩu với tên **np**

In [None]:
import numpy as np

**⚠️ Lưu ý về cách nhập khẩu thư viện NumPy**

- Mặc dù cú pháp `from numpy import *` có thể giúp rút ngắn mã nguồn, **cách làm này không được khuyến khích**, vì các lý do sau:

  - Không gian tên của `NumPy` rất lớn và chứa nhiều hàm trùng tên với các hàm tích hợp sẵn trong Python, chẳng hạn như `min` và `max`.
  - Việc ghi đè các hàm tích hợp này có thể dẫn đến **xung đột tên** và gây ra các lỗi khó phát hiện, đặc biệt trong các dự án lớn hoặc khi làm việc nhóm.

- Khi bạn thấy đoạn mã như `np.some_function`, điều này có nghĩa là:ư

  - Hàm hoặc đối tượng đó nằm trong **không gian tên cấp cao nhất của thư viện NumPy**.
  - Cách gọi này rõ ràng, giúp mã dễ đọc và dễ bảo trì hơn.

### Đối tượng ndarray của NumPy

Một trong những đặc điểm quan trọng của `NumPy` là đối tượng mảng N-chiều, hay `ndarray`. Đây là một đối tượng đa chiều, nhanh chóng và linh hoạt cho các tập dữ liệu lớn trong Python.

Giả sử chúng ta muốn nhân mỗi phần tử trong một chuỗi lớn với 2.

In [None]:
import numpy as np
my_arr = np.arange(1000) # Đối tượng mảng của Numpy
my_list = list(range(1000)) # Đối tượng mảng của Python
print(my_list)

# Với Python list, chúng ta phải lặp qua danh sách:
for _ in range(10): my_list2 = [x * 2 for x in my_list]
print(my_list2)

# Với NumPy array, phép toán được vector hóa:
for _ in range(10): my_arr2 = my_arr * 2
print(my_arr2)

Chúng ta có thể đo thời gian thực thi:

In [None]:
import time
import numpy as np
my_arr = np.arange(1000) # Đối tượng mảng của Numpy
my_list = list(range(1000)) # Đối tượng mảng của Python

t0 = time.time()
for _ in range(10): my_list2 = [x * 2 for x in my_list]
t1 = time.time()
print(f"List comprehension: {t1 - t0:.4f} s")

t0 = time.time()
for _ in range(10): my_arr2 = my_arr * 2
t1 = time.time()
print(f"NumPy array: {t1 - t0:.4f} s")

Một `ndarray` là một đối tượng chứa dữ liệu **đồng nhất** (homogeneous); nghĩa là, tất cả các phần tử của nó phải có cùng một kiểu.

Mỗi đối tượng có một phương thức `shape` trả lại giá trị là một `tuple` biểu thị kích thước của mỗi chiều, và phương thức `dtype`, một đối tượng mô tả **kiểu dữ liệu** của mảng:

In [None]:
import numpy as np
data = np.array([[1.5, -0.1, 3], [0, -3, 6.5]])
print(data)
print(data.shape)
print(data.dtype)

#### **Tạo một ndarray**
<hr>

Cách dễ nhất để tạo một mảng trong Numpy là sử dụng hàm `np.array`.

In [None]:
import numpy as np
data1 = [6, 7.5, 8, 0, 1]
arr1 = np.array(data1)
print(arr1)

Khi khởi tạo mảng bằng các danh sách lồng nhau, Python sẽ chuyển đổi thành mảng nhiều chiều:

In [None]:
import numpy as np
data2 = [[1, 2, 3, 4], [5, 6, 7, 8]]
arr2 = np.array(data2)
print(arr2)

# Chúng ta có thể xác nhận điều này bằng cách kiểm tra các thuộc tính ndim và shape:
print(arr2.ndim)
print(arr2.shape)

Ngoài `np.array`, có một số hàm khác để tạo mảng mới.

- `np.zeros` và `np.ones` tạo ra các mảng chỉ có các số 0 hoặc số 1.
- `np.empty` tạo ra một mảng mà không khởi tạo các giá trị.
- `np.arange` là một phiên bản giống như hàm `range`.

In [None]:
import numpy as np
print(np.zeros((3, 6)))
print(np.empty((2, 3, 2)))
print(np.arange(15))

**Một số hàm tạo mảng NumPy quan trọng**

| Hàm | Mô tả |
|---|---|
| `array` | Chuyển đổi dữ liệu đầu vào thành một ndarray. |
| `asarray` | Chuyển đổi đầu vào thành ndarray, nhưng không sao chép nếu đầu vào đã là một ndarray. |
| `arange` | Giống như `range` nhưng trả về một ndarray. |
| `ones`, `ones_like` | Tạo mảng chứa toàn số 1. |
| `zeros`, `zeros_like` | Tạo mảng chứa toàn số 0. |
| `empty`, `empty_like` | Tạo các mảng mới mà không điền bất kỳ giá trị nào. |
| `full`, `full_like` | Tạo một mảng với tất cả các giá trị được đặt thành "giá trị điền" được chỉ định. |
| `eye`, `identity` | Tạo một ma trận đơn vị (identity matrix) vuông N × N. |

#### **Kiểu dữ liệu của ndarray**

**Kiểu dữ liệu**, hay `dtype`, là một đối tượng đặc biệt chứa thông tin mà `ndarray` cần để diễn giải một khối bộ nhớ là một loại dữ liệu cụ thể.

In [None]:
import numpy as np
arr1_dtype = np.array([1, 2, 3], dtype=np.float64)
arr2_dtype = np.array([1, 2, 3], dtype=np.int32)
print(arr1_dtype.dtype)
print(arr2_dtype.dtype)

**Các kiểu dữ liệu NumPy**

| Kiểu | Mã kiểu | Mô tả |
|---|---|---|
| `int8`, `uint8` | `i1`, `u1` | Số nguyên 8 bit có dấu và không dấu |
| `int16`, `uint16` | `i2`, `u2` | Số nguyên 16 bit có dấu và không dấu |
| `int32`, `uint32` | `i4`, `u4` | Số nguyên 32 bit có dấu và không dấu |
| `int64`, `uint64` | `i8`, `u8` | Số nguyên 64 bit có dấu và không dấu |
| `float16` | `f2` | Số thực dấu phẩy động nửa độ chính xác |
| `float32` | `f4` hoặc `f` | Số thực dấu phẩy động đơn độ chính xác |
| `float64` | `f8` hoặc `d` | Số thực dấu phẩy động độ chính xác kép |
| `complex64`, `complex128` | `c8`, `c16` | Số phức |
| `bool` | `?` | Kiểu Boolean (`True` và `False`) |
| `object` | `O` | Kiểu đối tượng Python |
| `string_` | `S` | Kiểu chuỗi ASCII có độ dài cố định |
| `unicode_` | `U` | Kiểu Unicode có độ dài cố định |

#### Chuyển đổi kiểu dữ liệu với `astype`

Bạn có thể chuyển đổi, hay còn gọi là `cast`, một mảng từ `dtype` này sang `dtype` khác bằng phương thức `astype`.

Khi ép kiểu một số số thực dấu phẩy động thành kiểu số nguyên, phần thập phân sẽ bị **cắt bỏ**:

In [None]:
import numpy as np
arr_fp_to_int = np.array([3.7, -1.2, -2.6, 0.5, 12.9, 10.1])
print(arr_fp_to_int)
print(arr_fp_to_int.astype(np.int32))

Nếu bạn có một mảng kiểu chuỗi ký tự nhưng bản chất là biểu diễn các số, bạn có thể sử dụng `astype` để chuyển đổi chúng thành dạng số:

In [None]:
import numpy as np
numeric_strings = np.array(["1.25", "-9.6", "42"])
print(numeric_strings.astype(float)) # NumPy sẽ tự động suy ra np.float64

**Lưu ý:** Việc gọi `astype` *luôn* tạo ra một mảng mới (một bản sao của dữ liệu), ngay cả khi `dtype` mới giống với `dtype` cũ.

### Các phép toán số học với mảng `NumPy`

Đối tượng mảng cho phép chúng ta thể hiện các phép toán theo nhóm trên dữ liệu mà không cần viết vòng lặp `for`. `NumPy` gọi tính năng này là **véc-tơ hóa** (vectorization). Bất kỳ phép toán số học nào giữa các mảng có kích thước bằng nhau đều áp dụng phép toán đó theo từng phần tử:

In [None]:
import numpy as np
arr_arith = np.array([[1., 2., 3.], [4., 5., 6.]])
print(arr_arith)
print(arr_arith * arr_arith)
print(arr_arith - arr_arith)

# Các phép toán số học với các đại lượng vô hướng (scalar) sẽ truyền giá trị vô hướng đó cho mỗi phần tử trong mảng:
print(1 / arr_arith)
print(arr_arith ** 2)

# Các phép so sánh giữa các mảng có cùng kích thước tạo ra một mảng kiểu logical (boolean array)
arr2_arith = np.array([[0., 4., 1.], [7., 2., 12.]])
print(arr2_arith)
print(arr2_arith > arr_arith)

### Chỉ số trong mảng (Indexing and Slicing)

#### **Chỉ số trong mảng một chiều**
Các mảng một chiều hoạt động tương tự như một `list` trong Python:

In [None]:
import numpy as np
arr_slice_basic = np.arange(10)
print(arr_slice_basic)
print(arr_slice_basic[5])
print(arr_slice_basic[5:8])
arr_slice_basic[5:8] = 12
print(arr_slice_basic)

Sự khác biệt quan trọng so với `list`: các lát cắt mảng là các **khung nhìn** (*views*) trên mảng gốc. Điều này có nghĩa là dữ liệu **không được sao chép**, và bất kỳ sửa đổi nào đối với khung nhìn sẽ được phản ánh trong mảng ban đầu.

In [None]:
import numpy as np
arr_slice_basic = np.arange(10)
arr_slice_view = arr_slice_basic[5:8]
arr_slice_view

# Khi chúng ta thay đổi các giá trị trong arr_slice_view, các thay đổi đó được phản ánh trong mảng gốc arr_slice_basic:
arr_slice_view[1] = 12345
print(arr_slice_basic) # Giá trị tương ứng với chỉ số 6 sẽ thay đổi

Nếu bạn muốn có một **bản sao** của một lát cắt thay vì một khung nhìn, bạn sẽ cần phải sao chép mảng một cách rõ ràng bằng phương thức `.copy()`.

#### Chỉ số trong mảng đa chiều
Trong một mảng hai chiều, các phần tử tại mỗi chỉ mục là các mảng một chiều:

In [None]:
import numpy as np
arr2d = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
print(arr2d[2])

# Các phần tử riêng lẻ có thể được truy cập bằng chỉ số đệ quy arr2d[0][2] hoặc cú pháp ngắn gọn arr2d[0, 2]:
print(arr2d[0][2])
print(arr2d[0, 2])

Trong các mảng nhiều chiều, nếu bạn bỏ qua các chỉ số phía sau, đối tượng được trả về sẽ là một `ndarray` có chiều thấp hơn.
Ví dụ, mảng 2 × 2 × 3 `arr3d`:

In [None]:
import numpy as np
arr3d = np.array([[[1, 2, 3], [4, 5, 6]], [[7, 8, 9], [10, 11, 12]]])
print(arr3d)

# arr3d[0] sẽ là một mảng 2 × 3:
print(arr3d[0])

# Tương tự, arr3d[1, 0] cung cấp tất cả các giá trị có chỉ mục bắt đầu bằng (1, 0), tạo thành một mảng một chiều:
print(arr3d[1, 0])

#### **Sử dụng lát cắt trên mảng**
<hr>

In [None]:
import numpy as np
arr2d = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
print(arr2d)
print(arr2d[:2])
print(arr2d[:2, 1:])

Bằng cách sử dụng đồng thời các chỉ mục số nguyên và lát cắt, bạn có thể nhận được các lát cắt có chiều thấp hơn.

Ví dụ, chọn hàng thứ hai nhưng chỉ hai cột đầu tiên:

In [None]:
import numpy as np
arr2d = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
print(arr2d[1, :2])

# Chọn cột thứ ba nhưng chỉ hai hàng đầu tiên:
print(arr2d[:2, 2])

# Dấu hai chấm (:) đứng một mình có nghĩa là lấy toàn bộ trục:
print(arr2d[:, :1])

#### **Sử dụng chỉ số kiểu logical (Boolean Indexing)**
Giả sử mỗi tên trong mảng `names` tương ứng với một hàng trong mảng `data`.

In [None]:
import numpy as np
names = np.array(["Bob", "Joe", "Will", "Bob", "Will", "Joe", "Joe"])
data_bool = np.array([[4, 7], [0, 2], [-5, 6], [0, 0], [1, 2], [-12, -4], [3, 4]])
print(data_bool)

# Chúng ta muốn chọn tất cả các hàng có tên tương ứng là 'Bob'. Phép so sánh names == 'Bob' tạo ra một mảng kiểu logical:
print(names == "Bob")

# Mảng logical này có thể được sử dụng như chỉ số để lấy ra một mảng con:
print(data_bool[names == "Bob"])

**Chú ý:**
- Chỉ số kiểu logical *luôn* tạo ra một bản sao của dữ liệu.
- Từ khóa `and` và `or` của Python không hoạt động với các mảng kiểu logical. Thay vào đó, hãy sử dụng `&` (và) và `|` (hoặc).

Ví dụ, chọn các hàng mà `names == "Bob"` đồng thời lấy chỉ số cột theo kiểu cắt lát:

In [None]:
import numpy as np
names = np.array(["Bob", "Joe", "Will", "Bob", "Will", "Joe", "Joe"])
data_bool = np.array([[4, 7], [0, 2], [-5, 6], [0, 0], [1, 2], [-12, -4], [3, 4]])
print(data_bool[names == "Bob", 1:])

# Để chọn mọi tên ngoại trừ 'Bob', bạn có thể sử dụng != hoặc phủ định điều kiện bằng ~:
print(data_bool[~(names == "Bob")])

# Để kết hợp các điều kiện logical, sử dụng & và |. Ví dụ, chọn tên hàng là Bob hoặc Will:
mask = (names == "Bob") | (names == "Will")
print(mask)
print(data_bool[mask])

# Việc thay thế giá trị trong mảng sử dụng chỉ số kiểu logical cũng rất đơn giản. Ví dụ, để đặt tất cả các giá trị âm trong data_bool thành 0:
data_bool_copy = data_bool.copy()
data_bool_copy[data_bool_copy < 0] = 0
print(data_bool_copy)

### Chỉ số mảng nâng cao (Fancy Indexing)
*Kỹ thuật chỉ số nâng cao* là một thuật ngữ của NumPy để mô tả việc tạo chỉ số bằng các **mảng số nguyên**.

In [None]:
import numpy as np
arr_fancy = np.zeros((8, 4))
for i in range(8):
    arr_fancy[i] = i
print(arr_fancy)

Để chọn một tập con các hàng theo một thứ tự cụ thể, ta có thể truyền một danh sách các chỉ số:

In [None]:
arr_fancy[[4, 3, 0, 6]]

Khi chúng ta sử dụng chỉ số là mảng nhiều chiều, kết quả trả lại sẽ là một mảng **một chiều** các phần tử tương ứng với mỗi cặp chỉ số.

In [None]:
import numpy as np
arr_fancy_reshape = np.arange(32).reshape((8, 4))
print(arr_fancy_reshape)

# Lấy các phần tử tại (1,0), (5,3), (7,1), và (2,2)
print(arr_fancy_reshape[[1, 5, 7, 2], [0, 3, 1, 2]])

Kết quả của chỉ số nâng cao luôn là một **bản sao** của dữ liệu.

Để chọn một vùng hình chữ nhật từ một mảng, bạn có thể sử dụng `np.ix_`. Hàm này chuyển đổi hai mảng số nguyên một chiều thành một kiểu chỉ số đặc biệt:

In [None]:
import numpy as np
arr_fancy_ix = np.arange(32).reshape((8, 4))
print(arr_fancy_ix[np.ix_([1, 5, 7, 2], [0, 3, 1, 2])])

### Chuyển vị mảng và hoán đổi thứ tự trục
<hr>
Chuyển vị là một dạng đặc biệt của việc định hình lại (reshaping), trả về một **khung nhìn** của dữ liệu ban đầu. Các mảng có thuộc tính `T` và phương thức `transpose`:

In [None]:
import numpy as np
arr_T = np.arange(15).reshape((3, 5))
print(arr_T)
print(arr_T.T)

Phép nhân ma trận trong Numpy được thực hiện bằng hàm `np.dot`:

In [None]:
import numpy as np
arr_dot_T = np.array([[0, 1, 0], [1, 2, -2], [6, 3, 2], [-1, 0, -1], [1, 0, 1]])
print(arr_dot_T)
print(np.dot(arr_dot_T.T, arr_dot_T))

Phương thức `transpose` được dùng tổng quát hơn để hoán vị các trục. `swapaxes` nhận một cặp số trục và chuyển đổi chúng.

In [None]:
import numpy as np
arr_transpose_axes = np.arange(16).reshape((2, 2, 4))
print(arr_transpose_axes)
print(arr_transpose_axes.transpose((1, 0, 2))) # Hoán đổi trục 0 và trục 1
print(arr_transpose_axes.swapaxes(0, 1))

### Hàm xử lý trên từng phần tử trong mảng (UFuncs)

**Universal functions**, hay *ufunc*, là các hàm thực hiện các phép toán theo từng phần tử trên dữ liệu trong `ndarray`.

**Unary ufuncs** chỉ thực hiện tính toán trên từng phần tử của một mảng.

In [None]:
import numpy as np
arr_ufunc = np.arange(10)
print(arr_ufunc)
print(np.sqrt(arr_ufunc))
print(np.exp(arr_ufunc))

**Binary ufuncs** nhận hai mảng và trả về một mảng duy nhất.

In [None]:
import numpy as np
x_ufunc = np.random.standard_normal(8)
y_ufunc = np.random.standard_normal(8)
print(x_ufunc)
print(np.maximum(x_ufunc, y_ufunc))

Một ufunc có thể trả về nhiều mảng. Ví dụ `np.modf` trả về phần thập phân và phần nguyên của một mảng:

In [None]:
import numpy as np
arr_modf = np.random.standard_normal(7) * 5
print(arr_modf)
print(np.modf(arr_modf))

**Một số unary ufunc**

| Hàm | Mô tả |
|---|---|
| `abs`, `fabs` | Tính giá trị tuyệt đối. |
| `sqrt` | Tính căn bậc hai (`arr ** 0.5`). |
| `square` | Tính bình phương (`arr ** 2`). |
| `exp` | Tính lũy thừa e^x. |
| `log`, `log10`, `log2`, `log1p` | Logarit tự nhiên, cơ số 10, cơ số 2, và log(1 + x). |
| `sign` | Tính dấu của mỗi phần tử: 1 (dương), 0 (zero), hoặc –1 (âm). |
| `ceil`, `floor` | Tính trần và sàn. |
| `rint` | Làm tròn đến số nguyên gần nhất. |
| `modf` | Trả về phần phân số và phần nguyên. |
| `isnan`, `isfinite`, `isinf` | Trả về mảng boolean. |
| `cos`, `sin`, `tan`... | Các hàm lượng giác. |

**Một số binary ufunc**

| Hàm | Mô tả |
|---|---|
| `add`, `subtract`, `multiply`, `divide` | Các phép toán số học cơ bản. |
| `power` | Nâng lũy thừa. |
| `maximum`, `minimum` | Tối đa/tối thiểu theo từng phần tử. |
| `mod` | Phần dư. |
| `greater`, `less`, `equal`... | Các phép so sánh, trả về mảng boolean. |
| `logical_and`, `logical_or`, `logical_xor` | Các phép toán logic. |

### Xử lý dữ liệu dựa trên mảng Numpy
Việc sử dụng mảng NumPy cho phép biểu diễn nhiều tác vụ xử lý dữ liệu dưới dạng các biểu thức mảng ngắn gọn và hiệu quả (kỹ thuật **vectorization**).

Ví dụ: đánh giá biểu thức hàm số $f(x, y) = \sqrt{x^2 + y^2}$ trên một lưới điểm.

Hàm `np.meshgrid` nhận vào hai mảng một chiều và tạo ra hai mảng hai chiều (ma trận tọa độ) biểu diễn toàn bộ các cặp giá trị (x, y).

In [None]:
import numpy as np
points = np.arange(-5, 5, 0.01) # 1000 điểm cách đều nhau
xs, ys = np.meshgrid(points, points)
print(ys)

# Việc đánh giá hàm trở nên rất đơn giản:
z = np.sqrt(xs*xs + ys*ys)
print(z)

### Biểu thức điều kiện với np.where
<hr>
Hàm `numpy.where` là một phiên bản vector hóa của biểu thức `x if condition else y`.

In [None]:
import numpy as np
xarr = np.array([1.1, 1.2, 1.3, 1.4, 1.5])
yarr = np.array([2.1, 2.2, 2.3, 2.4, 2.5])
cond_where = np.array([True, False, True, True, False])
print(cond_where)

# Cách thông thường sẽ cần vòng lặp, nhưng với np.where thì không:
result_where = np.where(cond_where, xarr, yarr)
print(result_where)

# Một công dụng điển hình của where là tạo ra một mảng mới dựa trên một mảng khác.
# Ví dụ: thay thế tất cả các giá trị dương bằng 2 và tất cả các giá trị âm bằng –2.
arr_rand_where = np.random.standard_normal((4, 4))
print(arr_rand_where)
print(np.where(arr_rand_where > 0, 2, -2))

### Các phương thức thống kê toán học
Các phép toán tổng hợp (reductions) có thể được truy cập dưới dạng phương thức của đối tượng mảng hoặc các hàm cấp cao của NumPy.

In [None]:
import numpy as np
arr_stats = np.random.standard_normal((5, 4))
print(arr_stats)
print(arr_stats.mean())
print(np.mean(arr_stats))
print(arr_stats.sum())

Các hàm `mean` và `sum` có tham số `axis` tùy chọn để tính toán thống kê trên trục được chỉ định.
- `axis=0`: tính toán trên các hàng (thu gọn cột).
- `axis=1`: tính toán trên các cột (thu gọn hàng).

In [None]:
import numpy as np
arr_stats = np.random.standard_normal((5, 4))
print(arr_stats.mean(axis=1)) # Trung bình của từng hàng
print(arr_stats.sum(axis=0)) # Tổng của từng cột

Các phương thức khác như `cumsum` (tổng tích lũy) và `cumprod` (tích tích lũy) không tổng hợp, mà tạo ra một mảng các kết quả trung gian:

In [None]:
import numpy as np
arr_cumsum_2d = np.array([[0, 1, 2], [3, 4, 5], [6, 7, 8]])
print(arr_cumsum_2d)
print(arr_cumsum_2d.cumsum(axis=0))
print(arr_cumsum_2d.cumsum(axis=1))

**Các phương thức thống kê mảng cơ bản**

| Phương thức | Mô tả |
|---|---|
| `sum` | Tổng của tất cả các phần tử. |
| `mean` | Trung bình số học. |
| `std`, `var` | Độ lệch chuẩn và phương sai. |
| `min`, `max` | Giá trị tối thiểu và tối đa. |
| `argmin`, `argmax` | Chỉ mục của các phần tử tối thiểu và tối đa. |
| `cumsum` | Tổng tích lũy của các phần tử. |
| `cumprod` | Tích tích lũy của các phần tử. |

### Các phương thức cho mảng kiểu logical
Giá trị kiểu logical được biến đổi thành 1 (`True`) và 0 (`False`). Do đó, `sum` thường được dùng để đếm các giá trị `True`:

In [None]:
import numpy as np
arr_bool_sum = np.random.standard_normal(100)
print((arr_bool_sum > 0).sum()) # Số lượng các giá trị dương

Hai phương thức `any` và `all` đặc biệt hữu ích cho các mảng kiểu logical.
- `any` kiểm tra xem có ít nhất một giá trị `True` hay không.
- `all` kiểm tra xem mọi giá trị có phải là `True` hay không:

In [None]:
import numpy as np
bools = np.array([False, False, True, False])
print(bools.any())
print(bools.all())

### Sắp xếp giá trị trong mảng Numpy
<hr>
Mảng Numpy có thể được sắp xếp **tại chỗ** (in-place) bằng phương thức `.sort()`.

In [None]:
import numpy as np
arr_sort = np.random.standard_normal(6)
print(arr_sort)

arr_sort.sort()
print(arr_sort)

Bạn có thể sắp xếp mỗi thành phần của mảng nhiều chiều dọc theo một trục bằng cách truyền số trục cho `sort`:

In [None]:
import numpy as np
arr_sort_2d = np.random.standard_normal((5, 3))
print(arr_sort_2d)

arr_sort_2d_copy_2 = arr_sort_2d.copy()
arr_sort_2d_copy_2.sort(axis=1) # Sắp xếp các hàng
print(arr_sort_2d_copy_2)

Hàm `np.sort` trả về một **bản sao đã sắp xếp** của một mảng thay vì sửa đổi mảng tại chỗ.

Một cách nhanh chóng để tính toán các phân vị (quantile) của một mảng là sắp xếp nó và chọn giá trị tại một hạng cụ thể:

In [None]:
import numpy as np
large_arr_sort = np.random.standard_normal(1000)
large_arr_sort.sort()
print(large_arr_sort[int(0.05 * len(large_arr_sort))]) # 5% quantile

### Các phép toán cho tập hợp (Set Operations)
<hr>
Hàm `np.unique` trả về các phần tử duy nhất **đã được sắp xếp** trong một mảng:

In [None]:
import numpy as np
names_set = np.array(["Bob", "Joe", "Will", "Bob", "Will", "Joe", "Joe"])
print(np.unique(names_set))

In [None]:
import numpy as np
ints_set = np.array([3, 3, 3, 2, 2, 1, 1, 4, 4])
print(np.unique(ints_set))

Hàm `np.in1d` dùng để kiểm tra nếu các giá trị trong một mảng có nằm trong một mảng khác, và giá trị trả về là một mảng kiểu logical:

In [None]:
import numpy as np
values_set = np.array([6, 0, 0, 3, 2, 5, 6])
print(np.isin(values_set, [2, 3, 6]))

**Các phép toán tập hợp mảng**

| Phương thức | Mô tả |
|---|---|
| `unique(x)` | Tính toán các phần tử duy nhất đã được sắp xếp trong `x`. |
| `intersect1d(x, y)` | Tính toán các phần tử chung đã được sắp xếp (giao). |
| `union1d(x, y)` | Tính toán hợp của các phần tử đã được sắp xếp. |
| `in1d(x, y)` | Tính toán một mảng boolean cho biết liệu mỗi phần tử của `x` có chứa trong `y` hay không. |
| `setdiff1d(x, y)` | Hiệu tập hợp; các phần tử trong `x` không có trong `y`. |
| `setxor1d(x, y)` | Hiệu đối xứng tập hợp; các phần tử nằm trong một trong các mảng nhưng không nằm trong cả hai. |

### Nhập và xuất file với mảng Numpy

Các mảng được lưu vào đĩa ở **định dạng nhị phân** bằng `np.save` và được tải bằng `np.load`.
Nếu tên tệp chưa có phần mở rộng `.npy`, nó sẽ được tự động thêm vào.

In [None]:
import numpy as np
arr_io = np.arange(10)
np.save("some_array", arr_io)

In [None]:
import numpy as np
np.load("some_array.npy")

Bạn có thể lưu nhiều mảng trong một tệp `.npz` không nén bằng `np.savez`:

In [None]:
import numpy as np
np.savez("array_archive.npz", a=arr_io, b=arr_io)

Khi tải một tệp `.npz`, bạn nhận được một đối tượng giống như từ điển:

In [None]:
import numpy as np
arch = np.load("array_archive.npz")

### Lưu và tải tệp văn bản

Việc tải dữ liệu văn bản có thể được thực hiện bằng `np.loadtxt` hoặc `np.genfromtxt`.

In [None]:
import numpy as np
# Tạo một file ví dụ
with open("array_ex.txt", "w") as f:
    f.write("1,2,3,4\n")
    f.write("5,6,7,8\n")
    f.write("9,10,11,12\n")

arr_loadtxt = np.loadtxt("array_ex.txt", delimiter=",")
print(arr_loadtxt)

`np.savetxt` thực hiện thao tác ngược lại: ghi một mảng vào một tệp văn bản.

**Lưu ý:** Thư viện `pandas` (sẽ học ở chương sau) cung cấp các công cụ mạnh mẽ và tiện lợi hơn để làm việc với các tệp văn bản (như CSV).

### Các phép toán đại số tuyến tính

Việc nhân hai mảng hai chiều bằng `*` là một phép nhân **theo từng phần tử**.

Để thực hiện **nhân ma trận**, ta sử dụng hàm `dot` hoặc toán tử `@`.

In [None]:
import numpy as np
x_linalg = np.array([[1., 2., 3.], [4., 5., 6.]])
y_linalg = np.array([[6., 23.], [-1, 7], [8, 9]])
print(x_linalg)
print(y_linalg)
print(x_linalg.dot(y_linalg))
print(x_linalg @ np.ones(3))

Thư viện con `numpy.linalg` có một tập hợp chuẩn các phép phân tích ma trận và những phép toán thường dùng như nghịch đảo (`inv`) và định thức (`det`).

In [None]:
from numpy.linalg import inv, qr
import numpy as np
X_inv = np.random.standard_normal((5, 5))
mat_inv = X_inv.T @ X_inv
print(mat_inv)
print(inv(mat_inv))

# mat_inv @ inv(mat_inv) sẽ ra ma trận đơn vị
print(mat_inv @ inv(mat_inv))

**Các hàm** `numpy.linalg` **thường được sử dụng**

| Hàm | Mô tả |
|---|---|
| `diag` | Trả về các phần tử đường chéo. |
| `dot` | Nhân ma trận. |
| `trace` | Tính tổng các phần tử đường chéo. |
| `det` | Tính định thức ma trận. |
| `eig` | Tính trị riêng và vector riêng. |
| `inv` | Tính nghịch đảo của một ma trận vuông. |
| `pinv` | Tính nghịch đảo giả Moore-Penrose. |
| `qr` | Tính phân rã QR. |
| `svd` | Tính phân rã giá trị suy biến (SVD). |
| `solve` | Giải hệ phương trình tuyến tính Ax = b. |
| `lstsq` | Tính nghiệm bình phương tối thiểu cho Ax = b. |

### Sinh số ngẫu nhiên

Mô-đun `numpy.random` bổ sung cho mô-đun `random` tích hợp sẵn của Python với các hàm để tạo hiệu quả toàn bộ mảng các giá trị mẫu từ nhiều loại phân phối xác suất.

In [None]:
import time
from random import normalvariate
import numpy as np
N = 1_000_000

# `numpy.random` nhanh hơn nhiều để tạo ra số lượng lớn các số ngẫu nhiên:
t0 = time.time()
samples_py_rng = [normalvariate(0, 1) for _ in range(N)]
t1 = time.time()
print(f"Python random: {t1 - t0:.4f} s")

t0 = time.time()
samples_np_rng = np.random.standard_normal(N)
t1 = time.time()
print(f"NumPy random: {t1 - t0:.4f} s")

Các con số này là *giả ngẫu nhiên* (pseudorandom) vì chúng được tạo ra bởi một thuật toán với hành vi xác định dựa trên *mầm* (seed) của trình tạo số ngẫu nhiên.

Để có khả năng tái tạo tốt hơn, nên sử dụng một thể hiện của `numpy.random.Generator`, được tạo bằng `numpy.random.default_rng`.

In [None]:
import numpy as np
rng = np.random.default_rng(seed=12345)
data_rng = rng.standard_normal((2,3))
print(data_rng)

In [None]:
import numpy as np
rng2 = np.random.default_rng(seed=12345)
data2_rng = rng2.standard_normal((2,3))
print(data2_rng)

Một số hàm `numpy.random` (trên đối tượng `Generator`)

| Hàm | Mô tả |
|---|---|
| `permutation` | Trả về một hoán vị ngẫu nhiên của một chuỗi. |
| `shuffle` | Hoán vị ngẫu nhiên một chuỗi tại chỗ. |
| `uniform` | Rút các mẫu từ một phân phối đều. |
| `integers` | Rút các số nguyên ngẫu nhiên từ một phạm vi cho trước. |
| `standard_normal` | Rút các mẫu từ một phân phối chuẩn với trung bình 0 và độ lệch chuẩn 1. |
| `binomial` | Rút các mẫu từ một phân phối nhị thức. |
| `normal` | Rút các mẫu từ một phân phối chuẩn (Gaussian). |
| `beta` | Rút các mẫu từ một phân phối beta. |
| `chisquare` | Rút các mẫu từ một phân phối chi bình phương. |
| `gamma` | Rút các mẫu từ một phân phối gamma. |
| `poisson` | Rút các mẫu từ một phân phối Poisson. |

### Tổng kết về thư viện NumPy

- Việc nắm vững các thao tác với mảng `NumPy` và kỹ thuật **tính toán véc-tơ** là nền tảng để sử dụng hiệu quả các thư viện cấp cao hơn như `pandas`.

- Cấu trúc `ndarray` của NumPy cung cấp:
  - Một đối tượng lưu trữ dữ liệu **mạnh mẽ**, **linh hoạt** và **hiệu suất cao**.
  - Hỗ trợ các thao tác vector hóa, xử lý mảng nhiều chiều và tích hợp tốt với các thư viện khoa học dữ liệu khác.

**📚 Chuyển tiếp nội dung**

- Trong chương tiếp theo, chúng ta sẽ tìm hiểu sâu hơn về **pandas** – thư viện cho phép áp dụng các khái niệm từ NumPy vào các **tình huống phân tích dữ liệu thực tế**.

## Thư viện Pandas

### Giới thiệu về thư viện pandas

- `pandas` là **công cụ không thể thiếu** đối với các nhà phân tích dữ liệu và nhà khoa học dữ liệu khi làm việc với Python.
- Thư viện cung cấp:
  - **Cấu trúc dữ liệu hiệu suất cao**, dễ sử dụng.
  - **Công cụ phân tích dữ liệu tiên tiến** cho dữ liệu dạng bảng.

- Tên gọi `pandas` bắt nguồn từ:
  - "panel data" – thuật ngữ trong kinh tế lượng để chỉ **dữ liệu bảng nhiều chiều có cấu trúc**.
  - "Python data analysis".

**Hai cấu trúc dữ liệu cốt lõi của pandas**

- `Series`: một *chuỗi* dữ liệu một chiều có nhãn (label).
- `DataFrame`: một *bảng dữ liệu hai chiều* với hàng và cột có nhãn.

- Mặc dù không phải là công cụ phù hợp cho mọi thao tác dữ liệu chuyên sâu, nhưng:
  - `Series` và `DataFrame` thường là lựa chọn hiệu quả và trực quan trong hầu hết các tình huống xử lý dữ liệu thực tế.

**Mối quan hệ với NumPy**

- `pandas` kế thừa nhiều ý tưởng từ **lập trình mảng của NumPy** nhưng:
  - Được thiết kế tối ưu cho dữ liệu dạng bảng và không đồng nhất.
- Trong thực hành:
  - `pandas` và `NumPy` **được sử dụng cùng nhau**.
  - Dữ liệu thường được xử lý trước với `pandas`, sau đó chuyển sang `NumPy` để huấn luyện mô hình với `scikit-learn`.

**Quy ước nhập khẩu thư viện pandas**

```python
import pandas as pd
```

Theo quy ước này:

- Mỗi khi bạn thấy pd. trong mã nguồn, đó là đang tham chiếu đến thư viện pandas.

**Chương này sẽ giới thiệu:**

- Các cấu trúc dữ liệu cơ bản của pandas, bao gồm **series** và **dataframe**
- Cách tương tác và thao tác dữ liệu hiệu quả với Series và DataFrame.

### Series (chuỗi)

**Khái niệm về Series trong pandas**

- Một **chuỗi** (*Series*) là:
  - Một đối tượng **giống mảng một chiều** (`1D`) trong `pandas`.
  - Chứa **một tập hợp các giá trị** và **một mảng các nhãn dữ liệu** (tên gọi là *chỉ số* – `index`).

- Mỗi phần tử trong `Series` gồm:
  - **Giá trị dữ liệu** (data).
  - **Chỉ số** (index) liên kết – giúp truy cập và định danh từng giá trị.

- Trường hợp đơn giản nhất:
  - Một `Series` có thể được hình thành từ **một mảng dữ liệu duy nhất**, `pandas` sẽ tự sinh các chỉ số mặc định từ `0`.

In [None]:
import numpy as np
import pandas as pd

obj = pd.Series([4, 7, -5, 3])
print(obj)

Biểu diễn chuỗi của một `Series` được hiển thị cho thấy chỉ số ở bên trái và các giá trị ở bên phải. Vì chúng ta không chỉ định chỉ số cho dữ liệu, một chỉ số mặc định bao gồm các số nguyên từ 0 đến `n - 1`, được tạo ra, với `n` là độ dài của dữ liệu. Bạn có thể trích xuất biểu diễn mảng của giá trị và chỉ số của `Series` thông qua các thuộc tính `array` và `index`:

In [None]:
import pandas as pd

obj = pd.Series([4, 7, -5, 3])
print(obj.array)
print(obj.index)

Thông thường, bạn có thể tạo một `Series` với một chỉ số xác định từng điểm dữ liệu bằng một nhãn:

In [None]:
import pandas as pd

obj2 = pd.Series([4, 7, -5, 3], index=["d", "b", "a", "c"])
print(obj2)

# So với một mảng trong NumPy, bạn có thể sử dụng các tên thay cho chỉ số khi chọn các giá trị đơn lẻ hoặc một tập hợp các giá trị:
print(obj2["a"])

obj2["d"] = 6
print(obj2[["c", "a", "d"]])

Chuỗi của `pandas` có thể sử dụng các hàm `Numpy` hoặc các phép toán giống như `Numpy`, chẳng hạn như lọc với một mảng logical, các phép toán số học vô hướng, hoặc áp dụng các hàm toán học, và kết quả trả lại sẽ bảo toàn liên kết giữa chỉ số với giá trị:

In [None]:
import numpy as np
import pandas as pd

obj2 = pd.Series([4, 7, -5, 3], index=["d", "b", "a", "c"])
print(obj2[obj2 > 0])
print(obj2 * 2)
print(np.exp(obj2))

# Một cách khác để hình dung về Series của pandas là một từ điển có thứ tự cố định. Trong nhiều ngữ cảnh mà bạn có thể sử dụng như một dict:
print("b" in obj2)
print("e" in obj2)

Nếu bạn có dữ liệu được chứa trong một `dict` của Python, bạn có thể tạo một `Series` bằng hàm `Series`

In [None]:
import pandas as pd
sdata = {"Ohio": 35000, "Texas": 71000, "Oregon": 16000, "Utah": 5000}
obj3 = pd.Series(sdata)
print(obj3)

Khi bạn chỉ sử dụng một `dict`, chỉ số trong `Series` kết quả sẽ là các khóa của `dict` theo thứ tự. Bạn có thể ghi đè lên chỉ số bằng cách truyền các khóa `dict` theo thứ tự bạn muốn chúng xuất hiện trong `Series` kết quả:

In [None]:
import pandas as pd
sdata = {"Ohio": 35000, "Texas": 71000, "Oregon": 16000, "Utah": 5000}
states = ["California", "Ohio", "Oregon", "Texas"]
obj4 = pd.Series(sdata, index=states)
print(obj4)

Cuốn sách này sẽ sử dụng thuật ngữ "missing value" hoặc "NA" để chỉ dữ liệu không quan sát được. Các hàm `isna` và `notna` trong `pandas` được sử dụng để phát hiện dữ liệu bị thiếu:

In [None]:
import pandas as pd
sdata = {"Ohio": 35000, "Texas": 71000, "Oregon": 16000, "Utah": 5000}
states = ["California", "Ohio", "Oregon", "Texas"]
obj4 = pd.Series(sdata, index=states)

print(pd.isna(obj4))
print(pd.notna(obj4))

# Series cũng có các phương thức .isna()để xác định giá trị không quan sát được:
print(obj4.isna())

Một tính năng hữu ích của `Series` cho nhiều ứng dụng là đối tượng này **tự động căn chỉnh theo chỉ số** trong các phép toán số học. Bạn đọc quan sát ví dụ sau:

In [None]:
import pandas as pd
sdata = {"Ohio": 35000, "Texas": 71000, "Oregon": 16000, "Utah": 5000}
obj3 = pd.Series(sdata)
states = ["California", "Ohio", "Oregon", "Texas"]
obj4 = pd.Series(sdata, index=states)
print(obj3 + obj4)

# Cả đối tượng Series và chỉ số của đối tượng này đều có thuộc tính name, được tích hợp với các chức năng khác của pandas. Chỉ số của một Series có thể được thay đổi trực tiếp bằng cách gán:
obj4.name = "population"
obj4.index.name = "state"
print(obj4)


### DataFrame

`DataFrame` biểu diễn dữ liệu dạng bảng bảng chữ nhật và chứa một tập hợp các cột có thứ tự, mỗi cột có thể là một kiểu giá trị khác nhau. `DataFrame` có cả chỉ số hàng và chỉ số cột. Cũng có thể hiểu `DataFrame` là một từ điển (`dict`) của các chuỗi (`Series`) có cùng một mảng chỉ số.

Có nhiều cách để xây dựng một `DataFrame`, mặc dù một trong những cách phổ biến nhất là từ một từ điển (`dict`) của các danh sách (`list`) có độ dài bằng nhau:

In [None]:
import pandas as pd
import numpy as np
data = {"state": ["Ohio", "Ohio", "Ohio", "Nevada", "Nevada", "Nevada"],
        "year": [2000, 2001, 2002, 2001, 2002, 2003],
        "pop": [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]}
frame = pd.DataFrame(data)
print(frame)

# Đối với các DataFrame lớn, phương thức head được sử dụng để lựa chọn các hàng đầu tiên:
print(frame.head())

# Tương tự, phương thức tail được sử dụng để lựa chọn các hàng dưới cùng:
print(frame.head())

# Bạn có thể sắp xếp lại thứ tự các cột bằng cách sử dụng tham số columns
print(pd.DataFrame(data, columns=["year", "state", "pop"]))

# Nếu bạn tạo DataFrame với một cột không có trong dict, giá trị cột đó sẽ chỉ bao gồm các giá trị NA
frame2 = pd.DataFrame(data, columns=["year", "state", "pop", "debt"])
print(frame2)

# Một cột trong DataFrame có thể được truy xuất dưới dạng Series bằng cách sử dụng ký hiệu kiểu dict hoặc bằng cách gọi như một thuộc tính:
print(frame2["state"]) # gọi tên
print(frame2.year) # gọi theo kiểu thuộc tính

# Các hàng của DataFrame cũng có thể được truy xuất theo vị trí hoặc tên với thuộc tính đặc biệt loc:
print(frame2.loc[1])

# Các cột của DataFrame có thể được sửa đổi bằng cách gán giá trị một cách trực tiếp. Ví dụ, cột "debt" trống có thể được gán một giá trị vô hướng hoặc một mảng các giá trị:
frame2["debt"] = 11.5
print(frame2)
frame2["debt"] = np.arange(6.0)
print(frame2)

Khi bạn đọc sử dụng một danh sách hoặc một mảng để gán cho một cột, độ dài phải khớp với độ dài của `DataFrame`. Nếu bạn gán một `Series`, các chỉ số  sẽ được **tự động căn chỉnh** theo chỉ số của `DataFrame`, chèn các giá trị bị thiếu vào bất kỳ lỗ hổng nào:

In [None]:
import pandas as pd

data = {"state": ["Ohio", "Ohio", "Ohio", "Nevada", "Nevada", "Nevada"],
        "year": [2000, 2001, 2002, 2001, 2002, 2003],
        "pop": [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]}

frame2 = pd.DataFrame(data, columns=["year", "state", "pop", "debt"])
val = pd.Series([-1.2, -1.5, -1.7], index=[0, "four", "five"])
frame2["debt"] = val
print(frame2)

# Việc gán một cột không tồn tại trong DataFrame sẽ tự động tạo ra một cột mới. Từ khóa del được sử dụng để xóa các cột. Bạn đọc quan sát ví dụ sau, khi chúng ta thêm một cột mới có tên eastern chứa dữ liệu kiểu logical sau đó sử dụng từ khóa del để xóa cột này:
frame2["eastern"] = frame2["state"] == "Ohio"
print(frame2)

del frame2["eastern"]
print(frame2.columns)

Một dạng dữ liệu phổ biến khác là một từ điển của các từ điển, hay còn gọi là các từ điển lồng nhau. Nếu từ điển lồng nhau được dùng để khởi tạo cho `DataFrame`, `pandas` sẽ hiểu các khóa `dict` bên ngoài là các cột và các khóa bên trong là các chỉ số hàng:

In [None]:
import pandas as pd
populations = {"Ohio": {2000: 1.5, 2001: 1.7, 2002: 3.6},
               "Nevada": {2001: 2.4, 2002: 2.9}}
frame3 = pd.DataFrame(populations)
print(frame3)

# Bạn có thể chuyển vị DataFrame, nghĩa là hoán đổi hàng và cột, bằng cách sử dụng phương thức .T tương tự như một mảng NumPy:
print(frame3.T)

**Các đầu vào dữ liệu khả thi cho hàm tạo DataFrame**

| Loại | Ghi chú |
|---|---|
| `dict` của các mảng một chiều, danh sách, `dict`, hoặc `Series` | Mỗi `ndarray` phải có cùng độ dài. Nếu một chỉ số được khởi tạo, độ dài của chỉ số phải khớp với độ dài của các mảng. |
| Mảng hai chiều của NumPy (`ndarray`) | Được xử lý như một ma trận dữ liệu, chuyển đổi thành một `DataFrame` với các chỉ số hàng và cột. |
| `ndarray` có cấu trúc hoặc bản ghi | Được xử lý tương tự như một `dict` của các `Series`. |
| Một `Series` khác | Chỉ số của `Series` được sử dụng làm chỉ số hàng của `DataFrame` kết quả. |
| Một `DataFrame` khác | Chỉ số của `DataFrame` được giữ lại trừ khi một chỉ số khác được truyền. |

### Chỉ số trong series và dataframe

Đối tượng `Index` của `pandas` chịu trách nhiệm lưu trữ các nhãn hay tên của các trục. Bất kỳ mảng hoặc chuỗi nào khác mà bạn sử dụng khi xây dựng một `Series` hoặc `DataFrame` đều được chuyển đổi nội bộ thành một `Index`:

In [None]:
import pandas as pd
import numpy as np
obj = pd.Series(np.arange(3), index=["a", "b", "c"])
index = obj.index
print(index)

Các đối tượng `Index` của `pandas` là **bất biến** và do đó không thể được sửa đổi bởi người dùng:

In [None]:
# index[1] = "d"  # Sẽ báo lỗi TypeError

Ngoài việc giống như một mảng, một `Index` cũng hoạt động giống như một tập hợp có kích thước cố định:

In [None]:
import pandas as pd
populations = {"Ohio": {2000: 1.5, 2001: 1.7, 2002: 3.6},
               "Nevada": {2001: 2.4, 2002: 2.9}}
frame3 = pd.DataFrame(populations)

print("Ohio" in frame3.columns)
print(2003 in frame3.index)

Không giống như các tập hợp của Python, một `pd.Index` của `pandas` có thể chứa các nhãn trùng lặp. Việc chọn các nhãn trùng lặp sẽ chọn tất cả các lần xuất hiện của nhãn đó.

In [None]:
import pandas as pd
print(pd.Index(["foo", "foo", "bar", "bar"]))

**Các phương thức và thuộc tính chính của Index**

| Phương thức | Mô tả |
|---|---|
| `append` | Nối thêm các đối tượng `Index` bổ sung, tạo ra một `Index` mới. |
| `difference` | Tính toán hiệu tập hợp dưới dạng một `Index`. |
| `intersection` | Tính toán giao tập hợp. |
| `union` | Tính toán hợp tập hợp. |
| `isin` | Tính toán một mảng boolean cho biết liệu mỗi giá trị có nằm trong tập hợp được truyền hay không. |
| `delete` | Tính toán `Index` mới bằng cách xóa phần tử ở vị trí `i`. |
| `drop` | Tính toán `Index` mới bằng cách xóa các giá trị được truyền. |
| `insert` | Tính toán `Index` mới bằng cách chèn phần tử ở vị trí `i`. |
| `is_monotonic_increasing` | Trả về `True` nếu mỗi phần tử lớn hơn hoặc bằng phần tử trước đó. |
| `is_monotonic_decreasing` | Trả về `True` nếu mỗi phần tử nhỏ hơn hoặc bằng phần tử trước đó. |
| `is_unique` | Trả về `True` nếu `Index` không có nhãn trùng lặp. |
| `unique` | Tính toán mảng các nhãn duy nhất trong `Index`. |
| `name` | Thuộc tính để gán tên cho một đối tượng `Index`. |
| `values` | Trả về `Index` dưới dạng một `ndarray`. |