## **Chapter 4: NumPy Basics: Arrays and Vectorized Computation**

### 🧮 **NumPy là gì?**

**NumPy (Numerical Python)** là một thư viện cực kỳ quan trọng trong Python để:
- Xử lý **dữ liệu số**, **tính toán ma trận**, **mô phỏng số học**, **khoa học dữ liệu**, v.v.
- Đóng vai trò **nền tảng** cho các thư viện như **pandas**, **SciPy**, **TensorFlow**, v.v.

### **🔧 NumPy có những gì?**
![image.png](attachment:image.png)

### 🧮 **⚡ Vì sao NumPy quan trọng?**
- **Nhanh hơn nhiều lần** so với list thông thường trong Python.
- Dễ dàng kết nối với các thư viện mô hình hóa, xử lý dữ liệu, deep learning, machine learning, v.v.
- **Chạy trên nền tảng của mảng** → giúp các thư viện khác như pandas, scikit-learn, tensorflow hoạt động hiệu quả hơn.

### **4.1 The NumPy ndarray: A Multidimensional Array Object**

Trong NumPy, **ndarray** (viết tắt của n-dimensional array) là **cấu trúc dữ liệu cốt lõi**. Nó là một mảng nhiều chiều có thể lưu trữ **các phần tử có cùng kiểu dữ liệu**, và hỗ trợ các **phép toán số học cực kỳ nhanh**.

🔢 **Tính năng chính của ndarray**
- ndarray là một **container đa chiều** dùng để **lưu trữ dữ liệu đồng nhất** (tất cả phần tử cùng kiểu dữ liệu).
- Cho phép thực hiện các **phép toán vector hóa** trên toàn bộ khối dữ liệu mà không cần viết vòng lặp thủ công.
- Cú pháp các phép toán trên ndarray tương tự với các phép toán trên biến số đơn (scalar).

In [1]:
import numpy as np

In [2]:
data = np.array([[1.5, -0.1, 3], [0, -3, 6.5]])

In [3]:
data

array([[ 1.5, -0.1,  3. ],
       [ 0. , -3. ,  6.5]])

In [6]:
# nhân toàn bộ mảng với 10
data * 10

array([[ 15.,  -1.,  30.],
       [  0., -30.,  65.]])

In [7]:
# cộng từng phần tử với chính nó
data + data

array([[ 3. , -0.2,  6. ],
       [ 0. , -6. , 13. ]])

**🧭 Các thuộc tính quan trọng của ndarray**
- `.shape`: Tuple biểu diễn kích thước từng chiều của mảng
- `.dtype`: Kiểu dữ liệu của các phần tử trong mảng
- `.ndim`: Số chiều (axes) của mảng
- `.size`: Tổng số phần tử trong mảng

In [10]:
data.shape

(2, 3)

In [9]:
data.dtype

dtype('float64')

In [11]:
data.ndim

2

In [12]:
data.size

6

**⚠️ Lưu ý khi sử dụng NumPy**

Trong toàn bộ tài liệu, quy ước phổ biến là **import numpy as np**. Bạn có thể sử dụng from numpy import *, nhưng **không được khuyến khích** vì:
- Namespace của NumPy rất lớn.
- Một số hàm như min, max trùng tên với các hàm tích hợp của Python.

Tuân thủ các quy ước chuẩn sẽ giúp mã của bạn dễ đọc, dễ bảo trì và ít xung đột hơn.

#### **Creating ndarrays**

Một trong những cách đơn giản nhất để tạo mảng (array) trong NumPy là sử dụng hàm `array()`. Hàm này nhận vào một đối tượng có tính chất giống như chuỗi (sequence-like), chẳng hạn như list hoặc tuple, và trả về một mảng NumPy chứa dữ liệu được cung cấp.

In [2]:
import numpy as np
data1 = [6, 7.5, 8, 0, 1]
arr1 = np.array(data1)
print(arr1)

[6.  7.5 8.  0.  1. ]


Nếu bạn cung cấp một danh sách lồng nhau (nested list) với độ dài các phần tử bên trong bằng nhau, NumPy sẽ tạo ra một mảng nhiều chiều:

In [3]:
data2 = [[1, 2, 3, 4], [5, 6, 7, 8]]
arr2 = np.array(data2)
print(arr2)

[[1 2 3 4]
 [5 6 7 8]]


Bạn có thể kiểm tra số chiều và kích thước của mảng bằng thuộc tính `.ndim` và `.shape`:

In [4]:
print(arr2.ndim)   
print(arr2.shape)  

2
(2, 4)


NumPy sẽ tự động suy đoán kiểu dữ liệu (dtype) phù hợp cho các phần tử trong mảng nếu bạn không chỉ định rõ. Kiểu dữ liệu được lưu trữ trong thuộc tính `.dtype`:

In [5]:
print(arr1.dtype)  
print(arr2.dtype)  

float64
int64


##### **Một số hàm phổ biến khác để tạo mảng**
![image.png](attachment:image.png)

#### **Data Types for ndarrays**

Trong NumPy, mỗi mảng ndarray đều gắn với **một kiểu dữ liệu (dtype)** – đây là thông tin giúp NumPy hiểu cách lưu trữ và xử lý dữ liệu trong bộ nhớ.

In [6]:
arr1 = np.array([1, 2, 3], dtype=np.float64)  # Mảng số thực
arr2 = np.array([1, 2, 3], dtype=np.int32)    # Mảng số nguyên

Bạn có thể **chuyển đổi kiểu dữ liệu** bằng `.astype()`:

In [7]:
arr = np.array([1, 2, 3])
arr.astype(np.float64)  # Chuyển sang float

array([1., 2., 3.])

⚠️ Khi chuyển từ float → int, phần thập phân sẽ bị **cắt bỏ**:

In [8]:
np.array([3.7, -1.2]).astype(np.int32)  # → [3, -1]

array([ 3, -1], dtype=int32)

##### **Numpy data types**
![image-3.png](attachment:image-3.png)
![image-2.png](attachment:image-2.png)

#### **Arithmetic with NumPy Arrays**

NumPy cho phép bạn **xử lý hàng loạt dữ liệu** (batch processing) mà **không cần dùng vòng lặp**. Kỹ thuật này gọi là **vector hóa (vectorization)**.

**🔢 Phép toán giữa các mảng cùng kích thước**

In [10]:
arr = np.array([[1., 2., 3.],
                [4., 5., 6.]])

In [11]:
arr * arr

array([[ 1.,  4.,  9.],
       [16., 25., 36.]])

In [12]:
arr - arr 

array([[0., 0., 0.],
       [0., 0., 0.]])

**🔢 Phép toán giữa mảng và số**

In [13]:
1 / arr

array([[1.        , 0.5       , 0.33333333],
       [0.25      , 0.2       , 0.16666667]])

In [14]:
arr * 2

array([[ 2.,  4.,  6.],
       [ 8., 10., 12.]])

**🔍 So sánh giữa các mảng**

In [15]:
arr2 = np.array([[0., 4., 1.],
                 [7., 2., 12.]])
arr2 > arr

array([[False,  True, False],
       [ True, False,  True]])