# Các hàm thống kê trong Numpy
Thống kê bao gồm việc thu thập dữ liệu, phân tích nó và rút ra kết luận dựa trên thông tin được thu thập.

NumPy cung cấp cho chúng ta các hàm thống kê khác nhau có thể thực hiện phân tích dữ liệu thống kê.

Danh sách một số hàm thống kê phổ biến được cung cấp bởi NumPy:

| Hàm           | Mô Tả                                                 |
|---------------|--------------------------------------------------------|
| median()      | trả về giá trị trung vị của một mảng                  |
| mean()        | trả về giá trị trung bình của một mảng                 |
| std()         | trả về độ lệch chuẩn của một mảng                     |
| percentile()  | trả về phân vị thứ n của các phần tử trong một mảng   |
| min()         | trả về phần tử nhỏ nhất của một mảng                  |
| max()         | trả về phần tử lớn nhất của một mảng                  |

### 1. Tìm Giá Trị Trung Vị (Median) Sử Dụng NumPy

Giá trị trung vị của một mảng numpy là giá trị ở giữa trong một mảng đã được sắp xếp.

Nói cách khác, đó là giá trị phân chia nửa cao hơn và nửa thấp hơn của dữ liệu.

Giả sử chúng ta có danh sách các số sau:

2, 3, 5, 7, 11, 13, 17

Khi đó, giá trị trung vị là đơn giản là số ở giữa, trong trường hợp này là 7.

Lưu ý quan trọng rằng nếu số lượng phần tử là

- Lẻ, giá trị trung vị là phần tử ở giữa.
- Chẵn, giá trị trung vị là trung bình của hai phần tử ở giữa. <br>

Bây giờ, chúng ta sẽ tìm hiểu cách tính giá trị trung vị bằng cách sử dụng NumPy cho các mảng có số lượng phần tử lẻ và chẵn.

Ví dụ 1: Tính Giá Trị Trung Vị cho Số Lượng Phần Tử Lẻ<br>
Đầu tiên, chúng ta sẽ tính giá trị trung vị cho một mảng có số lượng phần tử là lẻ.
Giả sử chúng ta có một mảng numpy như trên, ta sẽ tính giá trị trung vị của mảng này bằng cách sử dụng hàm np.median().
Kết quả sẽ là giá trị trung vị của mảng arr_odd.

In [2]:
import numpy as np

arr_odd = np.array([2, 3, 5, 7, 11, 13, 17])
median_odd = np.median(arr_odd)
print("Giá trị trung vị của mảng là:", median_odd)

Giá trị trung vị của mảng là: 7.0


Ví dụ 2: Tính Giá Trị Trung Vị cho Số Lượng Phần Tử Chẵn

Tiếp theo, chúng ta sẽ tính giá trị trung vị cho một mảng có số lượng phần tử là chẵn.

Giả sử chúng ta có một mảng numpy như sau:

2, 3, 5, 7, 11, 13, 17, 19

Kết quả sẽ là giá trị trung vị của mảng arr_even. Trong trường hợp này, do số lượng phần tử là chẵn, giá trị trung vị sẽ là trung bình của hai phần tử ở giữa của mảng đã sắp xếp.

In [3]:
import numpy as np

arr_even = np.array([2, 3, 5, 7, 11, 13, 17, 19])
median_even = np.median(arr_even)
print("Giá trị trung vị của mảng là:", median_even)

Giá trị trung vị của mảng là: 9.0


**Trung Vị của Mảng 2D trong NumPy**

Trong NumPy, tính toán giá trị trung vị không chỉ giới hạn trong mảng 1D. Chúng ta cũng có thể tính toán giá trị trung vị của mảng 2D.

Trong một mảng 2D, giá trị trung vị có thể được tính toán theo trục ngang hoặc trục dọc một cách riêng lẻ, hoặc trên toàn bộ mảng.

Khi tính toán giá trị trung vị của một mảng 2D, chúng ta sử dụng tham số axis bên trong hàm np.median() để chỉ định trục theo đó tính toán giá trị trung vị.

Nếu chúng ta chỉ định,

- axis = 0, giá trị trung vị được tính theo trục dọc
- axis = 1, giá trị trung vị được tính theo trục ngang

Nếu chúng ta không sử dụng tham số axis, giá trị trung vị sẽ được tính toán trên toàn bộ mảng.

In [4]:
import numpy as np

# Tạo một mảng 2D
arr_2d = np.array([[1, 2, 3],
                   [4, 5, 6],
                   [7, 8, 9]])

# Tính toán giá trị trung vị theo trục dọc (theo cột)
median_along_vertical = np.median(arr_2d, axis=0)
print("Giá trị trung vị theo trục dọc:", median_along_vertical)

# Tính toán giá trị trung vị theo trục ngang (theo hàng)
median_along_horizontal = np.median(arr_2d, axis=1)
print("Giá trị trung vị theo trục ngang:", median_along_horizontal)

# Tính toán giá trị trung vị trên toàn bộ mảng
median_overall = np.median(arr_2d)
print("Giá trị trung vị trên toàn bộ mảng:", median_overall)

Giá trị trung vị theo trục dọc: [4. 5. 6.]
Giá trị trung vị theo trục ngang: [2. 5. 8.]
Giá trị trung vị trên toàn bộ mảng: 5.0


### 2. Tính Trung Bình (Mean) Sử Dụng NumPy

Giá trị trung bình của một mảng NumPy là giá trị trung bình của tất cả các phần tử trong mảng.

Nó được tính bằng cách cộng tất cả các phần tử trong mảng và sau đó chia kết quả cho tổng số phần tử trong mảng.

Chúng ta sử dụng hàm np.mean() để tính giá trị trung bình. Ví dụ:



In [5]:
import numpy as np

# Tạo một mảng numpy
so_nguyen_to = np.array([2, 3, 5, 7, 11, 13, 17])

# Tính toán giá trị trung bình của dãy số nguyên tố
trung_binh_so_nguyen_to = np.mean(so_nguyen_to)

print(trung_binh_so_nguyen_to)

8.285714285714286


**Trung Bình của Mảng N chiều trong NumPy**<br>

Ở đây, trước tiên chúng ta đã tạo một mảng 2D có tên là arr_2d. Sau đó, chúng ta tính giá trị trung bình sử dụng np.mean().

- np.mean(arr_2d) - tính toán giá trị trung bình trên toàn bộ mảng.
- np.mean(arr_2d, axis=0) - tính toán giá trị trung bình theo trục dọc.
- np.mean(arr_2d, axis=1) - tính toán giá trị trung bình theo trục ngang.

In [6]:
import numpy as np

# Tạo một mảng 2D
arr_2d = np.array([[1, 2, 3],
                   [4, 5, 6],
                   [7, 8, 9]])

# Tính toán giá trị trung bình theo trục dọc (theo cột)
mean_along_vertical = np.mean(arr_2d, axis=0)
print("Giá trị trung bình theo trục dọc:", mean_along_vertical)

# Tính toán giá trị trung bình theo trục ngang (theo hàng)
mean_along_horizontal = np.mean(arr_2d, axis=1)
print("Giá trị trung bình theo trục ngang:", mean_along_horizontal)

# Tính toán giá trị trung bình trên toàn bộ mảng
mean_overall = np.mean(arr_2d)
print("Giá trị trung bình trên toàn bộ mảng:", mean_overall)

Giá trị trung bình theo trục dọc: [4. 5. 6.]
Giá trị trung bình theo trục ngang: [2. 5. 8.]
Giá trị trung bình trên toàn bộ mảng: 5.0


### 3. Độ Lệch Chuẩn (Standard Deviation) của Mảng NumPy

Độ lệch chuẩn là một chỉ số đo lường sự phân tán của dữ liệu trong mảng. Nó cung cấp cho chúng ta mức độ mà các điểm dữ liệu trong một mảng dao động so với giá trị trung bình.

Độ lệch chuẩn nhỏ hơn chỉ ra rằng các điểm dữ liệu gần với giá trị trung bình.\
Độ lệch chuẩn lớn hơn chỉ ra rằng các điểm dữ liệu phân tán nhiều.\
Trong NumPy, chúng ta sử dụng hàm np.std() để tính toán độ lệch chuẩn của một mảng.\
Công thức tính độ lệch chuẩn: $S = \sqrt{\frac{\sum_{i}^{n}(x_i - \bar{X})^2)}{n-1}}$

In [12]:
import numpy as np

# Tạo một mảng numpy
snt = np.array([2, 3, 5, 7, 11, 13, 17])

# Tính toán độ lệch chuẩn của snt
std_snt = np.std(snt)
print(np.mean(snt))
print(std_snt)

8.285714285714286
5.146823867043378


**Độ Lệch Chuẩn của Mảng 2D NumPy**

Trong một mảng 2D, độ lệch chuẩn có thể được tính toán theo trục ngang hoặc trục dọc một cách riêng lẻ, hoặc trên toàn bộ mảng.

Tương tự như trung bình và trung vị, khi tính toán độ lệch chuẩn của một mảng 2D, chúng ta sử dụng tham số axis bên trong np.std() để chỉ định trục theo đó tính toán độ lệch chuẩn.

Ví dụ: Tính Độ Lệch Chuẩn của một Mảng 2D
Ở đây, chúng ta đã tạo một mảng 2D có tên là arr_2d. Ta sau đó tính toán độ lệch chuẩn theo trục ngang và trục dọc một cách riêng lẻ và sau đó tính toán độ lệch chuẩn của toàn bộ mảng.

In [13]:
import numpy as np

# Tạo một mảng 2D
arr_2d = np.array([[1, 2, 3],
                   [4, 5, 6],
                   [7, 8, 9]])

# Tính toán độ lệch chuẩn theo trục ngang
std_horizontal = np.std(arr_2d, axis=1)
print("Độ lệch chuẩn theo trục ngang:", std_horizontal)

# Tính toán độ lệch chuẩn theo trục dọc
std_vertical = np.std(arr_2d, axis=0)
print("Độ lệch chuẩn theo trục dọc:", std_vertical)

# Tính toán độ lệch chuẩn của toàn bộ mảng
std_overall = np.std(arr_2d)
print("Độ lệch chuẩn của toàn bộ mảng:", std_overall)

Độ lệch chuẩn theo trục ngang: [0.81649658 0.81649658 0.81649658]
Độ lệch chuẩn theo trục dọc: [2.44948974 2.44948974 2.44948974]
Độ lệch chuẩn của toàn bộ mảng: 2.581988897471611


### 4. Tính Phân Vị (Percentile) của Mảng NumPy

Trong NumPy, chúng ta sử dụng hàm percentile() để tính toán phân vị thứ n của một mảng đã cho.

Ví dụ:

In [14]:
import numpy as np

# tạo một mảng
array1 = np.array([1, 3, 5, 7, 9, 11, 13, 15, 17, 19])

# tính toán phân vị thứ 25 của mảng
result1 = np.percentile(array1, 25)
print("Phân vị thứ 25:", result1)

# tính toán phân vị thứ 75 của mảng
result2 = np.percentile(array1, 75)
print("Phân vị thứ 75:", result2)

Phân vị thứ 25: 5.5
Phân vị thứ 75: 14.5


Ở đây,

25% giá trị trong mảng array1 nhỏ hơn hoặc bằng 5.5.<br>
75% giá trị trong mảng array1 nhỏ hơn hoặc bằng 14.5.<br>

Lưu ý: Để tìm hiểu thêm về phân vị, có thể truy cập [NumPy Percentile](https://numpy.org/doc/stable/reference/generated/numpy.percentile.html).

### 5. Tìm Giá Trị Tối Thiểu và Tối Đa của Mảng NumPy

Chúng ta sử dụng hàm min() và max() trong NumPy để tìm giá trị tối thiểu và tối đa trong một mảng đã cho.

Ví dụ:

In [15]:
import numpy as np

# tạo một mảng
array1 = np.array([2, 6, 9, 15, 17, 22, 65, 1, 62])

# tìm giá trị tối thiểu của mảng
min_val = np.min(array1)

# tìm giá trị tối đa của mảng
max_val = np.max(array1)

# in kết quả
print("Giá trị tối thiểu:", min_val)
print("Giá trị tối đa:", max_val)

Giá trị tối thiểu: 1
Giá trị tối đa: 65


Như chúng ta có thể thấy, min() và max() trả về giá trị tối thiểu và tối đa của mảng array1 là 1 và 65 tương ứng.