# Numpy

**Numpy** là một thư viện Python thường được sử dụng cho dữ liệu dạng mảng. Nó cũng có các chức năng để phục vụ cho các lĩnh vực như: đại số tuyến tính, biến đổi fourier và tính toán trên ma trận.

Numpy được viết bởi Travis Oliphant vào năm 2005. Nó là phần mềm nguồn mở và bạn có thể sử dụng miễn phí.

**Tại sao nên dùng numpy?** Vì numpy cung cấp đối tượng để thao tác với dữ liệu kiểu array (`ndarray`) nhanh hơn nhiều so với kiểu dữ liệu `list` trên python. Lý do là dữ liệu của đối tượng ndarray được lưu trên vùng nhớ liên tục do vậy việc truy cập rất nhanh. Ngoài ra, numpy hiện nay đang được sử dụng rất phổ biến.

`Numpy` là viết tắt của "Numerical Python"

Tài liệu này chỉ hướng dẫn một số nội dung cần thiết để phục vụ môn học, nếu có nhu cầu tìm hiểu hoặc tra cứu thêm các bạn có thể tìm đọc ở mục THAM KHẢO.

Những nội dung sẽ trình bày trong tài liệu này:

- ndarray (mảng trên numpy)
  - Tạo mảng
  - Kiểu dữ liệu
  - Các thao tác cơ bản trên mảng
  - Thống kê
  - Sắp xếp
- random
  - Tạo số ngẫu nhiên
  - Tạo mảng ngẫu nhiên
  - Chọn ngẫu nhiên từ mảng
  - Hoán vị
  - Tạo số ngẫu nhiên theo phân phối




## NDARRAY

Đối tượng chính trên numpy là mảng nhiều chiều (`ndarray` - the n-dimension array) trong đó các phần tử có **cùng kiểu dữ liệu**. Trong một số ngữ cảnh cụ thể, một đối tượng `ndarray` có thể hiểu là một ma trận hay một vector.

Một số thuật ngữ trong numpy:

- Số chiều của dữ liệu được gọi là **rank**
- Hình dạng của dữ liệu được gọi là **shape** (VD: ma trận có 2 dòng 3 cột thì có kích thước là [2, 3])
- Tổng số lượng phần tử trong mảng được gọi là **size**

Để sử dụng numpy, bạn cần import thư viện numpy đã cài đặt vào phiên làm việc của mình

In [4]:
import numpy as np

print(np.__version__)   # Nếu numpy chưa được cài đặt, dòng lệnh này sẽ báo lỗi.

1.26.0


Lưu ý: ở đây **np** là tên gợi nhớ cho numpy. Bạn có thể thay thế bằng bất cứ tên gì bạn cảm thấy dễ nhớ.

### Tạo mảng

#### Thông qua list

Ta có thể khởi tạo mảng numpy bằng các `list` lồng nhau, và truy cập các phần tử sử dụng dấu ngoặc vuông:

In [2]:
# 0-D Array
arr = np.array(42)

print(arr)

42


In [None]:
# 1-D Array
arr = np.array([1, 2, 3, 4, 5])

print(arr)
print(type(arr))

[1 2 3 4 5]
<class 'numpy.ndarray'>


In [None]:
# 2-D Array
arr = np.array([[1, 2, 3], [4, 5, 6]])

print(arr)

[[1 2 3]
 [4 5 6]]


#### Thông qua hàm

In [None]:
# Sử dụng hàm arange()
print(np.arange(5))
print(np.arange(1.0, 5.0))
print(np.arange(1, 5, step = 0.5))

[0 1 2 3 4]
[1. 2. 3. 4.]
[1.  1.5 2.  2.5 3.  3.5 4.  4.5]


In [None]:
# Sử dụng hàm linspace()
print(np.linspace(1, 10, 10))
print(np.linspace(0, 10, 5))


[ 1.  2.  3.  4.  5.  6.  7.  8.  9. 10.]
[ 0.   2.5  5.   7.5 10. ]


### Kiểu dữ liệu

Danh sách các kiểu dữ liệu numpy hỗ trợ và các ký tự đại diện khi sử dụng:

- i - integer
- b - boolean
- u - unsigned integer
- f - float
- c - complex float
- m - timedelta
- M - datetime
- O - object
- S - string
- U - unicode string
- V - fixed chunk of memory for other type ( void )


In [None]:
# Tạo mảng số nguyên mặc định
arr = np.array([1, 2, 3, 4])

print(arr)
print(arr.dtype)

[1 2 3 4]
int64


In [None]:
# Tạo mảng số nguyên 32 bits (4 bytes)
arr = np.array([1, 2, 3, 4], dtype='i4')

print(arr)
print(arr.dtype)

[1 2 3 4]
int32


In [None]:
# Tạo mảng chuỗi unicode
arr = np.array(['apple', 'banana', 'cherry'])

print(arr.dtype)

<U6


In [None]:
# Tạo mảng chuỗi
arr = np.array([1, 2, 3, 4], dtype='S')

print(arr)
print(arr.dtype)

[b'1' b'2' b'3' b'4']
|S1


In [None]:
arr = np.array(['apple', 'banana', 'cherry'])

print(arr.dtype)

<U6


Ta có thể chuyển đổi qua lại giữa các kiểu trên ndarray, sử dụng hàm `astype()`

In [None]:
# Chuyển đổi mảng float -> int32
arr = np.array([1.1, 2.1, 3.1])

newarr = arr.astype('i')

print(arr.dtype)
print(newarr)
print(newarr.dtype)

float64
[1 2 3]
int32


In [None]:
# Chuyển đổi mảng float -> int64
arr = np.array([1.1, 2.1, 3.1])

newarr = arr.astype(int)

print(arr.dtype)
print(newarr)
print(newarr.dtype)

float64
[1 2 3]
int64


### Thao tác cơ bản

#### Xem thông tin

In [None]:
# 3-D Array
arr = np.array([[(2, 4, 0, 6), (4, 7, 5, 6)],
                [(0, 3, 2, 1), (9, 4, 5 , 6)],
                [(5, 8, 6, 4), (1, 4, 6, 7)]])

print('- Mảng: \n', arr)
print(f'\n- Phần tử đầu tiên: ', arr[0, 0, 0])
print(f'- Kiểu dữ liệu: ', arr.dtype)
print(f'- Số chiều: ', arr.ndim)
print(f'- Kích thước: ', arr.shape)
print(f'- Số phần tử: ', arr.size)

- Mảng: 
 [[[2 4 0 6]
  [4 7 5 6]]

 [[0 3 2 1]
  [9 4 5 6]]

 [[5 8 6 4]
  [1 4 6 7]]]

- Phần tử đầu tiên:  2
- Kiểu dữ liệu:  int64
- Số chiều:  3
- Kích thước:  (3, 2, 4)
- Số phần tử:  24


#### Duyệt mảng

In [None]:
arr = np.array([[1, 2, 3], [4, 5, 6]])

for x in arr:
  for y in x:
    print(y)

1
2
3
4
5
6


### Thống kê

In [None]:
# Tìm các giá trị lớn nhất, nhỏ nhất
arr = np.array([[4, 1, 3, 8], [5, 9, 2, 3]])

print(f'- Mảng: \n {arr}')
print(f'- Tổng: {arr.sum()}')
print(f'- Giá trị bé nhất: {arr.min()}')
print(f'- Giá trị lớn nhất: {arr.max()}')
print(f'- Giá trị bé nhất trên dòng: {arr.min(axis=0)}')
print(f'- Giá trị lớn nhất trên cột: {arr.max(axis=1)}')

- Mảng: 
 [[4 1 3 8]
 [5 9 2 3]]
- Tổng: 35
- Giá trị bé nhất: 1
- Giá trị lớn nhất: 9
- Giá trị bé nhất trên dòng: [4 1 2 3]
- Giá trị lớn nhất trên cột: [8 9]


In [61]:
# Các độ đo thống kê
arr = np.array([4, 1, 3, 8, 5, 9, 2, 3])

print('Mảng: ', arr)
print('\nTính độ đo xu hướng tập trung:')
print('- Trung bình: ', arr.mean())
print('- Trung vị: ', np.median(arr))

print('\nTính các phân vị:')
print('- Phân vị Q2 (median): ', np.quantile(arr, 0.5))
print('- Tứ phân vị [Q1, Q2, Q3]: ', np.quantile(arr, [0.25, 0.5, 0.75]))

print('\nTính độ đo phân tán:')
print('\n- Độ lệch chuẩn: ', np.std(arr))
print('- Độ lệch chuẩn hiệu chỉnh: ', np.std(arr, ddof=1))  # dùng tính toán độ lệch chuẩn của mẫu


Mảng:  [4 1 3 8 5 9 2 3]

Tính độ đo xu hướng tập trung:
- Trung bình:  4.375
- Trung vị:  3.5

Tính các phân vị:
- Phân vị Q2 (median):  3.5
- Tứ phân vị:  [2.75 3.5  5.75]

Tính độ đo phân tán:

- Độ lệch chuẩn:  2.6427968139832467
- Độ lệch chuẩn hiệu chỉnh:  2.8252686345094435
- Hệ số tương quan:  1.0


In [65]:
# Tính hệ số tương quan Pearson
a = np.array([4, 1, 3, 8, 5, 9, 2, 3])
b = np.array([6, 15, 13, 8, 9, 4, 4, 6])

print('- Hệ số tương quan giữa hai mảng a và b: \n', np.corrcoef(a, b))

- Hệ số tương quan giữa hai mảng a và b: 
 [[ 1.         -0.44154495]
 [-0.44154495  1.        ]]


In [None]:
np.quantile(arr, [0.25, 0.5, 0.75])

array([2.75, 3.5 , 5.75])

### Sắp xếp

In [72]:
# Sort integer array
a = np.array([4, 1, 3, 8, 5, 9, 2, 3])

np.sort(a)

array([1, 2, 3, 3, 4, 5, 8, 9])

In [74]:
# Sort string array
a = np.array(['banana', 'cherry', 'apple'])

np.sort(a)

array(['apple', 'banana', 'cherry'], dtype='<U6')

## RANDOM

Numpy cung cấp module `random` dùng để giả lập việc tạo số ngẫu nhiên. Trước hết ta import module này để sử dụng.

In [3]:
from numpy import random

### Tạo số ngẫu nhiên

In [78]:
# Tạo các số nguyên ngẫu nhiên từ 0..100
x = random.randint(100)
print(x)

0


In [80]:
# Tạo các số thực ngẫu nhiên từ 0..1
x = random.rand()
print(x)

0.2278080791549324


### Tạo mảng ngẫu nhiên

In [81]:
# Tạo mảng gồm 5 số nguyên từ 0..100
x = random.randint(100, size=5)
print(x)

[96 65  6 50 60]


In [82]:
# Tạo ma trận kích thước 3x5 gồm các số nguyên từ 0..100
x = random.randint(100, size=(3, 5))
print(x)

[[78 81 28 21 72]
 [34  3 96  6 55]
 [67 10 48 47 72]]


In [83]:
# Tạo ma trận kích thước 3x2 gồm các số thực từ 0..1
x = random.rand(3, 2)
print(x)

[[0.33417188 0.21200132]
 [0.92718886 0.24366306]
 [0.88375735 0.54305306]]


### Chọn số ngẫu nhiên từ một mảng

In [93]:
sample = np.array([1, 2, 3, 4, 5])

print('Chọn 1 số ngẫu nhiên từ mảng sample: ', random.choice(sample))
print('Chọn 3 số ngẫu nhiên từ mảng sample: ', random.choice(sample, size=3))
print('Chọn 4 số ngẫu nhiên có hoàn lại từ mảng sample: ', random.choice(sample, size=4, replace=True))
print('Chọn 4 số ngẫu nhiên không hoàn lại từ mảng sample: ', random.choice(sample, size=4, replace=False))
print('Chọn 6 số ngẫu nhiên không hoàn lại từ mảng sample: ', random.choice(sample, size=4, replace=False))

Chọn 1 số ngẫu nhiên từ mảng sample:  3
Chọn 3 số ngẫu nhiên từ mảng sample:  [2 5 5]
Chọn 4 số ngẫu nhiên có hoàn lại từ mảng sample:  [3 4 4 5]
Chọn 4 số ngẫu nhiên không hoàn lại từ mảng sample:  [3 2 5 1]
Chọn 6 số ngẫu nhiên không hoàn lại từ mảng sample:  [5 2 3 1]


### Hoán vị

Để tạo hoán vị từ một mảng, ta có thể sử dụng hai hàm: `shuffle()` và `permutation()`

In [99]:
x = np.array([1, 2, 3, 4, 5])

random.shuffle(x)
print(x)

[1 5 3 2 4]


In [100]:
x = np.array([1, 2, 3, 4, 5])

y = random.permutation(arr)

print(x)
print(y)

[1 2 3 4 5]
[1 2 5 3 4]


### Tạo số ngẫu nhiên theo phân phối



#### Phân phối chuẩn

Sử dụng hàm `random.normal()`. Hàm có 3 tham số:
- loc: mean
- scale: độ lệch chuẩn
- size: kích thước trả về của mảng

In [101]:
print('Tạo 1 số ngẫu nhiên theo phân phối chuẩn: ', random.normal(loc=170, scale=2))
print('Tạo 10 số ngẫu nhiên theo phân phối chuẩn: ', random.normal(loc=170, scale=2, size=10))

Tạo 1 số ngẫu nhiên theo phân phối chuẩn:  170.72582729742354
Tạo 10 số ngẫu nhiên theo phân phối chuẩn:  [171.25230031 167.93111218 173.15186057 169.88546056 170.15602591
 168.81076924 166.50277673 170.89921459 172.71112834 167.33011572]


#### Phân phối nhị thức

Sử dụng hàm `random.binomial()`. Hàm có 3 tham số:
- n: số lần thử
- p: xác xuất xảy ra sự kiện mỗi lần thử
- size: kích thước trả về của mảng

VD: Xét thí nghiệm mô phỏng tung cùng lúc 10 đồng xu cân đối. Tính số lần mặt ngửa xuất hiện?

In [106]:
print('Tạo 1 số ngẫu nhiên theo phân phối nhị thức: ', random.binomial(n=10, p=0.5))

Tạo 1 số ngẫu nhiên theo phân phối nhị thức:  5


Thực hiện thí nghiệm trên 10 lần ta được danh sách 10 lần thử, mỗi lần có kết quả là số lần mặt ngửa xuất hiện

In [105]:
print('Tạo 10 số ngẫu nhiên theo phân phối nhị thức: ', random.binomial(n=10, p=0.5, size=10))

Tạo 10 số ngẫu nhiên theo phân phối nhị thức:  [4 6 6 6 7 6 8 5 4 5]


#### Phân phối Poisson

Sử dụng hàm `random.poisson()`. Hàm có 3 tham số:
- lam: số lần xuất hiện trung bình của sự kiện
- size: kích thước trả về của mảng

In [104]:
print('Tạo 1 số ngẫu nhiên theo phân phối poisson: ', random.poisson(lam=2))
print('Tạo 10 số ngẫu nhiên theo phân phối poisson: ', random.poisson(lam=2, size=10))

Tạo 1 số ngẫu nhiên theo phân phối poisson:  3
Tạo 10 số ngẫu nhiên theo phân phối poisson:  [2 1 2 1 1 2 0 1 2 2]


---

## TÓM TẮT

Qua tài liệu này, chúng ta đã:
- Biết được lợi ích được việc sử dụng numpy
- Biết cách sử dụng đối tượng mảng `ndarray` để tạo, lưu trữ và thực hiện các thao tác trên mảng cũng như các thao tác thống kê cơ bản.
- Biết cách sử dụng module `random` để tạo các số ngẫu nhiên theo nhiều cách khác nhau (điều này rất cần thiết cho môn học khi thực hiện các mô phỏng về sau)

---

## THAM KHẢO

Tài liệu sẽ hướng dẫn các chủ đề cần thiết để phục vụ môn học, nếu có nhu cầu tìm hiểu và học thêm các bạn có thể tham khảo từ các nguồn sau:
- [W3School Python](https://www.w3schools.com/python/numpy/default.asp)
- [Tutorialspoint](https://www.tutorialspoint.com/numpy/index.htm)
---
