# BÀI 6: NUMPY VÀ ARRAY

Numpy là thư viện chuyên sâu cho các lĩnh vực toán học như Xác suất Thống kê (Statistics) hay Đại số Tuyến tính (Linear Algebra), và là nền tảng của Học máy (Machine Learning). Numpy làm việc chủ yếu với đối tượng array (mảng).\
Theo quy ước, thư viện `numpy` luôn được import dưới tên gọi `np`.

In [None]:
import numpy as np

## 1. Giới thiệu Numpy

### 1.1. Hằng số

In [None]:
import numpy as np

In [None]:
np.pi

In [None]:
np.e

In [None]:
# not a number (không phải số)
np.nan

### 1.2. Array (Mảng nhiều chiều)
Array là đối tượng làm việc chính của Numpy, có tên đầy đủ là n-dimensional array (ndarray). Array có thể là một đại lượng vô hướng (0 chiều), một vector (1 chiều) hay một ma trận (2 chiều).

In [None]:
import numpy as np

In [None]:
np.array(7)

In [None]:
type(np.array([1, 2, 3]))

In [None]:
np.array([[3, 4], [7, 8]])

**Chú ý:** Đối tượng array trong Numpy rất giống với list trong Python. Các điểm khác biệt lớn nhất giữa chúng:
- Các phần tử trong một list có thể có nhiều kiểu dữ liệu khác nhau; nhưng để tối ưu hóa sức mạnh tính toán của array, các phần tử phải có cùng kiểu dữ liệu.
- Array có hiệu năng tốt hơn nhiều so với list.
- Array cho phép thực hiện thao tác với từng phần tử, vì thế rất phù hợp trong việc tính toán.

#### Dãy số cách đều
Hai hàm `numpy.arange()` và `numpy.linspace()` cùng tạo ra dãy số cách đều. Trong khi `numpy.arange()` cho phép lựa chọn khoảng cách thì `numpy.linspace()` cho phép lựa chọn số phần tử tạo ra.

In [None]:
# dãy số cách đều 0.5, từ -5 đến 4
np.arange(-5, 4, 0.5)

In [None]:
# dãy 20 số cách đều, từ 1 đến 5
np.linspace(1, 5, 20)

**Tình huống 1:** Tạo ra dãy số nguyên nằm trong khoảng $[a,b]$ bất kỳ.

### 1.3. Khái niệm tính toán từng phần tử
Điểm nổi bật của Numpy là có thể thực hiện tính toán với từng phần tử (element-wise) của array.

In [None]:
import numpy as np

In [None]:
# cộng 2 list với nhau, kết quả là nối 2 list
[1, 2, 3] + [4, 5, 6]

In [None]:
# cộng 2 array kết quả là cộng từng phần tử
np.array([1, 2, 3]) + np.array([4, 5, 6])

In [None]:
# cộng 1 array với 1 số, kết quả là cộng số đó với từng phần tử
np.array([1, 2, 3]) + 7

Một số ví dụ tính toán từng phần tử với mảng 2 chiều.

In [None]:
a = np.array([[1, 1, 1],
              [1, 1, 1],
              [1, 1, 1]])
b = np.array(7)
a * b

In [None]:
a = np.array([[1, 1, 1],
              [1, 1, 1],
              [1, 1, 1]])
b = np.array([2, 3, 4])
a * b

In [None]:
a = np.array([[1, 1, 1],
              [1, 1, 1],
              [1, 1, 1]])
b = np.array([[2], [3], [4]])
a * b

**Tình huống 2:** Giải thích kết quả 3 phép nhân array trên.

### 1.4. Các phép toán trong Numpy
Numpy có rất nhiều hàm toán học và đều hoạt động "element-wise".\
[Documentation](https://docs.scipy.org/doc/numpy-1.17.0/reference/routines.math.html)  

In [None]:
np.sin(np.pi/2)

In [None]:
np.sqrt(-1)

In [None]:
x = np.array([-4, 6, -7])
np.abs(x)

In [None]:
x = np.array([1, 2, 3])
np.exp(x)

In [None]:
x = np.array([10, 1000, 100000])
np.log10(x)

### 1.5. Mảng ngẫu nhiên
Việc tạo ra một array chứa các số ngẫu nhiên nhưng tuân theo một số tính chất (như số nguyên hay phân phối chuẩn) rất quan trọng để thử nghiệm các đặc tính của dữ liệu.

In [None]:
import numpy as np

#### Số thực ngẫu nhiên
Hàm `numpy.random.random()` trả về các số thực ngẫu nhiên trong nửa khoảng `[0.0; 1.0)`.

In [None]:
np.random.random(size=(4,5))

**Tình huống 3:** Tạo ra các số thực ngẫu nhiên trong nửa khoảng `[a; b)`.

#### Số nguyên ngẫu nhiên
Hàm `numpy.random.randint()` trả về các số nguyên ngẫu nhiên trong nửa khoảng `[a; b)` hoặc `[0; a)`.

In [None]:
np.random.randint(10, 100, (4,5))

In [None]:
np.random.randint(5, size=(4,5))

#### Ngẫu nhiên theo phân phối chuẩn
Hàm `numpy.random.normal()` tạo ra một array chứa các số ngẫu nhiên nhưng tuân theo phân phối chuẩn. Tham số `loc` thể hiện trung bình và `scale` thể hiện độ lệch chuẩn. Đồ thị histogram được sử dụng để thể hiện quy luật phân phối của số liệu.

In [None]:
import matplotlib.pyplot as plt
plt.style.use('ggplot')

plt.figure(figsize=(10,5))
plt.hist(np.random.normal(loc=0, scale=5, size=100000), bins=100)
plt.show()

#### Ngẫu nhiên theo phân phối đều

In [None]:
import matplotlib.pyplot as plt
plt.style.use('ggplot')

plt.figure(figsize=(10,5))
plt.hist(np.random.uniform(low=-30, high=30, size=100000), bins=100)
plt.show()

#### Seed
Hàm `numpy.random.seed()` sẽ cố định kết quả ngẫu nhiên với mỗi số được truyền vào.

In [None]:
np.random.seed(0)
np.random.randint(1, 9, 20)

## 2. Thao tác với Array

### 2.1. Mô tả array

In [None]:
import numpy as np

In [None]:
a = np.array(
    [[ 1,  2,  3,  4,  5,  6],
     [ 7,  8,  9, 10, 11, 12],
     [13, 14, 15, 16, 17, 18],
     [19, 20, 21, 22, 23, 24]]
)

In [None]:
# số chiều
a.ndim

In [None]:
# kích thước mỗi chiều
a.shape

In [None]:
# số phần tử
a.size

**Tình huống 4:** Sử dụng Numpy, kiểm tra:
- Số phần tử thuộc tính `shape` trả về có bằng giá trị `ndim` hay không?
- Kích thước array có bằng tích độ dài tất cả các chiều hay không?

**Chú ý:** Numpy xác định chiều của array dựa vào ngoặc vuông `[]`:
- Array `a` được bắt đầu bằng 2 dấu ngoặc vuông, vì thế `a` có 2 chiều.
- Chiều thứ nhất (axis 0) là chiều dọc, xác định bởi dấu ngoặc vuông đầu tiên. Bên trong dấu ngoặc này có 4 phần tử, vậy kích thước của chiều thứ nhất là 4.
- Chiều thứ hai (axis 1) là chiều ngang, xác định bởi dấu ngoặc vuông thứ hai. Bên trong dấu ngoặc này có 6 phần tử, vậy kích thước của chiều thứ hai là 6.

<img src="images\array_axes_convention.png">

In [None]:
a = np.array(
    [[ 1,  2,  3,  4,  5,  6],
     [ 7,  8,  9, 10, 11, 12],
     [13, 14, 15, 16, 17, 18],
     [19, 20, 21, 22, 23, 24]]
)

In [None]:
# phần tử nhỏ nhất trong toàn bộ array
a.min()

Nếu sử dụng tham số `axis=1`, array sẽ được thu gọn và tính toán dọc theo axis 1. Nói cách khác, axis 1 bị loại bỏ.

In [None]:
# phần tử lớn nhất dọc theo chiều thứ hai
a.max(axis=1)

### 2.2. Slicing
Giống với list, cũng có thể sử dụng kỹ thuật slicing đối với array nhưng đa dạng hơn rất nhiều.

In [None]:
import numpy as np

#### Slicing cơ bản
Cú pháp: `[start:stop:step]`. Để slicing nhiều chiều: `[start0:stop0:step0, start1:stop1:step1,...]` trong đó các số 0, 1,... ám chỉ chiều 0, chiều 1,...

In [None]:
a = np.array(
    [[ 1,  2,  3,  4,  5,  6],
     [ 7,  8,  9, 10, 11, 12],
     [13, 14, 15, 16, 17, 18],
     [19, 20, 21, 22, 23, 24]]
)

In [None]:
# cắt ra các phần tử thuộc dòng 1, 2
a[1:3]

In [None]:
# cắt ra các phần tử thuộc cột 0, 2, 4
a[:, ::2]

In [None]:
# kết hợp slicing trên 2 chiều
a[1:3, 1::2]

In [None]:
# lấy phần tử nằm ở hàng 2, cột 1
a[2, 1]

In [None]:
# phép gán giá trị
a[::, ::2] = 0
a

**Tình huống 5:** Tạo vector chứa các số tự nhiên từ 10 đến 99. Sau đó loại bỏ 10 số đầu tiên và 15 số cuối cùng.

**Tình huống 6:** Sử dụng `np.zeros()` để tạo ra 1 ma trận 5x5 chứa các số 1 bao ngoài và số 0 nằm bên trong.

#### Boolean slicing

Trước hết, hãy tìm hiểu về so sánh từng phần tử. Trong ví dụ dưới đây, kết quả trả về là một array chứa các giá trị Boolean (giá trị `True` nếu phần tử đó thỏa mãn x > 5).

In [None]:
x = np.array([1, 3, 5, 7, 9])
x > 5

Các toán tử `and` và `or` không có tính chất "element-wise". Nếu muốn so sánh từng phần tử, cần sử dụng toán tử `&` thay cho `and` và `|` thay cho `or`.

In [None]:
np.array([True, True, False, False]) & np.array([True, False, True, False])

In [None]:
np.array([True, True, False, False]) | np.array([True, False, True, False])

Để kích hoạt Boolean slicing, cần truyền vào một list chứa các phần tử `True` và `False` hoặc một điều kiện.

In [None]:
x = np.array([1, 3, 5, 7, 9])
x[[True, True, False, False, True]]

In [None]:
x = np.array([1, 3, 5, 7, 9])
x[(c>=5) & (c!=9)]

**Chú ý:** Dấu ngã `~` có tác dụng đảo ngược giá trị của một array chứa các phần tử Boolean (`True` thành `False`, `False` thành `True`). Cách viết này dùng để chỉ ra điều kiện loại bỏ phần tử.

In [None]:
~np.array([True, False, True])

In [None]:
d = np.array([1, 2, 3, 4, 5, 6, 7, 100])
d[~(d>10)]

**Tình huống 7:** Cho array dưới đây, hãy đổi dấu (dương thành âm) các số lớn hơn 3 và nhỏ hơn 8.

In [None]:
x = np.array([6, 1, 4, 4, 8, 4, 6, 3, 5, 8, 7, 9, 9, 2, 7, 8, 8, 9, 2, 6])

## 2.3. Tái cấu trúc array

In [None]:
import numpy as np

Phương thức `reshape()` của array cho phép tái cấu trúc array sang một hình dạng khác (thay đổi số chiều, kích thước mỗi chiều). Dù thay đổi sang hình dạng nào, số phần tử và thứ tự của chúng vẫn luôn luôn không thay đổi.

In [None]:
a = np.array(
    [[ 1,  2,  3,  4,  5,  6],
     [ 7,  8,  9, 10, 11, 12],
     [13, 14, 15, 16, 17, 18],
     [19, 20, 21, 22, 23, 24]]
)

In [None]:
a.reshape(3, 8)

Phương thức `reshape()` cho phép đặt một chiều có kích thước bằng -1. Numpy sẽ tự tính toán kích thước của chiều này sao cho phù hợp với số phần tử của array.

In [None]:
a.reshape(2, -1)

In [None]:
a.reshape(2, 3, 4)

#### Làm phẳng array
Làm phẳng là quá trình biến đổi array nhiều chiều về vector 1 chiều.

In [None]:
a = np.array(
    [[1,  2,  3],
     [4,  5,  6]]
)

In [None]:
a.flatten()

In [None]:
a.reshape(-1)

Nếu viết `reshape(-1, 1)` kết quả thu được là một vector cột, khác với `reshape(-1)` trả về một vector hàng. Vector cột trong Numpy là array 2 chiều.

In [None]:
a.reshape(-1, 1)

## 3. Một số đại lượng thống kê mô tả

### 3.1. Tổng và trung bình

In [None]:
import numpy as np

In [None]:
np.random.seed(0)
a = np.random.randint(1000, size=100)
a

In [None]:
# tổng
a.sum()

In [None]:
# trung bình
a.mean()

### 3.2. Độ lệch chuẩn và phương sai
Công thức tính độ lệch chuẩn (standard deviation) và phương sai (variance):\
$$\sigma^2 = \frac{1}{n}\sum_{i=1}^n{(x_i - \mu)}^2$$
Trong đó:
- $\sigma$: độ lệch chuẩn
- $\sigma^2$: phương sai
- $\mu$: trung bình
- $n$: số phần tử
- $x_i$: phần tử thứ i

In [None]:
import numpy as np

In [None]:
np.random.seed(0)
a = np.random.randint(1000, size=100)
a

In [None]:
# độ lệch chuẩn
a.std()

In [None]:
# phương sai
a.var()

Ý nghĩa: phương sai và độ lệch chuẩn thể hiện sự phân tán của dữ liệu so với trung bình. Độ lệch chuẩn càng lớn, dữ liệu càng phân bố xa trung bình.

In [None]:
import matplotlib.pyplot as plt
plt.style.use('ggplot')

fig, ax = plt.subplots(ncols=2, sharex=True, figsize=(15,5))
ax[0].hist(np.random.normal(loc=0, scale=50, size=100000), bins=100)
ax[0].set_title('Độ lệch chuẩn 50')
ax[1].hist(np.random.normal(loc=0, scale=10, size=100000), bins=100)
ax[1].set_title('Độ lệch chuẩn 10')
plt.show()

**Tình huống 8:** Viết lại công thức tính phương sai thông qua các đại lượng cơ bản như tổng hoặc trung bình.
$$\sigma^2 = \frac{1}{n}\sum_{i=1}^n{(x_i - \mu)}^2$$

### 3.3. Tứ phân vị (Quartile)
3 điểm tứ phân vị $Q_1$, $Q_2$, $Q_3$ chia tập số liệu thành 4 phần có xác suất bằng nhau. Giá trị $Q_2$ chính là trung vị (median) - giá trị chia tập số liệu thành 2 phần bằng nhau.

In [None]:
import numpy as np

In [None]:
np.random.seed(0)
a = np.random.randint(1000, size=100)
a

In [None]:
# trung vị
np.median(a)

Để xác định các điểm tứ phân vị, ta dùng hàm `numpy.quantile()`.

In [None]:
np.quantile(a, (0.25, 0.5, 0.75))

Sử dụng kỹ thuật unpacking để "giải nén" ra các giá trị $Q_1$, $Q_2$, $Q_3$.

In [None]:
Q1, Q2, Q3 = np.quantile(a, (0.25, 0.5, 0.75))

**Tình huống 9:** Dùng Numpy chứng minh 4 khoảng tứ phân vị chứa số lượng phần tử bằng nhau.

Trực quan hóa các điểm tứ phân vị bằng biểu đồ hộp (box plot).

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns
plt.style.use('ggplot')

sample = np.random.normal(loc=0, scale=1, size=100000)
Q1, Q2, Q3 = np.quantile(sample, (0.25, 0.5, 0.75))

fig, ax = plt.subplots(nrows=2, sharex=True, figsize=(10,10))
ax[0].hist(sample, bins=100)
ax[0].plot([Q1]*4000, np.arange(4000), color='k')
ax[0].plot([Q2]*4000, np.arange(4000), color='k')
ax[0].plot([Q3]*4000, np.arange(4000), color='k')
ax[0].set_title('Histogram')
sns.boxplot(sample, ax=ax[1])
ax[1].set_title('Box plot')
plt.show()

## Giải đáp tình huống

**Tình huống 1:** Tạo ra dãy số nguyên nằm trong khoảng $[a,b]$ bất kỳ.

In [None]:
import numpy as np
a, b = -2.5, 6.5
lower = np.ceil(a)
upper = np.floor(b) + 1
np.arange(lower, upper)

**Tình huống 2:** Giải thích kết quả 3 phép nhân array sau.
- TH1: Tất cả phần tử đều nhân với 7
- TH2: Mỗi vector nhỏ `[1, 1, 1]` được nhân với vector `[2, 3, 4]`
- TH3: Mỗi vector nhỏ `[1, 1, 1]` nhân lần lượt với `[2]`, `[3]` và `[4]`

In [None]:
a = np.array([[1, 1, 1],
              [1, 1, 1],
              [1, 1, 1]])
b = np.array(7)
a * b

In [None]:
a = np.array([[1, 1, 1],
              [1, 1, 1],
              [1, 1, 1]])
b = np.array([2, 3, 4])
a * b

In [None]:
a = np.array([[1, 1, 1],
              [1, 1, 1],
              [1, 1, 1]])
b = np.array([[2], [3], [4]])
a * b

**Tình huống 3:** Tạo ra các số thực ngẫu nhiên trong nửa khoảng `[a; b)`.

In [None]:
import numpy as np
a = 10
b = 100
(b-a) * np.random.random(size=20) + a

**Tình huống 4:** Sử dụng Numpy, kiểm tra:
- Số phần tử thuộc tính `shape` trả về có bằng giá trị `ndim` hay không?
- Kích thước array có bằng tích độ dài tất cả các chiều hay không?

In [None]:
import numpy as np
a = np.array(
    [[ 1,  2,  3,  4,  5,  6],
     [ 7,  8,  9, 10, 11, 12],
     [13, 14, 15, 16, 17, 18],
     [19, 20, 21, 22, 23, 24]]
)

In [None]:
len(a.shape) == a.ndim

In [None]:
a.size == np.product(a.shape)

**Tình huống 5:** Tạo vector chứa các số tự nhiên từ 10 đến 99. Sau đó loại bỏ 10 số đầu tiên và 15 số cuối cùng.

In [None]:
import numpy as np
a = np.arange(10, 100)
a[10:-15]

**Tình huống 6:** Sử dụng `np.zeros()` để tạo ra 1 ma trận 5x5 chứa các số 0 bao ngoài và số 1 nằm bên trong.

In [None]:
import numpy as np
a = np.zeros((5,5), dtype=int)
a[1:-1, 1:-1] = 1
a

**Tình huống 7:** Tạo ra 1 vector có độ dài là 100, chứa các số nguyên ngẫu nhiên từ 0 đến 9. Hãy đổi dấu (dương thành âm) các số lớn hơn 3 và nhỏ hơn 8.

In [None]:
import numpy as np
np.random.seed(0)
x = np.random.randint(0, 9, size=100)
x[(x>3) & (x<8)] *= -1
x

**Tình huống 8:** Viết lại công thức tính phương sai thông qua các đại lượng cơ bản như tổng hoặc trung bình.
$$\sigma^2 = \frac{1}{n}\sum_{i=1}^n{(x_i - \mu)}^2$$

In [None]:
np.random.seed(0)
x = np.random.randint(1000, size=100)

variance = ((x - x.mean())**2).mean()
variance

**Tình huống 9:** Dùng Numpy chứng minh 4 khoảng tứ phân vị chứa số lượng phần tử bằng nhau.

In [None]:
import numpy as np
np.random.seed(0)
x = np.random.randint(1000, size=100)
Q1, Q2, Q3 = np.quantile(a, (0.25, 0.5, 0.75))

In [None]:
# khoảng thứ nhất: từ min đến Q1
x[x < Q1].shape

In [None]:
# khoảng thứ hai: từ Q1 đến Q2
x[(Q1 < x) & (x < Q2)].shape

In [None]:
# khoảng thứ ba: từ Q2 đến Q3
x[(Q2 < x) & (x < Q3)].shape

In [None]:
# khoảng thứ tư: từ Q3 đến max
x[x > Q3].shape