# Bài 15. Hướng dẫn Numpy

Numpy là một thư viện được dùng cho việc **tính toán khoa học(scientific computing)** trong  Python. Bên cạnh việc hữu dụng trong tính toán nó còn được dùng như một **container nhiều chiều để chứa dữ liệu**. Kiểu dữ liệu bất kì đề được đều có thể lưu trự bằng mảng nhiều chiều trong Numpy. 

![Numpy](images/bai15/numpy.png)

## Nội dung
1. **Numpy là gì ?**
2. **Cài đặt Numpy**
3. **Làm việc với Numpy**.
4. **Một số ví dụ**.
5. **Kết luận**
6. **Luyện tập**
----

## 1. Numpy là gì ?

Numpy là một thư viện cho Python, giúp ta dễ dàng hơn khi làm việc với những dữ liệu nhiều chiều như arrays hay matrices. Cùng với đó, nó cung cấp một loạt các hàm để thực hiện các phép toán trên các cấu trúc dữ liệu này. Dưới đây là một tóm tắt ngắn về lịch sử về nó:

![History of Numpy](images/bai15/hisnumpy.png)


Đọc thêm: [Travis E. Oliphant, "NumPy and SciPy: History and Ideas for the Future"](https://www.slideshare.net/shoheihido/sci-pyhistory)

Chúng ta thường dùng Numpy cùng với các thư viện Pandas, Matplotlib. Cái tên **Numpy** được hình thành từ **Num**erical và **Py**thon.

Đối tượng mảng trong Numpy là đối tượng mà ta sẽ làm việc xuyên suốt, nó cho phép chúng lưu giữ các dữ liệu high-dimension như image(ảnh).

Dưới đây là các đối tượng với số chiều là $1, 2, 3$.

![Multidimension Array](images/bai15/mularr.png)

Kiểu dữ liệu của các phần tử trong array của numpy có thể là số nguyên *int*, có thể là kiểu số thực *float*, ...

## 2. Cài đặt Numpy

**Bước 01**: Cài đặt Anaconda Distribution phù hợp với OS(Operating System) đang dùng. 
- Đối với Ubuntu: [How To Install Anaconda on Ubuntu 18.04 [Quickstart]](https://www.digitalocean.com/community/tutorials/how-to-install-anaconda-on-ubuntu-18-04-quickstart)

- Đối với Windows: [Installing on Windows
](https://docs.anaconda.com/anaconda/install/windows/)

**Bước 02**: Tạo môi trường ảo:
- Đối với `Ubuntu`: Nhấn tổ hợp phím `Ctrl` + `Alt` + `T` để mở Terminal.
- Đối với `Windows`: Mở **Anaconda Prompt**.
- Tiếp tục gõ các lệnh sau:

```
# Cập nhật hệ thống
sudo apt-get update

# Tạo môi trường ảo
conda create -n numpy_env python==3.7.5

# kích hoạt môi trường ảo vừa tạo
conda activate numpy_env

```

**Bước 03**: Cài đặt package numpy và jupyter notebook vào môi trường ảo đã kích hoạt
```
# Cài đặt packages numpy và jupyter qua pip(python packages manager)
pip install numpy jupyter
```

## 3. Làm việc với Numpy

Chúng ta sẽ tìm một hiểu một số cách thức làm việc với đối tượng mảng của numpy như các thao tác tạo lập mảng, các phép toán.

In [1]:
# Import thư viện numpy vào và dùng nó dưới tên gọi là np
import numpy as np

### Mảng một chiều

#### Tạo mảng một chiều
Chúng ta dùng hàm `np.array()` để tạo ra các đối tượng `ndarray` trong numpy.

Bên trong `array()` ta truyền vào đó danh sách chứa các giá trị mà ta muốn xây dựng. Ví dụ dưới đây sẽ khai báo một mảng một chiều trong numpy.

In [2]:
# Tạo mảng một chiều bằng phương thức array()
myarray = np.array([1, 2, 3, 4])

# Xem kiểu dữ liệu của myarray
print(type(myarray))

# Xuất dữ liệu của mảng myarray ra ngoài màn hình
print(myarray)

<class 'numpy.ndarray'>
[1 2 3 4]


####  Kiểu dữ liệu của phần tử trong mảng

In [3]:
# Import thư viện numpy vào và dùng nó dưới tên gọi là np
import numpy as np

# Tạo mảng một chiều bằng phương thức array()
myarray = np.array([[1, 2, 3, 4]], dtype=np.float32)

# Xem kiểu dữ liệu của myarray
print(type(myarray))

# Xuất dữ liệu của mảng myarray ra ngoài màn hình
print(myarray)

<class 'numpy.ndarray'>
[[1. 2. 3. 4.]]


Dưới đây là một số kiểu dữ liệu được dùng cho đối tượng thuộc lớp đối tượng `ndarray`:
- `np.int64` : kiểu số nguyên 64 bit không dấu.
- `np.float32` : số dấu chấm động với độ chính xác kép.
- `np.complex` : số phức.
- `np.bool` : có giá trị True hoặc False.
- `np.object` : kiểu đối tượng
- `np.string_` : kiểu dữ liệu chuỗi có độ dài cố định.
- `np.unicode_` : kiểu unicode có độ dài cố định

#### Tạo mảng bằng phương thức`arange()`

In [4]:
# Tạo mảng một chiều có giá trị của phần tử đầu tiền là -1, các phần tử tiếp theo cách nhau 1 đơn vị.
my_array = np.arange(-1, 10)

print(type(my_array))

print(my_array)

<class 'numpy.ndarray'>
[-1  0  1  2  3  4  5  6  7  8  9]


Ngoài ra, ta cũng có thể chỉ ra bước nhảy cho dãy số được tạo ra bằng cú pháp:

```
np.arange(first, end, step)
```

Dưới đây là ví dụ tạo ra cấp số cộng với bước nhảy(công sai) là 2

In [5]:
my_array = np.arange(-1, 10, 2)

print(type(my_array))

print(my_array)

<class 'numpy.ndarray'>
[-1  1  3  5  7  9]


#### Chỉ mục của các phần tử bên trong mảng

Chỉ mục của các phần tử bên trong mảng một chiều là số nguyên, bắt đầu từ 0 cho đến vị trí cuối cùng. Nếu mảng một chiều có 10 phần tử thì các phần tử sẽ được đánh số từ $0 \rightarrow 9$, với $0$ là index(chỉ mục) của phần tử đầu tiên, $9$ là chỉ mục của phần tử cuối cùng trong mảng.

![Index of elements in array](images/bai15/arrayindex.png)

Ta có thể truy cập đến 1 hay nhiều phần tử trong mảng bằng việc chỉ ra chỉ mục của phần tử cần truy xuất bên trong dấu ngoặc vuông `[]`.

In [6]:
a = np.arange(1, 10, 0.5)
print(a)

index = 3
print(f"Giá trị của phần tử có chỉ mục là {index} là: ", a[index])

[1.  1.5 2.  2.5 3.  3.5 4.  4.5 5.  5.5 6.  6.5 7.  7.5 8.  8.5 9.  9.5]
Giá trị của phần tử có chỉ mục là 3 là:  2.5


#### Tạo mảng một chiều toàn giá trị `0, 1`.

In [7]:
# Tạo mảng một chiều có độ dài là 5, giá trị các phần tử đều là 0.
zero_array = np.zeros(5)
print(zero_array)

[0. 0. 0. 0. 0.]


In [8]:
# Tạo mảng một chiều có độ dài là 5, giá trị các phần tử đều là 1.
one_array = np.ones(5)
print(one_array)

[1. 1. 1. 1. 1.]


#### Cộng với một đại lượng vô hướng

In [9]:
# Khai báo hai mảng một chiều có kích thước là 5
a = np.array([1, 2, 4 ,5, 10])
z = 10

b = a + z
c = z + a
print(b)
print(c)
print(type(b), type(c))

[11 12 14 15 20]
[11 12 14 15 20]
<class 'numpy.ndarray'> <class 'numpy.ndarray'>


#### Nhân với một đại lượng vô hướng

In [10]:
# Khai báo hai mảng một chiều có kích thước là 5
a = np.array([1, 2, 4 ,5, 10])
z = 10

b = a * z
c = z * a
print(b)
print(c)
print(type(b), type(c))

[ 10  20  40  50 100]
[ 10  20  40  50 100]
<class 'numpy.ndarray'> <class 'numpy.ndarray'>


#### Cộng hai mảng một chiều

In [11]:
# Khai báo hai mảng một chiều có kích thước là 5
a = np.array([1, 2, 4 ,5, 10])
b = np.array([-1, 2, 0, 1, -12])

c = a + b
print(c)
print(type(c))

[ 0  4  4  6 -2]
<class 'numpy.ndarray'>


#### Nhân hai mảng một chiều

In [12]:
# Khai báo hai mảng một chiều có kích thước là 5
a = np.array([1, 2, 4 ,5, 10])
b = np.array([-1, 2, 0, 1, -12])

c = a * b
print(c)
print(type(c))

[  -1    4    0    5 -120]
<class 'numpy.ndarray'>


#### Tích có hướng hai vector

![Tích có hướng](images/bai15/crossproduct.png)

In [13]:
a = np.array([1, 2 ,3])
b = np.arange(-1, 2, 1)

c = np.cross(a, b)

print(f"Tích có hướng giữa hai vector {a} và {b} là: " , c)

Tích có hướng giữa hai vector [1 2 3] và [-1  0  1] là:  [ 2 -4  2]


#### Chọn ra các phần tử thỏa tính chất

In [14]:
my_array = np.arange(-5, 5)
print(my_array)

# Chọn ra các phần tử dương bên trong mảng 
print("Các phần tử dương bên trong mảng:", my_array[my_array > 0])

# Chọn ra các phần tử chẵn bên trong mảng
print("Các phần tử lẻ bên trong mảng:", my_array[my_array % 2 == 0])

# Chọn ra các phần tử dương chẵn trong mảng.
print("Các phần tử lẻ bên trong mảng:", my_array[(my_array % 2 == 0) * (my_array > 0)])

[-5 -4 -3 -2 -1  0  1  2  3  4]
Các phần tử dương bên trong mảng: [1 2 3 4]
Các phần tử lẻ bên trong mảng: [-4 -2  0  2  4]
Các phần tử lẻ bên trong mảng: [2 4]


#### Các hàm thống kê

In [15]:
arr = np.array([1, 3, 4, 12, 12, -10])
print(arr)

sum_arr = arr.sum()
print("Tổng các phần tử trong mảng:", sum_arr)

min_arr = arr.min()
print("Giá trị nhỏ nhất trong mảng:", min_arr)

mean_arr = arr.mean()
print("Giá trị trung bình:", mean_arr)

median_arr = arr.mean()
print("Trung vị:", mean_arr)

standard = np.std(arr)
print("Độ lệch chuẩn:", standard)

[  1   3   4  12  12 -10]
Tổng các phần tử trong mảng: 22
Giá trị nhỏ nhất trong mảng: -10
Giá trị trung bình: 3.6666666666666665
Trung vị: 3.6666666666666665
Độ lệch chuẩn: 7.4535599249993


#### Gộp mảng một chiều

In [16]:
a = np.array([1, 2, 3, 4])
b = np.array([5, 6, 7, 8])

# Gộp hai mảng a và b 
c = np.concatenate((a, b))
print("Mảng gộp từ a và b: ", c)

Mảng gộp từ a và b:  [1 2 3 4 5 6 7 8]


#### Tách mảng một chiều

In [17]:
c = np.arange(1,9)

print(c)
# Tách mảng c thành hai mảng có số phần tử bằng nhau.
a, b = np.hsplit(c, 2)
print("Mảng c tách thành 2 phần: \n", a, '\n',b)

# Tách mảng c thành 4 mảng có số phần tử bằng nhau
a, b, c, d = np.hsplit(c, 4)
print("Mảng c tách thành 4 phần: \n", a, '\n', b, '\n', c, '\n', d)

[1 2 3 4 5 6 7 8]
Mảng c tách thành 2 phần: 
 [1 2 3 4] 
 [5 6 7 8]
Mảng c tách thành 4 phần: 
 [1 2] 
 [3 4] 
 [5 6] 
 [7 8]


#### Visualize mảng một chiều

### Mảng hai chiều

#### Tạo mảng hai chiều

In [19]:
# Tạo mảng hai chiều/ma trận các số nguyên
my_matrix = np.array([[1, 2, 3], [-3, 1 ,2]], dtype=np.int64)
print(my_matrix)

print(type(my_matrix))

[[ 1  2  3]
 [-3  1  2]]
<class 'numpy.ndarray'>


#### Truy cập đến các phần tử trong ma trận

Vị trí của một phần tử bên trong ma trận được xác định bởi vị trí hàng và cột. Khi biến được phần tử đó đang nằm ở hàng nào, cột nào, ta có thể truy cập.

In [20]:
my_array = np.array([[1, -1, 3], [0, 1, 2], [0, 0, 9]])

print(my_array)
row = 2
col = 1
print(f"Giá trị của phần tử tại vị trí [{row}{col}] là ", my_array[row, col])

[[ 1 -1  3]
 [ 0  1  2]
 [ 0  0  9]]
Giá trị của phần tử tại vị trí [21] là  0


In [21]:
my_array = np.array([[1, -1, 3], [0, 1, 2], [0, 0, 9]])
print(my_array)

# Truy cập đến các phần tử nằm bên trong hàng thứ 1 của ma trận
print(my_array[0,:])

# Truy cập đến các phần tử nằm bên trong cột thứ 2 của ma trận
print(my_array[:,2])

# Một cách truy cập khác
print(my_array[0:2, 0:3])

[[ 1 -1  3]
 [ 0  1  2]
 [ 0  0  9]]
[ 1 -1  3]
[3 2 9]
[[ 1 -1  3]
 [ 0  1  2]]


#### Đường chéo chính

In [22]:
# Định ngĩa của một ma trận là tập hợp có thứ tự các phần tử trong ma trận mà phần tử đó có chỉ số hàng bằng chỉ số cột.

my_matrix = np.arange(1, 21)
# Tạo ma trận có kích thước (4, 5)
my_matrix = my_matrix.reshape(4,5)

print(my_matrix)

# Tìm các phần tử trên đường chéo chính.
print(f"Đường chéo chính của ma trận trên là: ", (my_matrix.diagonal()))

[[ 1  2  3  4  5]
 [ 6  7  8  9 10]
 [11 12 13 14 15]
 [16 17 18 19 20]]
Đường chéo chính của ma trận trên là:  [ 1  7 13 19]


#### Các dạng ma trận đặc biệt

**Định nghĩa**:

- *Ma trận không* là ma trận toàn là phần tử 0.

- *Ma trận đơn vị(intensity matrix)* là ma trận có tất cả các phần tử nằm trên đường chéo chính là 1, các phần tử nằm ngoài đường chéo chính là 0.

- *Ma trận đường chéo (diagonal matrix)* là ma trận mà tất cả các phần tử nằm ngoài đường chéo chính có giá trị là 0. Ma trận đơn vị là ma trận đường chéo.

In [23]:
# Ma trận không có kích thước (2, 3)
z_matrix = np.zeros((2, 3))

print("Ma trận không vừa tạo: \n", 
      z_matrix)

# Tạo ma trận đơn vị cấp 4
i_matrix = np.eye(4)
print("Ma trận đơn vị vừa tạo: \n", 
      i_matrix)

# Tạo ma trận đường chéo có các phần tử nằm trên đường chéo chính là (1, 3, 4)
my_list = [1, 3, 4]
d_matrix = np.diag(my_list)
print(f"Ma trận đường chéo được xây dựng từ {my_list}\n",
      d_matrix)

Ma trận không vừa tạo: 
 [[0. 0. 0.]
 [0. 0. 0.]]
Ma trận đơn vị vừa tạo: 
 [[1. 0. 0. 0.]
 [0. 1. 0. 0.]
 [0. 0. 1. 0.]
 [0. 0. 0. 1.]]
Ma trận đường chéo được xây dựng từ [1, 3, 4]
 [[1 0 0]
 [0 3 0]
 [0 0 4]]


#### Cộng hai ma trận

In [24]:
a = np.array([[1, 2 , 3 , 4], [0, 1, 2 ,3], [-1, -1, 0, -1]])
b = np.array([[0, -2, 1, 0], [0, 1, -2 ,4], [1, 9, 0, -2]])

print("Ma trận a:\n", a)
print("Ma trận b:\n", b)

# Lưu ý: phép cộng hai ma trận có nghĩa khi và chỉ khi hai ma trận có cùng kích thức: a.shape = b.shape
c = np.add(a, b)
print("Tổng của hai ma trận: \n", c)

Ma trận a:
 [[ 1  2  3  4]
 [ 0  1  2  3]
 [-1 -1  0 -1]]
Ma trận b:
 [[ 0 -2  1  0]
 [ 0  1 -2  4]
 [ 1  9  0 -2]]
Tổng của hai ma trận: 
 [[ 1  0  4  4]
 [ 0  2  0  7]
 [ 0  8  0 -3]]


#### Nhân hai ma trận

In [25]:
a = np.array([[1, 2, 4], [0, 2 ,3], [-1, 0, -1]])
b = np.array([[0, -2, 1], [0, 1, -2], [1, 0, -2]])

print("Ma trận a:\n", a)
print("Ma trận b:\n", b)

# Lưu ý: phép cộng hai ma trận có nghĩa khi và chỉ khi hai ma trận có cùng kích thức: a.shape = b.shape
c = np.dot(a, b)
# Hoặc là c = a * b
print("Tích của hai ma trận: \n", c)

Ma trận a:
 [[ 1  2  4]
 [ 0  2  3]
 [-1  0 -1]]
Ma trận b:
 [[ 0 -2  1]
 [ 0  1 -2]
 [ 1  0 -2]]
Tích của hai ma trận: 
 [[  4   0 -11]
 [  3   2 -10]
 [ -1   2   1]]


#### Ma trận chuyển vị

In [37]:
# Ma trận chuyển vị của ma trận A có kích thước mxn là ma trận B có kích thước nxm,
# trong đó các phần tử b_ij = a_ji

A = np.array([[1, 2, 3], [-1, -2, 10]])
print("Ma trận ban đầu \n", A)

C = A.T
print(f"Ma trận chuyển vị của ma trận trên là \n", C)

Ma trận ban đầu 
 [[ 1  2  3]
 [-1 -2 10]]
Ma trận chuyển vị của ma trận trên là 
 [[ 1 -1]
 [ 2 -2]
 [ 3 10]]


#### Ma trận nghịch đảo

In [27]:
# Định nghĩa: ma trận vuông A có kích thước nxn khả nghịch khi và chỉ khi 
# tồn tại ma trận vuông B có kích thước nxn sao cho: AB = BA = I, I là ma trận đơn vị.

# Khi đó B được gọi là ma trận nghịch đảo của ma trận A,  A là ma trận nghịch đảo của ma trận B. 

A = np.array([[1, 2, 2], [-1, 2, 1], [1, 1, 10]], dtype=np.float32)
B = np.linalg.inv(A)

print(A)
print("Ma trận nghịch đảo của ma trận A là: \n", B)

print("Tích hai ma trận A và B \n", np.dot(A, B))

[[ 1.  2.  2.]
 [-1.  2.  1.]
 [ 1.  1. 10.]]
Ma trận nghịch đảo của ma trận A là: 
 [[ 0.54285717 -0.51428574 -0.05714286]
 [ 0.31428573  0.22857143 -0.08571429]
 [-0.08571429  0.02857143  0.11428571]]
Tích hai ma trận A và B 
 [[ 1.0000001e+00 -2.6077032e-08  0.0000000e+00]
 [-7.4505806e-09  1.0000001e+00 -7.4505806e-09]
 [ 4.4703484e-08 -4.0978193e-08  1.0000000e+00]]


#### Hàm thống kê `sum()`

In [28]:
my_matrix = np.array([[1, 2, 10], [-1, 10, -1], [0, -1, 10]])
print("Ma trận: \n", my_matrix)

# Tổng các phần tử trong ma trận
sum_matrix = my_matrix.sum()
print("Tổng các phần tử trong ma trận:", sum_matrix)

# Tổng các phần tử tính theo cột
csum_matrix = my_matrix.sum(axis=0)
print("Tổng các phần tử tính theo từng cột là:", csum_matrix)

# Tổng các phần tử tính theo hàng
rsum_matrix = my_matrix.sum(axis=1)
print("Tổng các phần tử tính theo từng hàng là:", rsum_matrix)

# Tổng các phần tử nằm trên cột X
X = 1
xsum_matrix = my_matrix[:,X].sum()
print(f"Tổng các phần tử nằm trên cột {X} là ", xsum_matrix)

# Tổng các phần tử nằm trên hàng Y
Y = 2
ysum_matrix = my_matrix[Y,:].sum()
print(f"Tổng các phần tử nằm trên hàng {Y} là", ysum_matrix)

Ma trận: 
 [[ 1  2 10]
 [-1 10 -1]
 [ 0 -1 10]]
Tổng các phần tử trong ma trận: 30
Tổng các phần tử tính theo từng cột là: [ 0 11 19]
Tổng các phần tử tính theo từng hàng là: [13  8  9]
Tổng các phần tử nằm trên cột 1 là  11
Tổng các phần tử nằm trên hàng 2 là 9


#### Hàm thống kê `min()`

In [29]:
my_matrix = np.array([[1, 2, 10], [-1, 10, -1], [0, -1, 10]])
print("Ma trận: \n", my_matrix)

# Giá trị nhỏ nhất trong ma trận
min_matrix = my_matrix.min()
print("Giá trị nhỏ nhất của phần tử trong ma trận:", min_matrix)

# Giá trị nhỏ nhất trong tính theo từng cột của ma trận.
cmin_matrix = my_matrix.min(axis=0)
print("Giá trị nhỏ nhất tính theo từng cột trong ma trận:", cmin_matrix)

# Giá trị nhỏ nhất trong tính theo từng hàng của ma trận.
rmin_matrix = my_matrix.min(axis=1)
print("Giá trị nhỏ nhất tính theo từng hàng trong ma trận:", rmin_matrix)

# Giá trị nhỏ nhất ở cột X
X = 1
xmin_matrix = my_matrix[:,X].min()
print(f"Giá trị nhỏ nhất của các phần tử nằm ở cột {X} là ", xmin_matrix)

# Giá trị nhỏ nhất ở hàng Y.
Y = 2
ymin_matrix = my_matrix[Y, :].min()
print(f"Giá trị nhỏ nhất của các phần tử nằm ở hàng {Y} là ", ymin_matrix)

Ma trận: 
 [[ 1  2 10]
 [-1 10 -1]
 [ 0 -1 10]]
Giá trị nhỏ nhất của phần tử trong ma trận: -1
Giá trị nhỏ nhất tính theo từng cột trong ma trận: [-1 -1 -1]
Giá trị nhỏ nhất tính theo từng hàng trong ma trận: [ 1 -1 -1]
Giá trị nhỏ nhất của các phần tử nằm ở cột 1 là  -1
Giá trị nhỏ nhất của các phần tử nằm ở hàng 2 là  -1


#### Hàm thống kê `max()`

In [30]:
my_matrix = np.array([[1, 2, 10], [-1, 10, -1], [0, -1, 10]])
print("Ma trận: \n", my_matrix)

# Giá trị lớn nhất trong ma trận
max_matrix = my_matrix.max()
print("Giá trị lớn nhất của phần tử trong ma trận:", min_matrix)

# Giá trị lớn nhất trong tính theo từng cột của ma trận.
cmax_matrix = my_matrix.max(axis=0)
print("Giá trị lớn nhất tính theo từng cột trong ma trận:", cmax_matrix)

# Giá trị lớn nhất trong tính theo từng hàng của ma trận.
rmax_matrix = my_matrix.max(axis=1)
print("Giá trị lớn nhất tính theo từng hàng trong ma trận:", rmax_matrix)

# Giá trị lớn nhất ở cột X
X = 1
xmax_matrix = my_matrix[:,X].max()
print(f"Giá trị lớn nhất của các phần tử nằm ở cột {X} là ", xmax_matrix)

# Giá trị lớn nhất ở hàng Y.
Y = 2
ymax_matrix = my_matrix[Y, :].max()
print(f"Giá trị lớn nhất của các phần tử nằm ở hàng {Y} là ", ymax_matrix)

Ma trận: 
 [[ 1  2 10]
 [-1 10 -1]
 [ 0 -1 10]]
Giá trị lớn nhất của phần tử trong ma trận: -1
Giá trị lớn nhất tính theo từng cột trong ma trận: [ 1 10 10]
Giá trị lớn nhất tính theo từng hàng trong ma trận: [10 10 10]
Giá trị lớn nhất của các phần tử nằm ở cột 1 là  10
Giá trị lớn nhất của các phần tử nằm ở hàng 2 là  10


#### Hàm thống kê `mean()`

In [31]:
my_matrix = np.array([[1, 2, 10], [-1, 10, -1], [0, -1, 10]])
print("Ma trận: \n", my_matrix)

# Giá trị trung bình các phần tử trong ma trận
mean_matrix = my_matrix.mean()
print("Giá trị trung bình của phần tử trong ma trận:", mean_matrix)

# Giá trị trung bình các phần tử theo từng cột
cmean_matrix = my_matrix.mean(axis=0)
print("Giá trị trung bình tính theo từng cột là:", cmean_matrix)

# Giá trị trung bình các phần tử theo từng hàng
rmean_matrix = my_matrix.mean(axis=1)
print("Giá trị trung bình tính theo từng hàng là:", rmean_matrix)

# Giá trị trung bình của các phần tử nằm ở cột X
X = 1
xmean_matrix = my_matrix[:,X].mean()
print(f"Giá trị trung bình của các phần tử nằm ở cột {X} là ", xmean_matrix)

# Giá trị trung bình của các phần tử nằm ở cột X
Y = 2
ymean_matrix = my_matrix[Y, :].mean()
print(f"Giá trị trung bình của các phần tử nằm ở hàng {X} là ", ymean_matrix)

Ma trận: 
 [[ 1  2 10]
 [-1 10 -1]
 [ 0 -1 10]]
Giá trị trung bình của phần tử trong ma trận: 3.3333333333333335
Giá trị trung bình tính theo từng cột là: [0.         3.66666667 6.33333333]
Giá trị trung bình tính theo từng hàng là: [4.33333333 2.66666667 3.        ]
Giá trị trung bình của các phần tử nằm ở cột 1 là  3.6666666666666665
Giá trị trung bình của các phần tử nằm ở hàng 1 là  3.0


#### Hàm thống kê `var()`

Variant(tiếng việt: phương sai) được tính bằng tổng bình phương các độ lệch trung tâm.

In [32]:
my_matrix = np.arange(1, 7).reshape(2, 3)
print("Ma trận: \n", my_matrix)
# var() tính giá trị phương sai của các phần tử trong ma trận
variant_matrix = my_matrix.var()
print("Phương sai của các phần tử trong ma trận:", variant_matrix)

Ma trận: 
 [[1 2 3]
 [4 5 6]]
Phương sai của các phần tử trong ma trận: 2.9166666666666665


#### Hàm thống kê `std()`

Standart deviation(tiếng việt: Độ lệch chuẩn) được tính bằng căn bậc hai của `variant`. Độ lệch chuẩn thể hiện độ lệch trugn bình của toàn bộ dữ liệu, hay chính xác đó là sự phân tán của dữ liệu.

In [33]:
my_matrix = np.arange(1, 7).reshape(2, 3)
print("Ma trận: \n", my_matrix)
# var() tính giá trị phương sai của các phần tử trong ma trận
variant_matrix = my_matrix.std()
print("Độ lệch chuẩn của các phần tử trong ma trận:", variant_matrix)

Ma trận: 
 [[1 2 3]
 [4 5 6]]
Độ lệch chuẩn của các phần tử trong ma trận: 1.707825127659933


#### Hàm thống kê `correlate()

Correlate() là một ma trận thể hiện tương quan giữa các biến.

#### Hàm thống kê `corrcoef()`

In [34]:
my_matrix = np.array([[1, 2, 3], [-1, -1, 10], [0, 9, 6]])
print("Ma trận: \n", my_matrix)

# corrcoef() tính giá trị phương sai của các phần tử trong ma trận
corre = np.corrcoef(my_matrix)
print("Hệ số tương quan của ma trận: \n", corre)

Ma trận: 
 [[ 1  2  3]
 [-1 -1 10]
 [ 0  9  6]]
Hệ số tương quan của ma trận: 
 [[1.         0.8660254  0.65465367]
 [0.8660254  1.         0.18898224]
 [0.65465367 0.18898224 1.        ]]


Đọc thêm: [Thống kê trong Numpy](https://docs.scipy.org/doc/numpy-1.17.0/reference/routines.statistics.html)

#### Visualize mảng hai chiều

In [35]:
# Bổ xung sau    

### Mảng nhiều chiều

#### Khai báo mảng nhiều chiều

Chúng ta có thể tạo ra các đối tượng mảng nhiều chiều, 3 chiều, 4 chiều, ..., n chiều.

Ví dụ, ta muốn tạo một mảng 3 chiều hay nói chính xác hơn là một volume, thì ta sẽ tạo một ma trận với mỗi phần tử trong ma trận là một mảng một chiều có độ dài như nhau.

In [53]:
my_array = range(0, 24)

my_array = np.array(my_array).reshape(3, 2, 4)
print(my_array)

[[[ 0  1  2  3]
  [ 4  5  6  7]]

 [[ 8  9 10 11]
  [12 13 14 15]]

 [[16 17 18 19]
  [20 21 22 23]]]


#### shape và `reshape()`

Chắc hẵn bạn đang thắc mắc shape là gì và reshape là gì khi được dùng ở bên trên mà không nói chi tiết. Sau đây là ý nghĩa của thuộc tính `shape` và phương phức `reshape()`.

**Mỗi đối tượng thuộc lớp đối tượng `numpy.ndarrray` đều có thuộc tính `shape`, xác định các kích thước của đối tượng.**

**Bên cạnh đó, ta có thể thay đổi được giá trị của thuộc tính `shape` bằng phương thức `reshape()`, mục đích của reshape() là thay đổi hình dáng, kích thước của mảng nhiều chiều.**

In [62]:
array = list(range(0,12))

# Tạo một đối tượng mảng hai chiều 
array = np.array(array)
print(array)
print("Số chiều ban đầu của mảng: ", array.ndim)

# Thay đổi hình dạng của mảng từ 1 chiều sang 2 chiều: ma trận 3x4
array = array.reshape(3, 4)
print(array)
print("Số chiều của mảng sau khi áp dụng hàm reshape() : ", array.ndim)

[ 0  1  2  3  4  5  6  7  8  9 10 11]
Số chiều ban đầu của mảng:  1
[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]
Số chiều của mảng sau khi áp dụng hàm reshape() :  2


#### Visualize mảng nhiều chiều

### Radom trong Numpy

## 4. Áp dụng

## 5. Kết luận

**Tham khảo**

[Python NumPy Tutorial – NumPy ndarray & NumPy Array](https://data-flair.training/blogs/python-numpy-tutorial/)

[Python Numpy Tutorial](https://www.datacamp.com/community/tutorials/python-numpy-tutorial#visualize)

[FundaML 1: Làm việc với mảng một chiều - Machine Learning cơ bản](https://machinelearningcoban.com/2017/10/12/fundaml_vectors/)

[FundaML 2: Làm việc với ma trận - Machine Learning cơ bản](https://machinelearningcoban.com/2017/10/20/fundaml_matrices/)

[FundaML 3: Làm việc với các mảng ngẫu nhiên - Machine Learning cơ bản](https://machinelearningcoban.com/2017/10/20/fundaml_vectors/)

**Cheat Sheet**: [Python For Data Science Cheat Sheet NumPy Basics](https://s3.amazonaws.com/assets.datacamp.com/blog_assets/Numpy_Python_Cheat_Sheet.pdf)