<img align="center" width="600" height="600" src="https://upload.wikimedia.org/wikipedia/commons/thumb/3/31/NumPy_logo_2020.svg/1280px-NumPy_logo_2020.svg.png">

# 1. Giới thiệu về thư viện numpy

Numpy viết tắt của từ numerical python mảng numpy giống như kiểu list trong python thuần nhưng cung cấp nhiều hoạt động lưu trữ và dữ liệu hiệu quả hơn khi các mảng có kích thước lớn.

In [1]:
import numpy as np
np.__version__

'1.21.5'

# 2. Tạo mảng array

## Tạo mảng từ danh sách list
## `np.array()`

In [2]:
np.array([1,2,3])

array([1, 2, 3])

**Lựa chọn kiểu dữ liệu cho mảng**

In [3]:
np.array([1,2,3],dtype='int32')

array([1, 2, 3])

**Tạo ma trận 2 chiều**

In [4]:
np.array([[1,2,3],[4,5,6],[7,8,9]])

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

**Tạo ma trận 3 chiều**

In [5]:
np.array([[[1,2,3],[4,5,6]],[[7,8,9],[10,11,12]],[[13,14,15],[16,17,18]]])

array([[[ 1,  2,  3],
        [ 4,  5,  6]],

       [[ 7,  8,  9],
        [10, 11, 12]],

       [[13, 14, 15],
        [16, 17, 18]]])

## Tạo ma trận toàn giá trị 0
## `np.zeros()`

In [6]:
np.zeros((2,3),dtype='int')

array([[0, 0, 0],
       [0, 0, 0]])

## Tạo mảng toàn 1
## `np.ones()`

In [7]:
np.ones((2,3),dtype='float')

array([[1., 1., 1.],
       [1., 1., 1.]])

## Tạo mảng full giá trị bất kỳ
## `np.full()`

In [8]:
np.full((2,3),4.5)

array([[4.5, 4.5, 4.5],
       [4.5, 4.5, 4.5]])

## Tạo ma trận đơn vị
## `np.eye()`

In [9]:
np.eye(3)

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

## Tạo mảng từ start đến stop với step gần giống hàm range()
## `np.arange()`

In [10]:
np.arange(1,20,2)

array([ 1,  3,  5,  7,  9, 11, 13, 15, 17, 19])

## Tạo mảng giá trị từ m đến n với số giá trị trong khoảng đó và cách điều lẫn nhau
## `np.linspace()`

In [11]:
np.linspace(0,2,5)

array([0. , 0.5, 1. , 1.5, 2. ])

## Tạo mảng dựa vào việc sinh dữ liệu ngẫu nhiên

**Tạo ma trận mxn giá trị ngẫu nhiên nằm [0,1]**
## `np.random.random()` và `np.random.rand()`

In [12]:
np.random.random((4,4))

array([[0.91137816, 0.52789696, 0.6675265 , 0.65834897],
       [0.46041345, 0.16842684, 0.38702003, 0.93594413],
       [0.62223999, 0.93382221, 0.58198087, 0.79082679],
       [0.01462581, 0.32801133, 0.90498663, 0.74862657]])

In [13]:
np.random.rand(4,4)

array([[0.10520986, 0.90874922, 0.26652319, 0.58460808],
       [0.18770777, 0.88721471, 0.76556895, 0.58061939],
       [0.8615192 , 0.0960498 , 0.71755894, 0.13048332],
       [0.20718292, 0.0904803 , 0.52935288, 0.2152966 ]])

**Tạo ma trận phân phối chuẩn với mean và độ lệnh chuẩn**
## `np.random.normal()`

In [14]:
np.random.normal(1,2,(3,3))

array([[ 0.35048186, -1.02349805, -2.10507274],
       [ 5.61590015, -2.30915984,  0.69095129],
       [ 2.15154392,  3.09273355,  3.61550097]])

**Tạo ma trận tuân theo phân phối chuẩn tắc với mean = 0 và độ lệch chuẩn = 1**
## `np.random.randn()`

In [15]:
np.random.randn(3,2)

array([[-0.46190939, -0.44927667],
       [ 0.02805512,  1.23868529],
       [ 1.89470583,  0.52585802]])

**Tạo ma trận 2 chiều có value năm trong range [x, y] với kích thước mxn**
## `np.random.randint()`

In [16]:
np.random.randint(0,10,[2,3])

array([[8, 0, 3],
       [2, 1, 6]])

**Tạo ma trận ngẫu nhiên từ mean và hiệp phương sai**
## `np.random.multivariate_normal()`

In [17]:
mean = [0, 0]
cov = [[1, 0],[0,1]]
np.random.multivariate_normal(mean, cov, 2)

array([[-0.1527941 , -2.16201239],
       [ 0.11182957,  0.96375693]])

# 3. Các thuộc tính attribute của mảng array

+ `shape`: Hình dạng của mảng dựa vào các axis của mảng
    + Ví dụ:
        + Ma trận 3x1 sẽ có rank bằng 1 tương ứng có 1 chiều
        + Ma trận 4x4 sẽ có rank bằng 2 tương ứng có 2 chiều
        + Mảng 4x4x3 sẽ có rank bằng 3 tương ứng có 3 chiều    
+ `ndim`: Độ dài của số chiều của mảng 

+ `size`: Số lượng phần tử trong mảng

+ `dtype`: Kiểu dữ liệu của mảng

+ `itemsize`: Kích thước byte của kiểu dữ kiệu của một item

+ `nbytes`: Kích thước byte của toàn bộ item

In [18]:
a=np.random.rand(3,3)
a

array([[0.18927242, 0.74745544, 0.16279369],
       [0.57161879, 0.53349771, 0.81619861],
       [0.6385865 , 0.51702472, 0.2778508 ]])

In [19]:
a.shape

(3, 3)

In [20]:
a.shape[1]

3

In [21]:
a.ndim

2

In [22]:
a.size

9

In [23]:
a.dtype

dtype('float64')

In [24]:
a.itemsize

8

In [25]:
a.nbytes

72

# 4. Làm việc với index của array

## Mảng 1 chiều

In [26]:
x=np.array([1,2,3,4,5])
x[3]

4

**Vùng chỉ số âm**

In [27]:
x[-2]

4

**Lấy tập con subset**

In [28]:
x[:3]

array([1, 2, 3])

In [29]:
x[2:4]

array([3, 4])

In [30]:
x[1:-1]

array([2, 3, 4])

**Lấy tập con với bước step**

In [31]:
x[::2]

array([1, 3, 5])

In [32]:
x[::-1]

array([5, 4, 3, 2, 1])

## Mảng 2 chiều

In [33]:
y=np.array([[1,2,3],[4,5,6],[8,9,10]])
y

array([[ 1,  2,  3],
       [ 4,  5,  6],
       [ 8,  9, 10]])

In [34]:
y[1,2]

6

**Vùng chỉ số âm**

In [35]:
y[2,-1]

10

**Lấy tập con của mảng**

In [36]:
y[:2,:2]

array([[1, 2],
       [4, 5]])

In [37]:
y[:,:2]

array([[1, 2],
       [4, 5],
       [8, 9]])

In [38]:
y[...,2]

array([ 3,  6, 10])

In [39]:
y[1,...]

array([4, 5, 6])

Ký hiệu 3 chấm được hiểu là lấy toàn bộ hàng hoặc cột đó. 

# 5. Các thao tác xử lý với mảng

## Reshape mảng

## `reshape()`

In [40]:
y=np.array([[1,2,3],[4,5,6],[8,9,10]])
y.reshape((1,9))

array([[ 1,  2,  3,  4,  5,  6,  8,  9, 10]])

In [41]:
y.reshape(-1,1)

array([[ 1],
       [ 2],
       [ 3],
       [ 4],
       [ 5],
       [ 6],
       [ 8],
       [ 9],
       [10]])

## Thêm một trục mới
## `np.newaxis`

In [42]:
y[:,np.newaxis]

array([[[ 1,  2,  3]],

       [[ 4,  5,  6]],

       [[ 8,  9, 10]]])

## Trả về mảng 1 chiều từ mảng n chiều
## `ravel()`

In [43]:
y.ravel()

array([ 1,  2,  3,  4,  5,  6,  8,  9, 10])

## Kết nối 2 mảng lại với nhau
## `np.concatenate()`

<img align="left" width="600" height="600" src="https://miro.medium.com/max/817/0*y04Nh3L0aSwyGaby.png">

In [44]:
x=np.array([1,2,3])
y=np.array([4,5,6])
np.concatenate((x,y),axis=0)

array([1, 2, 3, 4, 5, 6])

Ta nhận thấy ma trận kết quả cùng dạng với 2 ma trận đầu vào điều là ma trận 1 chiều.

**Kết nối theo chiều dọc trục axis=0**

In [45]:
z=np.array([[1,2,3],[4,5,6]])
np.concatenate((z,z),axis=0)

array([[1, 2, 3],
       [4, 5, 6],
       [1, 2, 3],
       [4, 5, 6]])

**Kết nối theo chiều ngang axis=1**

In [46]:
z=np.array([[1,2,3],[4,5,6]])
np.concatenate((z,z),axis=1)

array([[1, 2, 3, 1, 2, 3],
       [4, 5, 6, 4, 5, 6]])

**Kết nối kiểu Vertial(Thẳng đứng) và Horizontal(Nằm ngang)**
## `np.vstack() và np.hstack()`

In [47]:
x=np.array([1,2,3])
y=np.array([4,5,6])
np.vstack((x,y))

array([[1, 2, 3],
       [4, 5, 6]])

In [48]:
x=np.array([[1,0],[0,1]])
y=np.array([[1,2,3],[4,5,6]])
np.hstack((x,y))

array([[1, 0, 1, 2, 3],
       [0, 1, 4, 5, 6]])

**Xếp chồng 2 mảng**

## `np.stack()`

In [49]:
x=np.array([1,2,3])
y=np.array([4,5,6])
np.stack((x,y))

array([[1, 2, 3],
       [4, 5, 6]])

## Tách mảng (split array)
## `np.split()`

In [50]:
a=np.array([1,2,3,4,5,6,7])
np.split(a,[1,3])

[array([1]), array([2, 3]), array([4, 5, 6, 7])]

## Split mảng 2 chiều
## `np.vsplit()` và `np.hsplit()`

In [51]:
b=np.array([[1,2,3],[4,5,6],[3,4,5]])
np.vsplit(b,[1])

[array([[1, 2, 3]]), array([[4, 5, 6],
        [3, 4, 5]])]

In [52]:
b=np.array([[1,2,3],[4,5,6],[3,4,5]])
x,y=np.hsplit(b,[1])
print(x)

[[1]
 [4]
 [3]]


In [53]:
print(y)

[[2 3]
 [5 6]
 [4 5]]


## Các phép toán với mảng thông thường

Chúng ta có thể sử dụng các phép toán +, -, *, /, //, %, ** với mảng bằng cách tính toán trên từng thành phần của nó.

In [54]:
a = np.array([23, 31, 40, 30])
b = np.array([45,  98,  39,  20])
print("a + b  =", a + b)
print("a - b  =", a - b)
print("a * b  =", a * b)
print("a / b  =", a / b)
print("a // b  =", a // b)
print("a % b  =", a % b)
print("a ** b =", a ** b)

a + b  = [ 68 129  79  50]
a - b  = [-22 -67   1  10]
a * b  = [1035 3038 1560  600]
a / b  = [0.51111111 0.31632653 1.02564103 1.5       ]
a // b  = [0 0 1 1]
a % b  = [23 31  1 10]
a ** b = [2112869559  515520449          0 -871366656]


**Nhân vô hướng hai ma trận**

In [55]:
A=np.array([[1,2,3],[4,5,6],[7,8,9]])
B=np.array([[1,2],[3,4],[5,6]])
A.dot(B)

array([[ 22,  28],
       [ 49,  64],
       [ 76, 100]])

## Broadcasting

<img align="left" width="600" height="600" src="https://paris-swc.github.io/advanced-numpy-lesson/fig/numpy_broadcasting.png">

**Mảng 1 chiều cộng với một số**

In [56]:
a=np.arange(3)
a

array([0, 1, 2])

In [57]:
a+5

array([5, 6, 7])

Ta thấy rằng nó sẽ tự tạo thêm ma trận [5,5,5].

**Mảng 2 chiều cộng với mảng 1 chiều**

In [58]:
a=np.arange(3)
a

array([0, 1, 2])

In [59]:
b=np.ones((3,3))
b

array([[1., 1., 1.],
       [1., 1., 1.],
       [1., 1., 1.]])

In [60]:
a+b

array([[1., 2., 3.],
       [1., 2., 3.],
       [1., 2., 3.]])

Tự tạo thêm thành ma trận 3x3 cùng kích thước [[0,1,2],[0,1,2],[0,1,2]].

**Mảng 1 chiều cộng với mảng 1 chiều nhưng khác trục axis**

In [61]:
a=np.arange(3)
a

array([0, 1, 2])

In [62]:
d=np.arange(3).reshape((3,1))
d

array([[0],
       [1],
       [2]])

In [63]:
a+d

array([[0, 1, 2],
       [1, 2, 3],
       [2, 3, 4]])

Tự Broadcasting a thành ma trận 3x3 và d thành ma trận 3x3.

## Toán tử so sánh

Các toán tử so sánh như >, <, >=, <= khi thực hiện trên mảng numpy thường sẽ trả về mask kiểu boolean.

In [64]:
a=np.array([3,45,29,30])

In [65]:
a<[34,29,20,40]

array([ True, False, False,  True])

In [66]:
a<27

array([ True, False, False, False])

In [67]:
a>30

array([False,  True, False, False])

In [68]:
a[a<30]

array([ 3, 29])

##  Sử dụng các hàm tính tổng, max, min , ... trong numpy

In [69]:
mang_random=np.random.random(1000)
mang_random[:5]

array([0.94804628, 0.88136009, 0.03757482, 0.524112  , 0.93616332])

In [70]:
%timeit sum(mang_random)
%timeit np.sum(mang_random)

317 µs ± 5.05 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)
12.5 µs ± 457 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)


Ta thấy rằng hàm của python lõi chậm hơn khi sử dụng thư viện numpy nhiều.

**Các phép toán trong thống kê**
## + `np.sum()`, `np.max()`, `np.min()`, `np.argmax()`, `np.argmin()`

## + `np.mean()`, `np.var()`, `np.std()`

In [71]:
np.sum(mang_random)

503.52848095154707

In [72]:
np.max(mang_random)

0.9977414976729391

In [73]:
np.min(mang_random)

0.001248276474871357

In [74]:
np.argmax(mang_random)

69

In [75]:
np.argmin(mang_random)

730

In [76]:
price=np.array([300,250,175,190])
print("Mean of price: ",np.mean(price))
print("Variance of price: ",np.var(price))
print("Standard deviation of price: ",np.std(price))

Mean of price:  228.75
Variance of price:  2479.6875
Standard deviation of price:  49.79646071760522


**Các hàm toán học**

## `np.log()`, `np.exp()`, `np.sign()`, `np.sqrt()`

In [77]:
a=np.array([11,23,47,78])

In [78]:
np.log(a)

array([2.39789527, 3.13549422, 3.8501476 , 4.35670883])

In [79]:
np.exp(a)

array([5.98741417e+04, 9.74480345e+09, 2.58131289e+20, 7.49841700e+33])

In [80]:
np.sign(a)

array([1, 1, 1, 1])

In [81]:
np.sqrt(a)

array([3.31662479, 4.79583152, 6.8556546 , 8.83176087])

## Sort mảng
## `np.sort()` và `np.argsort()`

In [82]:
np.random.seed(42)
MatA=np.random.randint(0,10,(3,4))
MatA

array([[6, 3, 7, 4],
       [6, 9, 2, 6],
       [7, 4, 3, 7]])

In [83]:
np.sort(MatA,axis=0)

array([[6, 3, 2, 4],
       [6, 4, 3, 6],
       [7, 9, 7, 7]])

In [84]:
np.sort(MatA,axis=1)

array([[3, 4, 6, 7],
       [2, 6, 6, 9],
       [3, 4, 7, 7]])

Ta thấy rằng axis=0 sort từng cột lại từ nhỏ đến lớn còn axis=1 sort từng hàng lại từ nhỏ đến lớn.

In [85]:
index=np.argsort(MatA,axis=0)
index

array([[0, 0, 1, 0],
       [1, 2, 2, 1],
       [2, 1, 0, 2]], dtype=int32)

**Sort một phần**
## `np.partition()`

In [86]:
MatB=np.array([48,22,92,10])
np.partition(MatB,2)

array([10, 22, 48, 92])

**Bắt ma trận vào lưới**
## `np.meshgrid()`

In [87]:
x=np.linspace(0,3,3)
y=np.linspace(0,2,2)
x_mesh, y_mesh=np.meshgrid(x,y)
print(x_mesh)
print(y_mesh)

[[0.  1.5 3. ]
 [0.  1.5 3. ]]
[[0. 0. 0.]
 [2. 2. 2.]]
