# Cơ bản về lập trình Python

## Numpy

[Numpy](https://numpy.org/) là một gói trọng tâm trong thư viện của Python phục vụ cho việc tính toán. Các đặc điểm chính của Numpy bao gồm:

* Đối tượng mảng $N$-chiều: ndarray
* Các phép toán và các hàm trên mảng giúp việc tính toán nhanh 

Để sử dụng numpy, ta nạp numpy theo cú pháp chuẩn sau

In [2]:
import numpy as np

### Numpy arrays

Đối tượng cơ bản được cung cấp bởi numpy đó là __ndarray__. Chúng ta có thể hình dung 1D (1-dimensional) ndarray như một danh sách (list), 2D (2-dimensional) ndarray như một ma trận, 3D (3-dimensional) ndarray như một 3-tensor (hoặc a cube of numbers). Có thể xem chi tiết hơn về numpy arrays tại [NumPy tutorial](https://numpy.org/doc/stable/user/quickstart.html).

#### Tạo arrays

Hàm __numpy.array__ tạo một array từ một dãy tương tự như list, tuple. Ví dụ sau đây tạo một 1D-ndarray từ một list 

Lưu ý rằng khi hiển thị 1D-ndarray ta thấy nó tương tư như list, chỉ một điểm khác biệt là không có các dấu phẩy tách giữa hai phần tử.

In [4]:
a = np.array([1, 2, 3, 4, 5])
print(a)

[1 2 3 4 5]


In [4]:
# Một lần nữa ta có thể sử dụng hàm type để kiểm tra kiểu dữ liệu

type(a)

numpy.ndarray

Tạo một 2D-ndarray từ một list của các list

In [5]:
M = np.array([[1,2,3],[4,5,6]])
print(M)

[[1 2 3]
 [4 5 6]]


In [6]:
type(M)

numpy.ndarray

Tạo một n-dimensional bằng các list lồng nhau

In [8]:
# 3D ndarray

N = np.array([ [[1,2],[3,4]] , [[5,6],[7,8]] , [[9,10],[11,12]] ])
print(N)

[[[ 1  2]
  [ 3  4]]

 [[ 5  6]
  [ 7  8]]

 [[ 9 10]
  [11 12]]]


Có một số hàm Numpy sử dụng cho việc tạo các array 

| Function               	| Description                                                                                                   	|
|------------------------	|---------------------------------------------------------------------------------------------------------------	|
| np.array(a)         	| Create n-dimensional NumPy array from sequence a                                                              	|
| np.linspace(a,b,N)  	| Create 1D NumPy array with N equally spaced values from a to b (inclusively)                                  	|
| np.arange(a,b,step) 	| Create 1D NumPy array with values from a to b (exclusively) incremented by step                               	|
| np.zeros(N)         	| Create 1D NumPy array of zeros of length N                                                                    	|
| np.zeros((n,m))     	| Create 2D NumPy array of zeros with n rows and m columns                                                      	|
| np.ones(N)          	| Create 1D NumPy array of ones of length N                                                                     	|
| np.ones((n,m))      	| Create 2D NumPy array of ones with n rows and m columns                                                       	|
| np.eye(N)           	| Create 2D NumPy array with N rows and N columns with ones on the diagonal (ie. the identity matrix of size N) 	|

In [12]:
# Tạo 1D-ndarray nhận giá trị từ 0 đến 1 và gồm 11 khoảng cách đều nhau (có chứa 1)

x = np.linspace(0,1,11)
print(x)

[0.  0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1. ]


In [15]:
# Tạo 1D-ndarray nhận giá trị từ 0 đến 20 (không bao gồm 20) và cách nhau 2.5

y = np.arange(0,20,2.5)
print(y)

[ 0.   2.5  5.   7.5 10.  12.5 15.  17.5]


Hai hàm trên thường được sử dụng nhiều nhất để tạo các array. Hàm np.linspace() hiệu quả khi ta biết trước số giá trị mà ta muốn có trong array. Trong khi đó hàm np.arange() sẽ hữu ích khi ta biết khoảng cách giữa hai giá trị trong array.

In [16]:
# Tạo 1D-ndarray có độ dài là 5 với tất cả các phần tử đều là 0

z = np.zeros(5)
print(z)

[0. 0. 0. 0. 0.]


In [18]:
# Tạo 2D-ndarray với 2 dòng và 5 cột gồm các phần tử 0

P = np.zeros((2,5))
print(P)

[[0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0.]]


In [19]:
# Tạo 1D-ndarray với độ dài 7, các phần tử đều là 1

w = np.ones(7)
print(w)

[1. 1. 1. 1. 1. 1. 1.]


In [21]:
# Tạo 2D-ndarray với 4 dòng và 3 cột, các phần tử đều là 1

v = np.ones((4,3))
print(v)

[[1. 1. 1.]
 [1. 1. 1.]
 [1. 1. 1.]
 [1. 1. 1.]]


#### Dữ liệu array

Các array trong Numpy là thuần nhất theo nghĩa tất cả các phần tử trong array có cùng kiểu dữ liệu. Trong môn học này, chúng ta chủ yếu làm việc với các numeric arrays mà các phần tử có thể có kiểu số nguyên, số thực và số phức. Cũng có các kiểu dữ liệu loại khác được cung cấp bởi Numpy cho những áp dụng khác nhưng chúng ta sẽ làm việc nhiều nhất với _numpy.int64_ và _numpy.float64_. Các kiểu dữ liệu này rất tương tự với các kiểu _int_ và _float_ trong Python, nhưng với một số khác biệt mà chúng ta không nêu ra ở đây (có thể xem chi tiết hơn tại [numeric datatype](https://numpy.org/doc/stable/user/basics.types.html).

Hiện tại thì vấn đề quan trọng là làm thế nào để xác định rằng các phần tử của một ndarray có kiểu dữ liệu int64 hay float64. Điều này có thể được giải quyết bằng cách sử dụng thuộc tính dtype của một ndarray.

In [23]:
A = np.array([[1,2,3],[4,5,6]])
print(A)

[[1 2 3]
 [4 5 6]]


In [26]:
A.dtype

dtype('int64')

Hầu hết các hàm sử dụng để tạo arrays ở trên sử dụng kiểu dữ liệu numpy.float64 làm mặc định. 

In [29]:
u = np.linspace(1, 2, 11)
print(u)

[1.  1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 2. ]


In [30]:
u.dtype

dtype('float64')

#### Dimension, Shape and Size

In [36]:
# Dimensinal of an array

A = np.array([[1,2],[3,4],[5,6]])
print(A)

[[1 2]
 [3 4]
 [5 6]]


In [37]:
A.ndim

2

In [39]:
# Shape of an array (kích thước của các chiều trong array)

A.shape 

(3, 2)

In [40]:
# Size of an array (Số phần tử trong array)

A.size 

6

Tạo một 1D-ndarray và quan sát shape và size của nó

In [41]:
B = np.array([1, 4, 6, -8])
print(B)

[ 1  4  6 -8]


In [43]:
B.ndim

1

In [44]:
B.shape

(4,)

In [45]:
B.size

4

#### Slicing and Indexing

1. Truy xuất đến phần tử thứ $i$ của array bởi __array_name$[i]$__ (chỉ số của array được bắt đầu bởi 0 tương tự như list)

Tạo một 1D-ndarray 

In [46]:
v = np.array([3, -2, 4, 7, 8])
print(v)

[ 3 -2  4  7  8]


In [47]:
v[0]

3

In [48]:
v[4], v[-2]

(8, 7)

In [49]:
# Mảng hai chiều

B = np.array([[6, 5, 3, 1, 1],[1, 0, 4, 0, 1],[5, 9, 2, 2, 9]])
print(B)

[[6 5 3 1 1]
 [1 0 4 0 1]
 [5 9 2 2 9]]


In [53]:
B[0,2], B[2,4]

(3, 9)

In [55]:
B[-1, 1]

9

2. Truy xuất đến một chiều nào đó của array 

In [58]:
# Truy xuất đến dòng thứ hai (được đánh chỉ số 1) của B

B[1,:]

array([1, 0, 4, 0, 1])

In [60]:
# Truy xuất đến cột thứ 3 (được đánh chỉ số 2 hoặc -3)

B[:,2], B[:,-3]

(array([3, 4, 2]), array([3, 4, 2]))

In [62]:
# Trích ra một mảng con của B từ dòng có chỉ số 1, 2 và cột có chỉ số 2, 3, 4

subB = B[1:3,2:5]
print(subB)

[[4 0 1]
 [2 2 9]]


In [63]:
subB.ndim

2

In [64]:
subB.shape

(2, 3)

In [65]:
subB.size

6

#### Stacking

Ta có thể tạo ra các mảng lớn từ một mảng cho trước bằng cách xếp chồng lên dọc theo các chiều của mảng bằng các hàm __numpy.hstack__ và __numpy.vstack__. 

In [66]:
# Tạo một ma trận 3 x 3 từ 3 1D-ndarray theo chiều dọc

x = np.array([1,1,1])
y = np.array([2,2,2])
z = np.array([3,3,3])
vstacked = np.vstack((x,y,z))
print(vstacked)

[[1 1 1]
 [2 2 2]
 [3 3 3]]


In [67]:
# Tạo một ma trận 3 x 3 từ 3 1D-ndarray theo chiều 

hstacked = np.hstack((x,y,z))
print(hstacked)

[1 1 1 2 2 2 3 3 3]


Sử dụng các hàm numpy.hstack và numpy.vstack để tạo ma trận sau

$$
    T = \left[\begin{array}{cccc} 1 & 1 & 2 & 2 \\ 1 & 1 & 2 & 2 \\ 3 & 3 & 4 & 4 \\ 3 & 3 & 4 & 4\end{array}\right]
$$

In [68]:
A = np.ones((2,2))
B = 2*np.ones((2,2))
C = 3*np.ones((2,2))
D = 4*np.ones((2,2))
A_B = np.hstack((A,B))
print(A_B)

[[1. 1. 2. 2.]
 [1. 1. 2. 2.]]


In [69]:
C_D = np.hstack((C,D))
print(C_D)

[[3. 3. 4. 4.]
 [3. 3. 4. 4.]]


In [70]:
T = np.vstack((A_B,C_D))
print(T)

[[1. 1. 2. 2.]
 [1. 1. 2. 2.]
 [3. 3. 4. 4.]
 [3. 3. 4. 4.]]


### Phép toán trên arrays

Các phép toán số học cộng +, trừ -, nhân *, chia / và luỹ thừa ** tác động trực tiếp trên các phần tử của array 

In [71]:
v = np.array([1,2,3])
w = np.array([1,0,-1])

In [73]:
v + w

array([2, 2, 2])

In [74]:
v - w

array([0, 2, 4])

In [75]:
v*w

array([ 1,  0, -3])

In [82]:
t = w/v
t

array([ 1.        ,  0.        , -0.33333333])

In [83]:
# Kiểu dữ liệu của v và w đều là int64. Tuy nhiên w/v có kiểu float64

print(v.dtype)
print(w.dtype)
print(t.dtype)

int64
int64
float64


In [84]:
v**2

array([1, 4, 9])

Ta quan sát đối với các 2D-ndarrays

In [87]:
A = np.array([[3,1],[2,-1]])
B = np.array([[2,-2],[5,1]])
print(A)
print(B)

[[ 3  1]
 [ 2 -1]]
[[ 2 -2]
 [ 5  1]]


In [86]:
A + B

array([[ 5, -1],
       [ 7,  0]])

In [88]:
A - B

array([[ 1,  3],
       [-3, -2]])

In [89]:
A*B

array([[ 6, -2],
       [10, -1]])

In [90]:
A/B

array([[ 1.5, -0.5],
       [ 0.4, -1. ]])

In [91]:
A**2

array([[9, 1],
       [4, 1]])

Với phép nhân hai ma trận thì sao?

In [92]:
A@B

array([[11, -5],
       [-1, -5]])

Luỹ thừa của ma trận được thực hiện bằng hàm __numpy.linalg.matrix_power__. Tên hàm khá dài, do đó để thuận tiện ta import nó với nên ngắn hơn

In [93]:
from numpy.linalg import matrix_power as mpow

In [96]:
# Tính A luỹ thừa 3 (nhân ma trận)

mpow(A,3)

array([[37,  9],
       [18,  1]])

Lệnh này cũng tương đương với lệnh sau

In [97]:
A@A@A

array([[37,  9],
       [18,  1]])

#### Broadcasting

Ta biết rằng phép cộng hai ma trận chỉ có thể thực hiện nếu hai ma trận cũng cấp. [Broadcasting](https://numpy.org/doc/stable/user/basics.broadcasting.html) là tập hợp các quy tắc nới lỏng ràng buộc này và cho phép chúng ta kết hợp các mảng lớn với các mảng nhỏ hơn khi việc kết hợp đó có nghĩa.  

__Ví dụ:__ Ta muốn tạo một 1D-ndarray gồm các giá trị của hàm $y = x^2 + 1$ với $x \in \{0, 0.25, 0.5, 0.75, 1\}$.

In [103]:
x = np.linspace(0,1,5)
print(x)

[0.   0.25 0.5  0.75 1.  ]


In [110]:
y = x**2 + np.ones(5)
print(y)

[1.     1.0625 1.25   1.5625 2.    ]


Một ví dụ về __broadcasting__ trong Numpy là phép toán tương đương sau

In [112]:
z = x**2 + 1
print(z)

[1.     1.0625 1.25   1.5625 2.    ]


Trong trường hợp này ta cộng một 1D-ndarray với một số. Quy tắc broadcasting ở đây là lan truyền một vô hướng (số 1) đến một array lớn hơn. Điều này là cho việc thực hiện một nhiệm vụ phổ biến được đơn giản hơn.

__Một ví dụ khác:__ Cộng một 1D-ndarray có độ dài 4 và một 2D-ndarray có shape là $(3, 4)$

In [113]:
u = np.array([1,2,3,4])
print(u)

[1 2 3 4]


In [114]:
A = np.array([[1,1,1,1],[2,2,2,2],[3,3,3,3]])
print(A)

[[1 1 1 1]
 [2 2 2 2]
 [3 3 3 3]]


In [115]:
result = A + u
print(result)

[[2 3 4 5]
 [3 4 5 6]
 [4 5 6 7]]


Ở đây 1D-ndarray được lan truyền thành một 2D-ndarray. 

### Các hàm trên arrays

Có nhiều hàm mà ta có thể sử dụng để tính toán trên các ndarrays. Dưới đây là một số các hàm như thế

    numpy.sum   numpy.prod   numpy.mean
    
    numpy.max   numpy.min    numpy.std
    
    numpy.argmax	numpy.argmin	numpy.var

In [116]:
# Tạo một 1D-ndarray

arr = np.array([8,-2,4,7,-3])
print(arr)

[ 8 -2  4  7 -3]


In [117]:
# Tính trung bình các giá trị trong array

np.mean(arr)

2.8

In [118]:
# Kiểm tra giá trị trung bình bằng cách tính trực tiếp

np.sum(arr)/arr.size

2.8

In [120]:
# Tìm chỉ số vị trí của phần tử lớn nhất

np.argmax(arr)

0

In [122]:
# Giá trị của phần tử max

np.max(arr)

8

Các hàm này cũng áp dụng tốt cho các 2D-ndarrays. Ta có thể chọn áp dụng cho toàn bộ array, dọc theo các cột của array hoặc theo các hàng.

In [123]:
M = np.array([[2,4,2],[2,1,1],[3,2,0],[0,6,2]])
print(M)

[[2 4 2]
 [2 1 1]
 [3 2 0]
 [0 6 2]]


In [124]:
# Tổng các phần tử của array

np.sum(M)

25

In [126]:
# Tổng dọc theo cột 

np.sum(M, axis = 0)

array([ 7, 13,  5])

In [127]:
# Tổng theo dòng

np.sum(M, axis = 1)

array([8, 4, 5, 8])

In [125]:
# Trung bình các phần tử của array

np.mean(M)

2.0833333333333335

#### Các hàm toán học

[Các hàm toán học](https://numpy.org/doc/stable/reference/routines.math.html) trong Numpy được gọi là [universal functions](https://numpy.org/doc/stable/user/quickstart.html#universal-functions). Những hàm này tác động lên các phần tử của arrays và đầu ra là một array khác. 

Dưới đây là một số hàm thông dụng

    numpy.sin	numpy.cos	numpy.tan
    
    numpy.exp	numpy.log	numpy.log10
    
    numpy.arcsin	numpy.arccos	numpy.arctan

Tính các giá trị $\sin(2\pi x)$ với $x = 0, 0.25, 0.5, ..., 1.75$

In [128]:
x = np.arange(0,1.25,0.25)
print(x)

[0.   0.25 0.5  0.75 1.  ]


In [130]:
print(np.sin(2*np.pi*x))

[ 0.0000000e+00  1.0000000e+00  1.2246468e-16 -1.0000000e+00
 -2.4492936e-16]


Chúng ta kỳ vọng kết quả sẽ là mảng [0. 1. 0. -1. 0.]. Tuy nhiên, luôn có sai số làm tròn trong kết quả tính toán. Khih thực hiện các tính toán số, ta thường xem một số cỡ $10^{-16}$ như 0.

Tính các giá trị $\log_{10}(x)$ với $x = 1, 10, 100, 1000, 10000$

In [131]:
x = np.array([1,10,100,1000,10000])
print(x)

[    1    10   100  1000 10000]


In [132]:
print(np.log10(x))

[0. 1. 2. 3. 4.]


Đương nhiên ta cũng có thể dùng các hàm này cho các giá trị vô hướng

In [133]:
np.cos(0)

1.0

Numpy cũng cung cấp các hằng số thông dụng như $\pi$ hay $e$

In [135]:
np.pi

3.141592653589793

In [136]:
np.e

2.718281828459045

Ví dụ như ta có thể kiểm tra giới hạn

$$
    \lim_{x \to \infty}arctan(x) = \frac{\pi}{2}
$$

bằng cách tính giá trị của hàm $arctan(x)$ tại một số giá trị lớn của $x$.

In [138]:
np.pi/2

1.5707963267948966

In [137]:
np.arctan(1000)

1.5697963271282298

In [139]:
np.arctan(10000)

1.5706963267952299

### Sinh số ngẫu nhiên

Gói con __numpy.random__ cung cấp các hàm cho phép sinh các arrays gồm các số ngẫu nhiên được rút ra từ các phân bố xác suất khác nhau. Chẳng hạn

* _numpy.random.rand(d1,...,dn)_: Create a NumPy array (with shape (d1,...,dn)) with entries sampled uniformly from [0,1)
    
    
* _numpy.random.randn(d1,...,dn)_: Create a NumPy array (with shape (d1,...,dn)) with entries sampled from the standard normal distribution
    
    
* _numpy.random.randint(a,b,size)_: Create a NumPy array (with shape size) with integer entries from low (inclusive) to high (exclusive)

#### Lấy mẫu ngẫu nhiên từ phân phối đều

In [143]:
# Sinh số ngẫu nhiên

np.random.rand()

0.2952495881225794

In [141]:
# Mẫu gồm 3 số ngẫu nhiên

np.random.rand(3)

array([0.00652738, 0.23567187, 0.66669665])

In [142]:
# Tạo 2D-ndarray gồm các số ngẫu nhiên

np.random.rand(2,4)

array([[0.77121093, 0.40707763, 0.65502539, 0.58780985],
       [0.0864307 , 0.73570024, 0.47551793, 0.08908665]])

#### Lấy mẫu ngẫu nhiên từ phân phối 

In [144]:
np.random.randn()

1.0696316696438979

In [145]:
np.random.randn(3)

array([-1.91703462, -1.81998126, -0.29508727])

In [146]:
np.random.randn(2, 4)

array([[ 0.05935089,  2.23332261,  0.57054372,  0.7433076 ],
       [-0.41108201,  0.6905382 ,  1.84537246, -1.1614183 ]])

#### Tạo các số nguyên ngẫu nhiên từ phân phối đều trên các khoảng khác nhau

In [147]:
np.random.randint(-10,10)

4

In [150]:
np.random.randint(0,2,(4,8))

array([[1, 1, 1, 1, 1, 0, 1, 0],
       [0, 1, 1, 0, 0, 1, 0, 1],
       [1, 1, 0, 1, 1, 0, 0, 1],
       [0, 0, 0, 0, 1, 1, 0, 1]])

In [151]:
np.random.randint(-9,10,(5,2))

array([[ 6, -3],
       [-7,  5],
       [-1,  2],
       [-5,  6],
       [ 8, -9]])

### Các ví dụ:

#### Tối ưu

Tìm giá trị cực đại và cực tiểu tuyệt đối của hàm 

$$
    f(x) = x\sin x + \cos 4x
$$

trên khoảng $[0, 2\pi]$.

Ta biết rằng giá trị cực đại và giá trị cực tiểu phải xuất hiện tại $0$, $2\pi$ hoặc tại các điểm tới hạn mà tại đó $f'(x) = 0$. Lưu ý rằng

$$
    f'(x) = \sin x + x\cos x - 4\sin 4x
$$

và phương trình $f'(x) = 0$ không thể giải bằng phương pháp giải tích. Thay vào đó, ta tiến hành như sau

* Tạo một 1D-ndarray có đọ dài $N$ chứa các giá trị từ $0$ đến $2\pi$ ($N$ khá lớn)


* Sử dụng các hàm np.argmin và np.argmax để tìm ra giá trị của $x$ mong muốn

In [152]:
N = 10000
x = np.linspace(0,2*np.pi,N)
y = x * np.sin(x) + np.cos(4*x)
y_max = np.max(y)
y_min = np.min(y)
x_max = x[np.argmax(y)]
x_min = x[np.argmin(y)]
print('Absolute maximum value is y =',y_max,'at x =',x_max)
print('Absolute minimum value is y =',y_min,'at x =',x_min)

Absolute maximum value is y = 2.5992726072887007 at x = 1.628136126702901
Absolute minimum value is y = -5.129752039182 at x = 5.34187001663503


#### Tổng Riemann

Viết một hàm với yêu cầu sau

* Tên hàm: exp_int

* Đối số đầu vào: $b$ và $N$

* Trả về tổng Riemann sau đây

$$
    \int_0^b e^{-x^2}dx \approx \sum_{k=0}^{N-1} e^{-x_k^2}\Delta x
$$

trong đó $\Delta x = b/N$ và $x_k = k\Delta x$ với $k = 0, 1, ..., N-1$.

In [154]:
def exp_int(b,N):
    "Compute left Riemann sum of exp(-x^2) from 0 to b with N subintervals."
    x = np.linspace(0,b,N+1)
    x_left_endpoints = x[:-1]
    Delta_x = b/N
    I = Delta_x * np.sum(np.exp(-x_left_endpoints**2))
    return I

Ta biết công thức đẹp sau đây

$$
    \int_0^{\infty} e^{-x^2}dx = \frac{\sqrt{\pi}}{2}
$$

Ta có thể sử dụng hàm exp_int ở trên để tính gần đúng tích phân ở vế trái 

In [160]:
exp_int(100, 100000)

0.886726925452758

In [158]:
np.pi**0.5/2

0.8862269254527579

### Bài tập

1. Cho biết công thức tích phân sau

$$
    \int_1^e \frac{\ln x dx}{(1+\ln x)^2} = \frac{e}{2} - 1.
$$

Viết một hàm với yêu cầu sau

* Tên hàm: log_integral

* Đối số đầu vào: $c$ và $N$

* Trả về kết quả là tổng Riemann sau

$$
    \int_1^e \frac{\ln x dx}{(1+\ln x)^2} \approx \sum_{i=1}^{N-1} \frac{\ln x_i \Delta x}{(1+\ln x_i)^2}, \quad \Delta x = \frac{c-1}{N},
$$

với $x_i = 1 + i \Delta x$, $i = 1, 2, ..., N-1$

2. Viết một hàm với yêu cầu sau

* Tên gọi: dot

* Đối số đầu vào là: M, i, j (M là một ma trận vuông)

* Hàm trả về kết quả là tích của dòng thứ i và cột thứ 