# Numpy

[Numpy](http://www.numpy.org/) (Numerical Python) là thư viện cốt lõi để tính toán khoa học trong Python. Nó cung cấp những thao tác trên đối tượng mảng nhiều chiều với hiệu năng cao, giúp người sử dụng dễ dàng thao tác với các kiểu dữ liệu số. Một phần của numpy được viết bằng ngôn ngữ C. Một mảng trong numpy cũng giống như một `list` trong python. Tuy nhiên, mảng trong Python có thể chứa các phần tử có kiểu dữ liệu khác nhau. Mảng trong numpy chỉ chứa các phần tử có cùng kiểu dữ liệu, nhờ vậy mảng trong numpy giúp xử lý nhanh hơn và tốn ít bộ nhớ hơn. 

Để sử dụng, trước hết bạn cần phải thêm `numpy` vào môi trường làm việc. Hãy chạy dòng lệnh dưới đây:

In [2]:
import numpy as np

**Lưu ý:** ở đây `np` là tên gợi nhớ cho `numpy`. Bạn có thể thay thế bằng bất cứ tên gì bạn cảm thấy dễ nhớ.

## MẢNG NUMPY

Một mảng numpy thường được gọi là `ndarray` (the n-dimension array) là một tập hợp các phần tử có **cùng một kiểu dữ liệu**. Trong numpy:

- Số chiều của dữ liệu được gọi là **rank**
- Hình dạng của dữ liệu được gọi là **shape** (ví dụ ma trận có 2 dòng 3 cột thì có kích thước là [2, 3]
- Tổng số lượng phần tử trong mảng được gọi là **size**

Ta có thể khởi tạo mảng numpy bằng các `list` lồng nhau, và truy cập các phần tử sử dụng dấu ngoặc vuông:

### Giới Thiệu

In [2]:
a = np.array([1, 2, 3])   # Create a rank 1 array
print(type(a))            # Prints "<class 'numpy.ndarray'>"
print(a.shape)            # Prints "(3,)"
print(a[0], a[1], a[2])   # Prints "1 2 3"
a[0] = 5                  # Change an element of the array
print(a)                  # Prints "[5, 2, 3]"

b = np.array([[1,2,3],[4,5,6]])    # Create a rank 2 array
print(b.shape)                     # Prints "(2, 3)"
print(b[0, 0], b[0, 1], b[1, 0])   # Prints "1 2 4"

<class 'numpy.ndarray'>
(3,)
1 2 3
[5 2 3]
(2, 3)
1 2 4


## Hàm tạo mảng

#### np.zeros

In [5]:
a = np.zeros((2,2))   # Create an array of all zeros
print(a)              # Prints "[[ 0.  0.]
                      #          [ 0.  0.]]"

#### np.ones

In [5]:
b = np.ones((1,2))    # Create an array of all ones
print(b)              # Prints "[[ 1.  1.]]"

#### np.arange

In [3]:
np.arange(5)

array([0, 1, 2, 3, 4])

In [4]:
np.arange(1.0, 5.0)

array([1., 2., 3., 4.])

In [5]:
np.arange(1, 5, step = 0.5)

array([1. , 1.5, 2. , 2.5, 3. , 3.5, 4. , 4.5])

#### np.linspace

Tạo mảng có các số với số cách đều nhau

In [6]:
np.linspace(0, 10, 6)

array([ 0.,  2.,  4.,  6.,  8., 10.])

#### np.full

In [5]:
c = np.full((2,2), 7)  # Create a constant array
print(c)               # Prints "[[ 7.  7.]
                       #          [ 7.  7.]]"

#### np.eye

In [5]:
d = np.eye(2)         # Create a 2x2 identity matrix
print(d)              # Prints "[[ 1.  0.]
                      #          [ 0.  1.]]"

#### np.random

Trong thư viện `random` có một số hàm dùng để khởi tạo số ngẫu nhiên. Ví dụ: `rand`, `randn`, `random`

In [5]:
e = np.random.random((2,2))  # Create an array filled with random values
print(e)                     # Might print "[[ 0.91940167  0.08143941]
                             #               [ 0.68744134  0.87236687]]"

[[0. 0.]
 [0. 0.]]
[[1. 1.]]
[[7 7]
 [7 7]]
[[1. 0.]
 [0. 1.]]
[[0.58476565 0.53241769]
 [0.81450801 0.53626065]]


Bạn có thể đọc thêm cách khởi tạo mảng numpy tại [đây](https://docs.scipy.org/doc/numpy/user/basics.creation.html#arrays-creation).

## Chỉ Mục

### Slicing

Tương tự như với `list`, cũng có thể thực hiện slicing với mảng numpy. Vì mảng numpy có thể có nhiều chiều, nên bạn phải đặc tả một slice cho mỗi chiều của mảng:

In [7]:
# Create the following rank 2 array with shape (3, 4)
# [[ 1  2  3  4]
#  [ 5  6  7  8]
#  [ 9 10 11 12]]
a = np.array([[1,2,3,4], [5,6,7,8], [9,10,11,12]])

# Use slicing to pull out the subarray consisting of the first 2 rows
# and columns 1 and 2; b is the following array of shape (2, 2):
# [[2 3]
#  [6 7]]
b = a[:2, 1:3]

# A slice of an array is a view into the same data, so modifying it
# will modify the original array.
print(a[0, 1])   # Prints "2"
b[0, 0] = 77     # b[0, 0] is the same piece of data as a[0, 1]
print(a[0, 1])   # Prints "77"

2
77


Bạn cũng có thể kết hợp cả chỉ mục số nguyên và chỉ mục slice. Và làm như vậy sẽ thu được một mảng có hạng nhỏ hơn hạng của mảng ban đầu:

In [8]:
# Create the following rank 2 array with shape (3, 4)
# [[ 1  2  3  4]
#  [ 5  6  7  8]
#  [ 9 10 11 12]]
a = np.array([[1,2,3,4], [5,6,7,8], [9,10,11,12]])

# Two ways of accessing the data in the middle row of the array.
# Mixing integer indexing with slices yields an array of lower rank,
# while using only slices yields an array of the same rank as the
# original array:
row_r1 = a[1, :]    # Rank 1 view of the second row of a
row_r2 = a[1:2, :]  # Rank 2 view of the second row of a
print(row_r1, row_r1.shape)  # Prints "[5 6 7 8] (4,)"
print(row_r2, row_r2.shape)  # Prints "[[5 6 7 8]] (1, 4)"

# We can make the same distinction when accessing columns of an array:
col_r1 = a[:, 1]
col_r2 = a[:, 1:2]
print(col_r1, col_r1.shape)  # Prints "[ 2  6 10] (3,)"
print(col_r2, col_r2.shape)  # Prints "[[ 2]
                             #          [ 6]
                             #          [10]] (3, 1)"

[5 6 7 8] (4,)
[[5 6 7 8]] (1, 4)
[ 2  6 10] (3,)
[[ 2]
 [ 6]
 [10]] (3, 1)


### Chỉ mục số nguyên

Khi bạn chỉ mục mảng sử dụng slicing, mảng thu được luôn là một mảng con của mảng ban đầu. Ngược lại, chỉ mục sử dụng số nguyên (*number indexing*) cho phép bạn tạo ra một mảng bất kỳ sử dụng dữ liệu từ một mảng khác. Ví dụ:

In [12]:
a = np.array([[1,2], [3, 4], [5, 6]])

# An example of integer array indexing.
# The returned array will have shape (3,) and
print(a[[0, 1, 2], [0, 1, 0]])  # Prints "[1 4 5]"

# The above example of integer array indexing is equivalent to this:
print(np.array([a[0, 0], a[1, 1], a[2, 0]]))  # Prints "[1 4 5]"

# When using integer array indexing, you can reuse the same
# element from the source array:
print(a[[0, 0], [1, 1]])  # Prints "[2 2]"

# Equivalent to the previous integer array indexing example
print(np.array([a[0, 1], a[0, 1]]))  # Prints "[2 2]"

[1 4 5]
[1 4 5]
[2 2]
[2 2]


Một kĩ thuật hữu ích với chỉ mục số nguyên là chọn hay biến đổi một phần tử tại mỗi hàng của ma trận: 

In [15]:
import numpy as np

# Create a new array from which we will select elements
a = np.array([[1,2,3], [4,5,6], [7,8,9], [10, 11, 12]])

print(a)  # prints "array([[ 1,  2,  3],
          #                [ 4,  5,  6],
          #                [ 7,  8,  9],
          #                [10, 11, 12]])"

# Create an array of indices
b = np.array([0, 2, 0, 1])

# Select one element from each row of a using the indices in b
print(a[np.arange(4), b])  # Prints "[ 1  6  7 11]"
print(a[[0, 1, 2, 3], b])     # The same as above line

# Mutate one element from each row of a using the indices in b
a[np.arange(4), b] += 10

print(a)  # prints "array([[11,  2,  3],
          #                [ 4,  5, 16],
          #                [17,  8,  9],
          #                [10, 21, 12]])

[[ 1  2  3]
 [ 4  5  6]
 [ 7  8  9]
 [10 11 12]]
[ 1  6  7 11]
[ 1  6  7 11]
[[11  2  3]
 [ 4  5 16]
 [17  8  9]
 [10 21 12]]


### Chỉ mục boolean

Chỉ mục boolean (Boolean Indexing). cho phép bạn chọn những phần tử bất kì có trong một mảng. Thường thì kiểu chỉ mục này được sử dụng để chọn ra những phần tử thỏa mãn một điều kiện nào đó. Ví dụ:

In [None]:
a = np.array([[1,2], [3, 4], [5, 6]])

bool_idx = (a > 2)   # Find the elements of a that are bigger than 2;
                     # this returns a numpy array of Booleans of the same
                     # shape as a, where each slot of bool_idx tells
                     # whether that element of a is > 2.

print(bool_idx)      # Prints "[[False False]
                     #          [ True  True]
                     #          [ True  True]]"

# We use boolean array indexing to construct a rank 1 array
# consisting of the elements of a corresponding to the True values
# of bool_idx
print(a[bool_idx])  # Prints "[3 4 5 6]"

# We can do all of the above in a single concise statement:
print(a[a > 2])     # Prints "[3 4 5 6]"

Tìm hiểu thêm về chỉ mục mảng tại [đây](http://docs.scipy.org/doc/numpy/reference/arrays.indexing.html).

## Kiểu dữ liệu

Mảng numpy (`np.ndarray`) là một tập hợp các phần tử có cùng kiểu dữ liệu. Numpy cung cấp nhiều kiểu dữ liệu số học để bạn tạo thành các mảng. Khi bạn khởi tạo một mảng, numpy sẽ tự động chọn kiểu dữ liệu phù hợp cho dữ liệu của bạn, tuy nhiên bạn vẫn có thể khởi tạo mảng sử dụng một kiểu dữ liệu nào đó một cách tường minh. 

Ví dụ:

In [18]:
x = np.array([1, 2])   # Let numpy choose the datatype
print(x.dtype)         # Prints "int64"

x = np.array([1.0, 2.0])   # Let numpy choose the datatype
print(x.dtype)             # Prints "float64"

x = np.array([1, 2], dtype=np.int64)   # Force a particular datatype
print(x.dtype)                         # Prints "int64"

int32
float64
int64


Đọc thêm về các kiểu dữ liệu của numpy tại [đây](http://docs.scipy.org/doc/numpy/reference/arrays.dtypes.html).

## Phép toán trên mảng

Các hàm toán học cơ bản thực hiện các phép toán theo từng phần tử của mảng, và được cung cấp dưới dạng hàm hoặc nạp chồng toán tử:

In [19]:
x = np.array([[1,2],[3,4]], dtype=np.float64)
y = np.array([[5,6],[7,8]], dtype=np.float64)

# Elementwise sum; both produce the array
# [[ 6.0  8.0]
#  [10.0 12.0]]
print(x + y)
print(np.add(x, y))

# Elementwise difference; both produce the array
# [[-4.0 -4.0]
#  [-4.0 -4.0]]
print(x - y)
print(np.subtract(x, y))

# Elementwise product; both produce the array
# [[ 5.0 12.0]
#  [21.0 32.0]]
print(x * y)
print(np.multiply(x, y))

# Elementwise division; both produce the array
# [[ 0.2         0.33333333]
#  [ 0.42857143  0.5       ]]
print(x / y)
print(np.divide(x, y))

# Elementwise square root; produces the array
# [[ 1.          1.41421356]
#  [ 1.73205081  2.        ]]
print(np.sqrt(x))

[[ 6.  8.]
 [10. 12.]]
[[ 6.  8.]
 [10. 12.]]
[[-4. -4.]
 [-4. -4.]]
[[-4. -4.]
 [-4. -4.]]
[[ 5. 12.]
 [21. 32.]]
[[ 5. 12.]
 [21. 32.]]
[[0.2        0.33333333]
 [0.42857143 0.5       ]]
[[0.2        0.33333333]
 [0.42857143 0.5       ]]
[[1.         1.41421356]
 [1.73205081 2.        ]]


Phép `*` là phép nhân theo từng phần tử của mảng, sử dụng hàm `dot()` để thực hiện phép nhân hai véc-tơ, véc-tơ với ma trận và nhân ma trận:

In [20]:
x = np.array([[1,2],[3,4]])
y = np.array([[5,6],[7,8]])

v = np.array([9,10])
w = np.array([11, 12])

# Inner product of vectors; both produce 219
print(v.dot(w))
print(np.dot(v, w))

# Matrix / vector product; both produce the rank 1 array [29 67]
print(x.dot(v))
print(np.dot(x, v))

# Matrix / matrix product; both produce the rank 2 array
# [[19 22]
#  [43 50]]
print(x.dot(y))
print(np.dot(x, y))

219
219
[29 67]
[29 67]
[[19 22]
 [43 50]]
[[19 22]
 [43 50]]


Numpy cung cấp nhiều hàm hữu ích để thực hiện tính toán trên mảng; một trong những hàm hay dùng đó là `sum`:

In [21]:
x = np.array([[1,2],[3,4]])

print(np.sum(x))  # Compute sum of all elements; prints "10"
print(np.sum(x, axis=0))  # Compute sum of each column; prints "[4 6]"
print(np.sum(x, axis=1))  # Compute sum of each row; prints "[3 7]"

10
[4 6]
[3 7]


Bạn có thể tìm hiểu thêm về các phép toán trên mảng tại [đây](http://docs.scipy.org/doc/numpy/reference/routines.math.html).

Ngoài tính toán các phép toán học, khi sử dụng mảng, ta thường xuyên phải biến đổi dạng hay biến đổi dữ liệu trong mảng. Một trong những ví dụ đơn giản nhất về biến đổi dạng của ma trận đó là phép chuyển vị ma trận; để chuyển vị ma trận, dùng thuộc tính `T` của đối tượng mảng:

In [22]:
x = np.array([[1,2], [3,4]])
print(x)    # Prints "[[1 2]
            #          [3 4]]"
print(x.T)  # Prints "[[1 3]
            #          [2 4]]"

# Note that taking the transpose of a rank 1 array does nothing:
v = np.array([1,2,3])
print(v)    # Prints "[1 2 3]"
print(v.T)  # Prints "[1 2 3]"

[[1 2]
 [3 4]]
[[1 3]
 [2 4]]
[1 2 3]
[1 2 3]


Xem toàn bộ các hàm biến đổi mảng tại [đây](https://docs.scipy.org/doc/numpy/reference/routines.array-manipulation.html).

## Broadcasting

Broadcasting là một cơ chế mạnh mẽ cho phép numpy làm việc với những mảng có dạng khác nhau khi thực hiện các phép toán số học. Thường thì ta sẽ có một mảng nhỏ và một mảng lớn, và ta muốn sử dụng mảng nhỏ nhiều lần để thực hiện một vài phép toán trên mảng lớn.

Ví dụ, giả sử ta muốn thêm một véc-tơ hằng số vào mỗi hàng của một ma trận. Ta có thể làm như sau:

In [None]:
import numpy as np

# We will add the vector v to each row of the matrix x,
# storing the result in the matrix y
x = np.array([[1,2,3], [4,5,6], [7,8,9], [10, 11, 12]])
v = np.array([1, 0, 1])
y = np.empty_like(x)   # Create an empty matrix with the same shape as x

# Add the vector v to each row of the matrix x with an explicit loop
for i in range(4):
    y[i, :] = x[i, :] + v

# Now y is the following
# [[ 2  2  4]
#  [ 5  5  7]
#  [ 8  8 10]
#  [11 11 13]]
print(y)

Làm như trên là được, tuy nhiên khi ma trận `x` rất lớn, thực hiện vòng lặp một cách tường minh trong Python sẽ chậm. Lưu ý là việc thêm véc-tơ `v` và mỗi hàng của ma trận `x` tương đương với việc tạo một ma trận `vv` bằng cách chồng các bản sao của `v` theo chiều dọc, rồi thực hiện phép tính tổng theo từng phần tử của `x` và `vv`. Ta có thể cài đặt cách tiếp cận này như sau:

In [None]:
import numpy as np

# We will add the vector v to each row of the matrix x,
# storing the result in the matrix y
x = np.array([[1,2,3], [4,5,6], [7,8,9], [10, 11, 12]])
v = np.array([1, 0, 1])
vv = np.tile(v, (4, 1))   # Stack 4 copies of v on top of each other
print(vv)                 # Prints "[[1 0 1]
                          #          [1 0 1]
                          #          [1 0 1]
                          #          [1 0 1]]"
y = x + vv  # Add x and vv elementwise
print(y)  # Prints "[[ 2  2  4
          #          [ 5  5  7]
          #          [ 8  8 10]
          #          [11 11 13]]"


Broadcasting cho phép chúng ta thực hiện việc tính toán trên mà không cần phải tạo nhiều bản sao của `v`. Xem xét đoạn mã sau sử dụng broadcasting:

In [None]:
import numpy as np

# We will add the vector v to each row of the matrix x,
# storing the result in the matrix y
x = np.array([[1,2,3], [4,5,6], [7,8,9], [10, 11, 12]])
v = np.array([1, 0, 1])
y = x + v  # Add v to each row of x using broadcasting
print(y)  # Prints "[[ 2  2  4]
          #          [ 5  5  7]
          #          [ 8  8 10]
          #          [11 11 13]]"

Dòng `y = x + v` hoạt động ngay cả khi `x` có dạng `(4, 3)` và `v` có dạng `(3,)` thông qua broadcasting; dòng này hoạt động tương tự như việc `v` thực ra có dạng `(4, 3)`, trong đó mỗi dòng là một bản sao của `v`, và tổng được thực hiện theo từng phần tử.

Có thể thực hiện broadcasting giữa hai mảng nếu các điều sau thỏa mãn:

1. Nếu mảng không có cùng hạng, thêm vào trước dạng của mảng có hạng thấp hơn `1` cho đến khi cả hai `tuple` dạng có cùng độ dài.
2. Hai mảng được gọi là có chiều tương thích nếu chiều đó có cùng kích cỡ, hoặc nếu một trong mảng có kích thước chiều là `1`.
3. Các mảng có thể được broadcast với nhau nếu chúng có tất cả các chiều tương thích.
4. Sau khi broadcasting, mỗi mảng hoạt động như là nó có dạng bằng dạng lớn hơn trong hai mảng đầu vào.
5. Trong bất kì chiều nào của một mảng mà có kích cỡ `1` và chiều khác có kích cỡ lớn hơn `1` thì mảng đầu tiên sẽ hoạt động như là nó được sao chép theo chiều đó.

Nếu như giải thích trên làm bạn khó hiểu thêm, thử đọc giải thích trong [tài liệu của Numpy](https://docs.scipy.org/doc/numpy/user/basics.broadcasting.html) hoặc giải thích [này](http://scipy.github.io/old-wiki/pages/EricsBroadcastingDoc).

Những hàm mà hỗ trợ việc broadcasting được gọi là các hàm universal. Bạn có thể đọc thêm về các hàm universal tại [đây](https://docs.scipy.org/doc/numpy/reference/ufuncs.html#available-ufuncs).

Dưới đây là một vài ứng dụng của broadcasting:

In [None]:
import numpy as np

# Compute outer product of vectors
v = np.array([1,2,3])  # v has shape (3,)
w = np.array([4,5])    # w has shape (2,)
# To compute an outer product, we first reshape v to be a column
# vector of shape (3, 1); we can then broadcast it against w to yield
# an output of shape (3, 2), which is the outer product of v and w:
# [[ 4  5]
#  [ 8 10]
#  [12 15]]
print(np.reshape(v, (3, 1)) * w)

# Add a vector to each row of a matrix
x = np.array([[1,2,3], [4,5,6]])
# x has shape (2, 3) and v has shape (3,) so they broadcast to (2, 3),
# giving the following matrix:
# [[2 4 6]
#  [5 7 9]]
print(x + v)

# Add a vector to each column of a matrix
# x has shape (2, 3) and w has shape (2,).
# If we transpose x then it has shape (3, 2) and can be broadcast
# against w to yield a result of shape (3, 2); transposing this result
# yields the final result of shape (2, 3) which is the matrix x with
# the vector w added to each column. Gives the following matrix:
# [[ 5  6  7]
#  [ 9 10 11]]
print((x.T + w).T)
# Another solution is to reshape w to be a column vector of shape (2, 1);
# we can then broadcast it directly against x to produce the same
# output.
print(x + np.reshape(w, (2, 1)))

# Multiply a matrix by a constant:
# x has shape (2, 3). Numpy treats scalars as arrays of shape ();
# these can be broadcast together to shape (2, 3), producing the
# following array:
# [[ 2  4  6]
#  [ 8 10 12]]
print(x * 2)

Broadcasting thường sẽ làm mã chương trình của bạn gọn và nhanh hơn, vì vậy cố gắng luôn sử dụng broadcasting khi có thể.

### Tài liệu về Numpy

Trên đây là vài điều quan trọng mà bạn cần phải viết về numpy, nhưng ở mức rất cơ bản. Tham khảo [tài liệu](https://docs.scipy.org/doc/numpy/reference/) của numpy để tìm hiểu thêm.

# Matplotlib

[Matplotlib](https://matplotlib.org/) là một thư viện vẽ. Trong phần này, ta sẽ có một giới thiệu ngắn gọn về mô-đun `matplotlib.pyplot`.

## plot

Hàm quan trọng nhất trong matplotlib đó là `plot`, cho phép bạn có thể vẽ đồ thị các dữ liệu hai chiều. Đây là một ví dụ đơn giản:

In [None]:
import numpy as np
import matplotlib.pyplot as plt

# Compute the x and y coordinates for points on a sine curve
x = np.arange(0, 3 * np.pi, 0.1)
y = np.sin(x)

# Plot the points using matplotlib
plt.plot(x, y)
plt.show()  # You must call plt.show() to make graphics appear.

Thêm một vài thao tác, ta có thể dễ dàng vẽ nhiều đường cùng một lúc, và thêm tiêu đề, chú giải và nhãn của các trục:

In [None]:
import numpy as np
import matplotlib.pyplot as plt

# Compute the x and y coordinates for points on sine and cosine curves
x = np.arange(0, 3 * np.pi, 0.1)
y_sin = np.sin(x)
y_cos = np.cos(x)

# Plot the points using matplotlib
plt.plot(x, y_sin)
plt.plot(x, y_cos)
plt.xlabel('x axis label')
plt.ylabel('y axis label')
plt.title('Sine and Cosine')
plt.legend(['Sine', 'Cosine'])
plt.show()

Bạn có thểm tìm hiểu thêm về `plot` ở trong [tài liệu](https://matplotlib.org/api/pyplot_api.html#matplotlib.pyplot.plot).

## subplot

Bạn có thể vẽ những thứ khác nhau trên cùng một hình sử dụng `subplot`. Sau đây là ví dụ:

In [None]:
import numpy as np
import matplotlib.pyplot as plt

# Compute the x and y coordinates for points on sine and cosine curves
x = np.arange(0, 3 * np.pi, 0.1)
y_sin = np.sin(x)
y_cos = np.cos(x)

# Set up a subplot grid that has height 2 and width 1,
# and set the first such subplot as active.
plt.subplot(2, 1, 1)

# Make the first plot
plt.plot(x, y_sin)
plt.title('Sine')

# Set the second subplot as active, and make the second plot.
plt.subplot(2, 1, 2)
plt.plot(x, y_cos)
plt.title('Cosine')

# Show the figure.
plt.show()


Tìm hiểu thêm về `subplot` trong [tài liệu](https://matplotlib.org/api/pyplot_api.html#matplotlib.pyplot.subplot).