What is Sparse Data
Sparse data is data that has mostly unused elements (elements that don't carry any information ).

It can be an array like this on:

[1, 0, 2, 0, 0, 3, 0, 0, 0, 0, 
Dữ liệu thưa thớt là gì
Dữ liệu thưa thớt là dữ liệu có hầu hết các phần tử không được sử dụng (các phần tử không mang bất kỳ thông tin nào).

Nó có thể là một mảng như thế nà:

[1, 0, 2, 0, 0, 3, 0, 0, 0, 0, 0, 0]0, 0]

Sparse Data: is a data set where most of the item values are zero.
Dense Array: is the opposite of a sparse array: most of the values are not zer
Dữ liệu thưa thớt: là tập dữ liệu trong đó hầu hết các giá trị mục đều bằng 0.
Mảng dày đặc: ngược lại với mảng thưa thớt: hầu hết các giá trị không bằng 0.o.

In scientific computing, when we are dealing with partial derivatives in linear algebra we will come across sparse data.
Trong điện toán khoa học, khi xử lý đạo hàm riêng trong đại số tuyến tính, chúng ta sẽ gặp phải dữ liệu thưa thớt.

In [None]:
How to Work With Sparse Data
SciPy has a module, scipy.sparse that provides functions to deal with sparse data.
There are primarily two types of sparse matrices that we use:
CSC - Compressed Sparse Column. For efficient arithmetic, fast column slicing.
CSR - Compressed Sparse Row. For fast row slicing, faster matrix vector products
We will use the CSR matrix in this tutorial.
Cách làm việc với dữ liệu thưa thớt
SciPy có một mô-đun scipy.sparse cung cấp các chức năng để xử lý dữ liệu thưa thớt.
Chủ yếu có hai loại ma trận thưa thớt mà chúng tôi sử dụng:
CSC - Cột thưa thớt được nén. Để tính toán hiệu quả, hãy cắt cột nhanh.
CSR - Hàng thưa thớt được nén. Để cắt hàng nhanh, sản phẩm vectơ ma trận nhanh hơn
Chúng tôi sẽ sử dụng ma trận CSR trong hướng dẫn này.

CSR Matrix
We can create CSR matrix by passing an arrray into function scipy.sparse.csr_matrix().
Ma trận CSR
Chúng ta có thể tạo ma trận CSR bằng cách chuyển một mảng vào hàm scipy.sparse.csr_matrix().

In [1]:
# Create a CSR matrix from an array:
# Tạo ma trận CSR từ một mảng:
import numpy as np
from scipy.sparse import csr_matrix

arr = np.array([0, 0, 0, 0, 0, 1, 1, 0, 2])

print(csr_matrix(arr))

  (0, 5)	1
  (0, 6)	1
  (0, 8)	2


From the result we can see that there are 3 items with value.

The 1. item is in row 0 position 5 and has the value .

The 2. item is in row 0 position 6 and has the valu 1.

The 3. item is in row 0 position 8 and has the va
Từ kết quả chúng ta có thể thấy rằng có 3 mục có giá trị.
Mục 1. nằm ở 0vị trí hàng 5và có giá trị 1

Mục 2. nằm ở 0vị trí hàng 6và có giá trị1.

Mục 3. nằm ở 0vị trí hàng 8và có giá trị 2.lue 2.

Sparse Matrix Methods
Viewing stored data (not the zero items) with the data property
Phương pháp ma trận thưa thớt
Xem dữ liệu được lưu trữ (không phải mục 0) bằng dat athuộc tính::

In [2]:
import numpy as np
from scipy.sparse import csr_matrix

arr = np.array([[0, 0, 0], [0, 0, 1], [1, 0, 2]])

print(csr_matrix(arr).data)

[1 1 2]


Counting nonzeros with the count_nonzero() method:
Đếm các số khác 0 bằng count_nonzero()phương pháp:

In [3]:
import numpy as np
from scipy.sparse import csr_matrix

arr = np.array([[0, 0, 0], [0, 0, 1], [1, 0, 2]])

print(csr_matrix(arr).count_nonzero())

3


Removing zero-entries from the matrix with the eliminate_zeros() method:
Loại bỏ các mục 0 khỏi ma trận bằng eliminate_zeros()phương thức:

In [4]:
import numpy as np
from scipy.sparse import csr_matrix

arr = np.array([[0, 0, 0], [0, 0, 1], [1, 0, 2]])

mat = csr_matrix(arr)
mat.eliminate_zeros()

print(mat)

  (1, 2)	1
  (2, 0)	1
  (2, 2)	2


Eliminating duplicate entries with the sum_duplicates() method:
Loại bỏ các mục trùng lặp bằng sum_duplicates()phương thức:

In [5]:
# Eliminating duplicates by adding them:
# Loại bỏ các bản sao bằng cách thêm chúng:
import numpy as np
from scipy.sparse import csr_matrix

arr = np.array([[0, 0, 0], [0, 0, 1], [1, 0, 2]])

mat = csr_matrix(arr)
mat.sum_duplicates()

print(mat)

  (1, 2)	1
  (2, 0)	1
  (2, 2)	2


Converting from csr to csc with the tocsc() method:
Chuyển đổi từ csr sang csc bằng tocsc()phương thức:

In [6]:
import numpy as np
from scipy.sparse import csr_matrix

arr = np.array([[0, 0, 0], [0, 0, 1], [1, 0, 2]])

newarr = csr_matrix(arr).tocsc()

print(newarr)

  (2, 0)	1
  (1, 2)	1
  (2, 2)	2


Note: Apart from the mentioned sparse specific operations, sparse matrices support all of the operations that normal matrices support e.g. reshaping, summing, arithemetic, broadcasting etc.
Lưu ý: Ngoài các phép toán cụ thể thưa thớt đã đề cập, ma trận thưa thớt hỗ trợ tất cả các phép toán mà ma trận thông thường hỗ trợ, ví dụ như định hình lại, tính tổng, số học, phát sóng, v.v.