# 파이썬에서 scipy.sparse 희소 행렬(sparse matrix) 다루기
- Sparse한 matrix를 다룰 때 scipy.sparse를 사용함
- 대규모 행렬을 다룰 때 메모리 문제를 해결하기 위해 사용
- scipy.sparse의 matrix를 만드는 방법은 sparse matrix 구성요소를 직접 입력하는 방법과 numpy.ndarray를 입력하는 방법이 있음

## 희소행렬 
1. 희소행렬이란? 행렬의 원소 중에 많은 항들이 '0'으로 구성되어 있는 행렬
- 희소 행렬의 대부분의 항은 '0'으로 이루어져 있어, 실제 사용하지 않는 메모리 공간으로 인해 메모리 낭비가 발생하게 된다.
- 그러나 0 값을 제외하고 0이 아닌 값(비영 요소)만 따로 추출하여 새로운 배열로 구성하는 방법을 사용함으로써 메모리를 효율적으로 사용할 수 있음

#### 1. numpy.ndarrays를 직접 입력

In [2]:
import numpy as np
from scipy import sparse

matrix = np.eye(3)
matrix

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

In [3]:
#csr_matrix를 이용

sparse_matrix = sparse.csr_matrix(matrix)
sparse_matrix

<Compressed Sparse Row sparse matrix of dtype 'float64'
	with 3 stored elements and shape (3, 3)>

In [4]:
print(sparse_matrix)

<Compressed Sparse Row sparse matrix of dtype 'float64'
	with 3 stored elements and shape (3, 3)>
  Coords	Values
  (0, 0)	1.0
  (1, 1)	1.0
  (2, 2)	1.0


#### 2. 구성요소를 직접 입력

In [6]:
data = np.ones(3)

row_indices = np.arange(3)
col_indices = np.arange(3)

print(data)
print(row_indices)
print(col_indices)

[1. 1. 1.]
[0 1 2]
[0 1 2]


In [7]:
# sparse.coo_matrix를 이용

sparse_matrix = sparse.coo_matrix((data,(row_indices,col_indices)))
print(sparse_matrix)

<COOrdinate sparse matrix of dtype 'float64'
	with 3 stored elements and shape (3, 3)>
  Coords	Values
  (0, 0)	1.0
  (1, 1)	1.0
  (2, 2)	1.0


- todense() : dense matrix로 변환하여 모양을 확인
- numpy.ndarray 로 변환

#### 3. DoK format

- Dictionary of keys의 약자이다.
- 0이 아닌 값들의 위치를 저장하는 방식으로 (row, column)을 지니는 dict로 구성되어 있음
- 직관적으로 x[i,j]에 접근하기가 쉽다.

In [8]:
from scipy.sparse import dok_matrix

x = [[1,0,0,0,2],
     [0,3,0,4,0],
     [0,0,0,0,0],
     [5,0,0,6,0]]

dok = dok_matrix(x)

# 0이 아닌 값이 여기에 있다는 것을 의미
# dict_keys
print(dok.keys())
# dict_keys([(0, 0), (0, 4), (1, 1), (1, 3), (3, 0), (3, 3)])

for key,value in dok.items():
    print('{} = {}'.format(key, value))

dict_keys([(np.int32(0), np.int32(0)), (np.int32(0), np.int32(4)), (np.int32(1), np.int32(1)), (np.int32(1), np.int32(3)), (np.int32(3), np.int32(0)), (np.int32(3), np.int32(3))])
(np.int32(0), np.int32(0)) = 1
(np.int32(0), np.int32(4)) = 2
(np.int32(1), np.int32(1)) = 3
(np.int32(1), np.int32(3)) = 4
(np.int32(3), np.int32(0)) = 5
(np.int32(3), np.int32(3)) = 6


-  dok.nnz : non-zero의 개수
-  dok.shape : matrix의 크기
- 이 둘로 sparsity rate를 구할 수 있다.

In [9]:
print(dok.nnz)
print(dok.shape)

sparsity = 1 - dok.nnz / (dok.shape[0] * dok.shape[1])
print(sparsity)


6
(4, 5)
0.7
