## 희소 행렬 (Sparse Matrix)
- BOW형태의 모델 / CountVectorizer / TfidfVectorizer  를 이용해 Feature Vectorize를 하면 많은 칼럼이 생기고, 대부분의 값은 0으로 채워진다.
- 너무 많은 불필요한 0의 값으로 인해, 연산이 느려지고, 메모리 낭비가 심해진다.
- 이 문제를 해결하기 위한 2가지 대표적인 변환방법이 COO형식과 CSR형식이다.

### COO ( Coordinate , 좌표 )

- COO 방식은 0이 아닌 데이터만 별도의 배열에 저장하고, 해당 데이터들의 행과 열의 위치를 별도의 배열에 저장하는 방식이다.
- 0이 아닌값, 행 위치 값, 열 위치 값 에 대해 배열로 표현한다.

ex )   
[3, 0, 1]  
[0, 2, 0]  이라는 배열이 있으면   

     '3'은 (0,0)위치에, '1'은 (0,2)위치에, '2'는 {1,1} 위치에 존재한다. 
     data = [3, 1, 2]이고, row_pos = [0, 0, 1]이고, col_pos = [0, 2, 1] 이다. 
     이 3가지 배열만 알아도 원본 행렬을 유추할 수 있다.


In [3]:
from scipy import sparse
import numpy as np

data = np.array([3, 1, 2])
row_pos = np.array([0, 0, 1])
col_pos = np.array([0, 2, 1])

sparse_coo = sparse.coo_matrix( (data, (row_pos, col_pos)) )

print(type(sparse_coo))
print(sparse_coo)
dense_01 = sparse_coo.toarray()
print(type(dense_01), '\n', dense_01)

# sparse_coo = 희소 행렬 객체 변수
# sparse.coo_matrix( (data, (row_pos, col_pos)) )로 매칭시키고
# sparse_coo.toarray()를 하게 되면 원본 행렬이 추출된다.

<class 'scipy.sparse.coo.coo_matrix'>
  (0, 0)	3
  (0, 2)	1
  (1, 1)	2
<class 'numpy.ndarray'> 
 [[3 0 1]
 [0 2 0]]


### CSR ( Compressed Sparse Row ) 형식
- 위처럼 COO 방식으로 진행하는데, 행렬의 크기가 커지면 row_pos / col_pos 의 값이 순차적으로 반복하게 된다.
- 아래의 경우, 0/2/4가 2번, 1이 5번 반복된다. 이렇게 반복하는 값이 있으면, 반복이 시작되는 인덱스만 받아와서 row/col pos를 더 작게 압축시키는 방법이다. 
- 주어진 범위 안에서 데이터들의 위치에 대한 정보를 압축시키는 방식이 CSR 방식이다.

In [12]:
from scipy import sparse

dense2 = np.array(
    [
     [0, 0, 1, 0, 0, 5],
     [1, 4, 0, 3, 2, 5],
     [0, 6, 0, 3, 0, 0],
     [2, 0, 0, 0, 0, 0],
     [0, 0, 0, 7, 0, 8],
     [1, 0, 0, 0, 0, 0]
    ]
)

data2 = np.array([1, 5, 1, 4, 3, 2, 5, 6, 3, 2, 7, 8, 1])

row_pos = np.array([0, 0, 1, 1, 1, 1, 1, 2, 2, 3, 4, 4, 5])
col_pos = np.array([2, 5, 0, 1, 3, 4, 5, 1, 3, 0, 3, 5, 0])

sparse2_coo = sparse.coo_matrix(( data2, (row_pos, col_pos) ))
row_pos_ind = np.array([0, 2, 7, 9, 10, 12, 13])# 0은 0번에서 반복시작, 1은 2번에서 반복시작, 2는 3번에서 반복시작, 4는 

sparse2_csr = sparse.csr_matrix( (data2, (row_pos, col_pos)))

print('COO 변환된 행렬')
print(sparse2_coo.toarray())
print('\n\n')
print('CSR 변환된 행렬')
print(sparse2_csr.toarray())

COO 변환된 행렬
[[0 0 1 0 0 5]
 [1 4 0 3 2 5]
 [0 6 0 3 0 0]
 [2 0 0 0 0 0]
 [0 0 0 7 0 8]
 [1 0 0 0 0 0]]



CSR 변환된 행렬
[[0 0 1 0 0 5]
 [1 4 0 3 2 5]
 [0 6 0 3 0 0]
 [2 0 0 0 0 0]
 [0 0 0 7 0 8]
 [1 0 0 0 0 0]]


In [13]:
mat1 = np.array(
    [
     [0, 0, 1, 0, 0, 5],
     [1, 4, 0, 3, 2, 5],
     [0, 6, 0, 3, 0, 0],
     [2, 0, 0, 0, 0, 0],
     [0, 0, 0, 7, 0, 8],
     [1, 0, 0, 0, 0, 0]
    ]
)

coo = sparse.coo_matrix(mat1)
csr = sparse.csr_matrix(mat1)


In [15]:
coo.toarray()

array([[0, 0, 1, 0, 0, 5],
       [1, 4, 0, 3, 2, 5],
       [0, 6, 0, 3, 0, 0],
       [2, 0, 0, 0, 0, 0],
       [0, 0, 0, 7, 0, 8],
       [1, 0, 0, 0, 0, 0]])

In [16]:
csr.toarray()

array([[0, 0, 1, 0, 0, 5],
       [1, 4, 0, 3, 2, 5],
       [0, 6, 0, 3, 0, 0],
       [2, 0, 0, 0, 0, 0],
       [0, 0, 0, 7, 0, 8],
       [1, 0, 0, 0, 0, 0]], dtype=int64)

sklearn의 CountVectorizer, TfidfVectorizer 클래스로 피쳐 벡터화된 행렬은 모두 CSR 형식이다.