https://docs.scipy.org/doc/scipy/reference/sparse.html

# Sparse Matrix

대부분의 원소가 0으로 채워진 행렬로, 빈번한 0 값들을 포함하는 대규모 데이터를 다룰 때 유용하게 사용.

Sparse Matrix의 특징들은 대규모 데이터 분석에서 유용합니다. 대규모의 데이터셋에서는 모든 값을 저장하는 것이 불가능하고, 일부 값만 저장할 수 있는 Sparse Matrix는 데이터 분석에서 중요한 역할을 합니다.

__Sparse Matrix의 특징__

- 대규모 데이터에서 0 값이 대부분인 경우에 사용.
- 일반적인 행렬보다 메모리 공간을 적게 차지.
- 일반적인 행렬에 비해 연산 시간이 빠름름.
- 0이 아닌 데이터만 저장하기 때문에 저장 공간을 줄이고, 처리 시간을 단축할 수 있음.
- 대규모의 행렬 연산에서는 일반적인 행렬보다 계산 속도가 빠름.



## __COO(Coordinate)__

행렬의 (행, 열, 값)의 좌표를 저장. 

COO 형식은 데이터를 효율적으로 저장할 수 있지만 연산 시 행렬의 구조를 파악하기 어려워 일반적으로 변환된 형식인 CSR, CSC 형식으로 변환하여 사용.

## __CSR(Compressed Sparse Row)__ 
***'행'*** 을 기준으로 데이터를 저장. 

행마다 첫번째 열의 위치와 마지막 열의 위치를 알려주는 포인터 배열과 열의 인덱스와 값을 저장하는 데이터 배열을 따로 저장. 

CSR 형식은 행의 접근이 빠르기 때문에 행 기반 연산에서 유용.


## __CSC(Compressed Sparse Column)__ 
***'열'*** 을 기준으로 데이터를 저장. 

CSR 형식과 비슷하게 열마다 첫번째 행의 위치와 마지막 행의 위치를 알려주는 포인터 배열과 행의 인덱스와 값을 저장하는 데이터 배열을 따로 저장. 

CSC 형식은 열 기반 연산에서 유용.

#### 특징
--> COO 형식은 저장을 위해 사용되고, CSR과 CSC 형식은 연산을 위해 사용됩니다.

In [1]:
import numpy as np
from scipy.sparse import coo_matrix, csr_matrix, csc_matrix

#DATA
data = np.array([1, 2, 3, 4, 5, 6]) 
row = np.array([0, 0, 0, 1, 1, 2]) # 0이 아닌 data의 행의 위치
col = np.array([0, 1, 2, 0, 1, 2]) # 0이 아닌 data의 열의 위치

#sparse matrix는 data, index, shape의 데이터가 필요합니다

# COO 형식
coo = coo_matrix((data, (row, col)), shape=(3, 3)) # 데이터 / 좌표(row, col) / 크기
print('--coo 형식-----')
print(coo.todense()) 

# CSR 형식
csr = csr_matrix((data, (row, col)), shape=(3, 3))
print('--csr 형식-----')
print(csr.todense())

# CSC 형식
csc = csc_matrix((data, (row, col)), shape=(3, 3))
print('--csc 형식-----')
print(csc.todense())

# 행 기반 합산
print("COO 행 기반 합산:\n", coo.sum(axis=1))
print("CSR 행 기반 합산:\n", csr.sum(axis=1))
print("CSC 행 기반 합산:\n", csc.sum(axis=1))

# 열 기반 합산
print("CSR 열 기반 합산:\n", csr.sum(axis=0))
print("CSC 열 기반 합산:\n", csc.sum(axis=0))


--coo 형식-----
[[1 2 3]
 [4 5 0]
 [0 0 6]]
--csr 형식-----
[[1 2 3]
 [4 5 0]
 [0 0 6]]
--csc 형식-----
[[1 2 3]
 [4 5 0]
 [0 0 6]]
COO 행 기반 합산:
 [[6]
 [9]
 [6]]
CSR 행 기반 합산:
 [[6]
 [9]
 [6]]
CSC 행 기반 합산:
 [[6]
 [9]
 [6]]
CSR 열 기반 합산:
 [[5 7 9]]
CSC 열 기반 합산:
 [[5 7 9]]


In [None]:
import numpy as np
from scipy.sparse import coo_matrix

# Sparse Matrix 생성 (COO 형식)
data = np.ones(5000)
rows = np.random.randint(0, 10000, size=5000)
cols = np.random.randint(0, 10000, size=5000)
sparse_matrix = coo_matrix((data, (rows, cols)), shape=(10000, 10000))

# Scipy sparse matrix 형태로 저장
sparse_matrix_csr = sparse_matrix.tocsr()
sparse_matrix_csc = sparse_matrix.tocsc()

# Numpy toarray 형태로 저장
dense_matrix_csr = sparse_matrix_csr.toarray()
dense_matrix_csc = sparse_matrix_csc.toarray()

# 크기 비교
print("Sparse Matrix (COO) 크기:", sparse_matrix.data.nbytes + sparse_matrix.row.nbytes + sparse_matrix.col.nbytes)
print("Scipy sparse matrix (CSR) 크기:", sparse_matrix_csr.data.nbytes + sparse_matrix_csr.indices.nbytes + sparse_matrix_csr.indptr.nbytes)
print("Scipy sparse matrix (CSC) 크기:", sparse_matrix_csc.data.nbytes + sparse_matrix_csc.indices.nbytes + sparse_matrix_csc.indptr.nbytes)
print("Numpy toarray (CSR) 크기:", dense_matrix_csr.nbytes)
print("Numpy toarray (CSC) 크기:", dense_matrix_csc.nbytes)


Sparse Matrix (COO) 크기: 80000
Scipy sparse matrix (CSR) 크기: 100004
Scipy sparse matrix (CSC) 크기: 100004
Numpy toarray (CSR) 크기: 800000000
Numpy toarray (CSC) 크기: 800000000


In [None]:
# rating data를 dense 형태로 바꿨을 때
import pandas as pd

rating_df = pd.read_csv('u.data', sep='\t', header=None, names = ['userID', 'movieID', 'rating', 'timestamp'])
pv_df=pd.pivot_table(data=rating_df,values='rating',index='movieID',columns='userID')
pv_df.fillna('-')

userID,1,2,3,4,5,6,7,8,9,10,...,934,935,936,937,938,939,940,941,942,943
movieID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
1,5.0,4.0,-,-,4.0,4.0,-,-,-,4.0,...,2.0,3.0,4.0,-,4.0,-,-,5.0,-,-
2,3.0,-,-,-,3.0,-,-,-,-,-,...,4.0,-,-,-,-,-,-,-,-,5.0
3,4.0,-,-,-,-,-,-,-,-,-,...,-,-,4.0,-,-,-,-,-,-,-
4,3.0,-,-,-,-,-,5.0,-,-,4.0,...,5.0,-,-,-,-,-,2.0,-,-,-
5,3.0,-,-,-,-,-,-,-,-,-,...,-,-,-,-,-,-,-,-,-,-
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1678,-,-,-,-,-,-,-,-,-,-,...,-,-,-,-,-,-,-,-,-,-
1679,-,-,-,-,-,-,-,-,-,-,...,-,-,-,-,-,-,-,-,-,-
1680,-,-,-,-,-,-,-,-,-,-,...,-,-,-,-,-,-,-,-,-,-
1681,-,-,-,-,-,-,-,-,-,-,...,-,-,-,-,-,-,-,-,-,-
