# scipy.sparse cheatsheet

## Быстрое создание CSR матрицы

In [1]:
import numpy as np
from scipy import sparse

In [7]:
# собираем данные в три списка
rows = []  # id строк ячеек
cols = []  # id столбцов ячеек
data = []  # значение

for i in range(10):
    rows.append(i)
    cols.append(i)
    data.append(i)
    
sm = sparse.csr_matrix((data, (rows, cols)))
sm.todense()

matrix([[0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
        [0, 1, 0, 0, 0, 0, 0, 0, 0, 0],
        [0, 0, 2, 0, 0, 0, 0, 0, 0, 0],
        [0, 0, 0, 3, 0, 0, 0, 0, 0, 0],
        [0, 0, 0, 0, 4, 0, 0, 0, 0, 0],
        [0, 0, 0, 0, 0, 5, 0, 0, 0, 0],
        [0, 0, 0, 0, 0, 0, 6, 0, 0, 0],
        [0, 0, 0, 0, 0, 0, 0, 7, 0, 0],
        [0, 0, 0, 0, 0, 0, 0, 0, 8, 0],
        [0, 0, 0, 0, 0, 0, 0, 0, 0, 9]], dtype=int32)

## Рандомная матрица с определенной плотностью и типом

In [8]:
sm = sparse.rand(10, 10, density=0.1, format='csr')
sm

<10x10 sparse matrix of type '<class 'numpy.float64'>'
	with 10 stored elements in Compressed Sparse Row format>

## Количество ненулевых элементов

In [9]:
sm = sparse.rand(1000, 1000, density=0.001, format='csr')
sm

<1000x1000 sparse matrix of type '<class 'numpy.float64'>'
	with 1000 stored elements in Compressed Sparse Row format>

In [10]:
# в матрице
sm.nnz

1000

In [11]:
from sklearn.preprocessing import binarize

In [12]:
%%time
# в строках
binarize(sm).sum(axis=1).A1

CPU times: total: 0 ns
Wall time: 999 µs


array([2., 0., 1., 0., 3., 0., 0., 0., 0., 1., 1., 1., 0., 1., 0., 2., 0.,
       0., 2., 1., 2., 2., 0., 3., 0., 0., 3., 0., 2., 3., 2., 2., 0., 1.,
       1., 2., 0., 0., 1., 0., 8., 2., 0., 1., 3., 1., 1., 0., 1., 1., 1.,
       3., 0., 2., 1., 1., 2., 2., 1., 0., 0., 1., 1., 2., 0., 0., 1., 0.,
       0., 1., 2., 0., 0., 0., 0., 1., 0., 0., 0., 1., 1., 0., 2., 4., 1.,
       1., 1., 4., 2., 1., 2., 3., 0., 0., 1., 0., 2., 0., 0., 0., 0., 0.,
       2., 1., 2., 2., 2., 3., 0., 3., 0., 0., 1., 2., 1., 1., 1., 3., 1.,
       2., 0., 1., 0., 0., 2., 2., 1., 0., 1., 2., 1., 0., 2., 2., 1., 0.,
       0., 3., 2., 0., 2., 0., 0., 0., 1., 0., 3., 1., 2., 2., 2., 1., 2.,
       0., 0., 0., 1., 1., 3., 1., 3., 0., 1., 3., 2., 1., 0., 1., 1., 0.,
       1., 2., 3., 0., 1., 2., 0., 1., 2., 2., 2., 2., 1., 1., 0., 0., 1.,
       0., 1., 1., 1., 5., 0., 2., 1., 0., 2., 1., 0., 1., 1., 0., 0., 2.,
       3., 0., 1., 0., 1., 0., 1., 2., 0., 1., 0., 0., 1., 0., 0., 1., 2.,
       1., 0., 1., 0., 1.

In [13]:
%%time
# в столбцах
binarize(sm).sum(axis=0).A1

CPU times: total: 0 ns
Wall time: 3 ms


array([1., 2., 1., 0., 2., 3., 0., 0., 1., 1., 1., 1., 2., 0., 0., 1., 0.,
       0., 1., 1., 0., 2., 0., 1., 2., 0., 2., 1., 1., 2., 0., 0., 2., 0.,
       2., 0., 0., 1., 1., 1., 1., 1., 1., 3., 0., 0., 1., 0., 3., 1., 1.,
       1., 1., 1., 2., 2., 0., 0., 2., 0., 1., 1., 2., 0., 4., 0., 3., 0.,
       0., 2., 0., 0., 2., 0., 2., 1., 2., 0., 0., 0., 2., 2., 0., 0., 0.,
       0., 1., 0., 0., 0., 0., 2., 2., 2., 1., 2., 0., 1., 1., 1., 0., 1.,
       1., 0., 1., 1., 2., 0., 1., 1., 1., 1., 0., 0., 1., 0., 1., 0., 0.,
       2., 0., 1., 0., 0., 1., 0., 1., 1., 2., 1., 1., 4., 4., 1., 2., 1.,
       1., 3., 0., 2., 0., 2., 1., 2., 2., 0., 3., 0., 1., 1., 0., 0., 1.,
       2., 1., 0., 1., 3., 1., 3., 0., 4., 1., 0., 1., 1., 0., 1., 0., 2.,
       0., 0., 0., 1., 0., 1., 1., 3., 1., 1., 1., 2., 1., 1., 1., 0., 1.,
       1., 3., 0., 1., 1., 0., 3., 1., 0., 2., 3., 0., 1., 0., 0., 2., 0.,
       0., 4., 1., 1., 1., 0., 0., 0., 0., 0., 0., 0., 1., 0., 1., 0., 2.,
       0., 1., 2., 1., 0.

## Сортировка ненулевого содержимого строки в CSR

In [50]:
sm = sparse.rand(1, 10, 0.5, 'csr')
sm.todense()

matrix([[0.31949599, 0.        , 0.13119976, 0.        , 0.22998921,
         0.91244961, 0.        , 0.        , 0.83058171, 0.        ]])

In [51]:
row = sm[0]
for arg_id in np.argsort(row.data)[::-1]:
    print("col_id:", row.indices[arg_id], "val:", row.data[arg_id])

col_id: 5 val: 0.9124496053015844
col_id: 8 val: 0.8305817104800365
col_id: 0 val: 0.3194959946599376
col_id: 4 val: 0.22998921241544634
col_id: 2 val: 0.1311997630582573


## Поиск top-N значений строки в CSR

In [52]:
sm = sparse.rand(1, 100, 0.5, 'csr')

In [53]:
top = 5
row = sm[0]
for arg_id in np.argsort(row.data)[-top:]:
    print("col_id:", row.indices[arg_id], "val:", row.data[arg_id])

col_id: 10 val: 0.8783069385955683
col_id: 91 val: 0.8870697825797383
col_id: 46 val: 0.8881834031006408
col_id: 68 val: 0.9199551462381551
col_id: 19 val: 0.976514550957268


## Поиск cosine similarity между строками матрицы

In [54]:
sm = sparse.rand(5, 100, 0.5, 'csr')

In [60]:
from sklearn.preprocessing import normalize
n_sm = normalize(sm)
sim_m = n_sm.dot(n_sm.T)
sim_m  # будьте осторожны! может получиться очень плотная матрица

<5x5 sparse matrix of type '<class 'numpy.float64'>'
	with 25 stored elements in Compressed Sparse Row format>

In [61]:
sim_m.todense()

matrix([[1.        , 0.31159257, 0.40648961, 0.32154922, 0.49376986],
        [0.31159257, 1.        , 0.40955122, 0.32039263, 0.4122537 ],
        [0.40648961, 0.40955122, 1.        , 0.35866398, 0.39175594],
        [0.32154922, 0.32039263, 0.35866398, 1.        , 0.31636695],
        [0.49376986, 0.4122537 , 0.39175594, 0.31636695, 1.        ]])

## Быстрое зануление диагонали

In [62]:
positions = range(sim_m.shape[0])
eye = sparse.csr_matrix((np.ones(len(positions)), (positions, positions)), sim_m.shape)
sim_m = sim_m - sim_m.multiply(eye)

In [63]:
sim_m.todense()

matrix([[0.        , 0.31159257, 0.40648961, 0.32154922, 0.49376986],
        [0.31159257, 0.        , 0.40955122, 0.32039263, 0.4122537 ],
        [0.40648961, 0.40955122, 0.        , 0.35866398, 0.39175594],
        [0.32154922, 0.32039263, 0.35866398, 0.        , 0.31636695],
        [0.49376986, 0.4122537 , 0.39175594, 0.31636695, 0.        ]])

## Зануление значений матрицы по маске

In [64]:
mask = np.random.randint(0, 2, (1, 5))
mask

array([[1, 0, 0, 1, 1]])

In [79]:
sm = sparse.rand(5, 5, 0.5, 'csr')
sm.todense()

matrix([[0.        , 0.67427064, 0.        , 0.        , 0.00099385],
        [0.        , 0.97152824, 0.54482407, 0.46580612, 0.        ],
        [0.36863241, 0.        , 0.89393903, 0.        , 0.        ],
        [0.19608143, 0.60430655, 0.55298565, 0.05058063, 0.        ],
        [0.        , 0.06587405, 0.        , 0.        , 0.        ]])

In [80]:
# маска по строкам
sm.multiply(mask).todense()

matrix([[0.        , 0.        , 0.        , 0.        , 0.00099385],
        [0.        , 0.        , 0.        , 0.46580612, 0.        ],
        [0.36863241, 0.        , 0.        , 0.        , 0.        ],
        [0.19608143, 0.        , 0.        , 0.05058063, 0.        ],
        [0.        , 0.        , 0.        , 0.        , 0.        ]])

In [81]:
# маска по столбцам
sm.multiply(mask.T).todense()

matrix([[0.        , 0.67427064, 0.        , 0.        , 0.00099385],
        [0.        , 0.        , 0.        , 0.        , 0.        ],
        [0.        , 0.        , 0.        , 0.        , 0.        ],
        [0.19608143, 0.60430655, 0.55298565, 0.05058063, 0.        ],
        [0.        , 0.06587405, 0.        , 0.        , 0.        ]])

## Зануление ячеек матрицы A, присутствующих в матрице B

In [82]:
sm.todense()

matrix([[0.        , 0.67427064, 0.        , 0.        , 0.00099385],
        [0.        , 0.97152824, 0.54482407, 0.46580612, 0.        ],
        [0.36863241, 0.        , 0.89393903, 0.        , 0.        ],
        [0.19608143, 0.60430655, 0.55298565, 0.05058063, 0.        ],
        [0.        , 0.06587405, 0.        , 0.        , 0.        ]])

In [83]:
sm1 = sparse.rand(5, 5, 0.5, 'csr')
sm1.todense()

matrix([[0.        , 0.908173  , 0.10695622, 0.90290809, 0.15158152],
        [0.        , 0.03980541, 0.92406288, 0.        , 0.        ],
        [0.        , 0.        , 0.85647176, 0.70649482, 0.        ],
        [0.        , 0.16169017, 0.48738001, 0.        , 0.        ],
        [0.        , 0.81986878, 0.57305365, 0.        , 0.        ]])

In [84]:
sm = sm - sm.multiply(binarize(sm1))
sm.todense()

matrix([[0.        , 0.        , 0.        , 0.        , 0.        ],
        [0.        , 0.        , 0.        , 0.46580612, 0.        ],
        [0.36863241, 0.        , 0.        , 0.        , 0.        ],
        [0.19608143, 0.        , 0.        , 0.05058063, 0.        ],
        [0.        , 0.        , 0.        , 0.        , 0.        ]])