# scipy.sparse cheatsheet

## Быстрое создание CSR матрицы

In [24]:
import numpy as np
from scipy import sparse

In [3]:
# собираем данные в три списка
rows = []  # id строк ячеек
cols = []  # id столбцов ячеек
data = []  # значение

for i in range(10):
    rows.append(i)
    cols.append(i)
    data.append(i)
    
sm = sparse.csr_matrix((data, (rows, cols)))
sm.todense()

matrix([[0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
        [0, 1, 0, 0, 0, 0, 0, 0, 0, 0],
        [0, 0, 2, 0, 0, 0, 0, 0, 0, 0],
        [0, 0, 0, 3, 0, 0, 0, 0, 0, 0],
        [0, 0, 0, 0, 4, 0, 0, 0, 0, 0],
        [0, 0, 0, 0, 0, 5, 0, 0, 0, 0],
        [0, 0, 0, 0, 0, 0, 6, 0, 0, 0],
        [0, 0, 0, 0, 0, 0, 0, 7, 0, 0],
        [0, 0, 0, 0, 0, 0, 0, 0, 8, 0],
        [0, 0, 0, 0, 0, 0, 0, 0, 0, 9]], dtype=int64)

## Рандомная матрица с определенной плотностью и типом

In [34]:
sm = sparse.rand(10, 10, density=0.1, format='csr')
sm

<10x10 sparse matrix of type '<class 'numpy.float64'>'
	with 10 stored elements in Compressed Sparse Row format>

## Количество ненулевых элементов

In [35]:
sm = sparse.rand(1000, 1000, density=0.001, format='csr')
sm

<1000x1000 sparse matrix of type '<class 'numpy.float64'>'
	with 1000 stored elements in Compressed Sparse Row format>

In [36]:
# в матрице
sm.nnz

1000

In [37]:
from sklearn.preprocessing import binarize

In [38]:
%%time
# в строках
binarize(sm).sum(axis=1).A1

CPU times: user 938 µs, sys: 694 µs, total: 1.63 ms
Wall time: 986 µs


array([ 0.,  0.,  1.,  0.,  0.,  2.,  0.,  1.,  2.,  0.,  2.,  2.,  0.,
        0.,  0.,  1.,  2.,  1.,  0.,  4.,  1.,  1.,  1.,  0.,  1.,  0.,
        0.,  1.,  0.,  2.,  0.,  0.,  0.,  2.,  1.,  1.,  0.,  1.,  1.,
        2.,  1.,  0.,  2.,  0.,  0.,  1.,  2.,  1.,  3.,  0.,  2.,  1.,
        3.,  0.,  0.,  0.,  0.,  0.,  2.,  0.,  3.,  1.,  2.,  1.,  0.,
        0.,  1.,  3.,  3.,  2.,  0.,  0.,  1.,  1.,  3.,  3.,  2.,  0.,
        3.,  2.,  2.,  0.,  1.,  0.,  1.,  0.,  0.,  0.,  1.,  3.,  2.,
        0.,  0.,  1.,  2.,  0.,  1.,  1.,  0.,  0.,  2.,  1.,  1.,  2.,
        2.,  2.,  0.,  1.,  1.,  0.,  3.,  1.,  2.,  1.,  0.,  2.,  0.,
        1.,  3.,  0.,  0.,  0.,  1.,  1.,  0.,  2.,  3.,  1.,  0.,  1.,
        0.,  0.,  2.,  0.,  1.,  0.,  0.,  1.,  0.,  0.,  3.,  2.,  0.,
        0.,  0.,  0.,  0.,  1.,  3.,  2.,  1.,  2.,  1.,  0.,  0.,  1.,
        1.,  1.,  1.,  0.,  0.,  0.,  2.,  1.,  0.,  3.,  3.,  0.,  4.,
        0.,  0.,  3.,  1.,  1.,  1.,  1.,  1.,  1.,  0.,  2.,  1

In [39]:
%%time
# в столбцах
binarize(sm).sum(axis=0).A1

CPU times: user 760 µs, sys: 283 µs, total: 1.04 ms
Wall time: 824 µs


array([ 1.,  1.,  1.,  1.,  1.,  1.,  1.,  2.,  1.,  1.,  2.,  0.,  3.,
        1.,  2.,  1.,  1.,  1.,  1.,  1.,  1.,  2.,  0.,  1.,  0.,  1.,
        0.,  1.,  0.,  0.,  0.,  1.,  0.,  2.,  0.,  2.,  2.,  0.,  3.,
        0.,  0.,  0.,  2.,  0.,  0.,  0.,  2.,  0.,  2.,  1.,  1.,  1.,
        1.,  1.,  1.,  1.,  2.,  1.,  3.,  0.,  1.,  2.,  0.,  1.,  1.,
        2.,  1.,  1.,  1.,  1.,  2.,  2.,  1.,  0.,  1.,  1.,  0.,  3.,
        1.,  0.,  3.,  0.,  1.,  0.,  2.,  4.,  0.,  0.,  0.,  1.,  2.,
        0.,  0.,  0.,  1.,  1.,  0.,  1.,  0.,  0.,  1.,  0.,  0.,  2.,
        0.,  0.,  1.,  1.,  1.,  4.,  1.,  0.,  1.,  1.,  3.,  2.,  1.,
        0.,  1.,  0.,  0.,  0.,  1.,  0.,  1.,  1.,  1.,  0.,  1.,  0.,
        1.,  0.,  2.,  1.,  1.,  1.,  1.,  0.,  1.,  0.,  1.,  3.,  2.,
        0.,  0.,  3.,  1.,  0.,  0.,  0.,  3.,  0.,  0.,  0.,  1.,  0.,
        2.,  0.,  3.,  1.,  0.,  0.,  0.,  1.,  0.,  1.,  1.,  0.,  0.,
        0.,  1.,  1.,  0.,  0.,  0.,  0.,  0.,  2.,  2.,  2.,  0

## Сортировка ненулевого содержимого строки в CSR

In [51]:
sm = sparse.rand(1, 10, 0.5, 'csr')
sm.todense()

matrix([[ 0.        ,  0.25873699,  0.4387261 ,  0.95290126,  0.        ,
          0.        ,  0.        ,  0.        ,  0.81078778,  0.0458173 ]])

In [53]:
row = sm[0]
for arg_id in np.argsort(row.data)[::-1]:
    print("col_id:", row.indices[arg_id], "val:", row.data[arg_id])

col_id: 3 val: 0.952901260716
col_id: 8 val: 0.810787776758
col_id: 2 val: 0.438726103474
col_id: 1 val: 0.258736987351
col_id: 9 val: 0.045817298097


## Поиск top-N значений строки в CSR

In [55]:
sm = sparse.rand(1, 100, 0.5, 'csr')

In [57]:
top = 5
row = sm[0]
for arg_id in np.argsort(row.data)[-top:]:
    print("col_id:", row.indices[arg_id], "val:", row.data[arg_id])

col_id: 43 val: 0.936982875555
col_id: 2 val: 0.946951787128
col_id: 80 val: 0.973117001535
col_id: 89 val: 0.981693868286
col_id: 38 val: 0.992045649892


## Поиск cosine similarity между строками матрицы

In [58]:
sm = sparse.rand(5, 100, 0.5, 'csr')

In [59]:
from sklearn.preprocessing import normalize
n_sm = normalize(sm)
sim_m = n_sm.dot(n_sm.T)
sim_m  # будьте осторожны! может получиться очень плотная матрица

<5x5 sparse matrix of type '<class 'numpy.float64'>'
	with 25 stored elements in Compressed Sparse Row format>

In [60]:
sim_m.todense()

matrix([[ 1.        ,  0.26264526,  0.32288984,  0.37648682,  0.39229546],
        [ 0.26264526,  1.        ,  0.3824054 ,  0.40896684,  0.47678432],
        [ 0.32288984,  0.3824054 ,  1.        ,  0.45120097,  0.42890367],
        [ 0.37648682,  0.40896684,  0.45120097,  1.        ,  0.4328896 ],
        [ 0.39229546,  0.47678432,  0.42890367,  0.4328896 ,  1.        ]])

## Быстрое зануление диагонали

In [62]:
positions = range(sim_m.shape[0])
eye = sparse.csr_matrix((np.ones(len(positions)), (positions, positions)), sim_m.shape)
sim_m = sim_m - sim_m.multiply(eye)

In [63]:
sim_m.todense()

matrix([[ 0.        ,  0.26264526,  0.32288984,  0.37648682,  0.39229546],
        [ 0.26264526,  0.        ,  0.3824054 ,  0.40896684,  0.47678432],
        [ 0.32288984,  0.3824054 ,  0.        ,  0.45120097,  0.42890367],
        [ 0.37648682,  0.40896684,  0.45120097,  0.        ,  0.4328896 ],
        [ 0.39229546,  0.47678432,  0.42890367,  0.4328896 ,  0.        ]])

## Зануление значений матрицы по маске

In [67]:
mask = np.random.randint(0, 2, (1, 5))
mask

array([[0, 1, 1, 1, 0]])

In [68]:
sm = sparse.rand(5, 5, 0.5, 'csr')
sm.todense()

matrix([[ 0.        ,  0.        ,  0.44875038,  0.86870646,  0.61419426],
        [ 0.        ,  0.51972568,  0.18066229,  0.        ,  0.47845193],
        [ 0.        ,  0.        ,  0.19983709,  0.        ,  0.14612379],
        [ 0.        ,  0.48666559,  0.        ,  0.03926445,  0.        ],
        [ 0.        ,  0.71699292,  0.        ,  0.54882862,  0.        ]])

In [69]:
# маска по строкам
sm.multiply(mask).todense()

matrix([[ 0.        ,  0.        ,  0.44875038,  0.86870646,  0.        ],
        [ 0.        ,  0.51972568,  0.18066229,  0.        ,  0.        ],
        [ 0.        ,  0.        ,  0.19983709,  0.        ,  0.        ],
        [ 0.        ,  0.48666559,  0.        ,  0.03926445,  0.        ],
        [ 0.        ,  0.71699292,  0.        ,  0.54882862,  0.        ]])

In [70]:
# маска по столбцам
sm.multiply(mask.T).todense()

matrix([[ 0.        ,  0.        ,  0.        ,  0.        ,  0.        ],
        [ 0.        ,  0.51972568,  0.18066229,  0.        ,  0.47845193],
        [ 0.        ,  0.        ,  0.19983709,  0.        ,  0.14612379],
        [ 0.        ,  0.48666559,  0.        ,  0.03926445,  0.        ],
        [ 0.        ,  0.        ,  0.        ,  0.        ,  0.        ]])

## Зануление ячеек матрицы A, присутствующих в матрице B

In [71]:
sm.todense()

matrix([[ 0.        ,  0.        ,  0.44875038,  0.86870646,  0.61419426],
        [ 0.        ,  0.51972568,  0.18066229,  0.        ,  0.47845193],
        [ 0.        ,  0.        ,  0.19983709,  0.        ,  0.14612379],
        [ 0.        ,  0.48666559,  0.        ,  0.03926445,  0.        ],
        [ 0.        ,  0.71699292,  0.        ,  0.54882862,  0.        ]])

In [72]:
sm1 = sparse.rand(5, 5, 0.5, 'csr')
sm1.todense()

matrix([[ 0.45955704,  0.71389457,  0.95592694,  0.        ,  0.89072663],
        [ 0.        ,  0.        ,  0.        ,  0.27902643,  0.        ],
        [ 0.        ,  0.21287745,  0.        ,  0.32052213,  0.        ],
        [ 0.02520626,  0.67379359,  0.        ,  0.        ,  0.69179434],
        [ 0.67781855,  0.        ,  0.        ,  0.48724737,  0.        ]])

In [73]:
sm = sm - sm.multiply(binarize(sm1))
sm.todense()

matrix([[ 0.        ,  0.        ,  0.        ,  0.86870646,  0.        ],
        [ 0.        ,  0.51972568,  0.18066229,  0.        ,  0.47845193],
        [ 0.        ,  0.        ,  0.19983709,  0.        ,  0.14612379],
        [ 0.        ,  0.        ,  0.        ,  0.03926445,  0.        ],
        [ 0.        ,  0.71699292,  0.        ,  0.        ,  0.        ]])