# scipy.sparse cheatsheet

## Быстрое создание CSR матрицы

In [1]:
import numpy as np
from scipy import sparse

In [2]:
# собираем данные в три списка
rows = []  # id строк ячеек
cols = []  # id столбцов ячеек
data = []  # значение

for i in range(10):
    rows.append(i)
    cols.append(i)
    data.append(i)
    
sm = sparse.csr_matrix((data, (rows, cols)))
sm.todense()

matrix([[0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
        [0, 1, 0, 0, 0, 0, 0, 0, 0, 0],
        [0, 0, 2, 0, 0, 0, 0, 0, 0, 0],
        [0, 0, 0, 3, 0, 0, 0, 0, 0, 0],
        [0, 0, 0, 0, 4, 0, 0, 0, 0, 0],
        [0, 0, 0, 0, 0, 5, 0, 0, 0, 0],
        [0, 0, 0, 0, 0, 0, 6, 0, 0, 0],
        [0, 0, 0, 0, 0, 0, 0, 7, 0, 0],
        [0, 0, 0, 0, 0, 0, 0, 0, 8, 0],
        [0, 0, 0, 0, 0, 0, 0, 0, 0, 9]], dtype=int64)

## Рандомная матрица с определенной плотностью и типом

In [3]:
sm = sparse.rand(10, 10, density=0.1, format='csr')
sm

<10x10 sparse matrix of type '<class 'numpy.float64'>'
	with 10 stored elements in Compressed Sparse Row format>

## Количество ненулевых элементов

In [4]:
sm = sparse.rand(1000, 1000, density=0.001, format='csr')
sm

<1000x1000 sparse matrix of type '<class 'numpy.float64'>'
	with 1000 stored elements in Compressed Sparse Row format>

In [6]:
# в матрице ненулевые элементы
sm.nnz

1000

In [7]:
from sklearn.preprocessing import binarize

In [8]:
%%time
# в строках
binarize(sm).sum(axis=1).A1

CPU times: user 2.11 ms, sys: 606 µs, total: 2.72 ms
Wall time: 1.7 ms


array([1., 2., 0., 0., 2., 1., 1., 3., 1., 1., 0., 0., 1., 2., 1., 1., 1.,
       2., 0., 1., 0., 0., 0., 1., 0., 0., 0., 3., 0., 0., 1., 0., 1., 0.,
       0., 0., 1., 0., 1., 0., 3., 0., 1., 1., 2., 1., 1., 0., 0., 0., 1.,
       1., 0., 0., 1., 1., 0., 2., 1., 2., 1., 2., 0., 2., 0., 0., 0., 1.,
       0., 0., 0., 0., 2., 0., 0., 1., 0., 1., 1., 2., 1., 0., 3., 0., 1.,
       0., 3., 3., 1., 0., 0., 1., 2., 3., 3., 3., 0., 2., 0., 0., 0., 0.,
       1., 2., 1., 2., 0., 1., 1., 1., 1., 3., 0., 0., 1., 0., 0., 0., 1.,
       1., 2., 0., 0., 2., 2., 0., 3., 1., 1., 0., 0., 3., 0., 0., 0., 1.,
       3., 1., 2., 1., 0., 0., 3., 1., 0., 1., 0., 3., 2., 1., 1., 1., 0.,
       0., 1., 1., 0., 0., 0., 3., 0., 2., 1., 3., 4., 2., 0., 1., 1., 1.,
       2., 1., 2., 0., 0., 0., 0., 0., 1., 3., 3., 0., 0., 1., 0., 3., 3.,
       0., 1., 4., 3., 1., 0., 0., 3., 1., 2., 1., 1., 1., 1., 1., 2., 2.,
       2., 1., 0., 0., 2., 0., 1., 2., 1., 2., 1., 0., 1., 1., 1., 0., 1.,
       0., 2., 1., 0., 0.

In [9]:
%%time
# в столбцах кол-во ненулевых
binarize(sm).sum(axis=0).A1

CPU times: user 2.12 ms, sys: 598 µs, total: 2.71 ms
Wall time: 34.4 ms


array([1., 0., 1., 2., 0., 0., 2., 1., 1., 0., 2., 1., 0., 2., 2., 0., 0.,
       2., 0., 1., 0., 1., 1., 1., 2., 1., 0., 0., 1., 2., 0., 0., 1., 1.,
       1., 1., 3., 0., 0., 4., 3., 1., 0., 0., 0., 2., 0., 2., 0., 1., 1.,
       4., 0., 0., 3., 2., 0., 0., 2., 2., 0., 0., 0., 0., 2., 1., 1., 2.,
       1., 1., 0., 1., 0., 1., 2., 0., 1., 0., 0., 2., 0., 0., 0., 2., 2.,
       0., 0., 1., 1., 1., 3., 0., 1., 1., 4., 1., 2., 3., 0., 1., 1., 0.,
       3., 1., 0., 2., 3., 1., 0., 0., 2., 0., 1., 1., 2., 1., 4., 0., 1.,
       1., 1., 1., 4., 1., 3., 0., 0., 1., 3., 1., 0., 0., 0., 0., 1., 1.,
       1., 2., 1., 0., 0., 1., 1., 2., 3., 1., 2., 2., 1., 0., 1., 2., 0.,
       0., 0., 2., 1., 1., 2., 4., 0., 2., 1., 2., 1., 1., 2., 0., 0., 1.,
       0., 1., 1., 1., 0., 1., 1., 2., 1., 1., 1., 1., 3., 1., 1., 0., 1.,
       1., 1., 0., 3., 1., 0., 1., 0., 1., 2., 1., 2., 0., 2., 0., 3., 2.,
       1., 1., 1., 0., 0., 1., 1., 0., 1., 4., 1., 2., 1., 3., 0., 0., 0.,
       1., 2., 2., 0., 1.

## Сортировка ненулевого содержимого строки в CSR

In [10]:
sm = sparse.rand(1, 10, 0.5, 'csr')
sm.todense()

matrix([[0.        , 0.44932339, 0.05171654, 0.        , 0.32257292,
         0.71609483, 0.        , 0.        , 0.26189773, 0.        ]])

In [11]:
row = sm[0]
for arg_id in np.argsort(row.data)[::-1]:
    print("col_id:", row.indices[arg_id], "val:", row.data[arg_id])

col_id: 5 val: 0.7160948256771186
col_id: 1 val: 0.449323387163982
col_id: 4 val: 0.3225729155361705
col_id: 8 val: 0.26189772558707447
col_id: 2 val: 0.051716537469773005


## Поиск top-N значений строки в CSR

In [12]:
sm = sparse.rand(1, 100, 0.5, 'csr')

In [13]:
top = 5
row = sm[0]
for arg_id in np.argsort(row.data)[-top:]:
    print("col_id:", row.indices[arg_id], "val:", row.data[arg_id])

col_id: 10 val: 0.9457703171366695
col_id: 78 val: 0.9506520589719325
col_id: 70 val: 0.9546288024924562
col_id: 35 val: 0.9552371921241237
col_id: 20 val: 0.9631232560532206


## Поиск cosine similarity между строками матрицы

In [14]:
sm = sparse.rand(5, 100, 0.5, 'csr')

In [15]:
from sklearn.preprocessing import normalize
n_sm = normalize(sm)
sim_m = n_sm.dot(n_sm.T)
sim_m  # будьте осторожны! может получиться очень плотная матрица

<5x5 sparse matrix of type '<class 'numpy.float64'>'
	with 25 stored elements in Compressed Sparse Row format>

In [16]:
sim_m.todense()

matrix([[1.        , 0.38529632, 0.33129729, 0.4093877 , 0.39450847],
        [0.38529632, 1.        , 0.29197367, 0.40128859, 0.43022885],
        [0.33129729, 0.29197367, 1.        , 0.42198564, 0.45487099],
        [0.4093877 , 0.40128859, 0.42198564, 1.        , 0.24917542],
        [0.39450847, 0.43022885, 0.45487099, 0.24917542, 1.        ]])

## Быстрое зануление диагонали

In [17]:
positions = range(sim_m.shape[0])
eye = sparse.csr_matrix((np.ones(len(positions)), (positions, positions)), sim_m.shape)
sim_m = sim_m - sim_m.multiply(eye)

In [18]:
sim_m.todense()

matrix([[0.        , 0.38529632, 0.33129729, 0.4093877 , 0.39450847],
        [0.38529632, 0.        , 0.29197367, 0.40128859, 0.43022885],
        [0.33129729, 0.29197367, 0.        , 0.42198564, 0.45487099],
        [0.4093877 , 0.40128859, 0.42198564, 0.        , 0.24917542],
        [0.39450847, 0.43022885, 0.45487099, 0.24917542, 0.        ]])

## Зануление значений матрицы по маске

In [19]:
mask = np.random.randint(0, 2, (1, 5))
mask

array([[1, 1, 1, 0, 1]])

In [20]:
sm = sparse.rand(5, 5, 0.5, 'csr')
sm.todense()

matrix([[0.21886255, 0.60024346, 0.40365919, 0.        , 0.        ],
        [0.        , 0.        , 0.        , 0.20902143, 0.18161931],
        [0.        , 0.        , 0.08295832, 0.        , 0.        ],
        [0.00387475, 0.04313885, 0.        , 0.52201364, 0.93229254],
        [0.91433312, 0.        , 0.        , 0.        , 0.28394887]])

In [21]:
# маска по строкам
sm.multiply(mask).todense()

matrix([[0.21886255, 0.60024346, 0.40365919, 0.        , 0.        ],
        [0.        , 0.        , 0.        , 0.        , 0.18161931],
        [0.        , 0.        , 0.08295832, 0.        , 0.        ],
        [0.00387475, 0.04313885, 0.        , 0.        , 0.93229254],
        [0.91433312, 0.        , 0.        , 0.        , 0.28394887]])

In [22]:
# маска по столбцам
sm.multiply(mask.T).todense()

matrix([[0.21886255, 0.60024346, 0.40365919, 0.        , 0.        ],
        [0.        , 0.        , 0.        , 0.20902143, 0.18161931],
        [0.        , 0.        , 0.08295832, 0.        , 0.        ],
        [0.        , 0.        , 0.        , 0.        , 0.        ],
        [0.91433312, 0.        , 0.        , 0.        , 0.28394887]])

## Зануление ячеек матрицы A, присутствующих в матрице B

In [23]:
sm.todense()

matrix([[0.21886255, 0.60024346, 0.40365919, 0.        , 0.        ],
        [0.        , 0.        , 0.        , 0.20902143, 0.18161931],
        [0.        , 0.        , 0.08295832, 0.        , 0.        ],
        [0.00387475, 0.04313885, 0.        , 0.52201364, 0.93229254],
        [0.91433312, 0.        , 0.        , 0.        , 0.28394887]])

In [24]:
sm1 = sparse.rand(5, 5, 0.5, 'csr')
sm1.todense()

matrix([[0.        , 0.        , 0.        , 0.79900365, 0.        ],
        [0.        , 0.        , 0.44402954, 0.93504646, 0.        ],
        [0.        , 0.        , 0.08707048, 0.30132452, 0.91918564],
        [0.16011603, 0.        , 0.8076489 , 0.48736753, 0.        ],
        [0.        , 0.        , 0.70133367, 0.82526597, 0.81985704]])

In [25]:
sm = sm - sm.multiply(binarize(sm1))
sm.todense()

matrix([[0.21886255, 0.60024346, 0.40365919, 0.        , 0.        ],
        [0.        , 0.        , 0.        , 0.        , 0.18161931],
        [0.        , 0.        , 0.        , 0.        , 0.        ],
        [0.        , 0.04313885, 0.        , 0.        , 0.93229254],
        [0.91433312, 0.        , 0.        , 0.        , 0.        ]])