# scipy.sparse cheatsheet

## Быстрое создание CSR матрицы

In [1]:
import numpy as np
from scipy import sparse

In [2]:
# собираем данные в три списка
rows = []  # id строк ячеек
cols = []  # id столбцов ячеек
data = []  # значение

for i in range(10):
    rows.append(i)
    cols.append(i)
    data.append(i)
    
sm = sparse.csr_matrix((data, (rows, cols)))
sm.todense()

matrix([[0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
        [0, 1, 0, 0, 0, 0, 0, 0, 0, 0],
        [0, 0, 2, 0, 0, 0, 0, 0, 0, 0],
        [0, 0, 0, 3, 0, 0, 0, 0, 0, 0],
        [0, 0, 0, 0, 4, 0, 0, 0, 0, 0],
        [0, 0, 0, 0, 0, 5, 0, 0, 0, 0],
        [0, 0, 0, 0, 0, 0, 6, 0, 0, 0],
        [0, 0, 0, 0, 0, 0, 0, 7, 0, 0],
        [0, 0, 0, 0, 0, 0, 0, 0, 8, 0],
        [0, 0, 0, 0, 0, 0, 0, 0, 0, 9]], dtype=int64)

## Рандомная матрица с определенной плотностью и типом

In [3]:
sm = sparse.rand(10, 10, density=0.1, format='csr')
sm

<10x10 sparse matrix of type '<class 'numpy.float64'>'
	with 10 stored elements in Compressed Sparse Row format>

## Количество ненулевых элементов

In [4]:
sm = sparse.rand(1000, 1000, density=0.001, format='csr')
sm

<1000x1000 sparse matrix of type '<class 'numpy.float64'>'
	with 1000 stored elements in Compressed Sparse Row format>

In [5]:
# в матрице
sm.nnz

1000

In [6]:
from sklearn.preprocessing import binarize

In [7]:
%%time
# в строках
binarize(sm).sum(axis=1).A1

CPU times: user 942 µs, sys: 517 µs, total: 1.46 ms
Wall time: 1.2 ms


array([0., 1., 1., 0., 0., 0., 0., 1., 5., 1., 0., 2., 1., 1., 0., 1., 1.,
       1., 1., 0., 1., 3., 0., 1., 1., 0., 1., 1., 1., 0., 0., 2., 2., 0.,
       2., 1., 2., 1., 2., 0., 1., 0., 1., 3., 0., 2., 2., 2., 1., 2., 1.,
       0., 2., 0., 3., 1., 1., 0., 0., 2., 1., 3., 2., 0., 0., 0., 1., 1.,
       0., 2., 1., 0., 1., 1., 0., 0., 1., 1., 2., 2., 1., 0., 0., 0., 1.,
       0., 2., 0., 0., 0., 0., 0., 1., 1., 3., 1., 1., 2., 0., 1., 1., 3.,
       2., 0., 0., 1., 1., 1., 2., 1., 0., 3., 0., 2., 2., 1., 0., 2., 0.,
       0., 3., 1., 0., 2., 2., 3., 1., 1., 0., 0., 1., 2., 1., 1., 1., 0.,
       1., 0., 3., 1., 3., 0., 0., 3., 2., 2., 2., 2., 1., 2., 1., 0., 0.,
       2., 3., 1., 1., 1., 0., 2., 0., 2., 1., 1., 2., 0., 1., 1., 0., 1.,
       1., 0., 3., 1., 1., 0., 2., 2., 0., 1., 0., 2., 2., 1., 1., 2., 0.,
       1., 3., 0., 1., 0., 2., 3., 1., 2., 0., 1., 3., 2., 3., 0., 3., 1.,
       0., 0., 0., 0., 1., 0., 1., 1., 1., 0., 2., 1., 2., 2., 1., 1., 0.,
       0., 1., 0., 1., 2.

In [8]:
%%time
# в столбцах
binarize(sm).sum(axis=0).A1

CPU times: user 1.63 ms, sys: 2.37 ms, total: 4 ms
Wall time: 9.13 ms


array([2., 1., 1., 1., 0., 2., 1., 0., 0., 1., 0., 1., 3., 0., 0., 0., 2.,
       0., 0., 0., 0., 0., 1., 0., 0., 2., 0., 2., 1., 1., 2., 0., 0., 1.,
       2., 0., 1., 1., 1., 2., 0., 1., 0., 1., 0., 0., 2., 1., 3., 0., 1.,
       0., 1., 0., 2., 0., 1., 0., 0., 0., 1., 2., 2., 0., 5., 0., 0., 1.,
       2., 0., 0., 0., 0., 0., 1., 2., 0., 1., 1., 2., 1., 0., 0., 2., 1.,
       3., 1., 1., 1., 1., 2., 0., 2., 1., 0., 0., 1., 0., 2., 0., 0., 1.,
       0., 1., 2., 1., 0., 2., 2., 1., 1., 3., 4., 1., 3., 1., 1., 1., 0.,
       2., 1., 3., 1., 3., 0., 1., 1., 1., 2., 1., 0., 1., 0., 0., 0., 0.,
       1., 0., 0., 2., 0., 2., 0., 0., 0., 0., 1., 0., 1., 4., 0., 2., 0.,
       1., 0., 1., 0., 1., 2., 2., 1., 1., 2., 2., 0., 3., 2., 0., 1., 0.,
       3., 0., 0., 1., 2., 0., 1., 0., 2., 1., 0., 4., 0., 1., 4., 0., 1.,
       1., 0., 0., 0., 0., 1., 2., 1., 0., 0., 1., 1., 0., 2., 2., 1., 0.,
       1., 1., 0., 1., 0., 1., 4., 1., 1., 1., 0., 1., 0., 0., 1., 1., 3.,
       4., 1., 1., 0., 1.

## Сортировка ненулевого содержимого строки в CSR

In [9]:
sm = sparse.rand(1, 10, 0.5, 'csr')
sm.todense()

matrix([[0.67685501, 0.        , 0.93677932, 0.        , 0.        ,
         0.        , 0.94927369, 0.69794684, 0.6456478 , 0.        ]])

In [10]:
row = sm[0]
for arg_id in np.argsort(row.data)[::-1]:
    print("col_id:", row.indices[arg_id], "val:", row.data[arg_id])

col_id: 6 val: 0.949273689213821
col_id: 2 val: 0.9367793227764123
col_id: 7 val: 0.6979468400014425
col_id: 0 val: 0.6768550079583622
col_id: 8 val: 0.6456477951611346


## Поиск top-N значений строки в CSR

In [11]:
sm = sparse.rand(1, 100, 0.5, 'csr')

In [12]:
top = 5
row = sm[0]
for arg_id in np.argsort(row.data)[-top:]:
    print("col_id:", row.indices[arg_id], "val:", row.data[arg_id])

col_id: 42 val: 0.9227925551730524
col_id: 56 val: 0.9238186886048755
col_id: 22 val: 0.9317204386254689
col_id: 58 val: 0.9595404312017738
col_id: 36 val: 0.9849759124489927


## Поиск cosine similarity между строками матрицы

In [13]:
sm = sparse.rand(5, 100, 0.5, 'csr')

In [14]:
from sklearn.preprocessing import normalize
n_sm = normalize(sm)
sim_m = n_sm.dot(n_sm.T)
sim_m  # будьте осторожны! может получиться очень плотная матрица

<5x5 sparse matrix of type '<class 'numpy.float64'>'
	with 25 stored elements in Compressed Sparse Row format>

In [17]:
sm

<5x100 sparse matrix of type '<class 'numpy.float64'>'
	with 250 stored elements in Compressed Sparse Row format>

In [16]:
sim_m.todense()

matrix([[1.        , 0.40763474, 0.29161093, 0.39268977, 0.46778314],
        [0.40763474, 1.        , 0.42703279, 0.48653046, 0.35576718],
        [0.29161093, 0.42703279, 1.        , 0.29420931, 0.37735626],
        [0.39268977, 0.48653046, 0.29420931, 1.        , 0.44286406],
        [0.46778314, 0.35576718, 0.37735626, 0.44286406, 1.        ]])

## Быстрое зануление диагонали

In [18]:
positions = range(sim_m.shape[0])
eye = sparse.csr_matrix((np.ones(len(positions)), (positions, positions)), sim_m.shape)
sim_m = sim_m - sim_m.multiply(eye)

In [21]:
sim_m.todense()

matrix([[0.        , 0.41895395, 0.31537856, 0.44546318, 0.42898594],
        [0.41895395, 0.        , 0.29714929, 0.33341492, 0.47991741],
        [0.31537856, 0.29714929, 0.        , 0.34989638, 0.29188846],
        [0.44546318, 0.33341492, 0.34989638, 0.        , 0.33255047],
        [0.42898594, 0.47991741, 0.29188846, 0.33255047, 0.        ]])

## Зануление значений матрицы по маске

In [19]:
mask = np.random.randint(0, 2, (1, 5))
mask

array([[0, 0, 1, 1, 1]])

In [20]:
sm = sparse.rand(5, 5, 0.5, 'csr')
sm.todense()

matrix([[0.76113262, 0.        , 0.        , 0.        , 0.83050727],
        [0.45302967, 0.42575622, 0.        , 0.45434881, 0.        ],
        [0.        , 0.86673147, 0.71592278, 0.        , 0.25411991],
        [0.        , 0.        , 0.48879966, 0.        , 0.82726203],
        [0.        , 0.        , 0.        , 0.38956315, 0.62168637]])

In [21]:
# маска по строкам
sm.multiply(mask).todense()

matrix([[0.        , 0.        , 0.        , 0.        , 0.83050727],
        [0.        , 0.        , 0.        , 0.45434881, 0.        ],
        [0.        , 0.        , 0.71592278, 0.        , 0.25411991],
        [0.        , 0.        , 0.48879966, 0.        , 0.82726203],
        [0.        , 0.        , 0.        , 0.38956315, 0.62168637]])

In [22]:
# маска по столбцам
sm.multiply(mask.T).todense()

matrix([[0.        , 0.        , 0.        , 0.        , 0.        ],
        [0.        , 0.        , 0.        , 0.        , 0.        ],
        [0.        , 0.86673147, 0.71592278, 0.        , 0.25411991],
        [0.        , 0.        , 0.48879966, 0.        , 0.82726203],
        [0.        , 0.        , 0.        , 0.38956315, 0.62168637]])

## Зануление ячеек матрицы A, присутствующих в матрице B

In [23]:
sm.todense()

matrix([[0.76113262, 0.        , 0.        , 0.        , 0.83050727],
        [0.45302967, 0.42575622, 0.        , 0.45434881, 0.        ],
        [0.        , 0.86673147, 0.71592278, 0.        , 0.25411991],
        [0.        , 0.        , 0.48879966, 0.        , 0.82726203],
        [0.        , 0.        , 0.        , 0.38956315, 0.62168637]])

In [24]:
sm1 = sparse.rand(5, 5, 0.5, 'csr')
sm1.todense()

matrix([[0.        , 0.13634602, 0.        , 0.58138976, 0.76031414],
        [0.        , 0.95161804, 0.        , 0.79719165, 0.38793731],
        [0.67088622, 0.        , 0.        , 0.        , 0.39874275],
        [0.9258781 , 0.        , 0.        , 0.47030779, 0.75882751],
        [0.        , 0.        , 0.        , 0.        , 0.0966823 ]])

In [25]:
sm = sm - sm.multiply(binarize(sm1))
sm.todense()

matrix([[0.76113262, 0.        , 0.        , 0.        , 0.        ],
        [0.45302967, 0.        , 0.        , 0.        , 0.        ],
        [0.        , 0.86673147, 0.71592278, 0.        , 0.        ],
        [0.        , 0.        , 0.48879966, 0.        , 0.        ],
        [0.        , 0.        , 0.        , 0.38956315, 0.        ]])