# scipy.sparse cheatsheet

### Бастрое создание CSR матрицы

In [1]:
import numpy as np
from scipy import sparse

In [4]:
# собираем данные в три списка
rows = [] # id строк ячеек
cols = [] # id столбцов ячеек
data = [] # значение

for i in range(10):
    rows.append(i)
    cols.append(i)
    data.append(i)

sm = sparse.csr_matrix((data, (rows, cols)))
sm.todense()

matrix([[0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
        [0, 1, 0, 0, 0, 0, 0, 0, 0, 0],
        [0, 0, 2, 0, 0, 0, 0, 0, 0, 0],
        [0, 0, 0, 3, 0, 0, 0, 0, 0, 0],
        [0, 0, 0, 0, 4, 0, 0, 0, 0, 0],
        [0, 0, 0, 0, 0, 5, 0, 0, 0, 0],
        [0, 0, 0, 0, 0, 0, 6, 0, 0, 0],
        [0, 0, 0, 0, 0, 0, 0, 7, 0, 0],
        [0, 0, 0, 0, 0, 0, 0, 0, 8, 0],
        [0, 0, 0, 0, 0, 0, 0, 0, 0, 9]], dtype=int32)

## Рандомная матрица с определенной плотностью и типом

In [5]:
sm = sparse.rand(10, 10, density=.1, format='csr')
sm

<10x10 sparse matrix of type '<class 'numpy.float64'>'
	with 10 stored elements in Compressed Sparse Row format>

## Количество ненулевых элементов

In [6]:
sm = sparse.rand(1000, 1000, density=.001, format='csr')
sm

<1000x1000 sparse matrix of type '<class 'numpy.float64'>'
	with 1000 stored elements in Compressed Sparse Row format>

In [7]:
# в матрице
sm.nnz

1000

In [8]:
from sklearn.preprocessing import binarize

In [9]:
%%time
# в строках
binarize(sm).sum(axis=1).A1

Wall time: 1e+03 µs


array([0., 1., 2., 0., 0., 0., 0., 1., 0., 1., 2., 1., 0., 1., 0., 0., 2.,
       0., 1., 0., 0., 1., 1., 1., 0., 1., 1., 0., 3., 1., 1., 1., 0., 1.,
       1., 1., 0., 0., 0., 0., 1., 2., 0., 0., 1., 2., 0., 1., 1., 0., 1.,
       2., 1., 2., 0., 1., 1., 0., 0., 1., 1., 1., 1., 0., 2., 2., 1., 0.,
       0., 0., 1., 0., 1., 0., 1., 1., 0., 0., 4., 0., 0., 2., 3., 3., 2.,
       1., 0., 3., 2., 0., 1., 0., 0., 0., 4., 0., 0., 0., 0., 1., 1., 2.,
       1., 2., 0., 1., 2., 1., 2., 1., 2., 0., 1., 3., 1., 1., 0., 0., 0.,
       2., 3., 1., 0., 2., 1., 2., 0., 1., 0., 2., 1., 0., 2., 1., 0., 1.,
       0., 0., 1., 1., 0., 2., 0., 1., 2., 0., 1., 1., 1., 2., 3., 1., 0.,
       1., 2., 2., 0., 1., 2., 0., 2., 0., 0., 0., 1., 2., 1., 2., 0., 0.,
       5., 1., 3., 1., 2., 1., 1., 0., 2., 2., 0., 1., 2., 0., 1., 0., 0.,
       0., 0., 2., 1., 0., 1., 0., 0., 2., 2., 0., 2., 0., 2., 1., 0., 1.,
       1., 2., 0., 0., 0., 1., 0., 0., 1., 1., 3., 1., 2., 1., 4., 0., 2.,
       2., 1., 1., 1., 2.

In [11]:
%%time
# в столбцах
binarize(sm).sum(axis=0).A1

Wall time: 998 µs


array([1., 0., 1., 2., 0., 0., 2., 0., 0., 2., 1., 0., 1., 1., 1., 2., 3.,
       1., 2., 2., 3., 1., 0., 1., 0., 2., 2., 1., 1., 0., 2., 1., 0., 1.,
       1., 0., 0., 1., 1., 0., 1., 2., 0., 2., 1., 1., 1., 0., 1., 0., 1.,
       0., 1., 1., 3., 1., 2., 0., 1., 0., 0., 1., 3., 3., 2., 0., 2., 1.,
       0., 1., 3., 0., 1., 0., 0., 0., 0., 2., 1., 0., 0., 2., 3., 3., 0.,
       0., 1., 2., 2., 0., 0., 0., 0., 2., 0., 1., 0., 1., 1., 1., 1., 4.,
       3., 1., 3., 0., 1., 0., 2., 1., 0., 0., 1., 0., 1., 3., 0., 0., 2.,
       2., 1., 1., 0., 0., 3., 0., 1., 0., 1., 0., 1., 3., 1., 1., 3., 2.,
       1., 0., 1., 1., 2., 0., 1., 1., 4., 0., 0., 1., 0., 1., 0., 2., 1.,
       3., 2., 0., 0., 0., 2., 0., 2., 2., 0., 0., 0., 2., 2., 0., 0., 1.,
       1., 1., 0., 0., 1., 0., 1., 1., 1., 0., 1., 2., 0., 2., 0., 1., 1.,
       0., 1., 2., 1., 0., 1., 2., 0., 0., 1., 1., 0., 0., 1., 1., 2., 1.,
       0., 1., 1., 1., 2., 4., 1., 2., 1., 2., 0., 1., 0., 1., 2., 0., 0.,
       1., 0., 1., 1., 0.

### Сортировка ненулевого содержимого строки в CSR

In [12]:
sm = sparse.rand(1, 10, .5, 'csr')
sm.todense()

matrix([[0.        , 0.20199169, 0.        , 0.07324589, 0.78465839,
         0.2724992 , 0.        , 0.        , 0.09621388, 0.        ]])

In [14]:
row = sm[0]
for arg_id in np.argsort(row.data)[::-1]:
    print('col_id', row.indices[arg_id], 'val:', row.data[arg_id])

col_id 4 val: 0.7846583899387918
col_id 5 val: 0.27249919566438074
col_id 1 val: 0.20199168578127558
col_id 8 val: 0.09621387773665813
col_id 3 val: 0.0732458906400868


### Поиск top-N значений строки в CSR

In [30]:
sm = sparse.rand(1, 100, .5, 'csr')

In [31]:
top = 5
row = sm[0]
for arg_id in np.argsort(row.data)[-top:]:
    print('col_id:', row.indices[arg_id], 'val:', row.data[arg_id])

col_id: 83 val: 0.8844828718548933
col_id: 63 val: 0.9454404700803092
col_id: 59 val: 0.9515328628613108
col_id: 5 val: 0.9839980128346492
col_id: 37 val: 0.9947259977669396


### Поиск cosine similarity между строками матрицы

In [32]:
sm = sparse.rand(5, 100, 0.5, 'csr')

In [33]:
from sklearn.preprocessing import normalize
n_sm = normalize(sm)
sim_m = n_sm.dot(n_sm.T)
sim_m # будьте осторожны! может получиться очень плотная матрица

<5x5 sparse matrix of type '<class 'numpy.float64'>'
	with 25 stored elements in Compressed Sparse Row format>

In [34]:
sim_m.todense()

matrix([[1.        , 0.37931172, 0.27657718, 0.28933752, 0.28043718],
        [0.37931172, 1.        , 0.3465064 , 0.42139643, 0.28888287],
        [0.27657718, 0.3465064 , 1.        , 0.30581442, 0.35471714],
        [0.28933752, 0.42139643, 0.30581442, 1.        , 0.28030131],
        [0.28043718, 0.28888287, 0.35471714, 0.28030131, 1.        ]])

### Быстрое зануление диагонали

In [36]:
positions = range(sim_m.shape[0])
eye = sparse.csr_matrix((np.ones(len(positions)), (positions, positions)), sim_m.shape)
sim_m = sim_m - sim_m.multiply(eye)

In [37]:
sim_m.todense()

matrix([[0.        , 0.37931172, 0.27657718, 0.28933752, 0.28043718],
        [0.37931172, 0.        , 0.3465064 , 0.42139643, 0.28888287],
        [0.27657718, 0.3465064 , 0.        , 0.30581442, 0.35471714],
        [0.28933752, 0.42139643, 0.30581442, 0.        , 0.28030131],
        [0.28043718, 0.28888287, 0.35471714, 0.28030131, 0.        ]])

### Зануление значений матрицы по маске

In [38]:
mask = np.random.randint(0, 2, (1, 5))
mask

array([[1, 0, 0, 0, 0]])

In [41]:
sm = sparse.rand(5, 5, .5, 'csr')
sm.todense()

matrix([[0.32746513, 0.        , 0.        , 0.13026073, 0.6184123 ],
        [0.        , 0.        , 0.73294556, 0.31430628, 0.        ],
        [0.33105472, 0.09009498, 0.29695487, 0.        , 0.        ],
        [0.        , 0.        , 0.        , 0.        , 0.70084089],
        [0.        , 0.        , 0.23627477, 0.47420415, 0.31826074]])

In [42]:
# маска по строкам
sm.multiply(mask).todense()

matrix([[0.32746513, 0.        , 0.        , 0.        , 0.        ],
        [0.        , 0.        , 0.        , 0.        , 0.        ],
        [0.33105472, 0.        , 0.        , 0.        , 0.        ],
        [0.        , 0.        , 0.        , 0.        , 0.        ],
        [0.        , 0.        , 0.        , 0.        , 0.        ]])

In [43]:
# таска по столбцам
sm.multiply(mask.T).todense()

matrix([[0.32746513, 0.        , 0.        , 0.13026073, 0.6184123 ],
        [0.        , 0.        , 0.        , 0.        , 0.        ],
        [0.        , 0.        , 0.        , 0.        , 0.        ],
        [0.        , 0.        , 0.        , 0.        , 0.        ],
        [0.        , 0.        , 0.        , 0.        , 0.        ]])

## Зануление ячеек матрицы A, присутствующих в матрице B

In [44]:
sm.todense()

matrix([[0.32746513, 0.        , 0.        , 0.13026073, 0.6184123 ],
        [0.        , 0.        , 0.73294556, 0.31430628, 0.        ],
        [0.33105472, 0.09009498, 0.29695487, 0.        , 0.        ],
        [0.        , 0.        , 0.        , 0.        , 0.70084089],
        [0.        , 0.        , 0.23627477, 0.47420415, 0.31826074]])

In [45]:
sm1 = sparse.rand(5, 5, .5, 'csr')
sm1.todense()

matrix([[0.39560131, 0.36962964, 0.        , 0.40028077, 0.        ],
        [0.        , 0.        , 0.23550898, 0.        , 0.88592847],
        [0.        , 0.        , 0.90184092, 0.        , 0.82391807],
        [0.        , 0.        , 0.        , 0.94853712, 0.13862361],
        [0.        , 0.1812772 , 0.21068027, 0.        , 0.85461388]])

In [46]:
sm = sm - sm.multiply(binarize(sm1))
sm1.todense()

matrix([[0.39560131, 0.36962964, 0.        , 0.40028077, 0.        ],
        [0.        , 0.        , 0.23550898, 0.        , 0.88592847],
        [0.        , 0.        , 0.90184092, 0.        , 0.82391807],
        [0.        , 0.        , 0.        , 0.94853712, 0.13862361],
        [0.        , 0.1812772 , 0.21068027, 0.        , 0.85461388]])

In [49]:
import pickle

In [61]:
    with open('matrix.txt', 'wb') as f:
        matrix = pickle.dump(sm1, f)

In [62]:
with open('matrix.txt', 'rb') as f:
    matrix = pickle.load(f)
print(matrix)

  (0, 0)	0.3956013091495282
  (0, 1)	0.36962964393428366
  (0, 3)	0.4002807658362145
  (1, 2)	0.2355089782207096
  (1, 4)	0.8859284665061208
  (2, 2)	0.9018409248596226
  (2, 4)	0.823918071583909
  (3, 3)	0.9485371224939994
  (3, 4)	0.13862360695898124
  (4, 1)	0.18127720437472905
  (4, 2)	0.2106802675311097
  (4, 4)	0.854613877123312


In [64]:
import pandas as pd
raw_df = pd.read_csv('datasets/rosbank_train.csv')

In [65]:
raw_df.head()

Unnamed: 0.1,Unnamed: 0,id,atm_group,address,address_rus,lat,long,target
0,0,8526.0,32.0,"EMELYANOVA,34 Y-SAKHALINSK","улица А.О. Емельянова, 34, Южно-Сахалинск, Сах...",46.940995,142.738319,0.0115
1,1,8532.0,32.0,"KOMSOMOLSKAYA,259B Y.SAKHALINSK","Комсомольская улица, 259, Южно-Сахалинск, Саха...",46.937353,142.753348,0.02971
2,2,8533.0,32.0,"KOMMUN. PR., 32 YUZHNO SAKHAL","Коммунистический проспект, Южно-Сахалинск, Сах...",46.959413,142.741113,0.00954
3,3,8684.0,32.0,"LENINGRADSKIY PR.,76A MOSCOW","Ленинградский проспект, 76А, Москва, Россия, 1...",55.805827,37.515146,-0.094035
4,4,37.0,32.0,"GVARDEYSKAYA PL., 2 NORILSK","Гвардейская площадь, 2, Норильск, Красноярский...",69.343541,88.211228,0.079277
