**Разрежённая матрица** — это матрица с преимущественно нулевыми элементами. В противном случае, если бо́льшая часть элементов матрицы ненулевые, матрица считается плотной.

В библиотеке SciPy есть много способок для создания, хранения и работы с разреженными матрицами. Существует 7 различных типов разреженных матриц:
* bsr_matrix: Block Sparse Row matrix
* coo_matrix: COOrdinate format matrix
* csc_matrix: Compressed Sparse Column matrix
* csr_matrix: Compressed Sparse Row matrix
* dia_matrix: Sparse matrix with DIAgonal storage
* dok_matrix: Dictionary Of Keys based sparse matrix.
* lil_matrix: Row-based linked list sparse matrix

**Что из этого выбрать? Зачем все это?**

Каждая из этих разреженных матриц эффективна и быстра для определенных операций. Например, если вы хотите создать новую разреженную матрицу с нуля, эффективны lil_matrix или dok_matrix. Однако арифметические операции над этими матрицами не эффективны. coo_matrix имеет похожие свойства; удобна для создания разреженной матрицы, но плохо подходит для операций.

Если вы хотите совершать матричные операции, таких как умножение или инверсия, лучше использовать формат CSC или CSR матриц. Из-за особенностей реализации, csc_matrix имеет более быструю и эффективную слайсинг столбцов, в то время как csr_matrix имеет более эффективную слайсинг строк.

Выбор правильной разреженной матрицы зависит от залачи. Как правило, вам может потребоваться использовать несколько форматов разреженной матрицы, чтобы выполнить работу задачу эффективно.

In [2]:
from scipy import sparse
# import uniform module to create random numbers
from scipy.stats import uniform
import numpy as np

Одним из наиболее интуитивно понятных видом матриц является COOordinate разреженная матрица. 
Можно быстро создать разреженную матрицу COO. 
Для этого нужны координаты ненулевых элементов в разреженной матрице.

Для создания coo_matrix нам понадобится 3 одномерных массива numpy. 
Первый массив содержит строковые индексы, 
второй массив содержит индексы столбцов, 
а третий массив содержит ненулевые данные. 

Давайте создадим разреженную матрицу в формате COO, используя простой пример.
Давайте сначала создадим 3 отдельных массива, необходимых для создания разреженной матрицы COO.

In [4]:
# row indices
row_ind = np.array([0, 1, 1, 3, 4])
# column indices
col_ind = np.array([0, 2, 4, 3, 4])
# data to be stored in COO sparse matrix
data = np.array([1, 2, 3, 4, 5], dtype=float)

Мы можем использовать sparse.coo_matrix для создания разреженной матрицы в формате COO. 
На вход подается данные и кортеж из индексов.

In [6]:
# create COO sparse matrix from three arrays
mat_coo = sparse.coo_matrix((data, (row_ind, col_ind)))
# print coo_matrix
print(mat_coo)

  (0, 0)	1.0
  (1, 2)	2.0
  (1, 4)	3.0
  (3, 3)	4.0
  (4, 4)	5.0


In [8]:
# Эта же матрица в плотном виде
mat_coo.todense()

matrix([[1., 0., 0., 0., 0.],
        [0., 0., 2., 0., 3.],
        [0., 0., 0., 0., 0.],
        [0., 0., 0., 4., 0.],
        [0., 0., 0., 0., 5.]])

In [10]:
# Эта же матрица в плотном виде
mat_coo.toarray()

array([[1., 0., 0., 0., 0.],
       [0., 0., 2., 0., 3.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 4., 0.],
       [0., 0., 0., 0., 5.]])

Пример преобразования coo матрицы в CSC.

In [12]:
print(mat_coo.tocsc())

  (0, 0)	1.0
  (1, 2)	2.0
  (3, 3)	4.0
  (1, 4)	3.0
  (4, 4)	5.0


In [15]:
print(type(mat_coo))
print(type(mat_coo.tocsc()))

<class 'scipy.sparse.coo.coo_matrix'>
<class 'scipy.sparse.csc.csc_matrix'>


### How to Create Sparse Matrix from a Dense (full) Matrix?

В приведенном выше примере создания матрицы COO данные были в специальном формате, который редко используется в повседневной работе, и поэтому мы могли использовать его для создания разреженной матрицы COO. В большинстве случаев мы начинаем работать с плотной матрицей в качестве исходных данных. Вот пример, показывающий, как использовать существующий 2d-массив / матрицу для создания разреженной матрицы.

На этот раз мы создадим разреженную матрицу csr_matrix. И мы также создадим полную матрицу, используя случайные числа из равномерного распределения в SciPy.stats.

Давайте зафиксируем начальное число для генерации случайных чисел, чтобы мы могли воспроизвести те же самые случайные числа. Мы будем использовать модуль SciPy.stats, чтобы создать тренирочвочную разреженную матрицу с 4 строками и 4 столбцами.

Сначала мы создадим одинаковые случайные числа от 0 до 2 в массиве 1d NumPy. А затем используйте функцию изменения размерности, чтобы сделать его двумерным массивом, то есть матрицей\тензером или как вам угодно.

In [16]:
np.random.seed(seed=42)
data = uniform.rvs(size=16, loc = 0, scale=2)
data = np.reshape(data, (4, 4))
data

array([[0.74908024, 1.90142861, 1.46398788, 1.19731697],
       [0.31203728, 0.31198904, 0.11616722, 1.73235229],
       [1.20223002, 1.41614516, 0.04116899, 1.9398197 ],
       [1.66488528, 0.42467822, 0.36364993, 0.36680902]])

Давайте преобразуем эту полную матрицу в разреженную матрицу. 
Для начала сделаем некоторые элементы матрицы нулевыми. 
Здесь любому элементу со значенияи меньше 1 будет присвоен 0. 
Теперь половина элементов этой матрицы равна нулю.

In [18]:
data[data < 1] = 0
data

array([[0.        , 1.90142861, 1.46398788, 1.19731697],
       [0.        , 0.        , 0.        , 1.73235229],
       [1.20223002, 1.41614516, 0.        , 1.9398197 ],
       [1.66488528, 0.        , 0.        , 0.        ]])

Давайте преобразуем эту полную матрицу с нулями в разреженную матрицу, используя соответствущий модуль в SciPy. 
Как вы только что увидели, SciPy имеет несколько констукторов для разреженных матриц. 
Мы будем использовать csr_matrix, где csr обозначает Compressed Sparse Row.

In [20]:
data_csr = sparse.csr_matrix(data)
print(data_csr)

  (0, 1)	1.9014286128198323
  (0, 2)	1.4639878836228102
  (0, 3)	1.1973169683940732
  (1, 3)	1.7323522915498704
  (2, 0)	1.2022300234864176
  (2, 1)	1.416145155592091
  (2, 3)	1.9398197043239886
  (3, 0)	1.6648852816008435


### А зачем вообще все это? Сколько же памяти мы экономим?

Одним из реальных применений разреженных матриц является экономия памяти. Давайте создадим большую полную матрицу, используя однородные случайные числа.

In [30]:
np.random.seed(seed=42)
data = uniform.rvs(size=10000000, loc = 0, scale=2)
data = np.reshape(data, (10000, 1000))

# Сделаем её менее плотной
data[data < 1] = 0
data_size = data.nbytes/(1024**2)
print('Size of full matrix with zeros: '+ '%3.2f' %data_size + ' MB')

Size of full matrix with zeros: 76.29 MB


In [31]:
data_csr = sparse.csr_matrix(data)
data_csr_size = data_csr.data.size/(1024**2)
print('Size of sparse csr_matrix: '+ '%3.2f' %data_csr_size + ' MB')

Size of sparse csr_matrix: 4.77 MB


Как видим, мы выиграли более чем в 10 раз по памяти

### Задание:
Посмтрите документацию и разберитесь с другими констуркторами