In [6]:
import numpy as np 
from scipy.sparse import csr_matrix

# Introducción 

Las matrices que contiene una gran cantidad de valores nulos son conocidas como matrices dispersas (sparse matrices), sin embargo, las matrices en las que la gran mayoría de sus valores son diferentes de cero son conocidas como matrices de densidad.

Las matrices dispersas son comunes y especialmente usadas en el aprendizaje automático, tales como en datos que contienen conteos o en subcampos del aprendizaje automático como el procesado de lenguaje natural.

Trabajar con matrices dispersas como si se tratasen matrices densas puede resultar computacionalmente muy costoso. Se puede lograr una gran mejora en el rendimiento usando operaciones que manejan la dispersión de la matriz.

# Matrices dispersas

Una matriz dispersa es una matriz en la cual la gran mayoría de sus elementos son cero. Su interés surge ya que pueden dar lugar a grandes ahorros computacionales y porque una gran cantidad de problemas que ocurren en la práctica están formados por matrices dispersas. Se define la **sparsity** de una matriz como:

\begin{equation*}
sparsity =  
\frac{nº ceros}{nº elementos}
\end{equation*}

# Problemas con las matrices dispersas

Las matrices dispersas pueden causar problemas en lo que respecta al almacenamiento y a la complejidad de operar

## Problemas de almacenamiento

Las matrices de grandes dimensiones requieren una gran cantidad de memoria, y muchas de estas grandes matrices con las que deseamos trabajar en muchas ocasiones serán matrices dispersas.

El principal problema cuando representamos estas matrices como si fuesen matrices de densidad es la gran cantidad de memoria necesaria para almecenar información. Esto es claramente un desperdicio de recursos de memoria ya que los valores que están a cero no contienen ningún tipo de información.

## Problemas a la hora de operar

Asumiendo que una matriz dispersas de grandes dimensiones puede ser almacenada en memoria, tras esto desearemos realizar operaciones sobre dicha matriz.

Si la matriz contiene una gran cantidad de valores nulos, entonces realizar operaciones a través de esta matriz puede conllevar una gran cantidad de tiempo donde la gran mayoría de los cálculos realizados implicará sumar o multiplicar valores nulos.

# Trabajando con matrices dispersas

La solución para poder trabajar con matrices dispersas de altas dimensiones es hacer uso de estructuras de datos alternativas para representarlas. Los valores nulos pueden ser ignorados y solo los valores no nulos necesitan ser almacenados. Existen múltiples estructuras de datos que pueden ser usadas para constriuir de forma eficiente matrices dispersas:

* **Diccionarios:** podemos generar la clave de un diccionario como el índice de las filas y las columnas y como valor el elemento que deseamos almacenar.

* **Lista de listas:** cada fila de la matriz es almacenada en una lista, cada sublista contiene el índice de la columna y el valor.

* **Lista coordinada:** lista de tuplas donde cada tupla contiene el índice de la fila, índice de la columna y el valor.

También existen estructuras de datos que son más eficientes a la hora de realizar operaciones:

* **Filas dispersas comprimidas:** la matriz dispersa es representada mediante tres dimensiones unidimensionales para los valores no nulos.

* **Columnas dispersas comprimidas:** igual que el método de flilas dispersas comprimidas excepto que los índices de las columnas son leídos en primer lugar.

El método de filas dispersas comprimidas, también conocido como CSR, es a menudo usado en el aprendizaje automático a la hora de representar matrices dispersas.

# Matrices dispersas con Python 

La librería **Scipy** nos proporciona herramientas para crear matrices dispersas haciendo uso de múltiples estructuras de datos, asi como herramientas para convertir una matriz de densidad en una matriz dispersa.

Una matriz de densidad almacenada en un numpy array puede ser convertida a una matriz dispersa haciendo uso de la representación CSR llamando a la función **csr_matrix()**.

In [4]:
#Generamos una matriz de densidad
A = np.array([[1, 0, 0, 1, 0, 0],[0, 0, 2, 0, 0, 1],[0, 0, 0, 2, 0, 0]])
print(A)

[[1 0 0 1 0 0]
 [0 0 2 0 0 1]
 [0 0 0 2 0 0]]


In [7]:
#Convertimos a una matriz dispersa mediante el método CSR
S = csr_matrix(A)
print(S)

  (0, 0)	1
  (0, 3)	1
  (1, 2)	2
  (1, 5)	1
  (2, 3)	2


In [8]:
#Volvemos a reconstruir a matriz de densidad
B = S.todense()
print(B)

[[1 0 0 1 0 0]
 [0 0 2 0 0 1]
 [0 0 0 2 0 0]]


Numpy no proporciona ninguna función para calcular la **sparsity** de una matriz dispersa, sin embargo, podemos realizar este cálculo de forma sencilla, ya que nos proporciona la función **count_nonzero** que nos determina el número de elementos que no son nulos de nuestra matriz.

In [9]:
print(A)

[[1 0 0 1 0 0]
 [0 0 2 0 0 1]
 [0 0 0 2 0 0]]


In [11]:
#Calculamos la sparsity 
sparsity = 1 - np.count_nonzero(A)/A.size
print(sparsity)

0.7222222222222222
