# Práctica 6. Matrices sparse. Manipulación de matrices desde ficheros de datos

##  [Matrices sparse](https://docs.scipy.org/doc/scipy/reference/sparse.html)



In [39]:
import numpy as np
from scipy.sparse import csr_matrix

Veamos cómo se introduce una matriz sparse y cómo se pasa a dense y viceversa

In [40]:
A = np.array([
[1, 0, 0, 1, 0, 0],
[0, 0, 2, 0, 0, 1],
[0, 0, 0, 2, 0, 0]])
print(f"A = {A}")

S = csr_matrix(A) # convertimos A a formato sparse (clase compressed sparse row)
print(f"A en formato sparse =\n {S}")

B = S.todense() # recuperamos el formato dense
print(f"S en formato dense = \n {B}")


A = [[1 0 0 1 0 0]
 [0 0 2 0 0 1]
 [0 0 0 2 0 0]]
A en formato sparse =
   (0, 0)	1
  (0, 3)	1
  (1, 2)	2
  (1, 5)	1
  (2, 3)	2
S en formato dense = 
 [[1 0 0 1 0 0]
 [0 0 2 0 0 1]
 [0 0 0 2 0 0]]


La forma de almacenar datos en formato CSR es la siguiente:

**data** = vector con datos no nulos

**indices** = vector con numeración de columnas no nulas

**indptr** = puntero para datos y filas. 

En concreto: para la fila i, [indptr[i]:indptr[i+1]] devuelve los índices 

de elementos para tomar de los datos e índices correspondientes a la fila i 

In [41]:
row = np.array([0, 0, 1, 1, 2])
col = np.array([0, 3, 2, 5, 3])
data = np.array([1, 1, 2, 1, 2])

mtx = csr_matrix((data, (row, col)), shape=(3, 6))

print(f"sparse matrix in csr format = {mtx}") 

print(f"misma matriz en formato dense = {mtx.todense()}")

print(f"datos no nulos de la matriz ={mtx.data}")

print(f"índices de columnas = {mtx.indices}")

print(f"punteros para los índices de datos y filas = {mtx.indptr}")

sparse matrix in csr format =   (0, 0)	1
  (0, 3)	1
  (1, 2)	2
  (1, 5)	1
  (2, 3)	2
misma matriz en formato dense = [[1 0 0 1 0 0]
 [0 0 2 0 0 1]
 [0 0 0 2 0 0]]
datos no nulos de la matriz =[1 1 2 1 2]
índices de columnas = [0 3 2 5 3]
punteros para los índices de datos y filas = [0 2 4 5]


En el ejemplo anterior, la salida de **indptr** significa:

fila 0: [0:2[ tomamos los elementos 0 y 1 de data y los colocamos en las

columnas 0 y 3.

fila 1: [2:4[ tomamos los elementos 2 y 3 de data y los colocamos en las

columnas 2 y 5.

fila 2: [4:5[ tomamos el elemento 4 de data y lo colocamos en la 

columna 3

Tenemos otros formatos de almacenar matrices sparse.

Véase la [API sparse matrices](https://docs.scipy.org/doc/scipy/reference/sparse.html)

Por ejemplo la clase csc_matrix (compressed sparse column)

In [42]:
from scipy.sparse import csc_matrix

A = np.array([
[1, 0, 0, 1, 0, 0],
[0, 0, 2, 0, 0, 1],
[0, 0, 0, 2, 0, 0]])
print(f"A = {A}")

SC = csc_matrix(A) # convertimos A a formato sparse (clase compressed column matrix)
print(f"A en formato sparse =\n {SC}")

A = [[1 0 0 1 0 0]
 [0 0 2 0 0 1]
 [0 0 0 2 0 0]]
A en formato sparse =
   (0, 0)	1
  (1, 2)	2
  (0, 3)	1
  (2, 3)	2
  (1, 5)	1


Aunque a la vista csr y csc parecen iguales, cada una de estas clases (y otras) tienen sus ventajas e inconvenientes según el tipo de operaciones a realizar.

Véanse las recomendaciones en la [API sparse matrices](https://docs.scipy.org/doc/scipy/reference/sparse.html)

La sparsity de una matriz se mide mediante la fórmula

$$\text{sparsity}(A) = 1-\frac{\text{entradas no nulas de A}}
{\text{entradas totales de A}} $$

In [43]:
def sparsity(A):
    sparsi = 1.0 - np.count_nonzero(A) / A.size
    return sparsi

print(f"sparsity(A) = {sparsity(A)}")

sparsity(A) = 0.7222222222222222


Veamos algunas funciones para almacenar matrices **sparse**

In [44]:
from scipy import sparse

A = sparse.eye(10,5)
print(f"matriz de tamaño 10x5 con unos en la diagonal =\n {A}")

B = sparse.identity(5)
print(f"matriz identidad de tamaño 5 =\n {B}")

print(f"elementos no nulos de A =\n {sparse.find(A)}")

C = sparse.random(10, 20, density=0.5) # density = 1 - sparsity
print(f"matriz sparse de tamaño 10x20 con entradas aleatorias = \n {C}")



matriz de tamaño 10x5 con unos en la diagonal =
   (0, 0)	1.0
  (1, 1)	1.0
  (2, 2)	1.0
  (3, 3)	1.0
  (4, 4)	1.0
matriz identidad de tamaño 5 =
   (0, 0)	1.0
  (1, 1)	1.0
  (2, 2)	1.0
  (3, 3)	1.0
  (4, 4)	1.0
elementos no nulos de A =
 (array([0, 1, 2, 3, 4], dtype=int32), array([0, 1, 2, 3, 4], dtype=int32), array([1., 1., 1., 1., 1.]))
matriz sparse de tamaño 10x20 con entradas aleatorias = 
   (6, 10)	0.6497051850349712
  (3, 1)	0.020536755308929178
  (9, 3)	0.17031316136551156
  (4, 16)	0.9101037863677078
  (1, 0)	0.5261392855806858
  (7, 14)	0.544807412857838
  (9, 15)	0.7352346043779051
  (0, 11)	0.08026381116426307
  (5, 2)	0.4404551238922423
  (0, 4)	0.06687894697300201
  (9, 18)	0.5162201170358043
  (7, 5)	0.032611985617193695
  (8, 7)	0.19125649088426666
  (8, 14)	0.6580095969488852
  (9, 10)	0.7257359083608668
  (9, 16)	0.8865193970422489
  (2, 7)	0.4004968052282448
  (7, 11)	0.9530960377170153
  (6, 14)	0.19899291453143686
  (8, 9)	0.36645594778839297
  (4, 15)	0.73218369

## Manipulación de matrices desde ficheros de datos

Guardamos matrices en ficheros .npz 

.npz es un formato de fichero de datos de numpy que permite almacenar 

matrices de datos usando compresión gzip. 

In [45]:
sparse.save_npz('../data/random_sparse_matrix.npz', C)

Cargamos matrices desde ficheros .npz

In [46]:
D = sparse.load_npz("../data/random_sparse_matrix.npz")
print(D)

  (6, 10)	0.6497051850349712
  (3, 1)	0.020536755308929178
  (9, 3)	0.17031316136551156
  (4, 16)	0.9101037863677078
  (1, 0)	0.5261392855806858
  (7, 14)	0.544807412857838
  (9, 15)	0.7352346043779051
  (0, 11)	0.08026381116426307
  (5, 2)	0.4404551238922423
  (0, 4)	0.06687894697300201
  (9, 18)	0.5162201170358043
  (7, 5)	0.032611985617193695
  (8, 7)	0.19125649088426666
  (8, 14)	0.6580095969488852
  (9, 10)	0.7257359083608668
  (9, 16)	0.8865193970422489
  (2, 7)	0.4004968052282448
  (7, 11)	0.9530960377170153
  (6, 14)	0.19899291453143686
  (8, 9)	0.36645594778839297
  (4, 15)	0.7321836972980751
  (2, 9)	0.2132520616402489
  (0, 15)	0.3705745275450931
  (8, 6)	0.7040538820026485
  (3, 16)	0.588657249627827
  :	:
  (3, 0)	0.4646748827851883
  (4, 5)	0.9389489220888801
  (8, 19)	0.5803345097059877
  (2, 11)	0.7436041583846447
  (6, 3)	0.8298060428705507
  (4, 19)	0.5032467036048932
  (5, 12)	0.8860159429102296
  (4, 12)	0.2762129703204743
  (5, 4)	0.13958239490595958
  (0, 10)	0.19