### **Sparse Matrix**

Permet guardar matrius esparses (amb molts pocs elements diferents de zero) molt grosses de forma eficient i ocupant poca memòria. Hi ha diversos formats per representar una matriu esparsa: lil, csr, css, coo, ...

Documentació: https://docs.scipy.org/doc/scipy/reference/sparse.html

In [1]:
import numpy as np
from scipy.sparse import lil_matrix
import time

Provem de crear una matriu densa amb `numpy` de 100.000 x 100.000 elements

In [2]:
a = np.empty((10000, 10000))

Provem ara de crear la mateixa matriu però en format *sparse* utilitzant la representació `lil`.

In [3]:
a = lil_matrix((100000, 100000))

Inicialitzem la matriu amb valors aleatoris

In [4]:
import random
for i in range(1000000):
    fil = random.randrange(0,100000)
    col = random.randrange(0,100000)
    a[fil,col] = 1

Amb les matrius *sparse* podem fer pràcticament totes les mateixes operacions que podem fer amb les matrius denses amb `numpy`: operacions aritmètiques, càlculs agregats (suma, mitjana, etc.), indexació, ...

In [5]:
print(a.sum(), a.mean())

999938.0 9.999379999999999e-05


In [6]:
# suma de tots els elements de les files
print(a.sum(1))

[[11.]
 [ 8.]
 [10.]
 ...
 [11.]
 [11.]
 [15.]]


In [7]:
# suma de tots els elements de les columnes
print(a.sum(0))

[[12. 12. 15. ... 13.  9.  9.]]


In [8]:
# indexació per files o columnes
print(a[1,:])
print(a[:,1])

  (0, 8300)	1.0
  (0, 8382)	1.0
  (0, 11627)	1.0
  (0, 13116)	1.0
  (0, 26155)	1.0
  (0, 54832)	1.0
  (0, 97233)	1.0
  (0, 99793)	1.0
  (9299, 0)	1.0
  (10555, 0)	1.0
  (14047, 0)	1.0
  (24493, 0)	1.0
  (25428, 0)	1.0
  (27595, 0)	1.0
  (40006, 0)	1.0
  (79845, 0)	1.0
  (82456, 0)	1.0
  (85325, 0)	1.0
  (88815, 0)	1.0
  (97052, 0)	1.0


In [9]:
# Indexacio amb elements booleans
b = a[1,:] == 1.0
print(b)
a[a != 0] = 2.0
print(a[1,:])

  (0, 8300)	True
  (0, 8382)	True
  (0, 11627)	True
  (0, 13116)	True
  (0, 26155)	True
  (0, 54832)	True
  (0, 97233)	True
  (0, 99793)	True
  (0, 8300)	2.0
  (0, 8382)	2.0
  (0, 11627)	2.0
  (0, 13116)	2.0
  (0, 26155)	2.0
  (0, 54832)	2.0
  (0, 97233)	2.0
  (0, 99793)	2.0


In [10]:
# Indexació amb llistes de índexs enters
idxs = [1, 3, 5]
a[1,idxs] = 10
fila = a[1,:]
print(fila)

  (0, 1)	10.0
  (0, 3)	10.0
  (0, 5)	10.0
  (0, 8300)	2.0
  (0, 8382)	2.0
  (0, 11627)	2.0
  (0, 13116)	2.0
  (0, 26155)	2.0
  (0, 54832)	2.0
  (0, 97233)	2.0
  (0, 99793)	2.0


Segons el tipus d'operació que vulguem fer pot ser més convenient guardar la matriu en diferents formats. Per exemple el format `lil` és adequat si volem fer operacions per les files de la matriu. En canvi, si volem treballar amb les columnes pot ser més eficient utilitzar el format `csc`.

In [11]:
# suma per files
start = time.time()
print(a.sum(1))
end = time.time()
print(end - start)

[[22.]
 [46.]
 [20.]
 ...
 [22.]
 [22.]
 [30.]]
0.0645139217376709


In [12]:
# suma per columnes
start = time.time()
print(a.sum(0))
end = time.time()
print(end - start)

[[24. 34. 30. ... 26. 18. 18.]]
0.5141887664794922


In [13]:
# conversió de format i suma per columnes
start = time.time()
b = a.tocsc()
print(b.sum(0))
end = time.time()
print(end - start)

[[24. 34. 30. ... 26. 18. 18.]]
0.10441851615905762


### **Eficiència de les operacions**

Hem de procurar utilitzar al màxim les possibilitats de manipulació de les matrius que ens ofereixen tant les matrius *sparse* com les matrius denses en `numpy` ja que sempre seran més eficients que realitzar el càlcul en el nostre codi amb bucles. Hem d'evitar al màxim possible la utilització de bucles per recórrer els elements de les matrius.

In [14]:
def get_num_vots_users(matrix):
    num_vots = np.zeros(matrix.shape[0])
    for i in range(matrix.shape[0]):
        num_vots[i] = matrix[i,:].count_nonzero()
    return num_vots

start = time.time()
n_vots = get_num_vots_users(a)
end = time.time()
print(end - start)
print(n_vots)

7.31172776222229
[11. 11. 10. ... 11. 11. 15.]


In [15]:
def get_num_vots_users(matrix):
    return (matrix != 0).sum(1)

start = time.time()
n_vots = get_num_vots_users(a)
end = time.time()
print(end - start)
print(n_vots)

0.0781404972076416
[[11]
 [11]
 [10]
 ...
 [11]
 [11]
 [15]]
