# Numpy

En l'anterior notebook hem vist la dificultat de fer operacions matemàtiques en Python, com podem simplificar-ho i operar amb vectors o inclús matrius? La resposta és la llibreria Numpy

In [1]:
import numpy as np

Tornem a l'exemple anterior, com calcular $z = x + y$ on $x=(1, 2, 3), y=(2, 3, 4)$?

In [4]:
# Necessitem convertir les llistes de python a elements de numpy
x = [1, 2, 3]
y = [2, 3, 4]

x = np.array(x)
y = np.asarray(y)

# Inspeccionem que és ara x
x
y

array([2, 3, 4])

In [3]:
# A partir d'ara, podem operar amb aquestes "x" i "y" com si fossin vectors matemàtics

z = x + y
z

array([3, 5, 7])

## Vectors i matrius (arrays i arrays ndimensionals)

Existeixen diferents formes de crear elements en numpy:
    
* Vectors a partir de llistes de python
* Vectors directament des de numpy
* Matrius a partir de llistes de llistes
* Matrius amb numpy

In [5]:
# Abans hem vist la creació a partir d'una llista de python
# _Les dues són equivalents_
vector = np.asarray([1, 2, 3])
vector = np.array([1, 2, 3])
print(vector)

# També es pot crear directament vectors de 0's o 1's
# Per exemple, un vector de 8 0's
zeros = np.zeros(8)
print(zeros)

# Un vector de 5 0's
ones = np.ones(5)*7
print(ones)

[1 2 3]
[0. 0. 0. 0. 0. 0. 0. 0.]
[7. 7. 7. 7. 7.]


Fixa't que per defecte numpy crea vectors de tipus `float` quan es fa servir `ones` o `zeros`, amb la quantitat que li indiquem.

D'altra banda, si li donem una llista de python, infereix el tipus d'aquesta. Per exemple, abans la llista contenia enters, i per tant ha utilitzat el tipus `int`.

Que passaria en aquest cas?

In [6]:
np.asarray([1, 2.0])

array([1., 2.])

Si hi ha tipus barrejats, com ara `int` i `float`, numpy escull sempre el tipus flotant. Podem, però, indicar un tipus diferent:

In [7]:
print('Per defecte')
print(np.asarray([1.0, 2.5, 3.6, 256, -1, -256]))

print('\nFlotants')
print(np.asarray([1.0, 2.5, 3.6, 256, -1, -256], dtype=float))
print(np.asarray([1.0, 2.5, 3.6, 256, -1, -256], dtype=np.float32))
print(np.asarray([1.0, 2.5, 3.6, 256, -1, -256], dtype=np.float64))

print('\nEnters')
print(np.asarray([1.0, 2.5, 3.6, 256, -1, -256], dtype=int))
print(np.asarray([1.0, 2.5, 3.6, 256, -1, -256], dtype=np.int32))
print(np.asarray([1.0, 2.5, 3.6, 256, -1, -256], dtype=np.uint32))
print(np.asarray([1.0, 2.5, 3.6, 256, -1, -256], dtype=np.int8))
print(np.asarray([1.0, 2.5, 3.6, 256, -1, -256], dtype=np.uint8))

Per defecte
[   1.     2.5    3.6  256.    -1.  -256. ]

Flotants
[   1.     2.5    3.6  256.    -1.  -256. ]
[   1.     2.5    3.6  256.    -1.  -256. ]
[   1.     2.5    3.6  256.    -1.  -256. ]

Enters
[   1    2    3  256   -1 -256]
[   1    2    3  256   -1 -256]
[         1          2          3        256 4294967295 4294967040]
[ 1  2  3  0 -1  0]
[  1   2   3   0 255   0]


In [8]:
# En qualsevol moment podem canviar el tipus també
vector = np.asarray([1.0, 2.0, 3.0])
print(vector)
print(vector.dtype)
vector = vector.astype(np.int)
print(vector)
print(vector.dtype)

[1. 2. 3.]
float64
[1 2 3]
int32


També podem crear matrius:

In [11]:
np.ones((3, 4,2))

array([[[1., 1.],
        [1., 1.],
        [1., 1.],
        [1., 1.]],

       [[1., 1.],
        [1., 1.],
        [1., 1.],
        [1., 1.]],

       [[1., 1.],
        [1., 1.],
        [1., 1.],
        [1., 1.]]])

In [12]:
np.zeros((2, 7))

array([[0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0.]])

In [13]:
np.asarray([
    [1, 2, 3, 4],
    [10, 20, 30, 40],
    [100, 200, 300, 400]
])

array([[  1,   2,   3,   4],
       [ 10,  20,  30,  40],
       [100, 200, 300, 400]])

I podem crear matrius a partir de les dimensions d'una altra matriu

In [14]:
matriu_1 = np.ones((5, 4)) # Creem una matriu 5x4
print(matriu_1.shape)

(5, 4)


In [15]:
matriu_2 = np.zeros_like(matriu_1) # Creem la matriu_2 a partir de la forma de la 1
print(matriu_2.shape)

(5, 4)


També podem manipular la forma

In [16]:
mat = np.ones((3, 6))
print(mat.shape)
mat = mat.reshape((6, 3))
print(mat.shape)
mat = mat.reshape((2,3,3))
print(mat.shape)

(3, 6)
(6, 3)
(2, 3, 3)


## Operacions sobre vectors i matrius

Com amb les llistes, podem fer operacions de reducció sobre vectors o matrius

In [17]:
vector = np.asarray([1, 2, 3, 4])

# És equivalent np.sum(x) i x.sum()
print("Sum")
print(np.sum(vector))
print(vector.sum())

print("\nMax")
print(np.max(vector))
print(vector.max())

print("\nMin")
print(np.min(vector))
print(vector.min())

print("\nProd")
print(np.prod(vector))
print(vector.prod())

Sum
10
10

Max
4
4

Min
1
1

Prod
24
24


En el cas de les matrius, les operacions actuen de forma global per defecte, però se'ls hi pot indicar sobre quina dimensió efectuar l'operació:

* **Columnes**: dimensió 0
* **Files**: dimensió 1

In [19]:
# Fem una matriu 3x4
matriu = np.asarray([[1, 2, 3, 4], [10, 20, 30, 40], [100, 200, 300, 400]])

print("Sum")
print(matriu.sum())
print(matriu.sum(axis=0))#columna
print(matriu.sum(axis=1))#fila

# Anàlogament per la resta de les operacions

Sum
1110
[111 222 333 444]
[  10  100 1000]


**Atenció**: Eviteu fer servir les funcions de `python` pures!

```python
# sum(matriu)
#    vs
np.sum(matriu) # O matriu.sum()
```

Sempre tenim l'equivalent en Numpy de tot:

In [20]:
np.abs(matriu) # enlloc de abs(matriu)

array([[  1,   2,   3,   4],
       [ 10,  20,  30,  40],
       [100, 200, 300, 400]])

## Indexació

Com en Python, fent servir Numpy podem accedir a elements en particular d'un vector o matriu

In [21]:
llista = [1, 2, 3]
llista[-2] = 3
llista

[1, 3, 3]

In [22]:
vector

array([1, 2, 3, 4])

In [23]:
print(vector[0])
print(vector[3])
print(vector[-1])
print(vector[1:3])

1
4
4
[2 3]


In [24]:
matriu

array([[  1,   2,   3,   4],
       [ 10,  20,  30,  40],
       [100, 200, 300, 400]])

In [26]:
# Un element en concret
print(matriu[0, 0]) # Fila 0, Columna 0
print(matriu[0, 1]) # Fila 0, Columna 1
print(matriu[1, 2]) # Fila 1, Columna 2
print(matriu[2, 3]) # Fila 2, Columna 3

# Rangs de files i/o columnes
print()
print(matriu[0:2, 0]) # Files 0 i 1, Columna 0
print(matriu[1, 1:3]) # Fila 1, Columnes 1 i 2
print(matriu[0:2, 1:3]) # Fila 0 i 1, Columna 1 i 2

# Quina diferència hi ha?
print()
print(matriu[1, 0:2])   # Fila 1, Columnes 0 i 1
print(matriu[1:2, 0:2]) # Fila 1, Columnes 0 i 1

# Seleccions d'elements múltiples NO IMPORTANT
print()
print(matriu[[1, 2], [0, 2]]) # Element a (1, 0) i a (2, 2)

print(matriu[[(1, 2), (0, 2)]])

1
2
30
400

[ 1 10]
[20 30]
[[ 2  3]
 [20 30]]

[10 20]
[[10 20]]

[ 10 300]
[ 10 300]




## NUMPY FA VISTES, NO CÒPIES!

In [27]:
matriu = np.asarray([[1, 2, 3, 4], [10, 20, 30, 40], [100, 200, 300, 400]])
submatriu = matriu[1:3, 1:3]
submatriu

array([[ 20,  30],
       [200, 300]])

In [28]:
submatriu[1, 1] = 0

In [29]:
matriu

array([[  1,   2,   3,   4],
       [ 10,  20,  30,  40],
       [100, 200,   0, 400]])

També podem fer còpies si volem

In [30]:
matriu = np.asarray([[1, 2, 3, 4], [10, 20, 30, 40], [100, 200, 300, 400]])
submatriu = matriu[1:3, 1:3]
submatriu = submatriu.copy()
submatriu[1, 1] = 0
matriu

array([[  1,   2,   3,   4],
       [ 10,  20,  30,  40],
       [100, 200, 300, 400]])

## Indexació booleana

Suposa que volem sobreescriure tots els elements negatius d'una matriu per 0, ho podem aconseguir amb indexació booleana

In [31]:
exemple = np.random.uniform(-1, 1, size=(3, 4))
exemple

array([[ 0.32116509, -0.11088703,  0.77023208,  0.66359716],
       [ 0.81476819, -0.34829164, -0.87544186,  0.96127327],
       [-0.50239004, -0.20446305,  0.0154811 , -0.40925907]])

In [32]:
# 1. Trobem els elements negatius
negatius = exemple < 0
negatius

array([[False,  True, False, False],
       [False,  True,  True, False],
       [ True,  True, False,  True]])

Ara, podem fer servir aquesta matriu `negatius` com a índexs. Numpy "seleccionarà" únicament aquelles posicions on hi hagi un `True`

In [33]:
exemple[negatius]

array([-0.11088703, -0.34829164, -0.87544186, -0.50239004, -0.20446305,
       -0.40925907])

I, com que Numpy no fa còpies, podem directament canviar els valors d'aquests elements

In [34]:
exemple[exemple < 0] = 0
exemple

array([[0.32116509, 0.        , 0.77023208, 0.66359716],
       [0.81476819, 0.        , 0.        , 0.96127327],
       [0.        , 0.        , 0.0154811 , 0.        ]])

## Operacions element a element

Es diu que les operacions estan "vectoritzades", és a dir que actuen per a cada element de l'array (i de forma ràpida)

In [35]:
vector + 1

array([2, 3, 4, 5])

In [36]:
vector * 2

array([2, 4, 6, 8])

In [37]:
vector ** 2

array([ 1,  4,  9, 16], dtype=int32)

In [38]:
vector + vector

array([2, 4, 6, 8])

In [39]:
vector * vector

array([ 1,  4,  9, 16])

I per matrius:

In [40]:
matriu + 1

array([[  2,   3,   4,   5],
       [ 11,  21,  31,  41],
       [101, 201, 301, 401]])

In [41]:
matriu * 2

array([[  2,   4,   6,   8],
       [ 20,  40,  60,  80],
       [200, 400, 600, 800]])

In [42]:
matriu ** 2

array([[     1,      4,      9,     16],
       [   100,    400,    900,   1600],
       [ 10000,  40000,  90000, 160000]], dtype=int32)

In [43]:
matriu + matriu

array([[  2,   4,   6,   8],
       [ 20,  40,  60,  80],
       [200, 400, 600, 800]])

In [44]:
matriu * matriu

array([[     1,      4,      9,     16],
       [   100,    400,    900,   1600],
       [ 10000,  40000,  90000, 160000]])

**Nota**: Quan treballem amb matrius l'operador ***** actua per cada element, no és la multiplicació matricial, aquesta es pot fer de dues formes (equivalents)

In [45]:
matriu.T

array([[  1,  10, 100],
       [  2,  20, 200],
       [  3,  30, 300],
       [  4,  40, 400]])

In [46]:
np.dot(matriu, matriu.T)

array([[    30,    300,   3000],
       [   300,   3000,  30000],
       [  3000,  30000, 300000]])

In [47]:
matriu @ matriu.T

array([[    30,    300,   3000],
       [   300,   3000,  30000],
       [  3000,  30000, 300000]])

In [48]:
# On `matriu.T` indica la transposada de la matriu:
matriu.T

array([[  1,  10, 100],
       [  2,  20, 200],
       [  3,  30, 300],
       [  4,  40, 400]])

In [49]:
matriu.shape

(3, 4)

In [53]:
matriu.T[0, 1] = 3333

In [54]:
matriu

array([[3333,    2,    3,    4],
       [3333,   20,   30,   40],
       [ 100,  200,  300,  400]])

## Difusió de regles (broadcasting)

Abans hem vist l'ús bàsic de la difusió de regles, actuar element a element, però numpy permet fer operacions molt més avançades.

Per exemple, per fer una operació a cada columna (o fila) no és necessari (i MAI s'hauria de fer) un bucle.

In [55]:
matriu = np.random.uniform(size=(3, 4))
matriu

array([[0.86894922, 0.28302956, 0.20424546, 0.18336503],
       [0.52716929, 0.66333483, 0.36095913, 0.94067294],
       [0.34378915, 0.85722409, 0.85883238, 0.81339398]])

Volem fer una operació que consisteix a normalitzar la matriu per columnes, per tal que la suma de la columna sigui 1.

**Com NO fer-ho:** Obtenim primer la suma de les columnes, bucle per cada columna i dividim

In [56]:
sumes = matriu.sum(axis=0)
sumes

array([1.73990766, 1.80358848, 1.42403697, 1.93743195])

In [57]:
matriu = np.random.uniform(size=(3, 4))
sumes = matriu.sum(axis=0)

for j in range(matriu.shape[1]): # Shape retorna (nº files, nº columnes)
    matriu[:, j] = matriu[:, j] / sumes[j]
    
matriu

array([[0.41177956, 0.22695448, 0.05341731, 0.38923698],
       [0.437345  , 0.31662991, 0.60137281, 0.24632233],
       [0.15087544, 0.45641561, 0.34520988, 0.36444068]])

In [58]:
matriu.sum(axis=0)

array([1., 1., 1., 1.])

**Com SÍ fer-ho:** Obtenim la suma per columnes i dividir directament
    
Farem la divisió d'una matriu $(3, 4)$ amb un vector de $4$ elements

In [59]:
matriu.shape, sumes.shape

((3, 4), (4,))

In [60]:
matriu = np.random.uniform(size=(3, 4))
sumes = matriu.sum(axis=0)
norm = matriu / sumes
norm

array([[0.51051479, 0.46500039, 0.13175785, 0.10315943],
       [0.09358964, 0.2890279 , 0.3111237 , 0.75273099],
       [0.39589558, 0.24597171, 0.55711845, 0.14410958]])

In [61]:
norm.sum(axis=0)

array([1., 1., 1., 1.])

#### I per files?

Numpy fa la difusió per columnes sempre, mai per files, pel que si intentem fer l'operació de divisió entre una matriu $(3, 4)$ i un vector de $3$ elements, fallarà:

In [62]:
matriu = np.random.uniform(size=(3, 4))
sumes = matriu.sum(axis=1)
norm = matriu / sumes
norm

ValueError: operands could not be broadcast together with shapes (3,4) (3,) 

La solució (1)? Transposem la matriu per tenir-la $(3, 4)$, operem i transposem de nou

In [63]:
norm = (matriu.T / sumes).T
norm

array([[0.04796677, 0.35167796, 0.08509268, 0.51526259],
       [0.24814304, 0.3681692 , 0.32439869, 0.05928907],
       [0.23459219, 0.38242341, 0.02988021, 0.35310418]])

In [64]:
norm.sum(axis=1)

array([1., 1., 1.])

La solució (2)? Canviar la forma del vector de $(3)$ a $(3, 1)$. D'aquesta manera estem fent una operació entre dues matrius, una $(3, 4)$ i una $(3, 1)$: numpy el que farà és a cada columna de la matriu (la dimensió que no quadra), aplicar l'operació que li demanem amb tota la columna de les sumes.

In [65]:
sumes.reshape((3,1))

array([[1.73211168],
       [1.5346329 ],
       [2.34520243]])

In [66]:
norm = matriu / sumes.reshape((3, 1))
norm

array([[0.04796677, 0.35167796, 0.08509268, 0.51526259],
       [0.24814304, 0.3681692 , 0.32439869, 0.05928907],
       [0.23459219, 0.38242341, 0.02988021, 0.35310418]])

In [67]:
norm.sum(axis=1)

array([1., 1., 1.])

## Not-a-Number (NaN)

NaN és un valor especial que serveix per indicar la falta de dades. Segons el tipus de dades, no sempre podem fer servir un valor per defecte. Per exemple, si deixem que l'usuari introdueixi **opcionalment** una valoració numèrica, de valor lliure, no podem fer servir 0 (o qualsevol altre nombre) per indicar que no ha introduït res.

In [68]:
np.nan

nan

NaN, però, té alguns trucs:

In [69]:
a = np.nan
# a == np.nan
np.isnan(a)

True

In [70]:
vector = np.asarray([np.nan, 2, np.nan, 3])
vector

array([nan,  2., nan,  3.])

In [71]:
vector[0] == np.nan

False

In [72]:
np.isnan(vector[0])

True

In [73]:
np.isnan(vector)

array([ True, False,  True, False])

Exercici: Posar a 0 tots els nans, sense modificar el vector original

In [76]:
vector[np.isnan(vector)] = 0

In [80]:
print (np.isnan(vector))
print (vector)

[False False False False]
[0. 2. 0. 3.]


In [75]:
vector2 = vector.copy()
vector2[np.isnan(vector2)] = 0
vector2

array([0., 2., 0., 3.])