# Numpy

Dur a terme operacions matemàtiques en Python és complicat, com podem simplificar-ho i operar amb vectors o inclús matrius? 

La resposta és la llibreria **Numpy**.

In [1]:
import numpy as np

Tornem a l'exemple anterior, com calcular $z = x + y$ on $x=(1, 2, 3), y=(2, 3, 4)$?

In [2]:
# Necessitem convertir les llistes de python a elements de numpy
x = [1, 2, 3]
y = [2, 3, 4]

x = np.array(x)
y = np.asarray(y)

# Inspeccionem que és ara x
x

array([1, 2, 3])

In [3]:
# A partir d'ara, podem operar amb aquestes "x" i "y" com si fossin vectors matemàtics

z = x + y
z

array([3, 5, 7])

## 1. Vectors i matrius (arrays i arrays ndimensionals)

Existeixen diferents formes de crear elements en numpy:
    
* Vectors a partir de llistes de python
* Vectors directament des de numpy
* Matrius a partir de llistes de llistes
* Matrius amb numpy

In [5]:
# Abans hem vist la creació a partir d'una llista de python
# _Les dues són equivalents_
vector = np.asarray([1, 2, 3])
vector = np.array([1, 2, 3])
print(vector)

# També es pot crear directament vectors de 0's o 1's
# Per exemple, un vector de 8 0's
zeros = np.zeros(8)
print(zeros)

# Un vector de 5 0's
ones = np.ones(5)*7
print(ones)

[1 2 3]
[0. 0. 0. 0. 0. 0. 0. 0.]
[7. 7. 7. 7. 7.]


Fixa't que per defecte numpy crea vectors de tipus `float` quan es fa servir `ones` o `zeros`, amb la quantitat que li indiquem.

D'altra banda, si li donem una llista de python, infereix el tipus d'aquesta. Per exemple, abans la llista contenia enters, i per tant ha utilitzat el tipus `int`.

Que passaria en aquest cas?

In [6]:
np.asarray([1, 2.0])

array([1., 2.])

Si hi ha tipus barrejats, com ara `int` i `float`, numpy escull sempre el tipus flotant. Podem, però, indicar un tipus diferent:

In [7]:
print('Per defecte')
print(np.asarray([1.0, 2.5, 3.6, 256, -1, -256]))

print('\nFlotants')
print(np.asarray([1.0, 2.5, 3.6, 256, -1, -256], dtype=float))
print(np.asarray([1.0, 2.5, 3.6, 256, -1, -256], dtype=np.float32))
print(np.asarray([1.0, 2.5, 3.6, 256, -1, -256], dtype=np.float64))

print('\nEnters')
print(np.asarray([1.0, 2.5, 3.6, 256, -1, -256], dtype=int))
print(np.asarray([1.0, 2.5, 3.6, 256, -1, -256], dtype=np.int32))
print(np.asarray([1.0, 2.5, 3.6, 256, -1, -256], dtype=np.uint32))
print(np.asarray([1.0, 2.5, 3.6, 256, -1, -256], dtype=np.int8))
print(np.asarray([1.0, 2.5, 3.6, 256, -1, -256], dtype=np.uint8))

Per defecte
[   1.     2.5    3.6  256.    -1.  -256. ]

Flotants
[   1.     2.5    3.6  256.    -1.  -256. ]
[   1.     2.5    3.6  256.    -1.  -256. ]
[   1.     2.5    3.6  256.    -1.  -256. ]

Enters
[   1    2    3  256   -1 -256]
[   1    2    3  256   -1 -256]
[         1          2          3        256 4294967295 4294967040]
[ 1  2  3  0 -1  0]
[  1   2   3   0 255   0]


In [9]:
# En qualsevol moment podem canviar el tipus també
vector = np.asarray([1.0, 2.0, 3.0])
print(vector)
print(vector.dtype)
vector = vector.astype(int)
print(vector)
print(vector.dtype)

[1. 2. 3.]
float64
[1 2 3]
int32


També podem crear matrius:

In [10]:
np.ones((3, 4))

array([[1., 1., 1., 1.],
       [1., 1., 1., 1.],
       [1., 1., 1., 1.]])

In [11]:
np.zeros((2, 7))

array([[0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0.]])

In [12]:
np.asarray([
    [1, 2, 3, 4],
    [10, 20, 30, 40],
    [100, 200, 300, 400]
])

array([[  1,   2,   3,   4],
       [ 10,  20,  30,  40],
       [100, 200, 300, 400]])

I podem crear matrius a partir de les dimensions d'una altra matriu

In [13]:
matriu_1 = np.ones((5, 4)) # Creem una matriu 5x4
print(matriu_1.shape)

(5, 4)


In [14]:
matriu_2 = np.zeros_like(matriu_1) # Creem la matriu_2 a partir de la forma de la 1
print(matriu_2.shape)

(5, 4)


També podem manipular la forma

In [15]:
mat = np.ones((3, 6))
print(mat.shape)
mat = mat.reshape((6, 3))
print(mat.shape)
mat = mat.reshape((2,3,3))
print(mat.shape)

(3, 6)
(6, 3)
(2, 3, 3)


## 2. Operacions sobre vectors i matrius

Com amb les llistes, podem fer operacions de reducció sobre vectors o matrius

In [16]:
vector = np.asarray([1, 2, 3, 4])

# És equivalent np.sum(x) i x.sum()
print("Sum")
print(np.sum(vector))
print(vector.sum())

print("\nMax")
print(np.max(vector))
print(vector.max())

print("\nMin")
print(np.min(vector))
print(vector.min())

print("\nProd")
print(np.prod(vector))
print(vector.prod())

Sum
10
10

Max
4
4

Min
1
1

Prod
24
24


En el cas de les matrius, les operacions actuen de forma global per defecte, però se'ls hi pot indicar sobre quina dimensió efectuar l'operació:

* **Columnes**: dimensió 0
* **Files**: dimensió 1

In [17]:
# Fem una matriu 3x4
matriu = np.asarray([[  1,   2,   3,  4],
                     [ 10,  20,  30, 40],
                     [100, 200, 300, 400]])

print("Sum")
print(matriu.sum())
print(matriu.sum(axis=0))
print(matriu.sum(axis=1))

# Anàlogament per la resta de les operacions

Sum
1110
[111 222 333 444]
[  10  100 1000]


**Atenció**: Eviteu fer servir les funcions de `python` pures!

```python
# sum(matriu)
#    vs
np.sum(matriu) # O matriu.sum()
```

Sempre tenim l'equivalent en Numpy de tot:

In [18]:
np.abs(matriu) # enlloc de abs(matriu)

array([[  1,   2,   3,   4],
       [ 10,  20,  30,  40],
       [100, 200, 300, 400]])

## 3. Indexació

Com en Python, fent servir Numpy podem accedir a elements en particular d'un vector o matriu

In [19]:
llista = [1, 2, 3]
llista[-2] = 3
llista


[1, 3, 3]

In [20]:
vector

array([1, 2, 3, 4])

In [21]:
print(vector[0])
print(vector[3])
print(vector[-1])
print(vector[1:3])

1
4
4
[2 3]


In [22]:
matriu

array([[  1,   2,   3,   4],
       [ 10,  20,  30,  40],
       [100, 200, 300, 400]])

In [23]:
# Outside to inside
np.ones((2, 3, 4))

array([[[1., 1., 1., 1.],
        [1., 1., 1., 1.],
        [1., 1., 1., 1.]],

       [[1., 1., 1., 1.],
        [1., 1., 1., 1.],
        [1., 1., 1., 1.]]])

In [31]:
# Destrueix la fila passada, de fora endins
np.ones((2, 3, 4)).sum(axis=0)

array([[2., 2., 2., 2.],
       [2., 2., 2., 2.],
       [2., 2., 2., 2.]])

In [39]:
# Un element en concret
print(matriu[0, 0]) # Fila 0, Columna 0
print(matriu[0, 1]) # Fila 0, Columna 1
print(matriu[1, 2]) # Fila 1, Columna 2
print(matriu[2, 3]) # Fila 2, Columna 3

# Rangs de files i/o columnes
print()
print(matriu[0:2, 0]) # Files 0 i 1, Columna 0
print(matriu[1, 1:3]) # Fila 1, Columnes 1 i 2
print(matriu[0:2, 1:3]) # Fila 0 i 1, Columna 1 i 2

# Quina diferència hi ha?
print()
print(matriu[1, 0:2])   # Fila 1, Columnes 0 i 1
print(matriu[1:2, 0:2]) # Fila 1, Columnes 0 i 1

# Seleccions d'elements múltiples
# SI ACCEDEIXO EN FORMA DE LLISTA, PRIMER TOTES LES 1res DIMENSIONS I DESPRÉS LES ALTRES PER SEPARAT!! (i vol tupla exterior)
print()

print(matriu[([1, 2], [0, 2])])

1
2
30
400

[ 1 10]
[20 30]
[[ 2  3]
 [20 30]]

[10 20]
[[10 20]]

[ 10 300]


## 4. NUMPY FA VISTES, NO CÒPIES!

In [40]:
matriu = np.asarray([[1, 2, 3, 4], [10, 20, 30, 40], [100, 200, 300, 400]])
submatriu = matriu[1:3, 1:3]
submatriu

array([[ 20,  30],
       [200, 300]])

In [41]:
submatriu[1, 1] = 0

In [42]:
matriu

array([[  1,   2,   3,   4],
       [ 10,  20,  30,  40],
       [100, 200,   0, 400]])

També podem fer còpies si volem

In [43]:
matriu = np.asarray([[1, 2, 3, 4], [10, 20, 30, 40], [100, 200, 300, 400]])
submatriu = matriu[1:3, 1:3]
submatriu = submatriu.copy()
submatriu[1, 1] = 0
matriu

array([[  1,   2,   3,   4],
       [ 10,  20,  30,  40],
       [100, 200, 300, 400]])

## 5. Indexació booleana

Suposa que volem sobreescriure tots els elements negatius d'una matriu per 0, ho podem aconseguir amb indexació booleana

In [44]:
exemple = np.random.uniform(-1, 1, size=(3, 4))
exemple

array([[-0.42117242,  0.66783318,  0.89816911,  0.28066001],
       [-0.90536945,  0.21141154,  0.71103474, -0.79551339],
       [-0.0207816 ,  0.70354865, -0.08265845,  0.08344156]])

In [45]:
# 1. Trobem els elements negatius
negatius = exemple < 0
negatius

array([[ True, False, False, False],
       [ True, False, False,  True],
       [ True, False,  True, False]])

Ara, podem fer servir aquesta matriu `negatius` com a índexs. Numpy "seleccionarà" únicament aquelles posicions on hi hagi un `True`

In [46]:
exemple[negatius]

array([-0.42117242, -0.90536945, -0.79551339, -0.0207816 , -0.08265845])

I, com que Numpy no fa còpies, podem directament canviar els valors d'aquests elements

In [47]:
exemple[exemple < 0] = 0
exemple

array([[0.        , 0.66783318, 0.89816911, 0.28066001],
       [0.        , 0.21141154, 0.71103474, 0.        ],
       [0.        , 0.70354865, 0.        , 0.08344156]])

## 6. Operacions element a element

Es diu que les operacions estan "vectoritzades", és a dir que actuen per a cada element de l'array (i de forma ràpida)

In [48]:
vector + 1

array([2, 3, 4, 5])

In [49]:
vector * 2

array([2, 4, 6, 8])

In [50]:
vector ** 2

array([ 1,  4,  9, 16], dtype=int32)

In [51]:
vector + vector

array([2, 4, 6, 8])

In [52]:
vector * vector

array([ 1,  4,  9, 16])

I per matrius:

In [53]:
matriu + 1

array([[  2,   3,   4,   5],
       [ 11,  21,  31,  41],
       [101, 201, 301, 401]])

In [54]:
matriu * 2

array([[  2,   4,   6,   8],
       [ 20,  40,  60,  80],
       [200, 400, 600, 800]])

In [55]:
matriu ** 2

array([[     1,      4,      9,     16],
       [   100,    400,    900,   1600],
       [ 10000,  40000,  90000, 160000]], dtype=int32)

In [56]:
matriu + matriu

array([[  2,   4,   6,   8],
       [ 20,  40,  60,  80],
       [200, 400, 600, 800]])

In [57]:
matriu * matriu

array([[     1,      4,      9,     16],
       [   100,    400,    900,   1600],
       [ 10000,  40000,  90000, 160000]])

**Nota**: Quan treballem amb matrius l'operador * actua per cada element, no és la multiplicació matricial, aquesta es pot fer de dues formes (equivalents)

In [58]:
matriu.T

array([[  1,  10, 100],
       [  2,  20, 200],
       [  3,  30, 300],
       [  4,  40, 400]])

In [59]:
np.dot(matriu, matriu.T)

array([[    30,    300,   3000],
       [   300,   3000,  30000],
       [  3000,  30000, 300000]])

In [60]:
matriu @ matriu.T
# np.dot ≡ @

array([[    30,    300,   3000],
       [   300,   3000,  30000],
       [  3000,  30000, 300000]])

In [61]:
# On `matriu.T` indica la transposada de la matriu:
matriu.T

array([[  1,  10, 100],
       [  2,  20, 200],
       [  3,  30, 300],
       [  4,  40, 400]])

In [62]:
matriu.shape

(3, 4)

In [63]:
matriu.T[0, 0] = 3333

In [64]:
matriu

array([[3333,    2,    3,    4],
       [  10,   20,   30,   40],
       [ 100,  200,  300,  400]])

## 7. Difusió de regles (broadcasting)

Abans hem vist l'ús bàsic de la difusió de regles, actuar element a element, però numpy permet fer operacions molt més avançades.

Per exemple, per fer una operació a cada columna (o fila) no és necessari (i MAI s'hauria de fer) un bucle.

In [65]:
matriu = np.random.uniform(size=(3, 4))
matriu

array([[0.63323063, 0.60651028, 0.65975265, 0.82198631],
       [0.0071239 , 0.61476869, 0.88040777, 0.77993744],
       [0.05524758, 0.24801411, 0.43433861, 0.6762457 ]])

Volem fer una operació que consisteix a **normalitzar** la matriu per columnes, per tal que la suma de la columna sigui 1.

**Com NO fer-ho:** Obtenim primer la suma de les columnes, bucle per cada columna i dividim

In [66]:
sumes = matriu.sum(axis=0)
sumes

array([0.69560211, 1.46929309, 1.97449903, 2.27816946])

In [67]:
matriu = np.random.uniform(size=(3, 4))
sumes = matriu.sum(axis=0)

for j in range(matriu.shape[1]): # Shape retorna (nº files, nº columnes)
    matriu[:, j] = matriu[:, j] / sumes[j]
    
matriu

array([[0.21955979, 0.06581279, 0.76001343, 0.20593948],
       [0.64792092, 0.53159646, 0.07114334, 0.16579346],
       [0.13251929, 0.40259074, 0.16884323, 0.62826706]])

In [68]:
matriu.sum(axis=0)

array([1., 1., 1., 1.])

**Com SÍ fer-ho:** Obtenim la suma per columnes i dividir directament
    
Farem la divisió d'una matriu $(3, 4)$ amb un vector de $4$ elements

In [69]:
matriu.shape, sumes.shape

((3, 4), (4,))

In [70]:
matriu = np.random.uniform(size=(3, 4))
sumes = matriu.sum(axis=0)
norm = matriu / sumes
norm

array([[0.74699466, 0.05972415, 0.52435202, 0.44267303],
       [0.14187292, 0.57179112, 0.19387839, 0.48313172],
       [0.11113242, 0.36848474, 0.28176959, 0.07419525]])

In [71]:
norm.sum(axis=0)

array([1., 1., 1., 1.])

#### I per files?

Numpy fa la difusió per columnes sempre, mai per files, pel que si intentem fer l'operació de divisió entre una matriu $(3, 4)$ i un vector de $3$ elements, fallarà:

In [72]:
matriu = np.random.uniform(size=(3, 4))
sumes = matriu.sum(axis=1)
norm = matriu / sumes
norm

ValueError: operands could not be broadcast together with shapes (3,4) (3,) 

La solució (1)? Transposem la matriu per tenir-la $(3, 4)$, operem i transposem de nou

In [73]:
norm = (matriu.T / sumes).T
norm

array([[0.18679362, 0.34274052, 0.23935891, 0.23110695],
       [0.32306344, 0.25757943, 0.22758676, 0.19177036],
       [0.37900888, 0.05596841, 0.23123408, 0.33378863]])

In [74]:
norm.sum(axis=1)

array([1., 1., 1.])

La solució (2)? Canviar la forma del vector de $(3)$ a $(3, 1)$. D'aquesta manera estem fent una operació entre dues matrius, una $(3, 4)$ i una $(3, 1)$: numpy el que farà és a cada columna de la matriu (la dimensió que no quadra), aplicar l'operació que li demanem amb tota la columna de les sumes.

In [75]:
sumes.reshape((3,1))

array([[2.5504809 ],
       [1.79603905],
       [2.23380306]])

In [76]:
norm = matriu / sumes.reshape((3, 1))
norm

array([[0.18679362, 0.34274052, 0.23935891, 0.23110695],
       [0.32306344, 0.25757943, 0.22758676, 0.19177036],
       [0.37900888, 0.05596841, 0.23123408, 0.33378863]])

In [77]:
norm.sum(axis=1)

array([1., 1., 1.])

## 8. Not-a-Number (NaN)

NaN és un valor especial que serveix per indicar la falta de dades. Segons el tipus de dades, no sempre podem fer servir un valor per defecte. Per exemple, si deixem que l'usuari introdueixi **opcionalment** una valoració numèrica, de valor lliure, no podem fer servir 0 (o qualsevol altre nombre) per indicar que no ha introduït res.

In [78]:
np.nan

nan

NaN, però, té alguns trucs:

In [79]:
a = np.nan
a == np.nan, np.isnan(a)

(False, True)

In [80]:
vector = np.asarray([np.nan, 2, np.nan, 3])
vector

array([nan,  2., nan,  3.])

In [81]:
vector[0] == np.nan

False

In [82]:
np.isnan(vector[0])

True

In [83]:
np.isnan(vector)

array([ True, False,  True, False])

Exercici: Posar a 0 tots els nans, sense modificar el vector original

In [84]:
np.isnan(vector)

array([ True, False,  True, False])

In [85]:
vector2 = vector.copy()
# AQUÍ EL TEU CODI
vector2[np.isnan(vector)] = 0
vector2

array([0., 2., 0., 3.])

# Exercicis

**Exercici 1:** La següent funció retorna el següent càlcul element a element pel vector o matriu d'entrada,

$$\begin{equation} x^2+2x+1 \end{equation}$$

In [86]:
def calcular(x):
    """
    Calcula, per cada element de `x` de forma individual, la funció
    x^2+2x+1
    
    *NO* es poden fer servir bucles ni list-comprehensions
    
    :param x: np.array amb els elemnts a calcular
    :return: np.array amb el càlcul fet
    """
    # AQUÍ EL TEU CODI
    return x**2 + 2*x + 1

In [91]:
print(calcular(3*np.ones((2, 2))))

[[16. 16.]
 [16. 16.]]


**Exercici 2:** Una altra forma de normalitzar vectors és fer que la seva mitja sigui 0 i la seva desviació estàndard sigui 1. Donat un vector $x$, el vector normalitzat $\bar{x}$ es calcula

$$\bar{x} = \frac{x - \mu_x}{\sigma_x}$$

On $\mu_x$ és la mitja i $\sigma_x$ la desviació estandard

In [92]:
def normalitzar(x):
    """
    Normalitza el vector d'entrada `x` segons la definició
    anterior.
    
    *NO* es poden fer servir bucles ni list-comprehensions
    
    :param x: np.array en forma de vector (unidimensional)
    :return: np.array en forma de vector (unidimensional)
    """
    # AQUÍ EL TEU CODI
    return (x - x.mean()) / x.std()

In [93]:
print(normalitzar(np.random.random(5)))

[-1.52910561  1.19385779  0.93346648 -0.60427088  0.00605222]


In [94]:
def normalitzar_matriu_per_columnes(x):
    """
    Normalitza, segons la definició d'abans, les columnes de la
    matriu de forma independent (cada columna es normalitza per la seva
    pròpia mitja i desviació estàndard)
    
    *NO* es poden fer servir bucles ni list-comprehensions
    
    :param x: np.array en forma matricial (bidimensional)
    :return: np.array en forma matricial (bidimensional)
    """
    # AQUÍ EL TEU CODI
    return (x - x.mean(axis=0)) / x.std(axis=0)

In [95]:
norm_matrix = normalitzar_matriu_per_columnes(np.random.random((5, 5)))

print(norm_matrix)

print(np.sum(norm_matrix, axis=0))

[[-0.7980483   1.94208759  1.4692888   1.2383766   0.97833101]
 [-0.90322    -0.32085389 -1.41784879 -0.55633166 -1.801894  ]
 [ 1.16307892 -0.15826137  0.55814389 -1.17558719 -0.18859969]
 [-0.74326297 -0.60868981  0.10360389  1.15592493  0.858388  ]
 [ 1.28145235 -0.85428252 -0.7131878  -0.66238268  0.15377468]]
[ 2.22044605e-16  6.66133815e-16  6.66133815e-16  6.66133815e-16
 -9.15933995e-16]


In [108]:
def normalitzar_matriu_per_files(x):
    """
    Normalitza, segons la definició d'abans, les files de la
    matriu de forma independent (cada fila es normalitza per la seva
    pròpia mitja i desviació estàndard)
    
    *NO* es poden fer servir bucles ni list-comprehensions
    
    :param x: np.array en forma matricial (bidimensional)
    :return: np.array en forma matricial (bidimensional)
    """
    
    # AQUÍ EL TEU CODI
    return (x - x.sum(axis=1).reshape((x.shape[0], 1))) / x.std(axis=1).reshape((x.shape[0], 1))

In [109]:
norm_matrix = normalitzar_matriu_per_files(np.random.random((5, 4)))
print(norm_matrix)
print(np.sum(norm_matrix, axis = 1))

[[-6.39136259 -7.71737481 -4.97059567 -5.81071087]
 [-6.36119931 -6.23154254 -5.24561617 -3.86268067]
 [-5.99678783 -4.28967364 -7.02820486 -6.25339764]
 [-7.21271966 -4.61154261 -6.13858402 -5.1061381 ]
 [-7.55261206 -5.45587424 -6.54131201 -4.96700629]]
[-24.89004395 -21.70103868 -23.56806397 -23.0689844  -24.5168046 ]


**Exercici 3:** Calcula la mitja del vector d'entrada, però qualsevol element NaN ha de ser tractat com si fos un 0.

In [114]:
def calcular_mitja(x):
    """
    Calcula la mitja del vector d'entrada `x`, però qualsevol element
    NaN ha de ser tractat com si fos un 0. NO es pot modificar el
    vector original que es passa per paràmetre
    
    *NO* es poden fer servir bucles ni list-comprehensions
    
    :param x: np.array en forma vectorial (unidimensional)
    :return: float amb la mitja
    """
    # AQUÍ EL TEU CODI
    return np.nan_to_num(x, 0).mean()

In [115]:
vec = np.random.random(5)
vec[np.random.randint(0, 5)] = np.nan
print(calcular_mitja(vec))

0.4757020679684071
