# Operaciones Básicas

---
## Trasposición de arrays y producto matricial

El método `T` obtiene el array traspuesto de uno dado:

In [None]:
D = np.arange(15).reshape((3, 5))
print(D)

[[ 0  1  2  3  4]
 [ 5  6  7  8  9]
 [10 11 12 13 14]]


In [None]:
print(D.T)

[[ 0  5 10]
 [ 1  6 11]
 [ 2  7 12]
 [ 3  8 13]
 [ 4  9 14]]


En el cálculo matricial será de mucha utilidad el método `np.dot` de numpy, que sirve tanto para calcular el producto escalar como el producto matricial. Veamos varios usos: 

In [None]:
E = rng.normal(0, 1, (6, 3))
E

array([[-0.98911369, -1.13298039,  0.89947532],
       [ 0.83876947, -2.04803026,  0.43605043],
       [-1.41849927, -1.07503232,  0.60719754],
       [ 0.44784829,  0.19511807,  1.10301797],
       [ 0.90283653, -0.87698213, -1.18602109],
       [ 0.57073338,  1.29648296, -0.03642366]])

Ejemplos de producto escalar:

In [None]:
np.dot(E[:, 0], E[:, 1]) # producto escalar de dos columnas

0.9633116274009399

In [None]:
np.dot(E[2],E[4]) # producto escalar de dos filas

-1.058037907436637

In [None]:
np.dot(E, E[0]) # producto de una matriz por un vector

array([ 3.07104632,  1.88295636,  3.16720679,  0.32809962, -0.96620111,
       -2.06617217])

In [None]:
np.dot(E.T, E)   # producto de dos matrices

array([[ 5.03543877,  0.96331163, -1.98283348],
       [ 0.96331163,  9.12180378, -1.35677399],
       [-1.98283348, -1.35677399,  3.99250604]])

Existe otro operador `matmul` (o su versión con el operador `@`) que también multiplica matrices. Se diferencian cuando los arrays con de más de dos dimensiones ya  

In [None]:
A = np.arange(3*7*4*5).reshape(3, 7, 4, 5)
B = np.arange(3*7*5*6).reshape(3, 7, 5, 6)

In [None]:
np.dot(A, B).shape

(3, 7, 4, 3, 7, 6)

`np.dot(A, B)[x1, x2, x3, y1, y2, y3] = A[x1, x2, x3, :].dot(B[y1, y2, :, y3])`

In [None]:
np.matmul(A, B).shape # similar a A @ B 

(3, 7, 4, 6)

La diferencia radica en que `dot` el producto escalara del último eje de A con el penúltimo de B para cada combinación de dimensiones y `matmul` considera los arrays como *arrays de matrices*, donde las dos últimas dimensiones son la parte matricial. 

---
## Funciones universales sobre arrays (componente a componente)

En este contexto, una función universal (o *ufunc*) es una función que actúa sobre cada componente de un array o arrays de numpy. Estas funciones son muy eficientes y se denominan *vectorizadas*. Por ejemplo:   

In [None]:
M = np.arange(10)
M

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [None]:
np.sqrt(M) # raiz cuadrada de cada componente

array([0.        , 1.        , 1.41421356, 1.73205081, 2.        ,
       2.23606798, 2.44948974, 2.64575131, 2.82842712, 3.        ])

In [None]:
np.exp(M.reshape(2,5)) # exponencial de cad componente

array([[1.00000000e+00, 2.71828183e+00, 7.38905610e+00, 2.00855369e+01,
        5.45981500e+01],
       [1.48413159e+02, 4.03428793e+02, 1.09663316e+03, 2.98095799e+03,
        8.10308393e+03]])

Existen funciones universales que actúan sobre dos arrays, ya que realizan operaciones binarias:

In [None]:
x = rng.normal(0, 1, 8)
y = rng.normal(0, 1, 8)
x, y

(array([ 0.56956657, -0.51172143, -0.12143728,  0.82532196,  0.7631476 ,
        -0.27892967,  0.01680242, -0.60594816]),
 array([ 0.494063  , -1.19107762, -0.83504773, -0.16981063,  0.21058211,
        -0.81745446, -1.13536744, -0.71611566]))

In [None]:
np.maximum(x, y)

array([ 0.56956657, -0.51172143, -0.12143728,  0.82532196,  0.7631476 ,
       -0.27892967,  0.01680242, -0.60594816])

In [None]:
x.max()

0.8253219591033163

---
## Expresiones condicionales vectorizadas con *where*

Veamos cómo podemos usar un versión vectorizada de la función `if`. 

Veámoslo con un ejemplo. Supongamos que tenemos dos arrays (unidimensionales) numéricos y otro array booleano del mismo tamaño: 

In [None]:
xarr = np.array([1.1, 1.2, 1.3, 1.4, 1.5])
yarr = np.array([2.1, 2.2, 2.3, 2.4, 2.5])
mask = np.array([True, False, True, True, False])

Si quisiéramos obtener el array que en cada componente tiene el valor de `xarr` si el correspondiente en `mask` es `True`, o el valor de `yarr` si el correspondiente en `cond` es `False`, podemos hacer lo siguiente:  

In [None]:
result = [(x if c else y) for x, y, c in zip(xarr, yarr, cond)]
result

[1.1, 2.2, 1.3, 1.4, 2.5]

Sin embargo, esto tiene dos problemas: no es lo suficientemente eficiente, y además no se traslada bien a arrays multidimensionales. Afortunadamente, tenemos `np.where` para hacer esto de manera conveniente:

In [None]:
result = np.where(mask, xarr, yarr)
result

array([1.1, 2.2, 1.3, 1.4, 2.5])

No necesariamente el segundo y el tercer argumento tiene que ser arrays. Por ejemplo:

In [None]:
F = rng.normal(0, 1, (4, 4))

F, np.where(F > 0, 2, -2)

(array([[ 1.13337281, -0.29586843,  0.8864085 , -0.18065892],
        [ 0.38622589,  0.54599472, -0.96802548, -1.06468639],
        [-0.50519463,  1.02762712, -1.15038418, -0.76742521],
        [ 0.09167195,  0.17300111, -0.00608156, -0.67838085]]),
 array([[ 2, -2,  2, -2],
        [ 2,  2, -2, -2],
        [-2,  2, -2, -2],
        [ 2,  2, -2, -2]]))

O una combinación de ambos. Por ejemplos, para modificar sólo las componentes positivas:

In [None]:
np.where(F > 0, 2, F) 

array([[-0.6525, -1.2183, -1.3326,  2.    ],
       [ 2.    ,  2.    ,  2.    , -0.5031],
       [-0.6223, -0.9212, -0.7262,  2.    ],
       [ 2.    , -1.1577,  2.    ,  2.    ]])

También existe la función `np.select` para concatenar varias máscaras consecutivas. 

In [None]:
np.select(
    [np.abs(F) > 2, np.abs(F) > 1],
    ["Poco probable", "Algo probable"], 
    "Frecuente"
)

array([['Algo probable', 'Frecuente', 'Frecuente', 'Frecuente'],
       ['Frecuente', 'Frecuente', 'Frecuente', 'Algo probable'],
       ['Frecuente', 'Algo probable', 'Algo probable', 'Frecuente'],
       ['Frecuente', 'Frecuente', 'Frecuente', 'Frecuente']], dtype='<U13')

:::{exercise}
:label: basic-operations-masks

Crea una función que transforme un array para aplicar elemento a elemento la siguiente función 

$$
 f(x) = \begin{cases}
        exp(x/2)  & \text{si } x < 0 \\
        1-x & \text{si } 0 \leq x \leq 1 \\
        0 & \text{si } x > 1
        \end{cases}
$$

:::

:::{solution} basic-operations-masks
:class: dropdown

```
def fun(arr: np.ndarray):
    ret = np.select(
        [arr < 0, arr <= 1], 
        [np.exp(arr / 2), 1 - arr], 
        0
    )
    return ret
```

:::

---
## Funciones estadísticas

Algunos métodos para calcular indicadores estadísticos sobre los elementos de un array.

* `np.sum`: suma de los componentes
* `np.mean`: media aritmética
* `np.std` y `np.var`: desviación estándar y varianza, respectivamente.
* `np.max` y `np.min`: máximo y mínimo, resp.
* `np.argmin` y `np.argmax`: índices de los mínimos o máximos elementos, respectivamente.
* `np.cumsum`: sumas acumuladas de cada componente

Estos métodos también se pueden usar como atributos de los arrays. Es decir, por ejemplo `A.sum()` o `A.mean()`.

Veamos algunos ejemplos, generando en primer lugar un array con elementos generados aleatoriamente (siguiendo una distribución normal):

In [None]:
G = rng.normal(0, 1, (5, 4))
G

array([[ 1.15811704,  1.44470502,  1.1576879 , -1.50808637],
       [-1.60287482,  2.06124711, -0.2184874 , -1.26752811],
       [ 0.48962539, -0.24836223, -1.09369912, -1.82517016],
       [ 1.3622494 ,  0.83213038,  0.28669504,  0.39085677],
       [ 0.61704406,  0.11210126, -0.23524245, -0.42265811]])

In [None]:
G.sum()

1.4903505871658758

In [None]:
G.mean()

0.07451752935829378

In [None]:
G.cumsum() # por defecto, se aplana el array y se hace la suma acumulada

array([ 1.15811704,  2.60282205,  3.76050995,  2.25242358,  0.64954876,
        2.71079587,  2.49230847,  1.22478036,  1.71440575,  1.46604353,
        0.3723444 , -1.45282576, -0.09057636,  0.74155402,  1.02824906,
        1.41910583,  2.03614988,  2.14825114,  1.91300869,  1.49035059])

Todas estas funciones se pueden aplicar a lo largo de un eje, usando el parámetro `axis`. Por ejemplos, para calcular las medias de cada fila (es decir, recorriendo en el sentido de las columnas), aplicamos `mean` por `axis=1`:

In [None]:
print(G)

[[ 1.15811704  1.44470502  1.1576879  -1.50808637]
 [-1.60287482  2.06124711 -0.2184874  -1.26752811]
 [ 0.48962539 -0.24836223 -1.09369912 -1.82517016]
 [ 1.3622494   0.83213038  0.28669504  0.39085677]
 [ 0.61704406  0.11210126 -0.23524245 -0.42265811]]


In [None]:
G.mean(axis=1)

array([ 0.56310589, -0.2569108 , -0.66940153,  0.7179829 ,  0.01781119])

Y la suma de cada columna (es decir, recorriendo las filas), con `sum` por `axis=0`:

In [None]:
G.sum(axis=0)

array([ 2.02416106,  4.20182155, -0.10304603, -4.63258598])

Suma acumulada de cada columna:

In [None]:
G.cumsum(axis=0)

array([[ 0.68491589, -0.23523322, -2.76736549, -0.43965882],
       [ 0.90880762, -1.5861845 , -3.98184109,  0.47762161],
       [-0.0986952 , -1.75230822, -4.37844759,  1.31736009],
       [-0.40237238, -1.97550365, -5.27703634,  2.0881778 ],
       [-1.24035148, -3.90079295, -4.76107377,  3.99477494]])

Dentro de cada columna, el número de fila donde se alcanza el mínimo se puede hacer asi:

In [None]:
G, G.argmin(axis=0)

(array([[ 1.15811704,  1.44470502,  1.1576879 , -1.50808637],
        [-1.60287482,  2.06124711, -0.2184874 , -1.26752811],
        [ 0.48962539, -0.24836223, -1.09369912, -1.82517016],
        [ 1.3622494 ,  0.83213038,  0.28669504,  0.39085677],
        [ 0.61704406,  0.11210126, -0.23524245, -0.42265811]]),
 array([1, 2, 2, 2]))

---
## Métodos para arrays booleanos

In [None]:
H = rng.normal(0, 1, 50)
H

array([-0.37538207,  0.88307139, -1.48033047, -0.63881861,  2.19960502,
       -1.04557441, -1.79101969,  0.09058196, -1.06703354,  1.29961831,
       -1.68622683, -1.58008397, -0.30115987, -1.03949893, -0.20491355,
        0.69074324,  0.09264284,  0.24829285,  0.27853556,  0.17902419,
        0.43198911, -1.50762967, -1.07813134, -0.13374533, -1.21838537,
       -1.17015638, -0.95365623, -0.49277838,  0.55410651, -1.52619269,
       -0.4931205 , -1.59242357,  0.69355821, -0.79341399, -0.89048256,
       -0.20281593, -0.26983338, -1.84487019,  0.13131009, -2.28654886,
       -0.38557445, -0.40674425, -1.1288668 , -0.31117298,  0.03671756,
       -0.26609603, -0.61608135, -0.73828882,  1.30595592, -0.3525448 ])

Es bastante frecuente usar `sum` para ontar el número de veces que se cumple una condición en un array, aprovechando que `True` se identifica con 1 y `False` con 0:

In [None]:
(H > 0).sum() # Number of positive values

15

Las funciones python `any` y `all` tienen también su correspondiente versión vectorizada. `any` se puede ver como un *or* generalizado, y `all`como un *and* generalizado:  

In [None]:
bools = np.array([False, False, True, False])
bools.any(), bools.all()

(True, False)

Podemos comprobar si se cumple *alguna vez* una condición entre los componentes de un array, o bien si se cumple *siempre* una condición:

In [None]:
np.any(H > 0)

True

In [None]:
np.all(H < 10)

True

In [None]:
np.any(H > 15)

False

In [None]:
np.all(H > 0)

False

---
## Entrada y salida de arrays en ficheros

Existen una serie de utilidades para guardar el contenido de un array en un fichero y recuperarlo más tarde. 

Las funciones `save` y `load` hacen esto. Los arrays se almacenan en archivos con extensión *npy*.  

In [None]:
J = np.arange(10)
np.save('un_array', J)

In [None]:
np.load('un_array.npy')

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

Con `savez`, podemos guardar una serie de arrays en un archivo de extensión *npz*, asociados a una serie de claves. Por ejemplo:

In [None]:
np.savez('array_archivo.npz', a=J, b=J**2)

Cuando hacemos `load` sobre un archivo *npz*, cargamos un objeto de tipo diccionario, con el que podemos acceder (de manera perezosa) a los distintos arrays que se han almacenado:

In [None]:
arch = np.load('array_archivo.npz')
arch['b']

array([ 0,  1,  4,  9, 16, 25, 36, 49, 64, 81])

In [None]:
arch['a']

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [None]:
list(arch)

['a', 'b']

En caso de que fuera necesario, podríamos incluso guardar incluso los datos en formato comprimido con `savez_compressed`:

In [None]:
np.savez_compressed('arrays_comprimidos.npz', a=J, b=J**2)

In [None]:
!ls -lah

total 28K
drwxr-xr-x 1 root root 4.0K Dec  2 19:05 .
drwxr-xr-x 1 root root 4.0K Dec  2 17:03 ..
-rw-r--r-- 1 root root  650 Dec  2 19:03 array_archivo.npz
-rw-r--r-- 1 root root  424 Dec  2 19:05 arrays_comprimidos.npz
drwxr-xr-x 4 root root 4.0K Nov 23 14:31 .config
drwxr-xr-x 1 root root 4.0K Nov 23 14:31 sample_data
-rw-r--r-- 1 root root  208 Dec  2 19:02 un_array.npy


In [None]:
!rm un_array.npy
!rm array_archivo.npz
!rm arrays_comprimidos.npz