# Operaciones Básicas

In [1]:
import numpy as np

---

## Trasposición de arrays y producto matricial

El método `T` obtiene el array traspuesto de uno dado:

In [2]:
D = np.arange(15).reshape((3, 5))
print(D)

[[ 0  1  2  3  4]
 [ 5  6  7  8  9]
 [10 11 12 13 14]]


In [3]:
print(D.T)

[[ 0  5 10]
 [ 1  6 11]
 [ 2  7 12]
 [ 3  8 13]
 [ 4  9 14]]


:::{exercise}
:label: basic-operations-transpose

Utiliza la función `np.transpose` para convertir el array

```
arr = np.arange(3*7*4).reshape(3, 7, 4)
```

en un array de dimensiones `(4, 7, 3)`. ¿Se obtiene el mismo resultado si aplicamos `arr.reshape(4, 7, 3)`?

:::

In [12]:
arr = np.arange(3*7*4).reshape(3, 7, 4)
traspuesta = np.transpose(arr, (2,1,0))  # el segundo elemento es el orden en el que queremos que se intercambien los ejes
dimtras = traspuesta.shape
print(dimtras)
arres = arr.reshape(4, 7, 3) # no obtenemos el mismo resultado

(4, 7, 3)


En el cálculo matricial será de mucha utilidad el método `np.dot` de numpy, que sirve tanto para calcular el producto escalar como el producto matricial. Veamos varios usos:

In [13]:
rng = np.random.default_rng()
E = rng.normal(0, 1, (6, 3))
E

array([[-0.7558263 ,  1.19031696,  0.37990589],
       [-0.36547311,  0.90796282, -0.56466404],
       [ 0.74166742,  0.371182  , -0.65927578],
       [-0.6192047 , -0.60295862,  1.2198631 ],
       [-2.00506342, -1.54303089,  0.88677021],
       [ 0.50302276,  2.05138212, -0.34327819]])

Ejemplos de producto escalar:

In [14]:
np.dot(E[:, 0], E[:, 1]) # producto escalar de dos columnas

3.542906235237035

In [15]:
np.dot(E[2],E[4]) # producto escalar de dos filas

-2.6444616231148843

In [16]:
E.shape

(6, 3)

In [20]:
np.dot(E, E[0]) # producto de una matriz por un vector

array([ 2.13245634,  1.14247854, -0.36921026,  0.21373251,  0.01567304,
        1.93118369])

In [18]:
np.dot(E.T, E)   # producto de dos matrices

array([[ 5.91164022,  3.54290624, -3.27578892],
       [ 3.54290624,  9.33169904, -3.11323236],
       [-3.27578892, -3.11323236,  3.29008582]])

Existe otro operador `matmul` (o su versión con el operador `@`) que también multiplica matrices. Se diferencian cuando los arrays son de más de dos dimensiones.

In [21]:
A = np.arange(3*4*5).reshape(3, 4, 5)
B = np.arange(3*5*6).reshape(3, 5, 6)

In [22]:
np.dot(A, B).shape

(3, 4, 3, 6)

`np.dot(A, B)[x1, x2, y1, y2] = A[x1, x2, :].dot(B[y1, y2, :])`

In [23]:
np.matmul(A, B).shape # similar a A @ B, es como el .dot pero para rangos >2

(3, 4, 6)

La diferencia radica en que `dot` es el producto escalar del último eje de A con el penúltimo de B para cada combinación de dimensiones y `matmul` considera los arrays como *arrays de matrices*, donde las dos últimas dimensiones son la parte matricial.

---

## Funciones universales sobre arrays (componente a componente)
En este contexto, una función universal (o *ufunc*) es una función que actúa sobre cada componente de un array o arrays de numpy. Estas funciones son muy eficientes y se denominan *vectorizadas*. Por ejemplo:  

In [24]:
M = np.arange(10)
M

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [25]:
np.sqrt(M) # raiz cuadrada de cada componente

array([0.        , 1.        , 1.41421356, 1.73205081, 2.        ,
       2.23606798, 2.44948974, 2.64575131, 2.82842712, 3.        ])

In [26]:
np.exp(M.reshape(2,5)) # exponencial de cad componente

array([[1.00000000e+00, 2.71828183e+00, 7.38905610e+00, 2.00855369e+01,
        5.45981500e+01],
       [1.48413159e+02, 4.03428793e+02, 1.09663316e+03, 2.98095799e+03,
        8.10308393e+03]])

Existen funciones universales que actúan sobre dos arrays, ya que realizan operaciones binarias:

In [27]:
x = rng.normal(0, 1, 8)
y = rng.normal(0, 1, 8)
x, y

(array([-0.24799849,  0.2453671 , -0.6087193 ,  0.29556914,  1.82469205,
         1.13654211,  0.82014429, -0.36865183]),
 array([ 0.43529082, -0.50529536,  0.217431  ,  0.63387807, -0.22226536,
         1.12273241,  0.18178307,  0.66314871]))

In [28]:
np.maximum(x, y)

array([0.43529082, 0.2453671 , 0.217431  , 0.63387807, 1.82469205,
       1.13654211, 0.82014429, 0.66314871])

In [29]:
x.max()

1.8246920468949968

---

## Expresiones condicionales vectorizadas con *where*

Veamos cómo podemos usar un versión vectorizada de la función `if`.

Veámoslo con un ejemplo. Supongamos que tenemos dos arrays (unidimensionales) numéricos y otro array booleano del mismo tamaño:

In [30]:
xarr = np.array([1.1, 1.2, 1.3, 1.4, 1.5])
yarr = np.array([2.1, 2.2, 2.3, 2.4, 2.5])
mask = np.array([True, False, True, True, False])

Si quisiéramos obtener el array que en cada componente tiene el valor de `xarr` si el correspondiente en `mask` es `True`, o el valor de `yarr` si el correspondiente en `cond` es `False`, podemos hacer lo siguiente:  

In [31]:
result = [(x if c else y) for x, y, c in zip(xarr, yarr, mask)]
result

[1.1, 2.2, 1.3, 1.4, 2.5]

Sin embargo, esto tiene dos problemas: no es lo suficientemente eficiente, y además no se traslada bien a arrays multidimensionales. Afortunadamente, tenemos `np.where` para hacer esto de manera conveniente:

In [32]:
result = np.where(mask, xarr, yarr)
result

array([1.1, 2.2, 1.3, 1.4, 2.5])

No necesariamente el segundo y el tercer argumento tiene que ser arrays. Por ejemplo:

In [33]:
F = rng.normal(0, 1, (4, 4))

F, np.where(F > 0, 2, -2)  # si es >0 pon 2, sino, -2

(array([[-0.08378715,  0.84935084, -0.1775111 , -3.34990012],
        [ 0.62338453, -1.22567224,  0.38584884, -1.60195045],
        [ 0.37286756,  0.76885965, -0.8589646 , -0.65772416],
        [ 0.17027089, -1.33076947, -1.65727984, -0.57159426]]),
 array([[-2,  2, -2, -2],
        [ 2, -2,  2, -2],
        [ 2,  2, -2, -2],
        [ 2, -2, -2, -2]]))

O una combinación de ambos. Por ejemplos, para modificar sólo las componentes positivas:

In [34]:
np.where(F > 0, 2, F)

array([[-0.08378715,  2.        , -0.1775111 , -3.34990012],
       [ 2.        , -1.22567224,  2.        , -1.60195045],
       [ 2.        ,  2.        , -0.8589646 , -0.65772416],
       [ 2.        , -1.33076947, -1.65727984, -0.57159426]])

También existe la función `np.select` para concatenar varias máscaras consecutivas.

In [35]:
np.select(
    [np.abs(F) > 2, np.abs(F) > 1],
    ["Poco probable", "Algo probable"],
    "Frecuente"
)

array([['Frecuente', 'Frecuente', 'Frecuente', 'Poco probable'],
       ['Frecuente', 'Algo probable', 'Frecuente', 'Algo probable'],
       ['Frecuente', 'Frecuente', 'Frecuente', 'Frecuente'],
       ['Frecuente', 'Algo probable', 'Algo probable', 'Frecuente']],
      dtype='<U13')

:::{exercise}
:label: basic-operations-masks

Crea una función que transforme un array para aplicar elemento a elemento la siguiente función

$$
 f(x) = \begin{cases}
        \exp(x/2)  & \text{si } x < 0 \\
        1-x & \text{si } 0 \leq x \leq 1 \\
        0 & \text{si } x > 1
        \end{cases}
$$

:::

In [43]:
x = np.linspace(-1, 2, 100)

ret = np.select(
    [x < 0, x <=1],
    [np.exp(x/2), 1-x],
    0
)

print(ret)

[0.60653066 0.61579049 0.62519169 0.63473642 0.64442686 0.65426525
 0.66425384 0.67439493 0.68469083 0.69514393 0.70575661 0.71653131
 0.72747051 0.73857671 0.74985248 0.76130039 0.77292307 0.78472319
 0.79670347 0.80886665 0.82121552 0.83375292 0.84648172 0.85940486
 0.87252529 0.88584603 0.89937014 0.91310072 0.92704092 0.94119394
 0.95556304 0.9701515  0.98496269 1.         0.96969697 0.93939394
 0.90909091 0.87878788 0.84848485 0.81818182 0.78787879 0.75757576
 0.72727273 0.6969697  0.66666667 0.63636364 0.60606061 0.57575758
 0.54545455 0.51515152 0.48484848 0.45454545 0.42424242 0.39393939
 0.36363636 0.33333333 0.3030303  0.27272727 0.24242424 0.21212121
 0.18181818 0.15151515 0.12121212 0.09090909 0.06060606 0.03030303
 0.         0.         0.         0.         0.         0.
 0.         0.         0.         0.         0.         0.
 0.         0.         0.         0.         0.         0.
 0.         0.         0.         0.         0.         0.
 0.         0.         0.  

---

## Funciones estadísticas

Algunos métodos para calcular indicadores estadísticos sobre los elementos de un array.

* `np.sum`: suma de los componentes
* `np.mean`: media aritmética
* `np.std` y `np.var`: desviación estándar y varianza, respectivamente.
* `np.max` y `np.min`: máximo y mínimo, resp.
* `np.argmin` y `np.argmax`: índices de los mínimos o máximos elementos, respectivamente.
* `np.cumsum`: sumas acumuladas de cada componente

Estos métodos también se pueden usar como atributos de los arrays. Es decir, por ejemplo `A.sum()` o `A.mean()`.

Veamos algunos ejemplos, generando en primer lugar un array con elementos generados aleatoriamente (siguiendo una distribución normal):

In [44]:
G = rng.normal(0, 1, (5, 4))
G

array([[ 1.02796199,  1.1483089 , -0.54736906, -1.1590976 ],
       [ 0.20015704,  1.11353844, -0.19512078, -1.0371867 ],
       [-0.36598626,  0.79861425, -0.33307728, -0.37972901],
       [ 1.12316008,  1.17491977, -0.29491316,  0.6904108 ],
       [ 0.13067512,  0.49220075, -0.04925034, -0.42407498]])

In [45]:
G.sum()

3.114141948353551

In [46]:
G.mean()

0.15570709741767755

In [47]:
G.cumsum() # por defecto, se aplana el array y se hace la suma acumulada

array([1.02796199, 2.17627089, 1.62890183, 0.46980423, 0.66996127,
       1.78349971, 1.58837893, 0.55119222, 0.18520597, 0.98382021,
       0.65074293, 0.27101392, 1.394174  , 2.56909377, 2.27418061,
       2.96459141, 3.09526653, 3.58746728, 3.53821693, 3.11414195])

Todas estas funciones se pueden aplicar a lo largo de un eje, usando el parámetro `axis`. Por ejemplos, para calcular las medias de cada fila (es decir, recorriendo en el sentido de las columnas), aplicamos `mean` por `axis=1`:

In [48]:
print(G)

[[ 1.02796199  1.1483089  -0.54736906 -1.1590976 ]
 [ 0.20015704  1.11353844 -0.19512078 -1.0371867 ]
 [-0.36598626  0.79861425 -0.33307728 -0.37972901]
 [ 1.12316008  1.17491977 -0.29491316  0.6904108 ]
 [ 0.13067512  0.49220075 -0.04925034 -0.42407498]]


In [49]:
G.mean(axis=1)

array([ 0.11745106,  0.020347  , -0.07004458,  0.67339437,  0.03738763])

Y la suma de cada columna (es decir, recorriendo las filas), con `sum` por `axis=0`:

In [50]:
G.sum(axis=0)

array([ 2.11596797,  4.7275821 , -1.41973062, -2.3096775 ])

Suma acumulada de cada columna:

In [51]:
G.cumsum(axis=0)

array([[ 1.02796199,  1.1483089 , -0.54736906, -1.1590976 ],
       [ 1.22811903,  2.26184734, -0.74248984, -2.1962843 ],
       [ 0.86213277,  3.06046159, -1.07556712, -2.57601332],
       [ 1.98529285,  4.23538135, -1.37048028, -1.88560251],
       [ 2.11596797,  4.7275821 , -1.41973062, -2.3096775 ]])

Dentro de cada columna, el número de fila donde se alcanza el mínimo se puede hacer asi:

In [52]:
G, G.argmin(axis=0)

(array([[ 1.02796199,  1.1483089 , -0.54736906, -1.1590976 ],
        [ 0.20015704,  1.11353844, -0.19512078, -1.0371867 ],
        [-0.36598626,  0.79861425, -0.33307728, -0.37972901],
        [ 1.12316008,  1.17491977, -0.29491316,  0.6904108 ],
        [ 0.13067512,  0.49220075, -0.04925034, -0.42407498]]),
 array([2, 4, 0, 0]))

---

## Métodos para arrays booleanos

In [53]:
H = rng.normal(0, 1, 50)
H

array([-1.23324585,  0.1481459 , -0.23880719,  1.30014116,  0.48118639,
        0.11661846,  1.13441056,  0.44128803, -0.24774782, -0.52306348,
       -2.07283375, -1.01400742, -0.663079  ,  0.40851752, -0.90262217,
       -0.7550782 , -0.6794892 ,  0.8778472 ,  0.43328724,  0.19039163,
        0.23699114, -1.36197261, -1.06110331, -0.1913695 , -0.47953272,
        1.82688854,  2.13477152, -0.2432274 , -0.43084345, -0.20566785,
        0.09246708,  0.42013666, -0.8325504 ,  0.07517225,  0.85986746,
        0.51337676,  0.19847433, -0.41440488, -0.07987722,  0.49954337,
       -1.2017334 ,  0.93594235, -0.26625821,  2.00478446, -0.10971446,
        0.90877583,  1.1492247 , -1.61243004,  0.44427864,  1.30453258])

Es bastante frecuente usar `sum` para ontar el número de veces que se cumple una condición en un array, aprovechando que `True` se identifica con 1 y `False` con 0:

In [54]:
(H > 0).sum() # Number of positive values

26

Las funciones python `any` y `all` tienen también su correspondiente versión vectorizada. `any` se puede ver como un *or* generalizado, y `all`como un *and* generalizado:  

In [55]:
bools = np.array([False, False, True, False])
bools.any(), bools.all()

(True, False)

Podemos comprobar si se cumple *alguna vez* una condición entre los componentes de un array, o bien si se cumple *siempre* una condición:

In [56]:
np.any(H > 0)

True

In [57]:
np.all(H < 10)

True

In [58]:
np.any(H > 15)

False

In [59]:
np.all(H > 0)

False

---

## Entrada y salida de arrays en ficheros

Existen una serie de utilidades para guardar el contenido de un array en un fichero y recuperarlo más tarde.

Las funciones `save` y `load` hacen esto. Los arrays se almacenan en archivos con extensión *npy*.  

In [60]:
J = np.arange(10)
np.save('un_array', J)  #se guarda en una carpeta en el indice de la izquierda para siempre a menos que las borremos

In [61]:
np.load('un_array.npy')  # para cargar el archivo

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

Con `savez`, podemos guardar una serie de arrays en un archivo de extensión *npz*, asociados a una serie de claves. Por ejemplo:

In [62]:
np.savez('array_archivo.npz', a=J, b=J**2)  # esto es un diccionario

Cuando hacemos `load` sobre un archivo *npz*, cargamos un objeto de tipo diccionario, con el que podemos acceder (de manera perezosa) a los distintos arrays que se han almacenado:

In [63]:
arch = np.load('array_archivo.npz')
arch['b']

array([ 0,  1,  4,  9, 16, 25, 36, 49, 64, 81])

In [64]:
arch['a']

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [65]:
list(arch)

['a', 'b']

En caso de que fuera necesario, podríamos incluso guardar incluso los datos en formato comprimido con `savez_compressed`:

In [66]:
np.savez_compressed('arrays_comprimidos.npz', a=J, b=J**2)  # archivo zip por asi decirlo

In [67]:
!ls -lah  # esto es para borrar todas las carpetas q hemos creado

total 28K
drwxr-xr-x 1 root root 4.0K Nov 21 19:14 .
drwxr-xr-x 1 root root 4.0K Nov 21 18:43 ..
-rw-r--r-- 1 root root  650 Nov 21 19:11 array_archivo.npz
-rw-r--r-- 1 root root  424 Nov 21 19:14 arrays_comprimidos.npz
drwxr-xr-x 4 root root 4.0K Nov 20 14:39 .config
drwxr-xr-x 1 root root 4.0K Nov 20 14:42 sample_data
-rw-r--r-- 1 root root  208 Nov 21 19:11 un_array.npy


In [68]:
!rm un_array.npy
!rm array_archivo.npz
!rm arrays_comprimidos.npz