# Operaciones Básicas

In [1]:
import numpy as np

---
## Trasposición de arrays y producto matricial

El método `T` obtiene el array traspuesto de uno dado:

In [2]:
D = np.arange(15).reshape((3, 5))
print(D)

[[ 0  1  2  3  4]
 [ 5  6  7  8  9]
 [10 11 12 13 14]]


In [3]:
print(D.T)

[[ 0  5 10]
 [ 1  6 11]
 [ 2  7 12]
 [ 3  8 13]
 [ 4  9 14]]


En el cálculo matricial será de mucha utilidad el método `np.dot` de numpy, que sirve tanto para calcular el producto escalar como el producto matricial. Veamos varios usos: 

In [4]:
rng = np.random.default_rng()
E = rng.normal(0, 1, (6, 3))
E

array([[-0.97734426,  1.34168783, -1.54370593],
       [-0.09067281,  0.38656466,  1.42387283],
       [-1.6809858 ,  0.79495013,  1.6643198 ],
       [ 0.11542681, -0.23222994,  2.29016714],
       [ 0.48905073,  1.4287645 , -1.12921964],
       [ 0.54877746,  1.53484643,  0.38120392]])

Ejemplos de producto escalar:

In [5]:
np.dot(E[:, 0], E[:, 1]) # producto escalar de dos columnas

-1.1684198013823905

In [6]:
np.dot(E[2],E[4]) # producto escalar de dos filas

-1.565673422517082

In [7]:
np.dot(E, E[0]) # producto de una matriz por un vector

array([ 5.13835602, -1.59077327,  0.1402564 , -3.9597364 ,  3.18216807,
        0.93447353])

In [8]:
np.dot(E.T, E)   # producto de dos matrices

array([[ 4.3427873 , -1.1684198 , -1.49677525],
       [-1.1684198 ,  7.03255648, -1.75784613],
       [-1.49677525, -1.75784613, 13.84572115]])

Existe otro operador `matmul` (o su versión con el operador `@`) que también multiplica matrices. Se diferencian cuando los arrays con de más de dos dimensiones ya  

In [9]:
A = np.arange(3*7*4*5).reshape(3, 7, 4, 5)
B = np.arange(3*7*5*6).reshape(3, 7, 5, 6)

In [10]:
np.dot(A, B).shape

(3, 7, 4, 3, 7, 6)

`np.dot(A, B)[x1, x2, x3, y1, y2, y3] = A[x1, x2, x3, :].dot(B[y1, y2, :, y3])`

In [11]:
np.matmul(A, B).shape # similar a A @ B 

(3, 7, 4, 6)

La diferencia radica en que `dot` el producto escalara del último eje de A con el penúltimo de B para cada combinación de dimensiones y `matmul` considera los arrays como *arrays de matrices*, donde las dos últimas dimensiones son la parte matricial. 

---
## Funciones universales sobre arrays (componente a componente)
En este contexto, una función universal (o *ufunc*) es una función que actúa sobre cada componente de un array o arrays de numpy. Estas funciones son muy eficientes y se denominan *vectorizadas*. Por ejemplo:  

In [12]:
M = np.arange(10)
M

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [13]:
np.sqrt(M) # raiz cuadrada de cada componente

array([0.        , 1.        , 1.41421356, 1.73205081, 2.        ,
       2.23606798, 2.44948974, 2.64575131, 2.82842712, 3.        ])

In [14]:
np.exp(M.reshape(2,5)) # exponencial de cad componente

array([[1.00000000e+00, 2.71828183e+00, 7.38905610e+00, 2.00855369e+01,
        5.45981500e+01],
       [1.48413159e+02, 4.03428793e+02, 1.09663316e+03, 2.98095799e+03,
        8.10308393e+03]])

Existen funciones universales que actúan sobre dos arrays, ya que realizan operaciones binarias:

In [15]:
x = rng.normal(0, 1, 8)
y = rng.normal(0, 1, 8)
x, y

(array([-0.87429038,  1.60146503,  0.78618126,  0.39004253, -0.71614978,
        -0.39805865, -0.49221638,  0.44731592]),
 array([-0.18653805,  1.0021312 , -0.18674062, -0.54596008, -0.09953302,
         1.6774103 , -0.24323459, -0.78876074]))

In [16]:
np.maximum(x, y)

array([-0.18653805,  1.60146503,  0.78618126,  0.39004253, -0.09953302,
        1.6774103 , -0.24323459,  0.44731592])

In [17]:
x.max()

1.6014650336830638

---
## Expresiones condicionales vectorizadas con *where*

Veamos cómo podemos usar un versión vectorizada de la función `if`. 

Veámoslo con un ejemplo. Supongamos que tenemos dos arrays (unidimensionales) numéricos y otro array booleano del mismo tamaño: 

In [18]:
xarr = np.array([1.1, 1.2, 1.3, 1.4, 1.5])
yarr = np.array([2.1, 2.2, 2.3, 2.4, 2.5])
mask = np.array([True, False, True, True, False])

Si quisiéramos obtener el array que en cada componente tiene el valor de `xarr` si el correspondiente en `mask` es `True`, o el valor de `yarr` si el correspondiente en `cond` es `False`, podemos hacer lo siguiente:  

In [21]:
result = [(x if c else y) for x, y, c in zip(xarr, yarr, mask)]
result

[1.1, 2.2, 1.3, 1.4, 2.5]

Sin embargo, esto tiene dos problemas: no es lo suficientemente eficiente, y además no se traslada bien a arrays multidimensionales. Afortunadamente, tenemos `np.where` para hacer esto de manera conveniente:

In [22]:
result = np.where(mask, xarr, yarr)
result

array([1.1, 2.2, 1.3, 1.4, 2.5])

No necesariamente el segundo y el tercer argumento tiene que ser arrays. Por ejemplo:

In [23]:
F = rng.normal(0, 1, (4, 4))

F, np.where(F > 0, 2, -2)

(array([[ 0.904584  , -1.47681661,  2.85527621,  0.23259456],
        [ 0.15959159, -0.98360584,  0.19441186,  0.18022266],
        [ 0.4686294 , -0.20309533,  0.69897494,  0.34110354],
        [-0.14021694,  0.73078875, -0.35924888,  0.37697319]]),
 array([[ 2, -2,  2,  2],
        [ 2, -2,  2,  2],
        [ 2, -2,  2,  2],
        [-2,  2, -2,  2]]))

O una combinación de ambos. Por ejemplos, para modificar sólo las componentes positivas:

In [24]:
np.where(F > 0, 2, F) 

array([[ 2.        , -1.47681661,  2.        ,  2.        ],
       [ 2.        , -0.98360584,  2.        ,  2.        ],
       [ 2.        , -0.20309533,  2.        ,  2.        ],
       [-0.14021694,  2.        , -0.35924888,  2.        ]])

También existe la función `np.select` para concatenar varias máscaras consecutivas. 

In [25]:
np.select(
    [np.abs(F) > 2, np.abs(F) > 1],
    ["Poco probable", "Algo probable"], 
    "Frecuente"
)

array([['Frecuente', 'Algo probable', 'Poco probable', 'Frecuente'],
       ['Frecuente', 'Frecuente', 'Frecuente', 'Frecuente'],
       ['Frecuente', 'Frecuente', 'Frecuente', 'Frecuente'],
       ['Frecuente', 'Frecuente', 'Frecuente', 'Frecuente']], dtype='<U13')

:::{exercise}
:label: basic-operations-masks

Crea una función que transforme un array para aplicar elemento a elemento la siguiente función 

$$
 f(x) = \begin{cases}
        exp(x/2)  & \text{si } x < 0 \\
        1-x & \text{si } 0 \leq x \leq 1 \\
        0 & \text{si } x > 1
        \end{cases}
$$

:::

:::{solution} basic-operations-masks
:class: dropdown

```
def fun(arr: np.ndarray):
    ret = np.select(
        [arr < 0, arr <= 1], 
        [np.exp(arr / 2), 1 - arr], 
        0
    )
    return ret
```

:::

---
## Funciones estadísticas

Algunos métodos para calcular indicadores estadísticos sobre los elementos de un array.

* `np.sum`: suma de los componentes
* `np.mean`: media aritmética
* `np.std` y `np.var`: desviación estándar y varianza, respectivamente.
* `np.max` y `np.min`: máximo y mínimo, resp.
* `np.argmin` y `np.argmax`: índices de los mínimos o máximos elementos, respectivamente.
* `np.cumsum`: sumas acumuladas de cada componente

Estos métodos también se pueden usar como atributos de los arrays. Es decir, por ejemplo `A.sum()` o `A.mean()`.

Veamos algunos ejemplos, generando en primer lugar un array con elementos generados aleatoriamente (siguiendo una distribución normal):

In [26]:
G = rng.normal(0, 1, (5, 4))
G

array([[-1.09112171,  0.08230266, -0.89863545, -0.52677635],
       [ 0.54990182, -0.07619354,  0.75797502, -1.860579  ],
       [ 1.09303698,  0.44922159,  0.33924061, -0.10457966],
       [-0.1117293 ,  0.90753648, -0.05131964,  0.62497588],
       [ 1.93907081, -1.15168268, -0.01746402,  0.41960373]])

In [27]:
G.sum()

1.27278425211733

In [28]:
G.mean()

0.0636392126058665

In [29]:
G.cumsum() # por defecto, se aplana el array y se hace la suma acumulada

array([-1.09112171, -1.00881904, -1.90745449, -2.43423084, -1.88432903,
       -1.96052256, -1.20254755, -3.06312655, -1.97008957, -1.52086797,
       -1.18162736, -1.28620701, -1.39793631, -0.49039984, -0.54171947,
        0.08325641,  2.02232721,  0.87064453,  0.85318052,  1.27278425])

Todas estas funciones se pueden aplicar a lo largo de un eje, usando el parámetro `axis`. Por ejemplos, para calcular las medias de cada fila (es decir, recorriendo en el sentido de las columnas), aplicamos `mean` por `axis=1`:

In [30]:
print(G)

[[-1.09112171  0.08230266 -0.89863545 -0.52677635]
 [ 0.54990182 -0.07619354  0.75797502 -1.860579  ]
 [ 1.09303698  0.44922159  0.33924061 -0.10457966]
 [-0.1117293   0.90753648 -0.05131964  0.62497588]
 [ 1.93907081 -1.15168268 -0.01746402  0.41960373]]


In [31]:
G.mean(axis=1)

array([-0.60855771, -0.15722393,  0.44422988,  0.34236586,  0.29738196])

Y la suma de cada columna (es decir, recorriendo las filas), con `sum` por `axis=0`:

In [32]:
G.sum(axis=0)

array([ 2.3791586 ,  0.21118452,  0.12979653, -1.44735539])

Suma acumulada de cada columna:

In [33]:
G.cumsum(axis=0)

array([[-1.09112171,  0.08230266, -0.89863545, -0.52677635],
       [-0.54121989,  0.00610913, -0.14066043, -2.38735535],
       [ 0.55181709,  0.45533072,  0.19858018, -2.49193501],
       [ 0.44008779,  1.3628672 ,  0.14726055, -1.86695913],
       [ 2.3791586 ,  0.21118452,  0.12979653, -1.44735539]])

Dentro de cada columna, el número de fila donde se alcanza el mínimo se puede hacer asi:

In [34]:
G, G.argmin(axis=0)

(array([[-1.09112171,  0.08230266, -0.89863545, -0.52677635],
        [ 0.54990182, -0.07619354,  0.75797502, -1.860579  ],
        [ 1.09303698,  0.44922159,  0.33924061, -0.10457966],
        [-0.1117293 ,  0.90753648, -0.05131964,  0.62497588],
        [ 1.93907081, -1.15168268, -0.01746402,  0.41960373]]),
 array([0, 4, 0, 1]))

---
## Métodos para arrays booleanos

In [35]:
H = rng.normal(0, 1, 50)
H

array([-0.27853877,  0.17616873, -0.08639434,  0.71179482, -0.49584663,
       -0.3110513 , -0.45771891, -0.8344855 ,  2.29078383,  0.01771914,
       -0.28984018, -1.29882205, -1.30483596,  1.62936796,  0.3178527 ,
       -0.48674387, -1.12290782, -0.84551946,  0.59530505, -0.73887554,
        0.68253372, -1.3045412 , -0.15765242,  0.10783287, -0.65411545,
        0.46806825,  0.24073242,  1.44623373,  2.18700595,  0.21069342,
        0.04472487, -0.56415783,  0.97661418,  0.35211161, -0.42571366,
        1.18813283, -0.0133082 , -1.30901811,  0.36809575,  0.49092016,
        0.29272923, -0.35134416,  0.54762578, -0.35406801, -1.32778901,
       -1.59953407, -0.57534093,  0.30190145, -0.5022292 ,  0.59797817])

Es bastante frecuente usar `sum` para ontar el número de veces que se cumple una condición en un array, aprovechando que `True` se identifica con 1 y `False` con 0:

In [36]:
(H > 0).sum() # Number of positive values

24

Las funciones python `any` y `all` tienen también su correspondiente versión vectorizada. `any` se puede ver como un *or* generalizado, y `all`como un *and* generalizado:  

In [37]:
bools = np.array([False, False, True, False])
bools.any(), bools.all()

(True, False)

Podemos comprobar si se cumple *alguna vez* una condición entre los componentes de un array, o bien si se cumple *siempre* una condición:

In [38]:
np.any(H > 0)

True

In [39]:
np.all(H < 10)

True

In [40]:
np.any(H > 15)

False

In [41]:
np.all(H > 0)

False

---
## Entrada y salida de arrays en ficheros

Existen una serie de utilidades para guardar el contenido de un array en un fichero y recuperarlo más tarde. 

Las funciones `save` y `load` hacen esto. Los arrays se almacenan en archivos con extensión *npy*.  

In [42]:
J = np.arange(10)
np.save('un_array', J)

In [43]:
np.load('un_array.npy')

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

Con `savez`, podemos guardar una serie de arrays en un archivo de extensión *npz*, asociados a una serie de claves. Por ejemplo:

In [44]:
np.savez('array_archivo.npz', a=J, b=J**2)

Cuando hacemos `load` sobre un archivo *npz*, cargamos un objeto de tipo diccionario, con el que podemos acceder (de manera perezosa) a los distintos arrays que se han almacenado:

In [45]:
arch = np.load('array_archivo.npz')
arch['b']

array([ 0,  1,  4,  9, 16, 25, 36, 49, 64, 81])

In [46]:
arch['a']

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [47]:
list(arch)

['a', 'b']

En caso de que fuera necesario, podríamos incluso guardar incluso los datos en formato comprimido con `savez_compressed`:

In [48]:
np.savez_compressed('arrays_comprimidos.npz', a=J, b=J**2)

In [49]:
!ls -lah

total 520
drwxr-xr-x  10 javlintor  staff   320B Dec  4 19:45 [1m[36m.[m[m
drwxr-xr-x   5 javlintor  staff   160B Nov 14 08:02 [1m[36m..[m[m
-rw-r--r--   1 javlintor  staff   650B Dec  4 19:45 array_archivo.npz
-rw-r--r--   1 javlintor  staff   424B Dec  4 19:45 arrays_comprimidos.npz
-rw-r--r--   1 javlintor  staff    28K Dec  4 19:45 basic-operations.ipynb
-rw-r--r--   1 javlintor  staff   7.0K Dec  4 07:13 exercises.ipynb
-rw-r--r--   1 javlintor  staff    42K Dec  4 07:39 index-slicing.ipynb
-rw-r--r--   1 javlintor  staff   164K Dec  4 07:33 introduction-numpy.ipynb
-rw-r--r--   1 javlintor  staff   798B Oct 17 08:07 nn-with-numpy.ipynb
-rw-r--r--   1 javlintor  staff   208B Dec  4 19:45 un_array.npy


In [50]:
!rm un_array.npy
!rm array_archivo.npz
!rm arrays_comprimidos.npz