<a href="https://colab.research.google.com/github/magjanvaz/curso-python-us/blob/main/notebooks/numpy/index_slicing.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Indexado, Slicing y operaciones básicas

Vamos a explorar más a fondo la diferentes formas que tenemos de acceder y operar con componentes de un array multidimensional.

In [2]:
import numpy as np 

---
## Indexado y *slicing* 

Otra de las características más interesantes de numpy es la gran flexibilidad para acceder a las componentes de un array, o a un subconjunto del mismo. Vamos a ver a continuación algunos ejemplos básicos.

**Arrays unidimensonales**

Para arrays unidimensionales, el acceso es muy parecido al de listas. Por ejemplo, acceso a las componentes:

In [None]:
C = np.arange(10)*2
C

array([ 0,  2,  4,  6,  8, 10, 12, 14, 16, 18])

In [None]:
C[5]

10

La operación de *slicing* en arrays es similar a la de listas. Por ejemplo:

In [None]:
C[5:8] # empieza en 0, y coge la 5 la 6 y la 7

array([10, 12, 14])

Sin embargo, hay una diferencia fundamental: en general en python, el slicing siempre crea *una copia* de la secuencia original (aunque no de los elementos) a la hora de hacer asignaciones. En numpy, el *slicing* es una *vista* de array original. Esto tiene como consecuencia que **las modificaciones que se realicen sobre dicha vista se están realizando sobre el array original**. Por ejemplo:   

In [None]:
C[5:8] = 12
C # sustituye las posiciones indicadas

array([ 0,  2,  4,  6,  8, 12, 12, 12, 16, 18])

Y además hay que tener en cuenta que cualquier referencia a una vista es en realidad una referencia a los datos originales, y que las modificaciones que se realicen a través de esa referencia, se realizarán igualmente sobre el original.

Veámos esto con el siguiente ejemplo:

In [None]:
# C_slice referencia a las componenentes 5, 6 y 7 del array C.
C_slice = C[5:8]
C_slice

array([12, 12, 12])

Modificamos la componente 1 de `C_slice`:

In [None]:
C_slice[1] = 12345
C_slice

array([   12, 12345,    12])

Pero la componente 1 de `C_slice` es en realidad la componente 6 de `C`, así que `C` ha cambiado:

In [None]:
C

array([    0,     2,     4,     6,     8,    12, 12345,    12,    16,
          18])

Podemos incluso cambiar toda la subsecuencia, cambiando así es parte del array original:

In [None]:
C_slice[:] = 64
C

array([ 0,  2,  4,  6,  8, 64, 64, 64, 16, 18])

Nótese la diferencia con las listas de python, en las que `l[:]` es la manera estándar de crear una *copia* de una lista `l`. En el caso de *numpy*, si se quiere realizar una copia, se ha de usar el método `copy` (por ejemplo, `C.copy()`).

**Arrays de más dimensiones**

El acceso a los componentes de arrays de dos o más dimensiones es similar, aunque la casuística es más variada.

Cuando accedemos con un único índice, estamos accediendo al correspondiente subarray de esa posición. Por ejemplo, en array de dos dimensiones, con 3 filas y 3 columnas, la posición 2 es la tercera fila:

In [3]:
C2d = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
C2d[2]

array([7, 8, 9])

De esta manera, recursivamente, podríamos acceder a los componentes individuales de una array de cualquier dimensión. En el ejemplo anterior, el elemento de la primera fila y la tercera columna sería:

In [None]:
C2d[0][2]

3

Normalmente no se suele usar la notación anterior para acceder a los elementos individuales, sino que se usa un único corchete con los índices separados por comas: Lo siguiente es equivalente:

In [None]:
C2d[0, 2]

3

Veamos más ejemplos de acceso y modificación en arrays multidimensionales, en este caso con tres dimensiones.

In [None]:
C3d = np.array([[[1, 2, 3], [4, 5, 6]], [[7, 8, 9], [10, 11, 12]]])
C3d

array([[[ 1,  2,  3],
        [ 4,  5,  6]],

       [[ 7,  8,  9],
        [10, 11, 12]]])

Accediendo a la posición 0 obtenemos el correspondiente subarray de dos dimensiones:

In [None]:
C3d[0]

array([[1, 2, 3],
       [4, 5, 6]])

Similar a la función `enumerate` de Python, tenemos la función `np.ndenumearte` para iterar con los elementos del array y su índice

In [None]:
[i for i in np.ndenumerate(C3d)]

[((0, 0, 0), 1),
 ((0, 0, 1), 2),
 ((0, 0, 2), 3),
 ((0, 1, 0), 4),
 ((0, 1, 1), 5),
 ((0, 1, 2), 6),
 ((1, 0, 0), 7),
 ((1, 0, 1), 8),
 ((1, 0, 2), 9),
 ((1, 1, 0), 10),
 ((1, 1, 1), 11),
 ((1, 1, 2), 12)]

Vamos a guardar una copia de de ese subarray y lo modificamos en el original con el número `42` en todas las posiciones:

In [None]:
old_values = C3d[0].copy()
C3d[0] = 42
C3d

array([[[42, 42, 42],
        [42, 42, 42]],

       [[ 7,  8,  9],
        [10, 11, 12]]])

Y ahora reestablecemos los valores originales:

In [None]:
C3d[0] = old_values
C3d

array([[[ 1,  2,  3],
        [ 4,  5,  6]],

       [[ 7,  8,  9],
        [10, 11, 12]]])

:::{exercise}
:label: introduction-numpy-indexing

Devuelve el número 813 indexando el array `np.arange(2100).reshape((25, 6, 7, 2))`. 

:::

*Lo que significan las dimensiones es que el tenemos pares de elementos, agrupamos los pares de 7 en 7 y eso forma un array, a continuación dichos arrays los agrupamos de 6 en 6 y tenemos 25 de estos. En total llegamos a tener 2100 números*

In [None]:
total = np.arange(2100).reshape((25,6,7,2))
print(total)

[[[[   0    1]
   [   2    3]
   [   4    5]
   ...
   [   8    9]
   [  10   11]
   [  12   13]]

  [[  14   15]
   [  16   17]
   [  18   19]
   ...
   [  22   23]
   [  24   25]
   [  26   27]]

  [[  28   29]
   [  30   31]
   [  32   33]
   ...
   [  36   37]
   [  38   39]
   [  40   41]]

  [[  42   43]
   [  44   45]
   [  46   47]
   ...
   [  50   51]
   [  52   53]
   [  54   55]]

  [[  56   57]
   [  58   59]
   [  60   61]
   ...
   [  64   65]
   [  66   67]
   [  68   69]]

  [[  70   71]
   [  72   73]
   [  74   75]
   ...
   [  78   79]
   [  80   81]
   [  82   83]]]


 [[[  84   85]
   [  86   87]
   [  88   89]
   ...
   [  92   93]
   [  94   95]
   [  96   97]]

  [[  98   99]
   [ 100  101]
   [ 102  103]
   ...
   [ 106  107]
   [ 108  109]
   [ 110  111]]

  [[ 112  113]
   [ 114  115]
   [ 116  117]
   ...
   [ 120  121]
   [ 122  123]
   [ 124  125]]

  [[ 126  127]
   [ 128  129]
   [ 130  131]
   ...
   [ 134  135]
   [ 136  137]
   [ 138  139]]

  [[ 140

In [None]:
total[9,4,0,1] # obtenido mediante ensayo error

813

In [None]:
813 % 2 ### esta será la última de las coordenadas

1

In [None]:
813//2 % 7 ### la coordenada anterior

0

In [None]:
813 // 2 // 7 % 6 ### la segunda

4

In [None]:
813 // 2 // 7 // 6  ### y finalmente la primera
### esto confirma lo que habíamos obtenido con fuerza bruta

9

In [None]:
25 * 813 // 2100 ### es otra forma de obtenerlo

9

In [None]:
### fuerza bruta pero a máquina

[i for i, n in np.ndenumerate(total) if n == 813]

[(9, 4, 0, 1)]

#### Indexado usando *slices*

In [4]:
C2d

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

Los *slicings* en arrays multidimensionales se hacen a lo largo de los correspondientes ejes. Por ejemplo, en un array bidimensional, lo haríamos sobre la secuencia de filas. 

In [None]:
C2d[:2] # se queda los elementos 0 y 1, siendo estos una fila de 3 elementos

array([[1, 2, 3],
       [4, 5, 6]])

Pero también podríamos hacerlo en ambos ejes. Por ejemplo para obtener el subarray hasta la segunda fila y a partir de la primera columna:

In [None]:
C2d[:2, 1:] #aquí se queda lo de antes, y de cada uno los elementos 1 en adelante (1 y 2)
# aquí hemos dado dos slices así que nos devuelve un array de arrays

array([[2, 3],
       [5, 6]])

Si en alguno de los ejes se usa un índice individual, entonces se pierde una de las dimensiones:

In [None]:
C2d[1, :2] # aquí hemos dado un número y un slice, entonces nos devuelve solo un array

array([4, 5])

Nótese la diferencia con la operación `C2d[1:2,:2]`. Puede parecer que el resultado ha de ser el mismo, pero si se usa slicing en ambos ejes se mantiene el número de dimensiones:

In [None]:
C2d[1:2,:2]

array([[4, 5]])

Más ejemplos:

In [None]:
C2d[:2, 2] 

array([3, 6])

In [None]:
C2d[:, :1] # poniendo solo ":" le indicamos que queremos todos los de esa dimensión, como un array

array([[1],
       [4],
       [7]])

Como hemos visto más arriba, podemos usar *slicing* para asignar valores a las componentes de un array. Por ejemplo

In [None]:
C2d[:2, 1:] = 0
C2d

array([[1, 0, 0],
       [4, 0, 0],
       [7, 8, 9]])

:::{exercise}
:label: index-slicing-3x4x2

Crea un array tridimensional de dimensiones $(3, 4, 2)$ y obtén el subarray indicada en la figura 
![picture](https://drive.google.com/uc?id=1HEtbq_Y1YVh6jscdHEhYYz-iM5FNMyJP)

:::

In [5]:
C342 = np.array([[[0,1],[0,1],[0,1],[0,1]],
             [[0,1],[0,1],[0,1],[0,1]],
             [[0,1],[0,1],[0,1],[0,1]]])
# esto sería haciéndolo a mano

In [6]:
CC342 = np.arange(24).reshape((3,4,2))

In [7]:
CC342

array([[[ 0,  1],
        [ 2,  3],
        [ 4,  5],
        [ 6,  7]],

       [[ 8,  9],
        [10, 11],
        [12, 13],
        [14, 15]],

       [[16, 17],
        [18, 19],
        [20, 21],
        [22, 23]]])

In [8]:
CC342[1,3,:]

array([14, 15])

In [9]:
CC342[1,3,:].shape # vemos que no es correcto

(2,)

In [10]:
CC342[1,3:,:].shape # ya tiene el tamaño correcto

(1, 2)

### Indexado con booleanos

Los arrays de booleanos se pueden usar en numpy como una forma de indexado para seleccionar determinadas componenetes en una serie de ejes. 

Veamos el siguiente ejemplo:

In [11]:
nombres = np.array(['Bob', 'Joe', 'Will', 'Bob', 'Will', 'Joe', 'Joe'])

In [12]:
data = np.random.randn(7, 4)
data

array([[ 0.10208894,  0.03122521, -0.93937603,  0.92486741],
       [-0.27275494,  0.72342173, -0.14793541,  0.3405481 ],
       [-0.24479507,  0.24363604,  0.24620716, -0.76165722],
       [-0.59972281,  1.39409869,  1.67624302,  0.29427832],
       [-0.38351223, -0.65817723, -0.09344101,  0.56256866],
       [ 1.93044551, -0.79635993, -0.21446621, -0.96225864],
       [-1.06191377,  0.77043799, -1.27974775,  1.35582309]])

In [17]:
rng = np.random.default_rng()
data = rng.normal(0,1,(7,4))
data

array([[-1.51016549, -0.1355952 ,  0.07487244, -0.2760534 ],
       [ 0.20463225, -0.93239939, -0.52865478,  0.51128708],
       [ 1.86439784,  0.21755128,  1.68194025, -0.25724344],
       [-1.25656702,  0.6187122 ,  0.68644664, -1.37882551],
       [-0.69930737,  0.46106766, -0.28511708, -1.26543576],
       [ 1.64493026,  0.97036704,  0.09503961,  0.58450446],
       [ 0.58285311, -0.58673437, -1.02419923, -1.60726619]])

Podríamos interpretar que cada fila del array `data` son datos asociados a las correspondientes personas del array `nombres`. Si ahora queremos quedarnos por ejemplos con las filas correspondientes a Bob, podemos usar indexado booleano de la siguiente manera:

El array de booleanos que vamos a usar será:

In [13]:
nombres == 'Bob'

array([ True, False, False,  True, False, False, False])

Y el indexado con ese array, en el eje de las filas, nos dará el subarray de las filas correspondientes a Bob:

In [14]:
data[nombres == 'Bob']

array([[ 0.10208894,  0.03122521, -0.93937603,  0.92486741],
       [-0.59972281,  1.39409869,  1.67624302,  0.29427832]])

Podemos mezclar indexado booleano con índices concretos o con slicing en distintos ejes:

In [15]:
data[nombres == 'Bob', 2:]

array([[-0.93937603,  0.92486741],
       [ 1.67624302,  0.29427832]])

In [18]:
data[nombres == 'Bob', 3]

array([-0.2760534 , -1.37882551])

Para usar el indexado complementario (en el ejemplo, las filas correspondientes a las personas que no son Bob), podríamos usar el array de booleanos `nombres != 'Bob'`. Sin embargo, es más habitual usar el operador `~`:

In [19]:
data[~(nombres == 'Bob')]

array([[ 0.20463225, -0.93239939, -0.52865478,  0.51128708],
       [ 1.86439784,  0.21755128,  1.68194025, -0.25724344],
       [-0.69930737,  0.46106766, -0.28511708, -1.26543576],
       [ 1.64493026,  0.97036704,  0.09503961,  0.58450446],
       [ 0.58285311, -0.58673437, -1.02419923, -1.60726619]])

Incluso podemos jugar con otros operadores booleanos como `&` (and) y `|` (or), para construir indexados booleanos que combinan condiciones. 

Por ejemplo, para obtener las filas correspondiente a Bob o a Will:

In [20]:
mask = (nombres == 'Bob') | (nombres == 'Will')
mask

array([ True, False,  True,  True,  True, False, False])

In [21]:
data[mask]

array([[-1.51016549, -0.1355952 ,  0.07487244, -0.2760534 ],
       [ 1.86439784,  0.21755128,  1.68194025, -0.25724344],
       [-1.25656702,  0.6187122 ,  0.68644664, -1.37882551],
       [-0.69930737,  0.46106766, -0.28511708, -1.26543576]])

Y como en los anteriores indexados, podemos usar el indexado booleano para modificar componentes de los arrays. Lo siguiente pone a 0 todos los componentes neativos de `data`:

In [22]:
data<0

array([[ True,  True, False,  True],
       [False,  True,  True, False],
       [False, False, False,  True],
       [ True, False, False,  True],
       [ True, False,  True,  True],
       [False, False, False, False],
       [False,  True,  True,  True]])

In [23]:
data[data < 0] = 0
data

array([[0.        , 0.        , 0.07487244, 0.        ],
       [0.20463225, 0.        , 0.        , 0.51128708],
       [1.86439784, 0.21755128, 1.68194025, 0.        ],
       [0.        , 0.6187122 , 0.68644664, 0.        ],
       [0.        , 0.46106766, 0.        , 0.        ],
       [1.64493026, 0.97036704, 0.09503961, 0.58450446],
       [0.58285311, 0.        , 0.        , 0.        ]])

Obsérvese que ahora `data<0` es un array de booleanos bidimensional con la misma estructura que el propio `data` y que por tanto tanto estamos haciendo indexado booleano sobre ambos ejes. 

Podríamos incluso fijar un valor a filas completas, usando indexado por un booleano unidimensional:

In [24]:
data[~(nombres == 'Joe')] = 7
data

array([[7.        , 7.        , 7.        , 7.        ],
       [0.20463225, 0.        , 0.        , 0.51128708],
       [7.        , 7.        , 7.        , 7.        ],
       [7.        , 7.        , 7.        , 7.        ],
       [7.        , 7.        , 7.        , 7.        ],
       [1.64493026, 0.97036704, 0.09503961, 0.58450446],
       [0.58285311, 0.        , 0.        , 0.        ]])

:::{exercise} :label: index-slicing-bool

Devuelve las filas de data correspondientes a aquellos nombres que empiecen por "B" o "J". Puedes utilizar la función np.char.startswith.

:::

In [34]:
mascara = np.char.startswith(nombres, "B") | np.char.startswith(nombres, "J")
data[mascara]

array([[7.        , 7.        , 7.        , 7.        ],
       [0.20463225, 0.        , 0.        , 0.51128708],
       [7.        , 7.        , 7.        , 7.        ],
       [1.64493026, 0.97036704, 0.09503961, 0.58450446],
       [0.58285311, 0.        , 0.        , 0.        ]])

:::{exercise} :label: index-slicing-flip

Crea una función flip que tome como inputs un array arr y un número entero positivo i e invierta el eje i-ésimo, es decir, si la dimensión del eje $i$ vale $d_i$, la transformación lleva el elemento con índice $(x_1, \dots, x_i, \dots, x_n)$ en $(x_1, \dots, x_i^*, \dots, x_n)$ donde $x_i + x_i^* = d_i + 1$

Por ejemplo,

arr = np.arange(9).reshape((3, 3))

arr

[[0 1 2]

 [3 4 5]

 [6 7 8]]



flip(arr,1)

[[2 1 0]

 [5 4 3]

 [8 7 6]]

:::

In [46]:
l = list(range(10))
reverse_slice = l[slice(None,None,-1)]
reverse_slice

[9, 8, 7, 6, 5, 4, 3, 2, 1, 0]

In [51]:
revertir = slice(None,None,-1)

In [59]:
arr=np.arange(9).reshape((3, 3))

In [58]:
slices = (slice(None), revertir) 
print(arr)
print(arr[slices])
# es lo mismo que arr[:,:,-1]

[[0 1 2]
 [3 4 5]
 [6 7 8]]
[[2 1 0]
 [5 4 3]
 [8 7 6]]


In [60]:
arr[(revertir,slice(None))]

array([[6, 7, 8],
       [3, 4, 5],
       [0, 1, 2]])

In [75]:
def flip(arr: np.ndarray, i: int):
  default_slice = slice(None)
  revertir = slice(None,None,-1)
  n = arr.ndim
  l=[]
  for j in range(n):
    if j==i:
      l.append(revertir)
    else:
      l.append(default_slice)
  slices = tuple(l)
  return arr[slices]

In [76]:
flip(arr,0)

array([[6, 7, 8],
       [3, 4, 5],
       [0, 1, 2]])

In [77]:
flip(arr,1)

array([[2, 1, 0],
       [5, 4, 3],
       [8, 7, 6]])

---
## Trasposición de arrays y producto matricial

El método `T` obtiene el array traspuesto de uno dado:

In [78]:
D = np.arange(15).reshape((3, 5))
D

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

In [79]:
D.T

array([[ 0,  5, 10],
       [ 1,  6, 11],
       [ 2,  7, 12],
       [ 3,  8, 13],
       [ 4,  9, 14]])

In [80]:
D

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

En el cálculo matricial será de mucha utilidad el método `np.dot` de numpy, que sirve tanto para calcular el producto escalar como el producto matricial. Veamos varios usos: 

In [28]:
E = np.random.randn(6, 3)
E

array([[-0.54646864,  0.17706215,  1.5521872 ],
       [-1.22861502, -0.12411903,  0.64852573],
       [-1.02625323, -1.43687697, -1.6748771 ],
       [-1.18437128,  0.2762348 , -0.59928686],
       [ 0.3952372 , -0.49079782, -0.12304112],
       [-0.35212878, -0.45798542,  2.87695155]])

Ejemplos de producto escalar:

In [81]:
np.dot(E[:,0],E[:,1]) # producto escalar de dos columnas

1.1704589593856862

In [82]:
np.dot(E[2],E[4]) # producto escalar de dos filas

0.5056813854839128

In [88]:
np.dot(E.T, E[:,0]) # producto de una matriz por un vector

array([ 4.54426099,  1.17045896, -0.2780718 ])

In [89]:
np.dot(E.T,E)   # producto de dos matrices

array([[ 4.54426099,  1.17045896, -0.2780718 ],
       [ 1.17045896,  2.63831079,  1.17817411],
       [-0.2780718 ,  1.17817411, 14.28621812]])

In [90]:
np.dot(E,E.T)   # producto de dos matrices

array([[ 2.7392641 ,  1.65605614, -2.29332412, -0.2340729 , -0.49386931,
         4.57690284],
       [ 1.65605614,  1.94548603,  0.35301302,  1.0321974 , -0.50447234,
         2.35525253],
       [-2.29332412,  0.35301302,  5.92302442,  1.82228126,  0.50568139,
        -3.79909826],
       [-0.2340729 ,  1.0321974 ,  1.82228126,  1.83818573, -0.5299461 ,
        -1.43357955],
       [-0.49386931, -0.50447234,  0.50568139, -0.5299461 ,  0.41223406,
        -0.26837949],
       [ 4.57690284,  2.35525253, -3.79909826, -1.43357955, -0.26837949,
         8.61059557]])

In [91]:
np.dot(E.T, E[:,:1]) # producto de dos matrices

array([[ 4.54426099],
       [ 1.17045896],
       [-0.2780718 ]])

Existe otro operador matmul (o su versión con el operador @) que también multiplica matrices. Se diferencian cuando los arrays con de más de dos dimensiones ya



In [92]:
A = np.arange(3*7*4*5).reshape(3, 7, 4, 5)
B = np.arange(3*7*5*6).reshape(3, 7, 5, 6)

In [93]:
np.dot(A, B).shape

(3, 7, 4, 3, 7, 6)

$np.dot(A, B)[x1, x2, x3, y1, y2, y3] = A[x1, x2, x3, :].dot(B[y1, y2, :, y3])$

In [94]:
np.matmul(A, B).shape # similar a A @ B

(3, 7, 4, 6)

La diferencia radica en que dot el producto escalar del  último eje de A con el penúltimo de B para cada combinación de dimensiones y matmul considera los arrays como arrays de matrices, donde las dos últimas dimensiones son la parte matricial.

## Funciones universales sobre arrays (componente a componente)

En este contexto, una función universal (o *ufunc*) es una función que actúa sobre cada componente de un array o arrays de numpy. Estas funciones son muy eficientes y se denominan *vectorizadas*. Por ejemplo:   

In [95]:
M = np.arange(10)
M

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [96]:
np.sqrt(M) # raiz cuadrada de cada componente

array([0.        , 1.        , 1.41421356, 1.73205081, 2.        ,
       2.23606798, 2.44948974, 2.64575131, 2.82842712, 3.        ])

In [97]:
np.exp(M.reshape(2,5)) # exponencial de cad componente

array([[1.00000000e+00, 2.71828183e+00, 7.38905610e+00, 2.00855369e+01,
        5.45981500e+01],
       [1.48413159e+02, 4.03428793e+02, 1.09663316e+03, 2.98095799e+03,
        8.10308393e+03]])

Existen funciones universales que actúan sobre dos arrays, ya que realizan operaciones binarias:

In [98]:
x = np.random.randn(8)
y = np.random.randn(8)
x,y

(array([-0.84290162,  0.31108389,  0.83037083,  1.25709451, -0.2294243 ,
         0.85347987,  1.29577666,  1.51981404]),
 array([ 0.83115696,  0.83058297, -0.58014219,  1.73351851,  0.46002994,
        -0.06761146, -0.72245244, -0.6491035 ]))

In [99]:
np.maximum(x, y)

array([0.83115696, 0.83058297, 0.83037083, 1.73351851, 0.46002994,
       0.85347987, 1.29577666, 1.51981404])

In [106]:
# no confundir con
max(x),max(y)

(1.5198140397894617, 1.7335185063503769)

Existe una numerosa colección de *ufuncs* tanto unarias como bianrias. Se recomienda consultar el manual. 

---
## Expresiones condicionales vectorizadas con *where*

Veamos cómo podemos usar un versión vectorizada de la función `if`. 

Veámoslo con un ejemplo. Supongamos que tenemos dos arrays (unidimensionales) numéricos y otro array booleano del mismo tamaño: 

In [101]:
xarr = np.array([1.1, 1.2, 1.3, 1.4, 1.5])
yarr = np.array([2.1, 2.2, 2.3, 2.4, 2.5])
cond = np.array([True, False, True, True, False])

Si quisiéramos obtener el array que en cada componente tiene el valor de `xs` si el correspondiente en `cond` es `True`, o el valor de `ys` si el correspondiente en `cond` es `False`, podemos hacer lo siguiente:  

In [102]:
result = [(x if c else y)
          for x, y, c in zip(xarr, yarr, cond)]
result

[1.1, 2.2, 1.3, 1.4, 2.5]

Sin embargo, esto tiene dos problemas: no es lo suficientemente eficiente, y además no se traslada bien a arrays multidimensionales. Afortunadamente, tenemos `np.where` para hacer esto de manera conveniente:

In [103]:
result = np.where(cond, xarr, yarr)
result

array([1.1, 2.2, 1.3, 1.4, 2.5])

No necesariamente el segundo y el tercer argumento tiene que ser arrays. Por ejemplo:

In [104]:
F = np.random.randn(4, 4)

F,np.where(F > 0, 2, -2)

(array([[ 3.54453066,  1.0922781 , -0.27590788, -0.19719865],
        [ 1.20419307, -1.34678496, -0.04129976, -1.04720974],
        [ 1.54785992, -0.72041168, -1.03023333, -0.55423894],
        [-0.50400165,  1.08187561,  0.70174259, -0.0581368 ]]),
 array([[ 2,  2, -2, -2],
        [ 2, -2, -2, -2],
        [ 2, -2, -2, -2],
        [-2,  2,  2, -2]]))

O una combinación de ambos. Por ejemplos, para modificar sólo las componentes positivas:

In [105]:
np.where(F > 0, 2, F) 

array([[ 2.        ,  2.        , -0.27590788, -0.19719865],
       [ 2.        , -1.34678496, -0.04129976, -1.04720974],
       [ 2.        , -0.72041168, -1.03023333, -0.55423894],
       [-0.50400165,  2.        ,  2.        , -0.0581368 ]])

También existe la función np.select para concatenar varias máscaras consecutivas.



In [107]:
np.select([np.abs(F) > 2, np.abs(F) > 1], ["Poco probable", "Algo probable"], "Frecuente")


array([['Poco probable', 'Algo probable', 'Frecuente', 'Frecuente'],
       ['Algo probable', 'Algo probable', 'Frecuente', 'Algo probable'],
       ['Algo probable', 'Frecuente', 'Algo probable', 'Frecuente'],
       ['Frecuente', 'Algo probable', 'Frecuente', 'Frecuente']],
      dtype='<U13')

:::{exercise} :label: index-slicing-masks

Crea una función que transforme un array para aplicar elemento a elemento la siguiente función

$$ f(x) = \begin{cases} exp(x/2) & \text{si } x < 0 \\ 1-x & \text{si } 0 \leq x \leq 1 \\ 0 & \text{si } x > 1 \end{cases} $$
:::

In [109]:
F

array([[ 3.54453066,  1.0922781 , -0.27590788, -0.19719865],
       [ 1.20419307, -1.34678496, -0.04129976, -1.04720974],
       [ 1.54785992, -0.72041168, -1.03023333, -0.55423894],
       [-0.50400165,  1.08187561,  0.70174259, -0.0581368 ]])

In [114]:
np.select([F < 0, F <= 1],[np.exp(F/2),1-F],0)

array([[0.        , 0.        , 0.87113882, 0.90610569],
       [0.        , 0.50997556, 0.97956187, 0.59238124],
       [0.        , 0.69753273, 0.59743089, 0.75796394],
       [0.7772441 , 0.        , 0.29825741, 0.97135002]])

In [118]:
def transforma(array: np.ndarray):
  return np.select([array < 0, array <= 1],[np.exp(array/2),1-array],0)

In [119]:
transforma(F)

array([[0.        , 0.        , 0.87113882, 0.90610569],
       [0.        , 0.50997556, 0.97956187, 0.59238124],
       [0.        , 0.69753273, 0.59743089, 0.75796394],
       [0.7772441 , 0.        , 0.29825741, 0.97135002]])

---
## Funciones estadísticas

Algunos métodos para calcular indicadores estadísticos sobre los elementos de un array.

* `np.sum`: suma de los componentes
* `np.mean`: media aritmética
* `np.std` y `np.var`: desviación estándar y varianza, respectivamente.
* `np.max` y `np.min`: máximo y mínimo, resp.
* `np.argmin` y `np.argmax`: índices de los mínimos o máximos elementos, respectivamente.
* `np.cumsum`: sumas acumuladas de cada componente

Estos métodos también se pueden usar como atributos de los arrays. Es decir, por ejemplo `A.sum()` o `A.mean()`.

Veamos algunos ejemplos, generando en primer lugar un array con elementos generados aleatoriamente (siguiendo una distribución normal):

In [121]:
G = np.random.randn(5, 4)
G

array([[-0.03500487, -1.24982447,  0.98969747,  0.22172032],
       [ 0.1410044 ,  1.219964  , -1.29590356, -0.26062924],
       [-0.39870914,  0.58368139, -0.25758723,  1.06944336],
       [ 1.70253408,  0.50316213,  1.26710928, -0.89494865],
       [ 0.74030768, -0.57346151,  0.82402944,  0.24502139]])

In [122]:
G.sum()

4.541606286447456

In [123]:
G.mean()

0.2270803143223728

In [124]:
G.cumsum() # por defecto, se aplana el array y se hace la suma acumulada

array([-0.03500487, -1.28482934, -0.29513186, -0.07341155,  0.06759286,
        1.28755686, -0.00834671, -0.26897595, -0.66768509, -0.0840037 ,
       -0.34159093,  0.72785243,  2.43038652,  2.93354865,  4.20065793,
        3.30570928,  4.04601696,  3.47255545,  4.2965849 ,  4.54160629])

Todas estas funciones se pueden aplicar a lo largo de un eje, usando el parámetro `axis`. Por ejemplos, para calcular las medias de cada fila (es decir, recorriendo en el sentido de las columnas), aplicamos `mean` por `axis=1`:

In [125]:
G.mean(axis=1) # hace la media por cada fila

array([-0.01835289, -0.0488911 ,  0.2492071 ,  0.64446421,  0.30897425])

Y la suma de cada columna (es decir, recorriendo las filas), con `sum` por `axis=0`:

In [126]:
G.sum(axis=0) # hace la media por cada columna

array([2.15013216, 0.48352155, 1.5273454 , 0.38060718])

Suma acumulada de cada columna:

In [127]:
G.cumsum(axis=0) # la primera fila se queda igual
# las siguientes filas van haciendo cumsum por columna

array([[-0.03500487, -1.24982447,  0.98969747,  0.22172032],
       [ 0.10599953, -0.02986047, -0.30620609, -0.03890892],
       [-0.29270961,  0.55382093, -0.56379332,  1.03053443],
       [ 1.40982448,  1.05698306,  0.70331596,  0.13558579],
       [ 2.15013216,  0.48352155,  1.5273454 ,  0.38060718]])

In [128]:
G.cumsum(axis=1) # lo mismo pero lo va haciendo por fila

array([[-0.03500487, -1.28482934, -0.29513186, -0.07341155],
       [ 0.1410044 ,  1.3609684 ,  0.06506484, -0.1955644 ],
       [-0.39870914,  0.18497225, -0.07261498,  0.99682838],
       [ 1.70253408,  2.20569622,  3.4728055 ,  2.57785685],
       [ 0.74030768,  0.16684617,  0.99087561,  1.235897  ]])

Dentro de cada columna, el número de fila donde se alcanza el mínimo se puede hacer asi:

In [129]:
G, G.argmin(axis=0)

(array([[-0.03500487, -1.24982447,  0.98969747,  0.22172032],
        [ 0.1410044 ,  1.219964  , -1.29590356, -0.26062924],
        [-0.39870914,  0.58368139, -0.25758723,  1.06944336],
        [ 1.70253408,  0.50316213,  1.26710928, -0.89494865],
        [ 0.74030768, -0.57346151,  0.82402944,  0.24502139]]),
 array([2, 0, 1, 3]))

---
## Métodos para arrays booleanos

In [130]:
H = np.random.randn(50)
H

array([-1.030966  , -1.32831241,  0.72540614, -1.29327244, -1.10264896,
       -1.5892453 , -0.92068204, -1.08400664,  0.46653241,  1.51059474,
       -1.86064709, -0.13292663,  1.44404919,  0.33489414,  0.68423029,
       -0.26596009,  0.22078027, -1.96361579, -0.89161167, -0.61354842,
       -1.67313626,  0.39608787,  1.64800194,  0.44473517, -0.21745513,
       -0.97837936, -0.51238483,  0.20007488, -2.16403215,  2.06722845,
        1.48413715, -0.12779531,  1.26345161,  1.1223096 , -0.92454269,
       -0.24278816, -1.01092554, -1.05852051,  0.08173992, -0.70380423,
       -0.21827869,  1.26987018,  0.32585645,  0.7367223 , -0.13636995,
        2.7672602 , -0.92661239,  2.70954674,  0.41857801,  0.78669338])

Es bastante frecuente usar `sum` para ontar el número de veces que se cumple una condición en un array, aprovechando que `True` se identifica con 1 y `False` con 0:

In [131]:
(H > 0).sum() # Number of positive values

23

Las funciones python `any` y `all` tienen también su correspondiente versión vectorizada. `any` se puede ver como un *or* generalizado, y `all`como un *and* generalizado:  

In [132]:
bools = np.array([False, False, True, False])
bools.any(),bools.all()

(True, False)

Podemos comprobar si se cumple *alguna vez* una condición entre los componentes de un array, o bien si se cumple *siempre* una condición:

In [133]:
np.any(H > 0)

True

In [134]:
np.all(H < 10)

True

In [135]:
np.any(H > 15)

False

In [136]:
np.all(H > 0)

False

---
## Entrada y salida de arrays en ficheros

Existen una serie de utilidades para guardar el contenido de un array en un fichero y recuperarlo más tarde. 

Las funciones `save` y `load` hacen esto. Los arrays se almacenan en archivos con extensión *npy*.  

In [137]:
J = np.arange(10)
np.save('un_array', J)

In [138]:
np.load('un_array.npy')

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

Con `savez`, podemos guardar una serie de arrays en un archivo de extensión *npz*, asociados a una serie de claves. Por ejemplo:

In [139]:
np.savez('array_archivo.npz', a=J, b=J**2)

Cuando hacemos `load` sobre un archivo *npz*, cargamos un objeto de tipo diccionario, con el que podemos acceder (de manera perezosa) a los distintos arrays que se han almacenado:

In [140]:
arch = np.load('array_archivo.npz')
arch['b']

array([ 0,  1,  4,  9, 16, 25, 36, 49, 64, 81])

In [141]:
arch['a']

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

En caso de que fuera necesario, podríamos incluso guardar incluso los datos en formato comprimido con `savez_compressed`:

In [142]:
np.savez_compressed('arrays_comprimidos.npz', a=arr, b=arr)

In [145]:
!ls -lah

total 28K
drwxr-xr-x 1 root root 4.0K Dec  2 19:05 .
drwxr-xr-x 1 root root 4.0K Dec  2 17:22 ..
-rw-r--r-- 1 root root  650 Dec  2 19:03 array_archivo.npz
-rw-r--r-- 1 root root  422 Dec  2 19:05 arrays_comprimidos.npz
drwxr-xr-x 4 root root 4.0K Nov 23 14:31 .config
drwxr-xr-x 1 root root 4.0K Nov 23 14:31 sample_data
-rw-r--r-- 1 root root  208 Dec  2 19:02 un_array.npy


In [None]:
!rm un_array.npy
!rm array_archivo.npz
!rm arrays_comprimidos.npz

---
## Convoluciones de arrays

:::{exercise} :label: index-slicing-convolution

Dadas dos funciones de variable real $f$ y $g$, definimos la convolución de $f$ y $g$ como

$$ (f*g)(x) = \int_\mathbb{R} f(t)g(x - t)dt. $$
La versión discreta de la anterior definición puede ser la siguiente. Datos $f=(f_0, \dots, f_{n-1})$ y $g=(g_0, \dots, g_{m-1})$ dos vectores (representados por arrays unidimensionales) de tamaño $n$ y $m$, respectivamente, definimos el array conv de dimensión n + m - 1 cuya componente $k$ vale

$$ \sum_{i + m -1 = k + j}f_ig_j $$
para $0 \leq k \leq n + m - 1$.

Crea una función conv que tome como inputs dos arrays y devuelva la convolución de ambos. Por ejemplo

arr1 = np.arange(10)

arr2 = np.arange(5) 

conv(arr1, arr2)

 [ 0  4 11 20 30 40 50 60 70 80 50 26  9  0]


:::

In [146]:
arr1 = np.arange(10)
arr2 = np.arange(5)

In [171]:
from itertools import product

def conv(f,g):
  n=len(f)
  m=len(g)
  conv_dim = n+m-1
  arr_conv = np.zeros(conv_dim)
  for k in range(conv_dim):
    my_gen = (
        f[i]*g[j] for i,j in product(range(n),range(m)) if i+m-1 == j+k
    )
    arr_conv[k]= sum(my_gen)
  return arr_conv

In [175]:
conv(arr1,arr2)

array([ 0.,  4., 11., 20., 30., 40., 50., 60., 70., 80., 50., 26.,  9.,
        0.])

In [174]:
arr_conv = conv(arr1,arr2)
print(arr_conv) # así queda más bonito

[ 0.  4. 11. 20. 30. 40. 50. 60. 70. 80. 50. 26.  9.  0.]


Podemos también hacerlo de una forma más óptima si creamos primero una matriz producto de la forma correcta, y así la convolucional será la suma de las diagonales secundarias