# Indexado, Slicing y operaciones básicas

Vamos a explorar más a fondo la diferentes formas que tenemos de acceder y operar con componentes de un array multidimensional.

In [1]:
import numpy as np

---
## Indexado y *slicing*

Otra de las características más interesantes de numpy es la gran flexibilidad para acceder a las componentes de un array, o a un subconjunto del mismo. Vamos a ver a continuación algunos ejemplos básicos.

**Arrays unidimensonales**

Para arrays unidimensionales, el acceso es muy parecido al de listas. Por ejemplo, acceso a las componentes:

In [2]:
v = np.arange(10)

In [3]:
v[5]

5

La operación de *slicing* en arrays es similar a la de listas. Por ejemplo:

In [4]:
v[5:8]

array([5, 6, 7])

Sin embargo, hay una diferencia fundamental: en general en python, el slicing siempre crea *una copia* de la secuencia original (aunque no de los elementos) a la hora de hacer asignaciones. En numpy, el *slicing* es una *vista* de array original. Esto tiene como consecuencia que **las modificaciones que se realicen sobre dicha vista se están realizando sobre el array original**. Por ejemplo:   

In [5]:
l = list(range(10))
l_sublist = l[5:8]
v_subarray = v[5:8]
l_sublist[:] = [12, 12, 12] #al haber hecho una sublista, no cambia la l del principio
v_subarray[:] = 12  # no obstante el subarray si que lo cambia

In [6]:
print(l)
print(v)

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]
[ 0  1  2  3  4 12 12 12  8  9]


Y además hay que tener en cuenta que cualquier referencia a una vista es en realidad una referencia a los datos originales, y que las modificaciones que se realicen a través de esa referencia, se realizarán igualmente sobre el original.

Veámos esto con el siguiente ejemplo:

Modificamos la componente 1 de `v_slice`:

In [7]:
v_subarray[1] = 12345
print(v_subarray)

[   12 12345    12]


Pero la componente 1 de `v_subarray` es en realidad la componente 6 de `v`, así que `v` ha cambiado:

In [8]:
print(v)

[    0     1     2     3     4    12 12345    12     8     9]


Nótese la diferencia con las listas de python, en las que `l[:]` es la manera estándar de crear una *copia* de una lista `l`. En el caso de *numpy*, si se quiere realizar una copia, se ha de usar el método `copy` (por ejemplo, `v.copy()`).

In [10]:
v_copy = v.copy()

**Arrays de más dimensiones**

El acceso a los componentes de arrays de dos o más dimensiones es similar, aunque la casuística es más variada.

Cuando accedemos con un único índice, estamos accediendo al correspondiente subarray de esa posición. Por ejemplo, en array de dos dimensiones, con 3 filas y 3 columnas, la posición 2 es la tercera fila:

In [11]:
c2d = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
c2d[2]

array([7, 8, 9])

De esta manera, recursivamente, podríamos acceder a los componentes individuales de una array de cualquier dimensión. En el ejemplo anterior, el elemento de la primera fila y la tercera columna sería:

In [12]:
c2d[0][2]  # dentro del array, la primera fila y el tercer componente

3

Normalmente no se suele usar la notación anterior para acceder a los elementos individuales, sino que se usa un único corchete con los índices separados por comas: Lo siguiente es equivalente:

In [13]:
c2d[0, 2]

3

Veamos más ejemplos de acceso y modificación en arrays multidimensionales, en este caso con tres dimensiones.

In [14]:
c3d = np.array([[[1, 2, 3], [4, 5, 6]], [[7, 8, 9], [10, 11, 12]]])
c3d

array([[[ 1,  2,  3],
        [ 4,  5,  6]],

       [[ 7,  8,  9],
        [10, 11, 12]]])

Accediendo a la posición 0 obtenemos el correspondiente subarray de dos dimensiones:

In [15]:
c3d[0]

array([[1, 2, 3],
       [4, 5, 6]])

Similar a la función `enumerate` de Python, tenemos la función `np.ndenumearte` para iterar con los elementos del array y su índice

In [18]:
l = (list(range(10,20)))
print(list(enumerate(l)))

[(0, 10), (1, 11), (2, 12), (3, 13), (4, 14), (5, 15), (6, 16), (7, 17), (8, 18), (9, 19)]


In [16]:
[i for i in np.ndenumerate(c3d)]

[((0, 0, 0), 1),
 ((0, 0, 1), 2),
 ((0, 0, 2), 3),
 ((0, 1, 0), 4),
 ((0, 1, 1), 5),
 ((0, 1, 2), 6),
 ((1, 0, 0), 7),
 ((1, 0, 1), 8),
 ((1, 0, 2), 9),
 ((1, 1, 0), 10),
 ((1, 1, 1), 11),
 ((1, 1, 2), 12)]

Vamos a guardar una copia de de ese subarray y lo modificamos en el original con el número `42` en todas las posiciones:

In [19]:
old_values = c3d[0].copy()  #solo estamos copiado el primer eje, no todo el array
c3d[0] = 42
c3d

array([[[42, 42, 42],
        [42, 42, 42]],

       [[ 7,  8,  9],
        [10, 11, 12]]])

Y ahora reestablecemos los valores originales:

In [20]:
c3d[0] = old_values
c3d

array([[[ 1,  2,  3],
        [ 4,  5,  6]],

       [[ 7,  8,  9],
        [10, 11, 12]]])

:::{exercise}
:label: introduction-numpy-indexing

Devuelve el número 813 indexando el array `np.arange(2100).reshape((25, 6, 7, 2))`.

:::

In [44]:
# con fuerza bruta y np.ndenumerate

arr_enumerate = {k:v for v,k in np.ndenumerate(c4d)}
idx = arr_enumerate[813]
print(idx)

(9, 4, 0, 1)


In [40]:
c4d = np.arange(2100).reshape((25, 6, 7, 2))
c4d[9,4,0,1]  # lo he hecho con la cuenta la vieja

813

In [50]:
n = 813
i = n // (6*7*2)
j = 0  # hay que hacer una cuenta como la de arriba para que nos salga el numero
k = 0
l = 1
print(c4d[i,j,k,l])

757


### Indexado usando *slices*

In [51]:
c2d

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

Los *slicings* en arrays multidimensionales se hacen a lo largo de los correspondientes ejes. Por ejemplo, en un array bidimensional, lo haríamos sobre la secuencia de filas.

In [52]:
c2d[:2]

array([[1, 2, 3],
       [4, 5, 6]])

Pero también podríamos hacerlo en ambos ejes. Por ejemplo para obtener el subarray hasta la segunda fila y a partir de la primera columna:

In [53]:
c2d[:2, 1:]

array([[2, 3],
       [5, 6]])

Si en alguno de los ejes se usa un índice individual, entonces se pierde una de las dimensiones:

In [54]:
c2d[1, :2]

array([4, 5])

Nótese la diferencia con la operación `C2d[1:2,:2]`. Puede parecer que el resultado ha de ser el mismo, **pero si se usa slicing en ambos ejes se mantiene el número de dimensiones**:

In [55]:
c2d[1:2,:2]

array([[4, 5]])

Más ejemplos:

In [56]:
c2d

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [57]:
c2d[:2, 2]

array([3, 6])

In [58]:
c2d[:, :1]

array([[1],
       [4],
       [7]])

Como hemos visto más arriba, podemos usar *slicing* para asignar valores a las componentes de un array. Por ejemplo

In [59]:
c2d[:2, 1:] = 0
c2d

array([[1, 0, 0],
       [4, 0, 0],
       [7, 8, 9]])

Finalmente, notemos que podemos usar cualquier `slice` de Python para arrays

In [60]:
slice_1 = slice(2, 0, -1)
slice_2 = slice(0, 3, 2)

In [61]:
c2d[slice_1, slice_2]

array([[7, 9],
       [4, 0]])

:::{exercise}
:label: index-slicing-3x4x2

Crea un array tridimensional de dimensiones $(3, 4, 2)$ y obtén el subarray indicada en la figura (`shape = (1, 2)`). Obtén también un subarray a tu elección de dimensiones $(2, 3, 1)$.

<div style="display: flex; align-items: center;
justify-content: center;">
    <img style="width: 100px; height: 100px;" src="https://drive.google.com/uc?id=1HEtbq_Y1YVh6jscdHEhYYz-iM5FNMyJP"/>
</div>

:::

In [67]:
c5d = np.array([[[1, 2], [3, 4], [5, 6], [7, 8]], [[9,10], [11, 12], [13, 14], [15,16]], [[17, 18], [19, 20], [21, 22], [23, 24]]])
print(c5d.shape) # haciendolo a mano

(3, 4, 2)


In [74]:
arr1 = np.arange(3*4*2).reshape((3,4,2))
arr2 = np.zeros((3,4,2))
assert arr1.shape == (3,4,2)  # assert es para que salte un error solo si sale False
assert arr2.shape == (3,4,2)

sub_arr = arr1[1, 3:4, :] # tenemos que poner 2 slice para que coja 2 elementos
print(sub_arr)
print(sub_arr.shape)

sub_arr1 = arr1[:2, :3, :1]
print(sub_arr1)
print(sub_arr1.shape)

[[14 15]]
(1, 2)
[[[ 0]
  [ 2]
  [ 4]]

 [[ 8]
  [10]
  [12]]]
(2, 3, 1)


### Indexado con booleanos

Los arrays de booleanos se pueden usar en numpy como una forma de indexado para seleccionar determinadas componenetes en una serie de ejes.

Veamos el siguiente ejemplo:

In [75]:
nombres = np.array(['Bob', 'Joe', 'Will', 'Bob', 'Will', 'Joe', 'Joe'])

In [77]:
nombres.shape

(7,)

In [78]:
rng = np.random.default_rng()
data = rng.normal(0, 1, (7, 4))
data

array([[ 0.02297772,  0.47719702, -0.63810855, -0.50601979],
       [-0.3361289 ,  0.25724699, -0.27108628,  0.1083045 ],
       [-0.72369663, -1.23756973, -0.9833041 , -0.21462785],
       [-0.88139588,  0.48253636, -0.55951661, -2.4536927 ],
       [ 1.86770296,  0.47795139,  0.651925  ,  2.48384543],
       [-0.64066215, -0.54479454,  1.08534827,  0.06098481],
       [-0.21575518,  1.31773048,  0.52575735, -0.15863638]])

In [79]:
nombres == "Bob"

array([ True, False, False,  True, False, False, False])

In [80]:
data[nombres == "Bob"]

array([[ 0.02297772,  0.47719702, -0.63810855, -0.50601979],
       [-0.88139588,  0.48253636, -0.55951661, -2.4536927 ]])

Podríamos interpretar que cada fila del array `data` son datos asociados a las correspondientes personas del array `nombres`. Si ahora queremos quedarnos por ejemplos con las filas correspondientes a Bob, podemos usar indexado booleano de la siguiente manera:

El array de booleanos que vamos a usar será:

In [81]:
nombres == 'Bob'

array([ True, False, False,  True, False, False, False])

Y el indexado con ese array, en el eje de las filas, nos dará el subarray de las filas correspondientes a Bob:

In [82]:
data[nombres == 'Bob']

array([[ 0.02297772,  0.47719702, -0.63810855, -0.50601979],
       [-0.88139588,  0.48253636, -0.55951661, -2.4536927 ]])

Podemos mezclar indexado booleano con índices concretos o con slicing en distintos ejes:

In [83]:
data[nombres == 'Bob', 2:]

array([[-0.63810855, -0.50601979],
       [-0.55951661, -2.4536927 ]])

In [84]:
data[nombres == 'Bob', 3]

array([-0.50601979, -2.4536927 ])

Para usar el indexado complementario (en el ejemplo, las filas correspondientes a las personas que no son Bob), podríamos usar el array de booleanos `nombres != 'Bob'`. Sin embargo, es más habitual usar el operador `~`:

In [85]:
data[~(nombres == 'Bob')]  # ~ esta es la negacion en numpy, el not no funciona

array([[-0.3361289 ,  0.25724699, -0.27108628,  0.1083045 ],
       [-0.72369663, -1.23756973, -0.9833041 , -0.21462785],
       [ 1.86770296,  0.47795139,  0.651925  ,  2.48384543],
       [-0.64066215, -0.54479454,  1.08534827,  0.06098481],
       [-0.21575518,  1.31773048,  0.52575735, -0.15863638]])

Incluso podemos jugar con otros operadores booleanos como `&` (and) y `|` (or), para construir indexados booleanos que combinan condiciones.

Por ejemplo, para obtener las filas correspondiente a Bob o a Will:

In [86]:
mask = (nombres == 'Bob') | (nombres == 'Will')
mask

array([ True, False,  True,  True,  True, False, False])

In [87]:
data[mask]

array([[ 0.02297772,  0.47719702, -0.63810855, -0.50601979],
       [-0.72369663, -1.23756973, -0.9833041 , -0.21462785],
       [-0.88139588,  0.48253636, -0.55951661, -2.4536927 ],
       [ 1.86770296,  0.47795139,  0.651925  ,  2.48384543]])

Y como en los anteriores indexados, podemos usar el indexado booleano para modificar componentes de los arrays. Lo siguiente pone a 0 todos los componentes neativos de `data`:

In [88]:
data < 0

array([[False, False,  True,  True],
       [ True, False,  True, False],
       [ True,  True,  True,  True],
       [ True, False,  True,  True],
       [False, False, False, False],
       [ True,  True, False, False],
       [ True, False, False,  True]])

In [89]:
data[data < 0]

array([-0.63810855, -0.50601979, -0.3361289 , -0.27108628, -0.72369663,
       -1.23756973, -0.9833041 , -0.21462785, -0.88139588, -0.55951661,
       -2.4536927 , -0.64066215, -0.54479454, -0.21575518, -0.15863638])

In [90]:
data[data < 0] = 0
data

array([[0.02297772, 0.47719702, 0.        , 0.        ],
       [0.        , 0.25724699, 0.        , 0.1083045 ],
       [0.        , 0.        , 0.        , 0.        ],
       [0.        , 0.48253636, 0.        , 0.        ],
       [1.86770296, 0.47795139, 0.651925  , 2.48384543],
       [0.        , 0.        , 1.08534827, 0.06098481],
       [0.        , 1.31773048, 0.52575735, 0.        ]])

Obsérvese que ahora `data < 0` es un array de booleanos bidimensional con la misma estructura que el propio `data` y que por tanto tanto estamos haciendo indexado booleano sobre ambos ejes.

Podríamos incluso fijar un valor a filas completas, usando indexado por un booleano unidimensional:

In [91]:
data[~(nombres == 'Joe')] = 7
data

array([[7.        , 7.        , 7.        , 7.        ],
       [0.        , 0.25724699, 0.        , 0.1083045 ],
       [7.        , 7.        , 7.        , 7.        ],
       [7.        , 7.        , 7.        , 7.        ],
       [7.        , 7.        , 7.        , 7.        ],
       [0.        , 0.        , 1.08534827, 0.06098481],
       [0.        , 1.31773048, 0.52575735, 0.        ]])

:::{exercise}
:label: index-slicing-bool

Devuelve las filas de `data` correspondientes a aquellos nombres que empiecen por "B" o "J". Puedes utilizar la función `np.char.startswith`.

:::

In [101]:
nombres = np.array(['Bob', 'Joe', 'Will', 'Bob', 'Will', 'Joe', 'Joe'])
data = rng. normal(0, 1, (7, 4))

In [102]:
mask = np.char.startswith(nombres, prefix="B") | np.char.startswith(nombres, prefix="J")
mask.shape
data[mask]

array([[-0.40719013, -0.17361387, -0.13119235,  0.1880087 ],
       [ 0.66339019, -0.26893589,  0.65384365,  0.27981466],
       [ 1.1988045 ,  0.77585251, -1.03772666, -0.00400024],
       [ 1.74870525, -1.74377746,  0.42944862, -1.51758943],
       [-0.88344055,  1.72011202,  0.37168011,  0.38252717]])

:::{exercise}
:label: index-slicing-flip

Crea una función `flip` que tome como inputs un array `arr` y un número entero positivo `i` e *invierta* el eje i-ésimo, es decir, si la dimensión del eje $i$ vale $d_i$, la transformación lleva el elemento con índice $(x_1, \dots, x_i, \dots, x_n)$ en $(x_1, \dots, x_i^*, \dots, x_n)$ donde $x_i + x_i^* = d_i + 1$

Por ejemplo,

```
arr = np.arange(9).reshape((3, 3))
arr
>>>
[[0 1 2]
 [3 4 5]
 [6 7 8]]

flip(arr, 1)
>>>
[[2 1 0]
 [5 4 3]
 [8 7 6]]
```

:::

In [118]:
arr = np.arange(12).reshape((3, -1))

do_nothing = slice(None)  # esto es para coger el slice por defecto
reverse = slice(None, None, -1)

print(arr)
print(arr[do_nothing, reverse])

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]
[[ 3  2  1  0]
 [ 7  6  5  4]
 [11 10  9  8]]


In [119]:
def flip(arr: np.ndarray, i : int):
  slices = (reverse if j==i else do_nothing for j in range(arr.ndim))
  return arr[tuple(slices)]

print(flip(arr, 1))

[[ 3  2  1  0]
 [ 7  6  5  4]
 [11 10  9  8]]
