# Indexación y filtros en NumPy

Este archivo contiene los siguientes temas:
* Slice indexing 
* Integer indexing vs. slice indexing 
* Array indexing 
* Boolean indexing 

Algunos *shortcuts* útiles:
* tab --> ofrece sugerencias sobre funciones y atributos 
* shift + tab --> muestra la documentación
* shift + enter --> run cell

Documentación de numpy: https://docs.scipy.org/doc/numpy/reference/

In [2]:
import numpy as np

Es importante conocer cómo funciona la indexación en NumPy, para obtener y/o reassignar valores de los elementos de los arrays

-----

## Slice indexing

In [3]:
# Para el ejemplo, creamos una matriz de 4x4
my_array = np.array([[11,12,13,14],
                     [21,22,23,24],
                     [31,32,33,34],
                     [41,42,43,44]])
print(my_array)      

[[11 12 13 14]
 [21 22 23 24]
 [31 32 33 34]
 [41 42 43 44]]


Usamos *slice indexing* para obtener diferentes subregiones...

In [4]:
my_array = np.array([[11,12,13,14],
                     [21,22,23,24],
                     [31,32,33,34],
                     [41,42,43,44]])

# Creamos una subregión con todos los renglones a partir del tercero y todas las columnas antes del segundo y todas las columnas a partir de la segunda
slice01 = my_array[2:, 1:]
print(slice01, '\n')

# Creamos una subregión con todos los renglones y las columnas 2 y 3
slice02 = my_array[:, 1:3]
print(slice02, '\n')

[[32 33 34]
 [42 43 44]] 

[[12 13]
 [22 23]
 [32 33]
 [42 43]] 



Es importante tener presente que, cuando trabajamos con subregiones con este método, no se crea un nuevo array. Lo que ocurre es que se crea una nueva referencia a los elementos seleccionados del array original. Por eso, cuando modificamos un elemento de una subregión, en realidad lo que se está haciendo es modificar el elemento del array original al que se hace referencia

In [5]:
my_array = np.array([[11,12,13,14],
                     [21,22,23,24],
                     [31,32,33,34],
                     [41,42,43,44]])

# Creamos una subregión con todos los renglones a partir del 3ro (índice 2) y todas las columnas
slice04 = my_array[2:, :]
print('my_array (antes):\n', my_array, '\n')
print('slice04 (antes):\n', slice04, '\n')

# Veamos qué pasa si modificamos un elemento de slice04...
slice04[1,1] = -1 # Nótese que slice04[1,1] apunta hacia el mismo lugar que my_array[3,1]
print('my_array (después 1):\n', my_array, '\n')
print('slice04 (después 1):\n', slice04, '\n')

# También podemos modificar todos los elementos de una subregión...
slice04[:, 2:] = -9
print('my_array (después 2):\n', my_array, '\n')
print('slice04 (después 2):\n', slice04, '\n')

my_array (antes):
 [[11 12 13 14]
 [21 22 23 24]
 [31 32 33 34]
 [41 42 43 44]] 

slice04 (antes):
 [[31 32 33 34]
 [41 42 43 44]] 

my_array (después 1):
 [[11 12 13 14]
 [21 22 23 24]
 [31 32 33 34]
 [41 -1 43 44]] 

slice04 (después 1):
 [[31 32 33 34]
 [41 -1 43 44]] 

my_array (después 2):
 [[11 12 13 14]
 [21 22 23 24]
 [31 32 -9 -9]
 [41 -1 -9 -9]] 

slice04 (después 2):
 [[31 32 -9 -9]
 [41 -1 -9 -9]] 



Si queremos crear una subregión cuyo comportamiento sea independiente del array original, necesitamos trabajar con una copia...

In [6]:
my_array = np.array([[11,12,13,14],
                     [21,22,23,24],
                     [31,32,33,34],
                     [41,42,43,44]])

# Creamos un nuevo array a partir de una copia de una subregión de my_array
slice05 = np.array(my_array[2:, :])

print('my_array (antes):\n', my_array)
print('\nslice05 (antes):\n', slice05)

# Cambiamos el valor de un elemento de slice05 para ver qué ocurre con my_array (nada)
slice05[1, 3] = -1

print('\nmy_array (después):\n', my_array)
print('\nslice05 (después):\n', slice05)

my_array (antes):
 [[11 12 13 14]
 [21 22 23 24]
 [31 32 33 34]
 [41 42 43 44]]

slice05 (antes):
 [[31 32 33 34]
 [41 42 43 44]]

my_array (después):
 [[11 12 13 14]
 [21 22 23 24]
 [31 32 33 34]
 [41 42 43 44]]

slice05 (después):
 [[31 32 33 34]
 [41 42 43 -1]]


Lo anterior también ocurre cuando queremos crear un nuevo array a partir de otro...

In [7]:
my_array = np.array([[11,12,13,14],
                     [21,22,23,24],
                     [31,32,33,34],
                     [41,42,43,44]])

# Lo siguiente crea una nueva referenica (my_array2) que apunta a los mismos lugares que my_array
my_array2 = my_array

print('my_array (antes):\n', my_array, '\n')
print('\nmy_array2 (antes):\n', my_array2, '\n')

# Modificamos todos los valores de una columna de my_array2
my_array2[:,1] = 1000

print('my_array (después):\n', my_array, '\n')
print('my_array2 (después):\n', my_array2, '\n')

my_array (antes):
 [[11 12 13 14]
 [21 22 23 24]
 [31 32 33 34]
 [41 42 43 44]] 


my_array2 (antes):
 [[11 12 13 14]
 [21 22 23 24]
 [31 32 33 34]
 [41 42 43 44]] 

my_array (después):
 [[  11 1000   13   14]
 [  21 1000   23   24]
 [  31 1000   33   34]
 [  41 1000   43   44]] 

my_array2 (después):
 [[  11 1000   13   14]
 [  21 1000   23   24]
 [  31 1000   33   34]
 [  41 1000   43   44]] 



Entonces, si queremos crear un NumPy array igual a otro, pero no queremos que haga referencia a los mismos objetos en memoria, es necesario crear una copia...

In [8]:
my_array = np.array([[11,12,13,14],
                     [21,22,23,24],
                     [31,32,33,34],
                     [41,42,43,44]])
my_array2 = np.array(my_array)
print('my_array (antes):\n', my_array, '\n')
print('my_array2 (antes):\n', my_array2, '\n')

# modificamos todos los valores de una columna de my_array2
my_array2[:,1] = 1000

print('my_array (después):\n', my_array, '\n')
print('my_array2 (después):\n', my_array2, '\n')

my_array (antes):
 [[11 12 13 14]
 [21 22 23 24]
 [31 32 33 34]
 [41 42 43 44]] 

my_array2 (antes):
 [[11 12 13 14]
 [21 22 23 24]
 [31 32 33 34]
 [41 42 43 44]] 

my_array (después):
 [[11 12 13 14]
 [21 22 23 24]
 [31 32 33 34]
 [41 42 43 44]] 

my_array2 (después):
 [[  11 1000   13   14]
 [  21 1000   23   24]
 [  31 1000   33   34]
 [  41 1000   43   44]] 



-------

## Slice indexing vs. integer indexing

In [9]:
# Nuevamente, trabajamos con la matriz de 4x4
my_array = np.array([[11,12,13,14],
                     [21,22,23,24],
                     [31,32,33,34],
                     [41,42,43,44]])

# Sabemos que tiene una dimensión igual a 2 (rank 2)
print(my_array, '\n')
print(my_array.shape)

[[11 12 13 14]
 [21 22 23 24]
 [31 32 33 34]
 [41 42 43 44]] 

(4, 4)


In [10]:
# Cuando incorporamos la indexación por enteros (integer indexing), el resultado es una subregión con menor dimensión
subreg01 = my_array[2, :]

print(subreg01) # Nótese cómo los corchetes exteriores desaparecen
print(subreg01.shape)
print('subreg01 tiene una dimensión (rank) = ', len(subreg01.shape) , '\n')

[31 32 33 34]
(4,)
subreg01 tiene una dimensión (rank) =  1 



In [11]:
# En contraste, si sólo usáramos slice indexing, la subregión tendrá la misma dimensión que la matriz original
subreg02 = my_array[2:3, :]
print(subreg02)
print(subreg02.shape)
print('subreg02 tiene una dimensión (rank) = ', len(subreg02.shape) , '\n')

[[31 32 33 34]]
(1, 4)
subreg02 tiene una dimensión (rank) =  2 



In [12]:
# Lo anterior se hizo para renglones, pero igualmente se puede hacer para columnas
subreg03 = my_array[:, 2]
print(subreg03)
print(subreg03.shape)
print('subreg03 tiene una dimensión (rank) = ', len(subreg03.shape), '\n')

subreg04 = my_array[:, 2:3]
print(subreg04)
print(subreg04.shape)
print('subreg04 tiene una dimensión (rank) = ', len(subreg04.shape))


[13 23 33 43]
(4,)
subreg03 tiene una dimensión (rank) =  1 

[[13]
 [23]
 [33]
 [43]]
(4, 1)
subreg04 tiene una dimensión (rank) =  2


----

## Array indexing

La indexación por arrays (array indexing) es útil cuando queremos obtener o cambiar los elementos de una matrix en posiciones específicas

In [13]:
# Creamos una matriz de 4x4
my_array = np.array([[11,12,13,14],
                     [21,22,23,24],
                     [31,32,33,34],
                     [41,42,43,44]])
print('my_array (antes):\n',my_array, '\n')

#Supongamos que nos interesa modificar los elementos [1, 1], [3, 4] y [2, 3], 
# es decir, los elementos cuyos índices son [0, 0], [2, 3] y [1, 2]

# Creamos dos listas: una para los índices de los renglones y otra para los índices de las columnas
inds_reng = np.array([0, 2, 3])
inds_col = np.array([0, 3, 2])
print('índices de los renglones:', inds_reng)
print('índices de las columnas: ', inds_col, '\n')

print(f'El valor original en [{inds_reng[0]}, {inds_col[0]}] es {my_array[inds_reng[0], inds_col[0]]}')
print(f'El valor original en [{inds_reng[1]}, {inds_col[1]}] es {my_array[inds_reng[1], inds_col[1]]}')
print(f'El valor original en [{inds_reng[2]}, {inds_col[2]}] es {my_array[inds_reng[2], inds_col[2]]}')

# Emplearemos los arrays de los índices para cambiar los valores
my_array[inds_reng, inds_col] = -9
print('\nmy_array (después):\n', my_array)

my_array (antes):
 [[11 12 13 14]
 [21 22 23 24]
 [31 32 33 34]
 [41 42 43 44]] 

índices de los renglones: [0 2 3]
índices de las columnas:  [0 3 2] 

El valor original en [0, 0] es 11
El valor original en [2, 3] es 34
El valor original en [3, 2] es 43

my_array (después):
 [[-9 12 13 14]
 [21 22 23 24]
 [31 32 33 -9]
 [41 42 -9 44]]


-----

## Boolean indexing

La indexación booleana (boolean indexing) es útil cuando queremos obtener o cambiar elementos basándonos en su valor (en lugar de su posición)

In [14]:
my_array = np.array([[ 1, 2, 3, 4],
                     [ 5, 6, 7, 8],
                     [ 9,10,11,12],
                     [13,14,15,16]])
print('my_array:\n', my_array, '\n')

# Creamos un filtro para obtener los elementos que cumplan con ciertas condiciones
# Con este método, se crea un array booleano de las mismas dimensiones que el original
# Los valores que cumplan con la condición serán True (y los que no, False)
filter = (my_array < 10)
print('Nuestro filtro:\n', filter)

# ... y aplicamos el filtro a la matriz
print('\nLos valores filtrados (método 1): \n', my_array[filter])

# otra manera de aplicar el filtro sería hacerlo directamente
print('\nLos valores filtrados (método 2): \n', my_array[(my_array<10)])


my_array:
 [[ 1  2  3  4]
 [ 5  6  7  8]
 [ 9 10 11 12]
 [13 14 15 16]] 

Nuestro filtro:
 [[ True  True  True  True]
 [ True  True  True  True]
 [ True False False False]
 [False False False False]]

Los valores filtrados (método 1): 
 [1 2 3 4 5 6 7 8 9]

Los valores filtrados (método 2): 
 [1 2 3 4 5 6 7 8 9]


In [15]:
my_array = np.array([[ 1, 2, 3, 4],
                     [ 5, 6, 7, 8],
                     [ 9,10,11,12],
                     [13,14,15,16]])
print('my_array (antes):\n', my_array, '\n')

# Podemos usar los filtros para cambiar los valores de la matriz
# se les asigne un cero
my_array[my_array >10] = 0
print('my_array (después):\n', my_array, '\n')

my_array (antes):
 [[ 1  2  3  4]
 [ 5  6  7  8]
 [ 9 10 11 12]
 [13 14 15 16]] 

my_array (después):
 [[ 1  2  3  4]
 [ 5  6  7  8]
 [ 9 10  0  0]
 [ 0  0  0  0]] 



In [16]:
# También podemos usar múltiples condiciones en el filtro (por claridad, conviene usar paréntesis entre cada una)
my_array = np.array([[ 1, 2, 3, 4],
                     [ 5, 6, 7, 8],
                     [ 9,10,11,12],
                     [13,14,15,16]])
print('my_array (antes):\n', my_array, '\n')

# Filtramos todos los elementos que o son iguales a 1 o son mayores a 11
filter = (my_array == 1) | (my_array>11)

# A los valores que cumplan con la condición les asignamos un -9
my_array[filter] = -9

print('my_array (después):\n', my_array, '\n')

my_array (antes):
 [[ 1  2  3  4]
 [ 5  6  7  8]
 [ 9 10 11 12]
 [13 14 15 16]] 

my_array (después):
 [[-9  2  3  4]
 [ 5  6  7  8]
 [ 9 10 11 -9]
 [-9 -9 -9 -9]] 



In [17]:
# Un ejemplo más con múltiples condiciones...
# También podemos usar múltiples condiciones en el filtro (para hacerlo, hay que usar paréntesis entre cada una)
my_array = np.array([[ 1, 2, 3, 4],
                     [ 5, 6, 7, 8],
                     [ 9,10,11,12],
                     [13,14,15,16]])
print('my_array (antes):\n', my_array, '\n')

# Filtramos todos los elementos que son mayores que 5 y menores que 11
filter = (my_array < 11) & (my_array>5)

# A los valores que cumplan con la condición les asignamos un -9
my_array[filter] = -9

print('my_array (después):\n', my_array, '\n')

my_array (antes):
 [[ 1  2  3  4]
 [ 5  6  7  8]
 [ 9 10 11 12]
 [13 14 15 16]] 

my_array (después):
 [[ 1  2  3  4]
 [ 5 -9 -9 -9]
 [-9 -9 11 12]
 [13 14 15 16]] 

