### Indexado e iteración

Podemos seleccionar elementos individuales o rebanadas de un array de forma similar a como lo hacemos con las listas u otras secuencias en Python. La principal diferencia está en cómo seleccionar elementos en arrays de 2 o más dimensiones.

Para empezar, podemos seleccionar elementos indicando su posición en el array. Al igual que con las listas, al primer elemento de cada dimensión se accede con el índice de posición cero. Si una dimensión tiene N elementos, el último estará en la posición (N - 1).

> **¡Cuidado!** No confundas el número de dimensiones con el tamaño o número de elementos en cada dimensión del array.

In [2]:
#instalar numpy
#install numpy





print(sys.path)
import numpy as np

['c:\\Users\\alber\\OneDrive\\Documentos\\GitHub\\BigDataConPython\\Scripts Python\\Librerias\\numpy matrices', 'C:\\Users\\alber\\anaconda3\\python39.zip', 'C:\\Users\\alber\\anaconda3\\DLLs', 'C:\\Users\\alber\\anaconda3\\lib', 'C:\\Users\\alber\\anaconda3', '', 'C:\\Users\\alber\\anaconda3\\lib\\site-packages', 'C:\\Users\\alber\\anaconda3\\lib\\site-packages\\win32', 'C:\\Users\\alber\\anaconda3\\lib\\site-packages\\win32\\lib', 'C:\\Users\\alber\\anaconda3\\lib\\site-packages\\Pythonwin']


In [1]:
# Un array de dimensión 1 (vector)
v1 = np.arange(0, 50, 5)
print(v1)
# Podemos seleccionar un elemento individual
v1[2]                         # 10
# O seleccionar varios a la vez, 
# usando una lista de las posiciones que queremos
v1[[1, 4, 8]]                 # array([ 5, 20, 40])
# Ahora con una matriz 3x4
# Fíjate que usamos la función range() normal
# para pasar las listas que necesitamos
# al inicializar el array
m2 = np.array([range(0,4), range(4,8), range(8,12)])
print(m2)                    # [[ 0  1  2  3]
                             #  [ 4  5  6  7]
                             #  [ 8  9 10 11]]
                             
# Seleccionamos un elemento
# indicando la fila (2) y la columna (3)
m2[2, 3]                     # 11
# Seleccionamos los elementos en las filas 1 y 2
# Fíjate que usamos ':' para indicar que queremos
# todos los elementos en la dimensión 2 (columnas)
m2[[1,2], :]                 # array([[ 4,  5,  6,  7],
                             #        [ 8,  9, 10, 11]])
# Seleccionamos los elementos
# de la fila 1 en las columnas 2 y 3
m2[1, [2,3]]                 # array([6, 7])
Cuando tenemos un array de 2 o más dimensiones, debemos incluir entre los corchetes la selección de elementos para cada dimensión, separándolas con comas (p.ej. `m2[2, 3]`). Si en una dimensión queremos seleccionar _todos_ los elementos, utilizamos los dos puntos (`:`).

En realidad, los dos puntos sirven para indicar una _"rebanada"_ de elementos en un eje, igual que hacemos con cualquier secuencia en Python. También podemos seleccionar _"rebanadas"_ en cualquiera de las dimensiones o ejes de un array, indicando la posición inicial y final que queremos.

# Seleccionamos la fila 0
m2[0, :]                    # array([0, 1, 2, 3])
# Seleccionamos la columna 1
m2[:, 1]                    # array([1, 5, 9])
# Seleccionamos los elementos que están entre
# la fila 1 y la 3 (no incluida)
# y entre la columna 1 y la 3 (no incluida)
m2[1:3, 1:3]                # array([[ 5,  6],
                            #        [ 9, 10]])

NameError: name 'np' is not defined

También podemos utilizar una máscara booleana para seleccionar elementos. Esto es útil para poder filtrar aquellos valores que cumplen una determinada condición. Veamos cómo.


In [None]:
# Para cada elemento del array, comprobamos si es par o no
mascara_pares = (m2 % 2 == 0)
print(mascara_pares)        # [[ True False  True False]
                            #  [ True False  True False]
                            #  [ True False  True False]]
# Ahora usamos la mascara para seleccionar los elementos
m2[mascara_pares]           # array([ 0,  2,  4,  6,  8, 10])
# Naturalmente, podemos hacerlo todo en una sola expresión
m2[m2 % 2 == 0]             # array([ 0,  2,  4,  6,  8, 10])

[[ True False  True False]
 [ True False  True False]
 [ True False  True False]]


Fíjate que cuando indexamos con una máscara booleana, obtenemos un array unidimensional con los elementos seleccionados, no se conserva la estructura del array original.



### Manipulando _arrays_

Es posible generar nuevos arrays modificando o combinando arrays existentes. Podemos crear un array multidimensional a partir de un vector mediante la función `reshape()`, o podemos _aplanar_ el array multidimensional para obtener un vector usando la función `flatten()`.

In [None]:
# Partimos de un vector (array 1d)
v = np.arange(15)
print(v)                    # [ 0  1  2 ..., 12 13 14]
# Creamos una matriz (3x5) usando reshape()
m = v.reshape(3, 5)
print(m)                    # [[ 0  1  2  3  4]
                            #  [ 5  6  7  8  9]
                            #  [10 11 12 13 14]]
# Podemos obtener un nuevo vector
# "aplanando" todos elementos de la matriz,
# recorriendo fila tras fila
v2 = m.flatten()
print(v2)                   # [ 0  1  2 ..., 12 13 14]
# También podemos "aplanar" la matriz
# recorriendo columna tras columna
# usando el modificador "F"
v2c = m.flatten("F")
print(v2c)                  # [ 0  5 10 ...,  4  9 14]

[ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14]


Tanto `reshape()` como `flatten()` devuelven un array nuevo copiando los datos, no modifican el array original. Y si te preguntas el porqué de usar `"F"` como modificador de `flatten()`, viene del lenguaje de programación _Fortran_, que almacena y opera las matrices columna a columna.

Una operación típica con matrices es la trasposición, reflejando los elementos a lo largo de su diagonal.

In [10]:
m = np.arange(15).reshape(3, 5)
print(m)                    # [[ 0  1  2  3  4]
                            #  [ 5  6  7  8  9]
                            #  [10 11 12 13 14]]
# Trasponemos la matriz usando el método T
# Fijate que no necesita paréntesis
m.T                        # array([[ 0,  5, 10],
                           #        [ 1,  6, 11],
                           #        [ 2,  7, 12],
                           #        [ 3,  8, 13],
                           #        [ 4,  9, 14]])

NameError: name 'np' is not defined

También podemos concatenar o _apilar_ arrays en diferentes ejes.

In [None]:
m1 = np.arange(0,6).reshape(2, 3)
m2 = np.arange(10,16).reshape(2, 3)

# Apilar verticalmente dos arrays
np.vstack((m1, m2))        # array([[ 0,  1,  2],
                           #        [ 3,  4,  5],
                           #        [10, 11, 12],
                           #        [13, 14, 15]])
# Apilar horizontalmente dos arrays
np.hstack((m1, m2))        # array([[ 0,  1,  2, 10, 11, 12],
                           #        [ 3,  4,  5, 13, 14, 15]])
# Podemos añadir una fila (array 1d) al final de un array 2d
fila = np.array([30, 40, 60])
np.vstack((m1, fila))      # array([[ 0,  1,  2],
                           #        [ 3,  4,  5],
                           #        [30, 40, 60]])
# Si queremos añadir una columna (array 1d) a un array 2d,
# usamos la funcion np.column_stack()
columna = np.array([100, 200])
np.column_stack((m1, columna))   # array([[  0,   1,   2, 100],
                                 #        [  3,   4,   5, 200]])

array([[ 0,  1,  2],
       [ 3,  4,  5],
       [10, 11, 12],
       [13, 14, 15]])

In [None]:
m_grande = np.arange(12).reshape(3, 4)
print(m_grande)                # [[ 0  1  2  3]
                               #  [ 4  5  6  7]
                               #  [ 8  9 10 11]]

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]


In [None]:
# Dividimos el array horizontalmente en 2 trozos
divh = np.hsplit(m_grande, 2)
# El resultado es una lista, veamos el primer trozo
print(divh[0])                 # [[ 0,  1],
                               #  [ 4,  5],
                               #  [ 8,  9]])

[[0 1]
 [4 5]
 [8 9]]


In [None]:
# y el segundo
print(divh[1])                 # [[ 2  3]
                               #  [ 6  7]
                               #  [10 11]]

[[ 2  3]
 [ 6  7]
 [10 11]]


In [None]:
# Ahora dividimos verticalmente.
# No podemos dividir en 2 porque hay 3 filas.
# Pero podemos indicar los puntos de division con una tupla.
divv = np.vsplit(m_grande, (1,))
print(divv[0])                 # [[0 1 2 3]]

[[0 1 2 3]]


In [None]:
print(divv[1])                 # [[ 4  5  6  7]
                               #  [ 8  9 10 11]]

[[ 4  5  6  7]
 [ 8  9 10 11]]


Como ves, ambas funciones pueden usarse de dos formas. En la primera, indicamos el _número de particiones_ que queremos obtener. Es este caso, es necesario que el número de filas (con `np.vsplit()`) o de columnas (con `np.hsplit()`) sea divisible por el número de porciones que queremos. Los trozos resultantes deben tener el mismo tamaño, o de lo contrario se producirá un error.

En la segunda forma, pasamos como argumento una tupla con los _puntos de corte_ por donde queremos dividir, ya sea en filas o el columnas. En el ejemplo, queremos cortar por un único punto (fila en este caso), por lo que usamos una tupla con un único elemento. Si recuerdas lo que aprendimos sobre las tuplas, para definir una tupla de un solo elemento debemos añadir una coma justo detrás del valor (así Python lo puede distinguir de otras expresiones que también usan paréntesis).


### Operando con _arrays_

#### Asignaciones

Ahora que hemos visto cómo crear y manipular arrays, pasemos a operar con su contenido. Comencemos por modificar valores del array, usando el operador de asignación habitual.

In [None]:
m = np.arange(12).reshape(3, 4)
print(m)                # [[ 0  1  2  3]
                        #  [ 4  5  6  7]
                        #  [ 8  9 10 11]]

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]


In [None]:
# Cambiar un elemento particular
m[0, 0] = 100
print(m)                # [[ 100  1  2  3]
                        #  [   4  5  6  7]
                        #  [   8  9 10 11]]

[[100   1   2   3]
 [  4   5   6   7]
 [  8   9  10  11]]


In [None]:
# Podemos cambiar una "rebanada" con una lista de valores
# Ej. de la fila 1, desde la columna 1 hasta el final
#     (3 elementos)
m[1, 1:] = [50, 60, 70]
print(m)                # [[ 100   1   2   3]
                        #  [   4  50  60  70]
                        #  [   8   9  10  11]]

[[100   1   2   3]
 [  4  50  60  70]
 [  8   9  10  11]]


In [None]:
# O cambiar todos los elementos seleccionados
# con un único valor
# Ej. desde la fila 1 hasta el final 
#     y la columna 2 hasta el final
m[1:, 2:] = 0
print(m)                # [[100   1   2   3]
                        #  [  4  50   0   0]
                        #  [  8   9   0   0]]

[[100   1   2   3]
 [  4  50   0   0]
 [  8   9   0   0]]


#### Operaciones matemáticas

Como te hemos adelantado en el ejemplo inicial, una de las caracterísiticas claves que hace tan útil y potente a la librería NumPy es su habilidad para realizar operaciones directamente sobre arrays de datos de forma sencilla y eficiente. Los operadores matemáticos habituales pueden utilizarse con arrays directamente. Podemos operar con dos arrays, o bien con un array y un escalar. En ambos casos, las operaciones se realizan elemento a elemento.


In [None]:
v1 = np.array([2,5])
v2 = np.array([3,3])

m1 = np.array([1,2,3,4]).reshape(2,2)
m2 = np.array([3,5,7,11]).reshape(2,2)

In [None]:
# Podemos sumar un escalar a todos los elementos de un array
print( v1 + 3 )                        # [5 8]

[5 8]


In [None]:
print( m1 + 5 )                        # [[6 7]
                                       #  [8 9]]

[[6 7]
 [8 9]]


In [None]:
# O sumar dos arrays elemento a elemento
print( m1 + m2 )                       # [[ 4  7]

                                       #  [10 15]]

[[ 4  7]
 [10 15]]


In [None]:
# Resta de arrays
print( m2 - m1 )                       # [[2 3]
                                       #  [4 7]]

[[2 3]
 [4 7]]


In [None]:
# Multiplicación con escalar
# (no confundir con producto escalar de vectores/matrices)
m10 = 10 * m1
print(m10)                             # [[10 20]
                                       #  [30 40]]

[[10 20]
 [30 40]]


In [None]:
# Multiplicación de arrays
print(v1 * v2)                         # [ 6 15]

[ 6 15]


In [None]:
print(m1 * m2)                         # [[ 3 10]
                                       #  [21 44]]

[[ 3 10]
 [21 44]]


In [None]:
# División
print( m10 / m1 )                      # [[ 10.  10.]
                                       #  [ 10.  10.]]

[[10. 10.]
 [10. 10.]]


Fíjate que al aplicar estas operaciones elemento a elemento con dos arrays, ambos deben tener dimensiones de tamaño compatible. Es decir, vectores o matrices que tengan el mismo número de elementos en cada eje o dimensión.

No obstante, es posible combinar en estas operaciones dos arrays que tengan distinto número de dimensiones (por ejemplo, una matriz y un vector), siempre que la dimensión del menor tenga un tamaño compatible con el array de más dimensiones. Con un ejemplo seguro que queda más claro.


In [None]:
# array 1d: vector de dos elementos
v1 = np.array([2,5])

# array 1d: vector de tres elementos
v3 = np.array([3,3,3])

m1 = np.array([1,2,3,4]).reshape(2,2)     # array 2d: matriz 2x2
print(m1)                                 # [[1 2]
                                          #  [3 4]]

[[1 2]
 [3 4]]


In [None]:
# Multiplicar matriz (2d) por vector (1d)
# elemento a elemento
# Los tamaños de las dimensiones (matriz 2x2 y vector de tamaño 2)
# son compatibles
print( m1 * v1 )                          # [[ 2 10]
                                          #  [ 6 20]]

[[ 2 10]
 [ 6 20]]


In [None]:
# Es como si tuviéramos el vector v1 "apilado" dos veces...
mv1 = np.vstack((v1, v1))
print(mv1)                                # [[2 5]
                                          #  [2 5]]

[[2 5]
 [2 5]]


In [None]:
# ... y multiplicásemos las dos matrices
print( m1 * mv1 )                         # [[ 2 10]
                                          #  [ 6 20]]

[[ 2 10]
 [ 6 20]]


In [None]:
# Sin embargo, si mezclamos arrays con distinto número de dimensiones
# pero con tamaños no compatibles, se producirá un error
print( m1 * v3 )

# ValueError: operands could not be broadcast together with shapes (2,2) (3,) 

ValueError: operands could not be broadcast together with shapes (2,2) (3,) 

Cuando mezclamos dos arrays con diferente número de dimensiones en operaciones elemento a elemento, NumPy automáticamente toma el array de dimensión menor y replica la operación con cada dimensión del array mayor, como si fuera un bucle. 

Es equivalente a tomar el array menor y _extrusionar_ o _apilar_ sus valores a lo largo del eje que falte, hasta obtener un array compatible con el de dimensión mayor. Este mecanismo es conocido como _propagación_ o _broadcasting_.

Para que funcione, el tamaño del array de dimensión menor sigue teniendo que ser compatible con el mayor. En el último caso del ejemplo anterior, el vector `v3` tiene tamaño 3. Al aplicar el _broadcasting_, el último elemento de `v3` no tiene un par correspondiente en la matriz `m1`, así que no es posible aplicar la operación elemento a elemento.

Además de todos los operadores que has visto, con NumPy también tenemos disponibles múltiples funciones matemáticas universales para aplicarlas sobre arrays. Veamos algunas.

In [None]:
# Raíz cuadrada
print( np.sqrt(m1) )

[[1.         1.41421356]
 [1.73205081 2.        ]]


In [None]:
# Funciones trigonométricas: 
# Seno, coseno, tangente...
print( np.sin(m1) )

[[ 0.84147098  0.90929743]
 [ 0.14112001 -0.7568025 ]]


In [None]:
print( np.cos(m1) )

[[ 0.54030231 -0.41614684]
 [-0.9899925  -0.65364362]]


In [None]:
print( np.tan(m1) )

[[ 1.55740772 -2.18503986]
 [-0.14254654  1.15782128]]


In [None]:
# Logaritmo
print( np.log(m1) )

[[0.         0.69314718]
 [1.09861229 1.38629436]]


In [None]:
# Exponencial (e^x)
print( np.exp(m1) )

[[ 2.71828183  7.3890561 ]
 [20.08553692 54.59815003]]


Consulta la lista completa de funciones disponibles en https://docs.scipy.org/doc/numpy/reference/ufuncs.html#available-ufuncs