# Los conceptos básicos de las matrices NumPy

La manipulación de datos en Python es casi sinónimo de manipulación de matrices NumPy: incluso herramientas más nuevas como Pandas ([Parte 3](03.00-Introducción-a-Pandas.ipynb)) se basan en la matriz NumPy.
Este capítulo presentará varios ejemplos del uso de la manipulación de matrices NumPy para acceder a datos y subarreglos, y para dividir, remodelar y unir los arreglos.
Si bien los tipos de operaciones que se muestran aquí pueden parecer un poco áridos y pedantes, constituyen los componentes básicos de muchos otros ejemplos utilizados a lo largo del libro.
¡Conócelos bien!

Cubriremos algunas categorías de manipulaciones básicas de matrices aquí:

- *Atributos de las matrices*: Determinar el tamaño, la forma, el consumo de memoria y los tipos de datos de las matrices
- *Indexación de matrices*: obtener y configurar los valores de elementos individuales de la matriz
- *Corte de matrices*: Obtener y configurar subarreglos más pequeños dentro de un arreglo más grande
- *Reforma de matrices*: Cambiar la forma de una matriz determinada
- *Unir y dividir matrices*: combinar múltiples matrices en una y dividir una matriz en muchas

## Atributos de matriz NumPy

Primero, analicemos algunos atributos de matriz útiles.
Comenzaremos definiendo matrices aleatorias de una, dos y tres dimensiones.
Usaremos el generador de números aleatorios de NumPy, que *sembraremos* con un valor establecido para garantizar que se generen las mismas matrices aleatorias cada vez que se ejecuta este código:

In [1]:
import numpy as np
rng = np.random.default_rng(seed=1701)  # seed for reproducibility

x1 = rng.integers(10, size=6)  # one-dimensional array
x2 = rng.integers(10, size=(3, 4))  # two-dimensional array
x3 = rng.integers(10, size=(3, 4, 5))  # three-dimensional array

Cada matriz tiene atributos que incluyen `ndim` (el número de dimensiones), `shape` (el tamaño de cada dimensión), `size` (el tamaño total de la matriz) y `dtype` (el tipo de cada elemento):

In [2]:
print("x3 ndim: ", x3.ndim)
print("x3 shape:", x3.shape)
print("x3 size: ", x3.size)
print("dtype:   ", x3.dtype)

x3 ndim:  3
x3 shape: (3, 4, 5)
x3 size:  60
dtype:    int64


Para obtener más información sobre los tipos de datos, consulte [Comprensión de los tipos de datos en Python] (02.01-Understanding-Data-Types.ipynb).

## Indexación de matrices: acceso a elementos individuales

Si está familiarizado con la indexación de listas estándar de Python, la indexación en NumPy le resultará bastante familiar.
En una matriz unidimensional, se puede acceder al valor $i^{th}$ (contando desde cero) especificando el índice deseado entre corchetes, tal como con las listas de Python:

In [3]:
x1

array([9, 4, 0, 3, 8, 6])

In [4]:
x1[0]

9

In [5]:
x1[4]

8

Para indexar desde el final de la matriz, puede utilizar índices negativos:

In [6]:
x1[-1]

6

In [7]:
x1[-2]

8

En una matriz multidimensional, se puede acceder a los elementos mediante una tupla `(fila, columna)` separada por comas:

In [8]:
x2

array([[3, 1, 3, 7],
       [4, 0, 2, 3],
       [0, 0, 6, 9]])

In [9]:
x2[0, 0]

3

In [10]:
x2[2, 0]

0

In [11]:
x2[2, -1]

9

Los valores también se pueden modificar utilizando cualquiera de las notaciones de índice anteriores:

In [12]:
x2[0, 0] = 12
x2

array([[12,  1,  3,  7],
       [ 4,  0,  2,  3],
       [ 0,  0,  6,  9]])

Tenga en cuenta que, a diferencia de las listas de Python, las matrices NumPy tienen un tipo fijo.
Esto significa, por ejemplo, que si intenta insertar un valor de punto flotante en una matriz de enteros, el valor se truncará silenciosamente. ¡No se deje sorprender por este comportamiento!

In [13]:
x1[0] = 3.14159  # this will be truncated!
x1

array([3, 4, 0, 3, 8, 6])

## División de matrices: acceso a submatrices

Así como podemos usar corchetes para acceder a elementos de matriz individuales, también podemos usarlos para acceder a submatrices con la notación *slice*, marcada por el carácter de dos puntos (`:`).
La sintaxis de corte de NumPy sigue la de la lista estándar de Python; para acceder a una porción de una matriz `x`, use esto:
``` pitón
x[inicio:parada:paso]
```
Si alguno de estos no está especificado, su valor predeterminado es `inicio=0`, `stop=<tamaño de dimensión>`, `paso=1`.
Veamos algunos ejemplos de acceso a subarreglos en una dimensión y en múltiples dimensiones.

### Subarreglos unidimensionales

A continuación se muestran algunos ejemplos de acceso a elementos en subarreglos unidimensionales:

In [14]:
x1

array([3, 4, 0, 3, 8, 6])

In [15]:
x1[:3]  # first three elements

array([3, 4, 0])

In [16]:
x1[3:]  # elements after index 3

array([3, 8, 6])

In [17]:
x1[1:4]  # middle subarray

array([4, 0, 3])

In [18]:
x1[::2]  # every second element

array([3, 0, 8])

In [19]:
x1[1::2]  # every second element, starting at index 1

array([4, 3, 6])

Un caso potencialmente confuso es cuando el valor del "paso" es negativo.
En este caso, se intercambian los valores predeterminados de "iniciar" y "detener".
Esta se convierte en una forma conveniente de invertir una matriz:

In [20]:
x1[::-1]  # all elements, reversed

array([6, 8, 3, 0, 4, 3])

In [21]:
x1[4::-2]  # every second element from index 4, reversed

array([8, 0, 3])

### Subarreglos multidimensionales

Los sectores multidimensionales funcionan de la misma manera, con varios sectores separados por comas.
Por ejemplo:

In [22]:
x2

array([[12,  1,  3,  7],
       [ 4,  0,  2,  3],
       [ 0,  0,  6,  9]])

In [23]:
x2[:2, :3]  # first two rows & three columns

array([[12,  1,  3],
       [ 4,  0,  2]])

In [24]:
x2[:3, ::2]  # three rows, every second column

array([[12,  3],
       [ 4,  2],
       [ 0,  6]])

In [25]:
x2[::-1, ::-1]  # all rows & columns, reversed

array([[ 9,  6,  0,  0],
       [ 3,  2,  0,  4],
       [ 7,  3,  1, 12]])

#### Accediendo a filas y columnas de una matriz

Una rutina comúnmente necesaria es acceder a filas o columnas individuales de una matriz.
Esto se puede hacer combinando indexación y división, usando una división vacía marcada por dos puntos (`:`):

In [26]:
x2[:, 0]  # first column of x2

array([12,  4,  0])

In [27]:
x2[0, :]  # first row of x2

array([12,  1,  3,  7])

En el caso del acceso a filas, el segmento vacío se puede omitir para lograr una sintaxis más compacta:

In [28]:
x2[0]  # equivalent to x2[0, :]

array([12,  1,  3,  7])

### Subarreglos como vistas sin copia

A diferencia de los sectores de la lista de Python, los sectores de la matriz NumPy se devuelven como *vistas* en lugar de *copias* de los datos de la matriz.
Considere nuestra matriz bidimensional de antes:

In [29]:
print(x2)

[[12  1  3  7]
 [ 4  0  2  3]
 [ 0  0  6  9]]


Extraigamos un subarreglo $2 \times 2$ de esto:

In [30]:
x2_sub = x2[:2, :2]
print(x2_sub)

[[12  1]
 [ 4  0]]


Ahora, si modificamos este subarreglo, ¡veremos que el arreglo original cambia! Observar:

In [31]:
x2_sub[0, 0] = 99
print(x2_sub)

[[99  1]
 [ 4  0]]


In [32]:
print(x2)

[[99  1  3  7]
 [ 4  0  2  3]
 [ 0  0  6  9]]


Algunos usuarios pueden encontrar esto sorprendente, pero puede ser ventajoso: por ejemplo, cuando trabajamos con grandes conjuntos de datos, podemos acceder y procesar partes de estos conjuntos de datos sin la necesidad de copiar el búfer de datos subyacente.

### Creando copias de matrices

A pesar de las buenas características de las vistas de matriz, a veces es útil copiar explícitamente los datos dentro de una matriz o submatriz. Esto se puede hacer más fácilmente con el método "copiar":

In [33]:
x2_sub_copy = x2[:2, :2].copy()
print(x2_sub_copy)

[[99  1]
 [ 4  0]]


Si ahora modificamos este subarreglo, el arreglo original no se toca:

In [34]:
x2_sub_copy[0, 0] = 42
print(x2_sub_copy)

[[42  1]
 [ 4  0]]


In [35]:
print(x2)

[[99  1  3  7]
 [ 4  0  2  3]
 [ 0  0  6  9]]


## Remodelación de matrices

Otro tipo de operación útil es la remodelación de matrices, que se puede realizar con el método "reshape".
Por ejemplo, si desea colocar los números del 1 al 9 en una cuadrícula de $3 \times 3$, puede hacer lo siguiente:

In [36]:
grid = np.arange(1, 10).reshape(3, 3)
print(grid)

[[1 2 3]
 [4 5 6]
 [7 8 9]]


Tenga en cuenta que para que esto funcione, el tamaño de la matriz inicial debe coincidir con el tamaño de la matriz remodelada y, en la mayoría de los casos, el método `reshape` devolverá una vista sin copia de la matriz inicial.

Una operación de remodelación común es convertir una matriz unidimensional en una matriz de filas o columnas bidimensional:

In [37]:
x = np.array([1, 2, 3])
x.reshape((1, 3))  # row vector via reshape

array([[1, 2, 3]])

In [38]:
x.reshape((3, 1))  # column vector via reshape

array([[1],
       [2],
       [3]])

Una abreviatura conveniente para esto es usar `np.newaxis` en la sintaxis de corte:

In [39]:
x[np.newaxis, :]  # row vector via newaxis

array([[1, 2, 3]])

In [40]:
x[:, np.newaxis]  # column vector via newaxis

array([[1],
       [2],
       [3]])

Este es un patrón que utilizaremos con frecuencia a lo largo del resto del libro.

## Concatenación y división de matrices

Todas las rutinas anteriores funcionaron en matrices individuales. NumPy también proporciona herramientas para combinar varias matrices en una y, a la inversa, dividir una única matriz en varias matrices.

### Concatenación de matrices

La concatenación, o unión de dos matrices en NumPy, se logra principalmente utilizando las rutinas `np.concatenate`, `np.vstack` y `np.hstack`.
`np.concatenate` toma una tupla o lista de matrices como primer argumento, como puedes ver aquí:

In [41]:
x = np.array([1, 2, 3])
y = np.array([3, 2, 1])
np.concatenate([x, y])

array([1, 2, 3, 3, 2, 1])

También puedes concatenar más de dos matrices a la vez:

In [42]:
z = np.array([99, 99, 99])
print(np.concatenate([x, y, z]))

[ 1  2  3  3  2  1 99 99 99]


Y se puede utilizar para matrices bidimensionales:

In [43]:
grid = np.array([[1, 2, 3],
                 [4, 5, 6]])

In [44]:
# concatenate along the first axis
np.concatenate([grid, grid])

array([[1, 2, 3],
       [4, 5, 6],
       [1, 2, 3],
       [4, 5, 6]])

In [45]:
# concatenate along the second axis (zero-indexed)
np.concatenate([grid, grid], axis=1)

array([[1, 2, 3, 1, 2, 3],
       [4, 5, 6, 4, 5, 6]])

Para trabajar con matrices de dimensiones mixtas, puede resultar más claro utilizar las funciones `np.vstack` (pila vertical) y `np.hstack` (pila horizontal):

In [46]:
# vertically stack the arrays
np.vstack([x, grid])

array([[1, 2, 3],
       [1, 2, 3],
       [4, 5, 6]])

In [47]:
# horizontally stack the arrays
y = np.array([[99],
              [99]])
np.hstack([grid, y])

array([[ 1,  2,  3, 99],
       [ 4,  5,  6, 99]])

De manera similar, para matrices de dimensiones superiores, `np.dstack` apilará las matrices a lo largo del tercer eje.

### División de matrices

Lo opuesto a la concatenación es la división, que se implementa mediante las funciones `np.split`, `np.hsplit` y `np.vsplit`.  Para cada uno de estos, podemos pasar una lista de índices que den los puntos de división:

In [48]:
x = [1, 2, 3, 99, 99, 3, 2, 1]
x1, x2, x3 = np.split(x, [3, 5])
print(x1, x2, x3)

[1 2 3] [99 99] [3 2 1]


Observe que *N* puntos de división conducen a *N* + 1 subarreglos.
Las funciones relacionadas `np.hsplit` y `np.vsplit` son similares:

In [49]:
grid = np.arange(16).reshape((4, 4))
grid

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15]])

In [50]:
upper, lower = np.vsplit(grid, [2])
print(upper)
print(lower)

[[0 1 2 3]
 [4 5 6 7]]
[[ 8  9 10 11]
 [12 13 14 15]]


In [51]:
left, right = np.hsplit(grid, [2])
print(left)
print(right)

[[ 0  1]
 [ 4  5]
 [ 8  9]
 [12 13]]
[[ 2  3]
 [ 6  7]
 [10 11]
 [14 15]]


De manera similar, para matrices de dimensiones superiores, `np.dsplit` dividirá las matrices a lo largo del tercer eje.