# Los fundamentos de los arrays NumPy

La manipulación de datos en Python es casi sinónimo de manipulación de arrays en NumPy: incluso las herramientas más nuevas como Pandas ([Capítulo 3](03.00-Introducción-a-Pandas.ipynb)) están construidas alrededor de los arrays de NumPy.
Esta sección presentará varios ejemplos de uso de la manipulación de arrays de NumPy para acceder a los datos y a los subarrayados, y para dividir, remodelar y unir los arrays.
Si bien los tipos de operaciones que se muestran aquí pueden parecer un poco secos y pedantes, comprenden los bloques de construcción de muchos otros ejemplos utilizados a lo largo del libro.
¡Conócelas bien!

Cubriremos aquí algunas categorías de manipulaciones básicas de arrays:

- *Atributos de los arrays*: Determinar el tamaño, la forma, el consumo de memoria y los tipos de datos de los arrays
- *Indización de arrays*: Obtener y establecer el valor de los elementos individuales del array
- *Repartos de arrays*: Obtención y configuración de subarrays más pequeños dentro de un array más grande
- *Reformación de arrays*: Cambiar la forma de un array determinado
- *Unión y división de arrays*: Combinar varios arrays en una, y dividir un array en varias

## Atributos del array NumPy

Primero vamos a discutir algunos atributos útiles de los arrays.
Empezaremos definiendo tres arrays aleatorios, uno unidimensional, otro bidimensional y otro tridimensional.
Utilizaremos el generador de números aleatorios de NumPy, que *sembraremos* con un valor establecido para asegurar que se generen los mismos arrays aleatorios cada vez que se ejecute este código:

In [None]:
import numpy as np
np.random.seed(0)  # semilla para la reproducibilidad

x1 = np.random.randint(10, size=6)  # Array Unidimensional 
x2 = np.random.randint(10, size=(3, 4))  # Array Bidimensional
x3 = np.random.randint(10, size=(3, 4, 5))  # Array Tridimensional

Cada array tiene los atributos ``ndim`` (el número de dimensiones), ``shape`` (el tamaño de cada dimensión) y ``size`` (el tamaño total del array):

In [None]:
print("x3 ndim: ", x3.ndim)
print("x3 shape:", x3.shape)
print("x3 size: ", x3.size)

x3 ndim:  3
x3 shape: (3, 4, 5)
x3 size:  60


*Otro* atributo útil es el ``dtype``, el tipo de datos del array (del que ya hablamos en [Entendiendo los tipos de datos en Python](02.01-Comprensión-tipos-de-datos.ipynb)):

In [None]:
print("dtype:", x3.dtype)

dtype: int64


Otros atributos son ``itemsize``, que indica el tamaño (en bytes) de cada elemento del array, y ``nbytes``, que indica el tamaño total (en bytes) del array:

In [None]:
print("itemsize:", x3.itemsize, "bytes")
print("nbytes:", x3.nbytes, "bytes")

itemsize: 8 bytes
nbytes: 480 bytes


En general, esperamos que ``nbytes`` sea igual a ``itemsize`` por ``size``.

## Indexación de arrays: Acceso a elementos individuales

Si está familiarizado con la indexación de lists estándar de Python, la indexación en NumPy le resultará bastante familiar.
En un array unidimensional, se puede acceder al valor $i^{th}$ (contando desde cero) especificando el índice deseado entre corchetes, igual que con los lists de Python:

In [None]:
x1

array([5, 0, 3, 3, 7, 9])

In [None]:
x1[0]

5

In [None]:
x1[4]

7

Para indexar desde el final del array, puedes utilizar índices negativos:

In [None]:
x1[-1]

9

In [None]:
x1[-2]

7

En un array multidimensional, se puede acceder a los elementos utilizando una tupla de índices separada por comas:

In [None]:
x2

array([[3, 5, 2, 4],
       [7, 6, 8, 8],
       [1, 6, 7, 7]])

In [None]:
x2[0, 0]

3

In [None]:
x2[2, 0]

1

In [None]:
x2[2, -1]

7

Los valores también pueden modificarse utilizando cualquiera de las notaciones de índice anteriores:

In [None]:
x2[0, 0] = 12
x2

array([[12,  5,  2,  4],
       [ 7,  6,  8,  8],
       [ 1,  6,  7,  7]])

Tenga en cuenta que, a diferencia de ls lists de Python, los arrays de NumPy tienen un tipo fijo.
Esto significa, por ejemplo, que si intentas insertar un valor de punto flotante en un array de integers, el valor se truncará silenciosamente. No se deje sorprender por este comportamiento.

In [None]:
x1[0] = 3.14159  # ¡esto se truncará!
x1

array([3, 0, 3, 3, 7, 9])

## Array Slicing: Accediendo a subarrays

Al igual que podemos utilizar los corchetes para acceder a elementos individuales de un array, también podemos utilizarlos para acceder a sub-arrays con la notación *slice*, marcada por el carácter dos puntos (``:``).
La sintaxis de slicing de NumPy sigue la de la lista estándar de Python; para acceder a un trozo de un array ``x``, usa esto:
``` python
x[start:stop:step]
```
Si alguno de estos valores no se especifica, por defecto son ``start=0``, ``stop=``*``size of dimension``*, ``step=1``.
Veremos cómo acceder a las sub-arrays en una dimensión y en varias dimensiones.

### Subarrays unidimensionales

In [None]:
x = np.arange(10)
x

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [None]:
x[:5]  # primeros cinco elementos

array([0, 1, 2, 3, 4])

In [None]:
x[5:]  # elementos después del índice 5

array([5, 6, 7, 8, 9])

In [None]:
x[4:7]  # submatriz central

array([4, 5, 6])

In [None]:
x[::2]  # cualquier otro elemento

array([0, 2, 4, 6, 8])

In [None]:
x[1::2]  # cada dos elementos, empezando por el índice 1

array([1, 3, 5, 7, 9])

Un caso potencialmente confuso es cuando el valor de ``step`` es negativo.
En este caso, los valores por defecto de ``start`` y ``stop`` se intercambian.
Esto se convierte en una forma conveniente de invertir un array:

In [None]:
x[::-1]  # todos los elementos, invertidos

array([9, 8, 7, 6, 5, 4, 3, 2, 1, 0])

In [None]:
x[5::-2]  # se invierte cada dos desde el índice 5

array([5, 3, 1])

### Subarrays multidimensionales

Los subarrays multidimensionales funcionan de la misma manera, con varios subarrays separados por comas.
Por ejemplo:

In [None]:
x2

array([[3, 5, 2, 4],
       [7, 6, 8, 8],
       [1, 6, 7, 7]])

In [None]:
x2[:2, :3]  # dos filas, tres columnas

array([[12,  5,  2],
       [ 7,  6,  8]])

In [None]:
x2[:3, ::2]  # todas las filas, cada dos columnas

array([[12,  2],
       [ 7,  8],
       [ 1,  7]])

Por último, las dimensiones de las submatrices pueden incluso invertirse juntas:

In [None]:
x2[::-1, ::-1]

array([[ 7,  7,  6,  1],
       [ 8,  8,  6,  7],
       [ 4,  2,  5, 12]])

#### Acceso a filas y columnas de un array

Una de las rutinas más habituales es el acceso a filas o columnas individuales de un array.
Esto puede hacerse combinando la indexación y el corte, utilizando un corte vacío marcado con dos puntos (``:``):

In [None]:
print(x2[:, 0])  # primera columna de x2

[12  7  1]


In [None]:
print(x2[0, :])  # primera fila de x2

[12  5  2  4]


En el caso del acceso a las filas, se puede omitir el tramo vacío para obtener una sintaxis más compacta:

In [None]:
print(x2[0])  # equivalente a x2[0, :]

[12  5  2  4]


### Subarrays como vistas sin copia

Una cosa importante -y extremadamente útil- que hay que saber sobre los cortes de arrays es que devuelven *vistas* en lugar de *copias* de los datos del array.
Esta es un área en la que el corte de arrays de NumPy difiere del corte de lists de Python: en los lists, los cortes son copias.
Consideremos nuestro array bidimensional de antes:

In [None]:
print(x2)

[[12  5  2  4]
 [ 7  6  8  8]
 [ 1  6  7  7]]


Vamos a extraer un array de $2 \times 2$ de esto:

In [None]:
x2_sub = x2[:2, :2]
print(x2_sub)

[[12  5]
 [ 7  6]]


Ahora, si modificamos este subarray, ¡veremos que el array original ha cambiado! Observa:

In [None]:
x2_sub[0, 0] = 99
print(x2_sub)

[[99  5]
 [ 7  6]]


In [None]:
print(x2)

[[99  5  2  4]
 [ 7  6  8  8]
 [ 1  6  7  7]]


Este comportamiento por defecto es en realidad bastante útil: significa que cuando trabajamos con grandes conjuntos de datos, podemos acceder y procesar trozos de estos conjuntos de datos sin necesidad de copiar el buffer de datos subyacente.

### Creación de copias de arrays

A pesar de las buenas características de las vistas de arrays, a veces es útil copiar explícitamente los datos dentro de un array o un subarray. Esto se puede hacer fácilmente con el método ``copy()``:

In [None]:
x2_sub_copy = x2[:2, :2].copy()
print(x2_sub_copy)

[[99  5]
 [ 7  6]]


Si ahora modificamos este subarray, el array original no se ve afectada:

In [None]:
x2_sub_copy[0, 0] = 42
print(x2_sub_copy)

[[42  5]
 [ 7  6]]


In [None]:
print(x2)

[[99  5  2  4]
 [ 7  6  8  8]
 [ 1  6  7  7]]


## Transformación de arrays

Otro tipo de operación útil es la transformación de arrays.
La forma más flexible de hacer esto es con el método ``reshape``.
Por ejemplo, si quieres poner los números del 1 al 9 en un array de $3 \times 3$, puedes hacer lo siguiente:

In [None]:
grid = np.arange(1, 10).reshape((3, 3))
print(grid)

[[1 2 3]
 [4 5 6]
 [7 8 9]]


Ten en cuenta que para que esto funcione, el tamaño del array inicial debe coincidir con el tamaño del array remodelado. 
Siempre que sea posible, el método ``reshape`` utilizará una vista sin copia del array inicial, pero con buffers de memoria no contiguos no siempre es así.

Otro patrón común de remodelación es la conversión de un array unidimensional en un array  bidimensional de filas o columnas.
Esto puede hacerse con el método ``reshape``, o más fácilmente haciendo uso de la palabra clave ``newaxis`` dentro de una operación de slice:

In [None]:
x = np.array([1, 2, 3])

# vector de filas a través de reshape
x.reshape((1, 3))

array([[1, 2, 3]])

In [None]:
# vector fila a través de newaxis
x[np.newaxis, :]

array([[1, 2, 3]])

In [None]:
# vector de columnas mediante reshape
x.reshape((3, 1))

array([[1],
       [2],
       [3]])

In [None]:
# vector columna a través de newaxis
x[:, np.newaxis]

array([[1],
       [2],
       [3]])

Veremos este tipo de transformación con frecuencia a lo largo del resto del libro.

## Concatenación y división de arrays

Todas las rutinas anteriores han trabajado con arrays simples. También es posible combinar múltiples arrays en uno solo, y a la inversa, dividir un único array en múltiples arrays. Aquí veremos esas operaciones.

### Concatenación de arrays

La concatenación, o unión de dos arrays en NumPy, se realiza principalmente con las rutinas ``np.concatenate``, ``np.vstack``, y ``np.hstack``. toma una tupla o list de arrays como primer argumento, como podemos ver aquí:

In [None]:
x = np.array([1, 2, 3])
y = np.array([3, 2, 1])
np.concatenate([x, y])

array([1, 2, 3, 3, 2, 1])

También puedes concatenar más de dos matrices a la vez:

In [None]:
z = [99, 99, 99]
print(np.concatenate([x, y, z]))

[ 1  2  3  3  2  1 99 99 99]


También puede utilizarse para arrays bidimensionales:

In [None]:
grid = np.array([[1, 2, 3],
                 [4, 5, 6]])

In [None]:
# concatenar a lo largo del primer eje
np.concatenate([grid, grid])

In [None]:
# concatenar a lo largo del segundo eje (con índice cero)
np.concatenate([grid, grid], axis=1)

array([[9, 8, 7, 9, 8, 7],
       [6, 5, 4, 6, 5, 4]])

Para trabajar con arrays de dimensiones mixtas, puede ser más claro utilizar las funciones ``np.vstack`` (pila vertical) y ``np.hstack`` (pila horizontal):

In [None]:
x = np.array([1, 2, 3])
grid = np.array([[9, 8, 7],
                 [6, 5, 4]])

# apilar verticalmente los arrays
np.vstack([x, grid])

array([[1, 2, 3],
       [9, 8, 7],
       [6, 5, 4]])

In [None]:
# apilar horizontalmente los arrays
y = np.array([[99],
              [99]])
np.hstack([grid, y])

Del mismo modo, ``np.dstack`` apilará los arrays a lo largo del tercer eje.

### División de arrays

Lo contrario de la concatenación es la división, que se realiza con las funciones ``np.split``, ``np.hsplit``, y ``np.vsplit``.  Para cada una de ellas, podemos pasar un list de índices que dan los puntos de división:

In [None]:
x = [1, 2, 3, 99, 99, 3, 2, 1]
x1, x2, x3 = np.split(x, [3, 5])
print(x1, x2, x3)

[1 2 3] [99 99] [3 2 1]


Tenga en cuenta que *N* puntos de división, conduce a *N + 1* subarrays.
Las funciones relacionadas ``np.hsplit`` y ``np.vsplit`` son similares:

In [None]:
grid = np.arange(16).reshape((4, 4))
grid

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15]])

In [None]:
upper, lower = np.vsplit(grid, [2])
print(upper)
print(lower)

[[0 1 2 3]
 [4 5 6 7]]
[[ 8  9 10 11]
 [12 13 14 15]]


In [None]:
left, right = np.hsplit(grid, [2])
print(left)
print(right)

[[ 0  1]
 [ 4  5]
 [ 8  9]
 [12 13]]
[[ 2  3]
 [ 6  7]
 [10 11]
 [14 15]]


Del mismo modo, ``np.dsplit`` dividirá los arrays a lo largo del tercer eje.