# La base de NumPy - ndarray

Toda la libería de NumPy se articula alrededor de una única estructura de datos: la matriz multidimensional o ndarray (N-dimensional array).<br/>

### Características básicas de ndarray

<ul>
<li>Un ndarray puede contener elementos de <b>CUALQUIER TIPO</b></li>
<li>Todos los elementos de un ndarray deben tener <b>EL MISMO TIPO</b>.</li>
<li>El tamaño de un ndarray (número de elementos) se define en el momento de la creación y no puede modificarse.</li>
<li>Pero la organización de esos elementos entre diferentes dimensiones sí puede modificarse</li>
</ul>

### Uso básico de cualquier elemento de NumPy

Hay que recordar que NumPy no es un módulo del core de Python por lo que SIEMPRE habrá que importarlo de forma completa o componente a componente.

In [2]:
import numpy as np

### Creación básica de ndarrays

Existen varias formas de crear un ndarray en NumPy. Vamos a ver las más relevantes.

#### Creación de un ndarray vacío

In [47]:
# Especificando dimensiones
array_vacio = np.empty((2, 3))
array_vacio

array([[0., 0., 0.],
       [0., 0., 0.]])

In [33]:
# Copiando dimensiones y tipo desde otra estructura tipo de dato también
array_vacio_copia = np.empty_like([[1, 2, 3, 4, 5],[1, 2, 3, 4, 5]])
array_vacio_copia

array([[         0, 1072693248,          0, 1072693248,          0],
       [1072693248,          0, 1072693248,          0, 1072693248]])

#### Creación de un ndarray de unos

In [26]:
# Especificando dimensiones
array_unos = np.ones((2, 2))
array_unos

array([[1., 1.],
       [1., 1.]])

In [29]:
# Copiando dimensiones y tipo desde otra estructura
array_unos_copia = np.ones_like([1, 2, 3, 4, 5])
array_unos_copia

array([1, 1, 1, 1, 1])

#### Creación de un ndarray de ceros

In [30]:
# Especificando dimensiones
array_ceros = np.zeros((2, 2))
array_ceros

array([[0., 0.],
       [0., 0.]])

In [35]:
# Copiando dimensiones y tipo desde otra estructura
array_ceros_copia = np.zeros_like([1, 2, 3, 4, 5])
array_ceros_copia

array([0, 0, 0, 0, 0])

#### Creación de un ndarray con la matriz identidad

In [38]:
array_identidad = np.identity(4)
array_identidad

array([[1., 0., 0., 0.],
       [0., 1., 0., 0.],
       [0., 0., 1., 0.],
       [0., 0., 0., 1.]])

#### Creación de un ndarray con unos en una de las diagonales

In [37]:
# Cuadrada con unos en la diagonal principal
array_identidad = np.eye(4)
array_identidad

array([[1., 0., 0., 0.],
       [0., 1., 0., 0.],
       [0., 0., 1., 0.],
       [0., 0., 0., 1.]])

In [44]:
# Cuadrada con unos en la diagonal especificada
array_con_segunda_diagonal = np.eye(4, k = 1)
array_con_segunda_diagonal

array([[0., 1., 0., 0.],
       [0., 0., 1., 0.],
       [0., 0., 0., 1.],
       [0., 0., 0., 0.]])

In [45]:
# No cuadrada con unos en la diagonal especificada
array_no_cuadrado = np.eye(4, 3, k = -1)
array_no_cuadrado

array([[0., 0., 0.],
       [1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

#### Creación de un ndarray cuyos elementos son una secuencia numérica

In [48]:
# Un parámetro: desde 0 (incluido) hasta el valor indicado (no incluido)
array_secuencia_1 = np.arange(10)
array_secuencia_1

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [49]:
# Dos parámetros: desde el primer valor (incluido) hasta el segundo valor (no incluido)
array_secuencia_2 = np.arange(5, 10)
array_secuencia_2

array([5, 6, 7, 8, 9])

In [50]:
# Tres parámetros: desde el primer valor (incluido) hasta el segundo (no incluido) con saltos del tercer valor
array_secuencia_3 = np.arange(5, 20, 2)
array_secuencia_3

array([ 5,  7,  9, 11, 13, 15, 17, 19])

#### Creación de un ndarray a partir de una secuencia básica de Python

In [54]:
# Unidimensional
array_basico = np.array([1, 2, 3, 4, 5])
array_basico

array([1, 2, 3, 4, 5])

In [55]:
# Multidimensional
array_basico_multidimensional = np.array([[1, 2, 3, 4], [5, 6, 7, 8]])
array_basico_multidimensional

array([[1, 2, 3, 4],
       [5, 6, 7, 8]])

### Tipos de dato en ndarrays de NumPy

<ul>
<li><b>Enteros con signo:</b> np.int8, np.int16, np.int32 y np.int64</li>
<li><b>Enteros sin signo:</b> np.uint8, np.uint16, np.uint32 y np.uint64</li>
<li><b>Números en coma flotante:</b> np.float16, np.float32, np.float64, np.float128</li>
<li><b>Booleanos:</b> np.bool</li>
<li><b>Objetos:</b> np.object</li>
<li><b>Cadenas de caracteres:</b> np.string\_, np.unicode\_</li>
<li>...</li>
</ul>

### Especificación/Casting/Conversión de tipos entre ndarrays

In [64]:
array_inicial_enteros = np.array([1, 2, 3, 4, 5], dtype=np.int32)
array_inicial_enteros

array([1, 2, 3, 4, 5])

In [65]:
array_float = np.asarray(array_inicial_enteros, dtype=np.float64)
array_float

array([1., 2., 3., 4., 5.])

In [66]:
array_strings = np.asarray(array_float, dtype=np.unicode_)
array_strings

array(['1.0', '2.0', '3.0', '4.0', '5.0'], dtype='<U32')

### Consulta de la composición de un ndarray

<ul>
<li><b>dtype</b>: Tipo del contenido del ndarray.</li>
<li><b>ndim</b>: Número de dimensiones/ejes del ndarray.</li>
<li><b>shape</b>: Estructura/forma del ndarray, es decir, número de elementos en cada uno de los ejes/dimensiones.</li>
<li><b>size</b>: Número total de elementos en el ndarray.</li>
</ul>

In [67]:
array = np.array([[1, 2, 3, 4], [5, 6, 7, 8], [9, 10, 11, 12]])

In [68]:
# Tipo de dato (único)
array.dtype

dtype('int32')

In [69]:
# Número de dimensiones
array.ndim

2

In [70]:
# Forma/Dimensiones
array.shape

(3, 4)

In [71]:
# Número total de elementos
array.size

12

### Operaciones aritméticas entre ndarrays y escalares

In [74]:
array = np.array([1, 2, 3, 4, 5, 6], dtype=np.float64)
array

array([1., 2., 3., 4., 5., 6.])

In [75]:
# Suma
array + 5

array([ 6.,  7.,  8.,  9., 10., 11.])

In [76]:
# Resta
array - 2

array([-1.,  0.,  1.,  2.,  3.,  4.])

In [77]:
# Multiplicación
array * 3

array([ 3.,  6.,  9., 12., 15., 18.])

In [78]:
# División
1 / array

array([1.        , 0.5       , 0.33333333, 0.25      , 0.2       ,
       0.16666667])

In [79]:
# División entera
array // 2

array([0., 1., 1., 2., 2., 3.])

In [80]:
# Potencia
array ** 2

array([ 1.,  4.,  9., 16., 25., 36.])

In [81]:
# Asignación con operador
array += 1
array

array([2., 3., 4., 5., 6., 7.])

### Operaciones aritméticas entre ndarrays

<b>IMPORTANTE:</b> Los dos términos de la operación tienen que ser ndarrays de las mismas dimensiones y forma. Se aplica la operación elemento a elemento.

In [82]:
array = np.array([1, 2, 3, 4, 5, 6], dtype=np.float64)

In [83]:
# Suma (elemento a elmento)
array + array

array([ 2.,  4.,  6.,  8., 10., 12.])

In [84]:
# Resta (elemento a elmento)
array - array

array([0., 0., 0., 0., 0., 0.])

In [85]:
# Multiplicación (elemento a elmento)
array * array

array([ 1.,  4.,  9., 16., 25., 36.])

In [86]:
# División (elemento a elmento)
array / array

array([1., 1., 1., 1., 1., 1.])

In [87]:
# Asignación con operador
array += array
array

array([ 2.,  4.,  6.,  8., 10., 12.])

In [88]:
# Suma de ndarrays de distinto tamaño
array1 = np.array([1, 2, 3, 4, 5])
array + array1

ValueError: operands could not be broadcast together with shapes (6,) (5,) 

### Indexación y slicing básico

En ndarrays unidimensionales el funcionamiento es idéntico al que se tiene en secuencias básicas de Python. Es decir, se utiliza la indexación [a:b:c].

In [91]:
array = np.arange(1, 11)
array

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10])

In [92]:
# Indexación con primer parámetro
array[2]

3

In [93]:
# Indexación con primer y segundo parámetro
array[2:5]

array([3, 4, 5])

In [94]:
# Indexación con tercer parámetro
array[::2]

array([1, 3, 5, 7, 9])

In [95]:
# Indexación con negativos
array[::-1]

array([10,  9,  8,  7,  6,  5,  4,  3,  2,  1])

En ndarrays multidimensionales, existen dos posibles formas de realizar el acceso:<br/>
<ul>
<li><b>Mediante indexación recursiva:</b> array[a:b:c en dim_1][a:b:c en dim_2]...[a:b:c en dim_n]</li>
<li><b>Mediante indexación con comas:</b> array[a:b:c en dim_1, a:b:c en dim_2, ...a:b:c en dim_n]</li>
</ul>

In [96]:
array = np.array([[[1, 2, 3, 4], [5, 6, 7, 8]], [[9, 10, 11, 12], [13, 14, 15, 16]]])
array

array([[[ 1,  2,  3,  4],
        [ 5,  6,  7,  8]],

       [[ 9, 10, 11, 12],
        [13, 14, 15, 16]]])

In [97]:
# Forma de la matriz
array.shape

(2, 2, 4)

In [98]:
# Indexación recursiva primer nivel
array[1]

array([[ 9, 10, 11, 12],
       [13, 14, 15, 16]])

In [99]:
# Indexación recursiva segundo nivel
array[1][0]

array([ 9, 10, 11, 12])

In [100]:
# Indexación recursiva tercer nivel
array[1][0][3]

12

In [101]:
# Indexación con comas segundo nivel
array[1, 0]

array([ 9, 10, 11, 12])

In [102]:
# Indexación con comas tercer nivel
array[1, 0, 3]

12

In [103]:
# Indexación recursiva tercer nivel con slice
array[0][0][:2]

array([1, 2])

In [104]:
# Indexación recursiva tercer nivel con slice de índice negativo
array[1][0][::-1]

array([12, 11, 10,  9])

Del mismo modo a como ocurre en Python básico, se puede utilizar la indexación/slicing para modificar secciones del contenido de un ndarray.

In [105]:
array = np.array([[1, 2, 3, 4],[5, 6, 7, 8]])

In [106]:
# Modificación de una posición
array[0][1] = 50
array

array([[ 1, 50,  3,  4],
       [ 5,  6,  7,  8]])

In [107]:
# Modificación de un slice
array[0][::2] = 30
array

array([[30, 50, 30,  4],
       [ 5,  6,  7,  8]])

### Indexación y slicing booleano

In [108]:
personas = np.array(['Miguel', 'Pedro', 'Juan', 'Miguel'])
personas

array(['Miguel', 'Pedro', 'Juan', 'Miguel'], dtype='<U6')

In [111]:
datos = np.random.randn(4, 4)
datos

array([[-0.78098983, -0.59597113,  0.07811599, -0.61721554],
       [ 0.12620244,  0.34956838, -0.08691382, -2.04366345],
       [ 0.82811408, -1.17403786,  1.19345296,  0.0322378 ],
       [ 0.37234626,  2.05520447, -0.00958075,  0.27683998]])

In [114]:
#ejemplito condiciones matrices
datos < 0

array([[ True,  True, False,  True],
       [False, False,  True,  True],
       [False,  True, False, False],
       [False, False,  True, False]])

In [112]:
# Indexación/slicing booleano sobre valores
datos[datos < 0]

array([-0.78098983, -0.59597113, -0.61721554, -0.08691382, -2.04366345,
       -1.17403786, -0.00958075])

In [116]:
#En Python tiene preferencia el & sobre operadores (por eso los parentesis)
# Indexación/slicing booleano (múltiple) sobre valores (AND)
datos[(datos < 0) & (datos > -0.5)]

array([-0.08691382, -0.00958075])

In [117]:
# Indexación/slicing booleano (múltiple) sobre valores (OR)
datos[(datos < 0) | (datos > -0.5)]

array([-0.78098983, -0.59597113,  0.07811599, -0.61721554,  0.12620244,
        0.34956838, -0.08691382, -2.04366345,  0.82811408, -1.17403786,
        1.19345296,  0.0322378 ,  0.37234626,  2.05520447, -0.00958075,
        0.27683998])

In [118]:
# Máscara booleana
personas == 'Miguel'

array([ True, False, False,  True])

In [120]:
datos

array([[-0.78098983, -0.59597113,  0.07811599, -0.61721554],
       [ 0.12620244,  0.34956838, -0.08691382, -2.04366345],
       [ 0.82811408, -1.17403786,  1.19345296,  0.0322378 ],
       [ 0.37234626,  2.05520447, -0.00958075,  0.27683998]])

In [124]:
# Indexación/slicing mediante máscara    #como en las filas 0 y 3 son True, te coge esas
datos[personas == 'Miguel']

array([[-0.78098983, -0.59597113,  0.07811599, -0.61721554],
       [ 0.37234626,  2.05520447, -0.00958075,  0.27683998]])

In [122]:
# Indexación/slicing mediante máscara y básico combinado
datos[personas == 'Miguel', ::2]

array([[-0.78098983,  0.07811599],
       [ 0.37234626, -0.00958075]])

In [125]:
# Indexación/slicing mediante máscara negativo por operador
datos[personas != 'Miguel']

array([[ 0.12620244,  0.34956838, -0.08691382, -2.04366345],
       [ 0.82811408, -1.17403786,  1.19345296,  0.0322378 ]])

In [126]:
# Indexación/slicing mediante máscara negativa por signo
datos[~(personas == 'Miguel')]

array([[ 0.12620244,  0.34956838, -0.08691382, -2.04366345],
       [ 0.82811408, -1.17403786,  1.19345296,  0.0322378 ]])

De nuevo, podemos utilizar indexación/slicing booleano para realizar modificaciones sobre el contenido de un ndarray.

In [127]:
array = np.random.randn(7, 4)
array

array([[-0.2032269 ,  0.73707845, -0.79023421, -0.81913702],
       [ 0.70291433, -0.19506891, -0.92095802,  0.4409519 ],
       [ 0.96928735, -0.07445931, -0.8513781 , -0.69116114],
       [-0.05591941, -1.02640306,  0.73285558,  0.37789196],
       [ 0.12546711,  0.01980058, -0.57146613,  0.17738913],
       [ 0.4245325 , -0.54081055,  0.65926967, -0.37083876],
       [ 0.71755432,  0.97582119, -1.9755162 , -1.15938936]])

In [128]:
# Eliminación de valores negativos mediante slicing
array[array < 0] = 0
array

array([[0.        , 0.73707845, 0.        , 0.        ],
       [0.70291433, 0.        , 0.        , 0.4409519 ],
       [0.96928735, 0.        , 0.        , 0.        ],
       [0.        , 0.        , 0.73285558, 0.37789196],
       [0.12546711, 0.01980058, 0.        , 0.17738913],
       [0.4245325 , 0.        , 0.65926967, 0.        ],
       [0.71755432, 0.97582119, 0.        , 0.        ]])

### Indexación y slicing basado en secuencias de enteros - Fancy indexing

In [129]:
array = np.empty((8, 4))
for i in range(8):
    array[i] = i
array    

array([[0., 0., 0., 0.],
       [1., 1., 1., 1.],
       [2., 2., 2., 2.],
       [3., 3., 3., 3.],
       [4., 4., 4., 4.],
       [5., 5., 5., 5.],
       [6., 6., 6., 6.],
       [7., 7., 7., 7.]])

In [130]:
# Indexación/slicing de un conjunto (arbitrario) de elementos
array[[2, 5]]

array([[2., 2., 2., 2.],
       [5., 5., 5., 5.]])

In [132]:
array[[2,5],[1,3]]

array([2., 5.])

In [133]:
# Indexación/slicing de un conjunto (arbitrario) de elementos (índices negativos)
array[[-2, -5]]

array([[6., 6., 6., 6.],
       [3., 3., 3., 3.]])

También podemos indexar de manera arbitraria en múltiples dimensiones, utilizando para ello, una secuencia de enteros por cada dimensión. El resultado será la combinación de secuencias.

In [134]:
array = np.arange(32).reshape((8, 4))
array

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15],
       [16, 17, 18, 19],
       [20, 21, 22, 23],
       [24, 25, 26, 27],
       [28, 29, 30, 31]])

In [135]:
# Indexación/slicing con una secuencia de varios niveles (elemento a elemento)
array[[1, 5, 7, 2], [0, 3, 1, 2]]

array([ 4, 23, 29, 10])

In [137]:
array[[1,5,7,2]]

array([[ 4,  5,  6,  7],
       [20, 21, 22, 23],
       [28, 29, 30, 31],
       [ 8,  9, 10, 11]])

In [136]:
# Indexación/slicing con una secuencia de varios niveles (región resultante)
array[[1, 5, 7, 2]][:, [0, 3, 1, 2]]

array([[ 4,  7,  5,  6],
       [20, 23, 21, 22],
       [28, 31, 29, 30],
       [ 8, 11,  9, 10]])

### Trasposición y modificación de ejes/dimensiones

In [138]:
array = np.arange(15)
array

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14])

In [139]:
# Modificación de ejes/dimensiones
array = array.reshape(3, 5)
array

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

In [140]:
# Trasposición de ejes/dimensiones"
array.T

array([[ 0,  5, 10],
       [ 1,  6, 11],
       [ 2,  7, 12],
       [ 3,  8, 13],
       [ 4,  9, 14]])

### Concatenación de ndarrays

NumPy ofrece la posibilidad de combinar ndarrays de dos formas posibles:<br/>
<ul>
<li><b>concatenate:</b> Concatenación de arrays especificando la dirección.</li>
</ul>

Las siguientes funciones se pueden seguir usando para concatenar sin tener que especificar dirección pero su uso está desaconsejado ya que han sido marcadas como DEPRECATED (se eliminarán en sucesivas versiones de numpy):<br/>
<ul>
<li><b>hstack, column_stack:</b> Los elementos del segundo array se añaden a los del primero a lo ancho.</li>
<li><b>vstack, row_stack:</b> Los elementos del segundo array se añaden a los del primero a lo largo.</li>
</ul>

In [141]:
array1 = np.arange(15).reshape(3, 5)
array1

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

In [142]:
array2 = np.arange(15, 30).reshape(3, 5)
array2

array([[15, 16, 17, 18, 19],
       [20, 21, 22, 23, 24],
       [25, 26, 27, 28, 29]])

In [143]:
# Concatenación horizontal
np.concatenate([array1, array2], axis = 1)

array([[ 0,  1,  2,  3,  4, 15, 16, 17, 18, 19],
       [ 5,  6,  7,  8,  9, 20, 21, 22, 23, 24],
       [10, 11, 12, 13, 14, 25, 26, 27, 28, 29]])

In [144]:
# Concatenación vertical
np.concatenate([array1, array2], axis = 0)

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14],
       [15, 16, 17, 18, 19],
       [20, 21, 22, 23, 24],
       [25, 26, 27, 28, 29]])

In [145]:
# Concatenación horizontal
np.hstack((array1, array2))

array([[ 0,  1,  2,  3,  4, 15, 16, 17, 18, 19],
       [ 5,  6,  7,  8,  9, 20, 21, 22, 23, 24],
       [10, 11, 12, 13, 14, 25, 26, 27, 28, 29]])

In [146]:
# Concatenación vertical
np.vstack((array1, array2))

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14],
       [15, 16, 17, 18, 19],
       [20, 21, 22, 23, 24],
       [25, 26, 27, 28, 29]])

### División de ndarrays

Al igual que para la concatenación, NumPy permite dividir los ndarray de tres formas distintas:<br/>
<ul>
<li><b>hsplit:</b> División de arrays en n partes "iguales" por columnas.</li>
<li><b>vsplit:</b> División de arrays en n partes "iguales" por filas.</li>
<li><b>split:</b> División de arrays en n partes no simétricas.</li>
</ul>

In [147]:
array = np.arange(16).reshape(4, 4)
array

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15]])

In [148]:
# División simétrica por columnas
np.hsplit(array, 2)

[array([[ 0,  1],
        [ 4,  5],
        [ 8,  9],
        [12, 13]]),
 array([[ 2,  3],
        [ 6,  7],
        [10, 11],
        [14, 15]])]

In [149]:
# División simétrica por filas
np.vsplit(array, 2)

[array([[0, 1, 2, 3],
        [4, 5, 6, 7]]),
 array([[ 8,  9, 10, 11],
        [12, 13, 14, 15]])]

In [150]:
# División no simétrica
np.split(array, [2, 3], axis=1)

[array([[ 0,  1],
        [ 4,  5],
        [ 8,  9],
        [12, 13]]),
 array([[ 2],
        [ 6],
        [10],
        [14]]),
 array([[ 3],
        [ 7],
        [11],
        [15]])]