# The Basics of NumPy Arrays

La manipulacion de datos en Python es sinonimo de la manipulacion de arrays con Python. Incluso nuevas herramientas como Pandas estan construidas sobre los arrays de NumPy

# NumPy Array Attributes

Primero definiremos 3 arrays 1D, 2D y 3D generados al azar, para lo cual utilizaremos el generador de numeros aleatorios de NumPy

In [87]:
import numpy as np

In [88]:
np.random.seed(0) #seed for reproducibility

In [89]:
x1 = np.random.randint(10,size=6) #Array  1D
x2 = np.random.randint(10,size=(3,4)) #Array 2D
x3 = np.random.randint(10,size=(3,4,5)) #Array 3D

Cada array tiene atributos:

ndim = Numero de dimensiones

shape = el tamaño de cada dimension

size = el numero de elementos

In [90]:
print("x3 ndim: ", x3.ndim) #Imprimo el numero de dimensiones
print("x3 shape: ", x3.shape) #Imprimo el tamaño de cada dimension
print("x3 size: ", x3.size) #Imprimo el numero de elementos del array

x3 ndim:  3
x3 shape:  (3, 4, 5)
x3 size:  60


Otro atributo interesante de obtener es el tipo de dato por medio del metodo .dtype

In [91]:
print("dtype: ", x3.dtype) #Utilizo el metodo .dtype para coner el tipo de dato del array

dtype:  int32


Otros atributos a tener en cuenta son:

itemsize = muestra el tamaño en bytes

nbytes = Lista el tamaño total del array

In [92]:
print("itemsize:", x3.itemsize, "bytes")
print("nbytes:", x3.nbytes, "bytes")

itemsize: 4 bytes
nbytes: 240 bytes


Se espera que se cumpla que:

nbytes = itemsize * size

En este caso se cumple que 240 (nbytes) = 4 (itemsize) * 60 (size)

# Array indexing: Accesing Single Elements

En arrays 1D se puede acceder al valor del elemento i (contando desde indice 0) especificando el indice deseado entre corchetes, al igual que las listas de Python:

In [93]:
x1 #Veo el contenido del array x1 creado anteriormente

array([5, 0, 3, 3, 7, 9])

In [94]:
x1[0] #Acceso al alemento de indice 0

5

In [95]:
x1[4] #Accedo al elemento de indice 4

7

Para indexar desde el fin del array tengo que utilizar indices negativos:

In [96]:
x1[-1] #Accedo al ultimo elemento del array

9

In [97]:
x1[-2] #Accedo al anteultimo elemento del array

7

Para arrays multidimensionales el acceso de realiza utilizando una tupla con valores separados por coma como indices:

In [98]:
x2 #Veo el contenido del array x2 creado anteriormente

array([[3, 5, 2, 4],
       [7, 6, 8, 8],
       [1, 6, 7, 7]])

In [99]:
x2[0,0] #Accedo al elemento (0,0) del array 2D

3

In [100]:
#Elemento fila de indice 2
#Elemento columna de indice 0

x2[2,0]

1

In [101]:
#Elemento fila de indice 2
#Elemento columna de indice -1

x2[2,-1]

7

Tambien se puede modificar valores del array utilizando la asignacion por medio del indice:

In [102]:
x2 #Veo el array original

array([[3, 5, 2, 4],
       [7, 6, 8, 8],
       [1, 6, 7, 7]])

In [103]:
x2[0,0] = 12 #Asigno un valor espefico al indice (0,0)

In [104]:
x2 #Veo el array modificado

array([[12,  5,  2,  4],
       [ 7,  6,  8,  8],
       [ 1,  6,  7,  7]])

Siempre tener en consideracion que los array de NumPy contienen tipos FIJOS DE DATOS.

Por ejemplo: Si se intenta introducir un tipo de dato float en un array de tipos de datos enteros, el valor float sera truncado a int.

In [105]:
x1 #Veo el array original

array([5, 0, 3, 3, 7, 9])

In [106]:
x1[0] = 3.14159 #Intento introducir un elemento con tipo de dato float

In [107]:
x1 #Veo el resultado del array modificado. El tipo float fue truncado a int

array([3, 0, 3, 3, 7, 9])

# Array Slicing: Accesing Subarrays

De la misma forma que se utilizaron [] para acceder a elementos individuales de un array se puede utilizar para acceder a "porciones" de los mismos por medio de la notacion de SCLICE utilizando los dos puntos :

La secuencia tipica consiste en x[start:stop:step]

Si ninguno de los anteriores es especificado entonces el valor por defecto corresponde a:

star=0

stop=size

step=1

Subarray 1D

In [108]:
x = np.arange(10)

In [109]:
x

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [110]:
#Inicio en elemento de indice 0

#Fin en elemento de indice 5 (sin incluir)

x[:5]

array([0, 1, 2, 3, 4])

In [111]:
#Inicio en elemento de indice 5

#Llega al final del array

x[5:]

array([5, 6, 7, 8, 9])

In [112]:
#Inicio en elemento de indice 4

#Fin en elemento de indice 7 (sin incluir)

x[4:7]

array([4, 5, 6])

In [113]:
#Todo el array con step=2

x[::2]

array([0, 2, 4, 6, 8])

In [114]:
#Inicio en elemento de indice 1

#Llega al final del array

#Step=2

x[1::2]

array([1, 3, 5, 7, 9])

In [115]:
#Una posible causa de confusion es es cuando el valor de step es NEGATIVO. En este caso los valores por defecto de start / stop se invierten ya que el array "se da vuelta"

In [116]:
x[::-1] #Invierto el array completamente

array([9, 8, 7, 6, 5, 4, 3, 2, 1, 0])

In [117]:
#Inicio en elemento de indice 5

#Llega al principio del array (indice 0)

#Step=-1 invierte el array

x[5::-2]

array([5, 3, 1])

Arrays multidimensionales

In [118]:
#El slice de arrays multidimensionales funciona de la misma forma, con multiples slices separados por comas (,)

In [119]:
x2 #Veo el array 2D trabajado anteriormente

array([[12,  5,  2,  4],
       [ 7,  6,  8,  8],
       [ 1,  6,  7,  7]])

In [120]:
#Dimension 1: Primeras 2 filas

#Dimension 2: Primeras 3 columnas

x2[:2,:3]

array([[12,  5,  2],
       [ 7,  6,  8]])

In [121]:
#Dimension 1: Primeras 3 filas

#Dimension 2: Todas las columnas tomadas cada 2

x2[:3,::2]

array([[12,  2],
       [ 7,  8],
       [ 1,  7]])

In [122]:
#En los arrays multidimensionales tambien se pueden utilizar indexacion negativa 

In [123]:
#Una forma de invertir completamente el array es utilizar indexacion negativa en ambas dimensiones:

x2[::-1,::-1]

array([[ 7,  7,  6,  1],
       [ 8,  8,  6,  7],
       [ 4,  2,  5, 12]])

Accediente a filas y columnas de arrays

In [124]:
#Acceso a la columna de indice 0

#Dimension 1: Todas las filas

#Dimension 2: Columna de indice 0

x2[:,0]

array([12,  7,  1])

In [125]:
#Acceso a la fila de indice 0

#Dimension 1: Fila de indice 0

#Dimension 2: Todas las columnas

x2[0,:]

array([12,  5,  2,  4])

In [126]:
#En el caso de acceso por filas el slice de columnas puede ser omitido

x2[0]

array([12,  5,  2,  4])

Los sub-arrays NO son copias del array original. Son VISTAS del array original, por lo tanto debe tenerse esto en consideracion al momento de realizar modificaciones de sub-arrays que generen un impacto en al array completo

In [127]:
#Los slices retornas una vista el array original (no una copia)

#Esto difiere de las listas de Python ya que en el caso de una lista de Python lo que retorna es es una copia


In [128]:
x2 #Veo el array 2D

array([[12,  5,  2,  4],
       [ 7,  6,  8,  8],
       [ 1,  6,  7,  7]])

In [129]:
x2_sub = x2[:2,:2] #Extraiga una porcion del array x2 y lo nombro x2_sub

In [130]:
x2_sub #Veo el subarray 

array([[12,  5],
       [ 7,  6]])

In [131]:
x2_sub[0,0] = 99 #Modifico la posicion [0,0] del sub-array

In [132]:
x2 #Verifico que el cambio introducido en el sub-array x2_sub se ve reflejado en el array original x2

array([[99,  5,  2,  4],
       [ 7,  6,  8,  8],
       [ 1,  6,  7,  7]])

In [133]:
#El comportamiento por default de NO COPIAR arrays es util ya que cuando trabajamos con 
# sets de datos extensos podemos acceder y procesar pedazos del set de datos sin la necesidad de copiarlos en memoria

Creando copias de arrays

In [134]:
#En algunos casos es necesario copiar arrays en forma explicita

#Esto se realiza por medio del metodo .copy()

In [135]:
x2_sub #Veo el sub-array

array([[99,  5],
       [ 7,  6]])

In [136]:
x2_sub_copy = x2_sub.copy() #Realizo una copia del sub-array

In [137]:
x2_sub_copy #Veo el array copiado

array([[99,  5],
       [ 7,  6]])

In [138]:
x2_sub_copy[0,0] = 42 #Modifico un elemento del array copiado

In [139]:
x2 #Verifico que la modificacion en el array copiado NO SE REFLEJA en el array original x2

array([[99,  5,  2,  4],
       [ 7,  6,  8,  8],
       [ 1,  6,  7,  7]])

# Reshaping of Arrays

Otra tipo de operacion es la reorganizacion de los arrays. La forma mas flexible para realizar esto es con el metodo reshape()

In [142]:
grid = np.arange(1,10) #Creo un array 1D de 9 elementos

In [143]:
grid

array([1, 2, 3, 4, 5, 6, 7, 8, 9])

In [148]:
grid_r = grid.reshape(3,3) #Reorganizo los elementos del array 1D en un array 2D de 3x3

In [147]:
grid_r

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

El tamaño del array original debe poder insertarse en el tamaño del array reorganizado (ver ejemplo anterior)


Otra forma comun de reaorganizar es la conversion de un array 1D en uno de filas o columnas 2D. Esto se puede realizar por medio del metodo reshape() o mas facilmente utilizando la palabra clave newaxis junto con la operacion slice:

In [149]:
x = np.array([1,2,3]) #Creo un array 1D

In [151]:
x.reshape(1,3) #Utilizando el array creado anteriormente por medio del metodo reshape() lo transformo en un array fila 2D

array([[1, 2, 3]])

In [152]:
x[np.newaxis,:] #Utilizando el array creado anteriormente por medio de newaxis lo transformo en un array fila 2D

array([[1, 2, 3]])

In [154]:
x.reshape(3,1)  #Utilizando el array creado anteriormente por medio del metodo reshape() lo transformo en un array columna 2D

array([[1],
       [2],
       [3]])

In [156]:
x[:,np.newaxis] #Utilizando el array creado anteriormente por medio de newaxis lo transformo en un array columna 2D

array([[1],
       [2],
       [3]])

# Array Concatenation ans Spliting

Es posible combinar multiples arrays en uno y a la inversa dividir un array en multiples arrays

Concatenacion de arrays

Concatenar o unir 2 arrays en NumPy es primeramente logrado por medio de las rutinas np.concatenate / np.vstack / np.hstack

np.concatenate toma una tupla o una lista como argumento

In [158]:
x = np.array([1,2,3]) #Creo un array 1D
y = np.array([3,2,1]) #Creo un array 1D
np.concatenate([x,y]) #Realizo la concatenacion de los arrays creados anteriormente

array([1, 2, 3, 3, 2, 1])

In [161]:
z = [99,99,99]
np.concatenate([x,y,z]) #Se puede concatenar mas de 2 arrays. En este caso concateno los arrays x,y,z

array([ 1,  2,  3,  3,  2,  1, 99, 99, 99])

Tambien se puede concatenar arrays 2D:

In [170]:
grid = np.array([[1,2,3],[4,5,6]]) #Creo un array 2D

In [171]:
np.concatenate([grid,grid]) #Concateno a lo largo del eje 0 (primer eje)

array([[1, 2, 3],
       [4, 5, 6],
       [1, 2, 3],
       [4, 5, 6]])

In [172]:
np.concatenate([grid,grid],axis=1) #Concateno a lo largo del eje 1 (segundo eje)

array([[1, 2, 3, 1, 2, 3],
       [4, 5, 6, 4, 5, 6]])

Para trabajar con arrays de dimensiones diferentes puede ser claro utilizar las funciones np.vstack (vertical stack) y np.hstack(horizontal stack):

In [174]:
x = np.array([1,2,3]) #Creo un array 1D de tamaño 1x3
grid = np.array([[9,8,7],[6,5,4]]) #Creo un array 2D de tamaño 2x3

np.vstack([x,grid]) #Los junto en forma vertical

array([[1, 2, 3],
       [9, 8, 7],
       [6, 5, 4]])

In [176]:
y = ([[99],
      [99]]) #Creo un array 1D de tamaño 2x1

np.hstack([grid,y]) #Los unto en forma horizontal

array([[ 9,  8,  7, 99],
       [ 6,  5,  4, 99]])

En forma similar np.dstack une los arrays a traves del eje 2 (tercer eje)

Lo opuesto a la concatenacion es la division, las cuales son implementadas por las funciones np.split / np.shsplit / np.vsplit. Para cada uno de estos se pueden pasar una lista de indices entre los cuales se quiere realizar la division

In [183]:
# numpy.split(ary, indices_or_sections, axis=0)
# Split an array into multiple sub-arrays

x = [1,2,3,99,99,3,2,1] #Creo un array 1D

#En este caso el split se realiza en:

# inicio=elemento de indice 3 incluido
# fin=elemento de indice 5 sin incluir

x1, x2, x3 = np.split(x,[3,5]) 

print(x1,x2,x3)

[1 2 3] [99 99] [3 2 1]


In [184]:
# Es importante destacar que al especificar N puntos de division entonces se obtienen N+1 subarrays

In [187]:
#En este caso el split se realiza en el elemento de indice 4

x4,x5 = np.split(x,[4])

print(x4,x5)

[ 1  2  3 99] [99  3  2  1]


In [190]:
grid = np.arange(16).reshape(4,4) #Creo un array de 16 elementos en un arreglo de array 2D de dimensiones 4x4

In [189]:
grid

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15]])

In [191]:
upper, lower = np.vsplit(grid,[2])

print(upper)
print(lower)

[[0 1 2 3]
 [4 5 6 7]]
[[ 8  9 10 11]
 [12 13 14 15]]


In [192]:
left, right =np.hsplit(grid,[2])

print(left)
print(right)

[[ 0  1]
 [ 4  5]
 [ 8  9]
 [12 13]]
[[ 2  3]
 [ 6  7]
 [10 11]
 [14 15]]


Similarmente np.dsplit permite dividir el array a lo largo del tercer eje