# Introducción a NumPy

Recuerden que deben tener instalar el paquete NumPy a través de Miniconda y realizar la carga del mismo:

In [1]:
import numpy as np

## Tipos de Matrices en Python

Una de las principales ventajas de Python es la facilidad con que las variables son declaradas, sin tener que definir el tipo de variable.

En clases anteriores habíamos comentado que una variable en Python es un puntero a una celda en memoria que contiene un objeto. En términos más específicos, una variable en Python es un puntero a una estructura en C que contiene **al menos**:

1. Una variable que indica el tipo de objeto.
2. Una variable que contiene el tamaño del objeto.
3. El valor del objeto.

Una lista de Python por lo tanto, contiene un arreglo de objetos individuales que tienen las características anteriores. Esto permite que la estructura de lista sea muy flexible:

In [2]:
L = list(range(10))
print(L)
type(L[0])

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]


int

In [3]:
L3 = [True, "2", 3.0, 4]
[type(item) for item in L3]


[bool, str, float, int]

Esta flexibilidad tiene un costo, más que todo en almacenamiento. Si todos los elementos de una lista tienen el mismo tipo de objeto, entonces NumPy ofrece una opción de almacenamiento con operadores eficientes sobre esas listas de *tipo estático*:

In [4]:
np.array([1, 4, 2, 5, 3])


array([1, 4, 2, 5, 3])

Estos arreglos deben contener valores del mismo tipo, de otra forma Python trata de subir la complejidad del tipo de objeto para que todos queden igual:

In [5]:
np.array([3.14, 4, 2, 3])


array([3.14, 4.  , 2.  , 3.  ])

Los arreglos de NumPy también puede ser multidimensionales:

In [6]:
np.array([range(i, i + 3) for i in [2, 4, 6]])


array([[2, 3, 4],
       [4, 5, 6],
       [6, 7, 8]])

También existen instrucciones para definir tipos específicos de arreglos en NumPy:

In [7]:
np.zeros(10, dtype='int')


array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0])

In [8]:
np.ones((3, 5), dtype=float)


array([[1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.]])

In [9]:
np.full((3, 5), 3.14)


array([[3.14, 3.14, 3.14, 3.14, 3.14],
       [3.14, 3.14, 3.14, 3.14, 3.14],
       [3.14, 3.14, 3.14, 3.14, 3.14]])

In [52]:
np.arange(0, 20, 2)


array([ 0,  2,  4,  6,  8, 10, 12, 14, 16, 18])

In [11]:
np.linspace(0, 1, 5)


array([0.  , 0.25, 0.5 , 0.75, 1.  ])

In [54]:
np.random.random((3, 3))



array([[0.31720174, 0.77834548, 0.94957105],
       [0.66252687, 0.01357164, 0.6228461 ],
       [0.67365963, 0.971945  , 0.87819347]])

In [13]:
np.random.normal(0, 1, (3, 3))

array([[ 0.09480639,  0.36373803, -0.53157647],
       [-0.3479292 , -0.89699986, -0.01018634],
       [-0.85217607,  0.89872722, -0.43697815]])

In [14]:
np.eye(3)

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

El tipo de valor que contiene el arreglo se puede modificar con el comando `dtype`, usando una cadena de texto, tipos predefinidos o propiedades del np:

In [15]:
np.zeros(10, dtype=bool)


array([False, False, False, False, False, False, False, False, False,
       False])

In [16]:
np.zeros(10, dtype=np.complex)

array([0.+0.j, 0.+0.j, 0.+0.j, 0.+0.j, 0.+0.j, 0.+0.j, 0.+0.j, 0.+0.j,
       0.+0.j, 0.+0.j])

## Manipulación básica de arreglos en NumPy
### Atributos

Primero definimos tres arreglos aleatorios con tres tamaños distintos e imprimimos algunos atributos:

In [57]:
np.random.seed(0)

x1 = np.random.randint(10, size=6) 
x2 = np.random.randint(10, size=(3, 4))
x3 = np.random.randint(10, size=(3, 4, 5))

In [18]:
print("x3 ndim: ", x3.ndim)
print("x3 shape:", x3.shape)
print("x3 size: ", x3.size)

x3 ndim:  3
x3 shape: (3, 4, 5)
x3 size:  60


In [19]:
print("dtype:", x3.dtype)


dtype: int64


In [20]:
print("itemsize:", x3.itemsize, "bytes")
print("nbytes:", x3.nbytes, "bytes")


itemsize: 8 bytes
nbytes: 480 bytes


### Indexación

La indexación de arreglos en NumPy sigue las mismas reglas de la indexación en Python:

In [21]:
x1

array([5, 0, 3, 3, 7, 9])

In [22]:
x1[0]

5

In [23]:
x1[4]

7

Para los arreglos multidimensionales se usa la coma como separador de dimensión:

In [58]:
x2[0, 0]
x2

array([[3, 5, 2, 4],
       [7, 6, 8, 8],
       [1, 6, 7, 7]])

In [25]:
x2[1, 2] = 16

In [26]:
x2

array([[ 3,  5,  2,  4],
       [ 7,  6, 16,  8],
       [ 1,  6,  7,  7]])

### Slicing (Submatrices)

Arreglos unidimensionales:

In [27]:
x = np.arange(10)
x


array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [28]:
x[:5]

array([0, 1, 2, 3, 4])

In [29]:
x[5:]

array([5, 6, 7, 8, 9])

In [30]:
x[::2]

array([0, 2, 4, 6, 8])

In [31]:
x[1::2]

array([1, 3, 5, 7, 9])

Arreglos multidimensionales:

In [32]:
x2

array([[ 3,  5,  2,  4],
       [ 7,  6, 16,  8],
       [ 1,  6,  7,  7]])

In [33]:
x2[:2, :3]

array([[ 3,  5,  2],
       [ 7,  6, 16]])

In [34]:
x2[:3, ::2]


array([[ 3,  2],
       [ 7, 16],
       [ 1,  7]])

In [35]:
x2[::-1, ::-1]

array([[ 7,  7,  6,  1],
       [ 8, 16,  6,  7],
       [ 4,  2,  5,  3]])

También se puede acceder a filas o columnas completas:

In [36]:
print(x2[:, 0])
print(x2[0, :])
print(x2[0])
 

[3 7 1]
[3 5 2 4]
[3 5 2 4]


Un aspecto importante es que cualquier submatriz permite modificar la matriz original. Es decir, al definir submatrices no se crean copias de la matriz original.

In [37]:
print(x2)

[[ 3  5  2  4]
 [ 7  6 16  8]
 [ 1  6  7  7]]


In [38]:
x2_sub = x2[:2, :2]
print(x2_sub)


[[3 5]
 [7 6]]


In [39]:
x2_sub[0, 0] = 99
print(x2_sub)
print(x2)

[[99  5]
 [ 7  6]]
[[99  5  2  4]
 [ 7  6 16  8]
 [ 1  6  7  7]]


Si queremos generar una submatriz que sea copia de la original, use `copy()`:

In [40]:
x2_sub_copy = x2[:2, :2].copy()
print(x2_sub_copy)


[[99  5]
 [ 7  6]]


In [41]:
x2_sub_copy[0, 0] = 42
print(x2_sub_copy)
print(x2)

[[42  5]
 [ 7  6]]
[[99  5  2  4]
 [ 7  6 16  8]
 [ 1  6  7  7]]


### Cambio de dimensiones en arreglos

Para cambiar las dimensiones de un arreglo se puede usar el comando `reshape` o bien los comandos `newaxis`:

In [59]:
x = np.array([1, 2, 3])
print(x.reshape((3, 1)))
print(x[np.newaxis, :])


[[1]
 [2]
 [3]]
[[1 2 3]]


### Concatenación y descomposición de arreglos

Para concatenar arreglos, usamos el comando `concatenate` o bien los comandos `vstack`y `hstack`:

In [43]:
grid = np.array([[1, 2, 3], [4, 5, 6]])


In [44]:
np.concatenate([grid, grid])

array([[1, 2, 3],
       [4, 5, 6],
       [1, 2, 3],
       [4, 5, 6]])

In [45]:
np.concatenate([grid, grid], axis=1)

array([[1, 2, 3, 1, 2, 3],
       [4, 5, 6, 4, 5, 6]])

In [46]:
x = np.array([1, 2, 3])
grid = np.array([[9, 8, 7],
[6, 5, 4]])
np.vstack([x, grid])


array([[1, 2, 3],
       [9, 8, 7],
       [6, 5, 4]])

Para descomponer arreglos usamos los comandos `split`, `hsplit` o bien `vsplit`:

In [47]:
x = [1, 2, 3, 99, 99, 3, 2, 1]
x1, x2, x3 = np.split(x, [3, 5])
print(x1, x2, x3)


[1 2 3] [99 99] [3 2 1]


In [48]:
grid = np.arange(16).reshape((4, 4))
grid


array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15]])

In [49]:
upper, lower = np.vsplit(grid, [2])
print(upper)
print(lower)


[[0 1 2 3]
 [4 5 6 7]]
[[ 8  9 10 11]
 [12 13 14 15]]


In [50]:
left, right = np.hsplit(grid, [2])
print(left)
print(right)


[[ 0  1]
 [ 4  5]
 [ 8  9]
 [12 13]]
[[ 2  3]
 [ 6  7]
 [10 11]
 [14 15]]


# Funciones Universales

La magia de Numpy es que puede bastante rápido si se usa adecuadamente. 

El secreto es usar todas sus funciones de forma vectorial en lugar de iterar en ciclos (for'ß o while's).

Este comportamiento es consistente en los lenguajes de programación modernos de alto nivel como Python. 

En Python, la forma de usar todo el poder de Numpy es a traves de las llamas `ufuncs`

## Operaciones unitarias

Todas las operaciones naturales que se pueden hacer con números unitarios, también se pueden hacer con objetos Numpy. Por ejemplo 

In [6]:
x = np.arange(4)
print("x =", x)
print("x + 5 =", x + 5) # suma
print("x - 5 =", x - 5) # resta 
print("x * 2 =", x * 2) # multiplicacion
print("x / 2 =", x / 2) # división
print("x // 2 =", x // 2) # divisiónn hacia abajo
print("-x = ", -x) # negativos
print("x ** 2 = ", x ** 2) # potencias
print("x % 2 = ", x % 2) # módulo


x = [0 1 2 3]
x + 5 = [5 6 7 8]
x - 5 = [-5 -4 -3 -2]
x * 2 = [0 2 4 6]
x / 2 = [0.  0.5 1.  1.5]
x // 2 = [0 0 1 1]
-x =  [ 0 -1 -2 -3]
x ** 2 =  [0 1 4 9]
x % 2 =  [0 1 0 1]


Estas operaciones están incluidas dentro de numpy como métodos internos.


In [10]:
print("x + 5 =", np.add(x,5)) # suma
print("x - 5 =",np.subtract(x,5)) # resta 
print("x * 2 =", np.multiply(x,5)) # multiplicacion

x + 5 = [5 6 7 8]
x - 5 = [-5 -4 -3 -2]
x * 2 = [ 0  5 10 15]


Otras funciones cómunes son valor absoluto 

In [12]:
x = np.array([-2, -1, 0, 1, 2])
abs(x)

array([2, 1, 0, 1, 2])

In [13]:
np.abs(x)

array([2, 1, 0, 1, 2])

In [14]:
np.absolute(x)

array([2, 1, 0, 1, 2])

In [None]:
O funciones trigonométricas

In [16]:
theta = np.linspace(0, np.pi, 3)

print("theta       = ", theta)
print("sin(theta)  = ", np.sin(theta))
print("cos(theta)  = ", np.cos(theta))
print("tan(theta)  = ", np.tan(theta))


theta       =  [0.         1.57079633 3.14159265]
sin(theta)  =  [0.0000000e+00 1.0000000e+00 1.2246468e-16]
cos(theta)  =  [ 1.000000e+00  6.123234e-17 -1.000000e+00]
tan(theta)  =  [ 0.00000000e+00  1.63312394e+16 -1.22464680e-16]


Para la lista completa de `ufuncs` les recomiendo revisar la página https://numpy.org/doc/stable/reference/ufuncs.html#available-ufuncs

Algunas `ufuncs` pueden ser usadas de forma "iterada". Es decir, primero usar una función como suma y luego acumular el resultado o reducirlo a un solo valor. 

Para ver todas las posibilidades pueden ver la documentación https://numpy.org/doc/stable/reference/ufuncs.html#methods

Compare los siguientes resultados

In [19]:
x = np.arange(1, 6)
np.add.reduce(x)

15

In [20]:
np.add.accumulate(x)

array([ 1,  3,  6, 10, 15])

In [21]:
np.multiply.accumulate(x)

array([  1,   2,   6,  24, 120])

Otra `ufunc` bastante usada es outer que permite calcular la función deseada a todos los pares de valores de un vector. 

In [22]:
np.multiply.outer(x, x)

array([[ 1,  2,  3,  4,  5],
       [ 2,  4,  6,  8, 10],
       [ 3,  6,  9, 12, 15],
       [ 4,  8, 12, 16, 20],
       [ 5, 10, 15, 20, 25]])

# Agregadores

Numpy puede hacer operaciones como sum, min, máx, etc sobre las dimensioes de un array.

Por ejemplo 


In [29]:
M = np.random.random((3, 4))
print(M)

[[0.84621967 0.43250515 0.19300067 0.18135267]
 [0.5885215  0.27794422 0.91964975 0.09792983]
 [0.0321587  0.52108726 0.42753478 0.17775497]]


In [30]:
M.sum()

4.695659150876774

In [31]:
np.sum(M)

4.695659150876774

In [32]:
sum(M)

array([1.46689986, 1.23153662, 1.5401852 , 0.45703747])

In [33]:
M.sum(axis=0)

array([1.46689986, 1.23153662, 1.5401852 , 0.45703747])

In [34]:
M.sum(axis=1)

array([1.65307815, 1.88404529, 1.1585357 ])

Una lista de funciones que tienen esta característica es 

np.sum  
np.prod  
np.mean  
np.std  
np.var  
np.min  
np.max  
np.argmin  
np.argmax  
np.median  
np.percentile
np.any  
np.all  


In [43]:
M = np.random.random((10,20))

In [44]:
np.percentile(M, 25,axis=0)

array([0.26920266, 0.35038664, 0.46688313, 0.41587433, 0.19948604,
       0.58392064, 0.28309563, 0.31304483, 0.13397165, 0.47899421,
       0.34572938, 0.44822144, 0.34174955, 0.32016841, 0.12159094,
       0.36477773, 0.3387281 , 0.36827542, 0.47846584, 0.27319475])