# NumPy

---
## Introducción

NumPy es un módulo de Python. El nombre viene de **PY**thon **NUM**érico. Es una librería de código abierto muy utilizada para la generación y manejo de matrices multidimensionales. En su mayor parte está escrito en C para optimizar su velocidad de ejercución.

Además, los objetos de Pandas (librería que veremos próximamente) dependen en gran medida de los objetos de NumPy ya que Pandas extiende a NumPy.

Aquí os dejo la url de la [documentación oficial](https://numpy.org/doc/stable/) de NumPy.

No viene importado por defecto con Python por lo que tendremos que hacerlo nosotros:

In [1]:
import numpy as np # np es el diminutivo por defecto que se suele ver en internet

---
## Arrays

Con NumPy podemos crear arrays de todo tipo de dimensiones: 1D, 2D, 3D...
Para ello, podremos utilizar los siguientes comandos:

In [7]:
# NumPy cuenta con la función "array" que crea su propia estructura de datos de array en función de los datos recibidos
# 1D
a = np.array([1,2,3])
print(a)

# 2D con listas de listas
a = np.array([[1,2,3],[4,5,6],[7,8,9]])
print(a)

# 2D con listas de tuplas
a = np.array([(1,2,3),(4,5,6),(7,8,9)])
print(a)

[1 2 3]
[[1 2 3]
 [4 5 6]
 [7 8 9]]
[[1 2 3]
 [4 5 6]
 [7 8 9]]


---
## Tipos de datos

Con NumPy puedes decidir el tipo de datos de un array. Hecho muy importante ya que en función de esto dependerá la información que almacenemos y el espacio que ocupe en memoria:

In [20]:
array_float = np.array([[1,2,3,4],[5,6,7,8]], dtype=np.float128) # hay distintos tipos de float: 16, 32, 64, 128
print(array_float)
print(type(array_float[0][0]))

# Al igual que float, también hay distintos tipos de int (8, 16, 32, 64),
array_int = np.array([[1,2,3,4],[5,6,7,8]], dtype=np.int8)
print(array_int)
print(type(array_int[0][0]))

# Habrá que tener cuidado ya que cada tipo de dato tiene su límite numérico
array_int = np.array([[1,2,3,4],[5,6,7,1000]], dtype=np.int8)
print(array_int)

[[1. 2. 3. 4.]
 [5. 6. 7. 8.]]
<class 'numpy.float128'>
[[1 2 3 4]
 [5 6 7 8]]
<class 'numpy.int8'>
[[ 1  2  3  4]
 [ 5  6  7 -1]]
<class 'numpy.int8'>


---
## Matrices predefinidas

Otra de las ventajas es que NumPy permite crear matrices vacías o rellenas con valores aleatorios de distintas formas

In [29]:
# matriz rellena de unos
unos = np.ones((3,4))
print(unos)

# matriz rellena de ceros
ceros = np.zeros((2,5))
print(ceros)

# matriz rellena de números aleatorios (entre 0 y 1)
aleatorios = np.random.random((3,3))
print(aleatorios)

# matriz vacía
vacia = np.empty((2,2))
print(vacia)

# matriz con un mismo valor
valor = np.full((2,3), 5)
print(valor)

[[1. 1. 1. 1.]
 [1. 1. 1. 1.]
 [1. 1. 1. 1.]]
[[0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0.]]
[[0.63667376 0.38237538 0.62922992]
 [0.85817229 0.22058705 0.48235666]
 [0.36536953 0.29787294 0.62113401]]
[[5.e-324 5.e-324]
 [5.e-324 0.e+000]]
[[5 5 5]
 [5 5 5]]


Si en lugar de crear valores de las formas anteriores preferimos crearlos en un intérvalo concreto podremos utilizar estas dos funciones:

In [30]:
# crea una matriz con valores especificados en función de un rango
m1 = np.arange(0, 50, 5)
print(m1)

# crea matriz con valores entre dos datos y definiendo el número de elementos
m2 = np.linspace(0, 10, 5)
print(m2)

[ 0  5 10 15 20 25 30 35 40 45]
[ 0.   2.5  5.   7.5 10. ]


Por último, una matriz muy típica es la matriz "identidad". Si queremos generar este tipo de matrices tenemos dos formas:

In [34]:
# genera matrices de identidad de cualquier dimensión
id1 = np.eye(4,4)
print(id1)

# genera matrices de identidad cuadradas
id2 = np.identity(4)
print(id2)

[[1. 0. 0. 0.]
 [0. 1. 0. 0.]
 [0. 0. 1. 0.]
 [0. 0. 0. 1.]]
[[1. 0. 0. 0.]
 [0. 1. 0. 0.]
 [0. 0. 1. 0.]
 [0. 0. 0. 1.]]


---
## Funciones sobre matrices

NumPy incluye una serie de funciones útiles a la hora de inspeccionar las matrices generadas:

In [40]:
a = np.array([[1,2,3],[4,5,6]])
b = np.array([[[1.1,2.2,3.3],[4.4,5.5,6.6]],[[7.7,8.8,9.9],[10.1,11.2,12.3]]])

# saber las dimensiones de un array
print("Dimensiones A: ", a.ndim)
print("Dimensiones B: ", b.ndim)

# conocer el tipo de datos de un array
print("Tipo A: ", a.dtype)
print("Tipo B: ", b.dtype)

# para conocer el tamaño y la forma de una matriz
print("Tamaño A: ", a.size)
print("Forma A: ", a.shape)
print("Tamaño B: ", b.size)
print("Forma B: ", b.shape)


Dimensiones A:  2
Dimensiones B:  3
Tipo A:  int64
Tipo B:  float64
Tamaño A:  6
Forma A:  (2, 3)
Tamaño B:  12
Forma B:  (2, 2, 3)


También podemos cambiar el tamaño y la forma de las matrices:

In [44]:
# aprovechamos el elemento "a" creado en el bloque anterior
print("a: ", a)

# modificamos su forma para que en lugar de 2 filas y 3 columnas sea 3 filas y 2 columnas:
c = a.reshape(3,2) # Esto no ha almacenado el cambio sobre "a" sino sobre "c"
print("c: ", c)

a:  [[1 2 3]
 [4 5 6]]
c:  [[1 2]
 [3 4]
 [5 6]]


---
## Trabajo sobre posiciones de una matriz

NumPy también ofrece unas maneras más sencillas para trabajar sobre posiciones concretas de una matriz:

In [49]:
matriz = np.random.random((2,5))
print(matriz)

# si quiero obtener el elemento de una posición concreta
print(matriz[0,2])

# si quiero obtener todas las filas de una columna concreta
print(matriz[:,4])

# si quiero obtener una submatriz de la matriz
print(matriz[:,0:2])

[[0.5321589  0.69771584 0.98954261 0.24354292 0.97875716]
 [0.38848457 0.49000974 0.62469785 0.90849755 0.69364604]]
0.9895426137153429
[0.97875716 0.69364604]
[[0.5321589  0.69771584]
 [0.38848457 0.49000974]]


---
## Modificación de arrays

Si quisieramos modificar matrices creadas anteriormente podríamos tanto insertar como eliminar partes de las mismas:

In [79]:
matriz = np.random.randint(10, size=(1,5))
print(matriz)

# Añadimos tres nuevos elementos
matriz = np.append(matriz, [10, 10, 10])
print(matriz)

# Eliminamos el último elemento
matriz = np.delete(matriz, 7)
print(matriz)

# Eliminamos los dos últimos elementos
matriz = np.delete(matriz, [5,6])
print(matriz)

[[1 2 8 0 7]]
[ 1  2  8  0  7 10 10 10]
[ 1  2  8  0  7 10 10]
[1 2 8 0 7]


---
## Operaciones matemáticas sobre matrices

Tal y como hemos comentado, NumPy ofrece una serie de funciones optimizadas que facilitan los cálculos matemáticos sobre matrices:

In [61]:
# genero unas matrices con valores aleatorios del 0 al 4
matriz_1 = np.random.randint(5, size=(3,4))
matriz_2 = np.random.randint(5, size=(3,4))
print("Matriz 1:")
print(matriz_1)
print()
print("Matriz 2:")
print(matriz_2)

# muestro el valor mínimo, máximo y la suma de los valores de una matriz
print("M1 min: ", matriz_1.min())
print("M1 max: ", matriz_1.max())
print("M1 suma: ", matriz_1.sum())

# También podemos calcular la raíz cuadrada
print("M1 sqrt: ", np.sqrt(matriz_1))
print()

# Por último, podremos hacer cálculos matemáticos básicos entre matrices. Estos cálculos serán posición a posición
print(matriz_1 + matriz_2)
print(matriz_1 - matriz_2)
print(matriz_1 * matriz_2)
print(matriz_1 / matriz_2)

Matriz 1:
[[1 3 1 3]
 [3 2 3 3]
 [1 4 3 0]]

Matriz 2:
[[2 0 4 1]
 [4 0 4 4]
 [0 1 1 4]]
M1 min:  0
M1 max:  4
M1 suma:  27
M1 sqrt:  [[1.         1.73205081 1.         1.73205081]
 [1.73205081 1.41421356 1.73205081 1.73205081]
 [1.         2.         1.73205081 0.        ]]

[[3 3 5 4]
 [7 2 7 7]
 [1 5 4 4]]
[[-1  3 -3  2]
 [-1  2 -1 -1]
 [ 1  3  2 -4]]
[[ 2  0  4  3]
 [12  0 12 12]
 [ 0  4  3  0]]
[[0.5   inf 0.25 3.  ]
 [0.75  inf 0.75 0.75]
 [ inf 4.   3.   0.  ]]




Otras operaciones interesantes y bastantes útiles son:
*   El cálculo de la [desviación estándar o típica](https://es.wikipedia.org/wiki/Desviaci%C3%B3n_t%C3%ADpica)
*   El cálculo de la [media aritmética](https://es.wikipedia.org/wiki/Media_aritm%C3%A9tica)
*   El cálculo de la [mediana](https://es.wikipedia.org/wiki/Mediana_(estad%C3%ADstica))

In [80]:
print(matriz_1)

# Desviación estándar
print(np.std(matriz_1))

# Media aritmética
print(np.mean(matriz_1))

# Mediana
print(np.median(matriz_1))

[[1 3 1 3]
 [3 2 3 3]
 [1 4 3 0]]
1.1636866703140785
2.25
3.0


---
## Optimización

Una comparación interesante de NumPy con respecto a Python es que podemos ver el tamaño de los arrays generados y compararlos. De esta forma veremos que NumPy, además de facilitarnos la generación y el uso de matrices, optimiza el espacio en memoria:

In [11]:
# Esta librería nos dará acceso a algunas variables utilizadas por el intérprete de python
import sys

# generamos una lista de 1000 números con python
lista_python = range(1000)

# calculo el tamaño de un número int normal y lo multiplico por la longitud de la lista
print("Tamaño lista de python: ", sys.getsizeof(5)*len(lista_python))

# generamos un array con NumPy
array_numpy = np.arange(1000)

# calculo el tamaño de un elemento de numpy y lo multiplico por el tamaño del array
print("Tamaño array de NumPy: ", array_numpy.size * array_numpy.itemsize)

Tamaño lista de python:  28000
Tamaño array de NumPy:  8000


Otra comparación útil de NumPy frente a Python es la velocidad de cálculo. Hagamos un ejemplo:

In [13]:
# importamos la librería time para poder medir tiempos de ejecución
import time

# definimos un tamaño de lista/array inicial
size = 1000000

# creamos dos listas y dos arrays del mismo tamaño
lista1_python = range(size)
lista2_python = range(size)
array1_numpy = np.arange(size)
array2_numpy = np.arange(size)

# guardamos el momento de inicio
start = time.time()

# calculamos la suma y la almacenamos en result_python
result_python = []
for i in range(len(lista1_python)):
  result_python.append(lista1_python[i] + lista2_python[i])

print("Suma Python: ", (time.time() - start) * 1000) # multiplico por 1000 para verlo en milisegundos (time devuelve segundos desde epoch)

# reinicio el contador del tiempo
start = time.time()

# calculamos la suma y la almacenamos en un nuevo objeto
result_numpy = array1_numpy + array2_numpy

print("Suma NumPy: ", (time.time() - start) * 1000)

Suma Python:  436.0473155975342
Suma NumPy:  3.052234649658203
