<a href="https://colab.research.google.com/github/joseflix/DocenciaUAB/blob/master/MN1/2019-2020/CursPython/14_Libreria_Numpy_Python.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Librería Numpy**

*NumPy* es una librería de Python (“Numerical Python”), de suma importancia para la computación científica, ya que nos permite generar estructuras de datos, en forma de matrices y matrices multidimensionales, que garantizan cálculos eficientes cuando manipulamos grandes cantidades de datos.

NumPy proporciona objetos de matriz que son hasta 50 veces más rápidos que las listas tradicionales de Python, cuando son manipulados. El objeto de matriz en NumPy se llama *ndarray*. La librería proporciona muchas funciones de soporte que hacen que trabajar con ndarray sea realmente muy fácil.


## **Primera toma de contacto con Numpy**

Vamos a importar numpy y vamos a crear nuestro primer objeto *ndarray*:

In [1]:
import numpy as np

arr = np.array([1, 2, 3, 4, 5])

print(arr)
print(type(arr)) # vemos que hemos creado un objeto de tipo ndarray

[1 2 3 4 5]
<class 'numpy.ndarray'>


Para crear un $ndarray$, podemos pasar una Kista, un Tuple o cualquier objeto tipo matriz al método array(), y se convertirá en un *ndarray*:

In [2]:
arr = np.array((1, 2, 3, 4, 5))

print(arr)
print(type(arr)) # vemos que hemos creado un objeto de tipo ndarray

[1 2 3 4 5]
<class 'numpy.ndarray'>


Podemos crear arrays de N-dimensiones de forma muy fácil. Veamos:

In [3]:
# 0-D array:
arr0D = np.array(42)
print("0-D:", arr0D)

# 1-D array:
arr1D = np.array([1, 2, 3, 4, 5])
print("1-D:", arr1D)

# 2-D array:
arr2D = np.array([[1, 2, 3], [4, 5, 6]])
print("2-D:", arr2D)
# Los arrays 2-D pueden ser de NxM dimensiones. 

0-D: 42
1-D: [1 2 3 4 5]
2-D: [[1 2 3]
 [4 5 6]]


Podemos ver la 'forma' (*shape*) de un array:

In [4]:
b = np.array([[1,2,3],[4,5,6]])    # Crear 2D Numpy Array
print(b.shape)                     # Prints "(2, 3)”, 2D x 3 len 

(2, 3)


Podemos usar el atributo *ndim* para conocer la dimensión de cada array:

In [5]:
print(arr0D.ndim)
print(arr1D.ndim)
print(arr2D.ndim)

# También podemos fijar las dimensiones al crear un array:
arr = np.array([1, 2, 3, 4], ndmin=5)
print(arr)
print('number of dimensions :', arr.ndim)
print('shape:', arr.shape)

0
1
2
[[[[[1 2 3 4]]]]]
number of dimensions : 5
shape: (1, 1, 1, 1, 4)


En esta matriz *arr*, la dimensión más interna (5a dim) tiene 4 elementos, la 4a dim tiene 1 elemento que es el vector, la 3a dim tiene 1 elemento que es la matriz con el vector, la 2a dim tiene 1 elemento que es una matriz 3D y la 1a dim tiene 1 elemento que es una matriz 4D.

In [6]:
print(arr[0][0][0][0][1]) # Acceso al elemento 1 de la 5a dim...

2


Como accedemos a los elementos del array? Usando índices. Veamos:

In [7]:
# 1-D array:
arr1D = np.array([10, 9, 8, 7, 6])
print("1-D:", arr1D)

print("Primer elemento:", arr1D[0])
print("Segundo elemento:", arr1D[1])
print("Último elemento:", arr1D[-1])
print("Elemento 1 + 2:", arr1D[0]+arr1D[1])

1-D: [10  9  8  7  6]
Primer elemento: 10
Segundo elemento: 9
Último elemento: 6
Elemento 1 + 2: 19


In [8]:
b = np.array([[1,2,3],[4,5,6]])    # Crear 2D Numpy Array
print(b.shape)                     # Prints "(2, 3)”, 2D x 3 len 
print(b[0, 0], b[0, 1], b[1, 0])   # acceso a los elementos de un 2D array

(2, 3)
1 2 4


Para acceder a elementos de matrices 2-D podemos usar enteros separados por comas que representan la dimensión y el índice del elemento:

In [9]:
arr = np.array([[1,2,3,4,5], [6,7,8,9,10]])

print('Segundo elemento de la primera dimensión: ', arr[0, 1])
print('Tercer elemento de la primera dimensión: ', arr[0, 2]) # el ndim no empieza en 0!

Segundo elemento de la primera dimensión:  2
Tercer elemento de la primera dimensión:  3


También podemos acceder a un rango determinado de elementos, o bien alternando elementos. Por ejemplo:

In [10]:
arr = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9 , 10])

print(arr[0:5])
print(arr[:5])
print(arr[5:])

print(arr[0:5:2]) # Esto nos imprime por pantalla los elementos de 0 a 5, en pasos de 2 (steps)
print(arr[::2]) # Esto nos imprime por pantalla todos los elementos de arr, en pasos de 2 (steps) - impares
print(arr[1::2]) # Esto nos imprime por pantalla todos los elementos de arr, en pasos de 2 (steps) - pares

# De una forma similar se pueden acceder a los elementos de arrays multi-dimensionales

[1 2 3 4 5]
[1 2 3 4 5]
[ 6  7  8  9 10]
[1 3 5]
[1 3 5 7 9]
[ 2  4  6  8 10]


## **Tipos de datos en Numpy**

Existen varios tipos de datos en *Numpy*. Se puede ver la lista completa aquí: https://www.w3schools.com/python/numpy_data_types.asp

El objeto de matriz de *NumPy* tienen una propiedad llamada *dtype* que devuelve el tipo de datos de la matriz. Veamos un ejemplo:

In [11]:
arr1 = np.array([1, 2, 3, 4])
print(arr1.dtype) # Nos devuelve que son enteros (int) con una precisión 64-bits

arr2 = np.array([1., 2., 3., 4.])
print(arr2.dtype) # Nos devuelve que son de coma flotante (float) con una precisión 64-bits

arr3 = np.array(['apple', 'banana', 'cherry'])
print(arr3.dtype) # Nos devuelve que son de tipo unicode string

int64
float64
<U6


Podemos generar arrays con un cierto tipo, usando el argumento adicional *dtype*:

In [12]:
arr = np.array(["12c", 2, 3, 4], dtype='S')
print(arr)
print(arr.astype('U13')) # Se puede decodificar para evitar obtener la b de byte al hacer print
print(np.char.decode(arr)) # idem
print(arr[0].dtype)

#arr = np.array([1, 2, 3, 4]) # como enteros 4 bytes
#print(arr)
#print(arr.dtype)

[b'12c' b'2' b'3' b'4']
['12c' '2' '3' '4']
['12c' '2' '3' '4']
|S3


Hay valores que no pueden ser convertidos, por ejemplo:

In [13]:
arr = np.array(['a', '2', '3'], dtype='i')

ValueError: ignored

También podemos convertir el tipo de datos de un array existente, usando la función *astype()*:

In [14]:
arr = np.array([1.1, 2.1, 3.1])
print(arr)
print(arr.dtype)

newarr = arr.astype('i8')

print(newarr)
print(newarr.dtype)

newarr2 = arr.astype(int)

print(newarr2)
print(newarr2.dtype)

print("****************")

arr = np.array([1, 0, 3])
print(arr)
print(arr.dtype)

newarr = arr.astype(bool)

print(newarr)
print(newarr.dtype)


[1.1 2.1 3.1]
float64
[1 2 3]
int64
[1 2 3]
int64
****************
[1 0 3]
int64
[ True False  True]
bool


Numpy permite crear arrays con una dimensión concreta, valores por defecto, etc... se puede consultar la documentación: https://docs.scipy.org/doc/numpy/reference/routines.array-creation.html

## **Iteración sobre arrays de Numpy**

Podemos iterar sobre arrays de Numpy. Veamos algunos ejemplos:

In [15]:
# 1-D array

arr = np.array([1, 2, 3])

for x in arr:
  print(x)

print("****************")

# 2-D array
arr2 = np.array([[1, 2, 3], [4, 5, 6]])

for x in arr2:
  print(x) # Esto lo que hace es imprimir los dos arrays, uno para cada dimensión

print("****************")

#Ahora bien, y si queremos acceder a los elementos? Se hace así:
for x in arr2: # Van a ser 2 iteraciones, que nos da 2 arrays de las dos dimensiones
  for y in x: # aquí accedemos a cada elemento de cada array
    print(y)

1
2
3
****************
[1 2 3]
[4 5 6]
****************
1
2
3
4
5
6


También se puede usar las funciones *nditer()* o *ndenumerate()*, se puede ver como se usan aquí: https://www.w3schools.com/python/numpy_array_iterating.asp

## **Ordenando elementos en el array**

A veces es útil ordenar los elementos de un array Numpy, por ejemplo si queremos hacer una iteración en orden creciente sobre los elementos... Se puede usar la función *sort()*:

In [16]:
arr = np.array([3, 2, 0, 1])
print(np.sort(arr))

print("****************")

arr = np.array(['banana', 'cherry', 'apple'])
print(np.sort(arr))

print("****************")

arr = np.array([True, False, True])
print(np.sort(arr))

[0 1 2 3]
****************
['apple' 'banana' 'cherry']
****************
[False  True  True]


## **Filtrar en arrays**

A veces es interesante filtrar y quedarse con algunos de los elementos de un array de Numpy que satisfacen una condición. Esto se puede hacer de forma fácil usando un array de Booleans que nos va a filtrar los elementos: solo aquellos que sean True van a ser devueltos. Veamos:

In [17]:
arr = np.array([41, 42, 43, 44])
print(len(arr)) # Tiene 4 elementos

print("****************")

x = [True, False, True, False] # Creamos una lista Boolean que tenga el mismo número de elementos que el array que queremos filtrar
print(len(arr)) # Tiene 4 elementos

print("****************")

newarr = arr[x]
print(newarr)
print(len(newarr)) # Tiene 2 elementos, los que satisfacen la condición

4
****************
4
****************
[41 43]
2


También podemos crear nuestro filtro personalizado, por ejemplo filtrar todos los elementos que sean $>42$. Esto lo podemos hacer un poco a 'lo bruto' de esta manera:

In [18]:
arr = np.array([41, 42, 43, 44])

# Creamos una lista vacía que la iremos llenando de Booleans
filter_arr = []

# iteramos sobre los elementos del array
for element in arr:
  # Si el elemento es mayor que 42, fijamos el valor del filtro a True, si no se fija a False:
  if element > 42:
    filter_arr.append(True)
  else:
    filter_arr.append(False)

newarr = arr[filter_arr]

print(filter_arr)
print(newarr)

[False, False, True, True]
[43 44]


Pero una cosa muy interesante y que se usa mucho, es hacerlo de la forma **más compacta**:

In [19]:
arr = np.array([41, 42, 43, 44])

filter_arr = arr > 42 # Esta es la forma compacta. Preguntamos directamente al array sobre una condición, y nos devuelve una lista de Booleans, que es nuestro filtro

newarr = arr[filter_arr]

print(filter_arr)
print(newarr)

[False False  True  True]
[43 44]


## **Funciones de interés en Numpy**

Toda la documentación de Numpy se encuentra en https://numpy.org/. Evidentemente, definir arrays multidimensionales quiere decir crear matrices, y Numpy permite manipular estos objetos y proveer de todas las operaciones que se realizan con matrices. 

Pero, además, tiene una colección de funciones implementadas que son muy útiles y que usaremos en el curso. Por ejemplo, podemos calcular algunos valores estadísticos de un conjunto de datos:

In [20]:
x = np.array([1, 2, 3, 1])
print(x.mean())
print(x.std())
print(x.std(ddof=1)) # usa N-1 como denominador
print(np.median(x))

# También podemos ver longitud, máx, min, de un array:

print(len(x))
print(min(x),x.min())
print(max(x),x.max())

1.75
0.82915619758885
0.9574271077563381
1.5
4
1 1
3 3


También tenemos algunas funciones para crear arrays de forma concreta, por ejemplo, datos distribuidos de forma uniforme en un intervalo, etc... 

Vamos a ver como crear valores de x distribuidos de forma uniforme entre -$\pi$  i $\pi$:

In [21]:
# Por una parte, Numpy tiene el número pi de forma integrada:

print(np.pi)

# La función arange devuelve un array entre dos valores, usando un paso concreto. En este caso de 0.1:
print(np.arange(-np.pi,np.pi,0.1))

print("****************")

# Si nos fijamos bien, el último punto no tiene porque coincidir con pi... ya que si el salto de 0.1 hace que no lleguemos a ese número... 
# ... si queremos que los límites estén incluidos es mejor usar la función linspace

print(np.linspace(-np.pi,np.pi,50))
print(len(np.linspace(-np.pi,np.pi,50)))

# linspace nos genera 50 puntos entre [-pi,pi]

3.141592653589793
[-3.14159265 -3.04159265 -2.94159265 -2.84159265 -2.74159265 -2.64159265
 -2.54159265 -2.44159265 -2.34159265 -2.24159265 -2.14159265 -2.04159265
 -1.94159265 -1.84159265 -1.74159265 -1.64159265 -1.54159265 -1.44159265
 -1.34159265 -1.24159265 -1.14159265 -1.04159265 -0.94159265 -0.84159265
 -0.74159265 -0.64159265 -0.54159265 -0.44159265 -0.34159265 -0.24159265
 -0.14159265 -0.04159265  0.05840735  0.15840735  0.25840735  0.35840735
  0.45840735  0.55840735  0.65840735  0.75840735  0.85840735  0.95840735
  1.05840735  1.15840735  1.25840735  1.35840735  1.45840735  1.55840735
  1.65840735  1.75840735  1.85840735  1.95840735  2.05840735  2.15840735
  2.25840735  2.35840735  2.45840735  2.55840735  2.65840735  2.75840735
  2.85840735  2.95840735  3.05840735]
****************
[-3.14159265 -3.01336438 -2.88513611 -2.75690784 -2.62867957 -2.5004513
 -2.37222302 -2.24399475 -2.11576648 -1.98753821 -1.85930994 -1.73108167
 -1.60285339 -1.47462512 -1.34639685 -1.21816858 -1.

Numpy también incluye funciones trigonométricas, veamos:

In [22]:
print(np.sin(0))
print(np.sin(np.pi/2))

# Imagina que quieres hacer una gráfica de puntos sin(x), entre -pi y pi... Generar los puntos x e y es tan fácil como:

x = np.linspace(-np.pi,np.pi,50)
y = np.sin(x) # Recuerda que una función puede aceptar una lista, y te devuelve una lista evaluada para todos los elementos de la lista

print(x)
print(y)

0.0
1.0
[-3.14159265 -3.01336438 -2.88513611 -2.75690784 -2.62867957 -2.5004513
 -2.37222302 -2.24399475 -2.11576648 -1.98753821 -1.85930994 -1.73108167
 -1.60285339 -1.47462512 -1.34639685 -1.21816858 -1.08994031 -0.96171204
 -0.83348377 -0.70525549 -0.57702722 -0.44879895 -0.32057068 -0.19234241
 -0.06411414  0.06411414  0.19234241  0.32057068  0.44879895  0.57702722
  0.70525549  0.83348377  0.96171204  1.08994031  1.21816858  1.34639685
  1.47462512  1.60285339  1.73108167  1.85930994  1.98753821  2.11576648
  2.24399475  2.37222302  2.5004513   2.62867957  2.75690784  2.88513611
  3.01336438  3.14159265]
[-1.22464680e-16 -1.27877162e-01 -2.53654584e-01 -3.75267005e-01
 -4.90717552e-01 -5.98110530e-01 -6.95682551e-01 -7.81831482e-01
 -8.55142763e-01 -9.14412623e-01 -9.58667853e-01 -9.87181783e-01
 -9.99486216e-01 -9.95379113e-01 -9.74927912e-01 -9.38468422e-01
 -8.86599306e-01 -8.20172255e-01 -7.40277997e-01 -6.48228395e-01
 -5.45534901e-01 -4.33883739e-01 -3.15108218e-01 -1.911586

Todas las funciones matemáticas se pueden consultar en: https://docs.scipy.org/doc/numpy/reference/routines.math.html


## **Generación de números aleatorios con Numpy**

Numpy tiene la capacidad de generar números aleatorios, de forma uniforme en un rango, que nos va a ser muy útil en el curso, o bien que sigan una distribución determinada. 

La documentación de lo que se puede hacer está disponible aquí:

https://docs.scipy.org/doc/numpy/reference/random/generator.html

Veamos un ejemplo sencillo, vamos a generar 10 números aleatorios entre 0 y 1, que sigan una distribución uniforme:

In [23]:
print("1: ", np.random.uniform(0,1,10))

# Si volvemos a llamar a la función, nos va a devolver 10 números aleatorios completamente diferentes:

print("2: ", np.random.uniform(0,1,10))

1:  [0.50858804 0.23286336 0.32844351 0.62836737 0.41973458 0.19432904
 0.24041486 0.87876199 0.64927478 0.3304836 ]
2:  [0.28190982 0.33028283 0.10949891 0.95767079 0.32645915 0.48068503
 0.38216114 0.5044388  0.19377325 0.03068054]


Nos fijamos que si llamamos dos veces a la misma función, nos devuelve una lista de números diferentes. Esto es porque no hemos fijado la semilla inicial (seed). Podemos fijarla, de manera que la colección de números aleatorios siempre seguirá el mismo orden, esto es importante porque a veces queremos que nuestro programa o cálculo sea reproducible:

In [24]:
np.random.seed(1) # cualquier valor que sea un int. Esto fija el seed
print("1: ", np.random.uniform(0,1,10))

# Si volvemos a llamar a la función, nos va a devolver 10 números aleatorios completamente diferentes:

np.random.seed(1) # cualquier valor que sea un int. Esto fija el seed
print("2: ", np.random.uniform(0,1,10))

# Si ahora no fijamos el seed y volvemos a llamar a la función random.uniform va a coger un valor aleatorio de seed:

print("3: ", np.random.uniform(0,1,10))

1:  [4.17022005e-01 7.20324493e-01 1.14374817e-04 3.02332573e-01
 1.46755891e-01 9.23385948e-02 1.86260211e-01 3.45560727e-01
 3.96767474e-01 5.38816734e-01]
2:  [4.17022005e-01 7.20324493e-01 1.14374817e-04 3.02332573e-01
 1.46755891e-01 9.23385948e-02 1.86260211e-01 3.45560727e-01
 3.96767474e-01 5.38816734e-01]
3:  [0.41919451 0.6852195  0.20445225 0.87811744 0.02738759 0.67046751
 0.4173048  0.55868983 0.14038694 0.19810149]


También existe la librería random (https://docs.python.org/3/library/random.html), pero muchas de esas funcionalidades ya están implementadas en Numpy.