# Numpy

* [Numpy](https://numpy.org/doc/stable/index.html) es un paquete para computación científica en Python.
    * Entre otras cosas implementa soporte para vectores (arrays) y matrices.
    * Su librería hermana [Scipy](https://scipy.org/) también implementa funciones más avanzadas que a veces no hacen parte de numpy.
* Los arrays (`ndarray`) de `numpy` son más eficientes que las listas.
    * Una lista en Python puede almacenar cualquier objeto de Python (`int`, `str`, etc.).
    * Un array de numpy *solo* puede almacenar elementos del mismo tipo, utilizando los tipos propios de `numpy`, que son compatibles con los tipos de Python.
    * Un array ocupa mucho menos espacio en memoria.

Podeís instalarlo con `pip install numpy` (en terminal)

In [2]:
import numpy as np

## Tipos de datos en numpy

* `numpy` implementa sus propios tipos de datos

| Data type	    | Description |
|---------------|-------------|
| ``bool_``     | Boolean (True or False) stored as a byte |
| ``int_``      | Default integer type (same as C ``long``; normally either ``int64`` or ``int32``)| 
| ``intc``      | Identical to C ``int`` (normally ``int32`` or ``int64``)| 
| ``intp``      | Integer used for indexing (same as C ``ssize_t``; normally either ``int32`` or ``int64``)| 
| ``int8``      | Byte (-128 to 127)| 
| ``int16``     | Integer (-32768 to 32767)|
| ``int32``     | Integer (-2147483648 to 2147483647)|
| ``int64``     | Integer (-9223372036854775808 to 9223372036854775807)| 
| ``uint8``     | Unsigned integer (0 to 255)| 
| ``uint16``    | Unsigned integer (0 to 65535)| 
| ``uint32``    | Unsigned integer (0 to 4294967295)| 
| ``uint64``    | Unsigned integer (0 to 18446744073709551615)| 
| ``float_``    | Shorthand for ``float64``.| 
| ``float16``   | Half precision float: sign bit, 5 bits exponent, 10 bits mantissa| 
| ``float32``   | Single precision float: sign bit, 8 bits exponent, 23 bits mantissa| 
| ``float64``   | Double precision float: sign bit, 11 bits exponent, 52 bits mantissa| 
| ``complex_``  | Shorthand for ``complex128``.| 
| ``complex64`` | Complex number, represented by two 32-bit floats| 
| ``complex128``| Complex number, represented by two 64-bit floats| 

## Creando un array

* Un array se puede crear de diferentes maneras

In [43]:
# A partir de una lista

np.array([1, 2, 3, 4])

array([1, 2, 3, 4])

In [3]:
# No se pueden mezclar elementos de diferente tipo, por lo que numpy trata de convertirlos

np.array([1, 2.2, 3, 0])  # En este caso los cambia a float

array([1. , 2.2, 3. , 0. ])

In [4]:
# Lo mismo sucede si mezclamos tipos numericos y no numericos

np.array([1, 2, "a"])

array(['1', '2', 'a'], dtype='<U21')

In [5]:
# Podemos especificar el tipo directamente

np.array([1, 2, 3, 0], dtype="float32")  # En este caso los cambia a float

array([1., 2., 3., 0.], dtype=float32)

In [6]:
# También podemos crear arrays de cadenas de caracteres

np.array(["a", "b", "ccc"])

array(['a', 'b', 'ccc'], dtype='<U3')

In [7]:
# Pero cuidado con los dtypes, se crean automaticamente al declarar el array
# En este caso, solo admite strings hasta len=3, que es lo que ha visto inicialmente
a = np.array(["a", "b", "ccc"])
a[0] = "ddddddddddddddd"
a

array(['ddd', 'b', 'ccc'], dtype='<U3')

In [8]:
# Para evitar esto tendríamos que actualizar el tipo después haber creado el array
a = np.array(["a", "b", "ccc"])
a = a.astype('<U50')  # ampliar el tamaño de los strings
a[0] = "ddddddddddddddd"
a

array(['ddddddddddddddd', 'b', 'ccc'], dtype='<U50')

In [9]:
# Si tenemos listas anidadas nos creará una matriz

l = [[1, 2, 3], [4, 5, 6], [7, 8, 9,]]
np.array(l)

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

### Creando diferentes tipos de arrays

* `numpy` tiene diferentes formas de crear arrays que nos serán muy útiles durante nuestro trabajo

In [10]:
# Creando un array de ceros

np.zeros(10)  # Por defecto son floats

array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])

In [11]:
# Creando un array de ceros

np.zeros(10, dtype="int")

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0])

In [12]:
# Creando un array de unos

np.ones(10, dtype="int")

array([1, 1, 1, 1, 1, 1, 1, 1, 1, 1])

In [13]:
# El primer parámetro de np.array() (o np.ones(), np.zeros(), etc.) indica la dimensión, luego podemos hacer

np.zeros((4, 4), dtype="int")

array([[0, 0, 0, 0],
       [0, 0, 0, 0],
       [0, 0, 0, 0],
       [0, 0, 0, 0]])

In [14]:
# También podemos rellenar un array con una secuencia, similar a la función range() de Python

np.arange(0, 100, 25)

array([ 0, 25, 50, 75])

In [85]:
# Crear 20 numeros en un rango [0,10], espaciados uniformemente
np.linspace(0, 10, 20)

array([ 0.        ,  0.52631579,  1.05263158,  1.57894737,  2.10526316,
        2.63157895,  3.15789474,  3.68421053,  4.21052632,  4.73684211,
        5.26315789,  5.78947368,  6.31578947,  6.84210526,  7.36842105,
        7.89473684,  8.42105263,  8.94736842,  9.47368421, 10.        ])

In [15]:
# ¿Números aleatorios? También

np.random.random(5)

array([0.54231509, 0.90321246, 0.87478335, 0.97006316, 0.20065204])

## Propiedades y atributos de los arrays

* A un array se puede acceder de forma similar a una lista (indexing, slicing, etc.)
* Con arrays se pueden realizar operaciones, de forma similar a las listas.
* Como todo objeto en Python, podemos acceder a los atributos de los arrays.

In [16]:
a = np.random.randint(10, size=4)  # 1 dimension
b = np.random.randint(10, size=(3, 3))  # 2 dimensiones
c = np.random.randint(10, size=(3, 3, 3))  # 3 dimensiones

In [17]:
print(a)
print("--")
print(b)
print("--")
print(c)

[9 6 9 9]
--
[[9 2 0]
 [0 4 4]
 [7 2 7]]
--
[[[2 4 9]
  [4 2 6]
  [7 7 7]]

 [[7 5 8]
  [1 8 2]
  [6 5 2]]

 [[9 3 5]
  [4 3 2]
  [5 0 5]]]


### Indexing

In [18]:
print(a[1])
print(b[2, 2])
print(c[1, 1, 1])

6
7
8


In [19]:
print(a[-1])
print(b[-2, -2])
print(c[-1, -1, -1])

9
4
5


In [20]:
# También podemos asignar elementos

a[0] = 120
print(a)

[120   6   9   9]


* Una característica muy interesante es que se pueden seleccionar elementos a partir de otro array o bien a partir de una lista, incluso un array de booleanos.

In [21]:
z = np.random.randint(10, size=100)
z

array([7, 2, 4, 4, 5, 0, 1, 3, 0, 9, 2, 0, 1, 8, 6, 8, 7, 4, 4, 7, 5, 8,
       7, 0, 2, 3, 5, 6, 2, 1, 7, 5, 9, 0, 0, 9, 5, 2, 0, 7, 7, 1, 4, 4,
       6, 5, 1, 3, 4, 4, 3, 1, 9, 4, 0, 4, 5, 2, 5, 9, 1, 9, 7, 4, 2, 7,
       8, 7, 5, 5, 0, 5, 1, 9, 4, 1, 8, 7, 1, 5, 8, 8, 2, 0, 7, 5, 9, 8,
       4, 2, 1, 3, 6, 1, 3, 8, 2, 9, 8, 0])

In [22]:
select = np.array([1, 10, 20, 99])

z[select]

array([2, 2, 5, 0])

In [23]:
z[[1, 10, 20, 99]]

array([2, 2, 5, 0])

In [24]:
z = np.array([1, 2, 3, 4])
z[[True, False, True, False]]

array([1, 3])

### Slicing 

* Podemos obtener _slices_ de forma similar a las listas (`[start:stop:step]`).
* Para los arrays multidimensionales es igual, separando las diferentes _slices_ por comas

In [25]:
print(a[1:3])
print(b[1:3, 1:3])

[6 9]
[[4 4]
 [2 7]]


* **OJO**: Un slice de numpy *NO* crea una copia!!!
* Si se quiere crear una copia hay que utilizar `.copy()`

In [26]:
test = np.zeros(10, dtype="int")
print(test)

[0 0 0 0 0 0 0 0 0 0]


In [27]:
aux = test[5:8]
print(aux)

[0 0 0]


In [28]:
aux[0] = 1
aux[1] = 2
aux[2] = 3
print(aux)

[1 2 3]


In [29]:
print(test)

[0 0 0 0 0 1 2 3 0 0]


**Notas**: el [double assignment](https://stackoverflow.com/questions/1687566/why-does-an-assignment-for-double-sliced-numpy-arrays-not-work) no funciona en Numpy

  Usad `a[numpy.where(a==1)[0][1:]] = 3` en vez de `a[a==1][1:] = 3`

### Seleccionando columnas o filas completas

* Se puede hacer de forma similar a un slice, pero utilizando también un índice

In [30]:
matrix = np.random.randint(10, size=(10,10))
matrix

array([[7, 2, 6, 7, 6, 9, 9, 4, 1, 7],
       [8, 6, 7, 3, 6, 5, 5, 9, 4, 8],
       [4, 6, 3, 7, 8, 3, 9, 6, 4, 0],
       [5, 0, 8, 3, 9, 3, 1, 5, 5, 5],
       [4, 5, 6, 9, 8, 0, 8, 1, 2, 6],
       [3, 5, 2, 9, 6, 3, 0, 4, 9, 8],
       [4, 7, 5, 3, 8, 9, 7, 8, 8, 6],
       [3, 9, 8, 9, 6, 5, 5, 2, 4, 3],
       [2, 6, 9, 1, 3, 7, 0, 9, 8, 0],
       [9, 0, 2, 9, 2, 9, 4, 2, 0, 3]])

In [31]:
matrix[:,5]  # Columna 5

array([9, 5, 3, 3, 0, 3, 9, 5, 7, 9])

In [32]:
matrix[4,:]  # Fila 4

array([4, 5, 6, 9, 8, 0, 8, 1, 2, 6])

También podeís usar elipsis si no quereís especificar todos los ejes.

`a[...,0] --> a[:,:,:,0]`

`a[0,...,0] --> a[0,:,:,0]`

### Atributos

* Los arrays de numpy tienen diferentes atributos que nos dan información del array

In [33]:
print("dimension:", a.ndim)
print("    forma:", a.shape)
print("   tamaño:", a.size)
print("     tipo:", a.dtype)

dimension: 1
    forma: (4,)
   tamaño: 4
     tipo: int64


In [34]:
print("dimension:", b.ndim)
print("    forma:", b.shape)
print("   tamaño:", b.size)
print("     tipo:", b.dtype)

dimension: 2
    forma: (3, 3)
   tamaño: 9
     tipo: int64


In [35]:
print("dimension:", c.ndim)
print("    forma:", c.shape)
print("   tamaño:", c.size)
print("     tipo:", c.dtype)

dimension: 3
    forma: (3, 3, 3)
   tamaño: 27
     tipo: int64


## Métodos de los arrays de numpy

* Un método muy útil es `.reshape()`, que cambia la forma de un array según la nueva dimensión que le demos

In [38]:
# Cambia la forma de un array a las nuevas dimensiones

np.arange(12).reshape(3, 4)

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [39]:
np.arange(12).reshape(4, 3)

array([[ 0,  1,  2],
       [ 3,  4,  5],
       [ 6,  7,  8],
       [ 9, 10, 11]])

In [42]:
# No hay una única manera de reordenar los índices
np.arange(12).reshape(4, 3, order='F')

array([[ 0,  4,  8],
       [ 1,  5,  9],
       [ 2,  6, 10],
       [ 3,  7, 11]])

In [40]:
# Ojo! La nueva dimensión tiene que corresponder con el tamaño original
np.arange(12).reshape(4, 4)

ValueError: cannot reshape array of size 12 into shape (4,4)

In [41]:
# Vector columna

np.arange(12).reshape(12, 1)

array([[ 0],
       [ 1],
       [ 2],
       [ 3],
       [ 4],
       [ 5],
       [ 6],
       [ 7],
       [ 8],
       [ 9],
       [10],
       [11]])

* Si la dimensión es >2, se puede utilizar el atributo `.T` o el método `.transpose()`.

In [47]:
# Pero también podemos obtener el transpuesto a través del atributo .T, si la dimensión es mayor a 2

x = np.random.randint(10, size=(2, 2))
print(x, '\n---')
print(x.T, '\n---')
print(x.transpose(), '\n---')

[[8 3]
 [3 6]] 
---
[[8 3]
 [3 6]] 
---
[[8 3]
 [3 6]] 
---


### Reducciones

* Hay métodos que implementan operaciones de reducción que podríamos hacer con funciones de la librería estándar de Python.
    * `min`, `max`, `sum`, etc.
* Pese a que estas operaciones se pueden hacer con las funciones equivalentes de Python, los métodos de los arrays de numpy son mucho más eficientes.

In [48]:
x = np.random.random(10000000)

In [51]:
max(x)

0.9999998849350534

In [52]:
x.max()

0.9999998849350534

In [53]:
%timeit -n 10 max(x)
%timeit -n 10 x.max()

309 ms ± 4.04 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)
4.25 ms ± 143 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)


* Existen muchos [metodos en la clase arrray](https://docs.scipy.org/doc/numpy-1.15.1/reference/generated/numpy.ndarray.html?highlight=ndarray#numpy.ndarray) que debemos utilizar en estos casos.

|Function Name      |   NaN-safe Version  | Description                                   |
|-------------------|---------------------|-----------------------------------------------|
| ``np.sum``        | ``np.nansum``       | Compute sum of elements                       |
| ``np.prod``       | ``np.nanprod``      | Compute product of elements                   |
| ``np.mean``       | ``np.nanmean``      | Compute mean of elements                      |
| ``np.std``        | ``np.nanstd``       | Compute standard deviation                    |
| ``np.var``        | ``np.nanvar``       | Compute variance                              |
| ``np.min``        | ``np.nanmin``       | Find minimum value                            |
| ``np.max``        | ``np.nanmax``       | Find maximum value                            |
| ``np.argmin``     | ``np.nanargmin``    | Find index of minimum value                   |
| ``np.argmax``     | ``np.nanargmax``    | Find index of maximum value                   |
| ``np.median``     | ``np.nanmedian``    | Compute median of elements                    |
| ``np.percentile`` | ``np.nanpercentile``| Compute rank-based statistics of elements     |
| ``np.any``        | N/A                 | Evaluate whether any elements are true        |
| ``np.all``        | N/A                 | Evaluate whether all elements are true        |

In [55]:
# Ejemplo, sumatorio en Python puro vs Numpy
%timeit -n 3 sum(x)
%timeit -n 3 x.sum()

500 ms ± 14.9 ms per loop (mean ± std. dev. of 7 runs, 3 loops each)
4.74 ms ± 50.9 µs per loop (mean ± std. dev. of 7 runs, 3 loops each)


In [56]:
# Ejemplo: media y desviación estándar

x.mean(), x.std()

(0.4999660655320244, 0.2886796637186812)

* En arrays multidimensionales estos métodos operan con todo el array.
* Se puede especificar si se desea realizar la operación por columnas o por filas, mediante el parámetro `axis`.

In [57]:
x = np.random.randint(100, size=(10,10))
x

array([[17, 61, 72, 66, 12, 57, 83, 32, 83, 52],
       [30, 31, 57, 69, 68, 86,  5, 84, 47, 68],
       [62, 37, 94, 90, 98, 62, 60, 90, 42, 40],
       [95, 82, 66,  2, 11, 97, 58, 83, 76, 13],
       [35, 62, 54, 79, 92, 95, 20, 47, 19, 48],
       [65, 66, 88,  6, 65, 36,  2,  8, 95, 95],
       [92, 27, 25, 47, 25, 62, 69, 77, 82, 27],
       [56, 79, 91, 78, 96, 38, 50, 72, 56, 31],
       [84, 46, 18, 25, 94, 32,  3, 99, 75, 82],
       [56, 88, 57, 73, 81, 47,  0, 92, 16, 34]])

In [58]:
x.max()  # Máximo de toda la matriz

99

In [59]:
x.max(axis=0)  # Máximo de cada una de las columnas

array([95, 88, 94, 90, 98, 97, 83, 99, 95, 95])

In [60]:
x.max(axis=1)  # Máximo de cada una de las filas

array([83, 86, 98, 97, 95, 95, 92, 96, 99, 92])

## Operaciones con arrays

* Pese a que hemos visto que numpy es muy rápido, hay que saber utilizarlo.
* Si no se utiliza de la forma correcta, puede llegar a ser muy lento.
* Ejemplo, calcular el cuadrado de los elementos de un array

In [64]:
def calculate_square(array):
    output = np.empty(len(array))
    for idx, num in enumerate(array):
        output[idx] = num**2
    return output

x = np.arange(5)
print(calculate_square(x))

[ 0.  1.  4.  9. 16.]


In [67]:
y = np.random.randint(1, 100, size=1000000)
%timeit calculate_square(y)

185 ms ± 9.25 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


* Utilizar un bucle para operar con un array es *muy* lento.
* Numpy implementa operaciones aritméticas específicas, que operan sobre todos los elementos del array: _element wise_ 

En esteos casos se dice que la operación está [vectorizada](https://www.pythonlikeyoumeanit.com/Module3_IntroducingNumpy/VectorizedOperations.html), es decir que por debajo estamos usando código precompilado en C para ejecutar la operación. Por eso corre mucho más rápido.

In [68]:
print(calculate_square(x))
print(x**2)

[ 0.  1.  4.  9. 16.]
[ 0  1  4  9 16]


In [69]:
%timeit calculate_square(y)
%timeit y**2

184 ms ± 10.9 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)
643 µs ± 15.2 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)


In [98]:
# También funciona con operaciones booleanas

y > 10

array([ True, False,  True, ...,  True,  True,  True])

* Teniendo en cuenta esto, podemos combinarlo con el indexing para realizar accesos muy potentes.

In [99]:
# Ejemplo: seleccionar valores de y que sean mayores de 90

y[y > 90]

array([99, 98, 99, ..., 95, 95, 98])

In [97]:
# Multiplicacion normal
x * x

array([ 0,  1,  4,  9, 16])

In [104]:
# (!) Multiplicación de matrices
np.dot(x, x)  # también se puede escribir como "x @ x"

30

In [105]:
x + 1

array([1, 2, 3, 4, 5])

In [99]:
x + x

array([0, 2, 4, 6, 8])

⚠️ A veces hay que tener cuidado con los shapes. Si sumas (N,) y (N,1) genera shape (N, N).

In [101]:
x + x.reshape(x.size, 1)

array([[0, 1, 2, 3, 4],
       [1, 2, 3, 4, 5],
       [2, 3, 4, 5, 6],
       [3, 4, 5, 6, 7],
       [4, 5, 6, 7, 8]])

## Cargando datasets desde ficheros

* Numpy tiene algunas funciones para leer datasets que estén en ficheros: https://docs.scipy.org/doc/numpy/reference/routines.io.html
* [`numpy.loadtxt()`](https://docs.scipy.org/doc/numpy/reference/generated/numpy.loadtxt.html#numpy.loadtxt) lee un fichero en csv.

# Scipy

Es la librería hermana de numpy que implementa funciones matemáticas avanzadas que no están en Numpy.

In [78]:
from scipy.special import jn, yn

# Calculate the Bessel functions of the first kind (jn) and second kind (yn) for order 0 and 1
order = 0
x_values = np.linspace(0, 10, 10)
bessel_jn = jn(order, x_values)
bessel_yn = yn(order, x_values)

print("Bessel function of the first kind (jn) for order 0:", bessel_jn)
print("Bessel function of the second kind (yn) for order 0:", bessel_yn)

Bessel function of the first kind (jn) for order 0: [ 1.          0.71437185  0.09804337 -0.35142283 -0.33295586  0.01203057
  0.28172071  0.21983519 -0.06240414 -0.24593576]
Bessel function of the second kind (yn) for order 0: [       -inf  0.16987104  0.52062324  0.25608182 -0.17758587 -0.33764598
 -0.12596448  0.18264403  0.26002773  0.05567117]


# Truco final

Si vais a utilizar mucho Numpy, os recomiendo instalaros un librería de BLAS (Basic Linear Algebra Subprogram) en vuestro ordenador. Ejemplos: MKL, Atlas, OpenBlas. Esto hará que todos vuestros cálculos se ejecuten **mucho** más rápido en Numpy.

Teneís que:
1. instalar esta librería

Por ejemplo para instalar OpenBlas en Linux:
```console
sudo apt install libopenblas-dev
```

2. reinstalar numpy para que pueda cargar la librería
```console
pip uninstall numpy
pip install numpy
python -c 'import numpy; print(numpy.show_config())'
```
y en la configuración os saldrá que ha detectado Openblas:

```console
Build Dependencies:
  blas:
    detection method: pkgconfig
    found: true
    include directory: /usr/local/include
    lib directory: /usr/local/lib
    name: openblas64
    openblas configuration: USE_64BITINT=1 DYNAMIC_ARCH=1 DYNAMIC_OLDER= NO_CBLAS=
      NO_LAPACK= NO_LAPACKE= NO_AFFINITY=1 USE_OPENMP= HASWELL MAX_THREADS=2
    pc file directory: /usr/local/lib/pkgconfig
    version: 0.3.23.dev
```



También está guay usar la función [numpy.ascontiguousarray](https://numpy.org/doc/stable/reference/generated/numpy.ascontiguousarray.html) cuando vaís a operar de forma repetida. Te escribe el array en un espacio de memoria contiguo y así es capaza de leerlo más rápido.

Os animo a leer la [documentación de numpy](https://numpy.org/doc/stable) porque hay muchas funcionalidades que no hemos cubierto.

Por ejemplo, [np.isclose](https://numpy.org/doc/stable/reference/generated/numpy.isclose.html).

In [94]:
# Define two arrays
array1 = np.array([1.0, 2.0, 3.0, 4.0])
array2 = np.array([1.1, 2.0001, 2.9999, 4.0001])

# Use numpy.isclose to compare the arrays
comparison = np.isclose(array1, array2, atol=1e-3)

print("Array 1:", array1)
print("Array 2:", array2)
print("Comparison (isclose):", comparison)

Array 1: [1. 2. 3. 4.]
Array 2: [1.1    2.0001 2.9999 4.0001]
Comparison (isclose): [False  True  True  True]
