# Operaciones vectorizadas

Los arrays realizan una gestión de la memoria mucho más eficiente que las listas y por tanto se mejora el rendimiento. NumPy implementa una gran variedad de operaciones y funciones matemáticas mediante expresiones sencillas sobre arrays (*expresiones vectorizadas*). El uso de estas expresiones permite operar sobre los elementos del array sin necesidad de escribir múltiples y costosos loops.

## Operaciones Aritméticas

Los operadores aritméticos sobre arrays, son operadores que se aplican elemento a elemento. El resultado es un nuevo array cuyos datos depende de la operación realizada. Veamos algunos ejemplos:

In [2]:
import numpy as np      

In [2]:
a = np.array([1,2,3], int)
b = np.array([5,2,6], int)

In [3]:
a + b

array([6, 4, 9])

In [4]:
a - b

array([-4,  0, -3])

In [5]:
a * b 

array([ 5,  4, 18])

En el caso de operaciones entre arrays y escalares, el escalar se aplica a cada uno de los elementos del array:

In [6]:
a = np.array([1,2,3], int)
a * 10

array([10, 20, 30])

In [7]:
b = np.array([5,2,6], int)
b ** 2

array([25,  4, 36], dtype=int32)

En el caso de arrays multidimensionales, se sigue manteniendo que las operaciones se realizan elemento a elemento. Por ejemplo en el caso de dos dimensiones, el producto de dos arrays NO se corresponde con la multiplicación de matrices según la conocemos. 

In [8]:
a = np.array([[1,2], [3,4]], int)
a

array([[1, 2],
       [3, 4]])

In [9]:
b = np.array([[2,0], [1,3]], int)
b

array([[2, 0],
       [1, 3]])

In [10]:
a * b

array([[ 2,  0],
       [ 3, 12]])

In [11]:
a - b

array([[-1,  2],
       [ 2,  1]])

En el caso de las operaciones entre arrays, NumPy comprueba la compatibilidad de las dimensiones antes de realizar la operación. Si los arrays involucrados tienen los mismos valores para todas sus dimensiones, la operación se realiza sin problemas. En caso contrario, NumPy comprueba que el valor sea 1 para todas las dimensiones con valores distintos. Porteriormente se extienden los arrays hasta conseguir que los arrays tengan los mismos valores en todas sus dimensiones y finalmente realiza la operación. Esta operación de extensión de arrays se la conoce como _broadcasting_.

Por ejemplo, en el caso de arrays bidimensionales, el array `m` y `n` son compatibles y se pueden sumar:

In [12]:
m = np.array([[1, 2], [3,4]], int)
m.shape

(2, 2)

In [13]:
n = np.array([[2],[3]], int)
n.shape

(2, 1)

In [14]:
m + n

array([[3, 4],
       [6, 7]])

En el ejemplo anterior se puede ver cómo la operación suma tiene éxito con los arrays `m` y `n` con dimensiones (2, 2) y (2, 1) respectivamente.
La siguiente figura muestra cómo se realiza la operación de extensión de dimensiones (conocida como broadcasting) antes de realizar la suma de los arrays.

<img src="./images/Imagen3.jpg" alt="Anaconda instaler" style="width: 300px;"/>

La segunda dimensión del array `m` tiene valor 2, mientras que la segunda dmensión del array `n` es 1. El valor es distinto para la segunda dimensión, pero la operación se puede realizar extendiendo previamente la segunda dimensión del array `n`.

En el siguiente ejemplo, mostramos la suma de `n1` y `n2` con dimensiones (2,1) y (1,2) respectivamente. NumPy extiende ambos arrays hasta alcanzar dimensión (2,2) antes de realizar la operación.

<img src="./images/Imagen4.png" alt="" style="width: 300px;"/>


In [15]:
n1 = np.array([[2],[3]], int)
n1.shape

(2, 1)

In [16]:
n2 = np.array([[2, 3]], int)
n2.shape

(1, 2)

In [17]:
n1 + n2 

array([[4, 5],
       [5, 6]])

Puede darse el caso de que los arrays no tengan ni siquiera el mismo número de dimensiones. En ese caso NumPy asigna valor 1 a las dimensiones no existentes.

In [18]:
m1 = np.array([[1, 2], [3,4]], int)
m1

array([[1, 2],
       [3, 4]])

In [19]:
m1.shape

(2, 2)

In [20]:
m2 = np.array([5, 2], int)
m2

array([5, 2])

In [21]:
m1.shape

(2, 2)

In [22]:
m1 * m2

array([[ 5,  4],
       [15,  8]])

El producto matricial se obtiene mediante el uso de la función `np.dot` o creando objetos de tipo `matrix` en lugar de `ndarray`. 

In [23]:
A = np.array( [[1,1],[0,1]] )
B = np.array( [[2,0],[3,4]] )
M = np.dot(A,B)                    
M

array([[5, 4],
       [3, 4]])

## Funciones Universales

Se trata de funciones que se aplican a cada uno de los elementos de un array. Cada una de estas funciones recibe un array de entrada y devuelve como resultado otro array de la misma forma. Cada uno de los elementos del array devuelto, es el resultado de aplicar la función al correspondiente elemento en el array de entrada. Muchas de estas funciones son de aridad 1, como `np.sqrt` o `np.cos`:

In [24]:
a = np.array([0, 1, 4, 9, 16])
a

array([ 0,  1,  4,  9, 16])

Para calcular la raiz cuadrada de cada uno de los elementos del array escribimos lo siguiente:

In [25]:
np.sqrt(a)

array([0., 1., 2., 3., 4.])

Para calcular el coseno de cada uno de los elementos del array escribimos lo siguiente:

In [26]:
np.cos(a)

array([ 1.        ,  0.54030231, -0.65364362, -0.91113026, -0.95765948])

El cálculo del cuadrado de cada elemento:

In [27]:
np.square(a)

array([  0,   1,  16,  81, 256], dtype=int32)

Otras funciones son de aridad 2, como por ejemplo `np.maximum`, `np.power` o `np.greater_equal`:

In [28]:
b = np.array([1, 20, 3, 40, 5])

In [29]:
np.maximum(a,b)

array([ 1, 20,  4, 40, 16])

In [30]:
np.power(b,3)

array([    1,  8000,    27, 64000,   125], dtype=int32)

In [31]:
np.greater_equal(a,b)    

array([False, False,  True, False,  True])

A continuación mostramos algunas de las funciones universales disponibles en NumPy.

* Funciones trigonométricas
```
np.sin, np.cos, np.tan
np.arcsin, np.arccos, np.arctan
np.sinh, np.cosh, np.tanh
np.arcsinh, np.arccosh, np.arctanh
np.sin, np.cos, np.tan
np.arcsin, np.arccos, np.arctan
np.sinh, np.cosh, np.tanh
np.arcsinh, np.arccosh, np.arctanh
```

* Funciones logarítmicas
```
np.log, np.log10, np.log2
```

* Raíz cuadrada, potencia y exponente
```
np.sqrt
np.exp
np.power
```

* Suma, resta, multiplicación y división
```
np.add, np.subtract
np.multiply, np.divide
```

* Resto de la división entera (operación módulo)
```
np.remainder
```

* Signo y valor absoluto

```
np.sign, np.abs
```

* Conversión a valores de tipo entero
```
np.floor, np.ceil, np.rint
```

En https://docs.scipy.org/doc/numpy/reference/ufuncs.html se puede encontrar la lista completa de funciones universales.


## Funciones de Agregación

Las funciones de agregación en NumPy reciben como argumento de entrada un array y devuelven como resultado un valor escalar. El cálculo del máximo valor de un array `np.max`, la suma de sus elementos `np.sum` o las funciones estadísticas como por ejemplo la media `np.mean`o la desviación típica `np.std` son ejemplos de funciones de agregación. Todas ellas también se encuentran disponibles como operaciones de los arrays.

In [6]:
datos = np.arange(1, 10)
datos

array([1, 2, 3, 4, 5, 6, 7, 8, 9])

In [7]:
np.mean(datos)   #  operación definida en el módulo

5.0

O lo que es lo mismo:

In [8]:
datos.mean()     #  operación definida en el tipo de datos ndarray

5.0

In [35]:
datos.prod()

362880

In [36]:
np.remainder(datos,2)

array([1, 0, 1, 0, 1, 0, 1, 0, 1], dtype=int32)

A continuación mostramos algunas de las funciones de agregación disponibles en NumPy.
* 	`np.mean`	Calcula la media de los elementos del array
* 	`np.var`	Calcula la varianza de los elementos del array
* 	`np.std`	Calcula la desviación típica 
*	`np.prod`	Calcula el producto de los elementos del array
*	`np.sum`	Calcula la suma de los elementos del array
*	`np.min`	Devuelve el mínimo elemento del array
*	`np.max`	Devuelve el máximo elemento del array
*	`np.argmin`	Devuelve el índice asociado al mínimo elemento del array
*	`np.argmax`	Devuelve el índice asociado al máximo elemento del array
*	`np.cumsum`	Devuelve la suma acumulada de los elementos del array
*	`np.cumprod`	Devuelve el producto acumulado de los elementos del array


Por defecto, las funciones de agregación se aplican sobre el conjunto de todos los elementos del array de entrada. Es posible indicar mediante el argumento `axis`, el eje sobre el cuál la función de agregación debe aplicarse. Por ejemplo, en el caso de arrays de dos dimensiones, podemos calcular la suma completa de los elementos del array o la suma de los elementos con respecto al eje 0 o el eje 1.

In [37]:
datos = np.arange(1,10)
datos = datos.reshape(3,3)
datos

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [38]:
datos.sum()

45

In [39]:
datos.sum(axis = 0)

array([12, 15, 18])

In [40]:
datos.sum(axis = 1)

array([ 6, 15, 24])

## Operaciones de Conjunto

La siguiente tabla describe algunas de las operaciones de conjunto más usadas en el caso de arrays de una dimensión. El uso de arrays para describir conjuntos de datos y operar sobre ellos, permite escribir ciertas operaciones mediante expresiones vectorizadas.

| Función       | Descripción           | 
| ------------- |-------------| 
|`np.unique`      | Crea un nuevo array con elementos sin repetición | 
| `np.in1d`      | Comprueba si los elementos de un array están en otro array      |  
|`np.union1d`| Crea un nuevo array cuyos elementos están en uno de los dos arrays o en ambos|
|`np.intersect1d`|Crea u nuevo array cuyos elementos están en los dos arrays |
|`np.diff1d`|Crea un nuevo array cuyos elementos están en el primer array pero no en el segundo|




La función `np.unique` devuelve un array ordenado sin elementos repetidos.

In [3]:
a = np.array([1, 5 ,6 ,2, 4, 8, 1, 4, 5, 3, 1, 2 , 2])
np.unique(a)

array([1, 2, 3, 4, 5, 6, 8])

Por otro lado, la función `np.in1d` comprueba la pertenencia de los elementos de un array en otro array. Esta operación se realiza elemento a elemento y devuelve como resultado un array de tipo `bool`.

In [5]:
a = np.array([1, 5 ,6 ,2, 4, 8, 1, 4, 5, 3, 1, 2 , 2])
b = np.array([6, 1, 0, 50 ])
np.in1d(b, a)

array([ True,  True, False, False])

Para comprobar si `b` es un subconjunto de `a` podemos combinar las operaciones `np.in1d` y `np.all` de la siguiente manera:

In [45]:
np.all(np.in1d(b,a))

False

La operaciones union, intersección y diferencia se representan mediante las funciones `np.union1d`, `np.intersect1d` y `np.setdiff1d` respectivamente:

In [46]:
np.union1d(a,b)

array([0, 1, 2, 3, 4, 5, 6])

In [47]:
np.intersect1d(a,b)

array([1, 5, 6])

## Orden

Al igual que las listas, es posible ordenar arrays mediante la función `np.sort` o la operación `sort` de los arrays. La función recibe como argumento un array y devuelve un nuevo array ordenado. Sin embargo, la operación `sort` no devuelve un nuevo array, si no que modifica el array a ordenar.

In [11]:
arr = np.random.randint(1,10, 6)
arr

array([2, 6, 3, 7, 7, 8])

In [13]:
np.sort(arr)  

array([2, 3, 6, 7, 7, 8])

In [14]:
arr

array([2, 6, 3, 7, 7, 8])

In [15]:
arr.sort()

In [16]:
arr

array([2, 3, 6, 7, 7, 8])

## Referencias

* [Big Data. Análisis de datos con Python. Sarasa Cabezuelo, Antonio; García Ruiz, Yolanda
Aditorial Garceta. ISBN: 978-84-1622-883-6](http://www.garceta.es/libro.php?ISBN=978-84-1622-883-6)

* Libro del autor de NumPy:  http://csc.ucdavis.edu/~chaos/courses/nlp/Software/NumPyBook.pdf

* https://docs.scipy.org/doc/numpy/reference/routines.html En este enlace podemos encontrar el repertorio de funciones y métodos implementados en la librería NumPy. Todos ellos se encuentran clasificados por categorías. Además se presentan ejemplos de uso para facilitar su comprensión.
* Lista completa de funciones universales https://docs.scipy.org/doc/numpy/reference/ufuncs.html



-----------