![TheBridge_Numpy_v0.png](attachment:TheBridge_Numpy_v0.png)

##  Agregaciones


## Contenidos

* [Mínimo y Máximo](#Mínimo-y-Máximo)  
* [ Agregaciones multidimensionales](#-Agregaciones-multidimensionales)  
* [Argumento que maximiza o minimiza  (argmax, argmin)](#Argumento-que-maximiza-o-minimiza--(argmax,-argmin))  



Cuando nos enfrentamos a una gran cantidad de datos, un primer paso es calcular estadísticos mediante agregaciones de los datos, como por ejemplo la media, mediana o la desviación estándar. Con estas medidas podemos resumir el conjunto de los datos.

Numpy tiene una serie de funciones de agregación integradas rápidas para trabajar con sus matrices.



### Suma
Como primer ejemplo, vamos a calcular la suma de los valores de un array. Lo podemos implementar con la función *built-in* de Python `sum`.

In [None]:
import numpy as np

In [None]:
L = np.random.random(100)
print(L)
sum(L)

La sintaxis para el caso de Numpy es muy similar

Sin embargo, Numpy es computacionalmente mucho más potente a la hora de realizar este tipo de cálculos

In [None]:
from time import time

t_zero = time()

np.sum(big_array)

tiempo_npsum = time() - t_zero

t_zero = time()

sum(big_array)

tiempo_sum = time() - t_zero

print("sum:", tiempo_sum * 1000, "ms")
print("np.sum:", tiempo_npsum * 1000, "ms")

In [None]:
matriz = [[1,2,4], [2,4,5], [1,4,5]]


Como ves, la función `sum` y `np.sum` son funciones diferentes. No solo computacionalmente, sino que `np.sum` está preparada para trabajar con arrays multidimensionales.

### Mínimo y Máximo
  
[al indice](#Contenidos)  
Al igual que antes, Python dispone de las funciones `min` y `max`, utilizadas para obtener los valores mínimo y máximo de un array.

La función equivalente de Numpy tiene una sintaxis muy similar

Veamos también la diferencia de tiempos

In [None]:
from time import time

t_zero = time()

np.min(big_array)

tiempo_npmin = time() - t_zero

t_zero = time()

min(big_array)

tiempo_min = time() - t_zero

print("min:", tiempo_min * 1000, "ms")
print("np.min:", tiempo_npmin * 1000, "ms")

Para `min`, `max`, `sum` y otras funciones de agregación de Numpy, tienes disponible otra sintaxis, todavía más corta. Porque se pueden usar como métodos del tipo array.

###  Agregaciones multidimensionales
  
[al indice](#Contenidos)  
Un tipo de agregación muy habitual en Numpy es a lo largo de una fila, o de una columna.

Por defecto, cada función de agregación de Numpy se aplicará sobre toda la matriz

Las funciones de agregación tienen un parámetro en el que especificamos el eje sobre el cual queremos aplicar dicha operación. Por ejemplo, podemos conseguir el valor mínimo de cada columna, simplemente introduciendo el parámetro `axis=0`

La función devuelve cuatro valores, que se corresponden con las cuatro columnas.

Y de manera similar podemos obtener el valor máximo por fila.

La manera en la que se especifica el eje puede ser confusa, sobretodo si vienes de otro lenguaje. El argumento `axis` especifica la dimension sobre la que queremos aplicar la operación, en vez de la dimension que queremos que nos devuelva. Por lo que poniendo `axis=0` significa que el primer eje se quedará fijo, y agregará los valores de cada columna [Lo veremos con detalle en la sesión de live review]



### Argumento que maximiza o minimiza  (argmax, argmin)  
[al indice](#Contenidos)  


Para terminar veamos dos fuciones de localización. Una que nos permiten obtener el índice del elemento de valor máximo, argmax, y otra que nos permite obtener el índice del elemento de valor minimo, argmin.   
No nos dan el máximo o el mínimo ojo, nos dan la posición del elemento. Esto nos será de mucha utilidad en el futuro, sobre todo cuando lleguemos a las redes neuronales. [Lo volveremos a ver en ese momento pero es bueno que vayamos teniéndolo en el almacen de recuerdos que serán útiles en el futuro]

In [None]:
salida_neuronas = np.random.rand(6) # Generamos la salida aleatoria de una red neuronal
etiquetas_neurona = ["Azul", "Verde", "Rojo", "Negro", "Blanco", "Violeta", "Naranja"]

# Dada la salida de las neuronas, ¿cuál es el color preferido del cliente?


# Y el color que menos cree la red que le gusta



### Otras funciones de agregación
Numpy proporciona muchísimas funciones de agregación por lo que no veremos todas en detalle este notebook. No obstante, sí que es interesante conocer aquellas funciones de numpy que están hechas para ignorar los missings, es decir los `NaN`. Aquí tienes una tabla con varias funciones de agregación de gran utilidad, así como sus versiones compatibles para missings.

|Function Name      |   NaN-safe Version  | Description                                   |
|-------------------|---------------------|-----------------------------------------------|
| ``np.sum``        | ``np.nansum``       | Compute sum of elements                       |
| ``np.prod``       | ``np.nanprod``      | Compute product of elements                   |
| ``np.mean``       | ``np.nanmean``      | Compute mean of elements                      |
| ``np.std``        | ``np.nanstd``       | Compute standard deviation                    |
| ``np.var``        | ``np.nanvar``       | Compute variance                              |
| ``np.min``        | ``np.nanmin``       | Find minimum value                            |
| ``np.max``        | ``np.nanmax``       | Find maximum value                            |
| ``np.argmin``     | ``np.nanargmin``    | Find index of minimum value                   |
| ``np.argmax``     | ``np.nanargmax``    | Find index of maximum value                   |
| ``np.median``     | ``np.nanmedian``    | Compute median of elements                    |
| ``np.percentile`` | ``np.nanpercentile``| Compute rank-based statistics of elements     |
| ``np.any``        | N/A                 | Evaluate whether any elements are true        |
| ``np.all``        | N/A                 | Evaluate whether all elements are true        |