![imagen](./img/numpy.png)

# Numpy y matrices

En este Notebook descubrirás la que es probablemente **la librería más utilizada en Python**, `numpy`, la cual nos va a permitir trabajar con una gran variedad de datos en memoria como colecciones de documentos, imágenes, audios o medidas numéricas.

1. [Listas y matrices](#1.-Listas-y-matrices)
2. [Numpy](#2.-Numpy)
3. [Creacion de arrays](#3.-Creacion-de-arrays)
4. [Atributos del array](#4.-Atributos-del-array)
5. [Indexado](#5.-Indexado)
6. [Slicing y subarrays](#6.-Slicing-y-subarrays)
7. [Reshape](#7.-Reshape)
8. [Tipos de los datos](#8.-Tipos-de-los-datos)
9. [Concatenado](#9.-Concatenado)
10. [Sustitucion](#10.-Sustitucion)
11. [Copias](#11.-Copias)
12. [Splitting](#12.-Splitting)
13. [Agregaciones](#13.-Agregaciones)

## 1. Listas y matrices
Ya conocemos muy bien cómo funcionan las listas, aunque en este apartado profundizaremos un poco más en sus funcionalidades, acceso y dimensiones. **Las listas en Python son muy versátiles, lo que nos dan una gran flexibilidad a la hora de modelizar nuestros datos**. Además este apartado nos servirá para refrescar conceptos con vistas a **comparar listas de Python con los arrays de Numpy**.

Declaramos una lista sencilla

In [None]:
my_list = [1,2,3,4,5,6,7,8,9]
my_list

Recordamos cómo accediamos a los elementos

In [None]:
# Primero
print(my_list[0])

# Segundo
print(my_list[1])

# Ultimo
print(my_list[-1])

# Del 2do al 4to incluidos
print(my_list[1:4])

# Desde el segundo elemento
print(my_list[1:])


¿Y si necesitamos una lista con múltiples dimensiones? ¡También podemos!

In [None]:
my_matrix = [[1,2,3],
            [4,5,6],
            [7,8,9]]
my_matrix

De esta forma estamos declarando una matriz de 3 filas x 3 columnas. ¿Cómo accedemos a sus elementos?

In [None]:
# Primera lista
print(my_matrix[0])

# Ultima lista
print(my_matrix[-1])

# Tercer elemento de la primera fila
print(my_matrix[0][2])
print(type(my_matrix[0][2]))

# Añadir elementos
my_matrix.append([10,11,12])
print(my_matrix)

# Queremo añadir más elementos a una de las listas de la matriz
my_matrix[0].extend([1.5, 2.5, 3.5])
my_matrix[1].append([1.5, 2.5, 3.5]) # Elemento nuevo
print(my_matrix)

En los ejemplos de arriba hemos accedido a los elementos de la matriz directamente con sus índices, pero si no sabemos cómo de grande es la matriz, habrá que iterarla mediante bucles.

In [None]:
my_matrix = [[1,2,3],
            [4,5,6],
            [7,8,9]]

for i in range(len(my_matrix)):
    
    for j in range(len(my_matrix)):
        
        print(my_matrix[i][j], end = ' ')
        
    print()

Bien, hasta aquí todo correcto, **¿pero y si queremos multiplicar nuestra matriz por un escalar?** Es decir, simplemente aplicarle una operación a cada elemento de la matriz. Veamos cómo se hace.

In [None]:
my_matrix = [[1,2,3],
            [4,5,6],
            [7,8,9]]

for i in range(len(my_matrix)):
    
    for j in range(len(my_matrix)):
        
        my_matrix[i][j] = my_matrix[i][j] * 10
        
my_matrix

¡Conseguido! Aunque un poco aparatoso para ser una operación tan sencilla como multiplicar una matriz por 10. ¿Y si queremos hacer una matriz traspuesta? ¿Y si tenemos dos matrices de las mismas dimensiones y queremos multiplicar elemento a elemento? Se complica todavía más la cosa y tendremos que acudir a los bucles para solucionarlo cuando realmente hay una librería que lo hace por nosotros :)

Recuerda que gran parte de la potencia de Python reside en sus librerías, ya que ahorra muchísimo tiempo el no tener que implementar ciertas funciones en nuestro código ya que esas y muchas más vienen ya desarrolladas en paquetes más que probados como `numpy`.

## 2. Numpy
Esta librería va un paso más allá que las listas y permite realizar operaciones entre arrays, listas o matrices de una manera óptima. Características de `numpy`:

* **Librería**: Es una librería de Python por lo que tendrás que importarla mediante `import numpy as np`. Por costumbre se suele poner el alias `np`.

* **Listas y matrices**: Si nunca has trabajado con estos formatos de datos, no te puedes imaginar la cantidad de cosas que puedes hacer. Formatos de datos como por ejemplo las imágenes no dejan de ser matrices de números, que interpretados de la manera adecuada, representan píxeles con sus posiciones y sus colores.

* **Rendimiento**: no es un tema *core* en Data Science ya que para realizar tus análisis explotatorios o ejecutar tus modelos, lo vas a poder hacer igual sin preocuparte de este factor. Ahora bien, la cosa se complica cuando productivizamos productos de datos y el SLA (Service Learning Agreement) es exigente. Aquí entra en juego `numpy` ya que es una librería muy rápida.


**¿Qué podemos tratar con `numpy`?**
* **Imágenes**: las imágenes se pueden tratar como arrays de pixels, los cuales tienen unos valores dependiendo del color.
* **Audio**: también se pueden manejar mediante arrays unidimensionales.
* **Texto**: lo podemos representar también en un formato numérico.

Podrás encontrar toda la [documentación de `numpy` en su página oficial](https://numpy.org/doc/).

In [None]:
!pip install numpy

In [None]:
# Importamos numpy
import numpy as np
np.__version__

In [None]:
help(np)

In [None]:
np?

In [None]:
help(np.random)

Se verá más en detalle en posteriores apartados, pero algunos ejemplos de cosas que podemos hacer con `numpy` son:

In [None]:
array = np.array([1,2,3,4,5,6,7,8,9])

array * 10

In [None]:
from skimage.io import imread
import matplotlib.pyplot as plt

imagen = imread("./img/python.jpg")
print(type(imagen))
print(imagen.shape)

plt.imshow(imagen)

In [None]:
imagen

In [None]:
print(imagen.ndim)
print(imagen.shape)
print(imagen.size)

In [None]:
imagen[200][200]

## 3. Creacion de arrays
Lo primero, importamos la librería de `numpy`

In [28]:
import numpy as np

**Vectores**

Ya podemos crear nuestro primer vector. Que se trata de un array de 1D

In [None]:
array = np.array([1,2,3,4,5])
print(array)
print(type(array))

El acceso a sus elementos es igual que en las listas

In [None]:
print(array[0])
print(array[-1])
print(array[-2])

**Fíjate en el tipo**. Ya no son listas, aunque lo parecen. Incluso los tipos de los datos ya no son los que conocemos, sino que `numpy` aporta nuevos tipos de datos. Lo veremos más adelante.

In [None]:
print(type(array))
print(type(array[0]))
print(array.dtype)

**Matrices**

Vamos a crear ahora un **array multidimensional**

In [None]:
my_list = [[1,2,3], [4,5,6], [7,8,9]]
print(my_list)

In [None]:
array_multi = np.array([[1,2,3], [4,5,6], [7,8,9]])
print(array_multi)

Otra ventaja de usar `numpy` en vez de listas es que el `print` lo realiza en formato matriz, lo que nos permite ver los datos mucho mejor que si lo imprimiese en una sola línea.

**Secuencias**

¿Recuerdas `range()`? Lo usábamos en listas para crear secuencias, estableciendo el punto de inicio, de parada, y el salto entre elementos. En `numpy` hay algo parecido denominado `arange`. [Te dejo el enlace a la documentación](https://numpy.org/doc/stable/reference/generated/numpy.arange.html).

In [None]:
# Array del 0 al 9
print(np.arange(10))

# Del 0 al 9, con saltos de 2
print(np.arange(start=0,stop=10,step=2))

# Array de 0 al 10, con saltos de 0.5
print(np.arange(0, 10, 0.5))

# Especficiando el tipo de dato
print(np.arange(0, 10, 2, np.float64))

**Random**

Otra opción es usar el paquete `random` de `numpy`. **Muy útil cuando tenemos que crear secuencias aleatorias**, y lo mejor de todo es que tiene una gran cantidad de opciones para configurar. [Consulta la documentación para más detalle](https://docs.scipy.org/doc/numpy-1.14.0/reference/routines.random.html).

In [None]:
print(np.random.rand(10))

# Matriz de numeros aleatorios
print(np.random.randint(5, size = (3,4)))

# Unidimensional
print(np.random.randint(5,10, size = (10)))

In [None]:
print(np.random.randint(5,20, size = (3,4)))

In [None]:
array_10 = np.random.rand(10)
print(array_10)
print(np.round(array_10,4))

**Seed**

Como habrás podido comprobar, cada ejecución de una secuencia aleatoria es diferente. **Fijando una semilla, todas las secuencias aleatorias que ejecutes (si tienen los mismos argumentos), tendrán siempre el mismo output**. Se usa mucho cuando queremos replicar resultados, o compartirlos con otros compañeros. Los resultados que obtengas en este Notebook no serán los mismos que obtenga el compañero, en caso de haber un factor aleatorio, por lo que no vamos a poder comparar los Notebooks... A no ser que ambos fijéis la misma semilla.

**¿Qué valor ponemos en seed? El que queramos** mientras en el resto de Notebooks donde queramos replicar estos resultados, tengan la misma semilla.

In [None]:
np.random.seed(1234)
print(np.random.rand(10))

np.random.seed(5678)
print(np.random.rand(10))

np.random.seed(None)
print(np.random.rand(10))

In [None]:
np.random.seed(1234)
print(np.random.rand(10))

In [None]:
np.random.seed(5678)
print(np.random.rand(10))

In [None]:
np.random.seed(1234)
print(np.random.randint(10))

In [None]:
np.random.seed(5678)
print(np.random.randint(10))

**Matrices con valores**
[Hay diferentes maneras de crear arrays o matrices](https://numpy.org/doc/stable/reference/routines.array-creation.html), pero en ocasiones necesitamos tener predefinidas matrices con un único valor. Veamos algunos ejemplos.

In [None]:
# Matriz identidad
print(np.identity(3))

In [None]:
# Matriz de 0s
np.zeros((3,3))

In [None]:
# Matriz de unos
np.ones((3,3), np.int32)

In [None]:
# Matriz con 100es
np.full((3,3), 100)

<table align="left">
 <tr><td width="80"><img src="./img/ejercicio.png" style="width:auto;height:auto"></td>
     <td style="text-align:left">
         <h3>Ejercicio creación de arrays en numpy</h3>

      
<ol>
    <li>Crea un array con 3 deportes que te gusten</li>
    <li>Accede al primer elemento y al último</li>
    <li>Comprueba los tipos de los datos</li>
    <li>Crea una secuencia de numeros del 10 al 0, con saltos de -0.5</li>
    <li>Crea una matriz de 5x2 con numeros enteros aleatorios comprendidos entre el 10 y el 20</li>
</ol>
         
 </td></tr>
</table>

## 4. Atributos del array

Hay ciertos atributos que debemos conocer:
* `ndim`: es el numero de dimensiones. Número de niveles que tiene el array de `numpy`.
* `shape`: tamaño de cada una de las dimensiones. Devuelve el resultado en formato `tupla`
* `size`: cantidad de elementos del array.

In [None]:
array_multi = np.array([[1,2,3], [4,5,6], [7,8,9]])
print(array_multi)
print(array_multi.ndim)
print(array_multi.shape)
print(array_multi.size)

In [None]:
my_list = [[[1,10], [2, 20], [3, 30]],[[4, 40], [5, 50], [6, 60]],[[7, 70], [8, 80], [9, 90]]]

for i in range(len(my_list)):
    for j in range(len(my_list[i])):
        for z in range(len(my_list[i][j])):
            print(my_list[i][j][z])

In [None]:
my_list = [[[1,10], [2, 20], [3, 30]],[[4, 40], [5, 50], [6, 60]],[[7, 70], [8, 80], [9, 90]]]

print(len(my_list))
print(len(my_list[0]))
print(len(my_list[0][0]))

In [None]:
array_multi_3 = np.array([[[1,10], [2, 20], [3, 30]],
                          [[4, 40], [5, 50], [6, 60]],
                          [[7, 70], [8, 80], [9, 90]]])
print(array_multi_3)
print("ndim:", array_multi_3.ndim)
print("shape:", array_multi_3.shape)
print("size:", array_multi_3.size)

Otros atributos interesantes son:
* `itemsize`: tamaño en bytes de los items del array
* `nbytes`: tamaño en bytes de todo el array

In [None]:
array = np.array([1,2,3,4,5])
print(array)
print(array.itemsize)
print(array.nbytes)

In [None]:
array.dtype

In [None]:
array = np.array([1,2,3,4,5], dtype = np.float64)
print(array.itemsize)
print(array.nbytes)

Vemos que aumentando el tamaño de los elementos, el array es el doble de pesado. Profundizaremos más adelante en los tipos.

## 5. Indexado
¿Cómo accedemos a los elementos del array?

Declaremos primero varios arrays

In [None]:
array_1 = np.array([1,2,3,4,5])
array_2 = np.array([[1,2,3], [4,5,6], [7,8,9]])
array_3 = np.array([[[1,10], [2, 20], [3, 30]],
                    [[4, 40], [5, 50], [6, 60]],
                    [[7, 70], [8, 80], [9, 90]]])

print(array_1.ndim)
print(array_2.ndim)
print(array_3.ndim)

Probamos primero con el primer array

In [None]:
print(array_1[0])
print(array_1[2:5])

Vamos ahora con el de dos dimensiones

In [None]:
print(array_2[0])

# Segundo elemento de la primera fila
print(array_2[0][1])
print(array_2[0,1])

# Tipo del primer elemento
print(type(array_2[0]))
print(type(array_2[0][0]))

Y ahora con el de 3

In [None]:
print(array_3)

In [None]:
print(array_3[0])
print(array_3[0][-1][-1])
print(array_3[0,-1,-1])

## 6. Slicing y subarrays
Ya hemos visto que podemos acceder a los elementos individuales del array usamos la sintaxis con corchetes, pero si necesitamos acceder a un conjunto de valores, tendremos que usar `:`. El slicing sigue la siguiente sintaxis:
```Python
x[start:stop:step]
```
Por defecto, si no ponemos alguno de estos argumentos, `start = 0`, `stop = tamaño de la dimensión` y `step = 1`.

Recuerda, al igual que en listas, el `start` está incluido, mientras que el stop no.

Veamos primero un ejemplo para una dimensión

In [None]:
# Array de 10 elementos
x = np.arange(10)
print(x)

print("Del primer elemento al quinto", x[0:5])

print("Del primero al quinto con saltos de dos", x[0:5:2])

print("Desde el quinto", x[5::])
print("Desde el quinto", x[5:]) # equivalente

print("Desde el quinto hasta el penultimo", x[5:-1])

print("Desde el quinto, al primero", x[5::-1])

print("Sacar una copia", x[:])
print("Sacar una copia", x.copy())

print("Ultimos dos elementos",x[-2:])

<table align="left">
 <tr><td width="80"><img src="./img/ejercicio.png" style="width:auto;height:auto"></td>
     <td style="text-align:left">
         <h3>Ejercicio slicing</h3>

      
<ol>
    <li>Todos los elementos, pero de dos en dos</li>
    <li>Todos los elementos, pero de dos en dos, a partir del segundo item</li>
    <li>Todo, pero invertido</li>
    <li>Obtén los últimos dos items, y muéstralos invertidos</li>
    <li>Todo, excepto los ultimos dos items, y muéstralos invertidos.</li>
</ol>
         
 </td></tr>
</table>

Veamos ahora unos ejemplos multidimensionales. Funciona igual, lo unico que ahora cada dimension irá separado por comas

In [None]:
array_multi = np.array([[1,2,3,4,5], [6,7,8,9,10], [11,12,13,14,15]])
print(array_multi)

print("2 primeras filas y 3 primeras columnas\n", array_multi[:2, :3])

print("Todas las filas, cada dos columnas\n", array_multi[::, ::2])

print("Invertir las filas\n", array_multi[::-1])

print("Invertir columnas\n", array_multi[::,::-1])

print("Invertir filas y columnas\n", array_multi[::-1,::-1])

Otra forma de quedarnos con subarrays, o de filtrarlos, es mediante una máscara de booleanos. La máscara tiene las mismas dimensiones que el array, y donde haya un `True`, se quedará con ese valor, pero donde haya un `False`, lo ignorará.

In [None]:
x = np.array([2,4,5,2,3,7,2])

print(x)
print(x == 2)

In [None]:
x_bools = np.array(x == 2)
print(x_bools)
print(x[x_bools])
print(x_bools[x_bools])

## 7. Reshape
Con el reshape podremos **cambiar las dimensiones de los arrays**, siempre y cuando en numero de elementos sea posible. Por ejemplo, si tenemos 4 elementos, no podremos hacer una matriz de 3x3.

Éste método se puede utilizar en una infinidad de casos, pero lo más habitual sería, partiendo de un array de una dimensión, convirtiéndolo en multidimensión.

In [None]:
x = np.arange(9)
print(x)

y = x.reshape((3,3))
print(y)

In [None]:
x = np.arange(30).reshape(2,3,5)
print(x)

In [None]:
x = np.arange(30).reshape((6,5))
print(x)

<table align="left">
 <tr><td width="80"><img src="./img/error.png" style="width:auto;height:auto"></td>
     <td style="text-align:left">
         <h3>ERRORES con reshape</h3>
         
 </td></tr>
</table>

In [None]:
x = np.array([1,2,3])
x.reshape((3,4))

## 8. Tipos de los datos
En `numpy` también hay **que tener en cuenta los tipos de datos con los que trabajamos**, para no cometer el error de *mezclar peras con manzanas*. Es más, **`numpy` es mucho más variado en cuanto a tipos**, que el propio intérprete de Python. 

En el caso de `numpy`, hay que pensar en el factor tamaño cuando especifiquemos los tipos de los datos. No es lo mismo el numero 12, que el 120000000000. Desde el punto de vista del intérprete de Python, son dos `int`s, pero para numpy son un `int32` o un `int64`. Ese número es la cantidad de bits que se necesita para representar el valor. Cuanto más grande sea el valor, mayor cantidad de bits utilizaremos.

[En la documentación tienes el detalle de todos los tipos de datos.](https://numpy.org/devdocs/user/basics.types.html)

Por ejemplo, valores numéricos

In [None]:
# Valores normales
x = np.array([1,2,3,4])
print(x)
print(x.dtype)

# Valores mas grandes
x = np.array([100000000000000000])
print(x)
print(x.dtype)

In [None]:
# Floats
x = np.array([1.])
print(x)
print(x.dtype)

Si tenemos booleanos

In [None]:
x = np.array([True, False, True])
print(x.dtype)

Cadenas de texto. La `U` viene de unicode, que es la codificación que sigue `numpy`. Y el número de al lado es la longitud de la cadena de texto más larga del array.

In [None]:
x = np.array(['aaaa', 'b', 'c'])
print(x.dtype)

Podemos mezclar varios tipos de datos, pero `numpy` forzará un solo tipo. ¿Cómo lo hace? Realiza las conversiones de tal manera que no pierda información en la conversión. En la conversión prima el siguiente orden: String -> Float -> Int -> Boolean

In [None]:
print(np.array(['a', True]))
print(np.array([1, False]))
print(np.array([1, 1.]))

## 9. Concatenado
Para concatenar matrices, `numpy` tiene varios métodos: `np.concatenate`, `np.vstack` o `np.hstack`. Lo único que hay que tener en cuenta es que coincidan las dimensiones, para que el concatenado sea correcto.

In [None]:
x = np.array([1,2,3])
y = np.array([3,2,1])
np.concatenate((x,y))

Como ves, el concatenado es horizontal. Al ser elementos de 1D, mantiene las dimensiones. Se pueden concatenar todos los arrays que queramos.

In [None]:
z = np.array([99,99,99])
np.concatenate([x,y,z])

Probemos ahora con arrays bidimensionales

In [None]:
xy = np.array([[1,2,3],
              [4,5,6]])

np.concatenate([xy,xy])

Ahora podemos jugar con los ejes. El método `concatenate` tiene un argumento que es `axis`, con el cual podemos jugar con las dimensiones y elegir el tipo de concatenado.

In [None]:
np.concatenate([xy,xy], axis = 1)

Si tenemos arrays de diferentes dimensiones, puede resultar más útil usar `vstack`

In [None]:
xy = np.array([[1,2,3],
              [4,5,6]])

x = np.array([7,8,9])

np.vstack([xy,x])

O si queremos hacer un concatenado horizontal, lo haremos mediante `hstack`.

In [None]:
xy = np.array([[1,2,3],
              [4,5,6]])

x = np.array([[7], [8]])
np.hstack([xy,x])

## 10. Sustitucion
En `numpy` podemos aplicar operaciones para sustituir elementos dependiendo de ciertas condiciones, y con esa sintaxis de sustitución también es posible filtrar datos de las matrices.

In [None]:
xy = np.array([[1,2,3],
              [4,5,6]])

my_filter = ([True, False])

xy[my_filter]

De esta manera, lo que hacemos es preparar una lista de booleanos, y se lo aplicamos al array. Si lo queremos hacer de una manera más automática y entendible, utilizamos `where`.

In [None]:
xy = np.array([[1,2,3],
              [4,5,6]])


print(np.where(xy < 4, 10, 20))
print(np.where(xy < 4, 10, xy))

O incluso podemos sustituit los que se den en la condición, y el resto mantener los valores del array.

## 11. Copias
Una característica importante y extremadamente útil en los arrays es que cuando **hacemos *slicing*, realmente obtenemos de los arrays vistas, no copias**. ¿Esto qué significa? Que si hacemos *slicing*, creando un nuevo array, y lo modificamos, también estaremos modificando el original.

Esto difiere con las listas de Python, que al aplicar *slicing* lo que obtenemos es una copia, y por tanto cualquier modificación sobre la nueva lista no afectará a la lista original.

Declaro un array

In [None]:
x2 = np.ones((3, 4))
x2

Extraemos una matriz 2x2

In [None]:
x2_sub = x2[:2, :2]
print(x2_sub)

Si ahora modificamos un elemento del nuevo subarray, verás que el array original ha cambiado

In [None]:
x2_sub[0, 0] = 99
print(x2_sub)

In [None]:
print(x2)

Esta característica es bastante útil ya que si trabajamos con datasets muy grandes, podremos acceder y procesar partes del dataset original, sin necesidad de hacer copias, y por tanto, sin sobrecargar la memoria.

Aunque siempre tenemos la opción de realizar copias del array mediante la sentencia `copy()`

In [None]:
x2_sub_copy = x2[:2, :2].copy()
print(x2_sub_copy)

Ahora si modificamos el subarray, el original se quedará como estaba

In [None]:
x2_sub_copy[0, 0] = 42
print(x2_sub_copy)

In [None]:
print(x2)

## 12. Splitting
Al igual que hacíamos el concatenado, podemos realizar la operación contraria mediante `np.split`, `np.hsplit` y `np.vsplit`. Le podemos pasar una lista de indices por los que realizar el split.

In [None]:
x = np.array([1, 2, 3, 99, 99, 3, 2, 1])
x1, x2, x3 = np.split(x, [2, 5])
print(x1, x2, x3)

In [None]:
print(x[:2])
print(x[2:5])
print(x[5:])

N puntos de splitting, supone crear N + 1 subarrays nuevos.

`np.hsplit` y `np.vsplit` funcionan de manera similar

In [None]:
grid = np.arange(16).reshape((4, 4))
grid

In [None]:
upper, lower = np.vsplit(grid, [2])
print(upper)
print(lower)

In [None]:
left, right = np.hsplit(grid, [2])
print(left)
print(right)

## 13. Agregaciones
Cuando nos enfrentamos a una gran cantidad de datos, un primer paso es calcular estadísticos mediante agregaciones de los datos, como por ejemplo la media, mediana o la desviación estándar. Con estas medidads podemos resumir el conjunto de los datos.

Numpy tiene una serie de funciones de agregación integradas rápidas para trabajar con sus matrices.

#### Suma
Como primer ejemplo, vamos a calcular la suma de los valores de un array. Lo podemos implementar con la función *built-in* de Python `sum`.

In [None]:
L = np.random.random(100)
print(L)
sum(L)

La sintaxis para el caso de Numpy es muy similar

In [None]:
np.sum(L)

Sin embargo, Numpy es computacionalmente mucho más potente a la hora de realizar este tipo de cálculos

In [None]:
big_array = np.random.rand(1000000)
%timeit sum(big_array)
%timeit np.sum(big_array)

Como ves, la función `sum` y `np.sum` son funciones diferentes. No solo computacionalmente, sino que `np.sum` está preparada para trabajar con arrays multidimensionales.

#### Mínimo y Máximo
Al igual que antes, Python dispone de las funciones `min` y `max`, utilizadas para obtener los valores mínimo y máximo de un array.

In [None]:
min(big_array), max(big_array)

La función equivalente de Numpy tiene una sintaxis muy similar

In [None]:
np.min(big_array), np.max(big_array)

In [None]:
%timeit min(big_array)
%timeit np.min(big_array)

Para `min`, `max`, `sum` y otras funciones de agregación de Numpy, tienes disponible otra sintaxis, todavía más corta.

In [None]:
print(big_array.min(), big_array.max(), big_array.sum())

####  Agregaciones multidimensionales
Un tipo de agregación muy habitual en Numpy es a lo largo de una fila, o de una columna.

In [None]:
M = np.random.random((3, 4))
print(M)

Por defecto, cada función de agregación de Numpy se aplicará sobre toda la matriz

In [None]:
M.sum()

Las funciones de agregación tienen un parámetro en el que especificamos el eje sobre el cual queremos aplicar dicha operación. Por ejemplo, podemos conseguir el valor mínimo de cada columna, simplemente introduciendo el parámetro `axis=0`

In [None]:
M.sum(axis=0)

In [None]:
M.min(axis=0)

La función devuelve cuatro valores, que se corresponden con las cuatro columnas.

Y de manera similar podemos obtener el valor máximo por fila.

In [None]:
M.max(axis=1)

La manera en la que se especifica el eje puede ser confusa, sobretodo si vienes de otro lenguaje. El argumento `axis` especifica la dimension sobre la que queremos aplicar la operación, en vez de la dimension que queremos que nos devuelva. Por lo que poniendo `axis=0` significa que el primer eje se quedará fijo, y agregará los valores de cada columna

#### Otras funciones de agregación
Numpy proporciona muchísimas funciones de agregación por lo que no veremos todas en detalle este notebook. No obstante, sí que es interesante conocer aquellas funciones de numpy que están hechas para ignorar los missings, es decir los `NaN`. Aquí tienes una tabla con varias funciones de agregación de gran utilidad, así como sus versiones compatibles para missings.

|Function Name      |   NaN-safe Version  | Description                                   |
|-------------------|---------------------|-----------------------------------------------|
| ``np.sum``        | ``np.nansum``       | Compute sum of elements                       |
| ``np.prod``       | ``np.nanprod``      | Compute product of elements                   |
| ``np.mean``       | ``np.nanmean``      | Compute mean of elements                      |
| ``np.std``        | ``np.nanstd``       | Compute standard deviation                    |
| ``np.var``        | ``np.nanvar``       | Compute variance                              |
| ``np.min``        | ``np.nanmin``       | Find minimum value                            |
| ``np.max``        | ``np.nanmax``       | Find maximum value                            |
| ``np.argmin``     | ``np.nanargmin``    | Find index of minimum value                   |
| ``np.argmax``     | ``np.nanargmax``    | Find index of maximum value                   |
| ``np.median``     | ``np.nanmedian``    | Compute median of elements                    |
| ``np.percentile`` | ``np.nanpercentile``| Compute rank-based statistics of elements     |
| ``np.any``        | N/A                 | Evaluate whether any elements are true        |
| ``np.all``        | N/A                 | Evaluate whether all elements are true        |

#### Ejemplo
##### ¿Cuál es la estatura media de los presidentes de EEUU?
Las funciones de agregación de Numpy pueden resultar de gran utilidad a la hora de resumir sets de datos. En este ejemplo vamos a considerar las diferentes estaturas de los presidentes de Estados Unidos. Tienes estos datos disponibles en el SV *president_heights.csv*.

Utilizaremos el paquete Pandas para leer los datos

In [None]:
import pandas as pd
data = pd.read_csv('data/president_heights.csv')
data.head()

In [None]:
heights = np.array(data['height(cm)'])
print(heights)

Ahora que tenemos los datos en un array podemos calcular una serie de estadísticos

In [None]:
print("Mean height:       ", heights.mean())
print("Standard deviation:", heights.std())
print("Minimum height:    ", heights.min())
print("Maximum height:    ", heights.max())

Fíjate que en cada operación de agregación, estamos reduciendo el array entero a un único valor, el cual nos da información sobre cómo se distribuyen los valores.

Podemos ver también los cuantiles:

In [None]:
print("25th percentile:   ", np.percentile(heights, 25))
print("Median:            ", np.median(heights))
print("75th percentile:   ", np.percentile(heights, 75))

Vemos que la altura mediana de los presidentes es de 182 cm.

Por supuesto, en ocasiones resulta más útil desarrollar representaciones visuales de los datos, en vez de calcular simples estadísticos. Esto lo podemos hacer mediante librerías como seaborn o matplotlib.

In [63]:
%matplotlib inline
import matplotlib.pyplot as plt
import seaborn; seaborn.set()  # set plot style

In [None]:
plt.hist(heights)
plt.title('Height Distribution of US Presidents')
plt.xlabel('height (cm)')
plt.ylabel('number');