# Numpy

Hemos trabajado de forma indirecta con arrays de numpy. Las columnas numéricas en `pandas` los utilizan. Por ejemplo:

In [None]:
import pandas as pd
import numpy as np

venta = pd.read_csv('dat/venta-madrid-municipios.csv')
venta.head()

In [None]:
venta.dtypes

`numpy` nos facilita trabajar con arrays multi-dimensionales y aplicar operaciones matemáticas sobre ellos.

Podemos extraer el array de `numpy` de una columna aplicando la función [`to_numpy`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.to_numpy.html)

In [None]:
venta.precio.to_numpy()

## Creación e inspección básica

Tenemos varias utilidades para crear arrays de numpy. Una forma es especificar los elementos con `np.array`

In [None]:
# Un array uni-dimensional
a = np.array([2.3, 7.1, 4.7])
a

In [None]:
# Un array multi-dimensional (matrix 2x3)
b = np.array([[2, 7, 4], [7, 1, 5]])
b

In [None]:
# Un array de booleanos
c = np.array([True, False, False, True])
c

Las propiedades más importantes que tiene un array son:

* `shape`: las dimensiones
* `dtype`: el tipo
* `ndim`: el número de dimensiones (coincide con el número de elementos de `shape`)
* `size`: el número total de elementos (coincide con el producto de los elementos de `shape`)

In [None]:
b.shape

In [None]:
b.dtype

In [None]:
b.ndim

In [None]:
b.size

#### Ejercicio

Crea un array de tres dimensiones e inspecciónalo usando las propiedades descritas arriba

También existen otras funciones que facilitan crear arrays fácilmente, rellenos de ceros, unos u otros patrones habituales.

In [None]:
# Matriz de ceros
np.zeros([3, 4])

In [None]:
# Array de unos
np.ones(6)

In [None]:
# Array secuencial
np.arange(4)

In [None]:
# Matriz identidad
np.eye(3)

#### Ejercicio

Es útil poder crear arrays o matrices de números distribuidos aleatoriamente de cierta forma, para hacer demostraciones de métodos o probar rápidamente algo. Mira la documentación [aquí](https://docs.scipy.org/doc/numpy-1.14.1/reference/routines.random.html).

Encuentra la forma de generar arrays con 10k elementos de las siguientes distribuciones y pinta sus histogramas:

* Distribución uniforme entre 0 y 10
* Distribución normal con media en 5 y desviación estándar 2
* Distribución gamma con `k=2` y `theta=2`
* Distribución beta con `alpha=5` y `beta=2`
* Distribución beta con `alpha=2` y `beta=5`

## Operaciones

Las operaciones suma, resta, multiplicación, potencia y comparación lógica se aplican elemento a elemento

In [None]:
a = np.array([2, 5, 3])
b = np.array([4, 1, 2])

In [None]:
a - b

In [None]:
a + b

In [None]:
a ** 2

In [None]:
a >= 3

In [None]:
a * b

En Python, el operador `*` hace una multiplicación elemento a elemento. Si necesitas hacer una multiplicación entre matrices, puedes utilizar `@` o la función `dot()`.

In [None]:
A = np.array([[1, 2], [1, 2]])
B = np.array([[1, 0], [2, 2]])

In [None]:
# Elemento a elemento
A * B

In [None]:
# Multiplicación de matrices: forma 1
A @ B

In [None]:
# Multiplicación de matrices: forma 2
A.dot(B)

#### Ejercicio

Crea una matriz de 3x3 y multiplícala por la matriz identidad

`numpy` incorpora funciones matemáticas de utilidad, como `mean`, `max`, `argmax`, `std`, `median`, `abs`, `sqrt`, `sin`, `cos`, ...

In [None]:
# Algunas se pueden invocar desde el array
a.mean()

In [None]:
# O desde el módulo de numpy
np.mean(a)

En las funciones *de resumen* se puede especificar el eje (p.e. operación por filas, por columnas)

In [None]:
A.sum()

In [None]:
A.sum(axis=0)

In [None]:
A.sum(axis=1)

## Casting

El casting es la conversión de tipos. En algunos casos, este implica la pérdida de información (p.e. de `float` a `int`).

In [None]:
# Para convertir, se eliminan los decimales (aunque esté más cerca del siguiente entero)
a = np.array([2.3, 7.6, 4.99])
a.astype(int)

#### Ejercicio

Investiga y encuentra una forma de convertir un array de `float` a `int` redondeando de diferentes formas:

* Al entero más cercano
* Al entero inferior
* Al entero superior

También podemos aplicar el casting entre otros tipos. Por ejemplo:

In [None]:
np.array([1, 2, 5]).astype(float)

In [None]:
np.array([True, False, True]).astype(int)

In [None]:
np.array([0, 1, 2]).astype(bool)

## Acceso a elementos o rangos

De forma parecida a como accedemos a elementos o rangos en listas y `DataFrames`, podemos hacerlo sobre arrays de `numpy`.

In [None]:
a = np.array([2, 3, 5, 7, 11, 13, 17, 19, 23])

In [None]:
a[3]

In [None]:
a[1:4]

In [None]:
a[:4]

In [None]:
# saltos
a[::2]

Podemos sobrescribir elementos con la asignación

In [None]:
b = a.copy()
b

In [None]:
b[1:3] = 0
b

#### Ejercicio

En el ejemplo anterior hemos cogido los elementos en índices pares. Haz lo mismo para los índices impares

## Manipulación de la forma

Con `reshape` podemos alterar la forma de un array

In [None]:
a = np.arange(12)
a

In [None]:
a.reshape(3, 4)

In [None]:
a.reshape(4, 3)

Con `.T` obtenemos la traspuesta

In [None]:
# Creamos una matriz de ejemplo de 2x3
A = np.arange(6).reshape(2, 3)
A

In [None]:
# La traspuesta
A.T

Con `ravel` aplanamos una matriz

In [None]:
A.ravel()

#### Ejercicio

Aplana la matriz anterior sin utilizar `ravel`.

#### Ejercicio

Crea una función genérica `flatten` que aplane cualquier array multi-dimensional de `numpy`. Prueba que funcione bien con diferente número de dimensiones.

## Nulos e infinitos

Los arrays de `numpy` pueden contener valores nulos (`NaN`) e infinitos (positivos o negativos). Por ejemplo:

In [None]:
a = np.array([1, np.NaN, 5, -np.Inf])
a

Nos suele interesar detectar estos valores para tratarlos (p.e. eliminarlos o imputarlos)

In [None]:
np.isnan(a)

In [None]:
# NaN no es finito
np.isfinite(a)

Podemos utilizar los métodos de arriba como condición, y seleccionar solo algunos elementos del array

In [None]:
# Utilizamos ~ como NOT, igual que con DataFrames
a[~np.isnan(a)]

In [None]:
a[np.isfinite(a)]

#### Ejercicio

Crea una función `imputa_media` que acepte un array e impute los valores no-finitos por la media del resto.

*Nota*: haz una copia del array al comienzo de tu función para evitar modificar el original

#### Ejercicio

Crea una función `imputa` similar a la anterior, pero que la función de imputación (media, mediana) sea un argumento más. Por ejemplo, para replicar el comportamiento de la función anterior, usaríamos:

```
imputa(a, np.mean)
```

#### Ejercicio

Crea un array de 10 posiciones con números aleatorios y sustituye el valor más alto por la mitad de este

#### Ejercicio

Crea un array con 20 números aleatorios distribuidos uniformemente entre 0 y 10 y encuentra el valor más cercano a 7.

#### Ejercicio

Sobre la matriz `A`, resta a cada fila la media de esta.

In [None]:
A = np.array([[1, 2, 3], [1, 5, 6], [2, 2, 2]])
A

#### Ejercicio

Sobre el array con los números del 1 al 5, construye un nuevo array que intercale tres ceros consecutivos entre cada valor

## Referencia

Esta documentación está basada en el tutorial de numpy disponible [aquí](https://docs.scipy.org/doc/numpy/user/quickstart.html). Consúltalo para ampliar información.