# Numpy

Hemos trabajado de forma indirecta con arrays de numpy. Las columnas numéricas en `pandas` los utilizan. Por ejemplo:

In [1]:
import pandas as pd
import numpy as np

venta = pd.read_csv('dat/venta-madrid-municipios.csv')
venta.head()

Unnamed: 0,municipio,ano,quarter,precio
0,Alcalá De Henares,2002,2,1431.734633
1,Alcobendas,2002,2,2325.59394
2,Alcorcón,2002,2,1725.477287
3,Algete,2002,2,1447.80843
4,Alpedrete,2002,2,


In [2]:
venta.dtypes

municipio     object
ano            int64
quarter        int64
precio       float64
dtype: object

`numpy` nos facilita trabajar con arrays multi-dimensionales y aplicar operaciones matemáticas sobre ellos.

Podemos extraer el array de `numpy` de una columna aplicando la función [`to_numpy`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.to_numpy.html)

In [3]:
venta.precio.to_numpy()

array([1431.73463287, 2325.59394027, 1725.47728691, ..., 2188.89878473,
       2313.32053175, 2890.95615559])

## Creación e inspección básica

Tenemos varias utilidades para crear arrays de numpy. Una forma es especificar los elementos con `np.array`

In [4]:
# Un array uni-dimensional
a = np.array([2.3, 7.1, 4.7])
a

array([2.3, 7.1, 4.7])

In [5]:
# Un array multi-dimensional (matrix 2x3)
b = np.array([[2, 7, 4], [7, 1, 5]])
b

array([[2, 7, 4],
       [7, 1, 5]])

In [6]:
# Un array de booleanos
c = np.array([True, False, False, True])
c

array([ True, False, False,  True])

Las propiedades más importantes que tiene un array son:

* `shape`: las dimensiones
* `dtype`: el tipo
* `ndim`: el número de dimensiones (coincide con el número de elementos de `shape`)
* `size`: el número total de elementos (coincide con el producto de los elementos de `shape`)

In [7]:
b.shape

(2, 3)

In [8]:
b.dtype

dtype('int32')

In [9]:
b.ndim

2

In [10]:
b.size

6

También existen otras funciones que facilitan crear arrays fácilmente, rellenos de ceros, unos u otros patrones habituales.

In [11]:
# Matriz de ceros
np.zeros([3, 4])

array([[0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.]])

In [12]:
# Array de unos
np.ones(6)

array([1., 1., 1., 1., 1., 1.])

In [13]:
# Array secuencial
np.arange(4)

array([0, 1, 2, 3])

In [14]:
# Matriz identidad
np.eye(3)

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

## Operaciones

Las operaciones suma, resta, multiplicación, potencia y comparación lógica se aplican elemento a elemento

In [15]:
a = np.array([2, 5, 3])
b = np.array([4, 1, 2])

In [16]:
a - b

array([-2,  4,  1])

In [17]:
a + b

array([6, 6, 5])

In [18]:
a ** 2

array([ 4, 25,  9], dtype=int32)

In [19]:
a >= 3

array([False,  True,  True])

In [20]:
a * b

array([8, 5, 6])

En Python, el operador `*` hace una multiplicación elemento a elemento. Si necesitas hacer una multiplicación entre matrices, puedes utilizar `@` o la función `dot()`.

In [21]:
A = np.array([[1, 2], [1, 2]])
B = np.array([[1, 0], [2, 2]])

In [None]:
# Elemento a elemento
A * B

In [None]:
# Multiplicación de matrices: forma 1
A @ B

In [None]:
# Multiplicación de matrices: forma 2
A.dot(B)

`numpy` incorpora funciones matemáticas de utilidad, como `mean`, `max`, `argmax`, `std`, `median`, `abs`, `sqrt`, `sin`, `cos`, ...

In [None]:
# Algunas se pueden invocar desde el array
a.mean()

In [None]:
# O desde el módulo de numpy
np.mean(a)

En las funciones *de resumen* se puede especificar el eje (p.e. operación por filas, por columnas)

In [None]:
A.sum()

In [None]:
A.sum(axis=0)

In [None]:
A.sum(axis=1)

## Casting

El casting es la conversión de tipos. En algunos casos, este implica la pérdida de información (p.e. de `float` a `int`).

In [None]:
# Para convertir, se eliminan los decimales (aunque esté más cerca del siguiente entero)
a = np.array([2.3, 7.6, 4.99])
a.astype(int)

También podemos aplicar el casting entre otros tipos. Por ejemplo:

In [None]:
np.array([1, 2, 5]).astype(float)

In [None]:
np.array([True, False, True]).astype(int)

In [None]:
np.array([0, 1, 2]).astype(bool)

## Acceso a elementos o rangos

De forma parecida a como accedemos a elementos o rangos en listas y `DataFrames`, podemos hacerlo sobre arrays de `numpy`.

In [None]:
a = np.array([2, 3, 5, 7, 11, 13, 17, 19, 23])

In [None]:
a[3]

In [None]:
a[1:4]

In [None]:
a[:4]

In [None]:
# saltos
a[::2]

Podemos sobrescribir elementos con la asignación

In [None]:
b = a.copy()
b

In [None]:
b[1:3] = 0
b

## Manipulación de la forma

Con `reshape` podemos alterar la forma de un array

In [None]:
a = np.arange(12)
a

In [None]:
a.reshape(3, 4)

In [None]:
a.reshape(4, 3)

Con `.T` obtenemos la traspuesta

In [None]:
# Creamos una matriz de ejemplo de 2x3
A = np.arange(6).reshape(2, 3)
A

In [None]:
# La traspuesta
A.T

Con `ravel` aplanamos una matriz

In [None]:
A.ravel()

## Nulos e infinitos

Los arrays de `numpy` pueden contener valores nulos (`NaN`) e infinitos (positivos o negativos). Por ejemplo:

In [None]:
a = np.array([1, np.NaN, 5, -np.Inf])
a

Nos suele interesar detectar estos valores para tratarlos (p.e. eliminarlos o imputarlos)

In [None]:
np.isnan(a)

In [None]:
# NaN no es finito
np.isfinite(a)

Podemos utilizar los métodos de arriba como condición, y seleccionar solo algunos elementos del array

In [None]:
# Utilizamos ~ como NOT, igual que con DataFrames
a[~np.isnan(a)]

In [None]:
a[np.isfinite(a)]

## Referencia

Esta documentación está basada en el tutorial de numpy disponible [aquí](https://docs.scipy.org/doc/numpy/user/quickstart.html). Consúltalo para ampliar información.