## Intro

[NumPy](http://www.numpy.org/) (Numerical Python) es una librería para tratar grandes cantidades de datos. Los arrays de NumPy proporcionan almacenamiento y operaciones mucho más eficientes que los arrays estándar de Python cuando los datos empiezan a crecer. Esto convierte a NumPy en parte indispensable dentro del ecosistema de Data Science con Python.


In [1]:
# NumPy suele importarse con el alias np
import numpy as np

# np?

Igual que un tipo primitivo es más que un simple valor en Python por el tipado dinámico (en realidad se trata de una estructura de C), una lista es más que una simple lista de objetos (pueden albergar todo tipo de objetos simultáneamente). 

Esta flexibilidad tiene un precio, ya que cada objeto en una lista debe incluir información del tipo (entre otras cosas). En el caso de que todos los elementos fueran de un mismo tipo podríamos eliminar la redundancia para ganar en eficiencia de almacenado; esto es precisamente lo que aportan el objeto **array** disponible en Python desde la versión 3.3.

El objeto **ndarray** de NumPy, aparte de las ventajas del array, aporta también operaciones eficientes sobre sus datos.

## Arrays

### Creación

Podemos crear arrays a partir de listas, usando el método:

**np.array(`<list>`[, dtype='`<type>`'])**

Para ver la lista de tipos básicos de NumPy: [Doc:  Data types](https://docs.scipy.org/doc/numpy/user/basics.types.html)

In [14]:
# Ejemplo con integer
np.array([1, 2, 3])

array([1, 2, 3])

In [12]:
# Ejemplo con tipos integer y float => upcasting a float!
np.array([1, 2.5, 3])

array([1. , 2.5, 3. ])

También podemos crear arrays sin usar una lista:

In [28]:
# Crear un array usando un intervalo, indicando el salto
np.arange(0, 10, 2)

array([0, 2, 4, 6, 8])

In [33]:
# Crear un array usando un intervalo, indicando el número de elementos
np.linspace(0, 9, 7) 

array([0. , 1.5, 3. , 4.5, 6. , 7.5, 9. ])

In [20]:
# Crear un array de ceros (float por defecto)
np.zeros(5)

array([0., 0., 0., 0., 0.])

In [17]:
# Especificando el tipo.
np.zeros(5, dtype='int')

array([0, 0, 0, 0, 0])

In [25]:
# Crear una matriz (array bidimensional) de unos. Ojo cómo definimos el tipo (opción b)
np.ones((3, 3), dtype=np.int)

array([[1, 1, 1],
       [1, 1, 1],
       [1, 1, 1]])

In [43]:
# Crear una matriz con un valor concreto. Esta vez probamos con un array de 3 dimensiones!
np.full((2, 2, 2), 3.14)

array([[[3.14, 3.14],
        [3.14, 3.14]],

       [[3.14, 3.14],
        [3.14, 3.14]]])

In [38]:
# Crear una matriz de números aleatorios entre 0 y 1
np.random.seed(0) # semilla para reproducibilidad
np.random.random((3, 3))

array([[0.5488135 , 0.71518937, 0.60276338],
       [0.54488318, 0.4236548 , 0.64589411],
       [0.43758721, 0.891773  , 0.96366276]])

In [42]:
# Crear una matriz de números enteros aleatorios dentro de un intervalo
np.random.randint(0, 10, (3, 3))

array([[0, 4, 5],
       [5, 6, 8],
       [4, 1, 4]])

In [40]:
# Crear una matriz identidad
np.eye(3, 3)

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

### Atributos

In [49]:
# Array tridimensional de ejemplo
m = np.random.random((2, 2, 2))
m

array([[[0.1289263 , 0.31542835],
        [0.36371077, 0.57019677]],

       [[0.43860151, 0.98837384],
        [0.10204481, 0.20887676]]])

In [51]:
# Atributos comunes
print('m.ndim =', m.ndim)          # dimensiones
print('m.shape =', m.shape)        # tamaño
print('m.size =', m.size)          # nº de elementos
print('m.dtype =', m.dtype)        # tipo
print('m.itemsize =', m.itemsize)  # tamaño de cada elemento, en bytes
print('m.nbytes =', m.nbytes)      # tamaño total

m.ndim = 3
m.shape = (2, 2, 2)
m.size = 8
m.dtype = float64
m.itemsize = 8
m.nbytes = 64


### Indexado

In [76]:
# Array de ejemplo
a = np.arange(0,10)

In [69]:
# Acceso a un elemento de un array
a[0]

0

In [65]:
# Acceso a un elemento por el final
a[-1]

4

In [66]:
# Acceso a un elemento de una matriz
m[0, 0, 0] # equivalente a m[0][0][0]

0.1289262976548533

### Slicing

In [106]:
# [start:stop:step]
a[0:6:2]

array([0, 2, 4])

In [78]:
# [start:stop:step] desde el final
a[3:0:-1] # 9 8 7 6 5 4 [3 2 1] 0

array([3, 2, 1])

In [80]:
# Uno de cada 2 empezando por el segundo elemento
a[1::2]

array([1, 3, 5, 7, 9])

In [79]:
# Arrays multidimensionales
m[:1, :2, :1] 

array([[[0.1289263 ],
        [0.36371077]]])

In [100]:
aa = np.array([a, a])
aa

array([[0, 1, 2, 3, 4, 5, 6, 7, 8, 9],
       [0, 1, 2, 3, 4, 5, 6, 7, 8, 9]])

In [101]:
# Elementos de la primera columna
print(aa[:,0])

[0 0]


In [102]:
# Elementos de la primera fila
print(aa[0,:]) # Equivalente a aa[0]

[0 1 2 3 4 5 6 7 8 9]


### Sub-arrays
Si creamos un sub-array y modificamos algo del mismo, se modificará el array original. Este comportamiento por defecto nos permite cargar una parte de un dataset para operar sobre los datos, evitando cargar el array completo cuando éste es demasiado grande.

In [103]:
aaa = aa[:2,:2]
aaa

array([[0, 1],
       [0, 1]])

In [104]:
aaa[:,0] = [5, 5]
aaa

array([[5, 1],
       [5, 1]])

In [105]:
aa

array([[5, 1, 2, 3, 4, 5, 6, 7, 8, 9],
       [5, 1, 2, 3, 4, 5, 6, 7, 8, 9]])

### Copias de arrays
Si queremos crear una copia de un array o parte del mismo, tendremos que usar la función **copy()**

In [108]:
aaa_copy = aa[:2,:2].copy()
aaa_copy

array([[5, 1],
       [5, 1]])

### Reformateo de arrays
Útil para cambiar la forma de un array. Eso sí, el número de elementos tendrá que encajar. Tenemos las funciones **reshape** y **newaxis**

In [109]:
# Paso de un array unidimensional (9) a uno bidimensional (3,3)
np.arange(1, 10).reshape((3, 3)) 

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [111]:
# Paso de un array unidimensional (9) a uno bidimensional (1,9)
np.arange(1, 10).reshape((1, 9))

array([[1, 2, 3, 4, 5, 6, 7, 8, 9]])

In [112]:
# Lo mismo usando newaxis
a[np.newaxis, :]

array([[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]])

### Concatenación y división

In [114]:
# Concatenación de arrays unidimensionales
np.concatenate([a, a, a])

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 0, 1,
       2, 3, 4, 5, 6, 7, 8, 9])

In [116]:
# Concatenación de arrays bidimensionales con mismo tamaño, por filas
np.concatenate([aaa_copy, aaa_copy])

array([[5, 1],
       [5, 1],
       [5, 1],
       [5, 1]])

In [117]:
# Lo mismo pero por columnas
np.concatenate([aaa_copy, aaa_copy], axis=1)

array([[5, 1, 5, 1],
       [5, 1, 5, 1]])

In [122]:
# Concatenación para arrays con distintas dimensiones, en vertical
np.vstack([aaa_copy, aaa_copy[0]])

array([[5, 1],
       [5, 1],
       [5, 1]])

In [123]:
# Concatenación para arrays con distintas dimensiones, en horizontal
np.hstack([aa, aaa_copy])

array([[5, 1, 2, 3, 4, 5, 6, 7, 8, 9, 5, 1],
       [5, 1, 2, 3, 4, 5, 6, 7, 8, 9, 5, 1]])

Usaremos **dstack** para concatenar en la tercera dimensión.

Lo contrario a la concatenación es la división, que llevaremos a cabo con **split**, **hsplit**, **vsplit** y **dsplit**

In [132]:
a1, a2, a3, a4 = np.split(a, [1, 3, 6])
print(a1, a2, a3, a4)

[0] [1 2] [3 4 5] [6 7 8 9]


## Operaciones