# NumPy

NumPy (Numerical Python) es una librería para cómputo científico. Esta librería contiene muchas funciones matemáticas que permiten realizar operaciones de álgebra lineal, generar números pseudo-aleatorios, etc. De forma muy general el computo científico se basa en operar con arreglos de números, a veces estos arreglos representan matrices y vectores y las operaciones necesarias son fundamentalmente las del algebra lineal. En otros casos, como el análisis de datos, los arreglos de números no necesariamente (o no siempre) son vectores y matrices en estricto sentido matemático. Por ejemplo casi cualquier conjunto de datos puede ser pensado como un arreglo de números. Una imagen es un arreglo bidimensional de números donde cada número representa el brillo de un pixel. Un sonido es un arreglo unidimensional que representa intensidad versus tiempo.

En definitiva para el computo científico es necesario contar con formas eficientes de almacenar y manipular arreglos de números. Y NumPy ha sido diseñado para esta tarea. El código escrito en NumPy suele ser más corto que el código equivalente en _Python puro_. El uso de _loops_ es reducido ya que muchas operaciones se aplican directamente sobre arreglos (_arrays_). Esto se conoce como vectorizar el código, internamente los _loops_ siguen estando presentes pero son ejecutados por rutinas optimizadas escritas en lenguajes como C o Fortran. Además, NumPy provee de muchas funciones matemáticas/científicas listas para usar. Esto reduce la cantidad de código que debemos escribir (reduciendo las chances de cometer errores) y más importante, esas funciones están escritas usando implementaciones eficientes y confiables.

Para poder usar NumPy debemos importarlo, la forma más común de importar NumPy es la siguiente:

In [1]:
import numpy as np

## Arreglos (arrays)

NumPy usa una estructura de datos llamada arreglos. Los arreglos de NumPy son similares a las listas de Python, pero son mas eficientes para realizar tareas numéricas. La eficiencia deriva de las siguientes características:

* Las listas de Python son muy generales, pudiendo contener objetos de distinto tipo. Además los objetos son asignados dinamicamente, es decir el tamaño de una lista no está predefinido, siempre podemos agregar más y más elementos. 

* Por el contrario, los arreglos de NumPy son **estáticos**  y **homogéneos**. El tipo de los objetos se determina cuando el array es creado (de forma automática o por el usuario) lo que permite hacer uso eficiente de la memoria.

* Otra razón por la cual los arreglos son más eficientes que las listas es que en Python todo es un objeto, incluso los números! Por ejemplo en C un entero es esencialmente un rótulo que conecta un lugar en la memoria de la computadora cuyos _bytes_ se usan para codificar el valor de ese entero. Sin embargo en Python un entero es un objeto más complejo que contiene más información que simplemente el valor de un número. Esto da flexibilidad a Python, pero el costo es que es más lento que un lenguaje como C. Este costo es aún mayor cuando combinamos muchos de estos objetos en un objeto más complejo, por ejemplo cuando combinamos enteros dentro de una lista.

Otra ventaja de los arreglos es que se comportan de forma similar a los vectores y matrices usados en matemática.

### Creando arreglos

Existen varias rutinas para [crear](http://docs.scipy.org/doc/numpy/reference/routines.array-creation.html) arreglos de NumPy a partir de:

* Listas o tuplas de Python
* Rangos numéricos
* Números aletorios
* Ceros y unos
* Archivos

#### A partir de listas y tuplas

Para crear arreglos a partir de listas (o tuplas) podemos usar la funcion **array**.

In [2]:
v = np.array([1, 2, 3, 4 , 5, 6])
v

array([1, 2, 3, 4, 5, 6])

In [3]:
M = np.array([[1, 2], [3, 4], [5, 6]])
M

array([[1, 2],
       [3, 4],
       [5, 6]])

Los objetos **v** y **M** son ambos del tipo **ndarray**

In [4]:
type(v), type(M)

(numpy.ndarray, numpy.ndarray)

La diferencia entre el arreglo **v** y **M** es la forma. Para obtener la forma de un arreglo podemos usar el método **shape**.

In [5]:
v.shape  # equivalente a la función np.shape(v)

(6,)

In [6]:
M.shape  # equivalente a np.shape(M)

(3, 2)

 **size** nos dice el número de elementos de un arreglo

In [7]:
v.size, M.size  # o np.size(v), np.size(M) 

(6, 6)

De la misma forma podemos obtener el número de dimensiones de un arreglo usando **ndim**

In [8]:
v.ndim, M.ndim  # o np.ndim(v), np.ndim(M) 

(1, 2)

Usando el método **dtype**, podemos preguntar sobre el **tipo** (type) de los elementos almacenados en un arreglo.

In [9]:
M.dtype

dtype('int64')

Las listas de Python nos permiten mezclar objetos con distinto tipo. En cambio, con los arreglos obtenemos un error.

In [10]:
v[0] = "hello world"

ValueError: invalid literal for int() with base 10: 'hello world'

O podríamos obtener algo distinto a lo que esperábamos!

In [11]:
v[0] = 0.9
x = np.array([0.9, 2, 3, 4, 5, 6])
v, x

(array([0, 2, 3, 4, 5, 6]), array([ 0.9,  2. ,  3. ,  4. ,  5. ,  6. ]))

En el primer caso, al agregar 0,9 a un array de enteros NumPy hace lo que se conoce como _downcast_ y trunca el número decimal a un entero (0,9 --> 0). En el segundo caso creamos un nuevo array a partir de una lista que contiene tantos enteros como decimales y entonces NumPy decide hacer un _upcast_ y convertir a todos los números a decimales.

Si no queremos que NumPy decida por nosotros, es posible definir de forma explícita el tipo al crear un array.

In [12]:
np.array([[1, 2], [3, 4]], dtype=complex)

array([[ 1.+0.j,  2.+0.j],
       [ 3.+0.j,  4.+0.j]])

#### A partir de un rango numérico

Una forma de crear arreglos desde cero es usando rangos. Por ejemplo podemos crear un arreglos conteniendo números igualmente espaciados en el intervalo [desde, hasta), usando **arange**

In [None]:
np.arange(0, 10, 1) # desde, hasta(sin incluir), paso

_desde_ y _paso_ son argumentos opcionales

In [None]:
np.arange(10)

A diferencia de la función **range** de Python, **arrange** soporta decimales

In [None]:
np.arange(-1, 1, 0.25)

Otra función para crear rangos es **linspace** que devuelve numeros igualmente espacios en el intervalo [desde, hasta] (es decir incluyendo el _hasta_). Otra diferencia con **arange** es que no se especifica el _paso_ si no la cantidad total de números que contendrá el arreglo.

In [None]:
np.linspace(1, 10, 25) # desde, hasta, elementos (elementos es opcional)

**logspace** es similar a **linspace** pero los números están igualmente espaciados en un escala logarítima.

In [None]:
np.logspace(0, 1.5, 5, base=np.e) # por defecto usa base 10

In [None]:
np.log(np.logspace(0, 1.5, 5, base=np.e))  # el logaritmo de np.logspace es np.linspace

#### A partir de números aleatorios

Los números aleatorios son usados en muchos problemas científicos. En la práctica las computadoras son solo capaces de generar números pseudo-aleatorios, _i.e._ números que para los fines prácticos lucen como números aleatorios.

Todas las rutinas para generar números aleatorios viven dentro del módulo [random](http://docs.scipy.org/doc/numpy/reference/routines.random.html). Python usa un algortimo llamado [Mersenne Twister](https://en.wikipedia.org/wiki/Mersenne_twister) para generar números pseudo-aleatorios. Este algorítmo es más que suficiente para fines científicos, pero no es util en caso que necesitemos números pseudo-aleatorios para usar en criptografía.

La función mas simple es **rand**. Esta función crea un arreglo a partir de una distribución uniforme en el intervalo [0, 1).

In [None]:
np.random.rand(2, 5)  # arreglo con forma (2, 5)

De forma similar **randn** devuelve muestras a partir de la distribución normal estándar (media = 0, desviación estándard =1).

In [None]:
np.random.randn(3, 2)

Los números aleatorios son útiles en muchas aplicaciones, pero trabajar con ellos puede dificutlar tareas como el _debugging_. Una forma de solucionar esto es especificar una semilla fija para el generador de números pseudo-aleatorios. De esta forma cada vez que pidamos una serie de números aleatorios, obtendremos exactamente la misma secuencia.

In [None]:
np.random.seed(31415)
np.random.randn(3)

#### A partir de ceros y unos

A veces es conveniente llenar arreglos usando simplemente ceros o unos.

In [None]:
np.zeros((2,5))

In [None]:
np.ones((3,2))

In [None]:
np.empty((3,2))  # o simplemente con números sin sentido

In [None]:
np.full((3,2), 42, dtype=int)  # o con algún número en particular

#### A partir de archivos

Un formato común para almacenar datos es el archivo .csv valores separados por coma (comma separated values). Muchas veces los archivos .csv usand otrs separadores como espacios o tabulaciones (tab). Para cargar esos archivos en un arreglo de NumPY podemos usar la función **genfromtxt **. Por ejemplo,

In [None]:
!head datos/muestra.dat  # Este es un comando de Linux que nos permite ver las primeras lineas de un archivo

In [None]:
data = np.genfromtxt('datos/muestra.dat', skip_header=True)
data

In [None]:
data.shape

Si queremos guardar un arreglo a un archivo de texto podemos usar **numpy.savetxt** 

In [None]:
M = np.random.rand(3,3)
M

In [None]:
np.savetxt("datos/matriz_aleatoria.csv", M, fmt='%.2f')

In [None]:
!head datos/matriz_aleatoria.csv

Otra opción, es guardar un arreglo en el formato _npy_. Esto es útil cuando necesitamos guardar datos que luego leeremos usando NumPy.

In [None]:
np.save("datos/matriz_aleatoria.npy", M)
!ls datos/*.npy

Para cargar los resultados de vuelta en NumPy usamos la función **load**.

In [None]:
np.load("datos/matriz_aleatoria.npy")

### Indexado (Indexing)

El indexado de arreglos funciona de forma similar al indexado de listas de Python. Con algunas mejoras para el idexado de arrays multidimensionales.

In [11]:
v = np.array([1, 2, 3, 4, 5, 6])
M = np.array([[1, 2], [3, 4], [5, 6]])
print(v)
print(M)

[1 2 3 4 5 6]
[[1 2]
 [3 4]
 [5 6]]


**v** es un arreglo unidimensional (como un vector) y por lo tanto basta un número para indexarlo.

In [None]:
v[0]

En cambio **M** es un arreglo bi-dimensional (como una matriz) y por lo tanto hacen falta dos números para obtener un elemento específico.

In [None]:
M[1,1]  # esto es equivalente a M[1][1]

Si omitimos uno de los índices al indexar un arreglo multidimensional, NumPy devolverá la fila completa (o, en general, el arreglo de dimensión N-1 correspondiente)

In [None]:
M[1]

El mismo resultado se obtiene usando **:**

In [None]:
M[1,:]  # fila 1

In [None]:
M[:,1]  # columna 1

También podemos asignar elementos especificando el índice adecuado.

In [None]:
M[0, 0] = -1
M

Incluso esto funciona para filas y columnas enteras

In [None]:
M[1,:] = 0
M

In [None]:
M[:,1] = -2
M

### Rebanado (Slicing)

Al igual que con las listas los arreglos pueden ser rebanados.

In [None]:
print(v)
v[1:3]

El rebanado también puede ser usado para asignar nuevos valores

In [None]:
v[1:3] = -2,-3
v

También es posible usar rebanadas _de a pasos_.

In [None]:
v[::2]

O tomar los primer **N** elementos

In [None]:
v[:3]

o empezar desde el iésimo elemento

In [None]:
v[3:]

o los últimos **N** elementos

In [None]:
v[-3:]

Los arreglos no tienen por que estar restringido a 1 o 2 dimensiones. A medida que las dimensiones aumentan la complejidad del rebanado se incrementa junto con la posibilidad de cometer errores o al menos confundirse un poco.

In [13]:
c = np.array([[[ 0,  1,  2,  3], [ 4,  5,  6,  7], [ 8,  9, 10, 11]],
       [[12, 13, 14, 15], [16, 17, 18, 19], [20, 21, 22, 23]]])
c

array([[[ 0,  1,  2,  3],
        [ 4,  5,  6,  7],
        [ 8,  9, 10, 11]],

       [[12, 13, 14, 15],
        [16, 17, 18, 19],
        [20, 21, 22, 23]]])

In [None]:
np.shape(c)

In [None]:
c[0]

In [None]:
c[0, 2]

Podemos extraer el 0ésimo elemento de la segunda dimensión (axis=1)

In [None]:
c[:,0]  # equivalente a c[:,0,:]

O los primeros elementos de la tercer dimensión (axis=2)

In [None]:
c[:,:,1]

In [None]:
c[0,:,1]

Cualquier subconjunto de elementos pueden ser obtenidos desde un arreglo, por ejemplo

* Tomemos el 0ésimo elemento de la primer dimensión
* Luego, el primer elemento de la segunda dimensión 
* Finalmente, todos los elementos en la tercer dimensión con un paso de a 2 elementos

In [None]:
c[0,1,::2]

O invertir el orden

In [None]:
c[::-1]

Otro ejemplo de un rebanado complejo:

* Tomemos el 0ésimo elemento de la primer dimensión
* Luego, los elementos de la segunda dimension en orden inverso
* Finalmente, el ultimo elemento de la tercer dimensión

In [None]:
c[0,::-1, -1]

Al hacer un slice de un array NO estamos creando una copia del arreglo, si no que tenemos una representación de una porción del arreglo original. En el siguiente ejemplo creamos un arreglo llamado _d_ a partir del arreglo _c_, luego modificamos _d_ y como resultamos obtenemos que _c_ también se modifica. 

In [None]:
d = c[0]
print(d)
d[0,1] = 999
print(d)
print(c)

En caso de que realmente necesitemos realizar una copia del array, podremos hacerlo usando el método _copy()_.

In [None]:
d = c[0].copy()
print(d)
d[0,1] = -10
print(d)
print(c)

## Manipulación de Arreglos

A veces es conveniente cambiar la forma de los arreglos or combinar dos o más arreglos, para ello existen varias funciones:

In [15]:
c = np.arange(24).reshape(2,3,4)
c

array([[[ 0,  1,  2,  3],
        [ 4,  5,  6,  7],
        [ 8,  9, 10, 11]],

       [[12, 13, 14, 15],
        [16, 17, 18, 19],
        [20, 21, 22, 23]]])

Quizá necesitamos borrar parte de un arreglo

In [None]:
np.delete(c, (0,2), axis=2)

O necesitamos _aplanar_ un arreglo (hacerlo unidimensional), para ello podemos usar **flatten** o **ravel**.

In [16]:
c.flatten()  # flatten es un método no una función

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
       17, 18, 19, 20, 21, 22, 23])

In [17]:
c.ravel() # equivale a np.ravel(c)

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
       17, 18, 19, 20, 21, 22, 23])

A veces suele ser necesario convertir un array unidimensiona en uno bidimensional, pero con una de las dimensiones _vacías_.

In [41]:
e = np.array([1, 2, 3])
e

array([1, 2, 3])

In [42]:
e.reshape((1, 3)) # equivalente a x[np.newaxis, :]

array([[1, 2, 3]])

In [43]:
e.reshape((3, 1)) # equivalente a x[:, np.newaxis]

array([[1],
       [2],
       [3]])

### Apilando (Stacking)

Es posible obtener un nuevo arrays a partir de apilar un array sobre otro.

In [44]:
f = np.arange(16).reshape(4, 4)
g = f * 2
print(f)
print(g)

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]
 [12 13 14 15]]
[[ 0  2  4  6]
 [ 8 10 12 14]
 [16 18 20 22]
 [24 26 28 30]]


In [45]:
np.concatenate((f, g), axis=0)  # equivalent to np.vstack((d, e))

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15],
       [ 0,  2,  4,  6],
       [ 8, 10, 12, 14],
       [16, 18, 20, 22],
       [24, 26, 28, 30]])

In [46]:
np.concatenate((f, g), axis=1)  # equivalent to np.hstack((d, e))

array([[ 0,  1,  2,  3,  0,  2,  4,  6],
       [ 4,  5,  6,  7,  8, 10, 12, 14],
       [ 8,  9, 10, 11, 16, 18, 20, 22],
       [12, 13, 14, 15, 24, 26, 28, 30]])

### Escindiendo (Splitting)

La operación contraria al _stacking_ es el _splitting_.

In [47]:
np.split(f, 2, axis=0)

[array([[0, 1, 2, 3],
        [4, 5, 6, 7]]), array([[ 8,  9, 10, 11],
        [12, 13, 14, 15]])]

In [48]:
np.split(f, 2, axis=1)

[array([[ 0,  1],
        [ 4,  5],
        [ 8,  9],
        [12, 13]]), array([[ 2,  3],
        [ 6,  7],
        [10, 11],
        [14, 15]])]

## Funciones Universales (Ufunc)

NumPy provee de varias funciones matemáticas. Esto puede parecer redundante ya que la librería estandard de Python ya provee de este tipo de funciones. La diferencia, es que la funciones matemáticas de NumPy (como otras funciones) puede ser aplicadas en un solo paso a todos los elementos de un arreglo.

Por ejemplo, si quisieramos calcular la raíz cuadrada de todos los elementos de una lista de Python deberíamos hacer un loop sobre cada elementos de la lista y computar la raíz cuadrada a cada elemento (y posiblemente almacenarlo en otra lista).
Con NumPy podemos hacer esto en una sola linea.

Primero definamos un nuevo arreglo

In [78]:
h = np.arange(4).reshape(2, 2)
h

array([[0, 1],
       [2, 3]])

y ahora computemos la raíz cuadrada

In [50]:
np.sqrt(h)

array([[ 0.        ,  1.        ],
       [ 1.41421356,  1.73205081]])

Funciones como _sqrt_, que operan sobre arreglos _elemento-aelemento_ se conocen como [funciones universales](http://docs.scipy.org/doc/numpy/reference/ufuncs.html) (usualmente abreviadas como ufunc).

Una de las ventajas de usar ufuncs es que permiten escribir código más breve. Otra ventaja es que los cómputos son más rápidos que usando loops de Python. Detrás de escena NumPy si realiza un loop, pero el loop se realiza en un legunaje como C o Fortran, por lo que hay una ganancia considerable en velocidad, respecto de código en Python puro. Además, el código usado por NumPy es código que suele estar optimizado gracias a los años de labor de programadores/científicos.

Otro ejemplo de ufunc es **sum**

In [51]:
np.sum(h)

6

En el ejmplo anterior la suma se hizo sobre el arreglo "aplanado". Hay veces que esto no es lo que queremos, si no que necesitamos sumar sobre alguna de las dimensiones del arreglo.

In [52]:
np.sum(h, axis=0)

array([2, 4])

In [53]:
np.sum(h, axis=1)

array([1, 5])

El aumento de velocidad al usar ufuncs depende de varios factores, en general podemos experar ganancias de velocidad entre 1 y 3 órdenes de magnitud. Salvo que apliquemos ufuncs a escalares en vez de arreglos!

In [54]:
from math import sqrt
g_arr = np.arange(0, 1000)
g_list = range(0, 1000)

In [55]:
%%timeit
for i in g_list:
    sqrt(i)

1000 loops, best of 3: 157 µs per loop


In [56]:
%%timeit
np.sqrt(g_arr)

The slowest run took 29.57 times longer than the fastest. This could mean that an intermediate result is being cached 
100000 loops, best of 3: 5.93 µs per loop


In [59]:
%%timeit
sqrt(1)

The slowest run took 36.87 times longer than the fastest. This could mean that an intermediate result is being cached 
10000000 loops, best of 3: 123 ns per loop


In [60]:
%%timeit
np.sqrt(1)

The slowest run took 12.13 times longer than the fastest. This could mean that an intermediate result is being cached 
1000000 loops, best of 3: 1.93 µs per loop


### Indexado Avanzado (Fancy indexing)

Además del indexado usando entereos y rebanadas (_slices_) que ya hemos visto, es posible idexar arrays usando arrays conteniendo enteros o booleanos.

In [61]:
i = np.arange(10)**2 
i

array([ 0,  1,  4,  9, 16, 25, 36, 49, 64, 81])

In [67]:
idx = np.array([0, 2, 3, 3])
i[idx]

array([0, 4, 9, 9])

In [68]:
j = np.arange(9).reshape(3, 3)
j

array([[0, 1, 2],
       [3, 4, 5],
       [6, 7, 8]])

In [71]:
idx_fila = np.array([0,2])
idx_col = np.array([1])

j[idx_fila, idx_col]

array([1, 7])

También podemos usar in arreglo de booleanos, por ejemplo si quisieramos obtener todos los números pares contenidos en un arreglo podríamos hacer lo siguiente.

In [74]:
j[j % 2 == 0]

array([0, 2, 4, 6, 8])

Si la expresión en la celda anterior te parece confusa, podés revisar y ver que la expresión entre corchetes (la que indexa al arreglo _j_), es un arreglo de booleanos.

In [None]:
j % 2 == 0

## Constantes

Algunas constantes como $\pi$ y $e$ puede ser accedidas desde NumPy. Un número mayor de constantes está disponible en [scipy.constants](http://docs.scipy.org/doc/scipy-0.14.0/reference/constants.html)

In [75]:
np.pi

3.141592653589793

In [76]:
np.e

2.718281828459045

## Más allá de NumPy

NumPy es una muy buena librería para computación numérica y en este capítulo apenas hemos empezado a arañar la superficie de lo que es posible hacer con ella. Al trabajar con computación científica muchas veces necesitarás acceso a rutinas numéricas para la interpolación, integración, optimización, análisis estadístico, procesamiento de audio, procesamiento de imágenes, etc. Las probabilidades son realmente altas de que esas funciones ya hayan sido implementadas y estén disponibles en SciPy. SciPy es una librería de computación científica construida en encima de NumPy. Al igual que como sucede con NumPy en SciPy cuenta con muchas rutinas rápidas y confiables facilmente disponibles y es siempre una buena idea para buscar si la rutina que uno necesita está disponible en SciPy (!no pierdas el tiempo reinventando la rueda, a menos que necesites una rueda muy especial!). SciPy es también el nombre de un grupo de conferencias donde participan usuarios y desarrolladores de herramientas de computación científica en Python. En los siguientes capitulos haremos uso de algunas de las muchas funcionalidades ofrecidas por SciPy.

Para quienes tengan problemas menos del estilo _cálculo-numerico_ y más del estilo _análisis de datos y estadística_ es probable que les convega aprender [Pandas:](http://pandas.pydata.org/). Pandas es una librería orientada al procesamiento de datos necesario en análisis de datos. Está construida sobre NumPy por lo que mucho de los aprendido en este capítulo será de mucha utilidad para aprender y usar Pandas. Si gran parte de tu trabajo involucra manipular datos, limpiar datos, lidiar con valores perdidos para luego hacer algún tipo de análisis estadístico entonces Pandas tiene mucho que ofrecerte.

## Para seguir leyendo

* [scientific-python-lectures](http://github.com/jrjohansson/scientific-python-lectures).
* [Numpy](http://numpy.scipy.org)
* [100 NumPy exercises](http://www.labri.fr/perso/nrougier/teaching/numpy.100)
* http://scipy.org/Tentative_NumPy_Tutorial
* http://scipy.org/NumPy_for_Matlab_Users
* [NumPy's Beginners guide](https://www.packtpub.com/big-data-and-business-intelligence/numpy-beginner%E2%80%99s-guide-second-edition)
* [Learning SciPy for Numerical and Scientific Computing](https://www.packtpub.com/big-data-and-business-intelligence/learning-scipy-numerical-and-scientific-computing)
* [Python Data Science Hand Book](http://shop.oreilly.com/product/0636920034919.do)

In [None]:
import sys, IPython, platform
print("Esta notebook fue creada en una computadora %s corriendo %s y usando:\nPython %s\nIPython %s\nNumPy %s" % (platform.machine(), ' '.join(platform.linux_distribution()[:2]), sys.version[:5], IPython.__version__, np.__version__))