# NumPy

NumPy (Numerical Python) es una librería para computo científico. Esta librería contiene muchas funciones matemáticas que permiten realizar operaciones de álgebra lineal, transformadas de Fourier, números pseudo-aleatorios, etc. NumPy puede usar BLAS y LAPACK (si están instalados en tu sistema). BLAS y LAPACK son librerías escritas en Fortran que proveen de rutinas de álgebra lineal altamente optimizadas y probadas a lo largo de décadas. NumPy nació con la idea de traer a Python funciones de ambientes como Matlab y Mathematica.

El código científico escrito en NumPy suele ser más corto que el código equivalente en Python puro. El uso de _loops_ es reducido ya que muchas operaciones se aplican directamente sobre arreglos (_arrays_). Esto se conoce como vectorizar el código, internamente los _loops_ siguen estando presentes pero son ejecutados en lenguajes como C o Fortran. Además, hay muchas funciones matemáticas/científicas ya definidas, por lo que es posible escribir menos código y más importante, esas funciones están escritas usando implementaciones eficientes y confiables.

Para poder usar NumPy debemos importarlo, la forma más común de importar NumPy es la siguiente:

In [1]:
import numpy as np

## Arreglos (arrays)

NumPy usa una estructura de datos llamada arreglos. Los arreglos de NumPy son similares a las listas de Python, pero son mas eficientes para realizar tareas numéricas. La eficiencia deriva de las siguientes características:

* Las listas de Python son muy generales, pudiendo contener cualquier objetos de distinto tipo. Además los objetos son asignados dinamicamente, es decir el tamaño de una lista no está predefinido, siempre podemos agregar más y más elementos. 

* Por el contrario, los arreglos de NumPy son **staticos**  y **homogeneos**. El tipo de los objetos se determina cuando el array es creado (de forma automática o por el usuario) y los arreglos de NumPy hacen uso eficiente de la memoria.

Otra ventaja de los arreglos es que se comportan de forma similar a vectores y matrices.

### Creando arreglos

Existen varias rutinas para [crear](http://docs.scipy.org/doc/numpy/reference/routines.array-creation.html) arreglos de NumPy a partir de:

* Listas o tuplas de Python
* Rangos numéricos
* Números aletorios
* Ceros y unos
* Archivos

#### A partir de listas y tuplas

Para crear arreglos a partir de listas (o tuplas) podemos usar la funcion **array**.

In [2]:
v = np.array([1, 2, 3, 4 , 5, 6])
v

array([1, 2, 3, 4, 5, 6])

In [3]:
M = np.array([[1, 2], [3, 4], [5, 6]])
M

array([[1, 2],
       [3, 4],
       [5, 6]])

Los objetos **v** y **M** son ambos del tipo **ndarray**

In [4]:
type(v), type(M)

(numpy.ndarray, numpy.ndarray)

La diferencia entre el arreglo **v** y **M** es la forma. Para obtener la forma de un arreglo podemos usar el método **shape**.

In [5]:
v.shape  # equivalente a la función np.shape(v)

(6,)

In [6]:
M.shape  # equivalente a np.shape(M)

(3, 2)

 **size** nos dice el número de elementos de un arreglo

In [7]:
v.size, M.size  # o np.size(M) 

(6, 6)

De la misma forma podemos obtener el número de dimensiones de un arreglo usando **ndim**

In [8]:
v.ndim, M.ndim

(1, 2)

Usando el método **dtype**, podemos preguntar sobre el **tipo** (type) de los elementos almacenados en un arreglo.

In [9]:
M.dtype

dtype('int64')

Las listas de Python nos permiten mezclar objetos con distinto tipo. En cambio, con los arreglos obtenemos un error.

In [10]:
v[0] = "hello world"

ValueError: invalid literal for long() with base 10: 'hello world'

O podríamos obtener algo distinto a lo que esperábamos!

In [None]:
v[0] = 3.14
v

Es posible definir de forma explítica el tipo al crear un arreglo

In [None]:
np.array([[1, 2], [3, 4]], dtype=complex)

Algunos de los tipos más comunes son: **int**, **float**, **complex**, **bool**

También es posible definir el número de bits de los distintos tipos: **int64**, **int16**, **float64**, **complex64**.

#### A partir de un rango numérico

Una forma de crear arreglos desde cero es usando rangos. Por ejemplo podemos crear un arreglos conteniendo números igualmente espaciados en el intervalo [desde, hasta), usando **arange**

In [None]:
np.arange(0, 10, 1) # desde, hasta(sin incluir), paso

_desde_ y _paso_ son argumentos opcionales

In [None]:
np.arange(10)

A difenrecia de la funcion **range** de Python, **arrange** soporta flotantes

In [None]:
np.arange(-1, 1, 0.25)

Otra función para crear rangos es **linspace** que devuelve numeros igualmente espacios en el intervalo [desde, hasta] (es decir incluyendo el _hasta_). Otra diferencia con **arange** es que no se especifica el _paso_ si no la cantidad total de números que contendrá el arreglo.

In [None]:
np.linspace(1, 10, 25) # desde, hasta, elementos (elementos es opcional)

**logspace** es similar a **linspace** pero los números están igualmente espaciados en un escala logarítima.

In [None]:
np.logspace(0, 1.5, 5, base=np.e) # por defecto usa base 10

In [None]:
np.log(np.logspace(0, 1.5, 5, base=np.e))

#### A partir de números aleatorios

Los números aleatorios son usados en muchos problemas científicos. En la práctica las computadoras son solo capaces de generar nñumeros pseudo-aleatorioas, _i.e._ números que para los fines prácticos lucen como números aleatorios.

Todas las rutina para generar números aleatorios viven dentro del módulo [random](http://docs.scipy.org/doc/numpy/reference/routines.random.html). Python usa un algortimo llamado [Mersenne Twister](https://en.wikipedia.org/wiki/Mersenne_twister) para generar números pseudo-aleatorios.

La función mas simple es **rand**. Esta función crea un arreglo a partir de una distribución uniforme en el intervalo [0, 1).

In [None]:
np.random.rand(2, 5)  # arreglo con forma (2, 5)

De forma similar **randn** devuelve muestras a partir de la distribución normal estándar (media = 0, desviación estándard =1).

In [None]:
np.random.randn(3, 2)

Los números aleatorios son útiles en muchas aplicaciones, pero trabajar con ellos puede dificutlar tareas como el _debugging_. Una forma de solucionar esto es especificar una semilla fija para el generador de números pseudo-aleatorios. De esta forma cada vez que pidamos una serie de números aleatorios, obtendremos exactamente la misma secuencia.

In [None]:
np.random.seed(31415)
np.random.randn(3)

#### A partir de ceros y unos

A veces es conveniente llenar arreglos usando simplemente ceros o unos.

In [None]:
np.zeros((2,5))

In [None]:
np.ones((3,2))

In [None]:
np.empty((3,2))  # o simplemente con números sin sentido

In [None]:
np.full((3,2), 42, dtype=int)  # o con algún número en particular

#### A partir de archivos

Un formato común para almacenar datos es el archivo .csv valores separados por coma (comma separated values). Muchas veces los archivos .csv usand otrs separadores como espacios o tabulaciones (tab). Para cargar esos archivos en un arreglo de NumPY podemos usar la función **genfromtxt **. Por ejemplo,

In [None]:
!head datos/muestra.dat  # Este es un comando de Linux que nos permite ver las primeras lineas de un archivo

In [None]:
data = np.genfromtxt('datos/muestra.dat', skip_header=True)
data

In [None]:
data.shape

Si queremos guardar un arreglo a un archivo de texto podemos usar **numpy.savetxt** 

In [11]:
M = np.random.rand(3,3)
M

array([[ 0.6990391 ,  0.43685243,  0.5017326 ],
       [ 0.7252322 ,  0.24534542,  0.66829667],
       [ 0.26095725,  0.0595012 ,  0.65695929]])

In [12]:
np.savetxt("datos/matriz_aleatoria.csv", M, fmt='%.2f')

In [13]:
!head datos/matriz_aleatoria.csv

0.70 0.44 0.50
0.73 0.25 0.67
0.26 0.06 0.66


Otra opción, es guardar un arreglo en el formato _npy_. Esto es útil cuando necesitamos guardar datos que luego leeremos usando NumPy.

In [14]:
np.save("datos/matriz_aleatoria.npy", M)
!ls datos/*.npy

datos/matriz_aleatoria.npy


Para cargar los resultados de vuelta en NumPy usamos la función **load**.

In [15]:
np.load("datos/matriz_aleatoria.npy")

array([[ 0.6990391 ,  0.43685243,  0.5017326 ],
       [ 0.7252322 ,  0.24534542,  0.66829667],
       [ 0.26095725,  0.0595012 ,  0.65695929]])

### Indexado (Indexing)

EL indexado de arreglos funciona de forma similar al indexado de listas de Python.

In [16]:
v = np.array([1, 2, 3, 4, 5, 6])
M = np.array([[1, 2], [3, 4], [5, 6]])
print(v)
print(M)

[1 2 3 4 5 6]
[[1 2]
 [3 4]
 [5 6]]


**v** es un arreglo unidimensional (como un vector) y por lo tanto basta un número para indexarlo

In [17]:
v[0]

1

En cambio **M** es un arreglo 2D (como una matriz) y por lo tanto hacen falta dos números para obtener un elemento específico.

In [18]:
M[1,1]  # esto es equivalente a M[1][1]

4

Si omitimos uno de los índices al idexar un arreglo multidimensional, NumPy devolverá la fila completa (o, en general, el arreglo de dimensión N-1 correspondiente)

In [19]:
M[1]

array([3, 4])

The same results is obtained using **:**

In [20]:
M[1,:]  # fila 1

array([3, 4])

In [21]:
M[:,1]  # columna 1

array([2, 4, 6])

También podemos asignar elementos especificando el índice adecuado.

In [22]:
M[0,0] = -1
M

array([[-1,  2],
       [ 3,  4],
       [ 5,  6]])

Incluso esto funciona para filas y columnas enteras

In [23]:
M[1,:] = 0
M

array([[-1,  2],
       [ 0,  0],
       [ 5,  6]])

In [24]:
M[:,1] = -2
M

array([[-1, -2],
       [ 0, -2],
       [ 5, -2]])

### Rebanado (Slicing)

Al igual que con las listas los arreglos pueden ser rebanados.

In [25]:
print v
v[1:3]

[1 2 3 4 5 6]


array([2, 3])

El rebanado también puede ser usado para asignar nuevos valores

In [26]:
v[1:3] = -2,-3
v

array([ 1, -2, -3,  4,  5,  6])

También es posible usar rebanadas _de a pasos_.

In [27]:
v[::2]

array([ 1, -3,  5])

O tomar los primer **N** elementos

In [28]:
v[:3]

array([ 1, -2, -3])

o empezar desde el iésimo elemento

In [29]:
v[3:]

array([4, 5, 6])

o los últimos **N** elementos

In [30]:
v[-3:]

array([4, 5, 6])

Los arreglos no tienen por que estar restringido a 1 o 2 dimensiones. A medida que las dimensiones aumentan la complejidad del rebanado también incrementa.

In [31]:
c = np.array([[[ 0,  1,  2,  3], [ 4,  5,  6,  7], [ 8,  9, 10, 11]],
       [[12, 13, 14, 15], [16, 17, 18, 19], [20, 21, 22, 23]]])
c

array([[[ 0,  1,  2,  3],
        [ 4,  5,  6,  7],
        [ 8,  9, 10, 11]],

       [[12, 13, 14, 15],
        [16, 17, 18, 19],
        [20, 21, 22, 23]]])

In [32]:
np.shape(c)

(2, 3, 4)

In [33]:
c[0]

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [34]:
c[0, 2]

array([ 8,  9, 10, 11])

Podemos extraer el 0ésimo elemento de la segunda dimensión (axis=1)

In [35]:
c[:,0]  # equivalente a c[:,0,:]

array([[ 0,  1,  2,  3],
       [12, 13, 14, 15]])

O los primeros elementos de la tercer dimensión (axis=2)

In [36]:
c[:,:,1]

array([[ 1,  5,  9],
       [13, 17, 21]])

In [37]:
c[0,:,1]

array([1, 5, 9])

Cualquier subconjunto de elementos pueden ser obtenidos desde un arreglo, por ejemplo

* Tomemos el 0ésimo elemento de la primer dimensión
* Luego, el primer elemento de la segunda dimensión 
* Finalmente, todos los elementos en la tercer dimensión con un paso de a 2 elementos

In [38]:
c[0,1,::2]

array([4, 6])

O invertir el orden

In [39]:
c[::-1]

array([[[12, 13, 14, 15],
        [16, 17, 18, 19],
        [20, 21, 22, 23]],

       [[ 0,  1,  2,  3],
        [ 4,  5,  6,  7],
        [ 8,  9, 10, 11]]])

Otro ejemplo de un rebanado complejo:

* Tomemos el 0ésimo elemento de la primer dimensión
* Luego, los elementos de la segunda dimension en orden inverso
* Finalmente, el ultimo elemento de la tercer dimensión

In [40]:
c[0,::-1, -1]

array([11,  7,  3])

## Manipulación de Arreglos

A veces es conveniente cambiar la forma de los arreglos or combinar dos o más arreglos, para ello existen varias funciones:

In [41]:
c = np.arange(24).reshape(2,3,4)
c

array([[[ 0,  1,  2,  3],
        [ 4,  5,  6,  7],
        [ 8,  9, 10, 11]],

       [[12, 13, 14, 15],
        [16, 17, 18, 19],
        [20, 21, 22, 23]]])

Quizá necesitamos borrar parte de un arreglo

In [60]:
np.delete(c, (0,2), axis=2)

array([[[ 1,  3],
        [ 5,  7],
        [ 9, 11]],

       [[13, 15],
        [17, 19],
        [21, 23]]])

O necesitamos _aplanar_ un arreglo (hacerlo unidimensional), para ello podemos usar **flatten** o **ravel**.

In [61]:
c.flatten()  # flatten es un método no una función

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
       17, 18, 19, 20, 21, 22, 23])

In [42]:
c.ravel() # equivale a np.ravel(c)

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
       17, 18, 19, 20, 21, 22, 23])

### Apilando (Stacking)

Es posible obtener un nuevo arrays a partir de apilar un array sobre otro.

In [44]:
d = np.arange(16).reshape(4, 4)
e = d * 2
print(d)
print(e)

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]
 [12 13 14 15]]
[[ 0  2  4  6]
 [ 8 10 12 14]
 [16 18 20 22]
 [24 26 28 30]]


In [63]:
np.concatenate((d, e), axis=0)  # equivalent to np.vstack((d, e))

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15],
       [ 0,  2,  4,  6],
       [ 8, 10, 12, 14],
       [16, 18, 20, 22],
       [24, 26, 28, 30]])

In [65]:
np.concatenate((d, e), axis=1)  # equivalent to np.hstack((d, e))

array([[ 0,  1,  2,  3,  0,  2,  4,  6],
       [ 4,  5,  6,  7,  8, 10, 12, 14],
       [ 8,  9, 10, 11, 16, 18, 20, 22],
       [12, 13, 14, 15, 24, 26, 28, 30]])

### Esciendinedo (Splitting)

La operación contraria al stacking es el splitting

In [45]:
np.split(d, 2, axis=0)

[array([[0, 1, 2, 3],
        [4, 5, 6, 7]]), array([[ 8,  9, 10, 11],
        [12, 13, 14, 15]])]

In [65]:
np.split(d, 2, axis=1)

[array([[ 0,  1],
        [ 4,  5],
        [ 8,  9],
        [12, 13]]), array([[ 2,  3],
        [ 6,  7],
        [10, 11],
        [14, 15]])]

## Funciones matemáticas

NumPy provee de varias funciones matemáticas. Esto puede parecer redundante ya que la librería estandard de Python ya provee de este tipo de funciones. La diferencia, es que la funciones matemáticas de NumPy (como otras funciones) puede ser aplicadas en un solo paso a todos los elementos de un arreglo.

Por ejemplo, si quisieramos calcular la raíz cuadrada de todos los elementos de una lista de Python deberíamos hacer un loop sobre cada elementos de la lista y computar la raíz cuadrada a cada elemento (y posiblemente almacenarlo en otra lista).
Con NumPy podemos hacer esto en una sola linea.

Primero definamos un nuevo arreglo

In [46]:
f = np.arange(4).reshape(2, 2)
f

array([[0, 1],
       [2, 3]])

y ahora computemos la raíz cuadrada

In [47]:
np.sqrt(f)

array([[ 0.        ,  1.        ],
       [ 1.41421356,  1.73205081]])

Funciones como _sqrt_, que operan sobre arreglos _elemento-aelemento_ se conocen como [funciones universales](http://docs.scipy.org/doc/numpy/reference/ufuncs.html) (usualmente abreviadas como ufunc).

Una de las ventajas de usar ufuncs es que permiten escribir código más breve. Otra ventaja es que los cómputos son más rápidos que uando loops de Python. Detrás de escena NumPy si realiza un loop, pero el loop se realiza en un legunaje como (C or Fortran), por lo que hay una ganancia en velocidad considerable, respecto de código en Python puro. Además, el código usado por NumPy es código que suele estar optimizado gracias a los años de labor de programadores/científicos.

Otro ejemplo de ufunc es **sum**

In [48]:
np.sum(f)

6

En el ejmplo anterior la suma se hizo sobre el arreglo "aplanado". Hay veces que esto no es lo que queremos, si no que deseasmo sumar sobre alguna de las dimensiones del arreglo.

In [49]:
np.sum(f, axis=0)

array([2, 4])

In [50]:
np.sum(f, axis=1)

array([1, 5])

El aumento de velocidad al usar ufuncs depende de varios factores, en general podemos experar ganancias de velocidad entre 1 y 3 órdenes de magnitud. Salvo que apliquemos ufuncs a escalares en vez de arreglos!

In [51]:
from math import sqrt
g_arr = np.arange(0, 1000)
g_list = range(0, 1000)

In [52]:
%%timeit
for i in g_list:
    sqrt(i)

1000 loops, best of 3: 219 µs per loop


In [53]:
%%timeit
np.sqrt(g_arr)

100000 loops, best of 3: 8 µs per loop


In [56]:
%%timeit
sqrt(1)

The slowest run took 11.70 times longer than the fastest. This could mean that an intermediate result is being cached 
1000000 loops, best of 3: 163 ns per loop


In [57]:
%%timeit
np.sqrt(1)

The slowest run took 7.41 times longer than the fastest. This could mean that an intermediate result is being cached 
100000 loops, best of 3: 4.31 µs per loop


### Fancy indexing

In addition to indexing by integers and slices, as we saw before, arrays can be indexed by arrays of integers and arrays of booleans. 

In [76]:
h = np.arange(10)**2 
h

array([ 0,  1,  4,  9, 16, 25, 36, 49, 64, 81])

In [77]:
idx = np.array([0,2,3,3])
h[idx]

array([0, 4, 9, 9])

In [78]:
I = np.arange(9).reshape(3, 3)
I

array([[0, 1, 2],
       [3, 4, 5],
       [6, 7, 8]])

In [79]:
idx_row = np.array([0,2])
idx_col = np.array([1])

I[idx_row, idx_col]

array([1, 7])

We can also use and array of boolean for indexing, for example if we want to get all the values that are even, we can do:

In [80]:
I[I % 2 == 0]

array([0, 2, 4, 6, 8])

And as you can check, the expression inside de brackets is a array of booleans

In [83]:
I % 2 == 0

array([[ True, False,  True],
       [False,  True, False],
       [ True, False,  True]], dtype=bool)

## Constants

Some constants like $\pi$ and $e$ can be accessed from NumPy. If you need other constants you could probably find them at [scipy.constants](http://docs.scipy.org/doc/scipy-0.14.0/reference/constants.html)

In [84]:
np.pi

3.141592653589793

In [85]:
np.e

2.718281828459045

## Beyond NumPy

NumPy is a great library for numerical computing and we have just barely scratch the surface of what is possible to do with it. For scientific computing sometimes you will need access to numerical routines for interpolation, integration, optimization, statistics, audio and image processing, etc. Chances are big that this routines are already implemented in SciPy, a scientific computing library built on top of NumPy. As with NumPy in SciPy fast and reliable routines are implemented and is always a good idea to search if the routine you need is available in SciPy (do not waste time reinventing the wheel, unless you need a very special wheel!). SciPy is also the name of a group of related conferences for users and developers of scientific computing in python. In the following chapters we will use a very few of the whole stack of SciPy functions.

If you problem is less of the numerical-crunching-physics-style of computing and more related to statistics and data analysis probably you will be better using [Pandas:](http://pandas.pydata.org/). Pandas is another library build on top of NumPy that provides easy-to-use data structures and data analysis tools. If the main part of your work involves manipulating and reshaping data, dealing with missing values, and then performing statistical analysis and data visualization Pandas is the library for you.

## Acelerando Python

Python puede ser lerdo, al menos según las necesidades que suelen encontrarse en cálculos científicos de alto desempeño. Las dos principales razones de su relativa lentitud son

* **Python es un lenguaje de tipado dinámico** (en contraposición a tipado estático). Esto quiere decir que al momento de ejecutar un programa el interprete no sabe el tipo de las variables definidas. Es decir no sabe si $a$ es un entero o un flotante o un boolenao, etc. En otros lenguajes como Fortran o C antes de poder decir que _a = 1_ hay que especificar que _a_ tomará valores del tipo _entero_. En Python esto no es necesario de hecho es incluso posible hacer que en un momento la vartiable _a_ esté asociada a un entero y en otro momento (durante un mismo programa) que esté asociado a una cadena. El tipado dinámico hace que una operación dada, por ej una suma, involucre más pasos que la misma operación en un lenguaje de tipado estático.


* ** Python se interpreta, no se compila**. Los compiladores leen el código, antes de ejecutarlo, y pueden realizar varias tipos de optimizaciones. En los programas que necesitan ser compilados lo que se ejecuta es el código compilado.

Como ya vimos en el capítulo anterior, y a pesar de su lentitud, Python tiene varias características que hacen que programar sea relativamente facil y cómodo. Pero que hacemos si se da el caso de que necesitamos si o si que una nuestro programa corra más rápido. En general al optimizar un código se suele seguir la regla de Pareto, la cual puede ser expresada de la siguiente forma: solo una pequeña parte del código es responsable de la mayor parte del tiempo de ejecución de un programa. Por lo tanto en muchos casos es posible acelerar Python re-escribiendo solo una pequeña porcion del nuestro código. Las opciones mas comunes para acelerar Python son: 


* Usar una libreria llamada NumPY (es lo que veremos en este capítulo)
* Usar Numba. Esta librería es muy facil de usar y permite acelerar Python puro (o Python /NumPy) mediante el agregado de decoradores. Veremos como usarla hacia el final de este capítulo.
* Otras dos librerías que se pueden usar para acelerar Python, pero que no veremos en este curso, son [Theano](http://deeplearning.net/software/theano/) y [Cython](http://cython.org/)
* Si nada de lo anterior satisface nuestra espectativas entonces puede ser necesario considerar escribir las porciones lentas en lenguajes como C/C++ o Fortran.

## Numba

## Para seguir leyendo

* [scientific-python-lectures](http://github.com/jrjohansson/scientific-python-lectures).
* [Numpy](http://numpy.scipy.org)
* [100 NumPy exercises](http://www.labri.fr/perso/nrougier/teaching/numpy.100)
* http://scipy.org/Tentative_NumPy_Tutorial
* http://scipy.org/NumPy_for_Matlab_Users
* [NumPy's Beginners guide](https://www.packtpub.com/big-data-and-business-intelligence/numpy-beginner%E2%80%99s-guide-second-edition)
* [Learning SciPy for Numerical and Scientific Computing](https://www.packtpub.com/big-data-and-business-intelligence/learning-scipy-numerical-and-scientific-computing)