# NumPy: Arreglos numéricos para Python

----

**Nota Importante**: Los contenidos de esta lección son tomados de [Data Science for Everyone](https://github.com/ellisonbg/ds4e), por Brian Granger

----

NumPy es el módulo básico para la computación científica y la ciencia de datos en Python. Su objeto más usado son los arreglos multidimensionales, los cuales tienen las siguientes características:

* Los arreglos tienen cualquier número de dimensiones.
* Todos los elementos de un arreglo tienen el mismo tipo de datos.
* Los elementos de un arreglo son usualmente tipos de datos nativos (e.g. enteros, cadenas, etc).
* La memoria de un arreglo es un bloqueo contiguo que puede ser fácilmente pasado a otras librerías numéricas (BLAS, LAPACK, etc.).
* La mayoría de NumPy está implementado en C, por lo que es bastante rápido.

## Tipo de arreglo multidimensional

Esta es la forma canónica en que se importa Numpy y se crea un arreglo

In [None]:
import numpy as np

In [None]:
data = [0,2.,4,6]
a = np.array(data)

In [None]:
type(a)

In [None]:
a

La forma de un arreglo:

In [None]:
a.shape

El número de dimensiones del arreglo:

In [None]:
a.ndim

El número de elementos del arreglo:

In [None]:
a.size

El número de bytes que ocupa el arreglo:

In [None]:
a.nbytes

El atributo `dtype` describe el "tipo de datos" (data type) de los elementos:

In [None]:
a.dtype

## Creando arreglos

Los arreglos pueden ser creaados con listas or tuplas anidadas:

In [None]:
data = [[0.0, 2.0, 4.0, 6.0], [1.0, 3.0, 5.0, 7.0]]
b = np.array(data)

In [None]:
b

In [None]:
b.shape, b.ndim, b.size, b.nbytes

La función `arange` es similar a la función `range` de Python, pero crea un arreglo:

In [None]:
c = np.arange(0.0, 10.0, 1.0) # Step size of 1.0
c

La función `linspace` es similar, pero permite especificar el número de puntos:

In [None]:
e = np.linspace(0.0, 5.0, 11) # 11 points
e

También hay funciones `empty`, `zeros` y `ones` (como en Matlab):

In [None]:
np.empty((4,4))

In [None]:
np.zeros((3,3))

In [None]:
np.ones((3,3))

Ver también:

* `empty_like`, `ones_like`, `zeros_like`
* `eye`, `identity`, `diag`

## dtype

Los arreglos tienen un atributo `dtype` que guarda el tipo de datos de cada elemento. Puede ser definido:

* Implicitamente por el tipo de elemento
* Al pasarle el argumento `dtype` a una función de creación de arreglos

Este es un arreglo de tipo entero:

In [None]:
a = np.array([0, 1, 2, 3])

In [None]:
a, a.dtype

Todas las funciones de creación de arreglos aceptan un argumentp opcional `dtype`:

In [None]:
b = np.zeros((2,2), dtype=np.complex64)
b

In [None]:
c = np.arange(0, 10, 2, dtype=np.float)
c

También es posible usar el método `astype` para crear una copia del arreglo con un `dtype` dado:

In [None]:
d = c.astype(dtype=np.int)
d

La documentación de NumPy sobre [dtypes](http://docs.scipy.org/doc/numpy/reference/arrays.dtypes.html) (en inglés) describe todas las formas que existen para especificar dtypes.

## Operaciones sobre arreglos

Las operaciones matemáticas básicas son **elemento a elemento** para:

* Números y arreglos
* Arreglos y arreglos

Por ejemplo, a continuacuón creamos un arreglo vacío y lo llenamos con un valor

In [None]:
a = np.empty((3,3))
a.fill(0.1)
a

In [None]:
b = np.ones((3,3))
b

La adición es elemento a elemento:

In [None]:
a + b

La división es elemento a elemento:

In [None]:
a / b

Como también lo son las potencias:

In [None]:
a**2

La multiplicación por un escalar es también elemento a elemento:

In [None]:
np.pi * b

## Indexado and rebanado

El indexado y rebanado proveen una forma eficiente de obtener los valores de un arreglo y de modificarlos.

In [None]:
%precision 2

In [None]:
a = np.random.rand(9, 9)

In [None]:
a

Al igual que las listas y tuplas de Python, los arreglos de NumPy tienen un indexado que empieza en cero y utilizan los corchetes (`[]`) para obtener y definir valores:

In [None]:
a[0,0]

Un índice de `-1` se refiere al último elemento a lo largo de un eje:

In [None]:
a[-1,-1]

El extraer la columna 0 usa la sintaxis `:`, que denota todos los elementos a lo largo de un eje.

In [None]:
a[:,0]

La última fila se extrae así:

In [None]:
a[-1,:]

También se pueden rebanar rangos, así:

In [None]:
a[0:2,0:2]

La asignación también funciona con rebanados:

In [None]:
a[0:5,0:5] = 1.0

In [None]:
a

Es importante notar como aún cuando asignamos el valor a una porción, el arreglo original fue modificado. Esto demuestra que los rebanadosson **vistas** de los mismos datos, no una copia de los mismos.

### Indexado booleano

Los arreglos pueden ser indexados usando otros arreglos que tienen valores booleanos.

In [None]:
edades = np.array([23, 56, 67, 89, 23, 56, 27, 12, 8, 72])
generos = np.array(['m', 'm', 'f', 'f', 'm', 'f', 'm', 'm' ,'m', 'f'])

Las expresiones booleanas que involucran arreglos crean nuevos arreglos con un tipo de datos `bool` y el resultado elemento a elemento de expresiones de la forma:

In [None]:
edades > 30

In [None]:
generos == 'm'

Las expresiones booleanas proveen una forma extremadamente rápida y flexible de consultar los contenidos de arreglos:

In [None]:
(ages > 10) & (ages < 50)

Es posible usar un arreglo booleano para para indexar el arreglo original u otro arreglo. Por ejemplo, la siguiente expresión seleccciona las edades de todas las mujeres en el arreglo `generos`:

In [None]:
mascara = (generos == 'f')
edades[mascara]

In [None]:
edades[edades > 30]

## Cambiar la forma y transponer arreglos

In [None]:
a = np.random.rand(3,4)

In [None]:
a

el atributo `T` contiene la transpuesta del arreglo original:

In [None]:
a.T

El método `reshape` puede ser usado para cambiar la forma y el número de dimensiones de un arreglo:

In [None]:
a.reshape(2,6)

In [None]:
a.reshape(6,2)

El método `ravel` convierte un arreglo de cualquier número de dimensiones en uno de una sola dimensión:

In [None]:
a.ravel()

## Funciones universales

Las funciones universales, o "ufuncs," son funciones que toman y retornan arreglos o números. Éstas tienen las siguientes características:

* Implementaciones vectorizadas en C, las cuales son mucho más rápidas que ciclos `for` en Python.
* Permiten escribir código mucho más compacto
* Aquí se encuentra una lista completa de [todas las funciones universales de NumPy](http://docs.scipy.org/doc/numpy/reference/ufuncs.html#available-ufuncs) (en inglés).

Esta es una secuencia lineal de valores

In [None]:
t = np.linspace(0.0, 4*np.pi, 100)
t

Este es el resultado de la función seno aplicada a todos los elementos del arreglo:

In [None]:
np.sin(t)

Como muestran los siguientes ejemplos, múltiples ufuncs pueden ser usadas para crear complejas expresiones matemáticas que pueden ser calculadas eficientemente:

In [None]:
np.exp(np.sqrt(t))

In [None]:
%matplotlib inline
import matplotlib.pyplot as plt
plt.style.use('ggplot')

In [None]:
plt.plot(t, np.exp(-0.1*t)*np.sin(t))

En general, siempre se debería intentar utilizar las ufuncs en lugar de ciclos for. Esta clase de cálculos basados en arreglos se conocen como *vectorizados*.

## Procesamiento básico de datos

In [None]:
edades = np.array([23, 56, 67, 89, 23, 56, 27, 12, 8, 72])
generos = np.array(['m', 'm', 'f', 'f', 'm', 'f', 'm', 'm', 'm', 'f'])

Numpy tiene un conjunto básico de métodos y funciones para calcular cantidades básicas sobre ciertos datos.

In [None]:
edades.min(), edades.max()

Calcular la media:

In [None]:
edades.mean()

Calcular la varianza y la desviación estandar:

In [None]:
ages.var(), ages.std()

La función `bincount` cuenta cuantas veces ocurre cada valor en un arreglo:

In [None]:
np.bincount(edades)

Los métodos `cumsum` y `cumprod` calculan las sumas y productos acumulados:

In [None]:
edades.cumsum()

In [None]:
edades.cumprod()

La mayoría de las funciones y métodos anteriores toman un argumento llamado `axis` que aplica la operación a lo largo de un eje particular:

In [None]:
a = np.random.randint(0, 10, (3,4))
a

Con `axis=0`, la operación toma lugar a lo largo de las filas:

In [None]:
a.sum(axis=0)

Con `axis=1` la operación toma lugar a lo largo de las columnas:

In [None]:
a.sum(axis=1)

La función `unique` es muy útil para trabajar con datos categóricos:

In [None]:
np.unique(generos)

In [None]:
np.unique(generos, return_counts=True)

La función `where` permite aplicar lógica condicional a los arreglos. Este es un esquema de cómo funciona:

```python
np.where(condicion, si_falsa, si_verdadera)
```

In [None]:
np.where(edades > 30, 0, 1)

Los valores `si_falsa` y `si_verdadera` pueden ser arreglos:

In [None]:
np.where(edades < 30, 0, edades)

## Lectura y escritura de archivos

NumPy tiene varias funciones para leer y escribir arreglos de y hacia el sistema operativo.

### Single array, binary format

In [None]:
a = np.random.rand(10)
a

Save the array to a binary file named `array1.npy`:

In [None]:
np.save('array1', a)

In [None]:
ls

Using `%pycat` to look at the file shows that it is binary:

In [None]:
%pycat array1.npy

Load the array back into memory:

In [None]:
a_copy = np.load('array1.npy')

In [None]:
a_copy

### Single array, text format

In [None]:
b = np.random.randint(0, 10, (5,3))
b

The `savetxt` function saves arrays in a simple, textual format that is less effecient, but easier for other languges to read:

In [None]:
np.savetxt('array2.txt', b)

In [None]:
ls

Using `%pycat` to look at the contents shows that the files is indeed a plain text file:

In [None]:
%pycat array2.txt

In [None]:
np.loadtxt('array2.txt')

### Multiple arrays, binary format

The `savez` function provides an efficient way of saving multiple arrays to a single file:

In [None]:
np.savez('arrays.npz', a=a, b=b)

The `load` function returns a dictionary like object that provides access to the individual arrays:

In [None]:
a_and_b = np.load('arrays.npz')

In [None]:
a_and_b['a']

In [None]:
a_and_b['b']

## Linear algebra

NumPy has excellent linear algebra capabilities.

In [None]:
a = np.random.rand(5,5)
b = np.random.rand(5,5)

Remember that array operations are elementwise. Thus, this is **not** matrix multiplication:

In [None]:
a * b

To get matrix multiplication use `np.dot`:

In [None]:
np.dot(a, b)

Or, NumPy as a `matrix` subclass for which matrix operations are the default:

In [None]:
m1 = np.matrix(a)
m2 = np.matrix(b)

In [None]:
m1 * m2

The `np.linalg` package has a wide range of fast linear algebra operations.

Here is determinant:

In [None]:
np.linalg.det(a)

Matrix inverse:

In [None]:
np.linalg.inv(a)

Eigenvalues:

In [None]:
np.linalg.eigvals(a)

## Random numbers

NumPy has functions for creating arrays of random numbers from different distributions in `np.random`, as well as handling things like permutation, shuffling, and choosing.

Here is the [numpy.random documentation](http://docs.scipy.org/doc/numpy/reference/routines.random.html).

In [None]:
plt.hist(np.random.random(250))
plt.title('Uniform Random Distribution $[0,1]$')
plt.xlabel('value')
plt.ylabel('count')

In [None]:
plt.hist(np.random.randn(250))
plt.title('Standard Normal Distribution')
plt.xlabel('value')
plt.ylabel('count')

The `shuffle` function shuffles an array in place:

In [None]:
a = np.arange(0,10)
print(a)
np.random.shuffle(a)
print(a)

The `permutation` function does the same thing but first makes a copy:

In [None]:
a = np.arange(0,10)
print(np.random.permutation(a))
print(a)

The `choice` function provides a powerful way of creating synthetic data sets of discrete data:

In [None]:
np.random.choice(['m','f'], 20, p=[0.25,0.75])

## Resources

* [NumPy Reference Documentation](http://docs.scipy.org/doc/numpy/reference/)
* [Python Scientific Lecture Notes](http://scipy-lectures.github.io/index.html), Edited by Valentin Haenel,
Emmanuelle Gouillart and Gaël Varoquaux.
* [Lectures on Scientific Computing with Python](https://github.com/jrjohansson/scientific-python-lectures), J.R. Johansson.
* [Introduction to Scientific Computing in Python](http://nbviewer.ipython.org/github/jakevdp/2014_fall_ASTR599/tree/master/), Jake Vanderplas.