# NumPy

NumPy (Numerical Python) es una librería para cómputo científico. Esta librería contiene muchas funciones matemáticas que permiten realizar operaciones de álgebra lineal, generar números pseudo-aleatorios, etc. De forma muy general el computo científico se basa en operar con arreglos de números, a veces estos arreglos representan matrices y vectores y las operaciones necesarias son fundamentalmente las del algebra lineal. En otros casos, como el análisis de datos, los arreglos de números no necesariamente (o no siempre) son vectores y matrices en estricto sentido matemático. Por ejemplo casi cualquier conjunto de datos puede ser pensado como un arreglo de números. Una imagen es un arreglo bidimensional de números donde cada número representa el brillo de un pixel. Un sonido es un arreglo unidimensional que representa intensidad versus tiempo.

En definitiva para el computo científico es necesario contar con formas eficientes de almacenar y manipular arreglos de números. Y NumPy ha sido diseñado para esta tarea. El código escrito en NumPy suele ser más corto que el código equivalente en _Python puro_. El uso de _loops_ es reducido ya que muchas operaciones se aplican directamente sobre arreglos (_arrays_). Esto se conoce como vectorizar el código, internamente los _loops_ siguen estando presentes pero son ejecutados por rutinas optimizadas escritas en lenguajes como C o Fortran. Además, NumPy provee de muchas funciones matemáticas/científicas listas para usar. Esto reduce la cantidad de código que debemos escribir (reduciendo las chances de cometer errores) y más importante, esas funciones están escritas usando implementaciones eficientes y confiables.

Para poder usar NumPy debemos importarlo, la forma más común de importar NumPy es la siguiente:

In [1]:
import numpy as np

## Arreglos (arrays)

NumPy usa una estructura de datos llamada arreglos. Los arreglos de NumPy son similares a las listas de Python, pero son mas eficientes para realizar tareas numéricas. La eficiencia deriva de las siguientes características:

* Las listas de Python son muy generales, pudiendo contener objetos de distinto tipo. Además los objetos son asignados dinamicamente, es decir el tamaño de una lista no está predefinido, siempre podemos agregar más y más elementos. 

* Por el contrario, los arreglos de NumPy son **estáticos**  y **homogéneos**. El tipo de los objetos se determina cuando el array es creado (de forma automática o por el usuario) lo que permite hacer uso eficiente de la memoria.

* Otra razón por la cual los arreglos son más eficientes que las listas es que en Python todo es un objeto, incluso los números! Por ejemplo en C un entero es esencialmente un rótulo que conecta un lugar en la memoria de la computadora cuyos _bytes_ se usan para codificar el valor de ese entero. Sin embargo en Python un entero es un objeto más complejo que contiene más información que simplemente el valor de un número. Esto da flexibilidad a Python, pero el costo es que es más lento que un lenguaje como C. Este costo es aún mayor cuando combinamos muchos de estos objetos en un objeto más complejo, por ejemplo cuando combinamos enteros dentro de una lista.

Otra ventaja de los arreglos es que se comportan de forma similar a los vectores y matrices usados en matemática.

## Operando con arreglos

Existen muchas formas de crear un arreglo, luego veremos varias de ellas. Pero empecemos por una de las más comunes, apartir de una lista.

In [2]:
v = np.array([1, 2, 3, 4, 5, 6])
v, type(v)

(array([1, 2, 3, 4, 5, 6]), numpy.ndarray)

Una vez que tenemos un array podemos operar con el. Por ejemplo calcular su media

In [3]:
np.mean(v)  # o cómo método v.mean()

3.5

O calcular funciones como seno

In [4]:
np.sin(v)

array([ 0.84147098,  0.90929743,  0.14112001, -0.7568025 , -0.95892427,
       -0.2794155 ])

Noten como al calcular la media, NumPy entiende que quiere que usemos todos los valores para computar una solo, es decir que queremos agregar los datos. Pero al calcular la función seno, entiende que esta esa una operación unaria, por cada valor de entrada obtenemos uno de salida.

Veamos como calcular la varianza, una posibilidad es usar la definición:

$$
\frac{1}{N}\sum_i^N (x_i - \bar x)^2
$$

In [5]:
np.mean((v - v.mean())**2)

2.9166666666666665

Lo primero que notamos es que podemos usar los array directamente sin necesidad de *bucles* cuando restamos dos arrays NumPy entiende que a cada elemento del array `v` le queremos restar un escalar, la media de `v`. 

In [6]:
print(v)
media = v.mean()
print(media)
v - media

[1 2 3 4 5 6]
3.5


array([-2.5, -1.5, -0.5,  0.5,  1.5,  2.5])

NumPy tambien entiende la siguiente operación

In [7]:
v - v

array([0, 0, 0, 0, 0, 0])

Una forma más simple de calcular la varianza es simplemente

In [8]:
v.var()  # o como función np.var(v)

2.9166666666666665

Algunas otras funciones disponibles son

* log, logaritmo natural
* log2, logararitmo base 2
* log10, logararitmo base 10
* exp, exponencial
* sin, seno
* cos, coseno
* tan, tangente
* arcsin, inversa del seno
* arccos, inversa del coseno
* arctan, inversa de la tangente
* max, maximo valor
* min, minimo valor
* argmax, indice valor máximo
* argmin, indice valor mínimo
* abs, valor absoluto
* mean, media
* median, mediana
* sum, suma
* sqrt, raiz cuadrada
* quantiles, cuantiles


Funciones como _sqrt_, que operan sobre arreglos _elemento-a-elemento_ se conocen como [funciones universales](https://numpy.org/doc/stable/reference/ufuncs.html) (usualmente abreviadas como ufunc).

Una de las ventajas de usar ufuncs es que permiten escribir código más breve. Otra ventaja es que los cómputos son más rápidos que usando loops de Python. Detrás de escena NumPy si realiza un loop, pero el loop se realiza en un legunaje como C o Fortran, por lo que hay una ganancia considerable en velocidad, respecto de código en Python puro. Además, el código usado por NumPy es código que suele estar optimizado gracias a los años de labor de programadores/científicos.

Los arreglos pueden tener más de una dimensión

In [9]:
M = np.array([[1, 2], [3, 4], [5, 6]])
M

array([[1, 2],
       [3, 4],
       [5, 6]])

Esto nos brinda mayor número de opciones al realizar operaciones, podemos calcular la media para todos los valores

In [10]:
np.mean(M) 

3.5

o hacerlo por dimensión

In [11]:
np.mean(M, axis=0)  # a lo largo de las columnas

array([3., 4.])

In [12]:
np.mean(M, axis=1)  # a lo largo de las filas

array([1.5, 3.5, 5.5])

Que sucede si el axis es más grande que la cantidad de dimensiones? Y si usamos enteros negativos?

Vamos nuevamente con la varianza

In [13]:
np.mean((M - M.mean())**2)

2.9166666666666665

A lo largo del eje 0 (columnas)

In [14]:
np.mean((M - M.mean(axis=0))**2, axis=0)

array([2.66666667, 2.66666667])

A lo largo del eje 1 (filas)

In [15]:
np.mean((M.T - M.mean(axis=1))**2, axis=0)

array([0.25, 0.25, 0.25])

Puedes explicar por que no hicimos simplemente `np.mean((M, M.mean(axis=1))**2, axis=1)`

## Broadcasting

Un elemento que facilita vectorizar código es la capacidad de operar sobre arreglos que no tienen las mismas dimensiones. Esto se llama _broadcasting_ y no es más que un conjunto de reglas que permiten aplicar operaciones binarias (suma, multiplicación etc) a arreglos de distinto tamaño.

Consideremos el siguiente ejemplo.

In [83]:
a = np.array([0, 1, 2])
b = np.array([2, 2, 2])
a + b

array([2, 3, 4])

Esto no es nada sorprendente lo que hemos hecho es sumar elemento a elemento. Fijensé que el arreglo `b` contiene 3 veces el número `2`. Gracias al broadcasting es posible obtener el mismo resultado al hacer.

In [84]:
a + 2

array([2, 3, 4])

Esto no solo funciona para arreglos y números, también funciona para dos arreglos.

In [86]:
M + b

array([[ 2,  4,  5],
       [ 6,  7,  8],
       [ 9, 10, 11]])

En ambos casos lo que está sucediendo _es como si_ antes de realizar la suma extendieramos una de las partes para que las dimensiones conincidan, por ejemplo repetir 3 veces el número 2 o tres veces el vector b. En realidad tal  _repetición_ no se realiza, pero es una  forma útil de pensar la operación.

Es claro que el broadcasting NO puede funcionar para cualquier para de arreglos. La siguiente operación no funciona

In [97]:
M + v

ValueError: operands could not be broadcast together with shapes (3,2) (6,) 

## Comparaciones y máscaras de booleanos

Así como es posible sumar un número a un arreglo, es posible hacer comparaciones elemento-a-elemento.

In [93]:
M > 3

array([[False, False],
       [False, False],
       [ True, False]])

Es muy común usar el resultado de tal comparación para obtener valores de un arreglo que cumplan con cierto criterio, como:

In [94]:
M[M > 3]

array([5])

### Creando arreglos

Existen varias rutinas para [crear](https://numpy.org/doc/stable/reference/routines.array-creation.html) arreglos de NumPy a partir de:

* Listas o tuplas de Python
* Rangos numéricos
* Números aletorios
* Ceros y unos
* Archivos

#### A partir de listas y tuplas

Para crear arreglos a partir de listas (o tuplas) podemos usar la funcion **array**.

In [16]:
v = np.array([1, 2, 3, 4, 5, 6])
v

array([1, 2, 3, 4, 5, 6])

Los arreglos pueden tener más de una dimensión

In [17]:
M = np.array([[1, 2], [3, 4], [5, 6]])
M

array([[1, 2],
       [3, 4],
       [5, 6]])

Los objetos **v** y **M** son ambos del tipo **ndarray**

In [18]:
type(v), type(M)

(numpy.ndarray, numpy.ndarray)

La diferencia entre el arreglo **v** y **M** es la forma. Para obtener la forma de un arreglo podemos usar el método **shape**.

In [19]:
v.shape  # equivalente a la función np.shape(v)

(6,)

In [20]:
M.shape  # equivalente a np.shape(M)

(3, 2)

 **size** nos dice el número de elementos de un arreglo

In [21]:
v.size, M.size  # o np.size(v), np.size(M) 

(6, 6)

De la misma forma podemos obtener el número de dimensiones de un arreglo usando **ndim**

In [22]:
v.ndim, M.ndim  # o np.ndim(v), np.ndim(M) 

(1, 2)

Usando el método **dtype**, podemos preguntar sobre el **tipo** (type) de los elementos almacenados en un arreglo.

In [23]:
M.dtype

dtype('int64')

Las listas de Python nos permiten mezclar objetos con distinto tipo. En cambio, con los arreglos obtenemos un error.

In [24]:
v[0] = "hello world"

ValueError: invalid literal for int() with base 10: 'hello world'

O podríamos obtener algo distinto a lo que esperábamos!

In [None]:
v[0] = 0.9
x = np.array([0.9, 2, 3, 4, 5, 6])
v, x

En el primer caso, al agregar 0.9 a un array de enteros NumPy hace lo que se conoce como _downcast_ y trunca el número decimal a un entero (0.9 --> 0). En el segundo caso creamos un nuevo array a partir de una lista que contiene tantos enteros como decimales y entonces NumPy decide hacer un _upcast_ y convertir a todos los números a decimales.

Si no queremos que NumPy decida por nosotros, es posible definir de forma explícita el tipo al crear un array.

In [None]:
np.array([[1, 2], [3, 4]], dtype=float)

#### A partir de un rango numérico

Una forma de crear arreglos desde cero es usando rangos. Por ejemplo podemos crear un arreglos conteniendo números igualmente espaciados en el intervalo [desde, hasta), usando **arange**

In [25]:
np.arange(0, 10, 1) # desde, hasta(sin incluir), paso

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

_desde_ y _paso_ son argumentos opcionales

In [26]:
np.arange(10)

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

A diferencia de la función **range** de Python, **arrange** soporta decimales

In [27]:
np.arange(-1, 1, 0.25)

array([-1.  , -0.75, -0.5 , -0.25,  0.  ,  0.25,  0.5 ,  0.75])

Otra función para crear rangos es **linspace** que devuelve numeros igualmente espacios en el intervalo [desde, hasta] (es decir incluyendo el _hasta_). Otra diferencia con **arange** es que no se especifica el _paso_ si no la cantidad total de números que contendrá el arreglo.

In [28]:
np.linspace(1, 10, 25) # desde, hasta, elementos (elementos es opcional)

array([ 1.   ,  1.375,  1.75 ,  2.125,  2.5  ,  2.875,  3.25 ,  3.625,
        4.   ,  4.375,  4.75 ,  5.125,  5.5  ,  5.875,  6.25 ,  6.625,
        7.   ,  7.375,  7.75 ,  8.125,  8.5  ,  8.875,  9.25 ,  9.625,
       10.   ])

**logspace** es similar a **linspace** pero los números están igualmente espaciados en un escala logarítima.

In [29]:
np.logspace(0, 1.5, 5, base=np.e) # por defecto usa base 10

array([1.        , 1.45499141, 2.11700002, 3.08021685, 4.48168907])

In [30]:
np.log(np.logspace(0, 1.5, 5, base=np.e))  # el logaritmo de np.logspace es np.linspace

array([0.   , 0.375, 0.75 , 1.125, 1.5  ])

#### A partir de números aleatorios

Los números aleatorios son usados en muchos problemas científicos. En la práctica las computadoras son solo capaces de generar números pseudo-aleatorios, _i.e._ números que para los fines prácticos lucen como números aleatorios.

Todas las rutinas para generar números aleatorios viven dentro del módulo [random](https://numpy.org/doc/stable/reference/random/index.html). Python usa un algortimo llamado [Mersenne Twister](https://en.wikipedia.org/wiki/Mersenne_twister) para generar números pseudo-aleatorios. Este algorítmo es más que suficiente para fines científicos, pero no es util en caso que necesitemos números pseudo-aleatorios para usar en criptografía.

La función mas simple es **rand**. Esta función crea un arreglo a partir de una distribución uniforme en el intervalo [0, 1).

In [31]:
np.random.rand(2, 5)  # arreglo con forma (2, 5)

array([[0.5471782 , 0.82370077, 0.24568082, 0.98376444, 0.76376076],
       [0.32054537, 0.85389163, 0.91484307, 0.95402878, 0.78803951]])

De forma similar **randn** devuelve muestras a partir de la distribución normal estándar (media = 0, desviación estándard =1).

In [32]:
np.random.randn(3, 2)

array([[-0.30165841, -0.55343271],
       [ 0.14900648,  0.91170734],
       [-1.49957076, -0.18453495]])

Los números aleatorios son útiles en muchas aplicaciones, pero trabajar con ellos puede dificutlar tareas como el _debugging_. Una forma de solucionar esto es especificar una semilla fija para el generador de números pseudo-aleatorios. De esta forma cada vez que pidamos una serie de números aleatorios, obtendremos exactamente la misma secuencia.

In [33]:
np.random.seed(31415)
np.random.randn(3)

array([1.36242188, 1.13410818, 2.36307449])

#### A partir de ceros y unos

A veces es conveniente llenar arreglos usando simplemente ceros o unos.

In [34]:
np.zeros((2,5))

array([[0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.]])

In [35]:
np.ones((3,2))

array([[1., 1.],
       [1., 1.],
       [1., 1.]])

In [36]:
np.empty((3,2))  # o simplemente con números sin sentido

array([[1., 1.],
       [1., 1.],
       [1., 1.]])

In [37]:
np.full((3,2), 42, dtype=int)  # o con algún número en particular

array([[42, 42],
       [42, 42],
       [42, 42]])

#### A partir de archivos

Un formato común para almacenar datos es el archivo .csv valores separados por coma (comma separated values). Muchas veces los archivos .csv usan otros separadores como espacios o tabulaciones (tab). Para cargar esos archivos en un arreglo de NumPy podemos usar la función ``genfromtxt`. Por ejemplo,

In [38]:
!head datos/muestra.dat  # Este es un comando de Linux que nos permite ver las primeras lineas de un archivo

   X       Y       Z     occ  b-f
45.885  29.085  -0.349  1.00 27.21
45.402  28.249  -1.361  1.00 25.24
44.792  26.870  -1.153  1.00 23.54
45.647  25.988  -1.415  1.00 20.94
46.415  28.104  -2.539  1.00 26.89
47.432  29.136  -2.674  1.00 27.10
43.440  26.778  -0.893  1.00 20.65
43.049  25.297  -0.723  1.00 18.63
42.868  24.450  -1.968  1.00 16.36


In [39]:
data = np.genfromtxt('datos/muestra.dat', skip_header=True)
data

array([[45.885, 29.085, -0.349,  1.   , 27.21 ],
       [45.402, 28.249, -1.361,  1.   , 25.24 ],
       [44.792, 26.87 , -1.153,  1.   , 23.54 ],
       [45.647, 25.988, -1.415,  1.   , 20.94 ],
       [46.415, 28.104, -2.539,  1.   , 26.89 ],
       [47.432, 29.136, -2.674,  1.   , 27.1  ],
       [43.44 , 26.778, -0.893,  1.   , 20.65 ],
       [43.049, 25.297, -0.723,  1.   , 18.63 ],
       [42.868, 24.45 , -1.968,  1.   , 16.36 ],
       [41.96 , 24.535, -2.773,  1.   , 15.9  ],
       [41.931, 25.472,  0.263,  1.   , 17.29 ],
       [41.735, 24.893,  1.591,  1.   , 17.13 ],
       [40.229, 24.874,  1.889,  1.   , 15.26 ]])

In [40]:
data.shape

(13, 5)

Si queremos guardar un arreglo a un archivo de texto podemos usar **numpy.savetxt** 

In [41]:
M = np.random.rand(3,3)
M

array([[0.64351246, 0.40036957, 0.87521911],
       [0.60860645, 0.10669999, 0.25430889],
       [0.03547   , 0.50116423, 0.6174447 ]])

In [42]:
np.savetxt("datos/matriz_aleatoria.csv", M, fmt='%.2f')

In [43]:
!head datos/matriz_aleatoria.csv

0.64 0.40 0.88
0.61 0.11 0.25
0.04 0.50 0.62


Otra opción, es guardar un arreglo en el formato _npy_. Esto es útil cuando necesitamos guardar datos que luego leeremos usando NumPy.

In [44]:
np.save("datos/matriz_aleatoria.npy", M)
!ls datos/*.npy

datos/matriz_aleatoria.npy


Para cargar los resultados de vuelta en NumPy usamos la función **load**.

In [45]:
np.load("datos/matriz_aleatoria.npy")

array([[0.64351246, 0.40036957, 0.87521911],
       [0.60860645, 0.10669999, 0.25430889],
       [0.03547   , 0.50116423, 0.6174447 ]])

### Indexado (Indexing)

El indexado de arreglos funciona de forma similar al indexado de listas de Python. Con algunas mejoras para el idexado de arrays multidimensionales.

In [46]:
v = np.array([1, 2, 3, 4, 5, 6])
M = np.array([[1, 2], [3, 4], [5, 6]])
print(v)
print(M)

[1 2 3 4 5 6]
[[1 2]
 [3 4]
 [5 6]]


**v** es un arreglo unidimensional (como un vector) y por lo tanto basta un número para indexarlo.

In [47]:
v[0]

1

En cambio **M** es un arreglo bi-dimensional (como una matriz) y por lo tanto hacen falta dos números para obtener un elemento específico.

In [48]:
M[1,1]  # esto es equivalente a M[1][1]

4

Si omitimos uno de los índices al indexar un arreglo multidimensional, NumPy devolverá la fila completa (o, en general, el arreglo de dimensión N-1 correspondiente)

In [49]:
M[1]

array([3, 4])

El mismo resultado se obtiene usando **:**

In [50]:
M[1,:]  # fila 1

array([3, 4])

In [51]:
M[:,1]  # columna 1

array([2, 4, 6])

También podemos asignar elementos especificando el índice adecuado.

In [52]:
M[0, 0] = -1
M

array([[-1,  2],
       [ 3,  4],
       [ 5,  6]])

Incluso esto funciona para filas y columnas enteras

In [53]:
M[1,:] = 0
M

array([[-1,  2],
       [ 0,  0],
       [ 5,  6]])

In [54]:
M[:,1] = -2
M

array([[-1, -2],
       [ 0, -2],
       [ 5, -2]])

### Rebanado (Slicing)

Al igual que con las listas los arreglos pueden ser rebanados.

In [55]:
print(v)
v[1:3]

[1 2 3 4 5 6]


array([2, 3])

El rebanado también puede ser usado para asignar nuevos valores

In [56]:
v[1:3] = -2,-3
v

array([ 1, -2, -3,  4,  5,  6])

También es posible usar rebanadas _de a pasos_.

In [57]:
v[::2]

array([ 1, -3,  5])

O tomar los primer **N** elementos

In [58]:
v[:3]

array([ 1, -2, -3])

o empezar desde el iésimo elemento

In [59]:
v[3:]

array([4, 5, 6])

o los últimos **N** elementos

In [60]:
v[-3:]

array([4, 5, 6])

Los arreglos no tienen por que estar restringido a 1 o 2 dimensiones. A medida que las dimensiones aumentan la complejidad del rebanado se incrementa junto con la posibilidad de cometer errores o al menos confundirse un poco.

In [61]:
c = np.array([[[ 0,  1,  2,  3], [ 4,  5,  6,  7], [ 8,  9, 10, 11]],
       [[12, 13, 14, 15], [16, 17, 18, 19], [20, 21, 22, 23]]])
c

array([[[ 0,  1,  2,  3],
        [ 4,  5,  6,  7],
        [ 8,  9, 10, 11]],

       [[12, 13, 14, 15],
        [16, 17, 18, 19],
        [20, 21, 22, 23]]])

In [62]:
np.shape(c)

(2, 3, 4)

In [63]:
c[0]

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [64]:
c[0, 2]

array([ 8,  9, 10, 11])

Podemos extraer el 0ésimo elemento de la segunda dimensión (axis=1)

In [65]:
c[:,0]  # equivalente a c[:,0,:]

array([[ 0,  1,  2,  3],
       [12, 13, 14, 15]])

O los primeros elementos de la tercer dimensión (axis=2)

In [66]:
c[:,:,1]

array([[ 1,  5,  9],
       [13, 17, 21]])

In [67]:
c[0,:,1]

array([1, 5, 9])

Cualquier subconjunto de elementos pueden ser obtenidos desde un arreglo, por ejemplo

* Tomemos el 0ésimo elemento de la primer dimensión
* Luego, el primer elemento de la segunda dimensión 
* Finalmente, todos los elementos en la tercer dimensión con un paso de a 2 elementos

In [68]:
c[0,1,::2]

array([4, 6])

O invertir el orden

In [69]:
c[::-1]

array([[[12, 13, 14, 15],
        [16, 17, 18, 19],
        [20, 21, 22, 23]],

       [[ 0,  1,  2,  3],
        [ 4,  5,  6,  7],
        [ 8,  9, 10, 11]]])

Otro ejemplo de un rebanado complejo:

* Tomemos el 0ésimo elemento de la primer dimensión
* Luego, los elementos de la segunda dimension en orden inverso
* Finalmente, el ultimo elemento de la tercer dimensión

In [70]:
c[0,::-1, -1]

array([11,  7,  3])

Al hacer un slice de un array NO estamos creando una copia del arreglo, si no que tenemos una representación de una porción del arreglo original. En el siguiente ejemplo creamos un arreglo llamado _d_ a partir del arreglo _c_, luego modificamos _d_ y como resultamos obtenemos que _c_ también se modifica. 

In [71]:
d = c[0]
print(d)
d[0,1] = 999
print(d)
print(c)

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]
[[  0 999   2   3]
 [  4   5   6   7]
 [  8   9  10  11]]
[[[  0 999   2   3]
  [  4   5   6   7]
  [  8   9  10  11]]

 [[ 12  13  14  15]
  [ 16  17  18  19]
  [ 20  21  22  23]]]


En caso de que realmente necesitemos realizar una copia del array, podremos hacerlo usando el método _copy()_.

In [72]:
d = c[0].copy()
print(d)
d[0,1] = -10
print(d)
print(c)

[[  0 999   2   3]
 [  4   5   6   7]
 [  8   9  10  11]]
[[  0 -10   2   3]
 [  4   5   6   7]
 [  8   9  10  11]]
[[[  0 999   2   3]
  [  4   5   6   7]
  [  8   9  10  11]]

 [[ 12  13  14  15]
  [ 16  17  18  19]
  [ 20  21  22  23]]]


## Manipulación de Arreglos

A veces es conveniente cambiar la forma de los arreglos or combinar dos o más arreglos, para ello existen varias funciones:

In [73]:
c = np.arange(24).reshape(2,3,4)
c

array([[[ 0,  1,  2,  3],
        [ 4,  5,  6,  7],
        [ 8,  9, 10, 11]],

       [[12, 13, 14, 15],
        [16, 17, 18, 19],
        [20, 21, 22, 23]]])

Quizá necesitamos borrar parte de un arreglo

In [74]:
np.delete(c, (0,2), axis=2)

array([[[ 1,  3],
        [ 5,  7],
        [ 9, 11]],

       [[13, 15],
        [17, 19],
        [21, 23]]])

O necesitamos _aplanar_ un arreglo (hacerlo unidimensional), para ello podemos usar **flatten** o **ravel**.

In [75]:
c.flatten()  # flatten es un método no una función

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
       17, 18, 19, 20, 21, 22, 23])

In [76]:
c.ravel() # equivale a np.ravel(c)

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
       17, 18, 19, 20, 21, 22, 23])

A veces suele ser necesario convertir un array unidimensional en uno bidimensional, pero con una de las dimensiones _vacías_.

In [77]:
e = np.array([1, 2, 3])
e

array([1, 2, 3])

In [78]:
e.reshape((1, 3)) # equivalente a x[np.newaxis, :]

array([[1, 2, 3]])

In [79]:
e.reshape((3, 1)) # equivalente a x[:, np.newaxis]

array([[1],
       [2],
       [3]])

### Apilando (Stacking)

Es posible obtener un nuevo array a partir de apilar un array sobre otro.

In [80]:
f = np.arange(16).reshape(4, 4)
g = f * 2
print(f)
print(g)

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]
 [12 13 14 15]]
[[ 0  2  4  6]
 [ 8 10 12 14]
 [16 18 20 22]
 [24 26 28 30]]


In [81]:
np.concatenate((f, g), axis=0)  # equivalent to np.vstack((f, g))

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15],
       [ 0,  2,  4,  6],
       [ 8, 10, 12, 14],
       [16, 18, 20, 22],
       [24, 26, 28, 30]])

In [82]:
np.concatenate((f, g), axis=1)  # equivalent to np.hstack((f, g))

array([[ 0,  1,  2,  3,  0,  2,  4,  6],
       [ 4,  5,  6,  7,  8, 10, 12, 14],
       [ 8,  9, 10, 11, 16, 18, 20, 22],
       [12, 13, 14, 15, 24, 26, 28, 30]])

### Escindiendo (Splitting)

La operación contraria al _stacking_ es el _splitting_.

In [83]:
np.split(f, 2, axis=0)

[array([[0, 1, 2, 3],
        [4, 5, 6, 7]]),
 array([[ 8,  9, 10, 11],
        [12, 13, 14, 15]])]

In [84]:
np.split(f, 2, axis=1)

[array([[ 0,  1],
        [ 4,  5],
        [ 8,  9],
        [12, 13]]),
 array([[ 2,  3],
        [ 6,  7],
        [10, 11],
        [14, 15]])]

### Indexado Avanzado (Fancy indexing)

Además del indexado usando entereos y rebanadas (_slices_) que ya hemos visto, es posible idexar arrays usando arrays conteniendo enteros o booleanos.

In [85]:
i = np.arange(10)**2 
i

array([ 0,  1,  4,  9, 16, 25, 36, 49, 64, 81])

In [86]:
idx = np.array([0, 2, 3, 3])
i[idx]

array([0, 4, 9, 9])

In [87]:
j = np.arange(9).reshape(3, 3)
j

array([[0, 1, 2],
       [3, 4, 5],
       [6, 7, 8]])

In [88]:
idx_fila = np.array([0,2])
idx_col = np.array([1])

j[idx_fila, idx_col]

array([1, 7])

También podemos usar in arreglo de booleanos, por ejemplo si quisieramos obtener todos los números pares contenidos en un arreglo podríamos hacer lo siguiente.

In [89]:
j[j % 2 == 0]

array([0, 2, 4, 6, 8])

Si la expresión en la celda anterior te parece confusa, podés revisar y ver que la expresión entre corchetes (la que indexa al arreglo _j_), es un arreglo de booleanos.

In [90]:
j % 2 == 0

array([[ True, False,  True],
       [False,  True, False],
       [ True, False,  True]])

## Constantes

Algunas constantes como $\pi$ y $e$ puede ser accedidas desde NumPy. Un número mayor de constantes está disponible en [scipy.constants](https://docs.scipy.org/doc/scipy/reference/constants.html)

In [91]:
np.pi

3.141592653589793

In [92]:
np.e

2.718281828459045

## SciPy

NumPy es una muy buena librería para computación numérica y en este capítulo apenas hemos empezado a arañar la superficie de lo que es posible hacer con ella. Al trabajar con computación científica muchas veces necesitarás acceso a rutinas numéricas para la interpolación, integración, optimización, análisis estadístico, procesamiento de audio, procesamiento de imágenes, etc. Las probabilidades son realmente altas de que esas funciones ya hayan sido implementadas y estén disponibles en SciPy. [SciPy](https://docs.scipy.org/doc/scipy/) es una librería de computación científica construida encima de NumPy. Al igual que como sucede con NumPy, SciPy cuenta con muchas rutinas rápidas y confiables facilmente disponibles y es siempre una buena idea buscar si la rutina que uno necesita está disponible en SciPy (¡no pierdas el tiempo reinventando la rueda, a menos que necesites una rueda muy especial!). SciPy es también el nombre de un grupo de conferencias donde participan usuarios y desarrolladores de herramientas de computación científica en Python. En los siguientes capitulos haremos uso de algunas de las muchas funcionalidades ofrecidas por SciPy.

## Distribuciones de probabilidad

Las variables aleatorias y las distribuciones de probabildiad asociadas a ellas son objetos centrales en estadística. Las distribuciones de probabilidad tienen formulas matemáticas precisas, de forma similar a como las circunferencias tienen una definición matemática precisa.

> Una circunferencia es el lugar geométrico de los puntos de un plano que equidistan a otro punto llamado centro.

Dado el parámetro `radio` una circunferencia queda perfectamente definida. Si necesitáramos ubicar la circunferencia respecto de otros objetos en el plano, necesitaríamos además las coordenadas del centro, pero omitamos ese _detalle_ por el momento.

Podríamos decir que no existe una sola circunferencia, sino una familia de circunferencias donde cada miembro se diferencia del resto solo por el valor del parámetro `radio`, ya que una vez definido este parámetro la circunferencia queda definida.

De forma similar las distribuciones de probabilidad vienen en familias cuyos miembros quedan definidos por uno o más parámetros.

Quizá la distribución de probabilidad más conocida sea la distribución normal. Esta distribución queda definidad por dos parámetros la media (usualmente $\mu$) y la desviacion estándard (usualmente $\sigma$). Otras parametrizaciones comunmente usadadas reemplazan la desviación estándard por la varianza ($\sigma^2$) o por la precisión $\left(\frac{1}{\sigma^2}\right)$.

La típica curva de campana, que se asocia a la distribución Gaussiana es tan solo una de sus propiedades que se conoce formalmente como función de densidad de probabilidad (pdf en inglés) y se define como:

$$
p(x \mid \mu,\sigma) = \frac{1}{\sigma \sqrt{ 2 \pi}} e^{ - \frac{ (x - \mu)^2 } {2 \sigma^2}} \tag {0.11}
$$

Por el momento no nos interesa esta formula en particular, solo nos interesa reconocer que tiene una definición matemática precisa. Además de la pdf existen otras propiedades de las distribuciones que son muy usadas como la distribución de densidad acumulada (cdf en inflés). Si la pdf responde a la pregunta cual es la densidad probabilidad para un valor $x$,la cdf nos dice cuanto de la probabilidad total (1) está por debajo de un valor $x$.

<img src='imagenes/pdf_cdf.png' width=800 >

Veamos como scipy por permite trabajar con algunas de estas propiedades de las distribucione de probabilidad sin mucho esfuerzo. Dado que SciPy es una colección de herramientas dispares es común importar solo los submodulos o funciones que vamos a usar y no toda la librería, por ej

In [None]:
from scipy import stats  # importamos el modulo stats
from scipy.integrate import quad  # importamos la función quad del modulo integrate

Podemos definir una normal con media 0 y desviación estandard 1 de la siguiente manera

In [49]:
dist = stats.norm(0, 1)

Ahora podemos averiguar la densidad de probabilidad para el valor $x=1$.

In [52]:
dist.pdf(1)

0.24197072451914337

Este número por si solo no nos dice mucho ya que no es una probabilidad, por ejemplo podemos ver que si tomamos varios de $x$ y sumamos sus densidades no obtenemos 1, ni cerca! 

In [70]:
x = np.linspace(-6, 6, 1000)
dist.pdf(x).sum()

83.24999984173607

Esto se debe a que la probabilidad de obtener exactamente 1, es decir $1.000...$ con infinitos ceros es nula. De hecho la probabilidad de cualquier valor es nula. Aunque es posible calcular probabilidades a partir de la pdf integrando (calculando el área bajo la curva).

In [75]:
# aproximamos la integral como una suma de rectangulos de alto pdf y base rango/n.
dist.pdf(x).sum() * (12/1000)  

0.9989999981008328

De todas formas si podemos hacer preguntas como cuanto más probable es observar el valor 1 que el -1

In [74]:
dist.pdf(1) / dist.pdf(-1)

1.0

Lo cual tiene sentido ya que la distribución Normal(0, 1) es simétrica respecto de 0. La cdf es la integral de la pdf.

Sigamos con otras preguntas. Si tomaramos un muestra al azar de una distribución normal con media 0 y desviación estándard 1, cual es la probabilidad que fuese menor a 0? esto es fácil de responder con la cdf

In [76]:
dist.cdf(0)

0.5

y mayor a 2?

In [77]:
1 - dist.cdf(2)

0.02275013194817921

Una forma alternativa de contestar estar preguntas es generando número aleatorios

In [80]:
np.mean(dist.rvs(1000) < 0)

0.512

In [79]:
np.mean(dist.rvs(1000) > 2)

0.026

También podrías hacer preguntas del estilo. Cuál es la mediana, o lo que es lo mismo cual es el valor para el cual la mitad de las observaciones están por debajo y la otra mitad por encima. Para una distribución Gaussiana este valor coincide con la media y la moda.

In [81]:
dist.ppf([0.5])  # está función es la inversa de la cdf

array([0.])

### La regla 68-95-99.7  

Alrededor del 68% de los valores extraídos de una distribución normal están dentro de una desviación estándar σ de la media; alrededor del 95% de los valores se encuentran dentro de dos desviaciones estándar; y alrededor del 99,7 % están dentro de tres desviaciones estándar. Este hecho se conoce como la regla 68-95-99.7.


 <img src="imagenes/Standard_deviation_diagram.png" width="450">



En el siguiente ejemplo usamos SciPy para evaluar esta regla. Para ello usaremos dos submodulos `stats` e `integrate`. El primero define varias funciones estadísticas y el segundo rutinas para integrar. Usando `stats`, definimos una distribucion normal `stats.norm` y le computamos su funcion de densidad de probabilidad `pdf`. De integrate empleamos `quad`, que nos permite integrar una función unidimensional entre dos puntos.

In [1]:
from scipy import stats
from scipy.integrate import quad

def integrand(x, media, std):
    return stats.norm(media, std).pdf(x)

media = 0
std = 1

for sd in [1, 2, 3]:
    I = quad(integrand, -sd, sd, args=(media, std))
    print(sd, f"{I[0]:.1%}")

1 68.3%
2 95.4%
3 99.7%


Estos son solo algunos ejemplos de las funciones disponibles en SciPy. Para mayor información puede consultar la [documentación](https://scipy.org/).

## Para seguir leyendo

* [scientific-python-lectures](https://github.com/jrjohansson/scientific-python-lectures).
* [Numpy](https://numpy.org/)
* [100 NumPy exercises](http://www.labri.fr/perso/nrougier/teaching/numpy.100)
* [NumPy Quickstart](https://numpy.org/doc/stable/user/quickstart.html)
* [NumPy for MATLAB users](https://numpy.org/doc/stable/user/numpy-for-matlab-users.html)
* [NumPy's Beginners guide](https://www.packtpub.com/product/numpy-beginner-s-guide-second-edition/9781782166085)
* [Learning SciPy for Numerical and Scientific Computing](https://www.packtpub.com/big-data-and-business-intelligence/learning-scipy-numerical-and-scientific-computing)
* [Python Data Science Hand Book](http://shop.oreilly.com/product/0636920034919.do)