# NumPy

NumPy (Numerical Python) es una librería para cómputo científico. Esta librería contiene muchas funciones matemáticas que permiten realizar operaciones de álgebra lineal, generar números pseudo-aleatorios, etc. De forma muy general el computo científico se basa en operar con arreglos (_arrays_) de números: Estos arreglos pueden representar objetos matemáticos como vectores, matrices y tensores; entonces las operaciones necesarias son fundamentalmente las del algebra lineal. Pero los arreglos pueden ser más generales. 

Los arreglos son muy comunes ya que ofrecen un marco comñun para pensar y trabajar con diversos conjunto de datos. Una imagen se puede representar como un arreglo bidimensional de números donde cada número representa el brillo de un pixel. Un sonido como un arreglo unidimensional que representa intensidad versus tiempo.

Además los arreglos proveen de una forma eficiente para almacenar y manipular números, más allá de lo que los números representen. En general trabajar con un arreglo de NumPy permite usar menos memoria y realizar operaciones más rapidamente que con una lista. Además, el código escrito en NumPy suele ser más corto que el código equivalente en *Python puro*. El uso de _loops_ es reducido ya que muchas operaciones se aplican directamente sobre arreglos. Esto se conoce como vectorizar el código, internamente los _loops_ siguen estando presentes pero son ejecutados por rutinas optimizadas escritas en lenguajes como C o Fortran. Además, NumPy provee de muchas funciones matemáticas/científicas listas para usar. Esto reduce la cantidad de código que debemos escribir (reduciendo las chances de cometer errores) y más importante, esas funciones están escritas usando implementaciones eficientes y confiables.

Para poder usar NumPy debemos importarlo, la forma más común de importar NumPy es la siguiente:

In [1]:
import numpy as np

## Arreglos (arrays)

NumPy usa una estructura de datos llamada arreglos. Los arreglos de NumPy son similares a las listas de Python, pero son mas eficientes para realizar tareas numéricas. La eficiencia deriva de las siguientes características:

* Las listas de Python son muy generales, pudiendo contener objetos de distinto tipo. Además los objetos son asignados dinamicamente, es decir el tamaño de una lista no está predefinido, siempre podemos agregar más y más elementos. 

* Por el contrario, los arreglos de NumPy son **estáticos**  y **homogéneos**. El tipo de los objetos se determina cuando el array es creado (de forma automática o por el usuario) lo que permite hacer uso eficiente de la memoria.

* Otra razón por la cual los arreglos son más eficientes que las listas es que en Python todo es un objeto, incluso los números! Por ejemplo en C un entero es esencialmente un rótulo que conecta un lugar en la memoria de la computadora cuyos _bytes_ se usan para codificar el valor de ese entero. Sin embargo en Python un entero es un objeto más complejo que contiene más información que simplemente el valor de un número. Esto da flexibilidad a Python, pero el costo es que es más lento que un lenguaje como C. Este costo es aún mayor cuando combinamos muchos de estos objetos en un objeto más complejo, por ejemplo cuando combinamos enteros dentro de una lista.

Otra ventaja de los arreglos es que se comportan de forma similar a los vectores y matrices usados en matemática.

## Operando con arreglos

Existen muchas formas de crear un arreglo. Una de las más comunes, es a partir de una lista.

In [2]:
v = np.array([1, 2, 3, 4, 5, 6])
v, type(v)

(array([1, 2, 3, 4, 5, 6]), numpy.ndarray)

Una vez que tenemos un array podemos operar con el. Por ejemplo calcular su media

In [3]:
np.mean(v)  # o cómo método v.mean()

3.5

O calcular funciones como el seno

In [4]:
np.sin(v)

array([ 0.84147098,  0.90929743,  0.14112001, -0.7568025 , -0.95892427,
       -0.2794155 ])

Noten como al calcular la media, NumPy entiende que quiere que usemos todos los valores en el array para computar una sola media, es decir que queremos agregar los datos. Pero al calcular la función seno, NumPy entiende que esta esa una operación unaria, por cada valor de entrada obtenemos uno de salida.

En el modulo anterior vimos como calcular la varianza usando Python *puro*. Veamos ahora como calcularla usando NumPy, una posibilidad es usar la definición:

$$
\frac{1}{N}\sum_i^N (x_i - \bar x)^2
$$

La cual la prodriamos implementar como:

In [5]:
np.mean((v - v.mean())**2)

2.9166666666666665

Lo primero que notamos es que podemos usar los array directamente sin necesidad de *bucles* cuando restamos dos arrays NumPy entiende que a cada elemento del array `v` le queremos restar un escalar, la media de `v`. 

In [6]:
print(v)
media = v.mean()
print(media)
v - media

[1 2 3 4 5 6]
3.5


array([-2.5, -1.5, -0.5,  0.5,  1.5,  2.5])

NumPy tambien entiende la siguiente operación, es decir aplica la resta elemento a elemento 

In [7]:
v - v  

array([0, 0, 0, 0, 0, 0])

------------------
### Ejercicios

1. Como hemos visto hay operaciones en NumPy cuyo resultado dependen de tamaño de los array involucrados. Podría sintetizar cual es la regla usada por NumPy? Podría anticipar el comportamiento de otras operaciones (ej *, +) u otras funciones (ej max, log).
------------------

Hasta el momento estuvimos calculando medias, varianzas y otras cantidades de forma *manual*. Esto está bien como ejercicio, pero en la práctica es poco común que uno recurra a implementaciones propias de estas funcioens y es más comnun que recurra a funciones predefinidas como las ofecidas por NumPy. Por ejemplo podemos calcular la varianza como

In [8]:
v.var()  # o como función np.var(v)

2.9166666666666665

------------------
### Ejercicios

2. Use la función de autocompletado de Jupyter para explorar otras funciones ofrecidas por NumPy. Identifique al menos 2 y resuma su funcionamiento en pocas palabras.
------------------

Funciones como _sqrt_, que operan sobre arreglos _elemento-a-elemento_ se conocen como [funciones universales](https://numpy.org/doc/stable/reference/ufuncs.html) (usualmente abreviadas como ufunc).

Una de las ventajas de usar ufuncs es que permiten escribir código más breve. Otra ventaja es que los cómputos son más rápidos que usando loops de Python. Detrás de escena NumPy utiliza rutinas escritas en lenguajes compilados como C o Fortran, por lo que hay una ganancia considerable en velocidad, respecto de código en Python puro. Además, el código usado por NumPy es código que suele estar optimizado gracias a los años de labor de programadores y científicos. Al mismo tiempo NumPy busca ser facil de usar y flexible, y esto implica muchas veces renunciar a algo de velocidad, por lo que es posible que rutinas en NumPy NO sean la solución. Pero para la gran mayoría de usuarios la gran mayoría del tiempo NumPy será más que suficiente y esta es una de las razones por las cuales gran parte del ecosistema científico de Python descansa sobre NumPy.

------------------
### Ejercicios

3. Escriba una función que a partir de un array devuelva la media, desviación estándard, y la cantidad de elementos
------------------

## Planilandia y más allá

El coeficiente de correlación de Pearson (usualmente abreviado como r) es una medida de correlación lineal entre dos conjuntos de datos. Se define como:

$$
r_{xy} =\frac{\sum ^n _{i=1}(x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum ^n _{i=1}(x_i - \bar{x})^2} \sqrt{\sum ^n _{i=1}(y_i - \bar{y})^2}} = \frac{\operatorname{cov}(X,Y)}{\sigma_X \sigma_Y}
$$

Es decir, es la covarianza entre los dos conjuntos de datos, dividido por el producto de sus desviaciones estandard indivuales. El dividir por las varianzas nos asegura que el resultado final deberá estar entre -1 y 1, siendo -1 anticorrelación perfecta, 0 no correlación y 1 correlación perfecta. En otras palabras el coefficiente de correlación de Pearson es una covarianza normalizada.


<img src='imagenes/correlación.png' width=600> 
    

------------------
### Ejercicios

4. Escriba una función que calcule el coefficiente de correlación de Pearson para dos arrays. Compare con la función `np.corrcoef(a, b)`.
------------------

## Planilandia y más allá

Los arreglos pueden tener más de una dimensión

In [9]:
M = np.array([[1, 2], [3, 4], [5, 6]])
M

array([[1, 2],
       [3, 4],
       [5, 6]])

Esto nos brinda mayor número de opciones al realizar operaciones, podemos calcular la media para todos los valores

In [10]:
np.mean(M) 

3.5

o hacerlo por dimensión

In [11]:
np.mean(M, axis=0)  # a lo largo de las columnas

array([3., 4.])

In [12]:
np.mean(M, axis=1)  # a lo largo de las filas

array([1.5, 3.5, 5.5])

------------------
### Ejercicios

5. Qué sucede si pasamos un valor para `axis` más grande que la cantidad de dimensiones? Y si usamos enteros negativos?
------------------

Vamos nuevamente con la varianza

In [13]:
np.mean((M - M.mean())**2)

2.9166666666666665

A lo largo del eje 0 (columnas)

In [14]:
np.mean((M - M.mean(axis=0))**2, axis=0)

array([2.66666667, 2.66666667])

A lo largo del eje 1 (filas)

In [15]:
np.mean((M.T - M.mean(axis=1))**2, axis=0)

array([0.25, 0.25, 0.25])


------------------
### Ejercicios

6. Explicar por que no hicimos simplemente `np.mean((M, M.mean(axis=1))**2, axis=1)`
------------------

## Broadcasting

Un elemento que facilita vectorizar código es la capacidad de operar sobre arreglos que no tienen las mismas dimensiones. Esto se llama _broadcasting_ y no es más que un conjunto de reglas que permiten aplicar operaciones binarias (suma, multiplicación etc) a arreglos de distinto tamaño.

Consideremos el siguiente ejemplo.

In [16]:
a = np.array([0, 1, 2])
b = np.array([2, 2, 2])
a + b

array([2, 3, 4])

Esto no es nada sorprendente lo que hemos hecho es sumar elemento a elemento. Fijensé que el arreglo `b` contiene 3 veces el número `2`. Gracias al broadcasting es posible obtener el mismo resultado al hacer.

In [17]:
a + 2

array([2, 3, 4])

Esto no solo funciona para arreglos y números, también funciona para dos arreglos.

In [18]:
M + b

ValueError: operands could not be broadcast together with shapes (3,2) (3,) 

En ambos casos lo que está sucediendo _es como si_ antes de realizar la suma extendieramos una de las partes para que las dimensiones conincidan, por ejemplo repetir 3 veces el número 2 o tres veces el vector b. En realidad tal  _repetición_ no se realiza, pero es una  forma útil de pensar la operación.

Es claro que el broadcasting NO puede funcionar para cualquier par de arreglos. La siguiente operación no funciona

In [19]:
M + v

ValueError: operands could not be broadcast together with shapes (3,2) (6,) 

## Comparaciones y máscaras de booleanos

Así como es posible sumar un número a un arreglo, es posible hacer comparaciones elemento-a-elemento.

In [20]:
M > 3

array([[False, False],
       [False,  True],
       [ True,  True]])

Es muy común usar el resultado de tal comparación para obtener valores de un arreglo que cumplan con cierto criterio, como:

In [21]:
M[M > 3]

array([4, 5, 6])

------------------
### Ejercicios

6. Escriba la función `contiene_ceros` que indica si un array contiene el valor 0.
7. Escriba la función `todos_positivos` que indica si todos los elementos de un array son positivos.
8. El estándar del [IEEE para aritmética en punto flotante](https://es.wikipedia.org/wiki/IEEE_754), definió una serie de números especiales, includos infinito negativo (-np.inf, o np.NINF), infinito positivo (np.inf, o np.PINF) y Not a Number (np.nan, o np.NAN). Para las siguientes expresiones, anote cual cree que es el resultado y luego compruebe si sus afirmaciones son correctas.

```
    0 * np.inf
    np.inf - np.inf
    np.inf - 1
    0 * np.nan
    np.nan == np.nan
    np.inf > np.nan
    np.inf <= np.nan
    np.inf > np.inf
    np.inf <= np.inf
    np.nan - np.nan
```
9. Demuestre con un ejemplo la diferencia entre `np.mean()` y `np.nanmean()`
10. NumPy ofrece varias funciones del tipo `np.nan*` listelas y explique el funcionamiento de 2 de ellas

------------------

### Creando arreglos

Ya vimos que es posible crear arreglos a partir de listas. Existen varias rutinas para [crear](https://numpy.org/doc/stable/reference/routines.array-creation.html) arreglos de NumPy a partir de:

* Listas o tuplas de Python
* Rangos numéricos
* Números aletorios
* Ceros, unos y valores arbitrarios
* Archivos

#### A partir de listas y tuplas

Para crear arreglos a partir de listas (o tuplas) podemos usar la funcion **array**.

In [22]:
v = np.array([1, 2, 3, 4, 5, 6])
v

array([1, 2, 3, 4, 5, 6])

Los arreglos pueden tener más de una dimensión

In [23]:
M = np.array([[1, 2], [3, 4], [5, 6]])
M

array([[1, 2],
       [3, 4],
       [5, 6]])

Los objetos **v** y **M** son ambos del tipo **ndarray**

In [24]:
type(v), type(M)

(numpy.ndarray, numpy.ndarray)

La diferencia entre el arreglo **v** y **M** es la forma. Para obtener la forma de un arreglo podemos usar el método **shape**.

In [25]:
v.shape  # equivalente a la función np.shape(v)

(6,)

In [26]:
M.shape  # equivalente a np.shape(M)

(3, 2)

 **size** nos dice el número de elementos de un arreglo

In [27]:
v.size, M.size  # o np.size(v), np.size(M) 

(6, 6)

De la misma forma podemos obtener el número de dimensiones de un arreglo usando **ndim**

In [28]:
v.ndim, M.ndim  # o np.ndim(v), np.ndim(M) 

(1, 2)

Usando el método **dtype**, podemos preguntar sobre el **tipo** (type) de los elementos almacenados en un arreglo.

In [29]:
M.dtype

dtype('int64')

Si tuvieramos una lista de enteros y quisieramos reemplazar uno de esos enteros por una cadena, Python aceparía la orden sin chistar. En cambio, con los arreglos obtenemos un error.

In [30]:
v[0] = "hello world"

ValueError: invalid literal for int() with base 10: 'hello world'

O podríamos obtener algo distinto a lo que esperábamos!

In [31]:
v[0] = 0.9
x = np.array([0.9, 2, 3, 4, 5, 6])
v, x

(array([0, 2, 3, 4, 5, 6]), array([0.9, 2. , 3. , 4. , 5. , 6. ]))

En el primer caso, al agregar 0.9 a un array de enteros NumPy hace lo que se conoce como _downcast_ y trunca el valor a un entero (0.9 --> 0). En el segundo caso creamos un nuevo array a partir de una lista que contiene tantos enteros como decimales y entonces NumPy decide hacer un _upcast_ y convertir a todos los números a decimales.

Si no queremos que NumPy decida por nosotros, es posible definir de forma explícita el tipo al crear un array.

In [32]:
np.array([[1, 2], [3, 4]], dtype=complex)

array([[1.+0.j, 2.+0.j],
       [3.+0.j, 4.+0.j]])

NumPy puede en contener elemenos de distinto tipo. Es solo que de ser posible asume un único tipo ya que esto permite realizar optimizaciones en el cómputo y almacenamiento de el arreglo que no son posibles cuando los valores son de distinto tipo.

In [33]:
np.array([[1., "2"], [3, 4]], dtype=object)

array([[1.0, '2'],
       [3, 4]], dtype=object)

#### A partir de un rango numérico

Una forma de crear arreglos desde cero es usando rangos. Por ejemplo podemos crear un arreglos conteniendo números igualmente espaciados en el intervalo [desde, hasta), usando **arange**

In [34]:
np.arange(0, 10, 1) # desde, hasta (sin incluir), paso

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

_desde_ y _paso_ son argumentos opcionales

In [35]:
np.arange(10)

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

A diferencia de la función **range** de Python, **arrange** soporta decimales

In [36]:
np.arange(-1, 1, 0.25)

array([-1.  , -0.75, -0.5 , -0.25,  0.  ,  0.25,  0.5 ,  0.75])

Otra función para crear rangos es **linspace** que devuelve numeros igualmente espacios en el intervalo [desde, hasta] (es decir incluyendo el _hasta_). Otra diferencia con **arange** es que no se especifica el _paso_ si no la cantidad total de números que contendrá el arreglo.

In [37]:
np.linspace(1, 10, 25) # desde, hasta, elementos (elementos es opcional)

array([ 1.   ,  1.375,  1.75 ,  2.125,  2.5  ,  2.875,  3.25 ,  3.625,
        4.   ,  4.375,  4.75 ,  5.125,  5.5  ,  5.875,  6.25 ,  6.625,
        7.   ,  7.375,  7.75 ,  8.125,  8.5  ,  8.875,  9.25 ,  9.625,
       10.   ])

**logspace** es similar a **linspace** pero los números están igualmente espaciados en un escala logarítima.

In [38]:
np.logspace(0, 1.5, 5, base=np.e) # por defecto usa base 10

array([1.        , 1.45499141, 2.11700002, 3.08021685, 4.48168907])

In [39]:
np.log(np.logspace(0, 1.5, 5, base=np.e))  # el logaritmo de np.logspace es np.linspace

array([0.   , 0.375, 0.75 , 1.125, 1.5  ])

#### A partir de números aleatorios

Los números aleatorios son usados en muchos problemas científicos. En la práctica las computadoras son solo capaces de generar números pseudo-aleatorios, _i.e._ números que para los fines prácticos lucen como números aleatorios.

Todas las rutinas para generar números aleatorios viven dentro del módulo [random](https://numpy.org/doc/stable/reference/random/index.html). Python usa un algortimo llamado [Mersenne Twister](https://en.wikipedia.org/wiki/Mersenne_twister) para generar números pseudo-aleatorios. Este algorítmo es más que suficiente para fines científicos, pero no es util en caso que necesitemos números pseudo-aleatorios para usar en criptografía.

La función mas simple es **rand**. Esta función crea un arreglo a partir de una distribución uniforme en el intervalo [0, 1).

In [40]:
np.random.rand(2, 5)  # arreglo con forma (2, 5)

array([[0.51199647, 0.60918919, 0.26915788, 0.15751548, 0.20966979],
       [0.87123566, 0.8612472 , 0.30404539, 0.87051017, 0.43716958]])

De forma similar **randn** devuelve muestras a partir de la distribución normal estándar (media = 0, desviación estándard =1).

In [41]:
np.random.randn(3, 2)

array([[ 0.34631068,  0.14351845],
       [-0.09220558, -1.83296415],
       [-0.20251841, -0.57025616]])

Los números aleatorios son útiles en muchas aplicaciones, pero trabajar con ellos puede dificultar tareas como el _debugging_. Una forma de solucionar esto es especificar una semilla fija para el generador de números pseudo-aleatorios. De esta forma cada vez que pidamos una serie de números aleatorios, obtendremos exactamente la misma secuencia.

In [42]:
np.random.seed(31415)
np.random.randn(3)

array([1.36242188, 1.13410818, 2.36307449])

#### A partir de ceros y unos

A veces es conveniente llenar arreglos usando simplemente ceros o unos.

In [43]:
np.zeros((2,5))

array([[0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.]])

In [44]:
np.ones((3,2))

array([[1., 1.],
       [1., 1.],
       [1., 1.]])

In [45]:
np.empty((3,2))  # o simplemente con números sin sentido

array([[1., 1.],
       [1., 1.],
       [1., 1.]])

In [46]:
np.full((3,2), 42, dtype=int)  # o con algún número en particular

array([[42, 42],
       [42, 42],
       [42, 42]])

#### A partir de archivos

Un formato común para almacenar datos es el archivo .csv valores separados por coma (comma separated values). Muchas veces los archivos .csv usan otros separadores como espacios o tabulaciones (tab). Para cargar esos archivos en un arreglo de NumPy podemos usar la función ``genfromtxt`. Por ejemplo,

In [47]:
!head datos/muestra.dat  # Este es un comando de Linux que nos permite ver las primeras lineas de un archivo

   X       Y       Z     occ  b-f
45.885  29.085  -0.349  1.00 27.21
45.402  28.249  -1.361  1.00 25.24
44.792  26.870  -1.153  1.00 23.54
45.647  25.988  -1.415  1.00 20.94
46.415  28.104  -2.539  1.00 26.89
47.432  29.136  -2.674  1.00 27.10
43.440  26.778  -0.893  1.00 20.65
43.049  25.297  -0.723  1.00 18.63
42.868  24.450  -1.968  1.00 16.36


In [48]:
data = np.genfromtxt('datos/muestra.dat', skip_header=True)
data

array([[45.885, 29.085, -0.349,  1.   , 27.21 ],
       [45.402, 28.249, -1.361,  1.   , 25.24 ],
       [44.792, 26.87 , -1.153,  1.   , 23.54 ],
       [45.647, 25.988, -1.415,  1.   , 20.94 ],
       [46.415, 28.104, -2.539,  1.   , 26.89 ],
       [47.432, 29.136, -2.674,  1.   , 27.1  ],
       [43.44 , 26.778, -0.893,  1.   , 20.65 ],
       [43.049, 25.297, -0.723,  1.   , 18.63 ],
       [42.868, 24.45 , -1.968,  1.   , 16.36 ],
       [41.96 , 24.535, -2.773,  1.   , 15.9  ],
       [41.931, 25.472,  0.263,  1.   , 17.29 ],
       [41.735, 24.893,  1.591,  1.   , 17.13 ],
       [40.229, 24.874,  1.889,  1.   , 15.26 ]])

In [49]:
data.shape

(13, 5)

Si queremos guardar un arreglo a un archivo de texto podemos usar **numpy.savetxt** 

In [50]:
M = np.random.rand(3,3)
M

array([[0.64351246, 0.40036957, 0.87521911],
       [0.60860645, 0.10669999, 0.25430889],
       [0.03547   , 0.50116423, 0.6174447 ]])

In [51]:
np.savetxt("datos/matriz_aleatoria.csv", M, fmt='%.2f')

In [52]:
!head datos/matriz_aleatoria.csv

0.64 0.40 0.88
0.61 0.11 0.25
0.04 0.50 0.62


Otra opción, es guardar un arreglo en el formato _npy_. Esto es útil cuando necesitamos guardar datos que luego leeremos usando NumPy.

In [53]:
np.save("datos/matriz_aleatoria.npy", M)
!ls datos/*.npy

datos/matriz_aleatoria.npy


Para cargar los resultados de vuelta en NumPy usamos la función **load**.

In [54]:
np.load("datos/matriz_aleatoria.npy")

array([[0.64351246, 0.40036957, 0.87521911],
       [0.60860645, 0.10669999, 0.25430889],
       [0.03547   , 0.50116423, 0.6174447 ]])

 ------------------
### Ejercicios

11. Crear un arreglo con valores de 10 a 49

12. Crear un arreglo unidimensional conteniendo ceros, pero que el primer elemento sea 1

13. Crear un arreglo con números aleatorios tomados de una distribución normal, con media 0 y desviación estándard 1. Luego calcule la media y desviación estándard.
------------------

## Método de Monte Carlo

Este es un intermedio, no directamente vinculado a Análisis Exploratorio de Datos. Pero es un tema que suele estar ausente en los cursos típicos de estadística, lo cual es lamentable ya que es un método muy usado en estadística y relativamente fácil de implementar en Python y lenguages similares.

El método de Montecarlo es un método númérico no-determinista, es decir usa números (seudo)aleatorios. Es usado para aproximar expresiones matemáticas complejas y costosas de evaluar con exactitud. El método se llama así en referencia al Casino de Montecarlo (Mónaco) por ser “la capital del juego de azar”. El nombre y el desarrollo sistemático de los métodos de Monte Carlo datan aproximadamente de 1944. Es considerado por muchas personas como una de las grandes ideas del siglo XX. No existe un único método de Monte Carlo, si no una familia de métodos de Monte Carlo.

El siguiente ejemplo es un clásico. Nuestro objetivo es aproximar el valor del número $\pi$ usando un método de Monte Carlo. Para ello seguimos el siguiente procedimiento.

1. Arrojar $N$ puntos al azar dentro deun cuadrado de radio 1.
2. Calcular $M$ como la cantidad de puntos que caen dentro de un cuarto de circulo de radio 1. 
3. Calcular $\pi=\frac{M}{4N}$ 

<img src="imagenes/pi.png" width=300>


Notas:

* Sabemos que un punto está dentro del cuarto de círculo si $\sqrt{x^2 + y^2} <= R$, para $R=1$ esto se simplifica a $x^2 + y^2 <= 1$.

* El área del cuadrado es $R^2$ (que es proporcional a $N$) y la del cuarto de círculo $\frac{\pi R^2}{4}$ (que es proporcional a $M$).

* Por lo tanto $\frac{M}{N} \approx  \frac{\pi R^2}{4 R^2}$, reordenando $\pi \approx 4\frac{M}{N}$

In [55]:
def mcpi(N=1_000):
    # evitamos un número demasiado grande de iteraciones
    if N > 1E7:
        print('elija un número menor de iteraciones')
    else:
        M = 0
        for ite in range(N):
            # genero puntos dentro de una cuadrado de lado 1
            x = np.random.uniform(0, 1)
            y = np.random.uniform(0, 1)
            # reviso si los puntos caen dentro del cuarto de círculo
            c =  x**2 + y**2 
            if c <= 1:
                M += 1
        # estimo pi como la cantidad de puntos adentro del círculo sobre la cantidad total de puntos por cuatro
        pi = 4*M/N
        print(f'𝜋≈ {pi:.5f}')

mcpi(100000)

𝜋≈ 3.14276


Si bien `mcpi` es una implementación correcta, es decir calcula el valor de $\pi$ de forma adecuada (dentro de los límites del método). No estamos usando el potencial de NumPy de vectorizar el código y por lo tanto de escribir una versión más corta y más rápida.

In [56]:
def mcpi_vec(N=1_000):
    if N > 1E7:
        print('elija un número menor de iteraciones')
    else:
        x, y = np.random.uniform(0, 1, size=(2, N))
        c =  x**2 + y**2
        M = c <= 1
        pi = 4*M.sum()/N
        print(f'𝜋≈ {pi:.5f}')

mcpi_vec(100000)

𝜋≈ 3.14284


In [57]:
# comentar los prints antes de correr
#%timeit mcpi(100000)
#%timeit mcpi_vec(100000)

In [58]:
coords = np.random.uniform(0, 2, size=(10, 2))
min_n = []
for i in range(len(coords)):
    distancias = []
    for j in range(0, len(coords)):
        if i != j:
            #print(i, j)
            distancias.append(np.sum(coords[i]-coords[j])**2)
    min_n.append(np.min(distancias))
    
np.mean(min_n)

0.06485698017489402

Vamos con otro ejemplo. Estudiamos la distribución espacial de una especie de planta en particular y queremos entender los factores que la determinación. Para 19 plantas observamos la siguiente distribución en una parcela de 2 x 2.

<img src="imagenes/plantas.png" width=450>

Sospechamos que la distribución no es azaroza y sigue en cambio un patrón. Antes de realiar estudios más profundos sobre los factores queremos ver si en realidad el patrón observado podría haber sido propducido de forma completamente aleatoria. 

Usándo un método de Monte Carlo podemos generar cientos o miles de muestras de tamaño 19 con distribución uniforme. A esas muestras podemos calcularle un sinfin de "estadísticos", por ej podríamos calcular la distancia promedio al primer vecino. 

Podesmos empezar por calcualar esta cantidad para los datos observados.

In [61]:
obs = np.array([[1.7       , 1.7       ],
               [1.55182999, 1.82548345],
               [1.49113702, 1.61873161],
               [1.68795178, 1.46840598],
               [1.5104354 , 1.37730697],
               [1.65748696, 1.39060324],
               [1.2851486 , 1.6872971 ],
               [1.29116369, 1.6051917 ],
               [0.84954872, 1.60474196],
               [0.85840104, 1.80068965],
               [1.30023925, 1.59893887],
               [1.21218006, 1.59641302],
               [0.98245123, 1.35352719],
               [0.89819884, 1.24584694],
               [1.03480692, 1.35352674],
               [0.65133482, 0.56332029],
               [0.659122  , 0.47913197],
               [0.17057758, 0.10220133],
               [0.10614136, 0.07896026]])

min_n = []
for i in range(len(obs)):
    distancias = []
    for j in range(len(obs)):
        if i != j:  # la distancia de una planta consigo misma es siempre 0
            distancias.append(np.sum((obs[i]-obs[j])**2)**0.5)
    min_n.append(np.min(distancias))

obs_min_n = np.mean(min_n)
obs_min_n

0.106246121742485

Ahora simulemos esta cantidad para 1000 distribuciones uniformes.

In [62]:
def mcplantas(N=1_000, n_plantas=19):
    if N > 1E7:
        print('elija un número menor de iteraciones')
    else:
        muestra = np.zeros(N)
        coords = np.random.uniform(0, 2, size=(N, n_plantas, 2))
        for ite in range(N):
            min_n = []
            # existe una forma más eficiente de calcular distancias, pero por ahora hagamos esto
            for i in range(n_plantas):
                distancias = []
                for j in range(n_plantas):
                    if i !=j:
                        distancias.append(np.sum((coords[ite, i]-coords[ite, j])**2)**0.5)
                min_n.append(np.min(distancias)) 
            muestra[ite] = np.mean(min_n)
    return muestra

sim_min_n = mcplantas()

Y ahora comparamos. En principio podemos hacer varias comparaciones. En promedio cuanto más grande es la distancia simulada? Alredero de 2 veces.

In [65]:
sim_min_n.mean() / obs_min_n 

2.4124388710473443

Si asumimos la hipotesis nula, cual es la probabilidad de obtener una distancia promedio al primer vecino igual o menor a la observada?

In [66]:
(obs_min_n <= sim_min_n).mean()

1.0

También podríamos reportar el valor medio $\pm$ 3 (o 2 o 1 o lo que sea) desviaciones estándard

In [67]:
sim_mean = sim_min_n.mean()
sim_std = sim_min_n.std()
print(f"{sim_mean-sim_std*3:.3f}-{sim_mean:.3f}-{sim_mean+sim_std*3:.3f}")

0.160-0.256-0.353


## Bootstrapping

Bootstrapping es un método que puede considerarse un tipo particular de método de Monte Carlo. La idea central es que en ausencia de información sobre una población en particular, una muestra aletoria es la mejor guía para obtener información de la distribución en la población. Por lo tanto, para aproximar lo que
observariamos si tomaramos muestras repetidas de una misma población, es totalmente sensato re-muestrear
la muestra! El procedimiento general es el siguiente.

Dada una muestra $m$ de tamaño $n$

1. Generar una muestra de tamaño $n$ a partir de muestrear con remplazo $m$.
2. Calcular el estadístico de interés (media, mediana, varianza, etc)
3. Guardar el estadístico calculado en $b$
4. Repetir desde 1 _muchas veces_
5. Si nuestro objetivo es calcular una estimación puntual y un intervalo de confianza entonces, calculamos la media de $b$ y los percentiles, 2.5 y 97.5.

In [68]:
muestra = np.random.normal(0, 1, 97) # en la realidad desconocemos la distribución desde la cual se genera la muestra
t_sim = [np.random.choice(muestra, size=muestra.size).mean() for i in range(10000)]
np.mean(t_sim), np.percentile(t_sim, [2.5, 97.5])

(-0.148614883821165, array([-0.33677028,  0.03283933]))

Según la teoría el error estándard de la media, es $\frac{\sigma}{\sqrt{n}}$. Es decir

In [69]:
ee = muestra.std() / muestra.size**0.5
ee

0.09501001828212861

In [70]:
bee = np.std(t_sim)
bee

0.09413176106633052

Es decir un error relativo de alrededor de menos del 1%, nada mál para un par de lineas en Python!

In [71]:
(bee - ee ) / ee * 100

-0.9243837983381329

Lo interesante del bootstapping como de otros métodos de remuestreo y de Monte Carlo. Es que pueden aplicarse facilmente a una gran cantidad de problemas para los cuales los metodos tradicionales (como la gran mayoría de los resultados de la teoría clásica/frecuentista) no son aplicables o son engorrosos de derivar.

En estos ejemplos somos hemos tocado la superficie de lo que estos métodos puede hacer.

 ------------------
### Ejercicios

14. Piense un problema de su dominio para el cual se podría aplicar un método de Monte Carlo. Describa con palabras cual sería el procedimiento a seguir

15. Escriba un método de bootstrapping para estimar la mediana y para estimar la desviación estándard.  

16. Asuma una distribución distinta de la normal y calcule el error estándard teórico y mediante bootstrapping

------------------

### Indexado (Indexing)

El indexado de arreglos funciona de forma similar al indexado de listas de Python. Con algunas mejoras para el idexado de arrays multidimensionales.

In [72]:
v = np.array([1, 2, 3, 4, 5, 6])
M = np.array([[1, 2], [3, 4], [5, 6]])
print(v)
print(M)

[1 2 3 4 5 6]
[[1 2]
 [3 4]
 [5 6]]


**v** es un arreglo unidimensional (como un vector) y por lo tanto basta un número para indexarlo.

In [73]:
v[0]

1

En cambio **M** es un arreglo bi-dimensional (como una matriz) y por lo tanto hacen falta dos números para obtener un elemento específico.

In [74]:
M[1,1]  # esto es equivalente a M[1][1]

4

Si omitimos uno de los índices al indexar un arreglo multidimensional, NumPy devolverá la fila completa (o, en general, el arreglo de dimensión N-1 correspondiente)

In [75]:
M[1]

array([3, 4])

El mismo resultado se obtiene usando **:**

In [76]:
M[1,:]  # fila 1

array([3, 4])

In [77]:
M[:,1]  # columna 1

array([2, 4, 6])

También podemos asignar elementos especificando el índice adecuado.

In [78]:
M[0, 0] = -1
M

array([[-1,  2],
       [ 3,  4],
       [ 5,  6]])

Incluso esto funciona para filas y columnas enteras

In [79]:
M[1,:] = 0
M

array([[-1,  2],
       [ 0,  0],
       [ 5,  6]])

In [80]:
M[:,1] = -2
M

array([[-1, -2],
       [ 0, -2],
       [ 5, -2]])

### Rebanado (Slicing)

Al igual que con las listas los arreglos pueden ser rebanados.

In [81]:
print(v)
v[1:3]

[1 2 3 4 5 6]


array([2, 3])

El rebanado también puede ser usado para asignar nuevos valores

In [82]:
v[1:3] = -2,-3
v

array([ 1, -2, -3,  4,  5,  6])

También es posible usar rebanadas _de a pasos_.

In [83]:
v[::2]

array([ 1, -3,  5])

O tomar los primer **N** elementos

In [84]:
v[:3]

array([ 1, -2, -3])

o empezar desde el iésimo elemento

In [85]:
v[3:]

array([4, 5, 6])

o los últimos **N** elementos

In [86]:
v[-3:]

array([4, 5, 6])

Los arreglos no tienen por que estar restringido a 1 o 2 dimensiones. A medida que las dimensiones aumentan la complejidad del rebanado se incrementa junto con la posibilidad de cometer errores o al menos confundirse un poco.

In [87]:
c = np.array([[[ 0,  1,  2,  3], [ 4,  5,  6,  7], [ 8,  9, 10, 11]],
       [[12, 13, 14, 15], [16, 17, 18, 19], [20, 21, 22, 23]]])
c

array([[[ 0,  1,  2,  3],
        [ 4,  5,  6,  7],
        [ 8,  9, 10, 11]],

       [[12, 13, 14, 15],
        [16, 17, 18, 19],
        [20, 21, 22, 23]]])

In [88]:
np.shape(c)

(2, 3, 4)

In [89]:
c[0]

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [90]:
c[0, 2]

array([ 8,  9, 10, 11])

Podemos extraer el 0ésimo elemento de la segunda dimensión (axis=1)

In [91]:
c[:,0]  # equivalente a c[:,0,:]

array([[ 0,  1,  2,  3],
       [12, 13, 14, 15]])

O los primeros elementos de la tercer dimensión (axis=2)

In [92]:
c[:,:,1]

array([[ 1,  5,  9],
       [13, 17, 21]])

In [93]:
c[0,:,1]

array([1, 5, 9])

Cualquier subconjunto de elementos pueden ser obtenidos desde un arreglo, por ejemplo

* Tomemos el 0ésimo elemento de la primer dimensión
* Luego, el primer elemento de la segunda dimensión 
* Finalmente, todos los elementos en la tercer dimensión con un paso de a 2 elementos

In [94]:
c[0,1,::2]

array([4, 6])

O invertir el orden

In [95]:
c[::-1]

array([[[12, 13, 14, 15],
        [16, 17, 18, 19],
        [20, 21, 22, 23]],

       [[ 0,  1,  2,  3],
        [ 4,  5,  6,  7],
        [ 8,  9, 10, 11]]])

Otro ejemplo de un rebanado complejo:

* Tomemos el 0ésimo elemento de la primer dimensión
* Luego, los elementos de la segunda dimension en orden inverso
* Finalmente, el ultimo elemento de la tercer dimensión

In [96]:
c[0,::-1, -1]

array([11,  7,  3])

Al hacer un slice de un array NO estamos creando una copia del arreglo, si no que tenemos una representación de una porción del arreglo original. En el siguiente ejemplo creamos un arreglo llamado _d_ a partir del arreglo _c_, luego modificamos _d_ y como resultamos obtenemos que _c_ también se modifica. 

In [97]:
d = c[0]
print(d)
d[0,1] = 999
print(d)
print(c)

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]
[[  0 999   2   3]
 [  4   5   6   7]
 [  8   9  10  11]]
[[[  0 999   2   3]
  [  4   5   6   7]
  [  8   9  10  11]]

 [[ 12  13  14  15]
  [ 16  17  18  19]
  [ 20  21  22  23]]]


En caso de que realmente necesitemos realizar una copia del array, podremos hacerlo usando el método _copy()_.

In [98]:
d = c[0].copy()
print(d)
d[0,1] = -10
print(d)
print(c)

[[  0 999   2   3]
 [  4   5   6   7]
 [  8   9  10  11]]
[[  0 -10   2   3]
 [  4   5   6   7]
 [  8   9  10  11]]
[[[  0 999   2   3]
  [  4   5   6   7]
  [  8   9  10  11]]

 [[ 12  13  14  15]
  [ 16  17  18  19]
  [ 20  21  22  23]]]


## Manipulación de Arreglos

A veces es conveniente cambiar la forma de los arreglos or combinar dos o más arreglos, para ello existen varias funciones:

In [99]:
c = np.arange(24).reshape(2,3,4)
c

array([[[ 0,  1,  2,  3],
        [ 4,  5,  6,  7],
        [ 8,  9, 10, 11]],

       [[12, 13, 14, 15],
        [16, 17, 18, 19],
        [20, 21, 22, 23]]])

Quizá necesitamos borrar parte de un arreglo

In [100]:
np.delete(c, (0,2), axis=2)

array([[[ 1,  3],
        [ 5,  7],
        [ 9, 11]],

       [[13, 15],
        [17, 19],
        [21, 23]]])

O necesitamos _aplanar_ un arreglo (hacerlo unidimensional), para ello podemos usar **flatten** o **ravel**.

In [101]:
c.flatten()  # flatten es un método no una función

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
       17, 18, 19, 20, 21, 22, 23])

In [102]:
c.ravel() # equivale a np.ravel(c)

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
       17, 18, 19, 20, 21, 22, 23])

A veces suele ser necesario convertir un array unidimensional en uno bidimensional, pero con una de las dimensiones _vacías_.

In [103]:
e = np.array([1, 2, 3])
e

array([1, 2, 3])

In [104]:
e.reshape((1, 3)) # equivalente a x[np.newaxis, :]

array([[1, 2, 3]])

In [105]:
e.reshape((3, 1)) # equivalente a x[:, np.newaxis]

array([[1],
       [2],
       [3]])

### Apilando (Stacking)

Generemos dos arreglos

In [106]:
f = np.arange(16).reshape(4, 4)
g = f * 2
print(f)
print(g)

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]
 [12 13 14 15]]
[[ 0  2  4  6]
 [ 8 10 12 14]
 [16 18 20 22]
 [24 26 28 30]]


Es posible obtener un tercer arreglo a partir de apilar `f` y `g`. Existen distintas opcioenes para apilar.

In [107]:
np.stack((f, g))

array([[[ 0,  1,  2,  3],
        [ 4,  5,  6,  7],
        [ 8,  9, 10, 11],
        [12, 13, 14, 15]],

       [[ 0,  2,  4,  6],
        [ 8, 10, 12, 14],
        [16, 18, 20, 22],
        [24, 26, 28, 30]]])

In [108]:
np.stack((f, g), axis=1)

array([[[ 0,  1,  2,  3],
        [ 0,  2,  4,  6]],

       [[ 4,  5,  6,  7],
        [ 8, 10, 12, 14]],

       [[ 8,  9, 10, 11],
        [16, 18, 20, 22]],

       [[12, 13, 14, 15],
        [24, 26, 28, 30]]])

In [109]:
np.vstack((f, g))

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15],
       [ 0,  2,  4,  6],
       [ 8, 10, 12, 14],
       [16, 18, 20, 22],
       [24, 26, 28, 30]])

In [110]:
np.hstack((f, g))

array([[ 0,  1,  2,  3,  0,  2,  4,  6],
       [ 4,  5,  6,  7,  8, 10, 12, 14],
       [ 8,  9, 10, 11, 16, 18, 20, 22],
       [12, 13, 14, 15, 24, 26, 28, 30]])

In [111]:
np.concatenate((f, g), axis=0) # equivalent to np.vstack((f, g))

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15],
       [ 0,  2,  4,  6],
       [ 8, 10, 12, 14],
       [16, 18, 20, 22],
       [24, 26, 28, 30]])

In [112]:
np.concatenate((f, g), axis=1)  # equivalent to np.hstack((f, g))

array([[ 0,  1,  2,  3,  0,  2,  4,  6],
       [ 4,  5,  6,  7,  8, 10, 12, 14],
       [ 8,  9, 10, 11, 16, 18, 20, 22],
       [12, 13, 14, 15, 24, 26, 28, 30]])

### Escindiendo (Splitting)

La operación contraria al _stacking_ es el _splitting_.

In [113]:
np.split(f, 2, axis=0)

[array([[0, 1, 2, 3],
        [4, 5, 6, 7]]),
 array([[ 8,  9, 10, 11],
        [12, 13, 14, 15]])]

In [114]:
np.split(f, 2, axis=1)

[array([[ 0,  1],
        [ 4,  5],
        [ 8,  9],
        [12, 13]]),
 array([[ 2,  3],
        [ 6,  7],
        [10, 11],
        [14, 15]])]

### Indexado Avanzado (Fancy indexing)

Además del indexado usando entereos y rebanadas (_slices_) que ya hemos visto, es posible idexar arrays usando arrays conteniendo enteros o booleanos.

In [115]:
i = np.arange(10)**2 
i

array([ 0,  1,  4,  9, 16, 25, 36, 49, 64, 81])

In [116]:
idx = np.array([0, 2, 3, 3])
i[idx]

array([0, 4, 9, 9])

In [117]:
j = np.arange(9).reshape(3, 3)
j

array([[0, 1, 2],
       [3, 4, 5],
       [6, 7, 8]])

In [118]:
idx_fila = np.array([0,2])
idx_col = np.array([1])

j[idx_fila, idx_col]

array([1, 7])

También podemos usar in arreglo de booleanos, por ejemplo si quisieramos obtener todos los números pares contenidos en un arreglo podríamos hacer lo siguiente.

In [119]:
j[j % 2 == 0]

array([0, 2, 4, 6, 8])

Si la expresión en la celda anterior te parece confusa, podés revisar y ver que la expresión entre corchetes (la que indexa al arreglo _j_), es un arreglo de booleanos.

In [120]:
j % 2 == 0

array([[ True, False,  True],
       [False,  True, False],
       [ True, False,  True]])

## Constantes

Algunas constantes como $\pi$ y $e$ puede ser accedidas desde NumPy. Un número mayor de constantes está disponible en [scipy.constants](https://docs.scipy.org/doc/scipy/reference/constants.html)

In [121]:
np.pi

3.141592653589793

In [122]:
np.e

2.718281828459045

## SciPy

NumPy es una muy buena librería para computación numérica y en este capítulo apenas hemos empezado a arañar la superficie de lo que es posible hacer con ella. Al trabajar con computación científica muchas veces necesitarás acceso a rutinas numéricas para la interpolación, integración, optimización, análisis estadístico, procesamiento de audio, procesamiento de imágenes, etc. Las probabilidades son realmente altas de que esas funciones ya hayan sido implementadas y estén disponibles en SciPy. [SciPy](https://docs.scipy.org/doc/scipy/) es una librería de computación científica construida encima de NumPy. Al igual que como sucede con NumPy, SciPy cuenta con muchas rutinas rápidas y confiables facilmente disponibles y es siempre una buena idea buscar si la rutina que uno necesita está disponible en SciPy (¡no pierdas el tiempo reinventando la rueda, a menos que necesites una rueda muy especial!). SciPy es también el nombre de un grupo de conferencias donde participan usuarios y desarrolladores de herramientas de computación científica en Python. En los siguientes capitulos haremos uso de algunas de las muchas funcionalidades ofrecidas por SciPy.

## Distribuciones de probabilidad

Las variables aleatorias y las distribuciones de probabildiad asociadas a ellas son objetos centrales en estadística. Las distribuciones de probabilidad tienen formulas matemáticas precisas, de forma similar a como las circunferencias tienen una definición matemática precisa.

> Una circunferencia es el lugar geométrico de los puntos de un plano que equidistan a otro punto llamado centro.

Dado el parámetro `radio` una circunferencia queda perfectamente definida. Si necesitáramos ubicar la circunferencia respecto de otros objetos en el plano, necesitaríamos además las coordenadas del centro, pero omitamos ese _detalle_ por el momento.

Podríamos decir que no existe una sola circunferencia, sino una familia de circunferencias donde cada miembro se diferencia del resto solo por el valor del parámetro `radio`, ya que una vez definido este parámetro la circunferencia queda definida.

De forma similar las distribuciones de probabilidad vienen en familias cuyos miembros quedan definidos por uno o más parámetros.

Quizá la distribución de probabilidad más conocida sea la distribución normal. Esta distribución queda definidad por dos parámetros la media (usualmente $\mu$) y la desviacion estándard (usualmente $\sigma$). Otras parametrizaciones comunmente usadadas reemplazan la desviación estándard por la varianza ($\sigma^2$) o por la precisión $\left(\frac{1}{\sigma^2}\right)$.

La típica curva de campana, que se asocia a la distribución Gaussiana es tan solo una de sus propiedades que se conoce formalmente como función de densidad de probabilidad (pdf en inglés) y se define como:

$$
p(x \mid \mu,\sigma) = \frac{1}{\sigma \sqrt{ 2 \pi}} e^{ - \frac{ (x - \mu)^2 } {2 \sigma^2}} \tag {0.11}
$$

Por el momento no nos interesa esta formula en particular, solo nos interesa reconocer que tiene una definición matemática precisa. Además de la pdf existen otras propiedades de las distribuciones que son muy usadas como la distribución de densidad acumulada (cdf en inflés). Si la pdf responde a la pregunta cual es la densidad probabilidad para un valor $x$,la cdf nos dice cuanto de la probabilidad total (1) está por debajo de un valor $x$.

<img src='imagenes/pdf_cdf.png' width=800 >

Veamos como scipy por permite trabajar con algunas de estas propiedades de las distribucione de probabilidad sin mucho esfuerzo. Dado que SciPy es una colección de herramientas dispares es común importar solo los submodulos o funciones que vamos a usar y no toda la librería, por ej

In [123]:
from scipy import stats  # importamos el modulo stats
from scipy.integrate import quad  # importamos la función quad del modulo integrate

Podemos definir una normal con media 0 y desviación estandard 1 de la siguiente manera

In [124]:
dist = stats.norm(0, 1)

Ahora podemos averiguar la densidad de probabilidad para el valor $x=1$.

In [125]:
dist.pdf(1)

0.24197072451914337

Este número por si solo no nos dice mucho ya que no es una probabilidad, por ejemplo podemos ver que si tomamos varios de $x$ y sumamos sus densidades no obtenemos 1, ni cerca! 

In [126]:
x = np.linspace(-6, 6, 1000)
dist.pdf(x).sum()

83.24999984173607

Esto se debe a que la probabilidad de obtener exactamente 1, es decir $1.000...$ con infinitos ceros es nula. De hecho la probabilidad de cualquier valor es nula. Aunque es posible calcular probabilidades a partir de la pdf integrando (calculando el área bajo la curva).

In [127]:
# aproximamos la integral como una suma de rectangulos de alto pdf y base rango/n.
dist.pdf(x).sum() * (12/1000)  

0.9989999981008328

De todas formas si podemos hacer preguntas como cuanto más probable es observar el valor 1 que el -1

In [128]:
dist.pdf(1) / dist.pdf(-1)

1.0

Lo cual tiene sentido ya que la distribución Normal(0, 1) es simétrica respecto de 0. La cdf es la integral de la pdf.

Sigamos con otras preguntas. Si tomaramos un muestra al azar de una distribución normal con media 0 y desviación estándard 1, cual es la probabilidad que fuese menor a 0? esto es fácil de responder con la cdf

In [129]:
dist.cdf(0)

0.5

y mayor a 2?

In [130]:
1 - dist.cdf(2)

0.02275013194817921

Una forma alternativa de contestar estar preguntas es generando número aleatorios

In [131]:
np.mean(dist.rvs(1000) < 0)

0.514

In [132]:
np.mean(dist.rvs(1000) > 2)

0.022

También podrías hacer preguntas del estilo. Cuál es la mediana, o lo que es lo mismo cual es el valor para el cual la mitad de las observaciones están por debajo y la otra mitad por encima. Para una distribución Gaussiana este valor coincide con la media y la moda.

In [133]:
dist.ppf([0.5])  # está función es la inversa de la cdf

array([0.])

### La regla 68-95-99.7  

Alrededor del 68% de los valores extraídos de una distribución normal están dentro de una desviación estándar σ de la media; alrededor del 95% de los valores se encuentran dentro de dos desviaciones estándar; y alrededor del 99,7 % están dentro de tres desviaciones estándar. Este hecho se conoce como la regla 68-95-99.7.


 <img src="imagenes/Standard_deviation_diagram.png" width="450">



En el siguiente ejemplo usamos SciPy para evaluar esta regla. Para ello usaremos dos submodulos `stats` e `integrate`. El primero define varias funciones estadísticas y el segundo rutinas para integrar. Usando `stats`, definimos una distribucion normal `stats.norm` y le computamos su funcion de densidad de probabilidad `pdf`. De integrate empleamos `quad`, que nos permite integrar una función unidimensional entre dos puntos.

In [134]:
from scipy import stats
from scipy.integrate import quad

def integrand(x, media, std):
    return stats.norm(media, std).pdf(x)

media = 0
std = 1

for sd in [1, 2, 3]:
    I = quad(integrand, -sd, sd, args=(media, std))
    print(sd, f"{I[0]:.1%}")

1 68.3%
2 95.4%
3 99.7%


Estos son solo algunos ejemplos de las funciones disponibles en SciPy. Para mayor información puede consultar la [documentación](https://scipy.org/).

-------------
### Ejercicio

17. Scipy cuenta con varios métodos especiales para calcular distancias. Uno de ellos es [KDTree](https://docs.scipy.org/doc/scipy/reference/generated/scipy.spatial.KDTree.html). Use este método para reemplezar en `mcplantas` el calculo de la distancia al primer vecino más cercano. Ayuda: Hacen falta 2 pasos primero crear un objeto kdtree y luego pedirle la distancia a los vecinos más cercanos. Compare la velocidad de `mcplantas`con y sin el KDtree.


18. Use `np.genfromtxt` para levantar datos desde un archivo propio (como un `.csv`) y calcule algunos estadísticos sumarios de interes.


19. Evalue empíricamente la política óptima para el [problema de la secretaria/o](https://en.wikipedia.org/wiki/Secretary_problem).

El problema de la secretaria/o es el siguiente: imagine que usted está buscando a una candidata para una posición en su organización y tiene que elegir a la mejor de $n$ que se presentan. Las personas son entrevistadas una a una en orden aleatorio. Al finalizar cada entrevista se debe notificar la decisión a la candidata. Una vez que se descarta una candidata, no se puede cambiar de opinión. Durante la entrevista, usted obtiene información suficiente para clasificar a la candidata entre todos los entrevistados hasta el momento, pero desconoce la calidad de los candidatos que aún no ha visto. La pregunta es sobre la estrategia óptima (regla de parada) para maximizar la probabilidad de seleccionar a la mejor candidata. Si la decisión se puede aplazar hasta el final, esto se puede resolver mediante el simple algoritmo de seleccionar el máximo actual (y quién lo logró). La dificultad es que la decisión debe tomarse inmediatamente.

Puede ser demostrado que la política óptima de parada para cualquier valor de $n$ es: siempre rechazar a los primeros $\sim n/e$ (donde $e$ es la base del logaritmo natural) candidatos que son entrevistados y luego deteniéndose en la primer candidata que es mejor que todos los candidatos entrevistados hasta ahora (o continuar hasta el último candidato si esto nunca ocurre). A veces, esta estrategia se denomina regla de parada $1 / e$, porque la probabilidad de detenerse en la mejor candidata con esta estrategia es de aproximadamente $1 / e$ para valores moderados de $n$.

Aunque hay muchas variaciones, el problema básico se puede enunciar de la siguiente manera:

- Hay una sola posición para cubrir.
- Hay $n$ candidatos para el puesto y se conoce el valor de $n$.
- Los candidatos, si se ven en conjunto, se pueden ordenar de mejor a peor sin ambigüedades.
- Los candidatos son entrevistados secuencialmente en orden aleatorio, siendo cada orden igualmente probable.
- Inmediatamente después de una entrevista, la candidata entrevistado es aceptada o rechazada y la decisión es irrevocable.
- La decisión de aceptar o rechazar a un candidato puede basarse únicamente en los _rankings_ relativos de los candidatos entrevistados hasta el momento.
- El objetivo de la solución general es tener la mayor probabilidad de seleccionar a la mejor candidata de todo el grupo. Esto es lo mismo que maximizar el pago esperado, con el pago definido como uno para la mejor candidata y cero en caso contrario.

Pruebe, para distintos valores de $n$ que la probabilidad de encontrar a la mejor candidata con esta regla es $1/e$.

-------------

## Para seguir leyendo

* [scientific-python-lectures](https://github.com/jrjohansson/scientific-python-lectures).
* [Numpy](https://numpy.org/)
* [100 NumPy exercises](http://www.labri.fr/perso/nrougier/teaching/numpy.100)
* [NumPy Quickstart](https://numpy.org/doc/stable/user/quickstart.html)
* [Python Data Science Hand Book](http://shop.oreilly.com/product/0636920034919.do)