# Estadistica: Números aleatorios en Python con NumPy

NumPy ofrece funciones para generar datos aleatorios simples y algunas distribuciones estadísticas, que luego amplía SciPy.

Vamos a mencionar sin explicar las distribuciones uniforme y normal, así que si quieres una explicación más detallada te recomiendo que leas el artículo sobre estadística en Python con SciPy. 

# ¿Aleatorios?

Antes que nada, hay algo importante que tenemos que aclarar. En realidad, no hay algoritmos que generen números puramente aleatorios y que sean deterministas, por lo que usando solamente software es imposible obtener números verdaderamente aleatorios. 

En computación realmente se dispone de números pseudoaleatorios, que son secuencias determinadas a partir de unos ciertos datos iniciales que se parecen bastante a una aleatoria. NumPy utiliza un algoritmo llamado "Mersenne twister", creado por dos matemáticos japoneses y que utilizan otros programas como MATLAB.

Ahora que ya hemos hecho esta aclaración, en adelante llamaremos aleatorios a los números pseudoaleatorios - por brevedad 

En la librería estándar de Python viene ya incluido el módulo random, con funciones pensadas para trabajar con valores escalares y listas. Las que vamos a ver ahora pueden trabajar con arrays de NumPy.

# Datos aleatorios simples con NumPy
# Generación de datos aleatorios

En el paquete random de NumPy encontramos varias funciones para generar datos aleatorios de manera sencilla. La primera es np.random.rand, que devuelve un número aleatorio procedente de una distribución uniforme en el intervalo [0,1)


In [1]:
import random
import numpy as np

In [10]:
np.random.rand()  # Sin argumentos devuelve escalar

0.29382719582410366

In [11]:
np.random.rand(4)  # Un array de 4 elementos

array([0.90144648, 0.3357956 , 0.86636302, 0.08417107])

In [12]:
np.random.rand(3, 2)

array([[0.58946211, 0.67642349],
       [0.43156158, 0.80276997],
       [0.82634637, 0.27998131]])

La función np.random.random_sample hace lo mismo, pero recibe el argumento en forma de tupla. Tiene cuatro alias: random, sample y ranf

In [13]:
np.random.random_sample((2, 2))

array([[0.16398753, 0.97996055],
       [0.35677357, 0.49093268]])

In [14]:
np.random.seed(0)
np.random.random_sample((2, 2))

array([[0.5488135 , 0.71518937],
       [0.60276338, 0.54488318]])

¿recordas que hemos dicho que estos números son pseudoaleatorios?

A veces nos puede interesar, por ejemplo para pruebas, utilizar siempre una misma secuencia pseudoaleatoria. Utilizando la función np.random.seed imponemos las condiciones iniciales del generador; si no se llama (como hemos hecho antes
), NumPy escoge la hora como semilla, de tal forma que cada programa utilice secuencias diferentes:

In [None]:
np.random.seed(0)  # Ponemos la semilla a 0 (puede ser cualquier número)
np.random.rand(3)

Si queremos generar datos enteros entonces tenemos que usar la función np.random.randint, que admite un argumento obligatorio y dos opcionales:

    Si se llama con un argumento, np.random.randint(a) devuelve una muestra de la distribución uniforme discreta en [0,a)
    Si se llama con dos argumentos, np.random.randint(a, b) devuelve una muestra de la distribución uniforme discreta en [a,b)
    Si se llama con tres argumentos, np.random.randint(a, b, size) devuelve un array de muestras en [a,b) y de tamaño size.

In [None]:
np.random.randint(10)

In [None]:
np.random.randint(100, 200)

In [None]:
np.random.randint(100, 1000, (3, 2))

# Mezclas y elecciones aleatorias

NumPy también nos permite, dado un array de datos ya existente, mezclarlo de manera aleatoria (como barajar un mazo de cartas) o escoger un elemento al azar.

**Ejercicio 1**: explicar para qué sirve la función np.random.choice, sus parámetros y dar un ejemplo

In [None]:
# escribir àca


#### Hacer Doble click en la celda de abajo para ver una posible solución

In [None]:

# a = np.arange(10)
# np.random.choice(a)  # Entero aleatorio entre 0 y 9
# np.random.choice(a, 3)  # Tres enteros
# np.random.choice(a, 10, replace=True)  # Por defecto
# np.random.choice(a, 10, replace=False)  # Simplemente una ordenación

# Distribuciones estadísticas

Hasta ahora hemos manejado básicamente distribuciones uniformes, pero NumPy incluye otras distribuciones estadísticas continuas y SciPy amplía con muchas más, añadiendo también distribuciones discretas. Estas se encuentran en el paquete scipy.stats. Usando las distribuciones de NumPy:

In [None]:
np.random.poisson()  # Muestra de una distribución de Poisson con lambda=1

In [None]:
np.random.standard_normal()  # Normal estándar

In [None]:
np.random.randn()  # Lo mismo que lo anterior

**Ahora visualicemos una distribución uniforme y normal**

In [None]:
import matplotlib.pyplot  as plt
%matplotlib inline
# Graficando histograma
mu, sigma = 0, 0.2 # media y desvio estandar
datos = np.random.uniform(mu, sigma, 1000) #creando muestra de datos
# histograma de distribución uniforme.
cuenta, cajas, ignorar = plt.hist(datos, 20)
plt.ylabel('frequencia')
plt.xlabel('valores')
plt.title('Histograma')
plt.show()


In [None]:
datos = np.random.normal(mu, sigma, 1000) #creando muestra de datos
# histograma de distribución normal.
cuenta, cajas, ignorar = plt.hist(datos, 20)
plt.ylabel('frequencia')
plt.xlabel('valores')
plt.title('Histograma')
plt.show()

**Ejercicio 2**: que estadisticos podría calcular de estas distribuciones ?