# leatoriedad y reproducibilidad¶
Como aprendimos al principio de esta semana, el concepto de aleatoriedad es una piedra angular para la inferencia estadística cuando se extraen muestras de poblaciones más grandes.

En este tutorial, vamos a cubrir lo siguiente:

La aleatoriedad y sus usos en python.

Utilización de semillas en python para reproducir el análisis.

Generación de variables aleatorias a partir de una distribución de probabilidad.

Muestreo aleatorio de una población.

## ¿Qué es la aleatoriedad?
Al principio de las conferencias de esta semana, hemos tocado la importancia de la aleatoriedad cuando se trata de realizar inferencia estadística en muestras de población. Si tenemos una aleatoriedad completa, nuestras estimaciones de medias, proporciones y totales son ubicuas. Esto significa que nuestras estimaciones son iguales a los valores de la población en promedio.

En Python, nos referimos a la aleatoriedad como la capacidad de generar datos, cadenas o, más generalmente, números al **azar.**

Sin embargo, al realizar un análisis es importante tener en cuenta la reproducibilidad. Si estamos creando datos aleatorios, ¿cómo podemos permitir un análisis reproducible?

Para ello, utilizamos generadores de números **pseudoaleatorios** (PRNG). Los PRNG comienzan con un número aleatorio, conocido como semilla, y luego utilizan un algoritmo para generar una secuencia pseudoaleatoria basada en él.

Esto significa que podemos replicar la salida de un generador de números aleatorios en python simplemente sabiendo qué semilla se utilizó.

Podemos demostrarlo utilizando las funciones de la biblioteca random de python.

Estableciendo una semilla y generando números aleatorios


In [1]:
import random

In [2]:
random.seed(1234) #semilla
random.random()


0.9664535356921388

In [3]:
random.seed(1234) #semilla
random.random()
# la semilla se repite
#out 0.9664535356921388

0.9664535356921388

# Números aleatorios de distribuciones de valores reales  destribuciones uniformes

In [35]:
random.uniform(25,50) # cada parte de la muestra tiene la misma posibilidad de ser elegida
# los parametros son (limite inferior, limite superior)

0.38052213203740115

In [30]:
numeros_uniformes = [random.uniform(0,1) for _ in range(10)] # lista anidada
numeros_uniformes

[0.23827783693461524,
 0.4795807072849979,
 0.16870076609043494,
 0.8968421132141422,
 0.08311913676639215,
 0.9221175103438185,
 0.22411141873413365,
 0.29065972966081144,
 0.9329252076528362,
 0.24535693791246538]

# Normal

In [11]:
# forma de campana, un solo pico de moda
# se debe establecer media y sigma
mu = 0 # media
sigma = 1 # sigma/desviacion estandar
random.normalvariate(mu,sigma)

0.06320794089168544

In [12]:
mu = 5
sigma = 2
random.normalvariate(mu,sigma)

4.404928045835733

In [13]:
mu = 0

sigma = 1

[random.normalvariate(mu, sigma) for _ in range(10000)]

[-0.32560560777628234,
 -0.7230778730855582,
 -0.13076016750403674,
 -0.30061745241957266,
 -1.0659338448280822,
 0.18702539900575452,
 -0.5687484200779066,
 0.3649845859647074,
 1.7494040278146015,
 0.22600474005569396,
 -1.1151380585639925,
 -0.19273145821820742,
 -0.1894484224252513,
 -1.2991944916491394,
 0.0014470309434913397,
 -2.016619191103081,
 -0.4868974368345301,
 0.38623594444235065,
 -1.0279664100736308,
 2.0696667563512854,
 -0.21915509444362868,
 0.05837508542557953,
 -1.0421644744582546,
 0.520337034045725,
 1.6298123466140946,
 0.2731902531856528,
 -0.49626275975376827,
 0.7213906936670386,
 0.4689259813211926,
 0.15933457854920816,
 -1.7959849130370746,
 1.3045111181234956,
 0.7813604382974706,
 -0.4904504866798668,
 0.052711516960373433,
 0.37613597276846417,
 1.1888089622841818,
 -0.315381760539186,
 0.7352713201680545,
 -0.9287964829079589,
 0.6313662822093423,
 -0.002643011195867273,
 2.201762301567866,
 2.159310700624468,
 1.6204783537726408,
 1.6585943948387993,

# Muestreo aleatorio de una población
De la clase, sabemos que el muestreo aleatorio simple (SRS) tiene las siguientes propiedades:

+ Se parte de una lista conocida de N* unidades de la población y se seleccionan al azar *n unidades de la lista
+ Cada unidad tiene la misma probabilidad de selección = n/N
+ Todas las muestras posibles de tamaño n tienen la misma probabilidad
+ Las estimaciones de las medias, las proporciones y los totales basadas en la SRS no tienen base (es decir, son iguales a los valores de la población en promedio)



In [14]:
import random
import numpy as np


In [17]:
mu = 0
sigma = 1
poblacion = [random.normalvariate(mu,sigma) for elemento in range(10000)]


In [36]:
muestraA = random.sample(poblacion, 500)
muestraB = random.sample(poblacion, 500)

# el metodo sample, hace que se elija la poblacion de la cual se
# quiere extraer la muestra, y el tamaño de la muestra a extraer

In [19]:
np.mean(muestraA)

-0.008584127586176453

In [20]:
np.std(muestraA) # desviación estandar

1.0079295568785862

In [24]:
np.mean(muestraB)

-0.012857333171062503

In [22]:
np.std(muestraB)

0.9824009427288043

In [23]:
medias = [np.mean(random.sample(poblacion,1000)) for elemento in range(100)]

np.mean(medias)

0.017844593061387727

In [37]:
desviaciones_std = [np.std(random.sample(poblacion,1000)) for elemento in range(100)]

np.mean(desviaciones_std)

1.0118503389700344