Inferencia y Muestreo
===

* 34:29 min | Ultima modificación: Marzo 21, 2021 | YouTube

## Relación entre inferencia y muestreo

En la parte de probabilidades se consideran dos problemas complementarios:

* La generación de una muestra de números aleatorios a partir de una distribución teórica.

* La inferencia de la distribución a partir de una muestra de datos aleatorios 

![assets/dist-inferencia.jpg](assets/dist-inferencia.jpg)

## Muestreo de una distribución de probabilidades usando NumPy

La muestra ${x_1, x_2, ..., x_n}$ se define como una muestra aleatoria de una distribución de probabilidades, si los valores $x_i$:

* Tienen la misma distribución de probabilidades.
* Son independientes.

Estas propiedades se suelen abreviar como iid (independientes e identicamente distribuidas).

In [1]:
import numpy as np

# Se crea un generador con una semilla aleatoria 
# predefinida para que se produzca siempre la misma
# secuencia.
rng = np.random.default_rng(12345)

In [2]:
# Distribución normal
rng.normal(loc=0, scale=1, size=10)

array([-1.42382504,  1.26372846, -0.87066174, -0.25917323, -0.07534331,
       -0.74088465, -1.3677927 ,  0.6488928 ,  0.36105811, -1.95286306])

In [3]:
# Distribución normal estandar
rng.standard_normal(size=10)

array([ 2.34740965,  0.96849691, -0.75938718,  0.90219827, -0.46695317,
       -0.06068952,  0.78884434, -1.25666813,  0.57585751,  1.39897899])

In [4]:
# Distribución uniforme
rng.uniform(low=0, high=5, size=10)

array([0.40797285, 0.79947801, 1.70050092, 2.32596577, 1.33210514,
       4.07888202, 0.96647195, 0.64734538, 0.45832376, 2.99284007])

In [5]:
# Distribución triangular
rng.triangular(left=0, mode=2, right=5, size=10)

array([3.52389992, 2.55547932, 3.98996308, 2.96818318, 3.55371848,
       3.97046954, 2.39093698, 4.03309482, 2.24769535, 1.65460927])

In [6]:
# Distribución de Student con 10 grados de libertad
rng.standard_t(df=10, size=10)

array([ 0.33394496, -0.09771761,  0.10601286,  0.06660747,  0.48711459,
       -0.76891187,  0.38212633,  0.54187737, -2.10070521, -1.0353337 ])

In [7]:
# Distribución lognormal
rng.lognormal(mean=2, sigma=3, size=10)

array([4.85708139e-01, 2.76297824e-01, 7.54916593e+00, 3.67111201e+01,
       3.01971227e-01, 4.28697681e+00, 9.58965784e+02, 2.85144009e+00,
       6.39259438e-01, 2.35643989e+01])

**Ejercicio.---** Genere 1000 números aleatorios como un número aleatorio normal estándar más un número aleatorio normal $N(4,0.5)$. Grafique un histograma para los mil números aleatorios obtenidos y la distribución normal teórica equivalente como una línea. ¿Se cumple el postulado?. 

## Permutaciones

In [8]:
# Enteros entre 0 y 10
rng.integers(low=0, high=10, size=3)

array([1, 6, 0])

In [9]:
rng.random((3, 3))

array([[0.24816449, 0.68482298, 0.08087165],
       [0.8750736 , 0.42869438, 0.6183942 ],
       [0.3131055 , 0.17896286, 0.00971213]])

In [10]:
rng.choice(5, 3)

array([0, 1, 1])

In [11]:
rng.choice(5, 3, p=[0.1, 0, 0.3, 0.6, 0])

array([3, 3, 3])

In [12]:
rng.choice(5, 3, replace=False)

array([2, 3, 1])

In [13]:
arr = np.arange(10)
arr

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [14]:
rng.shuffle(arr)
arr

array([8, 3, 9, 7, 4, 0, 2, 6, 5, 1])

In [15]:
rng.permutation(10)

array([8, 5, 0, 7, 3, 4, 2, 1, 6, 9])

In [16]:
rng.permutation([1, 4, 9, 12, 15])

array([ 9, 12, 15,  4,  1])