# Probabilidad y estadística

- La distribución normal o gaussiana: ¿de dónde sale?
- ¿Por qué el promedio tiene un error?

In [None]:
import ipywidgets
import matplotlib.pyplot as plt
import numpy as np
import scipy.stats
import seaborn

In [None]:
plt.rc("figure", dpi=100)

## Variables aleatorias y distribución de probabilidad

Una variable aleatoria o estocástica $X$ es una magnitud cuyo valor varía cada vez que se la mide.

El ejemplo más simple es el resultado $X$ de arrojar una moneda: cara o ceca.

$$ X = \{\text{cara}, \text{ ceca}\} $$

Una variable aleatoria está completamente descripta a partir de su distribución de probabilidad $P$,

que nos dice la probabilidad de que salga cada uno de sus posibles valores.

Por ejemplo, la distribución de probabilidad $P$ de la moneda: 50% cara y 50% ceca.

$$ P(X) = \begin{cases}
0.5 \quad\text{ si X es cara}\\
0.5 \quad\text{ si X es ceca} \\
\end{cases} $$


Las variables aleatorias se pueden clasificar en dos tipos: discretas y continuas.

### Variables aleatorias discretas

Otro ejemplo sencillo de variable aleatoria discreta es (el resultado de tirar) un dado.

En Python, podemos crear "un dado" con la siguiente función:

In [None]:
dado = scipy.stats.randint(low=1, high=7)

Podemos tirar el dado una vez:

In [None]:
dado.rvs()

O múltiples veces:

In [None]:
dado.rvs(size=5)

Podemos preguntarle la probabilidad de que salga cierto valor con la función `pmf` (del inglés, *probability mass function*):

In [None]:
dado.pmf(1)

que es 1/6.

Podemos gráficar esta función:

In [None]:
numeros = np.array([0, 1, 2, 3, 4, 5, 6, 7])
probabilidades = dado.pmf(numeros)

plt.scatter(numeros, probabilidades)
plt.yticks([0, 0.1, 1/6, 0.2], ["0", "0.1", "1/6", "0.2"]);
plt.xlabel("Valores posibles")
plt.ylabel("Probabilidad")

donde la suma de todas las probabilidades tiene que dar 1 (o 100%):

In [None]:
np.sum(probabilidades)

¿Cómo podemos llegar a esta distribución de probabilidad de manera experimental?

Medimos múltiples veces y realizamos un histograma:

In [None]:
@ipywidgets.interact(
    tiradas=ipywidgets.FloatLogSlider(min=0, max=4, readout_format=".0f"),
)
def _(tiradas):
    tiradas = int(round(tiradas))
    dados = dado.rvs(size=tiradas)
    # Histograma de los dados
    # Uso seaborn, que permite hacer correctamente histogramas de variables discretas
    seaborn.histplot(dados, discrete=True)#, stat="probability")
    # plt.axhline(1/6)  # Valor esperado
    plt.xlim(0.4, 6.6)

Al tomar múltiples mediciones y realizar un histograma, estamos tratando de aproximar la distribución de probabilidad del fenómeno que estamos estudiando.

### Media de una distribución

¿Podemos calcular un promedio (o la media) de una distribución?

Imaginemos que tiramos un dado 5 veces y salen los siguientes números: ${1, 2, 2, 2, 6}$.

Calcular el promedio es sumarlos y dividir por la cantidad de números:

$$ \bar{x} = \frac{1 + 2 + 2 + 2 + 6}{5} $$

Si agrupamos los valores iguales y sacamos factor común:

$$ \bar{x} = \frac{ \Big( {1 \times 1 + 3 \times 2 + 1 \times 6} \Big) }{5} $$

Distribuyendo el denominador:

$$ \bar{x} = {\frac{1}{5} \times 1 + \frac{3}{5} \times 2 + \frac{1}{5} \times 6} $$

En otras palabras, el promedio es:

$$ \bar{x} = \sum_i f_i \, x_i $$

donde $f_i$ es la fracción de veces que salió el número $i$-ésimo, y $x_i$ es el valor del número $i$-ésimo.

Si medimos muchas veces, esperamos que los $f_i$ tiendan a la probabilidad $p_i$ que salga cada número.

En el caso del dado, si lo tiramos muchas veces, esperamos que $f_i \to p_i = \frac{1}{6}$.

Entonces, podemos definir la media $\mu$ de una variable aleatoria $X$ como:

$$ \mu = \sum_i x_i \, p_i = \sum_i x_i \, P(X=x_i) $$

donde la suma es sobre todos los valores $x_i$ posibles.

Para el dado,

$$ \mu = 1 \, \frac{1}{6} + 2 \, \frac{1}{6} + \ldots + 6 \, \frac{1}{6} = 3.5$$

In [None]:
dado.mean()  # teórico

El promedio $\bar{x}$ apromxima la media $\mu$ de la distribución:

In [None]:
dado.rvs(size=10).mean()

y depende de la cantidad de muestras que tomemos.

### Desviación estándar teórica

Análogamente, podemos calcular la desviación estándar $\sigma$ de una distribución de probabilidad como:

$$ \sigma^2 = \sum_i (x_i - \mu)^2 \, p_i $$

Es decir, la suma de las distancias cuadráticas de los $x_i$ a la media $\mu$, pesados por la probabilidad $p_i$.

Para recodarles, la desviación estándar $s$ de un conjunto de muestras la habiamos definido como:

$$ s^2 = \frac{1}{N} \sum_i (x_i - \bar{x})^2 $$

que se puede escribir en términos de la fracción $f_i$ de veces que salió cada $x_i$:

$$ s^2 = \sum_i (x_i - \bar{x})^2 \; f_i$$

In [None]:
dado.std()  # teórico

Entonces, $s$ aproxima a $\sigma$:

In [None]:
dado.rvs(size=10).std()

y, al igual que el promedio, ¡la desviación estándar también tiene un error!

El error de la desviación estándar lo pueden calcular de esta forma:

$$ \frac{s}{\sqrt{2 \, (N - 1)}} $$

que es similar al error del promedio.

*Nota: el del promedio funciona mejor en distribuciones más generales, mientras que para este es más necesario que tenga "forma de campana".*

Entonces, por más que nadie reportaría los resultados de medir un dado como promedio y desviación estándar:

In [None]:
fig, ax = plt.subplots(figsize=(6, 2))
ax.bar(x=np.arange(1, 7), height=1/6, width=0.1)
ax.axvspan(dado.mean() - dado.std(), dado.mean() + dado.std(), alpha=0.5, color="C2")
ax.set_yticks((0, 1 / 6), labels=("0", "1/6"))
ax.set_title(f"$\\mu \pm \\sigma = {dado.mean():.1f} \\pm {dado.std():.1f}$")

siempre podemos estimarlos a partir de nuestras mediciones:

- $\mu \rightarrow \bar{x} \pm \Delta \bar{x}$
- $\sigma \rightarrow s \pm \Delta s$

Más adelante, veremos por qué son útiles también para el caso del dado.

## Variables aleatorias continuas

### Distribución uniforme

La distribución uniforme es el análogo continuo del dado,

donde los valores posibles son todos los números reales entre $0$ y $1$.

**Preguntas:**

1. Si todos los números son igual de probables, ¿cuál es la probabilidad de que salga $0.5$?

La probabilidad es 0, porque es un número particular entre los infinitos posibles.

No se puede hablar de probabilidad de un número, sino de un rango de números.

2. ¿Cuál es la probabilidad de que salga algún múmero entre 0 y 0.5?

La probabilidad es 0.5, porque es la mitad del intervalo y todos los números son igual de probables.

Para variables discretas, tenemos una distribución de probabilidad $P$ para cada valor posible $x$.

Y, si sumamos la probabilidad sobre todos los valores posibles:

$$ \sum_i P(x_i) = 1 $$

Para variables continuas, sumar sobre todos los valores es hacer una integral:

$$ \int p(x) \, dx = 1 $$

Entonces, no tenemos una probabilidad para cada valor, sino una *densidad* de probabilidad.

Solo podemos hablar de probabilidad cuando integramos en un dado rango.

Por ejemplo, para la distribución uniforme, podemos graficar la densidad de probabilidad

con la función `pdf` (en inglés, *probability density function*):

In [None]:
uniforme = scipy.stats.uniform()

t = np.linspace(-0.1, 1.1, 1000)
plt.plot(t, uniforme.pdf(t))

plt.xlabel("valores posibles")
plt.ylabel("Densidad de probabilidad")

Noten que el valor para cada $x$ es 1, que no significa que la probabilidad sea 1, sino la densidad.

Al igual que con la variable discreta, podemos aproximarla experimentalmente midiendo múltiples veces y realizando un histograma:

In [None]:
@ipywidgets.interact(N=ipywidgets.FloatLogSlider(min=1, max=5, readout_format=".0f"))
def _(N):
    datos = uniforme.rvs(size=int(N))
    seaborn.histplot(x=datos, stat="density")    
    t = np.linspace(-0.1, 1.1, 1000)
    plt.plot(t, uniforme.pdf(t))

También podemos calcular su media y desviación estándar, reemplazando la suma por una integral:

| | Discreta | Continua |
|-|:-:|:-:|
| $\mu$ | $\sum_i x_i \, p_i$ | $\int x \, p(x) \, dx$ |
| $\sigma$ | $\sum_i (x_i-\mu)^2 \, p_i$ | $\int (x-\mu)^2 \, p(x) \, dx$ |

In [None]:
uniforme.mean(), uniforme.std()

## Fraccion en intervalo

In [None]:
uniforme.cdf(uniforme.mean() + uniforme.std()) - uniforme.cdf(uniforme.mean() - uniforme.std())

### Distribución normal o gaussiana

La distribución normal tiene la siguiente forma funcional:

$$ N(x) \propto \exp{(-x^2)} $$

In [None]:
@ipywidgets.interact(mu=(-5, 5), sigma=(0.4, 3, 0.3))
def _(mu=0, sigma=1):
    x = np.linspace(-10, 10, 1000)
    gaussiana = scipy.stats.norm
    plt.plot(x, gaussiana.pdf(x, loc=0, scale=1), label="N(0, 1)")
    # plt.plot(x, gaussiana.pdf(x, loc=mu, scale=sigma), label=f"N({mu:.1f}, {sigma:.1f})")
    # plt.ylim(-0.1, 1.1)
    plt.legend(title="$N(\mu, \sigma)$")

En general, se escribe con dos parámetros:

- $\mu$, que controla el centro de la distribución
- $\sigma$, que controla el ancho de la distribución

$$ N(x | \mu, \sigma) \propto \exp \left( \frac{1}{2}\left(\frac{x-\mu}{\sigma}\right)^2 \right) $$


Cuanto está escrita de esta manera, podemos estimar $\mu$ y $\sigma$ como el promedio y la desviación estandar de los datos.

Para saber cuál es la probabilidad de que una medición caiga en un dado intervalo, hay que integrar esta función.

En el siguiente gráfico, están los valores para algunos intervalos:

In [None]:
t = np.linspace(-5, 5, 1000)
gaussiana = scipy.stats.norm
for sigma in reversed(range(1, 5)):
    prob = 1 - 2 * gaussiana.sf(sigma)
    i, j = np.searchsorted(t, (-sigma, sigma))
    ti = t[i:j]
    plt.fill_between(ti, gaussiana.pdf(ti), label=f"{sigma}-$\sigma$ - {prob:.3%}", color=f"C{sigma-1}")

plt.xticks(np.arange(-4, 5), [f"{i}-$\\sigma$" for i in range(-4, 5)])
plt.legend()

Generalmente, cuando reportamos un valor promedio y una desviación estándar sin especificar la distribución,

se asume que nuestras mediciones está bien representadas por esta distribución,

y que podemos interpretar el intervalo $\bar{x} \pm s$ como un intervalo de confianza de $68\%$.


Pero, ¿de donde sale la gaussiana?

¿Por qué es razonable aproximar nuestras mediciones por una *gaussiana*?

## Teorema Central del Límite

El teorema central del límite nos dice que, bajo ciertas condiciones,

la suma de $N$ variables aleatorias tiende a una distribución gaussiana cuando $N$ tiende a infinito.


Veamos con el caso particular de la suma de dados:

In [None]:
dado = scipy.stats.randint(low=1, high=7)

Para simular la suma de 2 dados, podemos tirar el dado `2 x 5 = 10` veces:

In [None]:
mediciones = dado.rvs(size=(2, 5))

mediciones

que nos da 2 filas de números, y sumar cada columna:

In [None]:
mediciones.sum(axis=0)

Si la distribución de un dado es uniforme del 1 al 6,

¿qué forma tendrá la distribución de la suma de dos dados?

¿cuáles son los valores mínimo y máximo posibles?

¿con qué probabilidad?

In [None]:
@ipywidgets.interact(N_dados=(1, 10))
def _(N_dados=1):
    suma_de_dados = dado.rvs([N_dados, 10_000]).sum(0)
    seaborn.histplot(suma_de_dados, discrete=True, stat="probability")

    # media = np.mean(suma_de_dados)
    # std = np.std(suma_de_dados)
    # gaussiana = scipy.stats.norm(loc=media, scale=std)

    # t = np.linspace(media - 5 * std, media + 5 * std, 100)
    # plt.plot(t, gaussiana.pdf(t), color="C1")

Rápidamente toma forma de campana con la cantidad de dados considerados.

Podemos comparar este histograma con una gaussiana, donde los parámetros están dados por:

$$ \mu_{gaussiana} \mapsto \bar{x}_{dados} $$
$$ \sigma_{gaussiana} \mapsto s_{dados} $$

Entonces, si en una dada medición tenemos **múltiples fuentes de incerteza**,

el histograma de las mediciones generalmente va a tener *forma de campana*.

Por ejemplo, al accionar el cronómetro manualmente, como en el experimento de los chasquidos.

Otro lugar donde también aparece la gaussiana es en la distribución del promedio.

El teorema central del límite nos permite interpretar el error del promedio como la desviación estándar de una gaussiana.

Por lo tanto, el intervalo $\bar{x} \pm \Delta \bar{x}$ es un intervalo de confianza del 68%.

Sin embargo, no siempre tiene sentido resumir mediciones en promedio y desviación estandar.

Veamos un ejemplo.

### Medición del diámetro

¿Qué distribución esperarían obtener si miden muchas veces el diámetro de un círculo grande con una regla?

- ¿Una gaussiana?
- ¿Una campana simétrica?
- ¿Una distribución uniforme?
- ¿Otra cosa?

¿Por qué?

No depende solo de qué midamos, sino también de cómo midamos.

Si simplemente apoyamos la regla en dos puntos de la circunferencia pasando por el centro "a ojo", pueden pasar dos cosas:

1. Acertamos al centro y estamos midiendo el diámetro
2. No le acertamos al centro, y medimos un valor menor al diámetro

Pero nunca podemos medir algo mayor.

Deberíamos obtener algo de este estilo:

In [None]:
diametro = 10

x = np.linspace(0, 1.2 * diametro, 1000)
y = np.exp(-(x-diametro)**2)  # totalmente inventado.
y[x > diametro] = 0

plt.plot(x, y)
plt.xticks([0, diametro], [0, "d"])
plt.yticks([])
plt.xlabel("Diámetro [cm]")