# Distribución de Dados Cargados

¿Qué pasa si no podemos observar un solo rollo? ¿Qué pasa si los dados se lanzan, en este caso, en conjuntos de 10 a la vez, y todo lo que tenemos es el total? ¡La distribución de un `10d6` no es trivial!

De hecho, probablemente sea más fácil calcular esta distribución numéricamente que hacerlo analíticamente.

****

**¿Qué sucede si no conocemos la distribución analítica?**

Aquí veremos brevemente la prueba de Kolmogorov-Smirnov. Pero tenga en cuenta que está diseñado para distribuciones *continuas*, lo estoy usando en una discreta simplemente para que sea similar a los ejemplos anteriores, pero no haría esto si quisiera tener confianza en los resultados. De hecho, la razón por la que usamos 10 dados sumados es para hacer que nuestra distribución discreta sea lo suficientemente continua.

In [None]:
import numpy as np
import matplotlib.pyplot as plt

rolls_obs = np.loadtxt("loaded_many_100.txt")
unicos, recuento_obs = np.unique(rolls_obs, return_counts=True)
recuento_obs = recuento_obs / recuento_obs.sum()  

In [None]:
rolls_real = np.random.randint(low=1, high=7, size=(500000, 10)).sum(axis=1)
unicos2, recuento_real = np.unique(rolls_real, return_counts=True)
recuento_real = recuento_real / recuento_real.sum()  # Noramlise

In [None]:
plt.plot(unicos, recuento_obs, label="Datos")
plt.plot(unicos2, recuento_real, label="Justo")
plt.legend()
plt.legend(loc=2);

Esto se ve muy desordenado. Entonces, aquí hay un primer consejo cuando compara distribuciones. Si compara el PDF, tiene que agrupar los resultados y es difícil obtener información a menos que tenga *muchos* datos.

En su lugar, trace la CDF. Ya no necesita almacenar los datos.

In [None]:
cdf_obs = recuento_obs.cumsum()
cdf_real = recuento_real.cumsum()
plt.plot(unicos, cdf_obs, label="Datos")
plt.plot(unicos2, cdf_real, label="Justos")
plt.legend(loc=2);

In [None]:
from scipy.stats import ks_2samp
statistic, pvalue = ks_2samp(rolls_obs, rolls_real)
print(f"El estadístico KS test es de {statistic:.3f}, p-valor de {pvalue:.3f}")

# Test Anderson-Darling

Una mejora en la prueba KS que da más peso a las colas de la distribución (mientras que la prueba K-S da más peso en el centro). La prueba predeterminada requiere pruebas con distribuciones analíticas (como la prueba KS); sin embargo, también puede probar dos distribuciones observadas.

In [None]:
from scipy.stats import anderson_ksamp
statistic, critical_values, sig_level = anderson_ksamp([rolls_obs, rolls_real])
print(f"El estadístico del AD test {statistic:.5f}, Nivel de significación de {sig_level:.9f}")
print(f"Valores críticos del Test son {critical_values}")
print("Sig-nivel análogo al valor p, y los valores críticos son [25%, 10%, 5%, 2.5%, 1%]")