# ejercicio 8

In [2]:
import numpy as np

# importamos t-stundent(t) y normal(norm)
from scipy.stats import t,norm

def d_statistic_unif(n):
    """
    Estadistico KS para una muestra uniforme(0,1) de tamaño n.

    Parameters
    ----------
    n : int
        Number of random samples to generate from the uniform distribution.
        Tamanio de la muestra original.
    """
    n = int(n)
    u = np.random.uniform(0,1,n)
    u = np.sort(u)
    d = 0
    for i in range(1,n+1):
      d = max(d, i / n - u[i-1], u[i-1] - (i-1)/n)
    return d

# calcular p_valor
def get_p_value_unif(d_KS,n,n_sim=10000):
    """
    Parameters
    ----------
    d_KS : float
        Estadistico KS para la muestra original, bajo cierta hipotesis nula.
    n : int
        Number of random samples to generate from the uniform distribution.
        Tamanio de la muestra original.
    n_sim : int
        Number of simulations to perform. The default is 10000.
    """
    pvalor = 0
    for _ in range(n_sim):
      d = d_statistic_unif(n)
      if d >= d_KS:
        pvalor += 1
    return pvalor/n_sim

def d_statistic_norm(muestra,loc=0,scale=1):
    """
    Estadistico KS para una muestra dada suponiendo una distribuacion
    norm(loc,scale).

    Parameters
    ----------
    muestra : array_like
          Muestra dada.
    loc : float
        Mean of the normal distribution.
    scale : float
        Standard deviation the normal distribution.
    """
    n = len(muestra)
    d = 0
    muestra_ordenada = np.sort(muestra.copy())
    norm_cdf = norm(loc,scale).cdf(muestra_ordenada)
    for i in range(1,n+1):
      d = max(d, i / n - norm_cdf[i-1], norm_cdf[i-1] - (i-1)/n)
    return d

np.random.seed(42)
for n in [10,20,100,1000,5000]:

  # generamos muestra t-student con df=11 grados de libertad
  muestra = t(df=11).rvs(size=n)

  # calculamos estadistico KS de la muestra suponinedo distribucion normal estandar
  d_KS = d_statistic_norm(muestra)

  # estimamos p_val con uniformes
  p_val = get_p_value_unif(d_KS,n)

  print(f"{'='*100}\n"
        f'tamnio de muestra {n}\n'
        f'ks statistic: {d_KS}\n'
        f'p_val: {p_val}')

tamnio de muestra 10
ks statistic: 0.29480568247316996
p_val: 0.2801
tamnio de muestra 20
ks statistic: 0.12082251750234863
p_val: 0.906
tamnio de muestra 100
ks statistic: 0.09560144253456665
p_val: 0.307
tamnio de muestra 1000
ks statistic: 0.023422073185191628
p_val: 0.6382
tamnio de muestra 5000
ks statistic: 0.020194860559625355
p_val: 0.0318


# ejercicio 9


In [30]:
import numpy as np

# importamos exponencial(expon)
from scipy.stats import expon

def d_statistic_unif(n):
    """
    Estadistico KS para una muestra uniforme(0,1) de tamaño n.

    Parameters
    ----------
    n : int
        Number of random samples to generate from the uniform distribution.
        Tamanio de la muestra original.
    """
    n = int(n)
    u = np.random.uniform(0,1,n)
    u = np.sort(u)
    d = 0
    for i in range(1,n+1):
      d = max(d, i / n - u[i-1], u[i-1] - (i-1)/n)
    return d

def get_p_value_unif(d_KS,n,n_sim=10000):
    """
    Parameters
    ----------
    d_KS : float
        Estadistico KS para la muestra original, bajo cierta hipotesis nula.
    n : int
        Number of random samples to generate from the uniform distribution.
        Tamanio de la muestra original.
    n_sim : int
        Number of simulations to perform. The default is 10000.
    """
    pvalor = 0
    for _ in range(n_sim):
      d = d_statistic_unif(n)
      if d >= d_KS:
        pvalor += 1
    return pvalor/n_sim

def d_statistic_exp(muestra,scale):
    """
    Estadistico KS para una muestra dada suponiendo una distribuacion
    expon(scale).

    Parameters
    ----------
    muestra : array_like
          Muestra dada.
    loc : float
        Mean of the exponential distribution.
    """
    n = len(muestra)
    d = 0
    muestra_ordenada = np.sort(muestra.copy())
    exp_cdf = expon(scale=scale).cdf(muestra_ordenada)
    for i in range(1,n+1):
      d = max(d, i / n - exp_cdf[i-1], exp_cdf[i-1] - (i-1)/n)
    return d

def get_p_value_exp(scale,d_KS,n,n_sim):
    """
    Parameters
    ----------
    scale : float
        Mean of the exponential distribution.
        Estimated from the sample.
    d_KS : float
        Estadistico KS para la muestra original, bajo cierta hipotesis nula.
    n : int
        Number of random samples to generate.
        Tamanio de la muestra original.
    n_sim : int
        Number of simulations to perform. The default is 10000.
    """
    pvalor = 0
    for _ in range(n_sim):

      # generamo muestra exponencial con la media estimada de la original
      muestra_sim = expon(scale=scale).rvs(size=n)

      # estimamos devuelta la media
      mean_sim = np.mean(muestra_sim)

      # calculamos estadistico KS para la muestra generada
      # con la media recien estimada
      d = d_statistic_exp(muestra_sim,scale=mean_sim)

      if d >= d_KS:
        pvalor += 1
    return pvalor/n_sim

# np.random.seed(42)
muestra = [1.6, 10.3, 3.5, 13.5, 18.4, 7.7, 24.3, 10.7, 8.4, 4.9, 7.9, 12, 16.2, 6.8, 14.7]
muestra = np.array(muestra)

# estimamos media a partir de la muestra
mean = np.mean(muestra)
n = len(muestra)
n_sim = 10000

# calculamos estadistico KS de la muestra suponinedo distribucion exponenvial
# con la media anteriormente estimada
d_KS = d_statistic_exp(muestra,scale=mean)

# estimamos p_val con uniformes
p_val_unif = get_p_value_unif(d_KS,n,n_sim)

# estimamos p_val con resampleando
p_val_sim = get_p_value_exp(mean,d_KS,n,n_sim)

print(f'ks statistic: {d_KS}\n' + '='*100  + '\n'
      f'    p_val(unif): {p_val_unif}\n'
      f'p_val(resample): {p_val_sim}')

ks statistic: 0.26949936321059237
    p_val(unif): 0.1859
p_val(resample): 0.0509


Notar la diferencia entre p-valor obtenido mediante uniformes (agnostico a la estimacion) vs el obtenido por remuestreo.