In [1]:
import numpy as np
from scipy.stats import norm
from statsmodels.stats.weightstats import ztest

  import pandas.util.testing as tm


In [2]:
np.random.seed(0)

In [3]:
# Información muestral
N=100
mu=0.2
sigma=1
x=np.random.randn(N)*sigma + mu

# Una muestra


### Prueba Bilateral

In [4]:
# Prueba Bilateral (comparado con cero por defecto, se cambia con el parámetro 'value')
ztest(x)

(2.5648404153513686, 0.01032232684881584)

In [5]:
# Repliquemos lo anterior con nuestro propio código:
mu_hat=x.mean()
sigma_hat=x.std(ddof=1)
z=mu_hat / (sigma_hat / np.sqrt(N)) # Nuestro mu0=0
# p - valor:
p_right = 1-norm.cdf(np.abs(z)) #alternativa: usar norm.sf (survival function)
p_left = norm.cdf(-np.abs(z))
p = p_right + p_left
z , p


(2.564840415351368, 0.010322326848815901)

### Prueba Unilateral

In [6]:
# Prueba Unilateral a la derecha
ztest(x,alternative='larger') # En la H1: mu > mu0

(2.5648404153513686, 0.00516116342440792)

In [7]:
# Con nuestro código:
mu_hat=x.mean()
sigma_hat=x.std(ddof=1)
z=mu_hat / (sigma_hat / np.sqrt(N)) # Nuestro mu0=0
# p - valor:
p = 1-norm.cdf(z) #alternativa: usar norm.sf (survival function)
z , p

(2.564840415351368, 0.005161163424407977)

### Con un valor de referencia distinto de cero

In [8]:
# Nuestro mu0=0, si queremos otro valor distrinto de cero, tenemos que cambiar el parámetro 'value' dentro de la función ztest:

mu0=0.2
ztest(x,value=mu0)

(0.5904283402851699, 0.5549035151647227)

In [9]:
# Repliquemos lo anterior con nuestro propio código:
mu_hat=x.mean()
sigma_hat=x.std(ddof=1)
z=(mu_hat -mu0)/ (sigma_hat / np.sqrt(N)) # Nuestro mu0 ya no es igual a cero
# p - valor:
p_right = 1-norm.cdf(np.abs(z)) #alternativa: usar norm.sf (survival function)
p_left = norm.cdf(-np.abs(z))
p = p_right + p_left
z , p

(0.5904283402851698, 0.5549035151647228)

# Dos muestras

In [31]:
# Información muestral
N0=100
mu0=0.2
sigma0=1
x0=np.random.randn(N)*sigma0 + mu0

N1=100
mu1=0.5
sigma1=1
x1=np.random.randn(N)*sigma1 + mu1

### Bilateral

In [33]:
ztest(x0,x1)

(-0.7509682956242645, 0.4526717364368833)

In [35]:
# Repliquemos lo anterior con nuestro propio código:
mu_hat0=x0.mean()
mu_hat1=x1.mean()

dmu_hat= mu_hat1-mu_hat0

s2_hat0=x0.var(ddof=1)
s2_hat1=x1.var(ddof=1)

s_hat=np.sqrt(s2_hat0 / N0 + s2_hat1 / N1)

z=(dmu_hat )/ s_hat # Aquí el mu=0

# p - valor:
p_right = 1-norm.cdf(np.abs(z)) #alternativa: usar norm.sf (survival function)
p_left = norm.cdf(-np.abs(z))
p = p_right + p_left
z , p 

(0.7509682956242645, 0.4526717364368833)

### REPETIR EL TEST 10000 VECES

In [38]:
# Vamos a mostrar que rechazamos la H0 cuando es cierta (Falsa alarma o Falso positivo) el 5% de las veces:
num_tests=10000
results=np.zeros(num_tests)
for i in range(num_tests):
  x1=np.random.randn(100)
  x2=np.random.randn(100)
  z, p = ztest(x1,x2)
  results[i] = (p < 0.05)
print(results.mean())

0.0527
