# Z-test

### Importar librerias

In [1]:
import numpy as np
import pandas as pd

from scipy.stats import norm

### Cargar datos

In [4]:
data = [[650,730,510,670,480,800,690,530,590,620,710,670,640,780,650,490,800,600,510,700],
        [630,720,462,631,440,783,673,519,543,579,677,649,632,768,615,463,781,563,488,650]]
data = np.array(data).T
df = pd.DataFrame(data, columns = ["girls", "boys"])
df.head()

Unnamed: 0,girls,boys
0,650,630
1,730,720
2,510,462
3,670,631
4,480,440


### Calcular Z-score

Recordemos la fórmula del Z-score:
$$Z-score = \frac{(\bar{x}_{1} - \bar{x}_{2}) - (\mu_{1} - \mu_{2})}{\sqrt{ \left( \frac{\sigma^{2}_{1}}{n_{1}} - \frac{\sigma^{2}_{2}}{n_{2}} \right) }}$$

**NOTA:** únicamente con el fin de realizar el mismo ejemplo visto en clase tomaremos la desviación estándar de los niños como 90 aunque de hecho sea 105. 

In [6]:
alpha = 0.05
mu_diff = 10
sigma_girls = df.loc[:,"girls"].std() 
sigma_boys = 90 #df.loc[:,"boys"].std()
mean_girls = df.loc[:, "girls"].mean()
mean_boys = df.loc[:, "boys"].mean()
n_girls = df.shape[0]
n_boys = df.shape[0]
z_score = (np.abs(mean_girls-mean_boys) - mu_diff)/np.sqrt((sigma_girls**2/n_girls)+(sigma_boys**2/n_boys))
z_score

0.588043112353811

<h1 align="center">Tabla</h1>

</center><img src="http://www.z-table.com/uploads/2/1/7/9/21795380/9340559_orig.png" width=800></center>

La tabla en este caso particular, es la de la cola izquierda para una distribución con media 0. Por eso los valores negativos. La tabla de la cola derecha es igual solo que positiva.

En la tabla el eje vertical contiene las primeras dos cifras decimales del `z-score`. El eje horizontal tenemos la tercer cifra decimal del `z-score`. Por ejemplo, para ver el `p-value` asociado al `z-score` = 0.588, primero vemos el eje vertical y vamos a `z-score`= 0.5. Luego, en el eje horizontal tenemos los valores 0.08 y 0.09. Hay que hacer una interpolación lineal entre estos dos valores para tener el valor asociado a 0.588. Para `z-score`= 0.58 tenemos que el `p-value` es 0.2810 y para `z-score`= 0.59 tenemos que el `p-value` es 0.2776. Entonces para obtener el valor para `z-score`= 0.588 podemos hacer una simple interpolación:

$$ z-score = \frac{(0.59-0.588)}{(0.59-0.58)}*0.2810 + \frac{(0.588-0.58)}{(0.59-0.58)}*0.2776 = 0.27828  $$

Programemos una función para calcular el `p-value` y el `z-score` de manera de no recurrir a tablas:

In [11]:
def twoSampZ(X1, X2, mudiff, sd1, sd2, n1, n2):
    pooledSE = np.sqrt(sd1**2/n1 + sd2**2/n2)
    z = ((X1 - X2) - mudiff)/pooledSE
    pval = (1 - norm.cdf(abs(z)))
    return np.round(z, 3), np.round(pval, 4)

In [14]:
z, p = twoSampZ(df.loc[:,"girls"].mean(),
                df.loc[:,"boys"].mean(),
                mu_diff,
                sigma_girls,
                sigma_boys,
                n_girls,
                n_boys)

z, p

(0.588, 0.2781)