La prueba Z evalúa si una media o proporción observada difiere significativamente de un valor esperado o de otra media/proporción. Se basa en la distribución normal estándar N(0,1).

La estadística de prueba se calcula como:

$$Z = \frac{\text{Estadistico observado - Valor esperado}}{\text{Desviación estandard del estadístico}}$$

_Esta expresión nos dice cuántas desviaciones estándar se encuentra el estadístico observado con respecto al valor esperado._


### Para una media poblacional

$$ Z = \frac{\mu_1 - \mu_2}{\frac{\sigma}{\sqrt{n}}}$$

Ejemplo:
Se espera que la altura promedio de una población sea 170 cm, pero una muestra de 50 personas tiene una media de 172 cm y una desviación estándar poblacional de 6 cm. 

¿Es esta diferencia significativa?

stats.norm.cdf(abs(z))


In [1]:
import numpy as np
import scipy.stats as stats


## La probabilidad de que la hipotesis nula se cumpla es muy baja y aceptamos la alternativa

### Prueba para 2 medias

Compara las medias de dos grupos cuando ambas muestras son grandes.


$$Z = \frac{\hat{X_1} - \hat{X_2}}{\sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2}}}$$

Ojo: en este caso el estadístico observado es $\hat{X_1} - \hat{X_2}$ y se divide entre su error estandar (el que surge al restar dos normales).

La hipotesis nula es que no hay diferencia, es decir ... ¿qué tan probable es que no haya ninguna diferencia entre ambas medias?

$$Z = \frac{(\hat{X_1} - \hat{X_2}) - H_0}{\sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2}}}$$

Dado que $H_0$ = 0, nos quedamos con 

$$Z = \frac{\hat{X_1} - \hat{X_2}}{\sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2}}}$$





Ejemplo: Comparando la altura promedio entre dos ciudades:
- Ciudad A: Media 172 cm, n=40, σ=6.
- Ciudad B: Media 169 cm, n=35, σ=5.

$H_0$ la diferencia entre las dos ciudades no es significativa


Un p-value bajo indica que, bajo la suposición de que $H_0=0$, la probabilidad de oberrvar una diferneica de medias igual o más baja es muy baja. 

Esto sugiere evidencia en contra de $H_0$, por lo que podríamos rechazarla en favor de la hipotesis alternativa

### Prueba AB test

Tenemos una pagina web donde todos los botones son azules, vamos a hacer el experimento de cambiar a rojo 

$$Z = \frac{(\hat{P_A} - \hat{P_B})}{\sqrt{\frac{2p(1-p)}{N}}}$$

- Grupo A (control): recibe la versión original (botón azul).
- Grupo B (tratamiento): recibe la versión nueva (botón rojo).


Ojo, aquí también estamos asumiendo que $H_0$ es 0 
$$Z = \frac{(\hat{P_A} - \hat{P_B})- H_0}{\sqrt{\frac{2p(1-p)}{N}}}$$

Es decir, también obrenemos la probabilidad de que ambas son de la misma distribución (no hay un valor externo que haga el ajuste $H_0$)


Ejemplo
Grupo A: $P_A$ = 10% (500 de 5000)
Grupo B: $P_B$ = 12% (600/5000)

Diferencia = 2% = 0.02

Proporción cominada
$$p = \frac{P_A + P_B}{2}$$

Error estandard

$$SE = \sqrt{\frac{2p(1-p)}{N}}$$


### Análisis de poder: ¿Cuantos datos necesito en un AB test para confiar en mis resultados?

Caso conversión

_Una empresa de redes sociales cambia todos sus botones de azul a rojo_



- $H_0$ (Hipótesis nula): No hay diferencia en la tasa de conversión entre el botón azul (control) y el botón rojo (tratamiento).
- $H_A$ (Hipótesis alternativa): La tasa de conversión es diferente (mayor o menor) con el botón rojo.

### Error tipo I $\alpha$

Falso positivo: rechazamos $H_0$ cuando en realidad es verdadera

Caso AB test:
- Hacemos la prueba y encontramos que el botón rojo tiene una conversión aparentemente mayor que el azul
- Decidimos cambiar todos los botones a rojo
- En realidad no hay diferencia real, solo fue azar de los datos

Consecuencia:

Se ha tomado una decisión incorrecta en base a ruido estadístico y se pierde dinero

### Error tipo II ($\beta$)

Falso negativo: No rechazamos $H_0$ cuando en realidad $H_A$ es la verdadera

Caso en el AB test
- Hacemos la prueba y no encontramos una diferencia estadísticamente singificativa entre el botón rojo y azul
- Concluimos que no hay afectación y nos quedamos con el azul ... pero en realidad el botón rojo si amenta la conversión 

Consecuencia: no hacemos el cambio necesario y se pierde dinero

| Tipo de Error | Decisión Tomada  | Realidad         | Consecuencia |
|--------------|-----------------|-----------------|--------------|
| **Tipo I $\alpha$** | Cambiamos a rojo | No había diferencia | Cambio innecesario, pérdida de recursos |
| **Tipo II $\beta$** | No cambiamos a rojo | Rojo era mejor | Perdemos una oportunidad de mejora |



### Power Analysis (Análisis de Potencia)
El power analysis es una técnica estadística utilizada para determinar el tamaño de muestra (N) necesario para detectar un efecto de interés con una probabilidad específica. También se puede usar para calcular la potencia de una prueba dada una muestra y un tamaño de efecto.

En términos simples, nos ayuda a responder preguntas como:

- ¿Cuántas observaciones necesito para detectar un efecto real con alta probabilidad?
- ¿Qué tan probable es que mi estudio detecte un efecto real si realmente existe?

### Elementos clave
- Potencia : (1 - $\beta$) Es la probabilidad de rechazar $H_0$ cuando $H_A$ es negativa (Error tipo II). Usualmente queremos tener $\beta$ en 80%
- Nivel de significancia: $\alpha$ Es la probabilidad de rechazar $H_0$ cuando $H_0$ es verdadera (error tipo I)

# **Cálculo del Tamaño de Muestra \( N \) en un A/B Test**

En un **A/B test**, queremos determinar cuántos usuarios necesitamos en cada grupo (control y tratamiento) para detectar si un cambio (por ejemplo, el color de un botón) **afecta la tasa de conversión** con alta probabilidad.


## **Paso 1: Definir las hipótesis**
- **$H_0$ (Hipótesis nula):** No hay diferencia en la tasa de conversión entre A y B.
- **$H_A$ (Hipótesis alternativa):** Sí hay una diferencia en la tasa de conversión.

Queremos asegurarnos de que si **existe una diferencia real**, podamos detectarla con **alta probabilidad (potencia estadística)** y sin rechazar $H_0$ por error.

---

## **Paso 2: Fórmula del tamaño de muestra \( N \)**

Recordando
$$Z = \frac{\text{Estadistico observado - Valor esperado}}{\text{Desviación estandard del estadístico}}$$

Estadístico observado = 


El estadístico de prueba en un A/B test para diferencia de proporciones se basa en:

$$
Z = \frac{\hat{p}_A - \hat{p}_B}{\sqrt{\frac{2p(1-p)}{N}}}
$$


donde:
- $\hat{p}_A$ y $\hat{p}_B$ son las tasas de conversión observadas en cada grupo.
- $p$ es la tasa de conversión promedio $p = \frac{p_A + p_B}{2}$.
- $N$ es el número de usuarios en cada grupo.

Para asegurar que detectemos una diferencia real $\Delta = p_B - p_A$, la potencia del test debe cumplir:

$$
Z_{\alpha/2} + Z_{\beta} = \frac{\Delta}{\sqrt{\frac{2p(1-p)}{N}}}
$$

Despejando N:

$$
N = \frac{(Z_{\alpha/2} + Z_{\beta})^2 \cdot 2p(1-p)}{\Delta^2}
$$

donde:
- **$Z_{\alpha/2}$** es el umbral para rechazar $H_0$ (ej. 1.96 para $\alpha = 0.05$.
- **$Z_{\beta}$** se elige según la potencia deseada (ej. 0.84 para 80% de potencia).
- **$p(1-p)$** es la varianza de la tasa de conversión.
- **$\Delta$** es la diferencia esperada entre A y B.


## **Paso 3: Ejemplo Numérico**
Supongamos:
- $p_A = 0.10$ (10% de conversión con el botón azul).
- $p_B = 0.12$ (12% de conversión con el botón rojo).
- $\alpha = 0.05$ (Z = 1.96).
- $\beta = 0.2$ (Z = 0.84).
- $\Delta = 0.02$ (diferencia de tasas).

N = sms.proportion_effectsize(p_A, p_B)  # Efecto

sample_size = sms.NormalIndPower().solve_power(effect_size=N, alpha=0.05, power=0.8, ratio=1)



In [9]:
import statsmodels.stats.api as sms

# Cálculo del tamaño de muestra
N = sms.proportion_effectsize(p_A, p_B)  # Efecto
sample_size = sms.NormalIndPower().solve_power(effect_size=N, alpha=0.05, power=0.8, ratio=1)
sample_size

3834.5957398840183