<img src="logo.png">

# Contraste para el parámetro $p$ de una Bernoulli.

Supongamos que tenemos una m.a.s. de tamaño $n$ de una Bernoulli con parámetro $p$.

Obtenemos $x_0$ éxitos, de forma que la proporción muestral de éxitos será $\widehat{p}=x_0/n$.

Consideramos un contraste con hipótesis nula $H_0:p=p_0$. Si $H_0$ es verdadera, el número de éxitos sigue una distribución $Bin(n,p_0)$.


Nos planteamos los siguientes contrastes:


a. $ \left\{\begin{array}{ccc}\mathcal{H_0}:&p=p_0&(\mbox{o }\mathcal{H_0}:p\le p_0)\\\mathcal{H_1}:&p>p_0& \end{array}\right.$

b. $\left\{\begin{array}{ccc}\mathcal{H_0}:&p=p_0&(\mbox{o }\mathcal{H_0}:p\ge p_0)\\\mathcal{H_1}:&p<p_0& \end{array}\right.$

c. $\left\{\begin{array}{cc}\mathcal{H_0}:&p=p_0\\\mathcal{H_1}:&p\neq p_0 \end{array}\right.$

Los p-valores son los siguientes.

a. p-valor: $P(Bin(n,p_0)\ge x_0)$

b. p-valor: $P(Bin(n,p_0)\le x_0)$

c. p-valor: p-valor=$2\min\{P(Bin(n,p_0)\le x_0),P(Bin(n,p_0)\ge x_0)\}$

**Ejemplo.**

Tenemos un test para detectar un determinado microorganismo. En una muestra de 25 cultivos con este microorganismo, el test lo detectó en 21 casos. Hay evidencia de que la sensibilidad del test sea superior al 80%?

El contraste planteado es el siguiente: $$\left\{\begin{array}{cc}\mathcal{H}_0:&p=0.8\\\mathcal{H}_1:&p>0.8\end{array}\right.$$ donde $p$ representa la probabilidad dde que el test detecte el microorganismo.

El estadístico de contraste que usaremos será el número de éxitos $x_0$ que, bajo la hipótesis nula, se distribuye según $Bin(25,0.8)$. Su valor en este caso es $x_0=21$.

El p-valor será $P(Bin(25,0.8)\ge 21)$



## La función binom.test en R

Esta función viene dada por 

binom.test(x, n, p = 0.5,
           alternative = c("two.sided", "less", "greater"),
           conf.level = 0.95)
           
donde

x y n son números naturales: número de éxitos y tamaño de la muestra.

p: probabilidad de éxito que queremos contrastar.

El intervalo de confianza para la $p$ es el de Clopper-Pearson.

In [None]:
binom.test(21,25,p=0.8,alternative = "greater",conf.level=0.95)

**Informe.**

Como el p-valor es grande (0.42) y 0.8, que es el valor propuesto, está en el intervalo de confianza al 95%, el cual es (0.67,1], no hay evidencia para rechazar $\mathcal{H}_0$.

**Ejemplo.**

Consideremos la tabla de datos birthwt del paquete MASS. Dicha tabla de datos contiene información acerca de 189 recién nacidos en un hospital de Springfield en 1986.

Vamos a contrastar si la proporcición de madres fumadoras supera el 30%: $$\left\{\begin{array}{cc}\mathcal{H}_0:&p=0.3\\\mathcal{H}_1:&p>0.3\end{array}\right.$$ donde $p$ es la proporción de madres fumadoras considerando una muestra de tamaño 30 (set.seed(1001))







install.packages("MASS")
library(MASS)


datos <- birthwt

set.seed(1001)
muestra <- datos[sample(1:189,30,replace = TRUE),]$smoke

table(muestra)

binom.test(16,30,alternative = "greater",p=0.3,conf.level=0.95)


**Informe.**

Como el p-valor es pequeño (0.006) y 0.3, que es el valor propuesto, no está en el intervalo de confianza al 95%, el cual es (0.36,1], tenemos evidencia fuertemente significativa para aceptar $\mathcal{H}_1$.

**Ejemplo.**

Una asociación ganadera afirma que, en las matanzas caseras en las Baleares, como mínimo el 70% de los cerdos han sido analizados de triquinosis.

En una investigación, se visita una muestra aleatoria de 100 matanzas y resulta que en 53 de éstas se ha realizado el análisis. ¿Podemos aceptar la afirmación de los ganaderos?

In [None]:
binom.test(53,100,p=0.7,alternative="less",conf.level=0.95)

## Tamaño de la muestra.

Hallar el tamaño de la muestra fijada la amplitud del intervalo de confianza.

La **amplitud** del intervalo de confianza usando Laplace es $A=2Z_{1-\alpha/2}\sqrt{\frac{\widehat{p}_X(1-\widehat{p}_X)}{n}}$. No se puede conocer $n$ sin conocer $\widehat{p}_X$.

**Teorema.** El máximo de la función $f:[0,1]\to\mathbb{R}$ dada por $f(t)=\sqrt{t(1-t)}$ se alcanza en $t=1/2$ y vale $1/2$.

Vamos a calcular $n$ para obtener una amplitud máxima $A_0$ suponiendo el peor de los casos ($\widehat{p}_X=0.5$):

$$A_0=2z_{1-\alpha/2}\sqrt{\frac{0.5^2}{n}}=\frac{z_{1-\alpha/2}}{\sqrt{n}}$$ de donde $$n\ge\left\lceil\frac{z^2_{1-\alpha/2}}{A_0^2}\right\rceil$$

**Otras fórmulas para el tamaño de la muestra**

[Aquí](https://www.psyma.com/company/news/message/como-determinar-el-tamano-de-una-muestra) te encontrarás las fórmulas clásicas para hallar el tamaño de una muestra conociendo o desconociendo el total de población.

**Ejemplo.**

 Nuestro jefe nos ha dicho que pagará una encuesta para saber cuál es el porcentaje de sus clientes que están interesados en un nuevo producto. Desconocemos totalmente el posible porcentaje de clientes interesados. El jefe se pregunta cuál debe ser el tamaño de la muestra para tener un error del $\pm1\%$ con un nivel de confianza del 95%. Se pide que contestemos suponiendo el peor de los casos: $p=0.5$.
 
Continuando con la encuesta, en la muestra que se eligió se encuentran 5186 clientes interesados en el producto. Ahora el jefe nos pide constrastar que la proporción de clientes interesados es al menos el 60% contra que es menor. 
