# Intervalos de confianza

para la media $\mu$           (parámetro)

para proporciones $p$         (parámetro)

los estimadores puntuales de los parámetros son:

$$ 
\bar{x} = \frac{1}{n} \sum_{i=1}^n x_i
$$

$$
\hat{p} = X/n
$$

la desviación estándar de los estimadores es (respectivamente): 

$$
\sigma^2/n
$$

y 

$$
\sqrt{p(1-p)/n}
$$

En la construcción de los intervalos de confianza está involucrado el cálculo de percentiles de la distribución normal estándar. 

Repasemos este procedimiento:

## Cálculo de percentiles 

Calculemos la CDF de un número de puntos dados

In [4]:
from scipy.stats import norm
import numpy as np
print (norm.cdf(np.array([1,-1., 0, 1, 3, 4, -2, 6])).round(2))

[0.84 0.16 0.5  0.84 1.   1.   0.02 1.  ]


Calculemos la mediana :

para encontrar la mediana de una distribución, se puede usar la función PPF (Percent Point Function), 
la cual es la inversa de la CDF. En nuestro caso de ejemplo quedaría así: 

In [10]:
norm.ppf(0.5)

0.0

# Intervalos de confianza

primero ae define lo que es un estimador insesgado

Si $\hat{\theta}$ es un estimador insesgado del parámetro $\theta$, entonces $\hat{\theta}$ es un estimador insesgado de $theta$ si
$E[\hat{\theta}] = \theta$. 

Si $E[\hat{\theta}] \neq \theta$, se dice que $\hat{\theta}$ está sesgado.  

#### El sesgo

de un estimador puntual $\hat{\theta}$ está dado por 
$$
B(\hat{\theta}) = E[\hat{\theta}] - \theta
$$

#### El error cuadrático medio 

de un estimador puntual $\hat{\theta}$ es 

$$
MSE(\hat{\theta}) = E[(\hat{\theta} - \theta)^2]
$$

se puede demostrar que 

$$
MSE(\hat{\theta}) = V(\hat{\theta}) +[B(\hat{\theta})]^2
$$

# intervalos de confianza en una muestra grande

El resultado principal para calcular los intervalos de confianza es que si el parámetro que se quiere estimar $\theta$ es $\mu$ o $p$ entonces para muestras grandes  

$$
Z = \frac{\hat{\theta}- \theta}{\sigma_{\hat{\theta}}}
$$

posee aproximadamente una distribución normal estándar.

De esta manera el intervalo de confianza para el parámetro $\theta$ que posea un coeficiente de confianza igual a $(1-\alpha)$ es el intervalo 

$$
[\hat{\theta_L}, \hat{\theta_U}]
$$

donde

$$
\hat{\theta_L} = \hat{\theta} - z_{\alpha/2} \; * \; \sigma_{\hat{\theta}}
$$

$$
\hat{\theta_U} = \hat{\theta} + z_{\alpha/2} \; * \; \sigma_{\hat{\theta}}
$$

Con este intervalo se tiene que  

$$
\mathbb{P}(\hat{\theta_L} < \theta < \hat{\theta_U}) = 1-\alpha
$$

#### Calentamiento

Se registraron los tiempos de compra de $n = 64$ clientes seleccionados al azar en un supermercado
local. El promedio y varianza de los $64$ tiempos de compra fueron $33$ minutos y $256$
minutos$^2$, respectivamente. Estime $\mu$, el verdadero promedio de tiempo de compra por cliente,
con un coefieciente de confianza de $1 − \alpha = 0.90$.

El intervalo de confianza

$$
\hat{\theta} \pm z_{\alpha/2} \; * \; \sigma_{\hat{\theta}}
$$

Aquí $z_{\alpha/2} = z_{(1-0.90)/2} = z_{0.05} = 1.645$

In [12]:
#La última igualdad se encuentra con la función ppf: 
from scipy.stats import norm
norm.ppf(0.95) 

1.6448536269514722

De esta manera el intervalo de confianza es $[29.71 , 36.29]$

In [0]:
norm.ppf(0.95)

# Pruebas de hipótesis

# En general 

El estadístico de prueba se calcula de la forma:
$$
Z = \frac{\mbox{estimador para el parámetro - valor del parámetro dado por $H_0$}}{\mbox{error estándar del estimador}}
$$

# Pruebas de hipótesis de nivel $\alpha$ para muestras grandes

$$
H_0 : \theta = \theta_0
$$

$$
H: \left\{ 
  \begin{array}{lr}
  \theta > \theta_0 \;\;\;\mbox{alternativa de cola superior}\\
  \theta < \theta_0 \;\;\;\mbox{alternativa de cola inferior}\\
  \theta \neq \theta_0 \;\;\;\mbox{alternativa de 2 colas}
  \end{array}\right.
$$

$$
\mbox{Estadístico de prueba   }\;\;\; Z = \frac{\hat{\theta} - \theta_0}{\sigma_{\hat{\theta}}}
$$

$$
\mbox{Región de rechazo:}: \left\{ 
  \begin{array}{lr}
  \{Z > z_{\alpha}\} \;\;\;\mbox{RR de cola superior}\\
  \{Z < -z_{\alpha}\} \;\;\;\mbox{RR de cola inferior}\\
  \{|Z| > z_{\alpha/2}\} \;\;\;\mbox{RR de 2 colas}
  \end{array}\right.
$$

#### Aplicación 1

El vicepresidente de ventas de una empresa afirma que los vendedores están promediando
no más de 15 contactos de venta por semana. (Le gustaría aumentar esta cantidad.) Como
prueba de su afirmación, aleatoriamente se seleccionan n = 36 vendedores y se registra el número
de contactos hechos por cada uno para una sola semana seleccionada al azar. La media
y varianza de las 36 mediciones fueron 17 y 9, respectivamente. ¿La evidencia contradice lo
dicho por el vicepresidente? Use una prueba con nivel $\alpha = 0.05$.

$$
H_0 : \mu = 15 \;\;\;\mbox{contra}\;\;\;H_a : \mu > 15 
$$

$$
\mbox{Estadístico de prueba   }\;\;\; Z = \frac{\bar{X} - \mu_0}{\sigma_{\bar{X}}} = \frac{17 - 15}{3/\sqrt{36}}= 4
$$

##### Región de rechazo

In [34]:
norm.ppf(0.95).round(3)

1.645

Como el valor observado del estadístico de prueba $Z$ se encuentra en la región de rechazo (porque z = 4 excede a $z_{0.05} = 1.645$ se rechaza $H_0: \mu = 15$.)

CONCLUSION

Al nivel de significanciacia $\alpha = 0.05$, la evidencia es suficiente para indicar que la afirmación
del vicepresidente es incorrecta y que el número promedio de contactos de ventas por semana es mayor que 15.

#### Aplicación 2

Si la producción diaria de la máquina de una fábrica tiene más de 10% de artículos defectuosos,
es necesario repararla. Una muestra aleatoria de 100 piezas de la producción del día
contiene 15 piezas defectuosas y el supervisor decide que la máquina debe ser reparada. ¿La
evidencia muestral apoya su decisión? Use una prueba con nivel .01.

#### Razonamiento

Si $Y$ denota el número de piezas defectuosas observado se debe probar la hipótesis nula

$$
H_0 : p = 0.10 \;\;\;\mbox{contra}\;\;\;H_a : p > 0.10 
$$

$$
\mbox{Estadístico de prueba   }\;\;\; Z = \frac{\hat{p} - p_0}{\sigma_{\hat{p}}} = \frac{0.15 - 0.10}{\sqrt{(0.10)(0.90)/100}}= 1.667
$$

##### Región de rechazo

In [36]:
norm.ppf(0.99).round(2)

2.33

Como el valor observado del estadístico de prueba $Z$ no está en la región de rechazo, no se puede rechazar $H_0$.

CONCLUSION

en el nivel de significancia de $\alpha = .01$, la evidencia no apoya la decisión del supervisor.

# Valor p

Si W es un estadístico de prueba, el valor p, o nivel de significancia alcanzado, es el
nivel más pequeño de significancia a para el cual la información observada indica que
la hipótesis nula debe ser rechazada.

In [42]:
from scipy import stats
rvs = stats.norm.rvs(loc = 5, scale = 10, size = (50,1)) #loc : media         scale: desviacion estandar
print (stats.ttest_1samp(rvs,5.0))

Ttest_1sampResult(statistic=array([-0.14980063]), pvalue=array([0.88153682]))


In [43]:
Z_estadistico = (rvs.mean()-5)/(rvs.std()/np.sqrt(50))
Z_estadistico.round(6)

-0.151321

In [34]:
rvs.std()

5.4250278760507555

In [31]:
rvs.mean()

6.842305053170925

In [0]:
pruebas de hipotesis con muestras grandes 

calcular un valor p

# Ejercicios tipo 

1. Punto

Los administradores de un hospital deseaban estimar el número promedio de días necesarios para el
tratamiento de enfermos internados entre las edades de 25 y 34 años. Una muestra aleatoria de 500
pacientes entre estas edades produjo una media y una desviación estándar igual a 5.4 y 3.1 días, respectivamente.

Construya un intervalo de confi anza del 95% para la duración media de permanencia de la población de
pacientes de la cual se extrajo la muestra.

2. Punto

A la mayoría de los antioqeños les gusta participar eventos deportivos o al menos verlos. Algunos
sienten que los deportes tienen más que sólo valor de entretenimiento. En una encuesta de 1000 adultos, 
78% sintieron que los deportes de gran atractivo tienen un efecto positivo en la sociedad.

Encuentre un intervalo de confianza de 95% para el porcentaje del público que piensa que los deportes
tienen un efecto positivo en la sociedad.

3. Punto 

La reacción de un individuo a un estímulo en un experimento psicológico puede tomar una de
dos formas, A o B. Si un experimentador desea estimar la probabilidad p de que una persona
reaccione en una forma A, ¿cuántas personas deben incluirse en el experimento? Suponga que
el experimentador estará satisfecho si el error de estimación es menor que .04 con probabilidad
igual a .90. Suponga también que él espera que p se encuentre en algún punto cercano a .6.

Respuesta: 406

4. Punto 

Los salarios por hora en una industria particular están distribuidos normalmente con media de $\$13.20$
y desviación estándar de \$2.50. Una compañía en esta industria emplea 40 trabajadores, pagándoles un
promedio de \$12.20 por hora. ¿Esta compañía puede ser acusada de pagar salarios abajo del estándar?
Use una prueba de nivel $\alpha = .01$.

5. punto 

Un estudio hecho por el Children’s Hospital en Boston indica que alrededor de 67% de adultos estadounidenses
y el 15% de niños y adolescentes tienen sobrepeso. Trece niños de una muestra aleatoria de
100 se hallaron con sobrepeso. ¿Hay suficiente evidencia para indicar que el porcentaje publicado por el
Children’s Hospital es demasiado alto? Pruebe con un nivel de significancia de $\alpha$ = 0.05.