In [45]:
import scipy.stats as st
from scipy.stats import bernoulli, binom, t
import numpy as np 
import sympy 
from sympy.abc import x, z, n 

p = sympy.symbols("p", positive = True)

theta = sympy.symbols('theta', real=True)

## Solución a la tarea.

Suponga que se tiene una variable aleatoria discreta $X$ con densidad:
	\begin{align*}
	P(X=0)&=\frac{2}{3}\theta,\\
	P(X=1)&=\frac{1}{3}\theta,\\
	P(X=2)&=\frac{2}{3}(1-\theta),\\
	P(X=3)&=\frac{1}{3}(1-\theta)
	\end{align*}
con $\theta\in [0,1]$. Se toman las siguientes $10$ observaciones independientes de acuerdo a la distribución dada:
$$(3, 0, 2, 1, 3, 2, 1, 0, 2, 1).$$
Encuentra el MLE de $\theta$.

**Solución**

La función de verosimilitud es:
\begin{align*}
L(3,0,2,1,3,2,1,0,2,1;\theta)&=P(X=0)^{2}P(X=1)^{3}P(X=2)^{3}P(X=3)^{2}\\
&=\left(\frac{2}{3}\theta \right)^{2}\left(\frac{1}{3}\theta \right)^{3}\left(\frac{2}{3}(1-\theta) \right)^{3}\left(\frac{1}{3}(1-\theta) \right)^{2}\\
&=\frac{4}{243}\theta^{5}\frac{8}{243}(1-\theta)^{5}\\
&=\frac{32}{243}\theta^{5}(1-\theta)^{5}.
\end{align*}

Calculamos la función logverosimil para obtener
$$\log L(3,0,2,1,3,2,1,0,2,1;\theta)=\log(32/243)+5\log(\theta)+5\log(1-\theta).$$

Finalmente, calculamos los puntos críticos:
$$\frac{\partial}{\partial \theta}\log L(3,0,2,1,3,2,1,0,2,1;\theta)=\frac{5}{\theta}-\frac{5}{1-\theta}=\frac{5(1-\theta)-5\theta}{\theta(1-\theta)}=0.$$

Así, obtenemos que el punto crítico es $\theta=0.5$.

Ya que,
$$\frac{\partial^2}{\partial \theta^2}\log L(3,0,2,1,3,2,1,0,2,1;\theta)=-\frac{5}{0.5^{2}}-\frac{5}{(1-0.5)^2}<0$$
entonces $\hat{\theta}=0.5$.

In [2]:
l = (2*theta/3)**2*(theta/3)**(3)*(2*(1-theta)/3)**3*((1-theta)/3)**2
logl = sympy.expand_log(sympy.log(l))
thetahat = sympy.solve(sympy.diff(logl,theta),theta)[0]

thetahat

1/2

En una encuesta de la UP, 225 estudiantes son seleccionados al azar de los que toman cálculo y se les pregunta si cálculo es su materia favorita. 100 estudiantes responden que el cálculo es su materia favorita. Proporcione un intervalo de confianza del 95$\%$ para la proporción de todos los estudiantes que toman cálculo y que la consideran su materia favorita.

**Solución**

De la tarea anterior, sabemos que un intervalo de confianza (al $95\%$) está dado por 
$$\left(\hat{p}-1.96\frac{\sqrt{\hat{p}(1-\hat{p})}}{\sqrt{n}}, \hat{p}+1.96\frac{\sqrt{\hat{p}(1-\hat{p})}}{\sqrt{n}} \right).$$

En este caso, $\hat{p}=100/225=4/9$ y $n=225$. Por lo tanto, el intervalo es aproximadamente $(0.38, 0.51)$.

In [8]:
from scipy.stats import norm

n=225 

z = norm.ppf((1 + 0.95) / 2)

phat=100/n

A = phat - z * np.sqrt(phat * (1 - phat) / n)

B = phat + z * np.sqrt(phat * (1 - phat) / n)

A, B


(0.37951684884617914, 0.5093720400427098)

Los datos 
	$$1, 2, 3, 4$$
se toman a partir de una distribución normal $N(\mu,\sigma^2)$ con $\mu$ desconocida.
1. Encuentra un intervalo de confianza al nivel de $90\%$ para $\mu$, dado que $\sigma =2$.
2. Encuentra un intervalo de confianza al nivel de $90\%$ para $\mu$.
3. Encuentra un intervalo de confianza al nivel de $90\%$ para $\sigma^2$.


In [16]:
D = [1, 2, 3, 4]

mu = np.mean(D)

# inciso 1.
sigma =2 

C1 = norm.interval(0.9, loc=mu, scale=2 / np.sqrt(4))
print(C1)

# inciso 2.
C2 = st.t.interval(alpha = 0.90, df=3, loc = mu, scale = st.sem(D))
print(C2)

# inciso 3
alpha = 0.10
s2 = np.var(D, ddof=1)
B = 3 * s2 / st.chi2.ppf(alpha / 2, 3)
A = 3 * s2 / st.chi2.ppf (1 - (alpha / 2), 3)

C3=(A,B)

print(C3)


(0.8551463730485271, 4.144853626951472)
(0.9809104349065063, 4.019089565093493)
(0.6398175421974498, 14.210749829597594)


La estatura promedio de un hombre adulto en cierto país es $170$ cm. Sospechamos que los hombres de cierta ciudad de ese país pueden tener una estatura promedio diferente debido a algunos factores ambientales. Seleccionamos una muestra aleatoria de tamaño $9$ de los hombres adultos de la ciudad y se obtuvieron los siguientes valores para sus alturas (en cm):
	$$176.2, 157.9, 160.1, 180.9, 165.1, 167.2, 162.9, 155.7, 166.2 $$
	
Suponga que la distribución de la altura es normal. Con base en los datos observados, ¿existe evidencia para rechazar $H_0$ a un nivel de significancia $\alpha=0.05$?

**Solución**

Prueba de hipótesis:
$$H_{0}: \mu =170, \ \ H_{A}:\mu \neq 170.$$

Seleccionamos al estadístico:
$$W(x_{1},\dots, x_{n})=\frac{\bar{X}-\mu_{0}}{S/\sqrt{n}}.$$

In [18]:
def W_Normal(L, m_0):
  m = np.mean(L)
  s2 = np.var(L, ddof=1)
  s = np.sqrt(s2)
  s_n = s/np.sqrt(len(L))
  return (m-m_0)/s_n 



In [38]:
L = np.array([176.2, 157.9, 160.1, 180.9, 165.1, 167.2, 162.9, 155.7, 166.2])

# Realizamos la prueba de hipótesis:

w = W_Normal(L, 170)
nivel = 0.025
n = len(L)

if abs(w)<= st.t.ppf(1-nivel, n-1):
     print("se acepta la hipótesis nula")
else:
     print("se rechaza la hipótesis nula")

se acepta la hipótesis nula


Una declaración estadística apareció en The Guardian el viernes 4 de enero de 2002:
	
"Cuando se realizan 250 volados, salió cara 140 veces y cruz 110. Me parece muy sospechoso, dijo Barry Blight, profesor de estadística en la London School of Economics. "Si la moneda fuera imparcial, la posibilidad de obtener un resultado tan extremo como ese sería inferior al 7\%"

* Sea $\theta$ la probabilidad de que salga cara. Considere la hipótesis nula, $H_0 : \theta = 0.5$. Explica cuidadosamente porqué surge el $7\%$. Qué término describe este valor en NHST? 
* ¿Rechazarías $H_0$ a un nivel de significancia de $\alpha=0.1$?
*¿Cuántas caras necesitas haber observado para rechazar la hipótesis nula a un nivel de significancia de $\alpha=0.01$?


**Solución**

Se tiene la prueba de hipótesis:
$$H_{0}:\theta= 0.5$$

Aquí, pueden ocurrir dos situaciones para la hipótesis alternativa, a saber:
$$H_{A}: \theta>0.5 \ \ \theta\neq 0.5.$$

Lo anterior, permite ver al problema como tipo Binomial en dónde hay 140 éxitos.

Calculemos el $p$-valor de un lado:
$$p=P(x\geq 140 \mid H_0)$$

In [41]:
p_val1 = 1- binom.cdf(139, 250, 0.5)

p_val1 

0.03321057562002161

Así, por simetría, la prueba de dos colas sería:
$$2\times 0.03321 = 0.06642.$$

In [42]:
p_val = 2*p_val1

# Prueba de hipótesis:

if 0.05 < p_val < 0.1: 
  print("se rechaza la hipótesis nula a un nivel de significancia 0.1")

se rechaza la hipótesis nula a un nivel de significancia 0.1


El problema nos pide encontrar la región de rechazo para $\alpha = 0.01$.

In [44]:
A = st.binom.ppf(0.001,250,0.5) -1
B = st.binom.ppf(0.999,250,0.5) +1

print((A,B))

(100.0, 150.0)


Conclusión, rechazamos cuando se tienen más de 150 soles o menos de 100 soles.

En un experimento sobre la precisión de las pruebas de polígrafo, se instruyó a 140 personas para que dijeran la verdad y a 140 personas para que mintieran. Los evaluadores usan un polígrafo para adivinar si cada persona está mintiendo o no. Por analogía, digamos que $H_0$ corresponde al testeado diciendo la verdad y $H_A$ corresponde al testado mintiendo. 

* Describa el significado de los errores tipo I y tipo II en este contexto y estime sus probabilidades con base en la tabla.

$$\begin{array}{| r | l | c |}
					\hline
					 & \text{testeado confiable} & \text{testeado miente} \\ \hline
					\text{Test piensa que es testeado es confiable} & 40 & 15 \\
					\text{Test piensa que es testeado miente}& 100 & 125 \\ \hline
				\end{array}$$
* En NHST, ¿qué relaciones existen entre los términos nivel de significancia, potencia, error tipo 1 y error tipo 2?


**Solución**

* El error tipo I es rechazar la hipótesis nula cuando en realidad es verdadero. Esto corresponde a pensar que alguien está mintiendo cuando en realidad está diciendo la verdad. El experimento tuvo 100/140 errores tipo I. Esta es nuestra estimación de la probabilidad de un tipo I 
error.

* El error de tipo II es no rechazar la hipótesis nula cuando en realidad es falsa. Esto corresponde
a pensar que alguien está diciendo la verdad cuando en realidad está mintiendo. En base a los datos nuestro
estimación de la probabilidad de un error de tipo II es 15/140.

* La significancia es:
$$P(\text{error tipo I})=P(\text{rechazar} \ H_{0}\mid H_{0})$$
y la potencia es:
$$1-P(\text{error tipo III})=P(\text{rechazar} \ H_{0}\mid H_{A}).$$

Realizamos una prueba $t$ para la hipótesis nula $H_0: \mu = 10$ a un nivel de significación $\alpha = 0.05$ por medio de un conjunto de datos que consta de $n = 16$ elementos con media muestral $11$ y varianza muestral $4$.
 	(a) ¿Deberíamos rechazar la hipótesis nula a favor de $H_A : \mu \neq 10$? (b) ¿Qué pasa si probamos contra $H_A: \mu > 10$?

**Solución**

Esta es una prueba de dos lados. Con los datos que tenemos, el estadístico $W=2$.

In [53]:


W = 2

# Calculamos el p-value

p_value = 2*(1-t.cdf(W, 15))

if p_value > 0.05:
  print("no rechazamos la hipótesis nula")


no rechazamos la hipótesis nula


In [54]:
(1-t.cdf(W, 15))

0.03197250364236004