In [1]:
import math
import numpy as np
import pandas as pd
from scipy.stats import norm, t as t_student

# Pruebas de Hipótesis de una muestra

***
## Ejercicio 1
Se quiere probar la afirmación de que la distancia viajada por pelotas de golf es mayor a 250 yardas a un 95% de confianza. Se toma una muestra de 36 distancias:
|     |     |     |     |     |     |     |     |     |     |     |     |     |     |     |     |
| --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- |
| 269 | 300 | 268 | 278 | 282 | 263 | 301 | 295 | 288 | 278 | 276 | 286 | 296 | 265 | 271 | 279 |
| 284 | 260 | 275 | 282 | 260 | 266 | 270 | 293 | 272 | 285 | 293 | 281 | 269 | 291 | 274 | 277 |
| 299 | 263 | 264 | 273 |     |     |     |     |     |     |     |     |     |     |     |     |


In [2]:
alpha = 0.05
mu0 = 250

In [3]:
distancias_pelotas_golf = pd.Series([
    269, 300, 268, 278, 282, 263, 301, 295, 288,
    278, 276, 286, 296, 265, 271, 279, 284, 260,
    275, 282, 260, 266, 270, 293, 272, 285, 293,
    281, 269, 291, 274, 277, 299, 263, 264, 273
])

In [4]:
n = len(distancias_pelotas_golf)
n

36

### 1. Datos
Los datos provienen de una m.a.s.i.i.d de distancias viajadas por pelotas de golf expresadas en yardas donde nos interesa estudiar el promedio de las distancias con $\alpha=0.05$
### 2. Supuestos  
Las distancias siguen una distribución normal, donde no conocemos la varianza (pero se puede estimar) y que tenemos una muestra grande $n=36$ para $n>30$
### 3. Hipótesis
* Hipótesis de Investigación: El promedio de las distancias es mayor a 250 yardas
* $H_a$: $\mu > 250$ yardas  
* $H_0$: $\mu \leq 250$ yardas   
Planteamos que $H_0$ es verdadera y queremos demostrar que es falsa
### 4. Estadístico de prueba
$Z = \frac{\bar{X}-\mu}{\frac{s}{\sqrt{n}}}$
### 5. Distribución del estadístico de prueba
$Z$ es $N(0,1)$ cuando $n \rightarrow \infty$ utilizando TCL
### 6. Región de rechazo
Al ser unilateral superior
* $V.C. = Z_{0.95}$

In [5]:
# Valor crítico
vc_superior = norm.ppf(1 - alpha)
vc_superior

1.6448536269514722

Región de Rechazo $= \{ x | x  	\in [1.6448536, \infty)\} $

### 7. Cálculo del valor del estadístico de prueba

In [6]:
mu_est = distancias_pelotas_golf.mean()
mu_est

278.5

In [7]:
std_est = distancias_pelotas_golf.std()
std_est

12.001190417144937

In [8]:
z = (mu_est - mu0) / (std_est / math.sqrt(n))
z

14.248586519859638

### 8. Decisión  
Debido a que el valor del estadístico de prueba $(z)$ del paso anterior se encuentra en la región de rechazo (6), por lo tanto la hipótesis nula es rechazada
### 9. Conclusión
Después de realizar el estudio pertinente encontramos que la distancia promedio recorrida por las pelotas de golf quizá es mayor a 250 yardas tal como se propuso  
### 10. P-valor

In [9]:
p_value = 1 - norm.cdf(z)
p_value

0.0

Como $p_{value} < \alpha = 0.05$ (la muestra no significativa) y como se rechazó la $H_0$ :)

***
## Ejercicio 2
Las ganancias por acción son de más de 3 dólares para un 95% de confianza, para probar esta afirmación se tomó una muestra de datos que arrojó los resultados siguientes:

|     |     |     |     |     |     |     |     |     |     |
| --- | --- | --- | --- | --- | --- | --- | --- | --- | --- |
| 1.9 | 2.1 | 3.6 | 3.1 | 4.0 | 3.1 |     | 2.3 | 3.0 | 2.3 |
|  2  |  6  |  3  |  6  |  2  |  4  | 2.2 |  4  |  5  |  8  |


In [10]:
mu0 = 3
alpha = 0.05

In [11]:
ganancias_por_accion = pd.Series([
    1.9, 2.1, 3.6, 3.1, 4.0,
    3.1, 2.3, 3.0, 2.3, 2, 6,
    3, 6, 2, 4, 2.2, 4, 5, 8
])

In [12]:
n = len(ganancias_por_accion)
n

19

### 1. Datos
Los datos provienen de una m.a.s.i.i.d de las ganacias por acción expresadas en dólares donde nos interesa estudiar el promedio de las ganancias con $\alpha=0.05$
### 2. Supuestos  
Las ganancias por acción siguen una distribución normal, donde no conocemos la varianza (pero se puede estimar) y que tenemos una muestra pequeña $n=19$ para $n<30$
### 3. Hipótesis
* Hipótesis de Investigación: El promedio de las ganancias por acción son mayores a 3 dólares.
* $H_a$: $\mu > 3$ USD  
* $H_0$: $\mu \leq 3$ USD  
Planteamos que $H_0$ es verdadera y queremos demostrar que es falsa
### 4. Estadístico de prueba
$t = \frac{\bar{X}-\mu}{\frac{s}{\sqrt{n}}}$
### 5. Distribución del estadístico de prueba
$t$ es $t_{n-1}$
### 6. Región de rechazo
Al ser unilateral superior
* $V.C. = t_{n-1, 1 - \alpha}$

In [13]:
# Valor crítico
vc_superior = t_student.ppf(1 - alpha, n - 1)
vc_superior

1.7340636066175354

Región de Rechazo $= \{ x | x  	\in [1.7340636066175354, \infty)\} $

### 7. Cálculo del valor del estadístico de prueba

In [14]:
mu_est = ganancias_por_accion.mean()
mu_est

3.5578947368421048

In [15]:
std_est = ganancias_por_accion.std()
std_est

1.6684376555707185

In [16]:
t = (mu_est - mu0) / (std_est / math.sqrt(n))
t

1.457535300110516

### 8. Decisión  
Debido a que el valor del estadístico de prueba $(t)$ del paso anterior no se encuentra en la región de rechazo (6), por lo tanto la hipótesis nula no es rechazada
### 9. Conclusión
Después de realizar el estudio pertinente encontramos que las ganancias promedio por acción quizá no son mayores a 3 USD tal como se propuso  
### 10. P-valor

In [17]:
p_value = 1 - t_student.cdf(t, n - 1)
p_value

0.08109741822049177

Como $p_{value} > \alpha = 0.05$ (la muestra es significativa) y como no se rechazó la $H_0$ :)

***
## Ejercicio 3
Se midió la temperatura de fusión de un aceite vegetal hidrogenado en $n=16$ muestras y se encontró una media de $94.32$. Si la temperatura de fusión sigue una distribución normal con $\sigma = 1.20$.  
a) Probar a un 95% de nivel de confianza de que la media se ha mantenido en 95.

In [18]:
alpha = 0.05
mu0 = 95
n = 16
mu_est = 94.32
sigma = 1.2

### 1. Datos
Los datos provienen de una m.a.s.i.i.d de temperaturas de fusión de un aceite vegetal hidrogenado donde nos interesa estudiar el promedio de las temperaturas de fusión con $\alpha=0.05$
### 2. Supuestos  
Las temperaturas de fusión siguen una distribución normal, donde conocemos la varianza.  
### 3. Hipótesis
* Hipótesis de Investigación: El promedio de las temperaturas de fusión no es igual a 95 unidades.
* $H_a$: $\mu \neq 95u$  
* $H_0$: $\mu = 95u$  
Planteamos que $H_0$ es verdadera y queremos demostrar que es falsa
### 4. Estadístico de prueba
$Z = \frac{\bar{X}-\mu}{\frac{\sigma}{\sqrt{n}}}$
### 5. Distribución del estadístico de prueba
$Z$ es $N(0, 1)$
### 6. Región de rechazo
Al ser bilateral
* $V.C.I = Z_{\frac{\alpha}{2}}$
* $V.C.S = Z_{1-\frac{\alpha}{2}}$

In [19]:
# Valores críticos
vc_inferior = norm.ppf(alpha/2)
vc_superior = norm.ppf(1 - alpha/2)
vc_inferior, vc_superior

(-1.9599639845400545, 1.959963984540054)

Región de Rechazo $= \{ x | x  	\in (-\infty, -1.9599639845400545] \cup [1.9599639845400545, \infty)  \} $

### 7. Cálculo del valor del estadístico de prueba

In [20]:
z = (mu_est - mu0) / (sigma / math.sqrt(n))
z

-2.2666666666666897

### 8. Decisión  
Debido a que el valor del estadístico de prueba $(Z)$ del paso anterior se encuentra en la región de rechazo (6), por lo tanto la hipótesis nula es rechazada
### 9. Conclusión
Después de realizar el estudio pertinente encontramos que el promedio de las temperaturas de fusión quizá no son iguales a 95 unidades tal como se propuso.
### 10. P-valor

In [21]:
p_value = (1 - norm.cdf(z * -1)) + (norm.cdf(z))
p_value

0.023410596161115287

Como $p_{value} < \alpha = 0.05$ (la muestra no es significativa) y como se rechazó la $H_0$ :)

***  
## Ejercicio 4
Un estudio encontró que 40% de los usuarios de Internet recibieron más de 10 mensajes diarios Si de 420 usuarios 188 recibieron estos mensajes, a un nivel de 5% ¿Cuál es la conclusión?

In [22]:
p0 = 0.4
q0 = 1 - p0
n = 420
p_est = 188 / n
alpha = 0.05

### 1. Datos
Los datos provienen de una m.a.s.i.i.d de usuarios que reciben más de 10 mensajes diarios donde nos interesa estudiar la proporción de usuarios que reciben más de 10 mensajes con $\alpha=0.05$
### 2. Supuestos  
Los usuarios que reciben más de 10 mensajes siguen una distribución Bernoulli, donde no conocemos la varianza (pero se puede estimar) y que tenemos una muestra suficientemente grande $n=420$ para $n>30$ 
### 3. Hipótesis
* Hipótesis de Investigación: La proporción de usuarios que reciben más de 10 mensajes no es igual al 40%
* $H_a$: $p \neq 0.4$  
* $H_0$: $p = 0.4$  
Planteamos que $H_0$ es verdadera y queremos demostrar que es falsa
### 4. Estadístico de prueba
$Z = \frac{\hat{p}-p_0}{\sqrt{\frac{p_0*q_0}{n}}}$
### 5. Distribución del estadístico de prueba
$Z$ es $N(0,1)$ cuando $n \rightarrow \infty$ utilizando TCL
### 6. Región de rechazo
Al ser bilateral
* $V.C.I = Z_{\frac{\alpha}{2}}$
* $V.C.S = Z_{1 -\frac{\alpha}{2}}$

In [23]:
# Valores críticos
vc_inferior = norm.ppf(alpha / 2)
vc_superior = norm.ppf(1 - alpha / 2)
vc_inferior, vc_superior

(-1.9599639845400545, 1.959963984540054)

Región de Rechazo $= \{ x | x  	\in (-\infty, -1.9599639845400545] \cup [1.9599639845400545, \infty)  \} $

### 7. Cálculo del valor del estadístico de prueba

In [24]:
z = (p_est - p0) / math.sqrt(p0 * q0 / n)
z

1.9920476822239894

### 8. Decisión  
Debido a que el valor del estadístico de prueba $(Z)$ del paso anterior se encuentra en la región de rechazo (6), por lo tanto la hipótesis nula es rechazada.
### 9. Conclusión
Después de realizar el estudio pertinente encontramos que la proporción de usuarios que reciben más de 10 mensajes diarios quizá no son iguales al 40% tal como se propuso.
### 10. P-valor

In [25]:
p_value = (1 - norm.cdf(z)) + (norm.cdf(z * -1))
p_value

0.04636582643784502

Como $p_{value} < \alpha = 0.05$ (la muestra no es significativa) y como se rechazó la $H_0$ :)

***
## Ejercicio 5
Las lecturas de radiación de Radón tomadas en 12 lugares fueron como sigue:  
$105.6, 90.9, 91.2, 96.9, 96.5, 91.3, 100.1, 105, 99.6, 107.7, 103.3$ y $92.4$

a) A un alfa de 5% ¿Indican las lecturas que difieren de 100?

In [26]:
mu0 = 100
alpha = 0.05

In [27]:
lecturas_radiacion_radon = pd.Series([
    105.6, 90.9, 91.2, 96.9, 96.5, 91.3,
    100.1, 105, 99.6, 107.7, 103.3, 92.4
])

In [28]:
n = len(lecturas_radiacion_radon)
n

12

### 1. Datos
Los datos provienen de una m.a.s.i.i.d de lecturas de radiación de Radón donde nos interesa estudiar el promedio de lecturas de radiación con $\alpha=0.05$
### 2. Supuestos  
Las lecturas de radiación siguen una distribución Normal, donde no conocemos la varianza (pero se puede estimar) y que tenemos una muestra pequeña $n=12$ para $n<30$ 
### 3. Hipótesis
* Hipótesis de Investigación: Las lecturas de radiación difieren de 100
* $H_a$: $\mu \neq 100$  
* $H_0$: $\mu = 100$  
Planteamos que $H_0$ es verdadera y queremos demostrar que es falsa
### 4. Estadístico de prueba
$t = \frac{\bar{X}-\mu}{\frac{s}{\sqrt{n}}}$
### 5. Distribución del estadístico de prueba
$t$ es $t_{n-1}$
### 6. Región de rechazo
Al ser bilateral
* $V.C.I = t_{n-1,\frac{\alpha}{2}}$
* $V.C.S = t_{n-1,1-\frac{\alpha}{2}}$

In [29]:
# Valores críticos
vc_inferior = t_student.ppf(alpha / 2, n - 1)
vc_superior = t_student.ppf(1 - alpha / 2, n - 1)
vc_inferior, vc_superior

(-2.200985160082949, 2.200985160082949)

Región de Rechazo $= \{ x | x  	\in (-\infty, -2.200985160082949] \cup [2.200985160082949, \infty)  \} $

### 7. Cálculo del valor del estadístico de prueba

In [30]:
mu_est = lecturas_radiacion_radon.mean()
mu_est

98.37500000000001

In [31]:
std_est = lecturas_radiacion_radon.std()
std_est

6.10947475796257

In [32]:
t = (mu_est - mu0) / (std_est / math.sqrt(n))
t

-0.9213828271018268

### 8. Decisión  
Debido a que el valor del estadístico de prueba $(t)$ del paso anterior no se encuentra en la región de rechazo (6), por lo tanto la hipótesis nula no es rechazada.
### 9. Conclusión
Después de realizar el estudio pertinente encontramos que el promedio de las lecturas de radición de Radón quizá es igual a 100 tal como se propuso.
### 10. P-valor

In [33]:
p_value = (1 - t_student.cdf(t * -1, n - 1)) + (t_student.cdf(t, n - 1))
p_value

0.37661608746499975

Como $p_{value} > \alpha = 0.05$ (la muestra es significativa) y como no se rechazó la $H_0$ :)

***
# Pruebas de Hipótesis de dos muestras

## Ejercicio 1
Los pesos en gramos de 10 machos y 10 hembras jóvenes de faisanes de cuello anillado atrapados en enero en el Jardín Botánico de la Universidad de Wisconsin, fueron:  
MACHOS: 1293-1380-1614-1497-1340-1643-1466-1627-1383-1711  
HEMBRAS:1061-1065-1092-1017-1021-1138-1143-1094-1270-1028  
Verifique la hipótesis de que la diferencia $\mu_{M} - \mu_{H} = 350$g, con la alternativa de que la diferencia es mayor de $350$g ($\alpha = 0.01$)

In [34]:
diff_mu0 = 350
alpha = 0.01

In [35]:
pesos_faisanes = pd.DataFrame([
    [1293, 1061],
    [1380, 1065],
    [1614, 1092],
    [1497, 1017],
    [1340, 1021],
    [1643, 1138],
    [1466, 1143],
    [1627, 1094],
    [1383, 1270],
    [1711, 1028],
], columns = ["MACHOS", "HEMBRAS"])

In [36]:
n = len(pesos_faisanes["MACHOS"])
m = len(pesos_faisanes["HEMBRAS"])
n, m

(10, 10)

### 1. Datos
Los datos provienen de una m.a.s.i.i.d de los pesos en gramos de 10 machos y 10 hembras jóvenes de faisanes de cuello anillado atrapados en enero en el Jardín Botánico de la Universidad de Wisconsin donde nos interesa estudiar la diferencia de medias con un $\alpha=0.01$
### 2. Supuestos  
Las muestras son independientes entre sí y siguen una distribución Normal, donde no conocemos las varianzas (pero se pueden estimar) y que tenemos una muestra pequeña $n,m=10$ para $n,m<10$ 
### 3. Hipótesis
* Hipótesis de Investigación: La diferencia de las medias de los pesos en gramos es mayor que 350 g
* $H_a$: $\mu_{M} - \mu_{H} > 350$  
* $H_0$: $\mu_{M} - \mu_{H} \leq 350$  
Planteamos que $H_0$ es verdadera y queremos demostrar que es falsa
### 4. Estadístico de prueba
$t = \frac{(\bar{x} - \bar{y}) - (\mu_{x} - \mu_{y})}{S_p\sqrt{\frac{1}{m} + \frac{1}{n}}}$
### 5. Distribución del estadístico de prueba
$t$ es $t_{m+n-2}$
### 6. Región de rechazo
Al ser unilateral superior
* $V.C = t_{m+n-2, 1 - \alpha}$

In [37]:
# Valor crítico
vc_superior = t_student.ppf(1 - alpha, m + n - 2)
vc_superior

2.552379630179453

Región de Rechazo $= \{ x | x  	\in [2.552379630179453, \infty)  \} $

### 7. Cálculo del valor del estadístico de prueba

In [38]:
x_mean = pesos_faisanes["MACHOS"].mean()
y_mean = pesos_faisanes["HEMBRAS"].mean()
diff_mu_est = x_mean - y_mean
x_mean, y_mean, diff_mu_est

(1495.4, 1092.9, 402.5)

In [39]:
s_x = pesos_faisanes["MACHOS"].std()
s_y = pesos_faisanes["HEMBRAS"].std()
s_pool = math.sqrt((((n - 1) * s_x ** 2) + ((m - 1) * s_y** 2)) / (n + m - 2))
s_pool

116.53213672154514

In [40]:
t = (diff_mu_est - diff_mu0) / (s_pool * math.sqrt(1/n + 1/m))
t

1.0073922277702005

### 8. Decisión  
Debido a que el valor del estadístico de prueba $(t)$ del paso anterior no se encuentra en la región de rechazo (6), por lo tanto la hipótesis nula no es rechazada.
### 9. Conclusión
Después de realizar el estudio pertinente encontramos que la diferencia de promedios de los pesos en gramos de jóvenes faisanes de cuello anillado quizá es menor o igual a 350 tal como se propuso.
### 10. P-valor

In [41]:
p_value = 1 - t_student.cdf(t, n + m - 2)
p_value

0.1635487475699905

Como $p_{value} > \alpha = 0.05$ (la muestra es significativa) y como no se rechazó la $H_0$ :)

***
## Ejercicio 2
De una muestra de 450 votantes hombres, 105 se declararon simpatizantes del candidato A. De una muestra de 550 votantes mujeres 120 se declararon simpatizantes del mismo candidato. ¿Proporcionan estos datos evidencia suficiente como para considera que las proporciones de los simpatizantes hombres y mujeres son iguales? $ \alpha = 0.05$

In [42]:
diff_p0 = 0
alpha = 0.05
n = 450
m = 550
p_x = 105 / n
q_x = 1 - p_x
p_y = 120 / m
q_y = 1 - p_y

### 1. Datos
Los datos provienen de una m.a.s.i.i.d de los votantes simpatizantes del mismo candidato donde nos interesa estudiar la diferencia de proporciones con un $\alpha=0.05$
### 2. Supuestos  
Las muestras son independientes entre sí y siguen una distribución Bernoulli, donde no conocemos las varianzas (pero se pueden estimar) y que tenemos una muestra suficientemente grande $n = 450, m=550$ para $n,m>30$ 
### 3. Hipótesis
* Hipótesis de Investigación: La proporción de simpatizantes hombres y mujeres no son iguales
* $H_a$: $p_{M} \neq p_{H}$  
* $H_0$: $p_{M} = p_{H}$  
Planteamos que $H_0$ es verdadera y queremos demostrar que es falsa
### 4. Estadístico de prueba
$Z = \frac{(\hat{p_x} - \hat{p_y}) - (p_{x} -p_{y})}{\sqrt{\frac{p_xq_x}{n} + \frac{p_yq_y}{m}}}$
### 5. Distribución del estadístico de prueba
$Z$ es $N(0,1)$ cuando $n,m \rightarrow \infty$ utilizando TCL
### 6. Región de rechazo
Al ser bilateral
* $V.C.I = Z_{\frac{\alpha}{2}}$
* $V.C.S = Z_{1 - \frac{\alpha}{2}}$

In [43]:
# Valores críticos
vc_inferior = norm.ppf(alpha / 2)
vc_superior = norm.ppf(1 - alpha / 2)
vc_inferior, vc_superior

(-1.9599639845400545, 1.959963984540054)

Región de Rechazo $= \{ x | x  	\in (-\infty, -1.9599639845400545] \cup [1.959963984540054, \infty)  \} $

### 7. Cálculo del valor del estadístico de prueba

In [44]:
diff_p_est = p_x - p_y
diff_p_est

0.015151515151515166

In [45]:
z = (diff_p_est - diff_p0) / math.sqrt((p_x*q_x)/n + (p_y*q_y)/m)
z

0.5695601070230932

### 8. Decisión  
Debido a que el valor del estadístico de prueba $(z)$ del paso anterior no se encuentra en la región de rechazo (6), por lo tanto la hipótesis nula no es rechazada.
### 9. Conclusión
Después de realizar el estudio pertinente encontramos que las proporciones de simpatizantes de hombres y mujeres quizá son iguales, tal como se propuso.
### 10. P-valor

In [46]:
p_value = (1 - norm.cdf(z)) + (norm.cdf(z * -1))
p_value

0.5689760922983478

Como $p_{value} > \alpha = 0.05$ (la muestra es significativa) y como no se rechazó la $H_0$ :)

***
## Ejercicio 3
Mediante dos procesos se fabrican alambres galvanizados lisos para alambrados rurales. Los técnicos de la
fábrica desean determinar si los dos procesos poseen diferentes efectos en la resistencia de la media de
ruptura del alambre. Se someten varias muestras a los dos procesos dando los siguientes resultados:
  
Proceso 1 = 9 4 10 7 9 10  
  
Proceso 2 = 14 9 13 12 13 8 10  

Suponiendo conocidas las varianzas $\sigma_1^2 = 5.4$ y $\sigma_2^2 = 5.25$ y considerando $\alpha = 0.05$. Probar la
hipótesis de que las medias de resistencia a la ruptura son iguales.

In [47]:
diff_mu0 = 0
sigma_x_2 = 5.4
sigma_y_2 = 5.25
alpha = 0.05

In [48]:
procesos_alambre = pd.DataFrame([
    [9, 14],
    [4, 9],
    [10, 13],
    [7, 12],
    [9, 13],
    [10, 8],
    [np.nan, 10]
], columns = ["Proceso 1", "Proceso 2"])

In [49]:
n = len(procesos_alambre["Proceso 1"][procesos_alambre["Proceso 1"].notnull()])
m = len(procesos_alambre["Proceso 2"][procesos_alambre["Proceso 2"].notnull()])
n, m

(6, 7)

### 1. Datos
Los datos provienen de una m.a.s.i.i.d de las resistencias de ruptura de alambre galvanizado liso mediante dos procesos de fabricación donde nos interesa estudiar la diferencia de la resistencia media con un $\alpha=0.05$
### 2. Supuestos  
Las muestras son independientes entre sí y siguen una distribución Normal, donde conocemos las varianzas.
### 3. Hipótesis
* Hipótesis de Investigación: La diferencia de la resistencia media de los alambres fabricados mediante el proceso 1 vs proceso 2 no son iguales
* $H_a$: $\mu_{1} \neq \mu_{2}$  
* $H_0$: $\mu_{1} = \mu_{2}$  
Planteamos que $H_0$ es verdadera y queremos demostrar que es falsa
### 4. Estadístico de prueba
$Z = \frac{(\bar{x} - \bar{y}) - (\mu_{x} - \mu_{y})}{\sqrt{\frac{\sigma_x^2}{n} + \frac{\sigma_y^2}{m}}}$
### 5. Distribución del estadístico de prueba
$Z$ es $N(0,1)$
### 6. Región de rechazo
Al ser bilateral
* $V.C.I = Z_{\frac{\alpha}{2}}$
* $V.C.S = Z_{1 - \frac{\alpha}{2}}$

In [50]:
# Valores críticos
vc_inferior = norm.ppf(alpha / 2)
vc_superior = norm.ppf(1 - alpha / 2)
vc_inferior, vc_superior

(-1.9599639845400545, 1.959963984540054)

Región de Rechazo $= \{ x | x  	\in (-\infty, -1.9599639845400545] \cup [1.959963984540054, \infty)  \} $

### 7. Cálculo del valor del estadístico de prueba

In [51]:
x_mean = procesos_alambre["Proceso 1"][procesos_alambre["Proceso 1"].notnull()].mean()
y_mean = procesos_alambre["Proceso 2"][procesos_alambre["Proceso 2"].notnull()].mean()
diff_mu_est = x_mean - y_mean
x_mean, y_mean, diff_mu_est

(8.166666666666666, 11.285714285714286, -3.1190476190476204)

In [52]:
z = (diff_mu_est - diff_mu0) / math.sqrt(sigma_x_2 / n + sigma_y_2 / m)
z

-2.4281752782180845

### 8. Decisión  
Debido a que el valor del estadístico de prueba $(z)$ del paso anterior se encuentra en la región de rechazo (6), por lo tanto la hipótesis nula es rechazada.
### 9. Conclusión
Después de realizar el estudio pertinente encontramos que la diferencia de la resistencia media de los alambres fabricados mediante el proceso 1 vs proceso 2 quizá no son iguales
### 10. P-valor

In [53]:
p_value = (1 - norm.cdf(z * -1)) + (norm.cdf(z))
p_value

0.015175007387789704

Como $p_{value} < \alpha = 0.05$ (la muestra no es significativa) y como se rechazó la $H_0$ :)

***
## Ejercicio 4
En un ensayo de engorde de novillos se utilizaron dos raciones (A y B) en dos lotes de 10 animales cada uno. La variable respuesta fue ganancia de peso por animal por día. Por información previa se consideró que las variancias poblacionales eran iguales, con un valor de $0.0064$. La ganancia de peso diarias y la suma de cuadrados.  

Lote A = $\Sigma X_a = 6.900$kg  
Lote B = $\Sigma X_b = 5.915$kg

Se desea docimar al $5\%$ la $H_0$: $\mu_A = \mu_B$

In [54]:
diff_mu0 = 0
n = 10
m = n
sigma_x_2 = 0.0064
sigma_y_2 = sigma_x_2
x_mean =  6.9 / n
y_mean = 5.915 / m
alpha = 0.05

### 1. Datos
Los datos provienen de una m.a.s.i.i.d de la ganacia de peso por animal por día para dos raciones A y B donde nos interesa estudiar la diferencia de la ganacia de peso media con un $\alpha=0.05$
### 2. Supuestos  
Las muestras son independientes entre sí y siguen una distribución Normal, donde conocemos las varianzas.
### 3. Hipótesis
* Hipótesis de Investigación: La diferencia de la ganancia de peso media por animal con las raciones A y B no son iguales
* $H_a$: $\mu_{A} \neq \mu_{B}$  
* $H_0$: $\mu_{A} = \mu_{B}$  
Planteamos que $H_0$ es verdadera y queremos demostrar que es falsa
### 4. Estadístico de prueba
$Z = \frac{(\bar{x} - \bar{y}) - (\mu_{x} - \mu_{y})}{\sqrt{\frac{\sigma_x^2}{n} + \frac{\sigma_y^2}{m}}}$
### 5. Distribución del estadístico de prueba
$Z$ es $N(0,1)$
### 6. Región de rechazo
Al ser bilateral
* $V.C.I = Z_{\frac{\alpha}{2}}$
* $V.C.S = Z_{1 - \frac{\alpha}{2}}$

In [55]:
# Valores críticos
vc_inferior = norm.ppf(alpha / 2)
vc_superior = norm.ppf(1 - alpha / 2)
vc_inferior, vc_superior

(-1.9599639845400545, 1.959963984540054)

Región de Rechazo $= \{ x | x  	\in (-\infty, -1.9599639845400545] \cup [1.959963984540054, \infty)  \} $

### 7. Cálculo del valor del estadístico de prueba

In [56]:
diff_mu_est = x_mean - y_mean
x_mean, y_mean, diff_mu_est

(0.6900000000000001, 0.5915, 0.09850000000000003)

In [57]:
z = (diff_mu_est - diff_mu0) / math.sqrt(sigma_x_2 / n + sigma_y_2 / m)
z

2.753158697296617

### 8. Decisión  
Debido a que el valor del estadístico de prueba $(z)$ del paso anterior se encuentra en la región de rechazo (6), por lo tanto la hipótesis nula es rechazada.
### 9. Conclusión
Después de realizar el estudio pertinente encontramos que la diferencia de la diferencia de la ganancia de peso media por animal con las raciones A y B quizá no son iguales
### 10. P-valor

In [58]:
p_value = (1 - norm.cdf(z)) + (norm.cdf(z * -1))
p_value

0.005902327728581689

Como $p_{value} < \alpha = 0.05$ (la muestra no es significativa) y como se rechazó la $H_0$ :)

***
## Ejercicio 5
Una Cooperativa Agrícola debe decidir cuál de dos tipos de neumáticos (A y B) va a comprar para sus camiones. Los neumáticos se prueban bajo condiciones semejantes hasta que se desgastan. Se emplean 16 de cada marca. Si $\bar{X}(A) = 26000$ km y $\bar{X}(B) = 23500 $km y $S(A) = S(B) = 340$ km, ¿existen diferencias significativas entre las medias al nivel de significación del 5%?

In [59]:
diff_mu0 = 0
n = 16
m = n
sigma_x_2 = 340 ** 2
sigma_y_2 = sigma_x_2
x_mean =  26000 / n
y_mean = 23500 / m
alpha = 0.05

### 1. Datos
Los datos provienen de una m.a.s.i.i.d de los kms necesarios para desgastar neumáticos de dos tipos A y B donde nos interesa estudiar la diferencia del desgaste medio con un $\alpha=0.05$
### 2. Supuestos  
Las muestras son independientes entre sí y siguen una distribución Normal, donde conocemos las varianzas.
### 3. Hipótesis
* Hipótesis de Investigación: La diferencia de desgaste medio en km de los neumáticos de los tipos A y B no son iguales
* $H_a$: $\mu_{A} \neq \mu_{B}$  
* $H_0$: $\mu_{A} = \mu_{B}$  
Planteamos que $H_0$ es verdadera y queremos demostrar que es falsa
### 4. Estadístico de prueba
$Z = \frac{(\bar{x} - \bar{y}) - (\mu_{x} - \mu_{y})}{\sqrt{\frac{\sigma_x^2}{n} + \frac{\sigma_y^2}{m}}}$
### 5. Distribución del estadístico de prueba
$Z$ es $N(0,1)$
### 6. Región de rechazo
Al ser bilateral
* $V.C.I = Z_{\frac{\alpha}{2}}$
* $V.C.S = Z_{1 - \frac{\alpha}{2}}$

In [60]:
# Valores críticos
vc_inferior = norm.ppf(alpha / 2)
vc_superior = norm.ppf(1 - alpha / 2)
vc_inferior, vc_superior

(-1.9599639845400545, 1.959963984540054)

Región de Rechazo $= \{ x | x  	\in (-\infty, -1.9599639845400545] \cup [1.959963984540054, \infty)  \} $

### 7. Cálculo del valor del estadístico de prueba

In [61]:
diff_mu_est = x_mean - y_mean
x_mean, y_mean, diff_mu_est

(1625.0, 1468.75, 156.25)

In [62]:
z = (diff_mu_est - diff_mu0) / math.sqrt(sigma_x_2 / n + sigma_y_2 / m)
z

1.299828641887036

### 8. Decisión  
Debido a que el valor del estadístico de prueba $(z)$ del paso anterior no se encuentra en la región de rechazo (6), por lo tanto la hipótesis nula no es rechazada.
### 9. Conclusión
Después de realizar el estudio pertinente encontramos que la diferencia de la diferencia de la diferencia de desgaste medio en km de los neumáticos de los tipos A y B quizá son iguales
### 10. P-valor

In [63]:
p_value = (1 - norm.cdf(z)) + (norm.cdf(z * -1))
p_value

0.19365970651012732

Como $p_{value} > \alpha = 0.05$ (la muestra es significativa) y como no se rechazó la $H_0$ :)