**<p style="font-size: 35px; text-align: center">Hypothesis Testing</p>**



***<center>Miguel Ángel Vélez Guerra</center>***

<hr/>

![hypothesis](https://1.bp.blogspot.com/-VmonrwMeris/WlJS32GsTjI/AAAAAAAAI2c/3_QD9zHGpTQCfmh22NoA7hv_MrbmCSXMgCLcBGAs/s1600/hypothesis.png)

<hr />
<hr />

## Imports

In [1]:
#-------Importing from other folder------#

import sys
sys.path.insert(0, "../resources/")

import mstats

#-----------Miguel's statistics----------#

In [2]:
import scipy.stats as ss
import numpy as np

<hr/>
<hr/>

## 1. Pruebas de hipótesis de 2 colas para la media poblacional en muestras grandes
Se supone que el embotellador desea probar la hipótesis de que la media poblacional es de 16 onzas y selecciona un nivel de significancia del 5%. Debido a que se plantea la hipótesis de que μ = 16.

Si el embotellador selecciona una muestra de n = 50 botellas con una media de 16.357 onzas y una desviación estándar de 0.866 onzas.

In [3]:
mu_embotellador = 16 # Hipótesis nula de la media poblacional
x__embotellador = 16.357 # Media muestral
s_embotellador = 0.866 # Desviación estándar muestral
n_embotellador = 50 # Tamaño de la muestra
alpha_embotellador = 0.05 # Nivel de significancia

<u> **Paso 1**</u>: Plantear hipótesis

**Ho:** μ = 16                   

**Ha:** μ ≠ 16

<u> **Paso 2**</u>: Nivel de significancia

In [4]:
alpha_embotellador

0.05

<u> **Paso 3**</u>: Valores críticos

In [5]:
crit_embotellador = mstats.crit_val_norm(alpha_embotellador, 'two') # Valores críticos
crit_embotellador

(-1.959963984540054, 1.959963984540054)

<u> **Paso 4**</u>: Estadístico de prueba (Z)

In [6]:
z_embotellador = mstats.get_z(x__embotellador, mu_embotellador, s_embotellador, n=n_embotellador)
z_embotellador

2.91497830119627

<u> **Paso 5**</u>: Decisión

In [7]:
mstats.reject_h0(crit_embotellador, z_embotellador, 'two')

True

**SI se rechaza la hipótesis nula**, teniendo en cuenta que el valor del estadístico de prueba *2.91497830119627* si es mayor o menor que los valores críticos *-1.959963984540054, 1.959963984540054*.

<u>**Paso 6**</u>: Conclusión

Se puede afirmar con un nivel de significancia del *5%* que que el peso promedio de las botellas es **diferente** de 16 onzas.

<hr/>
<hr/>

## 2. Pruebas de hipótesis de 1 cola para la media poblacional en muestras grandes
En una reunión informativa para una oficina corporativa, el gerente del hotel Embassy Suites en Atlanta, reportó que el número promedio de habitaciones alquiladas por noches es de por lo menos 212. Es decir μ > 212. Uno de los funcionarios operativos considera que esta cifra puede estar algo subestimada. Una muestra de 150 noches produce una media de 201.3 habitaciones y una desviación estándar de 45.5 habitaciones. Si estos resultados sugieren que el gerente ha "inflado" su reporte, será amonestado severamente. A un nivel de confianza del 1%. ¿Cuál es el destino del gerente?

In [8]:
mu_habitaciones = 212 # Hipótesis nula de la media poblacional
x__habitaciones = 201.3 # Media muestral
s_habitaciones = 45.5 # Desviación estándar muestral
n_habitaciones = 150 # Tamaño de la muestra
alpha_habitaciones = 0.01 # Nivel de significancia

<u> **Paso 1**</u>: Plantear hipótesis

**Ho:** μ = 212                   

**Ha:** μ < 212

<u> **Paso 2**</u>: Nivel de significancia

In [9]:
alpha_habitaciones

0.01

<u> **Paso 3**</u>: Valores críticos

In [10]:
crit_habitaciones = mstats.crit_val_norm(alpha_habitaciones, 'left')
crit_habitaciones

-2.3263478740408408

<u> **Paso 4**</u>: Estadístico de prueba (Z)

In [11]:
z_habitaciones = mstats.get_z(x__habitaciones, mu_habitaciones, s_habitaciones, n=n_habitaciones)
z_habitaciones

-2.8801692579977995

<u> **Paso 5**</u>: Decisión

In [12]:
mstats.reject_h0(crit_habitaciones, z_habitaciones, 'left')

True

**SI se rechaza la hipótesis nula** teniendo en cuenta que el valor del estadístico de prueba *-2.8801692579977995* es menor que el valor crítico *-2.3263478740408408*.

<u>**Paso 6**</u>: Conclusión

Con un nivel de significancia del *1%* podemos afirmar que el número promedio de habitaciones alquiladas por noche es **menor** de 212 habitaciones.

Por lo que podemos concluir, que el gerente será amonestado gravemente por "inflar" su reporte.

<hr/>
<hr/>

## 3. Valor p para prueba de 1 cola
Chuck Cash es el jefe de personal de una empresa. A partir de un breve análisis de los registros de los empleados, Chuck considera que los empleados tienen un promedio de más de 31000 USD en sus cuentas de pensiones. Al tomar como muestra 100 empleados, Chuck encuentra una media de 31366, con s = 1894. Se supone que Chuck desea calcular el valor p relacionado con esta prueba de cola a la derecha.

In [13]:
mu_empleados = 31000 # Hipótesis nula de la media poblacional
n_empleados = 100 # Tamaño de la muestra
x__empleados = 31366 # Promedio muestral
s_empleados = 1894 # Desviación estándar muestral

In [14]:
z_empleados = mstats.get_z(x__empleados, mu_empleados, s_empleados, n=n_empleados)
z_empleados

1.9324181626187962

In [15]:
p_empleados = mstats.get_p(z_empleados, 'left')
p_empleados

0.026653957030043696

**R/** El mínimo nivel de significancia que puede tener Chuck es de **2.66%** para poder afirmar que los empleados tienen un promedio **de más de** 31000 USD en sus cuentas de pensiones.

<hr/>
<hr/>

## 4. Valor p para una prueba de 2 colas
Chuck Cash también sospecha que los empleados invierten un promedio de 100 UDD mensuales en el plan de opción de compra de acciones de la compañía. Al tomar como muestra 100 empleados, Chuck descubre una media de 106.81 USD con una desviación estándar de 36.60 USD. Ahora desea determinar el valor p relacionado con la prueba de hipótesis.

In [16]:
mu_acciones = 100 # Hipótesis nula de la media poblacional
n_acciones = 100 # Tamaño de la muestra
x__acciones = 106.81 # Promedio muestral
s_acciones = 36.6 # Desviación estándar muestral

In [17]:
z_acciones = mstats.get_z(x__acciones, mu_acciones, s_acciones, n=n_acciones)
z_acciones

1.8606557377049187

In [18]:
p_acciones = mstats.get_p(z_acciones, 'two')
p_acciones

0.06279280823575806

**R/** El mínimo nivel de significancia que puede tomar Chuck para determinar que los empleados invierten un promedio **diferente** de 100 USD mensuales en el plan de opción de compra de acciones de la compañía es de **6.27%**

<hr/>
<hr/>

## 5. Pruebas de hipótesis de 2 colas para la media poblacional en muestras pequeñas
Los estudiantes de una clase de estadística en State University cuestionan la afirmación de que McDonalds coloca 0.25 libras de carne en sus “Habueguesas de cuarto de libra”. Algunos estudiantes argumentan que en realidad se utiliza más, mientras otros insisten que menos. Para probar la afirmación publicitaria que el peso promedio es es de 0.25 libras, cada estudiante compra una hamburguesa de cuarto y la lleva a clase, en donde la pesan en una balanza suministrada por el instructor. Los resultados de la muestra son una media de 0.22 libras y una desviación estándar de 0.09. Si hay 25 estudiantes en clase, ¿a que conclusión llegarían a un nivel de significancia del 5%?

In [19]:
mu_mcd = 0.25 # Hipótesis nula de la media poblacional
x__mcd = 0.22 # Promedio muestral
s_mcd = 0.09 # Desviación estándar muestral
n_mcd = 25 # Tamaño de la muestra
alpha_mcd = 0.05 # Nivel de significancia

<u> **Paso 1**</u>: Plantear hipótesis

**Ho:** μ = 0.25                   

**Ha:** μ ≠ 0.25

<u> **Paso 2**</u>: Nivel de significancia

In [20]:
alpha_mcd

0.05

<u> **Paso 3**</u>: Valores críticos

In [21]:
df_mcd = n_mcd - 1
crit_mcd = mstats.crit_val_t(df_mcd, alpha_mcd, "two")
crit_mcd

(-2.0638985616280205, 2.0638985616280205)

<u> **Paso 4**</u>: Estadístico de prueba (T)

In [22]:
t_mcd = mstats.get_t(x__mcd, mu_mcd, s_mcd, n_mcd)
t_mcd

-1.6666666666666667

<u> **Paso 5**</u>: Decisión

In [23]:
mstats.reject_h0(crit_mcd, t_mcd, 'two')

False

**NO se rechaza la hipótesis nula**, teniendo en cuenta que el valor del estadístico de prueba *-1.6666666666666667* no es menor ni mayor que los valores críticos *-2.0638985616280205, 2.0638985616280205*.

<u>**Paso 6**</u>: Conclusión

Teniendo en cuenta el nivel de significancia de *5%* se puede concluir que no hay argumentos suficientes para negar que McDonalds coloca **exactamente** 0.25 libras de carne en sus "Hamburguesas de cuarto de libra"

<hr />
<hr />

## 6. Pruebas de hipótesis de 1 cola para la media poblacional en muestras pequeñas
The American Kennel Club (AKC) reportó en su publicación Estadounidenses Propietarios de Perros (abril 1997) que los perros cocker spaniels de un año de edad deberían pesar “un poco más de 40 libras si han recibido una notrición paropiada”. Para probar la hipótesis Hill’s, productor de alimentos para la dieta de perros, pesa 15 perros cockers de un año de edad y descubre una media de 41.17 libras, con s = 4.71 libras. Utilice un valor α del 1%.

In [24]:
mu_perros = 40 # Hipótesis nula de la media poblacional
n_perros = 15 # Tamaño de la muestra
x__perros = 41.17 # Promedio muestral
s_perros = 4.71 # Desviación estándar muestral
alpha_perros = 0.01 # Nivel de significancia

<u> **Paso 1**</u>: Plantear hipótesis

**Ho:** μ = 40                  

**Ha:** μ > 40

<u> **Paso 2**</u>: Nivel de significancia

In [25]:
alpha_perros

0.01

<u> **Paso 3**</u>: Valores críticos

In [26]:
df_perros = n_perros - 1
crit_perros = mstats.crit_val_t(df_perros, alpha_perros, 'right')
crit_perros

2.624494067560231

<u> **Paso 4**</u>: Estadístico de prueba (T)

In [27]:
t_perros = mstats.get_t(x__perros, mu_perros, s_perros, n_perros)
t_perros

0.9620786656184043

<u> **Paso 5**</u>: Decisión

In [28]:
mstats.reject_h0(crit_perros, t_perros, 'right')

False

**NO se rechaza la nula**, teniendo en cuenta que el estadístico de prueba *0.9620786656184043* no es mayor que el valor crítico *2.624494067560231*.

<u>**Paso 6**</u>: Conclusión

Si tenemos un nivel de significancia de *1%*, podemos afirmar que el peso promedio de los perros cocker spaniels de un año de edad es **menor o igual** a 40 libras.

<hr />
<hr />

## 7. Pruebas de hipótesis de 2 colas para la proporción poblacional
Como director de operaciones de mercadeo para una gran cadena minorista, usted considera que el 60% de los clientes de la firma se han graduado de la universidad. Usted intenta establecer una importante política respecto a la estructura de precios sobre esta proporción. Una muestra de 800 clientes revela que 492 clientes tienen grados universitarios. A un nivel del 5%, ¿qué puede concluir sobre la proporción de todos los clientes que se han graduado de la universidad?

In [29]:
pi_graduados = 0.6 # Hipótesis nula de la proporción poblacional
n_graduados = 800 # Tamaño de la muestra
p_graduados = 492/800 # Proporción muestral
alpha_graduados = 0.05 # Nivel de significancia

<u> **Paso 1**</u>: Plantear hipótesis

**Ho:** π = 0.6                

**Ha:** π ≠ 0.6

<u> **Paso 2**</u>: Nivel de significancia

In [30]:
alpha_graduados

0.05

<u> **Paso 3**</u>: Valores críticos

In [31]:
crit_graduados = mstats.crit_val_norm(alpha_graduados, 'two')
crit_graduados

(-1.959963984540054, 1.959963984540054)

<u> **Paso 4**</u>: Estadístico de prueba (Z)

In [32]:
z_graduados = mstats.get_z_prop(p_graduados, pi_graduados, n_graduados)
z_graduados

0.8660254037844394

<u> **Paso 5**</u>: Decisión

In [33]:
mstats.reject_h0(crit_graduados, z_graduados, 'two')

False

**NO se rechaza la hipótesis nula**, teniendo en cuenta que el estadístico de prueba *0.8660254037844394* no es menor ni mayor que los valores críticos *-1.959963984540054, 1.959963984540054*.

<u>**Paso 6**</u>: Conclusión

A un nivel de significancia del *5%*, podemos concluir que la proporción de todos los clientes que se han graduado de la universidad **no** es **diferente** de 0.6.

<hr />
<hr />

## 8. Pruebas de hipótesis de 1 cola para la proporción poblacional
El CEO de una gran firma manufacturera debe garantizar que por lo menos 75% de sus empleados ha concluido un curso avanzado de capacitación. De los 1200 empleados seleccionados aleatoriamente, 875 lo han hecho. El CEO registra su asistencia para probar esta hipótesis y calcular el valor de p. A un nivel de significancia del 5%, ¿qué conclusiones incluye usted en su reporte?

In [40]:
pi_curso = 0.75 # Hipótesis nula de la proporción poblacional
n_curso = 1200 # Tamaño de la muestra
p_curso = 875/1200 # Proporción muestral
alpha_curso = 0.05 # Nivel de significancia

<u> **Paso 1**</u>: Plantear hipótesis

**Ho:** π = 0.75          

**Ha:** π < 0.75

<u> **Paso 2**</u>: Nivel de significancia

In [41]:
alpha_curso

0.05

<u> **Paso 3**</u>: Valores críticos

In [42]:
crit_curso = mstats.crit_val_norm(alpha_curso, 'left')
crit_curso

-1.6448536269514722

<u> **Paso 4**</u>: Estadístico de prueba (Z)

In [43]:
z_curso = mstats.get_z_prop(p_curso, pi_curso, n_curso)
z_curso

-1.6666666666666696

<u> **Paso 5**</u>: Decisión

In [44]:
mstats.reject_h0(crit_curso, z_curso, 'left')

True

**SI se rechaza la hipótesis nula** teniendo en cuenta que el estadístico de prueba *-1.6666666666666696* es menor que el valor crítico *-1.6448536269514722*

<u>**Paso 6**</u>: Conclusión

Con un nivel de significancia del *5%*, podemos afirmar que en la empresa, **menos** del *75%* de los empleados han concluido un curso avanzado de capacitación.

Por lo que el CEO debe tomar medidas para incrementar la proporción de empleados con el curso avanzado de capacitación.

<u>**Valor p**</u>

In [65]:
pvalue_curso = mstats.get_p(z_curso, 'left')
pvalue_curso

0.9522096477271856