<a href="https://colab.research.google.com/github/hfelizzola/Curso-Estadistica/blob/main/Prueba_Hipotesis.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Prueba de hipótesis para una muestra

In [1]:
import numpy as np
import pandas as pd
import scipy.stats as stats
from statsmodels.stats.weightstats import ztest

## Caso 1. Prueba de hipótesis para la media de una población normalmente distribuida y con varianza $\sigma^2$ conocida y $n > 30$

### Ejemplo 1. Análisis del tiempo de ensamble

Suponga que el ingeniero de producción está interesado en el $X$: tiempo de ensamble en una línea de producción. Teniendo en cuenta que:

- Objetivo: La planta ha fijado un objetivo de 10 minutos promedio por unidad.
- Problema: Si el tiempo promedio es mayor a 10 minutos se revisará el proceso para analizar las causas y realizar ajustes.
- Para determinar el tiempo promedio se tomaran muestras de tamaño n=9 en cada turno.
- Se sabe que la desviación estándar del tiempo $\sigma=1.5$.
- Utilice un nivel de confianza del 95%, por tanto un $\alpha=0.05$.

Recuerde que en este caso las hipótesis son:
$$
H_0: \mu = 10 \\
H_1: \mu > 10
$$

In [2]:
# Datos
tiempo = np.array([11, 9, 11, 10, 10, 12, 13, 12, 10])
tiempo

array([11,  9, 11, 10, 10, 12, 13, 12, 10])

In [3]:
# Estadísticas descriptivas
tiempo_promedio = np.mean(tiempo)
tiempo_desv_est = np.std(tiempo, ddof=1)
tiempo_var = np.var(tiempo, ddof=1)
print("La media muestral es: {:.2f}".format(tiempo_promedio))
print("La desviación estandar muestral: {:.2f}".format(tiempo_desv_est))
print("La varianza muestral: {:.2f}".format(tiempo_var))

La media muestral es: 10.89
La desviación estandar muestral: 1.27
La varianza muestral: 1.61


Para realizar una prueba de hipótesis para la media de una población cuya varianza es conocida se utiliza función `mean_ztest()` que se presenta a continuación. 

Para definir la hipótesis alterna en esta función utilice las siguientes opciones:
- Prueba bilateral ($H1: \mu \neq \mu_0$): `alternative="two-sided"`
- Prueba de cola derecha ($H1: \mu > \mu_0$): `alternative="greater"`
- Prueba de cola izquierda ($H1: \mu < \mu_0$): `alternative="less"`

La función devuelve dos valores: `zvalue`, que es la estadística de prueba calculado y el `pvalue`.

In [4]:
def mean_ztest(x, popmean, sigma, alternative):
    xbar = np.mean(x)
    n = len(x)
    zvalue = (xbar - popmean)/(sigma / np.sqrt(n))
    
    if alternative == "greater":
        pvalue = 1 - stats.norm.cdf(x=zvalue)
    elif alternative == "less":
        pvalue = stats.norm.cdf(x=zvalue)
    elif alternative == "two-sided":
        pvalue = (1 - stats.norm.cdf(x=np.abs(zvalue))) * 2
    
    return zvalue, pvalue

In [5]:
# Prueba de hipótesis
zvalue, pvalue = mean_ztest(x=tiempo, popmean=10, sigma=1.5, alternative="greater")
print("El estadístico de prueba es: {:.2f}".format(zvalue))
print("El valor-p de la prueba de hipótesis es: {:.4f}".format(pvalue))

El estadístico de prueba es: 1.78
El valor-p de la prueba de hipótesis es: 0.0377


Con un valor estadístico de prueba de 1.78 y un valor p de 0.0377, podemos concluir que existe evidencia estadística significativa para rechazar la hipótesis nula al nivel de significancia del 5%. 

Esto significa que es poco probable que la diferencia observada entre la muestra y la hipótesis nula sea el resultado del azar, y es más probable que el tiempo promedio de la operación sea mayor a 10 minutos, según lo planteado en la hipótesis alterna $H_1: \mu > 10$.

### Ejemplo 2: Análisis del rendimiento de combustible

El propietario de un automóvil sospecha que el rendimiento del combustible de su vehículo es menor a lo especificado, lo cual es 30 millas/galón. El propietario realiza un experimento 9 veces donde observa la distancia en millas que recorre el vehículo por galón. Los datos son: 28.3, 31.2, 29.4, 27.2, 30.8, 28.7, 29.2, 26.5, 28.1. El propietario ha identificado que el rendimiento se distribuye de manera normal con $\sigma=1.4$.
__¿Los resultados del experimento respaldan la sospecha del propietario, utilice $\alpha=0.01$__.

In [6]:
# Datos de entrada
rendimiento = np.array([28.3, 31.2, 29.4, 27.2, 30.8, 28.7, 29.2, 26.5, 28.1])
rendimiento

array([28.3, 31.2, 29.4, 27.2, 30.8, 28.7, 29.2, 26.5, 28.1])

In [7]:
# Estadísticas descriptivas (Media, varianza y desviación estandar)



In [8]:
# Prueba de hipótesis



__Conclusión:__



## Caso 2. Prueba de hipótesis para la media de una población normalmente distribuida y con varianza $\sigma^2$ desconocida y $n < 30$

Este código de Python utiliza la función `test_1samp()` de la biblioteca `scipy.stats` para realizar una prueba de hipótesis de una sola muestra en una variable llamada tiempo, con una media poblacional hipotética de 10, cuyo valor es configurado con el parámetro `popmean=10`. El parámetro `alternative="greater"` indica que se está probando la hipótesis alternativa de que la verdadera media poblacional es mayor que 10. Las opciones para la hipótesis alterna son:

- Prueba bilateral ($H1: \mu \neq \mu_0$): `alternative="two-sided"`
- Prueba de cola derecha ($H1: \mu > \mu_0$): `alternative="greater"`
- Prueba de cola izquierda ($H1: \mu < \mu_0$): `alternative="less"`

La función devuelve un valor t que representa la estadística de prueba calculada, el valor p y los grados de libertad de la prueba de hipótesis. 


In [9]:
stats.ttest_1samp(a=tiempo, popmean=10, alternative="greater")

TtestResult(statistic=2.1009029257555616, pvalue=0.03442038297291411, df=8)

Ahora desarrolle la prueba con el ejemplo 2.

In [10]:
# Prueba de hipótesis



## Caso 3. Prueba de hipótesis para la varianza de una población normalmente distribuida

La función var_test realiza una prueba de hipótesis en una muestra de varianza poblacional, comparando la varianza muestral con una varianza poblacional hipotética.

Los parámetros de entrada son:

- `a`: la muestra de datos
- `popvar`: la varianza poblacional hipotética que se está probando
- `alternative`: el tipo de prueba alternativa que se desea realizar, que puede ser "two-sided" (por defecto), "greater" o "less".


In [11]:
def var_test(x, popvar, alternative="two-sided"):
    # Calcular la varianza muestral
    varianza = np.var(x, ddof=1)
    
    # Obtener el tamaño de la muestra y los grados de libertad
    n = len(x)
    df = n - 1
    
    # Calcular la estadística de prueba chi-cuadrado
    chi2o = df * varianza / popvar
    
    # Calcular el valor p correspondiente
    if alternative == "greater":
        # Valor p para la cola superior
        valorp = 1 - stats.chi2.cdf(x=chi2o, df=df)
    elif alternative == "less":
        # Valor p para la cola inferior
        valorp = stats.chi2.cdf(x=chi2o, df=df)
    else:
        # Valor p para ambas colas
        LP = stats.chi2.cdf(x=chi2o, df=df)
        UP = 1 - LP
        valorp = 2 * np.min([LP, UP])
    
    # Devolver la estadística de prueba y el valor p correspondiente
    return chi2o, valorp

Para el ejemplo 1, recuerde que se quieren probar las siguientes hipótesis:

$$
H_0: \sigma^2 = 2.25 \\
H_1: \sigma^2 \neq 2.25
$$

In [12]:
chi_value, pvalue = var_test(x=tiempo, popvar=2.25, alternative="two-sided")
print("El estadístico de prueba es: {:.2f}".format(chi_value))
print("El valor-p de la prueba de hipótesis es: {:.4f}".format(pvalue))

El estadístico de prueba es: 5.73
El valor-p de la prueba de hipótesis es: 0.6447


Ahora pruebe la función de la prueba de varianza con el ejemplo 2. rendimiento de combustible.

In [13]:
# Prueba de hipótesis



## Caso 4. Prueba para la proporción de la categoría o evento de interes de una muestra.

### Ejemplo 3. Análisis de calidad de un fabricante de semiconductores

Un fabricante de semiconductores produce controladores utilizados en aplicaciones de motores de automóviles. El cliente exige que la caída del proceso o la fracción defectuosa en un paso de fabricación crítico sea inferior al 3% y que el fabricante demuestre la capacidad del proceso a este nivel de calidad utilizando $\alpha=0.05$. El fabricante de semiconductores toma una muestra aleatoria de 200 dispositivos y determina que siete de ellos son defectuosos. ¿Puede el fabricante demostrar la capacidad del proceso para el cliente?

__Hipótesis:__ en este caso se quiere indagar que la fracción defectuosa no supere el 3% de la producción, esto es $p<0.03$, por tanto, las hipótesis que se plantean son:

$$
H_0: p = 0.03 \\
H_1: p < 0.03
$$


In [14]:
def ztest_proportion(X, n, ppop, alternative="two-sided"):
  # Calcular el valor del estadístico Z
  zvalue = (X - (n * ppop)) / np.sqrt(n * ppop * (1 - ppop))

  # Calcular el valor p dependiendo de la dirección de la hipótesis alternativa
  if alternative == "greater":
    valorp = 1 - stats.norm.cdf(zvalue)
  elif alternative == "less":
    valorp = stats.norm.cdf(zvalue)
  else:
    # En caso de que sea una hipótesis bilateral, calcular un valor p bilateral utilizando el valor absoluto de Z
    valorp = (1 - stats.norm.cdf(np.abs(zvalue))) * 2
  
  # Devolver el valor del estadístico Z y el valor p
  return zvalue, valorp

In [15]:
zvalue, pvalue = ztest_proportion(X=7, n=200, ppop=0.03, alternative="less")
print("El estadístico de prueba es: {:.2f}".format(zvalue))
print("El valor-p de la prueba de hipótesis es: {:.4f}".format(pvalue))

El estadístico de prueba es: 0.41
El valor-p de la prueba de hipótesis es: 0.6608
