# Estadistica para negocios
## Modulo 4: Inferencia estadistica

En este módulo, revisaremos de forma práctica como realizar pruebas de hipótesis utilizando muestas de datos.

Para ello, volveremos a tomar el rol de analistas. La gerencia está interesada en caracterizar a sus vendedores empleados. Para ello, cuenta con la base `base_ventas.xlsx`, la cual contiene las siguientes variables de una muestra 473 trabajadores:

- `ventas`: Ventas del trabajador en el ultimo periodo (en miles de pesos)
- `capacitacion`: Variable igual a 1 si el trabajador esta capacitado
- `edad`: Edad en años
- `educ`: Escolaridad en años

Primero, cargaremos los modulos relevantes de esta sesion: `pandas`, `matplotlib` y la distribucion normal y T de Student desde `scipy.stats`:

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import norm, t

Luego, abriremos la base de datos y la guardamos en un objeto llamado `df`:

In [2]:
df = pd.read_excel('base_ventas.xlsx')
df.describe()

Unnamed: 0,ventas,capacitacion,edad,educ
count,473.0,473.0,473.0,473.0
mean,1634.861653,0.348837,42.987315,12.143763
std,1279.665906,0.477107,6.676852,1.207835
min,35.89416,0.0,23.0,8.0
25%,596.091861,0.0,38.0,12.0
50%,1291.804155,0.0,42.0,12.0
75%,2378.664494,1.0,48.0,12.0
max,4999.109503,1.0,63.0,19.0


## Pruebas de hipotesis sobre la media

### Cola inferior

Supongamos que la empresa desea tener trabajadores de mayor edad en su plana. La meta es aumentar la edad promedio a al menos 40 años. Sin embargo, la empresa no cuenta con información sobre toda la plana, sino nuestra muestra de 473 trabajadores. Se sabe que la desviación estándar de la edad es igual a $\sigma=7$.

Para probar esto, usaremos una prueba de hipótesis de cola inferior. Las hipótesis nula y alternativa son:

$$H_0: \mu \geq 40 $$
$$H_A: \mu < 40 $$

Luego, requerimos la media muestral de la edad:

In [3]:
media_edad = df["edad"].mean()
media_edad

42.987315010570825

Luego, se construye el estadistico de prueba:

$$ z = \frac{\bar{X}-40}{7/\sqrt(473)}$$

In [4]:
z_calculado = (media_edad - 40)/(7/np.sqrt(473))
z_calculado

9.281401316981661

Este valor se compara con el valor crítico de la distribución normal al 95% de confianza de una cola. Esto puede ser visto en una tabla (-1.645), o a través de Python, usando la distribución normal estándar (`norm()`) y el método `ppf()`, que entrega el valor de la distribución a una probabilidad determinada:

In [5]:
z_tabla = norm().ppf(0.95)
-z_tabla

-1.6448536269514722

Es facil ver que el estadistico de prueba es **mayor** que el valor crítico de la distribución. Por lo tanto, **no se rechaza $H_0$**, por lo que no hay evidencia que pueda sustentar de que los trabajadores son menores de 40 años.

## Prueba de hipotesis de cola superior.

Las hipotesis nula y alternativa son:

$$H_0: \mu \leq 40 $$
$$H_A: \mu > 40 $$

In [6]:
z_calculado = (media_edad - 40)/(7/np.sqrt(473))
z_calculado

9.281401316981661

El valor critico de la distribucion normal es:

In [7]:
z_tabla = norm().ppf(0.95)
z_tabla

1.6448536269514722

### Prueba de hipótesis de dos colas

En este caso, vamos a probar si la media de la edad de los trabajadores es igual a 42 años:

$$H_0: \mu = 42$$
$$H_A: \mu \neq 42$$

In [8]:
z_calculado = (media_edad - 42)/(7/np.sqrt(473))
z_calculado

3.067526125286933

In [11]:
z_tabla = norm().ppf(0.025)
z_tabla

-1.9599639845400545



## Prueba de hipótesis con varianza desconocida

En la mayoria de los casos, es dificil contar con la varianza poblacional. Por esto, es necesario redefinir la prueba de hipotesis sobre la media, utilizando la **distribución T de Student**.

Supongamos que la empresa requiere saber si la escolaridad promedio de los trabajadores de la empresa es 12 años. Para ello, se pleantean las siguientes hipótesis:

$$H_0: \mu = 12 $$
$$H_A: \mu \neq 12 $$

Requerimos la media y la desviación estándar de la escolaridad:

Luego, se construye el estadistico de prueba:

$$ T = \frac{\bar{X}-12}{s/\sqrt(473)}$$

Este valor se compara con el valor crítico de la distribución T de dos colas, con 472 grados de libertad, al 95% de confianza. Esto puede ser visto en una tabla (1.96), o a través de Python, usando la distribución normal estándar (`t()`) y el método `ppf()`, que entrega el valor de la distribución a una probabilidad determinada:

Es facil ver que el estadistico de prueba es **mayor** que el valor crítico de la distribución. Por lo tanto, **se rechaza $H_0$**, por lo que se puede asegurar que la escolaridad promedio es distinta de 12 años.

### Prueba de hipótesis sobre proporciones

Supongamos que la empresa busca saber si el nivel de trabajadores capacitados es superior al 40%. Para ello, se realizará una prueba de hipótesis de cola superior. Las hipótesis nula y alterna son:

$$H_0: p \geq 0.4 $$
$$H_A: p < 0.4 $$

La proporción muestral se obtiene directamente de la media de la variable de capacitación:

Luego, construimos el estadistico de prueba:

$$ z = \frac{\bar{p}-0.4}{\sqrt{(0.4(1-0.4))/473}}$$

Este valor se compara con el valor crítico de la distribución normal al 95% de confianza de una cola. Esto puede ser visto en una tabla (-1.645), o a través de Python, usando la distribución normal estándar (`norm()`) y el método `ppf()`, que entrega el valor de la distribución a una probabilidad determinada:

Es facil ver que el estadistico de prueba es **menor** que el valor crítico de la distribución. Por lo tanto, **se rechaza $H_0$**, por lo que se puede asegurar que la proporción de trabajadores capacitados es menor que 40%.

## Pruebas de hipótesis con dos muestras independientes

Supongamos que la empresa ahora está interesada en saber si hay una diferencia considerable de las ventas promedio entre quienes están capacitados y quienes no lo están. Para saber esto, la empresa sugiere realizar una prueba de diferencia de medias. Para esto, las hipótesis nula y alternativa son:

$$H_0: \mu_1 - \mu_2 = 0$$
$$H_A: \mu_1 - \mu_2 \neq 0$$

Donde $\mu_1$ es la media de las ventas de quienes están capacitados, y $\mu_2$ es la media de las ventas de quienes no lo están.

Primero, vamos a separar ambas muestras:

Luego, describiremos ambas bases de datos:

Las ventas promedio de quienes están capacitados son $1.798.220, mientras que las ventas promedio quienes no lo están es $1.547.348. Además, los capacitados son 165 individuos, mientras que los no capacitados son 308 individuos. Vamos a extraer esta información, además de las desviaciones estándar muestrales:

Con esta información, podemos construir el estadistico de prueba:

$$ T = \frac{(\bar{X}_1-\bar{X}_2)-0}{\sqrt{\frac{s_1^2}{165} + \frac{s_2^2}{308}}}$$

Los grados de libertad son:

$$gl = \frac{\left( \frac{s_1^2}{165} + \frac{s_2^2}{308} \right)^2}{\frac{1}{164}\left( \frac{s_1^2}{165} \right)^2 + \frac{1}{307} \left( \frac{s_2^2}{308} \right)}$$

Como el resultado no es un numero entero, se redondea hacia abajo. Para ello. usaremos la función `floor()` de `numpy`, y convertiremos el número a un entero (`int`):

El estadistico de tabla T Student con 322 grados de libertad se aproxima a 1.96:

Es facil ver que el estadistico de prueba es **menor** que el valor crítico de la distribución. Por lo tanto, **se rechaza $H_0$**, por lo que se puede asegurar que las ventas promedio de los capacitados son considerablemente distintas a los de los no capacitados. Es más, debido a que la media de los capacitados es mayor, también se puede asegurar que **las ventas promedio de los capacitados son mayores que las de los no capacitados**.

### Diferencia de proporciones

Finalmente, supongamos que la empresa quiere saber si la proporción de personas capacitadas es mayor entre las personas con estudios superiores (más de 12 años de escolaridad) que quienes no tienen estudios superiores. Para ello, se puede utilizar la prueba de hipótesis para diferencia de proporciones. Las hipótesis nula y alternativa son:

$$H_0: (p_1 - p_2) = 0 $$
$$H_A: (p_1 - p_2) \neq 0 $$

Primero, vamos a separar ambas muestras de acuerdo a los años de escolaridad:

Describiendo ambas muestras:

La proporción de capacitados es bastante cercana entre ambas muestras. El estadistico de prueba de diferencia de proporciones es:

$$z = \frac{(\bar{p_1}-\bar{p_2})}{\sqrt{\bar{p}(1-\bar{p})\left( \frac{1}{N_1} \frac{1}{N_2} \right)}} \sim N(0,1)$$

Donde $p_1$ es la proporción de capacitados para quienes tienen educación superior, y $p_2$ es la proporción de capacitados para quienes no tienen educación superior. Notar que $\bar{p}$ no es conocido, pero se puede estimar como:

$$\bar{p} = \frac{N_1 \bar{p_1} + N_2 \bar{p_2}}{N_1 + N_2}$$

Luego, calculamos el estimador de $p$:

Ahora, claculamos el estadistico de prueba:

Sabemos que el valor critico de la distribucion normal estándar al 95% de confianza es 1.96:

Como el valor calculado del estadistico (en valor absoluto) es **menor** que el valor crítico, entonces **no se rechaza** la hipótesis nula. Por lo tanto, no existe evidencia para asegurar que el porcentaje de capacitados entre quienes tienen educación superior es distinto al porcentaje de capacitados entre quienes no tienen educación superior.