### Ejemplo de Intervalos de Confianza

Realizaremos un ejemplo de intervalos de confianza utilizando los datos de la encuesta [ENIGH 2018](https://www.inegi.org.mx/programas/enigh/nc/2018/).

La encuesta ENIGH (Encuesta Nacional de Ingresos y Gastos de los Hogares) tiene como objetivo objetivo es proporcionar un panorama estadístico del comportamiento de los ingresos y gastos de los hogares en cuanto a su monto, procedencia y distribución.


Leemos los datos

In [1]:
# Librerías
import pandas as pd
import numpy as np
from scipy.stats import norm

In [2]:
# Sólo cargar ciertas variables
enigh_2018 = pd.read_csv("/home/leonardo/Documentos/Acatlan/datos/ENIGH_2018/conjunto_de_datos_concentradohogar_enigh_2018_ns.csv",
                        usecols = ("folioviv","foliohog", "ubica_geo", "est_dis", "upm", "factor", "ing_cor", "gasto_mon"))

In [3]:
enigh_2018.head()

Unnamed: 0,folioviv,foliohog,ubica_geo,est_dis,upm,factor,ing_cor,gasto_mon
0,100013601,1,1001,2,1,175,76403.7,18551.47
1,100013602,1,1001,2,1,175,42987.73,55470.99
2,100013603,1,1001,2,1,175,580697.74,103106.89
3,100013604,1,1001,2,1,175,46252.71,19340.06
4,100013606,1,1001,2,1,175,53837.09,13605.03


Por el enfoque del ejemplo, consideraremos que los datos son nuestro universo por lo que tomaremos muestras de los datos para hacer estimaciones

Así, nuestra Población $N$ consta de 74,647

In [4]:
enigh_2018.shape[0]

74647

Con la consideración anterior, el parámetro poblacional de la media del ingreso es

In [5]:
print("La media del ingreso trimestral es {media_ingreso:.2f}".format(media_ingreso = enigh_2018.ing_cor.mean()))

La media del ingreso trimestral es 46043.88


Y la varianza de la media es

In [6]:
print("La varianza del ingreso trimestral es {var_ingreso:.2f}".format(var_ingreso = enigh_2018.ing_cor.var()))

La varianza del ingreso trimestral es 3749609091.39


Recordemos las fórmulas que usamos para nuestras estimaciones de la media y la varianza

$$\hat{\bar{y}} = \Sigma \frac{y_i}{n}$$

$$\hat{V}(\bar{y}) = (1 - \frac{n}{N})\frac{\hat{S^2}}{n}$$

donde $$\hat{S^2} = \Sigma \frac{(y_i - \bar{y})^2}{n-1}$$

Si omitimos el factor de corrección por población finita (fcp) el estimador de la varianza queda de la siguiente manera

$$\hat{V}(\bar{y}) = \frac{\hat{S^2}}{n}$$

Notar que la raíz cuadrada del estimador de la varianza es el _error estándar_ del estimador

Con lo anterior, el intervalo al $(100 - \alpha)$%  de confianza está dado por

$$ \text{límite inferior} = \hat{\bar{y}} - z_{1-\frac{\alpha}{2}} * \sqrt{\hat{V}(\bar{y})} $$

$$ \text{límite superior} = \hat{\bar{y}} + z_{1-\frac{\alpha}{2}} * \sqrt{\hat{V}(\bar{y})} $$

**creación de intervalos de confianza**

Tomando de referencía la fórmula del examen para el margen de error.

![margin_error.png](attachment:margin_error.png)

### Intervalo de 95% de confianza

La construcción del Intervalo de confianza con longitud de 8,000 al 95% de confianza se mjuestra a continuación

Notar que si la longitud del intervalo es 8,000 entonces el margen de error es 4,000

In [7]:
alpha = 0.05
z = norm.ppf(1 - alpha/2)
s = np.sqrt(3749609091.39)
me = 4000

El tamaño mínimo de muestra necesario para el intervalo deseado es

In [8]:
n = ((z*s)/me)**2
n

900.2480573921873

Para tomar una muestra en python podemos utilizar la función sample de pandas

In [9]:
# help(pd.DataFrame.sample)

In [10]:
muestra_1 = enigh_2018.sample(901, random_state = 202111)

**Estimaciones**

In [11]:
media_1 = muestra_1.ing_cor.mean()
media_1

48648.93485016658

Utilizndo la $S^2$ que utilizamos para obtener el tamaño de muestra

In [12]:
error_estandar_1 = s/np.sqrt(901)
error_estandar_1

2040.002037873566

Utilizando la $S^2$ estimada de la muestra

In [13]:
error_estandar = np.sqrt(muestra_1.ing_cor.var()/901)
error_estandar

1961.2055073729223

**Intervalo al 95%**

In [15]:
limite_inferior_1 = media_1 - z*error_estandar_1
limite_superior_1 = media_1 + z*error_estandar_1

In [16]:
print("El intervalo de confianza al 95% es ({inferior:.2f},{superior:.2f})".format(inferior = limite_inferior_1, superior = limite_superior_1))

El intervalo de confianza al 95% es (44650.60,52647.27)


### Intervalo de 99% de confianza

Ahora un intervalo de confianza de la misma longitud, pero al 99% de confianza

In [17]:
alpha = 0.01
z = norm.ppf(1 - alpha/2)
s = np.sqrt(3749609091.39)
me = 4000

El tamaño mínimo de muestra necesario para el intervalo deseado es

In [18]:
n = ((z*s)/me)**2
n

1554.8917884763591

In [19]:
muestra_2 = enigh_2018.sample(1555, random_state = 202201)

**Estimaciones**

In [20]:
media_2 = muestra_2.ing_cor.mean()
media_2

46527.052430868185

In [21]:
error_estandar_2 = s/np.sqrt(1555)
error_estandar_2

1552.843898956792

**Intervalo al 99%**

In [22]:
limite_inferior_2 = media_2 - z*error_estandar_2
limite_superior_2 = media_2 + z*error_estandar_2

In [23]:
print("El intervalo de confianza al 99% es ({inferior:.2f},{superior:.2f})".format(inferior = limite_inferior_2, superior = limite_superior_2))

El intervalo de confianza al 99% es (42527.19,50526.91)


La longitud de los intervalos creados es 

In [24]:
limite_superior_1 - limite_inferior_1

7996.66104524101

In [25]:
limite_superior_2 - limite_inferior_2

7999.72163754006

**Observación**. Para los fines del ejercicio se utilizó la $S^2$ de la Población, pero en la practica utilizaremos la $S^2$ estimada de la muestra para la construcción de los intervalos.

**Ejercicio**. Graficar ambos intervalos en la misma gráfica 