# Estimación de Parámetros bajo Muestreo por Conglomerados
Este notebook resuelve paso a paso un ejercicio de muestreo por conglomerados aplicado al gasto en útiles escolares.

In [1]:
import pandas as pd
import numpy as np

# Datos del ejercicio: valores de gasto por estudiante por grupo
grupo_1 = [104, 86, 114, 106, 125, 110, 114, 103, 107, 112, 108, 107, 125, 110, 111, 92, 100, 114, 121, 92, 129, 74, 120, 114, 111, 121, 110, 96, 98, 124]
grupo_2 = [81, 78, 121, 97, 92, 94, 90, 92, 106, 104, 98, 97, 92, 90, 98, 107, 110, 103, 101, 97, 98, 104, 90, 98, 92, 104, 98, 101, 90, 94, 107, 104]
grupo_3 = [107, 111, 114, 97, 106, 109, 93, 114, 120, 108, 97, 113, 98, 102, 107, 102, 114, 105, 104, 109, 99, 101, 102, 114, 109, 107, 99, 106, 108, 104, 100]
grupo_4 = [91, 102, 84, 112, 110, 102, 105, 97, 94, 91, 92, 91, 94, 97, 94, 97, 91, 89, 91, 95, 95, 87, 93, 93, 97, 91, 95, 97, 94, 95, 96, 100, 94, 102, 91, 94]
grupo_5 = [100, 113, 118, 74, 98, 130, 108, 103, 102, 106, 115, 106, 121, 107, 117, 122, 101, 116, 94, 117, 108, 109, 104, 112, 113, 107, 124, 104, 105, 103, 94, 122, 127, 116]

datos_grupos = {
    'Grupo 1': grupo_1,
    'Grupo 2': grupo_2,
    'Grupo 3': grupo_3,
    'Grupo 4': grupo_4,
    'Grupo 5': grupo_5
}

df_conglomerados = pd.DataFrame(dict([(k, pd.Series(v)) for k, v in datos_grupos.items()]))
df_conglomerados.head()

Unnamed: 0,Grupo 1,Grupo 2,Grupo 3,Grupo 4,Grupo 5
0,104.0,81.0,107.0,91,100.0
1,86.0,78.0,111.0,102,113.0
2,114.0,121.0,114.0,84,118.0
3,106.0,97.0,97.0,112,74.0
4,125.0,92.0,106.0,110,98.0


In [2]:
# Media de cada conglomerado
medias_conglomerado = df_conglomerados.mean()
media_estimacion = medias_conglomerado.mean()

# Total estimado
M = 10000
estimacion_total = M * media_estimacion

# Varianza y desviación estándar de la media
varianza_medias = medias_conglomerado.var(ddof=1)
desviacion_estandar_media = np.sqrt(varianza_medias / len(medias_conglomerado))

print(f"Media estimada: {media_estimacion:.2f}")
print(f"Total estimado: {estimacion_total:.2f}")
print(f"Varianza de las medias: {varianza_medias:.2f}")
print(f"Desviación estándar de la media: {desviacion_estandar_media:.2f}")

Media estimada: 103.36
Total estimado: 1033558.84
Varianza de las medias: 40.99
Desviación estándar de la media: 2.86


In [3]:
from scipy.stats import t

gl = len(medias_conglomerado) - 1
t_critico = t.ppf(0.95, df=gl)
margen_error_media = t_critico * desviacion_estandar_media
IC_media = (media_estimacion - margen_error_media, media_estimacion + margen_error_media)

margen_error_total = M * margen_error_media
IC_total = (estimacion_total - margen_error_total, estimacion_total + margen_error_total)

print(f"IC 90% para la media poblacional: {IC_media}")
print(f"IC 90% para el total: {IC_total}")

IC 90% para la media poblacional: (np.float64(97.25206196244348), np.float64(109.4597069601793))
IC 90% para el total: (np.float64(972520.6196244347), np.float64(1094597.069601793))


In [4]:
from scipy.stats import norm

precision_relativa = 0.04
E = precision_relativa * media_estimacion
Z_90 = norm.ppf(0.95)

n_requerido = (Z_90**2 * varianza_medias) / E**2
n_requerido_redondeado = int(np.ceil(n_requerido))

print(f"Tamaño de muestra necesario (conglomerados): {n_requerido:.2f} ≈ {n_requerido_redondeado}")

Tamaño de muestra necesario (conglomerados): 6.49 ≈ 7
