# **Estimación por Intervalos**

## **1. Objetivo de la exposición**  
El objetivo principal de esta exposición es presentar de manera rigurosa la teoría de estimación por intervalos, su construcción matemática y su aplicación en inferencia estadística.  

A través de este material, los estudiantes podrán:  

- Comprender los fundamentos teóricos de la estimación por intervalos.  
- Conocer los métodos matemáticos utilizados para su construcción.  
- Analizar ejemplos prácticos en diferentes áreas del conocimiento.  
- Aplicar los conceptos en problemas reales de inferencia estadística.  
- Reflexionar sobre la importancia de la estimación por intervalos en la toma de decisiones.  



## **2. Introducción**  

### **¿Qué es la estimación por intervalos y por qué es importante?**  
La estimación por intervalos es un método de inferencia estadística que permite estimar un parámetro poblacional proporcionando un rango de valores en el que se espera que dicho parámetro se encuentre con cierta confianza. A diferencia de la estimación puntual, que da un único valor como mejor estimación, los intervalos de confianza consideran la variabilidad de los datos y el nivel de certeza deseado.

Esta técnica es fundamental en estadística porque permite:  
- **Incorporar la incertidumbre** en la estimación de parámetros poblacionales.  
- **Facilitar la toma de decisiones** basada en datos.  
- **Garantizar un control del error** al establecer una probabilidad de confianza.  

---

### **Diferencias entre estimación puntual e intervalos de confianza**  
| Característica          | Estimación Puntual   | Estimación por Intervalos  |
|------------------------|----------------------|----------------------------|
| Resultado             | Un único valor       | Un rango de valores        |
| Consideración de incertidumbre | No la incluye | La incorpora mediante niveles de confianza |
| Aplicación en inferencia | Limitada | Más robusta y aplicable a decisiones estadísticas |

---

### **Ejemplo motivador: Estimación de la media salarial**  
Supongamos que queremos estimar la media salarial de los trabajadores en un país.  
- **Estimación puntual:** La media muestral es de $2,500$.  
- **Estimación por intervalos:** Un intervalo de confianza del 95% podría indicar que la media salarial poblacional está entre $2,300$ y $2,700$.  

El intervalo de confianza proporciona un contexto más claro y permite tomar decisiones mejor fundamentadas, como ajustes salariales o políticas económicas.

---

### **Aplicaciones de la estimación por intervalos**  
La estimación por intervalos se utiliza en diversos campos, tales como:  
- **Economía:** Predicción de inflación, estimación de indicadores financieros.  
- **Biomedicina:** Intervalos de confianza en ensayos clínicos.  
- **Ingeniería:** Control de calidad y confiabilidad de materiales.  
- **Ciencias sociales:** Encuestas electorales y análisis de datos poblacionales.  

---

### **Planteamiento de preguntas clave sobre la inferencia basada en intervalos**  
Al trabajar con estimaciones por intervalos, surgen preguntas importantes:  
1. ¿Qué nivel de confianza es apropiado para mi análisis?  
2. ¿Cómo influye el tamaño de la muestra en la amplitud del intervalo?  
3. ¿Qué distribución subyace en la estimación de mi parámetro?  
4. ¿Cuáles son los supuestos estadísticos que debo cumplir?  
5. ¿Cómo interpretar correctamente un intervalo de confianza sin caer en errores conceptuales?  

Estas preguntas nos guiarán en la construcción y aplicación adecuada de los intervalos de confianza en la inferencia estadística.



## **3. Fundamentos Matemáticos de la Estimación por Intervalos**  

### **Definición formal de un intervalo de confianza**  
Un **intervalo de confianza** es un rango de valores construido a partir de una muestra, en el cual se espera que el parámetro poblacional desconocido se encuentre con una cierta probabilidad, denominada **nivel de confianza**.

Matemáticamente, un intervalo de confianza para un parámetro $\theta$ se define como:  

$$
P(T_1 < \theta < T_2) = 1 - \alpha
$$

donde:  
- $T_1$ y $T_2$ son los límites inferior y superior del intervalo, respectivamente.  
- $\alpha$ es el nivel de significancia (la probabilidad de error).  
- $1 - \alpha$ es el nivel de confianza (por ejemplo, 95% o 99%).  

En términos de probabilidad, esto significa que si repetimos el proceso de muestreo muchas veces, aproximadamente el $100(1 - \alpha)\%$ de los intervalos construidos contendrán el verdadero valor del parámetro $\theta$.

---

### **Propiedades fundamentales de los intervalos de confianza**  
Los intervalos de confianza deben cumplir ciertas propiedades esenciales:  

1. **Nivel de confianza** ($1 - \alpha$):  
   - Representa la proporción de intervalos que, en el largo plazo, contendrán el valor real del parámetro poblacional.  
   - Valores comunes: 90%, 95% y 99%.  

2. **Amplitud del intervalo**:  
   - Un intervalo más estrecho indica una estimación más precisa.  
   - La amplitud depende del tamaño de muestra y la variabilidad de los datos.  

3. **Precisión de la estimación**:  
   - Se busca un equilibrio entre un intervalo de confianza amplio (mayor seguridad) y uno estrecho (mayor precisión).  

---

### **Construcción de intervalos de confianza mediante el método de la variable pivote**  
El **método de la variable pivote** es una de las técnicas más utilizadas para construir intervalos de confianza. Se basa en encontrar una función de la muestra y del parámetro poblacional que siga una distribución conocida, llamada **variable pivote**.  

#### **Definición de variable pivote**  
Sea $X_1, X_2, ..., X_n$ una muestra aleatoria de una población con función de densidad $f(x, \theta)$. Definimos una variable pivote $Q(X, \theta)$ como una función de los datos y del parámetro $\theta$ que tiene una distribución conocida, independiente de $\theta$.

Ejemplo: Si la población sigue una distribución normal $N(\mu, \sigma^2)$ con varianza conocida, la siguiente expresión es una variable pivote para $\mu$:

$$
Z = \frac{\bar{X} - \mu}{\sigma / \sqrt{n}} \sim N(0,1)
$$

A partir de esta expresión, podemos construir un intervalo de confianza para $\mu$:

$$
\bar{X} - z_{\alpha/2} \frac{\sigma}{\sqrt{n}} < \mu < \bar{X} + z_{\alpha/2} \frac{\sigma}{\sqrt{n}}
$$

donde $z_{\alpha/2}$ es el cuantil de la distribución normal estándar correspondiente al nivel de confianza deseado.

---

### **Demostración matemática del método de la variable pivote**  
Para construir un intervalo de confianza utilizando este método, seguimos estos pasos:

1. Identificamos una variable pivote $Q(X, \theta)$ con distribución conocida.
2. Determinamos los valores críticos $a$ y $b$ tales que:

   $$
   P(a < Q(X, \theta) < b) = 1 - \alpha
   $$

3. Despejamos $\theta$ en la desigualdad anterior para obtener los límites del intervalo:

   $$
   P(T_1 < \theta < T_2) = 1 - \alpha
   $$

4. Interpretamos el intervalo en el contexto del problema.

---

### **Relación entre la estimación por intervalos y las distribuciones muestrales**  
El fundamento teórico de los intervalos de confianza se basa en las **distribuciones muestrales**, las cuales describen cómo se comporta una estadística (por ejemplo, la media muestral) bajo repetidos muestreos de la misma población.

Algunos resultados clave en este contexto incluyen:

- **Teorema Central del Límite (TCL)**: Para muestras suficientemente grandes, la distribución de la media muestral sigue aproximadamente una normal:

  $$
  \bar{X} \sim N\left( \mu, \frac{\sigma^2}{n} \right)
  $$

- **Distribución t-Student**: Cuando la varianza poblacional es desconocida, la variable pivote sigue una distribución $t$ en lugar de una normal:

  $$
  T = \frac{\bar{X} - \mu}{S / \sqrt{n}} \sim t_{n-1}
  $$

- **Distribución Chi-cuadrado**: Se utiliza para estimar la varianza poblacional:

  $$
  \frac{(n-1)S^2}{\sigma^2} \sim \chi^2_{n-1}
  $$

Estas distribuciones permiten derivar intervalos de confianza adecuados para distintos parámetros y situaciones.

---

### **Ejemplo numérico: Estimación del gasto promedio de los hogares en alimentación**  
Supongamos que queremos estimar el gasto promedio mensual en alimentación de los hogares de una ciudad.  
Tomamos una muestra de 50 hogares y obtenemos los siguientes valores:

$$
\bar{X} = 350, \quad S = 50, \quad n = 50
$$

Deseamos construir un intervalo de confianza del **95%** para la media poblacional $\mu$.  

Dado que la varianza poblacional es desconocida, utilizamos la distribución $t$-Student:

$$
\bar{X} \pm t_{0.025, 49} \cdot \frac{S}{\sqrt{n}}
$$

Buscamos el cuantil $t_{0.025, 49}$, que es aproximadamente **2.009**:

$$
350 \pm 2.009 \times \frac{50}{\sqrt{50}}
$$

$$
350 \pm 14.19
$$

Por lo tanto, el intervalo de confianza del **95%** para el gasto promedio mensual en alimentación es:

$$
(335.81, 364.19)
$$

Esto significa que con un 95% de confianza, el gasto promedio de los hogares en la población se encuentra dentro de este intervalo, entendiendo que el método utilizado genera intervalos que en el largo plazo contienen el verdadero parámetro el 95% de las veces.



## **4. Intervalos de Confianza para la Media**  

### **Caso con varianza conocida**  
Cuando la varianza poblacional $\sigma^2$ es conocida, la media muestral $\bar{X}$ sigue una distribución normal:

$$
\bar{X} \sim N\left(\mu, \frac{\sigma^2}{n} \right)
$$

Por lo tanto, podemos construir un intervalo de confianza para $\mu$ basado en la distribución normal estándar:

$$
P\left( -z_{\alpha/2} \leq \frac{\bar{X} - \mu}{\sigma / \sqrt{n}} \leq z_{\alpha/2} \right) = 1 - \alpha
$$

Despejando $\mu$:

$$
P\left( \bar{X} - z_{\alpha/2} \frac{\sigma}{\sqrt{n}} \leq \mu \leq \bar{X} + z_{\alpha/2} \frac{\sigma}{\sqrt{n}} \right) = 1 - \alpha
$$

Por lo tanto, el intervalo de confianza del $100(1 - \alpha)\%$ para $\mu$ es:

$$
\left( \bar{X} - z_{\alpha/2} \frac{\sigma}{\sqrt{n}}, \bar{X} + z_{\alpha/2} \frac{\sigma}{\sqrt{n}} \right)
$$

#### **Ejemplo detallado con interpretación**  
Supongamos que queremos estimar la temperatura media global con base en una muestra de 40 mediciones. Se tiene:

$$
\bar{X} = 14.8, \quad \sigma = 2.5, \quad n = 40
$$

Deseamos construir un intervalo de confianza del 95%. Como la varianza es conocida, usamos la distribución normal:

$$
\bar{X} \pm z_{0.025} \frac{\sigma}{\sqrt{n}}
$$

Dado que $z_{0.025} \approx 1.96$, el intervalo de confianza es:

$$
14.8 \pm 1.96 \times \frac{2.5}{\sqrt{40}}
$$

$$
14.8 \pm 0.77
$$

Por lo tanto, el intervalo de confianza del 95% es:

$$
(14.03, 15.57)
$$

Interpretación: Con un 95% de confianza, podemos decir que el método empleado genera intervalos que en el largo plazo incluyen la verdadera temperatura media global el 95% de las veces, y en esta ocasión el intervalo obtenido es [14.03°C, 15.57°C].

---

### **Caso con varianza desconocida**  
Cuando la varianza poblacional $\sigma^2$ es desconocida, utilizamos la **distribución t-Student** en lugar de la normal. En este caso, el estimador de la varianza es la varianza muestral $S^2$ y la variable pivote es:

$$
T = \frac{\bar{X} - \mu}{S / \sqrt{n}} \sim t_{n-1}
$$

Siguiendo un procedimiento similar al anterior, el intervalo de confianza es:

$$
\left( \bar{X} - t_{\alpha/2, n-1} \frac{S}{\sqrt{n}}, \bar{X} + t_{\alpha/2, n-1} \frac{S}{\sqrt{n}} \right)
$$

#### **Ejemplo resuelto con comparación de métodos**  
Ahora, consideremos el mismo ejemplo anterior, pero sin conocer la varianza poblacional. En este caso, tenemos:

$$
\bar{X} = 14.8, \quad S = 2.5, \quad n = 40
$$

Como la varianza es desconocida, usamos la distribución $t$ con $n - 1 = 39$ grados de libertad. Para un nivel de confianza del 95%, $t_{0.025, 39} \approx 2.023$.

El intervalo de confianza es:

$$
14.8 \pm 2.023 \times \frac{2.5}{\sqrt{40}}
$$

$$
14.8 \pm 0.79
$$

Por lo tanto, el intervalo de confianza del 95% es:

$$
(14.01, 15.59)
$$

**Comparación**: El intervalo de confianza con la distribución $t$ es un poco más amplio que el obtenido con la normal, debido a la mayor incertidumbre en la estimación de la varianza.

---

### **Factores que afectan la precisión del intervalo**  

1. **Tamaño de la muestra ($n$)**  
   - A mayor tamaño de muestra, menor es la amplitud del intervalo.
   - La precisión mejora conforme $n$ aumenta.

2. **Variabilidad de los datos ($\sigma^2$ o $S^2$)**  
   - Si los datos presentan alta variabilidad, el intervalo será más amplio.

3. **Nivel de confianza ($1 - \alpha$)**  
   - Un mayor nivel de confianza aumenta la amplitud del intervalo.
   - Ejemplo: Un intervalo de confianza del 99% es más amplio que uno del 95%.



## **5. Intervalos de Confianza para la Diferencia de Medias**  

En muchas situaciones, se desea comparar dos poblaciones y determinar si existen diferencias significativas entre sus medias.  
Para ello, se construyen intervalos de confianza para la diferencia de medias **$\mu_1 - \mu_2$**.

Existen **dos casos principales**, dependiendo de si las varianzas poblacionales son conocidas o desconocidas.

---

### **Caso 1: Varianzas conocidas**  

Si $X_1, X_2, ..., X_{n_1}$ y $Y_1, Y_2, ..., Y_{n_2}$ son muestras de dos poblaciones normales con **varianzas conocidas** $\sigma_1^2$ y $\sigma_2^2$, la diferencia de medias muestrales sigue una distribución normal:

$$
\bar{X} - \bar{Y} \sim N\left( \mu_1 - \mu_2, \frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2} \right)
$$

El intervalo de confianza para **$\mu_1 - \mu_2$** es:

$$
\left( (\bar{X} - \bar{Y}) - z_{\alpha/2} \sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2}}, \quad (\bar{X} - \bar{Y}) + z_{\alpha/2} \sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2}} \right)
$$

#### **Ejemplo: Comparación de rendimiento académico**  

Se quiere comparar el rendimiento en matemáticas de dos colegios. Se toman muestras de **40** estudiantes de cada colegio, obteniendo:

- **Colegio 1:** $\bar{X} = 78$, $\sigma_1 = 10$, $n_1 = 40$
- **Colegio 2:** $\bar{Y} = 74$, $\sigma_2 = 12$, $n_2 = 40$

Construya un intervalo de confianza del **95%** para la diferencia de medias.

Para **95%** de confianza, $z_{0.025} = 1.96$.

Sustituyendo en la fórmula:

$$
(78 - 74) \pm 1.96 \sqrt{\frac{10^2}{40} + \frac{12^2}{40}}
$$

$$
4 \pm 1.96 \sqrt{\frac{100}{40} + \frac{144}{40}}
$$

$$
4 \pm 1.96 \times \sqrt{6.25}
$$

$$
4 \pm 1.96 \times 2.5
$$

$$
4 \pm 4.9
$$

El intervalo de confianza del **95%** es:

$$
(-0.9, 8.9)
$$

**Interpretación:**  
Como el intervalo incluye el **0**, no podemos afirmar con **95% de confianza** que exista una diferencia significativa en el rendimiento académico entre los colegios.

---

### **Caso 2: Varianzas desconocidas y diferentes**  

Si las varianzas poblacionales son **desconocidas pero diferentes**, las varianzas muestrales $S_1^2$ y $S_2^2$ se utilizan para estimarlas.  

El intervalo de confianza es:

$$
\left( (\bar{X} - \bar{Y}) - t_{\alpha/2, \nu} \sqrt{\frac{S_1^2}{n_1} + \frac{S_2^2}{n_2}}, \quad (\bar{X} - \bar{Y}) + t_{\alpha/2, \nu} \sqrt{\frac{S_1^2}{n_1} + \frac{S_2^2}{n_2}} \right)
$$

donde $\nu$ es la **aproximación de Welch** para los grados de libertad:

$$
\nu = \frac{\left( \frac{S_1^2}{n_1} + \frac{S_2^2}{n_2} \right)^2}{\frac{\left( S_1^2/n_1 \right)^2}{n_1 - 1} + \frac{\left( S_2^2/n_2 \right)^2}{n_2 - 1}}
$$

#### **Ejemplo: Comparación de tiempo de reacción**  

Se mide el tiempo de reacción de **20** conductores jóvenes y **25** conductores mayores, obteniendo:

- **Jóvenes:** $\bar{X} = 0.8$ seg, $S_1 = 0.15$, $n_1 = 20$
- **Mayores:** $\bar{Y} = 1.1$ seg, $S_2 = 0.2$, $n_2 = 25$

Construya un intervalo de confianza del **95%** para la diferencia de medias.

Para **95%** de confianza, buscamos $t_{\alpha/2, \nu}$. Primero calculamos $\nu$:

$$
\nu = \frac{\left( \frac{0.15^2}{20} + \frac{0.2^2}{25} \right)^2}{\frac{\left( 0.15^2/20 \right)^2}{19} + \frac{\left( 0.2^2/25 \right)^2}{24}}
$$

Aproximamos $\nu = 35$, por lo que $t_{0.025, 35} = 2.030$.

Sustituyendo en la fórmula:

$$
(0.8 - 1.1) \pm 2.030 \sqrt{\frac{0.15^2}{20} + \frac{0.2^2}{25}}
$$

$$
-0.3 \pm 2.030 \times \sqrt{0.001125 + 0.0016}
$$

$$
-0.3 \pm 2.030 \times 0.0535
$$

$$
-0.3 \pm 0.108
$$

El intervalo de confianza del **95%** es:

$$
(-0.408, -0.192)
$$

**Interpretación:**  
Como el intervalo **no** incluye el **0**, podemos afirmar con **95% de confianza** que hay una diferencia significativa en los tiempos de reacción, siendo más lento el grupo de conductores mayores.

---

### **Caso 3: Varianzas desconocidas pero iguales (Varianzas Pooled)**  

Si las varianzas poblacionales son **desconocidas pero iguales**, podemos calcular una **varianza combinada (pooled variance)**:

$$
S_p^2 = \frac{(n_1 - 1) S_1^2 + (n_2 - 1) S_2^2}{n_1 + n_2 - 2}
$$

El intervalo de confianza se calcula como:

$$
\left( (\bar{X} - \bar{Y}) - t_{\alpha/2, n_1 + n_2 - 2} \sqrt{S_p^2 \left( \frac{1}{n_1} + \frac{1}{n_2} \right)}, \quad (\bar{X} - \bar{Y}) + t_{\alpha/2, n_1 + n_2 - 2} \sqrt{S_p^2 \left( \frac{1}{n_1} + \frac{1}{n_2} \right)} \right)
$$

**Este método es menos general y se usa solo cuando hay evidencia de igualdad de varianzas.**

---

### **Conclusión**  
- Los intervalos de confianza para la diferencia de medias permiten comparar poblaciones.  
- Se deben considerar **varianzas conocidas, desconocidas diferentes o desconocidas iguales** para elegir la distribución adecuada.  
- Cuando las varianzas son desconocidas y diferentes, se usa la **aproximación de Welch**.  
- La interpretación del intervalo es clave: **si incluye el 0, no hay evidencia suficiente de diferencia significativa**.

---



## **6. Intervalos de Confianza para una Proporción**  

En muchas aplicaciones prácticas, el interés radica en estimar la **proporción poblacional** $p$ de individuos que poseen una cierta característica. Un ejemplo típico es la estimación de la proporción de votantes que apoyan a un candidato en una elección.

La estimación puntual de $p$ es la **proporción muestral**:

$$
\hat{p} = \frac{X}{n}
$$

donde:  
- $X$ es el número de individuos en la muestra que poseen la característica de interés.  
- $n$ es el tamaño de la muestra.  

Para construir un intervalo de confianza para $p$, utilizamos la aproximación normal a la distribución binomial (cuando $n$ es suficientemente grande). Según el **teorema del límite central**, la proporción muestral sigue aproximadamente una distribución normal:

$$
\hat{p} \sim N\left( p, \frac{p(1 - p)}{n} \right)
$$

Por lo tanto, el intervalo de confianza del **100(1 - \alpha)\%** para $p$ es:

$$
\hat{p} \pm z_{\alpha/2} \sqrt{\frac{\hat{p}(1 - \hat{p})}{n}}
$$

---

### **Demostración de la aproximación de $\frac{X}{n}$ y $\hat{p}$**  

Sea $X$ una variable aleatoria binomial con parámetros $n$ y $p$, es decir:

$$
X \sim \text{Bin}(n, p)
$$

Sabemos que la media y la varianza de una binomial son:

$$
E[X] = np, \quad \text{Var}(X) = np(1 - p)
$$

Dividiendo ambos lados por $n$, obtenemos la media y varianza de la proporción muestral $\hat{p}$:

$$
E\left[\frac{X}{n}\right] = p, \quad \text{Var}\left(\frac{X}{n}\right) = \frac{p(1 - p)}{n}
$$

Ahora, por el **teorema del límite central**, cuando $n$ es suficientemente grande, la variable aleatoria $X$ se distribuye aproximadamente como una normal:

$$
X \approx N\left( np, np(1 - p) \right)
$$

Dividiendo por $n$ en ambos lados:

$$
\frac{X}{n} \approx N\left( p, \frac{p(1 - p)}{n} \right)
$$

Esta es la justificación de la aproximación normal para la proporción muestral, que nos permite construir intervalos de confianza basados en la distribución normal estándar.

Para construir el intervalo de confianza, consideramos la variable tipificada:

$$
\frac{X/n - p}{\sqrt{p(1 - p)/n}} \approx N(0,1)
$$

De donde:

$$
P\left( -z_{\alpha/2} < \frac{\hat{p} - p}{\sqrt{p(1 - p)/n}} < z_{\alpha/2} \right) \approx 1 - \alpha
$$

Despejando $p$:

$$
P\left( \hat{p} - z_{\alpha/2} \sqrt{\frac{p(1 - p)}{n}} < p < \hat{p} + z_{\alpha/2} \sqrt{\frac{p(1 - p)}{n}} \right) \approx 1 - \alpha
$$

Dado que $p$ es desconocido, lo sustituimos por la proporción muestral $\hat{p}$ en la varianza:

$$
P\left( \hat{p} - z_{\alpha/2} \sqrt{\frac{\hat{p}(1 - \hat{p})}{n}} < p < \hat{p} + z_{\alpha/2} \sqrt{\frac{\hat{p}(1 - \hat{p})}{n}} \right) \approx 1 - \alpha
$$

Este es el **intervalo de confianza aproximado para $p$**.

---

### **Ejemplo práctico: Encuesta sobre intención de voto**  

Supongamos que en una encuesta sobre intención de voto, de una muestra de **1,200 votantes**, **420** indicaron que planean votar por un candidato. Construya un intervalo de confianza del **99%** para la proporción de personas que apoyan la propuesta.

#### **Paso 1: Calcular la proporción muestral**
$$
\hat{p} = \frac{420}{1200} = 0.35
$$

#### **Paso 2: Determinar el valor crítico de $z$**
Para un **99%** de confianza, el valor de $z_{\alpha/2}$ es **2.576**.

#### **Paso 3: Calcular el margen de error**
Sustituyendo $\hat{p}$ en la varianza:

$$
ME = 2.576 \times \sqrt{\frac{\hat{p}(1 - \hat{p})}{n}}
$$

$$
ME = 2.576 \times \sqrt{\frac{0.35 \times 0.65}{1200}}
$$

$$
ME = 2.576 \times 0.0157 = 0.0405
$$

#### **Paso 4: Construir el intervalo de confianza**
$$
(0.35 - 0.0405, 0.35 + 0.0405)
$$

$$
(0.3095, 0.3905)
$$

**Interpretación:**  
Podemos afirmar con **99% de confianza** que la proporción real de votantes que apoyan al candidato se encuentra entre **30.95% y 39.05%**.

---

### **Errores comunes en la interpretación de intervalos de confianza para proporciones**  

1. **Confusión entre el intervalo y la probabilidad**  
   - Incorrecto: "Hay un 99% de probabilidad de que $p$ esté en el intervalo."  
   - Correcto: "Si tomamos muchas muestras y construimos intervalos, el 99% de ellos contendrán a $p$."

2. **Asumir que la proporción muestral es el valor real de la población**  
   - La proporción muestral es solo una estimación. Su incertidumbre se refleja en el intervalo.

3. **No verificar las condiciones de validez**  
   - Si $n\hat{p} < 5$ o $n(1 - \hat{p}) < 5$, la aproximación normal puede ser incorrecta.



## **7. Intervalos de Confianza para la Varianza (Distribución Chi-cuadrado)**  

En muchas aplicaciones estadísticas es necesario estimar la **varianza poblacional** $\sigma^2$. A diferencia de la media o la proporción, la estimación de la varianza requiere el uso de la **distribución Chi-cuadrado**.

---

### **Justificación teórica**  

Si $X_1, X_2, ..., X_n$ es una muestra aleatoria de una población normal con media $\mu$ y varianza $\sigma^2$, la varianza muestral $S^2$ se define como:

$$
S^2 = \frac{1}{n - 1} \sum_{i=1}^{n} (X_i - \bar{X})^2
$$

Se puede demostrar que la siguiente variable aleatoria sigue una distribución **Chi-cuadrado** con $n - 1$ grados de libertad:

$$
\chi^2 = \frac{(n - 1) S^2}{\sigma^2} \sim \chi^2_{n-1}
$$

Utilizando los percentiles de la distribución Chi-cuadrado, se obtiene el intervalo de confianza del **100(1 - \alpha)\%** para $\sigma^2$:

$$
\left( \frac{(n - 1) S^2}{\chi^2_{\alpha/2, n-1}}, \frac{(n - 1) S^2}{\chi^2_{1-\alpha/2, n-1}} \right)
$$

Al tomar la raíz cuadrada de los extremos, se obtiene el intervalo para la desviación estándar $\sigma$:

$$
\left( \frac{\sqrt{(n - 1) S^2}}{\sqrt{\chi^2_{\alpha/2, n-1}}}, \frac{\sqrt{(n - 1) S^2}}{\sqrt{\chi^2_{1-\alpha/2, n-1}}} \right)
$$

---

### **Ejemplo aplicado: Control de calidad en la producción de componentes electrónicos**  

Supongamos que una empresa de manufactura quiere estimar la **variabilidad del diámetro** de un lote de componentes electrónicos. Se toma una muestra de **15 componentes**, obteniendo una varianza muestral de **0.004 cm²**.

Se desea construir un intervalo de confianza del **95%** para la varianza poblacional $\sigma^2$.

#### **Paso 1: Datos del problema**  
- Tamaño de la muestra: $n = 15$  
- Varianza muestral: $S^2 = 0.004$  
- Nivel de confianza: $95\% \Rightarrow \alpha = 0.05$  
- Grados de libertad: $n - 1 = 14$  

#### **Paso 2: Valores críticos de Chi-cuadrado**  
Buscamos en la tabla de la distribución **Chi-cuadrado** los valores críticos:

$$
\chi^2_{0.025, 14} = 26.12, \quad \chi^2_{0.975, 14} = 5.63
$$

#### **Paso 3: Calcular el intervalo de confianza**  
Sustituyendo en la fórmula:

$$
\left( \frac{(15 - 1) \times 0.004}{26.12}, \frac{(15 - 1) \times 0.004}{5.63} \right)
$$

$$
\left( \frac{0.056}{26.12}, \frac{0.056}{5.63} \right)
$$

$$
(0.00214, 0.00995)
$$

Por lo tanto, el intervalo de confianza del **95%** para la varianza poblacional es:

$$
(0.00214, 0.00995)
$$

#### **Paso 4: Intervalo de confianza para la desviación estándar**  
Tomando la raíz cuadrada de los extremos:

$$
\left( \sqrt{0.00214}, \sqrt{0.00995} \right)
$$

$$
(0.0463, 0.0997)
$$

Por lo tanto, el intervalo de confianza del **95%** para la desviación estándar poblacional es:

$$
(0.0463, 0.0997)
$$

**Interpretación:**  
Podemos afirmar con un **95% de confianza** que la variabilidad del diámetro de los componentes electrónicos se encuentra entre **0.0463 cm y 0.0997 cm**.

---



## **8. Determinación del Tamaño de Muestra para Estimar Parámetros Poblacionales**  

El cálculo del tamaño de muestra es esencial para garantizar que los intervalos de confianza tengan una **precisión adecuada** y cumplan con los requerimientos de **margen de error** predefinido.  
Para ello, se parte de la probabilidad de que la diferencia entre la media muestral y la media poblacional **no supere un margen de error $E$**.

---

### **8.1 Justificación del Error en la Estimación**  

Queremos encontrar $n$ de forma que se cumpla la siguiente condición:

$$
P(|\bar{X} - \mu| < E) = 1 - \alpha
$$

Dado que $\bar{X}$ es una variable aleatoria con distribución normal:

$$
\bar{X} \sim N\left( \mu, \frac{\sigma^2}{n} \right)
$$

Podemos reescribir la probabilidad como:

$$
P\left( -E < \bar{X} - \mu < E \right) = 1 - \alpha
$$

Dividiendo por $\sigma/\sqrt{n}$:

$$
P\left( -\frac{E}{\sigma/\sqrt{n}} < \frac{\bar{X} - \mu}{\sigma/\sqrt{n}} < \frac{E}{\sigma/\sqrt{n}} \right) = 1 - \alpha
$$

Dado que la variable estandarizada sigue una distribución normal estándar:

$$
Z = \frac{\bar{X} - \mu}{\sigma/\sqrt{n}} \sim N(0,1)
$$

Se tiene que:

$$
P\left( -z_{\alpha/2} < Z < z_{\alpha/2} \right) = 1 - \alpha
$$

Por lo tanto:

$$
\frac{E}{\sigma/\sqrt{n}} = z_{\alpha/2}
$$

Despejando $n$:

$$
n = \left( \frac{z_{\alpha/2} \sigma}{E} \right)^2
$$

Esta ecuación nos permite calcular el **tamaño de muestra mínimo** para garantizar que la estimación de $\mu$ tenga un error máximo de $E$ con confianza $1 - \alpha$.

---

### **8.2 Tamaño de muestra para estimar una media poblacional**  

Utilizando la ecuación:

$$
n = \left( \frac{z_{\alpha/2} \sigma}{E} \right)^2
$$

#### **Ejemplo 1: Determinación del tamaño de muestra para una media**  

Un fabricante de piezas mecánicas desea estimar la **longitud promedio** de un componente con una precisión de **$E = 0.2$ cm** y un nivel de confianza del **95%**.  
Se conoce que la desviación estándar del proceso es **$\sigma = 1.5$ cm**.

Para un **95%** de confianza, **$z_{0.025} = 1.96$**.

Sustituyendo en la ecuación:

$$
n = \left( \frac{1.96 \times 1.5}{0.2} \right)^2
$$

$$
n = \left( \frac{2.94}{0.2} \right)^2
$$

$$
n = (14.7)^2 = 216.09
$$

**Conclusión:** Se necesita una muestra de al menos **217 piezas** para garantizar un intervalo de confianza con un margen de error de **0.2 cm**.

---

### **8.3 Tamaño de muestra para estimar una proporción poblacional**  

Para una proporción poblacional $p$, se parte de la condición:

$$
P(|\hat{p} - p| < E) = 1 - \alpha
$$

Utilizando la distribución normal estándar para la proporción muestral:

$$
P\left( -z_{\alpha/2} < \frac{\hat{p} - p}{\sqrt{p(1 - p)/n}} < z_{\alpha/2} \right) = 1 - \alpha
$$

Despejando $n$:

$$
n = \frac{z_{\alpha/2}^2 p (1 - p)}{E^2}
$$

Si no se tiene una estimación previa de $p$, se usa **$p = 0.5$** porque maximiza la varianza y proporciona el tamaño de muestra más conservador.

#### **Ejemplo 2: Determinación del tamaño de muestra para una proporción**  

Un investigador quiere conocer la **proporción de personas que usan transporte público**, con un **margen de error del 3%** y un **nivel de confianza del 95%**.  
Si no tiene información previa de $p$, usa **$p = 0.5$**.

Para un **95%** de confianza, **$z_{0.025} = 1.96$**.

Sustituyendo:

$$
n = \frac{(1.96)^2 (0.5)(0.5)}{(0.03)^2}
$$

$$
n = \frac{3.8416 \times 0.25}{0.0009}
$$

$$
n = \frac{0.9604}{0.0009} = 1,067.1
$$

**Conclusión:** Se necesita una muestra de al menos **1,068 personas** para garantizar un intervalo de confianza con un margen de error de **3%**.

---

### **8.4 Determinación del tamaño de muestra cuando la varianza es desconocida**  

Si la desviación estándar $\sigma$ es desconocida, se puede hacer una **estimación preliminar**:

1. Utilizar **datos históricos** de estudios previos.  
2. Tomar una **muestra piloto** y calcular una **desviación estándar muestral $S$**.  
3. Usar un **valor conservador basado en la experiencia**.

Si se usa una muestra piloto, se sustituye **$S$ en lugar de $\sigma$** y se emplea la **distribución t-Student** en lugar de la normal.

#### **Ejemplo 3: Uso de una muestra piloto**  

Se quiere estimar el **tiempo promedio de carga de una batería** con un margen de error de **$E = 0.5$ horas** y un **nivel de confianza del 95%**.  
Se toma una **muestra piloto de 10 baterías**, obteniendo una **desviación estándar muestral de $S = 2$ horas**.  

Dado que $\sigma$ es desconocida, se usa la **distribución t-Student con $n-1$ grados de libertad**.  
Para un **95%** de confianza con **9 grados de libertad**, $t_{0.025, 9} = 2.262$.

Sustituyendo en la ecuación:

$$
n = \left( \frac{t_{\alpha/2, n-1} S}{E} \right)^2
$$

$$
n = \left( \frac{2.262 \times 2}{0.5} \right)^2
$$

$$
n = \left( \frac{4.524}{0.5} \right)^2
$$

$$
n = (9.048)^2 = 81.87
$$

**Conclusión:** Se necesita una muestra de al menos **82 baterías** para garantizar un intervalo de confianza con un margen de error de **0.5 horas**.

---

### **Conclusión**  
- **El tamaño de muestra es un factor clave** para garantizar precisión en la inferencia estadística.  
- Se debe considerar si la **varianza es conocida o desconocida** para aplicar la metodología adecuada.  
- Si la varianza es desconocida, una **muestra piloto** puede ayudar a realizar una estimación preliminar.  
- **El nivel de confianza, el margen de error y la variabilidad de los datos afectan directamente el tamaño de muestra necesario**.

---
