# ¬øQu√© es un intervalo de confianza?

Un **intervalo de confianza (IC)** es un **rango de valores** que se construye a partir de datos muestrales y que pretende **estimar un par√°metro desconocido de la poblaci√≥n** (por ejemplo, media, varianza, proporci√≥n).

Ejemplo informal:

> Observ√© que la media de mi muestra es 10.
> Un IC95% podr√≠a ser: (8, 12).
> Entonces digo: ‚ÄúCon un 95% de confianza, la media poblacional est√° entre 8 y 12‚Äù.

üîπ **Clave**: No dice ‚Äúla probabilidad de que el par√°metro est√© ah√≠‚Äù, sino que **si repitieras el muestreo muchas veces**, el 95% de los IC construidos incluir√≠an el verdadero valor.

---

# ¬øPara qu√© sirven?

Para **cuantificar la incertidumbre** en la estimaci√≥n de par√°metros poblacionales.

Se usan cuando quieres:
- Estimar par√°metros poblacionales (media, proporci√≥n, varianza)
- Medir precisi√≥n de una estimaci√≥n
- Comparar poblaciones (ej. diferencia de medias, diferencia de proporciones)
- Evaluar relevancia estad√≠stica
- Complementar el p-value

Ejemplo:

* Media muestral = 10
* IC95% = (9, 11)

‚Üí La estimaci√≥n es **m√°s precisa** que si fuera (5, 15)

---

# ¬øCu√°les son los inputs?

Depende del tipo de IC, pero en general necesitas:

### **1) Datos muestrales**

* Observaciones directas
* Ej: alturas de personas, calificaciones, tiempos de reacci√≥n‚Ä¶

De ah√≠ obtienes:

* Media muestral
* Varianza muestral
* Tama√±o de muestra

### **2) Nivel de confianza**

* Ej: 95%, 99%
* Decide cu√°n ‚Äúancho‚Äù ser√° el intervalo

### **3) Supuestos / Conocimientos previos**

Algunos IC requieren:

* Varianza conocida o desconocida
* Normalidad
* Independencia
* Tama√±o m√≠nimo de muestra

Seg√∫n esto eliges:

* Distribuci√≥n Normal (Z)
* Distribuci√≥n t
* Distribuci√≥n chi-cuadrado
* Distribuci√≥n F

---

# ¬øDe d√≥nde vienen los datos?

Siempre vienen de un **muestreo** de la poblaci√≥n.

Pero puede haber dos escenarios:

### 1) Un solo muestreo

Tienes un conjunto de datos observado **una sola vez**.
A partir de esa √∫nica muestra, calculas el IC.

- Este es el caso m√°s com√∫n.

Ej:

* Mido 30 personas
* Estimo Œº con IC95% ‚Üí (xÃÑ ¬± margen)

No necesitas m√∫ltiples muestras:

- Basta **una sola muestra**

---

### 2) M√∫ltiples muestreos *te√≥ricos*

Para **interpretar** el IC, uno se imagina que:

> Si pudi√©semos repetir el muestreo infinitas veces, el 95% de los IC incluir√≠an el verdadero par√°metro poblacional.

PERO EN LA PR√ÅCTICA NO LO HACEMOS.
Solo usamos una muestra y construimos un IC.

---

# ¬øEntonces necesitamos varias muestras para construir un IC?

**NO**

Con **UNA sola muestra real** se construye el IC.
La l√≥gica de ‚Äúmuchas muestras‚Äù es conceptual para explicar por qu√© funciona el IC.

---

# ¬øPor qu√© depende del muestreo?

Porque:

* La muestra cambia cada vez que se repite la recolecci√≥n
* Entonces los estad√≠sticos muestrales (media, varianza, proporci√≥n) cambian
* Entonces el IC cambia

El intervalo captura la incertidumbre porque **la muestra es solo una aproximaci√≥n a la poblaci√≥n**.

---

# Intuici√≥n gr√°fica

- Imag√≠nate que repites un experimento 100 veces.
Cada vez obtienes:

* Una muestra
* Una media
* Un IC

‚Üí Algunos IC cubrir√°n el par√°metro real, otros no.

Si el IC es 95%, esperas que ~95 de 100 lo cubran.

---

# ¬øQu√© se interpreta cuando obtengo un IC?

Interpretaci√≥n correcta:

> ‚ÄúSi repiti√©ramos el muestreo muchas veces, el 95% de los intervalos generados incluir√≠an el verdadero par√°metro poblacional.‚Äù

Interpretaci√≥n incorrecta:

- ‚ÄúHay 95% de probabilidad de que Œº est√© dentro del intervalo.‚Äù

(no es probabilidad del par√°metro; es probabilidad de los intervalos)

---

# - ¬øPor qu√© no es probabilidad del par√°metro?

Porque el par√°metro es **fijo pero desconocido**.
Lo que cambia es el intervalo.

---

# - Relaci√≥n con el tama√±o de muestra

A mayor ( n ):

* La variabilidad muestral ‚Üì
* El error est√°ndar ‚Üì
* El intervalo se vuelve m√°s estrecho

‚Üí Mejor precisi√≥n

---

# Resumen

| Pregunta                                 | Respuesta                                               |
| ---------------------------------------- | ------------------------------------------------------- |
| ¬øPara qu√© sirve?                         | Para estimar par√°metros poblacionales con incertidumbre |
| ¬øQu√© necesito?                           | Datos muestrales, nivel de confianza                    |
| ¬øRequiere m√∫ltiples muestras reales?     | No                                                      |
| ¬øPor qu√© se habla de m√∫ltiples muestras? | Es una interpretaci√≥n te√≥rica                           |
| ¬øQu√© distribuciones usan?                | Normal, t, œá¬≤, F seg√∫n el caso                          |
| ¬øQu√© entrega?                            | Un rango donde probablemente est√° el par√°metro          |
| ¬øEl par√°metro cambia?                    | No                                                      |
| ¬øEl intervalo cambia?                    | S√≠, seg√∫n la muestra                                    |

---

- Intervalo de confianza para la media (varianza conocida)

In [6]:
import numpy as np
from scipy import stats

# Datos
data = np.array([10, 12, 9, 11, 13, 14])
sigma = 2       # varianza poblacional conocida
alpha = 0.05    # 95%

n = len(data)
mean = np.mean(data)

z_crit = stats.norm.ppf(1 - alpha/2)
margin = z_crit * sigma / np.sqrt(n)

IC = (mean - margin, mean + margin)
IC


(np.float64(9.899696107881564), np.float64(13.100303892118436))

- Intervalo de confianza para la media (varianza desconocida)

In [7]:
import numpy as np
from scipy import stats

# Datos
data = np.array([10, 12, 9, 11, 13, 14])
alpha = 0.05   # 95%

n = len(data)
mean = np.mean(data)
sd = np.std(data, ddof=1)

t_crit = stats.t.ppf(1 - alpha/2, df=n-1)
margin = t_crit * sd / np.sqrt(n)

IC = (mean - margin, mean + margin)
IC

(np.float64(9.536685693019676), np.float64(13.463314306980324))

- Intervalo de confianza para la diferencia de medias pareadas

In [10]:
import numpy as np
from scipy import stats

# Datos m√°s realistas
antes   = np.array([10, 12,  9, 11, 13, 14, 15, 16])
despues = np.array([ 9, 11,  8, 10, 12, 15, 14, 15])
alpha = 0.05   # 95%

# Diferencias
d = antes - despues

n = len(d)
d_mean = np.mean(d)
d_sd = np.std(d, ddof=1)

t_crit = stats.t.ppf(1 - alpha/2, df=n-1)
margin = t_crit * d_sd / np.sqrt(n)

IC = (d_mean - margin, d_mean + margin)
d_mean, IC


(np.float64(0.75),
 (np.float64(0.1588439371018039), np.float64(1.3411560628981962)))

- Intervalo de confianza para la diferencia de medias (varianza conocida)

In [11]:
import numpy as np
from scipy import stats

# Datos
grupo1 = np.array([10, 12,  9, 11, 13])
grupo2 = np.array([ 8,  9, 10,  7,  9])

# Varianzas poblacionales conocidas
sigma1 = 2
sigma2 = 2
alpha = 0.05   # 95%

# Estad√≠sticos
mean1 = np.mean(grupo1)
mean2 = np.mean(grupo2)

n1 = len(grupo1)
n2 = len(grupo2)

# Valor cr√≠tico Z
z_crit = stats.norm.ppf(1 - alpha/2)

# Diferencia de medias
diff = mean1 - mean2

# Error est√°ndar combinado
se = np.sqrt(sigma1**2 / n1 + sigma2**2 / n2)

# Intervalo
margin = z_crit * se
IC = (diff - margin, diff + margin)

diff, IC

(np.float64(2.4000000000000004),
 (np.float64(-0.07918012921824591), np.float64(4.879180129218247)))

- Intervalo de confianza para la diferencia de medias (varianza desconocida)

In [12]:
import numpy as np
from scipy import stats

# Datos
grupo1 = np.array([10, 12,  9, 11, 13])
grupo2 = np.array([ 8,  9, 10,  7,  9])

alpha = 0.05   # 95%

# Estad√≠sticos
mean1 = np.mean(grupo1)
mean2 = np.mean(grupo2)

sd1 = np.std(grupo1, ddof=1)
sd2 = np.std(grupo2, ddof=1)

n1 = len(grupo1)
n2 = len(grupo2)

# Error est√°ndar
se = np.sqrt(sd1**2 / n1 + sd2**2 / n2)

# Grados de libertad (Welch)
df = (sd1**2 / n1 + sd2**2 / n2)**2 / (
    (sd1**2 / n1)**2 / (n1 - 1) +
    (sd2**2 / n2)**2 / (n2 - 1)
)

# Valor cr√≠tico t
t_crit = stats.t.ppf(1 - alpha/2, df)

# IC
diff = mean1 - mean2
margin = t_crit * se
IC = (diff - margin, diff + margin)

diff, IC

(np.float64(2.4000000000000004),
 (np.float64(0.35423613919737873), np.float64(4.4457638608026215)))

- Intervalo de confianza para la varianza (poblaci√≥n √∫nica)

In [13]:
import numpy as np
from scipy import stats

# Datos
data = np.array([10, 12, 9, 11, 13, 14, 15])
alpha = 0.05   # 95%

n = len(data)
s2 = np.var(data, ddof=1)

# Valores cr√≠ticos chi-cuadrado
chi2_lower = stats.chi2.ppf(1 - alpha/2, df=n-1)
chi2_upper = stats.chi2.ppf(alpha/2,     df=n-1)

IC = ((n-1)*s2 / chi2_lower, (n-1)*s2 / chi2_upper)
IC

(np.float64(1.9378000328712495), np.float64(22.629110771106212))

- Intervalo de confianza para el ratio de varianzas (œÉ‚ÇÅ¬≤ / œÉ‚ÇÇ¬≤)

In [14]:
import numpy as np
from scipy import stats

# Datos
grupo1 = np.array([10, 12, 9, 11, 13, 14])
grupo2 = np.array([ 8,  9, 7, 10,  9, 11])

alpha = 0.05   # 95%

# Varianzas muestrales
s1 = np.var(grupo1, ddof=1)
s2 = np.var(grupo2, ddof=1)

n1 = len(grupo1)
n2 = len(grupo2)

# Ratio de varianzas
ratio = s1 / s2

# Valores cr√≠ticos F
f_lower = stats.f.ppf(alpha/2,     dfn=n1-1, dfd=n2-1)
f_upper = stats.f.ppf(1-alpha/2,   dfn=n1-1, dfd=n2-1)

# Intervalo
IC = (ratio / f_upper, ratio / f_lower)
ratio, IC

(np.float64(1.75),
 (np.float64(0.2448791629022575), np.float64(12.506168200282456)))

- Intervalo de confianza para una proporci√≥n

In [15]:
import numpy as np
from scipy import stats

# Datos
x = 120   # n√∫mero de √©xitos
n = 200   # tama√±o muestral
alpha = 0.05   # 95%

# Proporci√≥n muestral
p_hat = x / n

# Valor cr√≠tico z
z_crit = stats.norm.ppf(1 - alpha/2)

# Error est√°ndar
se = np.sqrt(p_hat * (1 - p_hat) / n)

# Intervalo
IC = (p_hat - z_crit * se, p_hat + z_crit * se)
p_hat, IC

(0.6, (np.float64(0.5321048559554297), np.float64(0.6678951440445703)))

- Intervalo de confianza para la diferencia de proporciones

In [16]:
import numpy as np
from scipy import stats

# Datos
x1 = 120   # √©xitos grupo 1
n1 = 200   # tama√±o grupo 1

x2 = 150   # √©xitos grupo 2
n2 = 260   # tama√±o grupo 2

alpha = 0.05   # 95%

# Proporciones muestrales
p1 = x1 / n1
p2 = x2 / n2

# Diferencia
diff = p1 - p2

# Valor cr√≠tico Z
z_crit = stats.norm.ppf(1 - alpha/2)

# Error est√°ndar
se = np.sqrt(p1*(1-p1)/n1 + p2*(1-p2)/n2)

# Intervalo
IC = (diff - z_crit * se, diff + z_crit * se)
diff, IC

(0.023076923076923106,
 (np.float64(-0.06756542845377611), np.float64(0.11371927460762232)))