# 3. ESTADISTICA INFERENCIAL.

## 3.1. Estimadores y sus propiedades.

**Definición:** Sea $X_1, X_2, \dots, X_n$ una muestra aleatoria de una población con distribución desconocida, y sea $\theta$ un parámetro de la población (como la media, la varianza, etc.). Un **estimador** de $\theta$ es cualquier función $\hat{\theta}(X_1, X_2, \dots, X_n)$ que asigna a cada muestra $(X_1, X_2, \dots, X_n)$ un valor estimado de $\theta$. Es decir, $\hat{\theta}$ es una estadística utilizada para estimar el valor de un parámetro poblacional.

**Propiedades de los Estimadores.**

1. **Insesgadez (No Sesgo)**

   Un estimador $\hat{\theta}$ es **insesgado** para $\theta$ si:

   $$
   E(\hat{\theta}) = \theta
   $$

   Es decir, el valor esperado del estimador es igual al valor verdadero del parámetro. Esto significa que, en promedio, el estimador no sobreestima ni subestima el parámetro.

2. **Consistencia**

   Un estimador $\hat{\theta}_n$ es **consistente** para $\theta$ si:

   $$
   \hat{\theta}_n \xrightarrow{P} \theta \quad \text{cuando} \quad n \to \infty
   $$

   Esto significa que, a medida que el tamaño de la muestra $n$ aumenta, el estimador $\hat{\theta}_n$ converge en probabilidad al valor verdadero $\theta$. En otras palabras, el estimador se hace más preciso a medida que se obtienen más datos.

3. **Eficiencia**

   Un estimador $\hat{\theta}$ es **eficiente** si, entre todos los estimadores insesgados de $\theta$, tiene la menor varianza. Formalmente, si $\hat{\theta}_1$ y $\hat{\theta}_2$ son dos estimadores insesgados de $\theta$, entonces $\hat{\theta}_1$ es más eficiente que $\hat{\theta}_2$ si:

   $$
   \text{Var}(\hat{\theta}_1) \leq \text{Var}(\hat{\theta}_2)
   $$

   Y $\hat{\theta}_1$ es más eficiente en el sentido de que tiene una menor varianza.

4. **Suficiencia**

   Un estimador $\hat{\theta}$ es **suficiente** para el parámetro $\theta$ si la estadística $\hat{\theta}$ contiene toda la información relevante sobre $\theta$ contenida en la muestra. Formalmente, $\hat{\theta}$ es suficiente si y solo si cumple con el **teorema de factorización de Neyman-Fisher**. Es decir, la función de verosimilitud $L(\theta; X_1, X_2, \dots, X_n)$ de la muestra puede factorizarse como:

   $$
   L(\theta; X_1, X_2, \dots, X_n) = g(\hat{\theta}; \theta) h(X_1, X_2, \dots, X_n)
   $$

   Donde $g(\hat{\theta}; \theta)$ depende de $\hat{\theta}$ y $\theta$, y $h(X_1, X_2, \dots, X_n)$ es independiente de $\theta$.

5. **Robustez**

   Un estimador $\hat{\theta}$ es **robusto** si su rendimiento no se ve drásticamente afectado por violaciones pequeñas a las suposiciones del modelo, como la presencia de valores atípicos o distribuciones no normales. Formalmente, esto significa que, incluso cuando se desvían ciertas condiciones del modelo ideal (como normalidad de los datos o homogeneidad de varianzas), el estimador aún sigue siendo una buena aproximación del parámetro $\theta$.


### 3.1.1. Estimador Máximo Verosímil.

Existen distintos métodos para estimar parámetros desconocidos a partir de un conjunto de datos. El Estimador Máximo Verosímil (MLE) responde a la siguiente pregunta:

¿Para qué valor del parámetro, los datos observados tienen la probabilidad más alta?

**Función de verosímilitud.** Sea $X_1,X_2,\dots,X_n$ una muestra aleatoria con $f(x;\theta)$. La función de verosimilitud (likelihood) es:
$$ f(x_1,\dots,x_n;\theta) = f(x_1;\theta)\cdots f(x_n;\theta) $$
Entonces, 
$$ L(x_1,\dots,x_n;\theta) = \prod_{i=1}^n f(x_i,\theta) $$

<font color="blue">**EJEMPLO:**</font> Una moneda se lanza 100 veces. Dado que se obtienen 55 soles, econtrar el MLE para la probabilidad $p$ de obtener sol en un sólo lanzamiento,

Podemos pensar en contar el número de soles en los 100 lanzamientos, entonces la probabilidad de obtener 55 soles en este experimento, es la siguiente:

Si $X:$ el numero de soles que se obtienen al lanzar una moneda, se tiene que $X\sim Bin(100,p)$, es decir, 

$$ P(55 soles; p) = \binom{100}{55}p^{55}(1-p)^{100-55} $$

Si $X_1,\dots,X_n$ es una m.a. Poisson($\lambda$), entonces
$$ L(x_1,\dots,x_n;\lambda) = \frac{e^{-n\lambda} \lambda^{\sum x_i }}{\prod x_i !}$$
**Estimador Máximo Verosímil** es el valor de $\theta$, donde $L(x_1,\dots,x_n;\theta)$ alcanza el máximo.

Pasos:

- $$ L(x_1,\dots,x_n;\theta) = \prod_{i=1}^n f(x_i,\theta) $$
- $$\ln L(x_1,\dots,x_n;\theta) $$
- $$ \frac{d\ln L(x_1,\dots,x_n;\theta)}{d\theta} $$
- $$ \frac{d\ln L(x_1,\dots,x_n;\theta)}{d\theta} = 0 $$
  y despejar $\theta$ para encontrar el máximo.

Para nuestro caso, tenemos
$$ \frac{P(55 soles ;p)}{dp}=\binom{100}{55}p^{55}(1-p)^{45} - 45p^{55}(1-p)^44=0$$
entonces, resolviendo para $p$, se tiene
$$ \binom{100}{55}p^{55}(1-p)^{45}=45^{55}(1-p)^44 $$
entonces,
$$ 55(1-p) = 45p $$
entonces, 
$$p = \frac{55}{100}$$

Por lo tanto, el MLE para $p$, es $\hat{p}=0.55$

In [None]:
from scipy.stats import bernoulli, binom 
import numpy as np
import sympy # para calculo simbolico y algebraico -> encontra el estimador de maneta analítica
from sympy.abc import x

# Definir a p como una variable simbolica positiva

p = sympy.symbols('p', positive = True )
f = p**55 * (1-p)**(100-55)
phat = sympy.solve(sympy.diff(f,p),p)[0]

print("Es estimador de máxima verosimilitud es", phat)

<font color="blue">**EJEMPLO:**</font>

In [None]:
r = binom.rvs(1,0.7, size=100)
r

In [None]:
f = p**x*(1-p)**(1-x)
J = np.prod([f.subs(x,i) for i in r])
logJ = sympy.expand_log(sympy.log(J)) #logaritmo
phat = sympy.solve(sympy.diff(logJ,p),p)[0]
print("Es estimador de máxima verosimilitud es", phat)

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import binom

# Paso 1: datos
np.random.seed(42)
r = binom.rvs(1, 0.7, size=100)  # muestra Bernoulli

# Paso 2: estimador MLE (frecuencia relativa)
phat = np.mean(r)
print("El estimador de máxima verosimilitud es:", phat)

# Paso 3: función de verosimilitud (numérica)
def verosimilitud(p, datos):
    p = np.clip(p, 1e-6, 1 - 1e-6)  # evitar log(0)
    return np.prod(p**datos * (1 - p)**(1 - datos))

def log_verosimilitud(p, datos):
    p = np.clip(p, 1e-6, 1 - 1e-6)  # evitar log(0)
    return np.sum(datos * np.log(p) + (1 - datos) * np.log(1 - p))

# Paso 4: graficar
p_vals = np.linspace(0.01, 0.99, 200)
likelihood_vals = [verosimilitud(p, r) for p in p_vals]
log_likelihood_vals = [log_verosimilitud(p, r) for p in p_vals]

plt.figure(figsize=(12, 5))

# Verosimilitud
plt.subplot(1, 2, 1)
plt.plot(p_vals, likelihood_vals, label='Verosimilitud', color='blue')
plt.axvline(phat, color='red', linestyle='--', label=f'MLE = {phat:.3f}')
plt.xlabel('p')
plt.ylabel('L(p)')
plt.title('Función de Verosimilitud')
plt.legend()

# Log-Verosimilitud
plt.subplot(1, 2, 2)
plt.plot(p_vals, log_likelihood_vals, label='Log-Verosimilitud', color='green')
plt.axvline(phat, color='red', linestyle='--', label=f'MLE = {phat:.3f}')
plt.xlabel('p')
plt.ylabel('log L(p)')
plt.title('Función de Log-Verosimilitud')
plt.legend()

plt.tight_layout()
plt.show()


$\color{red}{\text{Ejercicio.}}$ El tiempo de retardo para pacientes con enfermedad coronaria potencial se define como la duración entre el comienzo de un síntoma agudo cardiovascular y la llegada a la unidad de emergencia.

Se supone que el tiempo de retardo sigue una distribución exponencial con parámetro $\theta $.

Se registraron los tiempos de retardo (en minutos) en la clínica para los primeros 20 pacientes:

$$ 525, \ 719, \ 2880, \ 150, \ 30, \ 251, \ 45, \ 858, \ 15, \ 47, \ 90, \ 56, \ 68, \ 6, \ 189, \ 180, \ 60, \ 60, \ 294, \ 747 $$

- Encuentra un estimador por el método de momentos para la media de la distribución.
- Encuentra el valor del estimador con los datos dados.

El método de momentos iguala la media teórica con la media muestral:

$$\mathbb{E}(X) = \frac{1}{\theta} = \bar{x}$$

Entonces
$$\theta = \frac{1}{\bar{x}}$$

Y como queremos estimar la media, que es $ \mu = \frac{1}{\theta}$, el estimador de la media es la media muestral $\mu = \bar{x}$

In [None]:
from scipy.stats import expon

# Lista de tiempos de retardo (en minutos)
tiempos = [525, 719, 2880, 150, 30, 251, 45, 858, 15, 47,
    90, 56, 68, 6, 189, 180, 60, 60, 294, 747]

# Número de observaciones
n = len(tiempos)

# Cálculo de la media muestral (estimador de la media)
media_muestral = sum(tiempos) /n

# Mostrar el resultado

print(f"Estimador de la media (método de momentos): {media_muestral:.2f} minutos")

media = sum(tiempos) / len(tiempos)

# Calcular el estimador de theta
theta_estimado = 1 / media

# Mostrar resultado
print(f"Estimador de θ (theta): {theta_estimado:.6f}")

# --- Gráfico ---

# Histograma de los datos
plt.hist(tiempos, bins=15, density=True, alpha=0.6, color='skyblue', label='Datos')

# Rango de valores para graficar la densidad
x_vals = np.linspace(0, max(tiempos) * 1.1, 500)

# Densidad teórica con θ estimado → media = 1/θ
pdf_vals = expon.pdf(x_vals, scale=1/theta_estimado)  # scale = 1/θ

# Graficar la densidad
plt.plot(x_vals, pdf_vals, color='red', lw=2, label='Densidad exponencial ajustada')

# Detalles del gráfico
plt.title('Ajuste de distribución exponencial a los tiempos de retardo')
plt.xlabel('Tiempo (minutos)')
plt.ylabel('Densidad')
plt.legend()
plt.grid(True)
plt.show()

$\color{red}{\text{Ejercicio.}}$ Sea una muestra aleatoria $X_1, \ldots, X_n \overset{iid}{\sim} \mathcal{N}(\mu, \sigma^2) $.
Queremos encontrar el estimador de máxima verosimilitud para $\mu$ y $\sigma^2$.

La función de densidad es:
$$ f(x; \mu, \sigma^2) = \frac{1}{\sqrt{2\pi \sigma^2}} \exp\left(-\frac{(x - \mu)^2}{2\sigma^2}\right) \cdot \mathbf{1}_{(-\infty, \infty)}(x)$$

La verosimilitud conjunta para $n$ observaciones es:

$$ L(\mu,\sigma^{2}) = \prod_{i=1}^n f(x_i;\mu,\sigma^{2}) = \left(\frac{1}{\sqrt 2\pi\sigma^{2}} \right)^{n} exp \left( - \frac{1}{2\sigma^{2}} \sum_{i=1}^{n} (x_{i} - \mu)^{2} \right)$$

Tomamos logaritmo para facilitar la derivación:

$$\ell(\mu,\sigma^{2})= Log\: L(\mu,\sigma^{2}) = - \frac{n}{2} log\:(2\pi) - \frac{n}{2}log\:(\sigma^{2})  - \frac{1}{2\sigma^{2}}\sum_{i=1}^{n} (x_{i} - \mu)^{2}$$

Derivamos e igualamos a cero:

Derivada con respecto a $\mu$

$$\frac{\partial \ell}{\partial \mu} = \frac{1}{\sigma^{2}} \sum_{i=1}^{n} (x_{i} - \mu) = 0 \Rightarrow \hat{\mu} = \frac{1}{n} \sum_{i=1}^{n} x_{i}$$

Derivada con respecto a $\sigma^{2}$

$$\frac{\partial \ell}{\partial \sigma^{2}} = - \frac{n}{2\sigma^{2}} + \frac{1}{2\sigma^{4}} \sum_{i=1}^{n} (x_{i} - \mu)^{2} = 0 \Rightarrow \hat{\sigma}^{2} = \frac{1}{n} \sum_{i=1}^{n} (x_{i} - \hat{\mu})^{2}$$


In [None]:
import numpy as np

# Datos de la muestra (ejemplo de datos aleatorios)
muestra = np.array([2.3, 4.1, 5.2, 3.8, 6.1, 7.3, 8.0, 5.5, 4.2, 3.7])

# Estimador de la media (MLE)
mu_mle = np.mean(muestra)

# Estimador de la varianza (MLE)
sigma2_mle = np.mean((muestra - mu_mle) ** 2)

# Mostrar los resultados
print(f"Estimador de la media (MLE): {mu_mle:.4f}")
print(f"Estimador de la varianza (MLE): {sigma2_mle:.4f}")

$\color{red}{\text{Ejercicio.}}$ Suponga que la vida util de los focos de cierta marca, se modela mediante una distribución expoencial de parametro $\theta$ (desconocido). Probamos 5 focos y encontramos que tienen una vida útil de $2,3,1,3$ y $5$ años, respectivamente. ¿Cuál es el MLE para $\theta$?

La función de densidad es:

$$f(x;\theta) = \theta e ^{-\theta x}, x \ge 0, \theta >0$$

Para una muestra $x_{1}, ..., x_{n} \sim Exp(\theta)$, la función de log-verosimilitud es:

$$ \ell (\theta) = n \: log \:\theta - \theta \sum_{i=1}^{n} x_{i}$$

Derivamos con respecto a $\theta$ e igualamos a cero:

$$\frac{\mathscr{d}\ell}{\mathscr{d}\theta} = \frac{n}{\theta} - \sum x_{i} = 0 \Rightarrow \hat{\theta}_{MLE} = \frac{n}{\sum x_{i}}$$

Lo aplicamos a los datos (2, 3, 1, 3, 5):

Entonces n = 15, $\sum x_{i} = 14$

$$\hat{\theta}_{MLE} = \frac{5}{14} \approx 0.3571$$


In [None]:
# Datos de la vida útil de los focos (en años)
datos = [2, 3, 1, 3, 5]

# Número de observaciones
n = len(datos)

# Suma de las observaciones
suma_datos = sum(datos)

# Estimador MLE de theta
theta_mle = n / suma_datos

# Mostrar resultado
print(f"Estimador MLE de θ: {theta_mle:.4f}")

$\color{red}{\text{Ejercicio.}}$ Sea $(x_{1}, ..., x_{n})$ una m.a.

$$f(x;\theta) = \theta(1+x)^{-(1+\theta)} \upharpoonleft\mid _{\{0,\infty\}}^{(x)}, \theta > 0$$

Estimar $\theta$ por momentos asumiendo que $\theta$ > 1

**Solución:**

**Paso 1:** Calcular $\mathbb{E}[X]$

Calculamos la esperanza teórica:

$$
\mathbb{E}[X] = \int_0^\infty x \cdot \theta(1 + x)^{-(1 + \theta)} \, dx = \frac{1}{\theta - 1}, \quad \text{para } \theta > 1
$$

**Paso 2:** Igualar con la media muestral

Usamos el método de los momentos, igualando la esperanza con la media muestral $\bar{x}$:

$$
\bar{x} = \frac{1}{\theta - 1}
$$

Despejando $\theta$:

$$
\hat{\theta} = 1 + \frac{1}{\bar{x}}
$$

**Por lo tanto, la estimación por momentos de $\theta$ es:**

$$
\boxed{\hat{\theta} = 1 + \frac{1}{\bar{x}}}
$$

In [None]:
import numpy as np

# Datos de ejemplo (puedes reemplazarlos por tu muestra real)
x = np.array([1.2, 0.7, 2.1, 3.4, 0.9])  # Ejemplo

# Media muestral
x_bar = np.mean(x)

# Estimación por momentos de theta
theta_hat = 1 + 1 / x_bar

print(f"Media muestral: {x_bar:.4f}")
print(f"Estimación por momentos de θ: {theta_hat:.4f}")

## 3.2. Intervalos de Confianza.

In [None]:
import numpy as np
import matplotlib.pyplot as plt
import scipy.stats as st

### 3.2.1. Intervalo de Confianza para la media de una distribución normal (σ conocida)

Sea $X_1, \dots, X_n$ una m.a. $X_i \sim \mathcal{N}(\mu, \sigma^2)$. Entonces:

- $\bar{X} \sim \mathcal{N}(\mu, \frac{\sigma^2}{n})$
- $Z = \frac{\bar{X} - \mu}{\sigma / \sqrt{n}} \sim \mathcal{N}(0,1)$

**Nivel de significancia (error): $\alpha$**

El intervalo de confianza se basa en que:
$$
\mathbb{P}\left( -z_{\alpha/2} < \frac{\bar{X} - \mu}{\sigma / \sqrt{n}} < z_{\alpha/2} \right)
= \mathbb{P}\left( \bar{X} - z_{\alpha/2} \frac{\sigma}{\sqrt{n}} < \mu < \bar{X} + z_{\alpha/2} \frac{\sigma}{\sqrt{n}} \right)
= 1 - \alpha
$$

**El intervalo del $(1 - \alpha) \cdot 100\%$ de confianza para $\mu$ (con $\sigma$ conocida) es:**

$$
\left( \bar{X} - z_{\alpha/2} \frac{\sigma}{\sqrt{n}}, \quad \bar{X} + z_{\alpha/2} \frac{\sigma}{\sqrt{n}} \right)
$$
donde

- $\sigma$ = desviación estándar  
- $\frac{\sigma}{\sqrt{n}}$ = error estándar de la media  
- $z_{\alpha/2}$ determina el nivel de confianza  
- El intervalo está centrado en $\bar{X}$

**Observación**

- A mayor $n$, menor es el error estándar, y el intervalo de confianza es más pequeño.
- Esto hace que se acerque más a la media $\mu$, es decir, que haya menor variación.


<font color="blue">**EJEMPLO:**</font> Para tratar de estimar la media de consumo por cliente en un gran restaurante, se reunieron datos de una muestra de 49 clientes durante 3 semanas.

**a)** Supongamos que la **desviación estándar de la población** es de $\$2.50$. ¿Cuál es el error estándar de la media?

**b)** Con un nivel de confianza del $95\%$, ¿cuál es el margen de error?

**c)** Si la **media de la muestra** es de $\$22.60$, cuál es el intervalo de confianza del $95\%$ para la media de la población?

In [None]:
# Datos
n=49
sigma = 2.50
media_muestral = 22.60 
confianza = 0.95

# a) Error estándar de la media
error_estandar = sigma / np.sqrt(n)
#error_estandar
print(f" a) Error estándar de la media: {error_estandar:.2f}")

# b) Margen de error
z = st.norm.ppf(1-(1-confianza) / 2)
margen_error = z * error_estandar
#margen_error
print(f" b) Margen de error con 95% de confianza: {margen_error:.2f}")

# c) 
limite_inferior = media_muestral - margen_error
limite_superior = media_muestral + margen_error
print(f" c) Intervalo de confianza del 95%: ({limite_inferior:.2f},{limite_superior:.2f})")

$1-\alpha=.95$, implica que $z_{\alpha/2} = z_{0.025} = 1.96$

<font color="blue">**EJEMPLO:**</font> Supongamos que se toma una muestra aleatoria de 100 personas para estimar la media del peso de una población, y se obtiene que la media muestral es de $70$ kg con una desviación estándar que es conocida de $10$ kg. Para un nivel de confianza del $95\%$, calcular el intervalo de confianza.

In [None]:
# Datos
n = 100
media_muestral = 70
sigma = 10
nivel_confianza = 0.95
error_estandar = sigma / np.sqrt(n)

#Utilizaremos la función scipy.stats.norm.interval
# Sintaxis
# scipy.stats.norm.interval(confidence, loc = media, scale = error_estandar )

intervalo = st.norm.interval(confidence = nivel_confianza, loc = media_muestral, scale = error_estandar)
print(f"Intervalo de confianza del 95% es: {intervalo}")


In [None]:
# Puntos para graficar la curva normal
x = np.linspace(media_muestral - 4*error_estandar, media_muestral + 4*error_estandar, 500)
y = st.norm.pdf(x, loc=media_muestral, scale=error_estandar)

# Gráfica
plt.figure(figsize=(10, 5))
plt.plot(x, y, label='Distribución normal', color='black')

# Sombrear el intervalo de confianza
plt.fill_between(x, y, where=(x >= intervalo[0]) & (x <= intervalo[1]), color='skyblue', alpha=0.6, label='IC 95%')

# Líneas verticales
plt.axvline(intervalo[0], color='blue', linestyle='--', label=f'IC inferior = {intervalo[0]:.2f}')
plt.axvline(intervalo[1], color='blue', linestyle='--', label=f'IC superior = {intervalo[1]:.2f}')
plt.axvline(media_muestral, color='red', linestyle='-', label=f'Media muestral = {media_muestral}')

plt.title('Intervalo de confianza del 95% para la media ($\\sigma$ conocida)', fontsize=14)
plt.xlabel('Valor de la variable')
plt.ylabel('Densidad')
plt.legend()
plt.grid(True)
plt.show()

### 3.2.2. Intervalo de Confianza para la media $\mu$ de una distribución normal ($\sigma$ deconocida).

Sea $X_1, \dots, X_n$ una m.a. $X_i \sim \mathcal{N}(\mu, \sigma^2)$. Entonces:

- $\bar{X} \sim \mathcal{N}(\mu, \frac{\sigma^2}{n})$
- $Z = \frac{\bar{X} - \mu}{\sigma / \sqrt{n}} \sim \mathcal{N}(0,1)$

Si el tamaño de la muestra es menor a 30, se utiliza la $t$: 

**Estadístico t**

Definimos el estadístico $t$ de la siguiente manera:
$$T = \frac{\bar{X}-\mu}{s/\sqrt{n}} \sim t_{(n-1)} $$

**El intervalo del $(1 - \alpha) \cdot 100\%$ de confianza para $\mu$ (con $\sigma$ desconocida) es:**

$$
\left( \bar{X} - t_{\alpha/2} \frac{s}{\sqrt{n}}, \quad \bar{X} + t_{\alpha/2} \frac{s}{\sqrt{n}} \right)
$$
donde

- $s$ = desviación estándar muestral
- $\frac{s}{\sqrt{n}}$ = error estándar de la media  
- $t_{\alpha/2}$ determina el nivel de confianza  
- El intervalo está centrado en $\bar{X}$

<font color="blue">**EJEMPLO:**</font> Supongamos que tenemos los siguientes datos
$$ datos = [45, 55, 67, 45, 68, 79, 98, 87, 84, 82] $$
Calcular un intervalo de confianza para la media.

In [None]:
# Datos del ejemplo 
data = [45, 55, 67, 45, 68, 79, 98, 87, 84, 82]
confidence = 0.95
gl = len(data) - 1 # grados de liber

# Media y error estandar
mean = np.mean(data)
error_est = st.sem(data)

# Intervalo de confianza usando t de Student
intervalo = st.t.interval(confidence, gl, loc = mean, scale = error_est)

print(f"Media muestral: {mean:.2f}")
print(f"Error estandar: {error_est:.2f}")
print(f"El intervalo de confianza del 95% es: {intervalo}")


<font color="blue">**EJEMPLO:**</font> Los artículos de cerámica utilizados sobre velas electricas sobrecargadas se rompen con diferentes presiones. Supongamos que los datos provienen de una distribución normal.

La resistencia a la ruptura fue medida en una muestra de 100 artículos, y el promedio fue de $1750$ con un desviación estándar de 315.8

**a)** Estimar con un nivel del confianza del $90\%$ a la media poblacional de la presión de la ruptura.

**b)** Estimar con un nivel del confianza del $90\%$ a la varianza poblacional.

In [None]:
from scipy.stats import chi2
# datos
n = 100
media_muestral = 1750
desv_estandar_muestral = 315.8
confianza = 0.90

# a) Usar la normal ya que el tamaño de la muestra es grande
error_est = desv_estandar_muestral / np.sqrt(n)
error_est
intervalo_media = st.norm.interval(confidence=confianza, loc = media_muestral, scale = error_est)
print(f"El intervalo de confianza del 90% es: {intervalo_media}")

# b) Intervalo de confianza para la varianza (usar chi-cuadrada)
alpha = 1-confianza
gl = n-1
s2 = desv_estandar_muestral**2

#Cuantiles de la chi-cuadrada
chi2_inf = st.chi2.ppf(alpha / 2,df=gl)
chi2_sup = st.chi2.ppf(1- alpha / 2,df=gl)

# Intervalo de confianza
intervalo_varianza = ((gl * s2) / chi2_sup, (gl * s2) / chi2_inf )
print(f"El intervalo de confianza del 90% es: {intervalo_varianza}")

#Otra forma
chi2_low, chi2_high = chi2.interval(confianza,df=gl)
intervalo_varianza1 = ((gl * s2) / chi2_high, (gl * s2) / chi2_low )
print(f"El intervalo de confianza del 90% es: {intervalo_varianza1}")

$\color{red}{\text{Ejercicio.}}$ En una encuesta de una Universidad, 225 estudiantes son seleccionados al azar de los que toman cálculo y se les pregunta si cálculo es su materia favorita. 100 estudiantes responden que el cálculo es su materia favorita. Proporcione un intervalo de confianza del 95 %  para la proporción de todos los estudiantes que toman cálculo y que la consideran su materia favorita. 

In [None]:
# Datos
n = 225
x = 100
confianza = 0.95
alpha = 1 - confianza

# Calcular el intervalo de confianza
p_hat = x / n
error_estandar = np.sqrt((p_hat * (1 - p_hat)) / n)
valor_critico = st.norm.ppf(1 - alpha / 2)
margen_error = valor_critico * error_estandar
limite_inferior = p_hat - margen_error
limite_superior = p_hat + margen_error
print(f"Intervalo de confianza del {confianza*100}% para la proporción: ({limite_inferior:.4f}, {limite_superior:.4f})")

$\color{red}{\text{Ejercicio.}}$ Los datos $1.2,\ 2.1,\ 2.3,\ 1.9,\ 3.0,\ 1.5,\ 2.8,\ 2.4,\ 1.7,\ 2.6,\ 2.0,\ 1.8,\ 3.1,\ 2.2,\ 2.5$ se toman a partir de una distribución normal $N(\mu,\sigma^2)$ con $\mu$ desconocida.

**a)** Encuentra un intervalo de confianza al nivel de $90\%$ para $\mu$, dado que $\sigma =2$.

**b)** Encuentra un intervalo de confianza al nivel de $90\%$ para $\mu$.

**c)** Encuentra un intervalo de confianza al nivel de $90\%$ para $\sigma^2$.

In [None]:
# Datos
data = np.array([1.2, 2.1, 2.3, 1.9, 3.0, 1.5, 2.8, 2.4, 1.7, 2.6, 2.0, 1.8, 3.1, 2.2, 2.5])
n = len(data)
confianza = 0.90
alpha = 1 - confianza
media_muestral = np.mean(data)
grados_libertad = n - 1

# a) Intervalo de confianza para μ con σ = 2 (conocida)
sigma_conocida = 2
valor_critico_z = st.norm.ppf(1 - alpha / 2)
error_estandar_z = sigma_conocida / np.sqrt(n)
margen_error_z = valor_critico_z * error_estandar_z
limite_inferior_z = media_muestral - margen_error_z
limite_superior_z = media_muestral + margen_error_z
print(f"a) Intervalo de confianza del {confianza*100}% para μ (σ conocida): ({limite_inferior_z:.2f}, {limite_superior_z:.2f})")

# b) Intervalo de confianza para μ con σ desconocida
desviacion_estandar_muestral = np.std(data, ddof=1)
valor_critico_t = st.t.ppf(1 - alpha / 2, grados_libertad)
error_estandar_t = desviacion_estandar_muestral / np.sqrt(n)
margen_error_t = valor_critico_t * error_estandar_t
limite_inferior_t = media_muestral - margen_error_t
limite_superior_t = media_muestral + margen_error_t
print(f"b) Intervalo de confianza del {confianza*100}% para μ (σ desconocida): ({limite_inferior_t:.2f}, {limite_superior_t:.2f})")

# c) Intervalo de confianza para σ²
varianza_muestral = np.var(data, ddof=1)
chi2_inferior = st.chi2.ppf(alpha / 2, grados_libertad)
chi2_superior = st.chi2.ppf(1 - alpha / 2, grados_libertad)
limite_inferior_varianza = (n - 1) * varianza_muestral / chi2_superior
limite_superior_varianza = (n - 1) * varianza_muestral / chi2_inferior
print(f"c) Intervalo de confianza del {confianza*100}% para μ (σ conocida): ({limite_inferior_varianza:.2f}, {limite_superior_varianza:.2f})")


$\color{red}{\text{Ejercicio.}}$ Los ingresos semanales promedio de las personas que trabajan en varias industrias aparecieron en el *The New York Times 1988 Almanac*.  
Esos ingresos para quienes trabajan en los servicios fueron de $\$369$. Suponga que este resultado se basó en una muestra de 250 personas dedicadas a los servicios y que la desviación estándar de la muestra fue de $\$50$. Calcula el intervalo de confianza del 95% para la media de la población de ingresos semanales de personas que trabajan en los servicios.

In [None]:
# Datos
media_muestral = 369
n = 250
desviacion_estandar_muestral = 50
confianza = 0.95
alpha = 1 - confianza

# Calcular el error estándar
error_estandar = desviacion_estandar_muestral / np.sqrt(n)

# Calcular el intervalo de confianza
intervalo = st.norm.interval(confidence=confianza, loc=media_muestral, scale=error_estandar)

print(f"Intervalo de confianza del {confianza*100}% para la media de la población: ({limite_inferior:.2f}, {limite_superior:.2f})")

$\color{red}{\text{Ejercicio.}}$ En un estudio de préstamos a estudiantes, el Departamento de Educación informó que los beneficiarios del fondo Stafford Loan deberían un promedio de \$12,658 al recibirse (*USA Today*, 5 de abril de 1995). Suponga que este promedio de deuda se basa en una muestra de 480 préstamos a estudiantes y que la desviación estándar de la población de las deudas al recibirse es \$2,000.

**a)** Determina un estimado de confianza del **90%** del promedio poblacional de la deuda.

**b)** Determina un estimado de confianza del **95%** del promedio poblacional de la deuda.

**c)** Determina un estimado de confianza del **99%** del promedio poblacional de la deuda.

**d)** Describe lo que sucede con el **ancho del intervalo de confianza** a medida que se **aumenta el nivel de confianza**. ¿Parece razonable? Explica tu respuesta.

In [None]:
# a)
# Datos
media_muestral = 12658
n = 480
sigma = 2000
confianza = 0.90
alpha = 1 - confianza

valor_critico = st.norm.ppf(1 - alpha / 2)
error_estandar = sigma / np.sqrt(n)
margen_error = valor_critico * error_estandar
intervalo = (media_muestral - margen_error, media_muestral + margen_error)
print(f"a) Intervalo de confianza del 90%: ({intervalo[0]:.2f}, {intervalo[1]:.2f})")

# b)
# Datos
confianza = 0.95
alpha = 1 - confianza
valor_critico = st.norm.ppf(1 - alpha / 2)
error_estandar = sigma / np.sqrt(n)
margen_error = valor_critico * error_estandar
intervalo = (media_muestral - margen_error, media_muestral + margen_error)
print(f"b) Intervalo de confianza del 95%: ({intervalo[0]:.2f}, {intervalo[1]:.2f})")

# c)
# Datos
confianza = 0.99
alpha = 1 - confianza
valor_critico = st.norm.ppf(1 - alpha / 2)
error_estandar = sigma / np.sqrt(n)
margen_error = valor_critico * error_estandar
intervalo = (media_muestral - margen_error, media_muestral + margen_error)
print(f"c) Intervalo de confianza del 99%: ({intervalo[0]:.2f}, {intervalo[1]:.2f})")

# d)
print("d) A medida que se aumenta el nivel de confianza, el ancho del intervalo de confianza aumenta.\n Esto parece razonable porque un nivel de confianza más alto requiere un rango más amplio para tener una mayor probabilidad de contener la verdadera media poblacional.")



$\color{red}{\text{Ejercicio.}}$ La encuesta anual de calidad de automóviles, efectuada por *J. D. Power & Associates*, determinó que la cantidad promedio de defectos, en todas las marcas, por cada vehículo nuevo es **1.07**  (*The Wall Street Journal*, 27 de enero de 1994). Suponga que se toma una muestra de **30 automóviles nuevos** de determinada marca y se obtienen las siguientes cantidades de defectos por vehículo:
$$ 0, 1, 1, 2, 1, 0, 2, 3, 2, 1, 0, 2, 0, 0, 2, 3, 0, 4, 3, 1, 1, 1, 0, 2, 0, 2, 0, 3, 1, 0 $$

**a)** ¿Cuál es el promedio muestral de la cantidad de defectos por vehículo?

**b)** ¿Cuál es la desviación estándar de la muestra?

**c)** Determine un intervalo de confianza del 95% para la **media de defectos** por vehículo de esta marca.

**d)** Un analista sugirió que se debería **revisar una muestra mayor** antes de comparar con el promedio general de J.D. Power (1.07). ¿Respalda usted esta idea? ¿Por qué?

In [None]:
# Datos
defectos = np.array([0, 1, 1, 2, 1, 0, 2, 3, 2, 1, 0, 2, 0, 0, 2, 3, 0, 4, 3, 1, 1, 1, 0, 2, 0, 2, 0, 3, 1, 0])
n = len(defectos)
confianza = 0.95
alpha = 1 - confianza
grados_libertad = n - 1

# a) Promedio muestral
promedio_muestral = np.mean(defectos)
print(f"a) Promedio muestral: {promedio_muestral:.2f}")

# b) Desviación estándar muestral
desviacion_estandar_muestral = np.std(defectos, ddof=1)
print(f"b) Desviación estándar de la muestra: {desviacion_estandar_muestral:.2f}")

# c) Intervalo de confianza del 95% para la media
valor_critico_t = st.t.ppf(1 - alpha / 2, grados_libertad)
error_estandar = desviacion_estandar_muestral / np.sqrt(n)
margen_error = valor_critico_t * error_estandar
intervalo_confianza = (promedio_muestral - margen_error, promedio_muestral + margen_error)
print(f"c) Intervalo de confianza del 95% para la media: ({intervalo_confianza[0]:.2f}, {intervalo_confianza[1]:.2f})")

print("d) Sí, respaldo la idea de revisar una muestra mayor. Una muestra más grande proporcionaría una estimación más precisa y confiable de la media poblacional,\n lo que permitiría una comparación más significativa con el promedio general de J.D. Power.")

$\color{red}{\text{Ejercicio.}}$ Un artículo que apareció en el ejemplar de noviembre de 1983 de *Consumer Reports* comparó varios tipos de baterías.  
Se informó que los siguientes datos provienen de una muestra de 20 baterías (en horas de duración):
$$ [2200, 2290, 2390, 2410, 2480, 2500, 2580, 2700, 2030, 2100, 2190, 1600, 1740, 1900, 1930, 2000, 1510, 1470, 1770, 1710] $$
Determine la media muestral, la desviación estándar muestral, y el intervalo de confianza del **90%** para la media poblacional.

In [None]:
# Datos
duraciones = np.array([2200, 2290, 2390, 2410, 2480, 2500, 2580, 2700, 2030, 2100, 2190, 1600, 1740, 1900, 1930, 2000, 1510, 1470, 1770, 1710])
n = len(duraciones)
confianza = 0.90
alpha = 1 - confianza
grados_libertad = n - 1

# Calcular la media muestral
media_muestral = np.mean(duraciones)
print(f"Media muestral: {media_muestral:.2f}")

# Calcular la desviación estándar muestral
desviacion_estandar_muestral = np.std(duraciones, ddof=1)
print(f"Desviación estándar muestral: {desviacion_estandar_muestral:.2f}")

# Calcular el intervalo de confianza del 90% para la media poblacional
valor_critico_t = st.t.ppf(1 - alpha / 2, grados_libertad)
error_estandar = desviacion_estandar_muestral / np.sqrt(n)
margen_error = valor_critico_t * error_estandar
intervalo_confianza = (media_muestral - margen_error, media_muestral + margen_error)
print(f"Intervalo de confianza del 90%: ({intervalo_confianza[0]:.2f}, {intervalo_confianza[1]:.2f})")

$\color{red}{\text{Ejercicio.}}$ El toxafen es un insecticida que ha sido identificado como contaminante en el ecosistema de los Grandes Lagos.  
Para investigar el efecto de la exposición al toxafen en animales, a grupos de ratas se les administró toxafen en su dieta.

El artículo *"Reproduction Study of Toxaphene in Rat"* reporta **aumentos de peso (en gramos)** de ratas a las que se les administró una **dosis baja (4 ppm)** y de ratas de **control** cuya dieta no incluía el insecticida.

- En el grupo **control**, una muestra de **23 ratas hembras** tuvo una media de **$\bar{X_2} = 210$ g** y una desviación estándar de **32 g**.
- En el grupo con **dosis baja**, una muestra de **20 ratas hembras** tuvo una media de **$\bar{X_1} = 190$ g** y una desviación estándar de **54 g**.

Encuentra un **intervalo de confianza del 90% para la diferencia de medias** poblacionales:  $\mu_1 - \mu_2$, donde:

- $\mu_1$ es la media poblacional de incremento de peso en el grupo con **dosis baja**.
- $\mu_2$ es la media poblacional de incremento de peso en el grupo **control**.

¿Sugiere este intervalo que el toxafen **reduce** el incremento de peso en ratas?  
¿Incluye el intervalo el valor 0? ¿Por qué es importante?

In [None]:
import numpy as np
from scipy import stats

# Datos 1
n1 = 20
media1 = 190
std1 = 54

# Datos 2
n2 = 23
media2 = 210
std2 = 32

# Calcular la diferencia de medias
diff_mean = media1 - media2

# Calcular el error estándar de la diferencia de medias (varianzas no asumidas iguales)
std_err_diff = np.sqrt((std1**2 / n1) + (std2**2 / n2))

# Calcular los grados de libertad (aproximación de Welch)
numerator = (std1**2 / n1 + std2**2 / n2)**2
denominator = (std1**2 / n1)**2 / (n1 - 1) + (std2**2 / n2)**2 / (n2 - 1)
df = numerator / denominator

# Nivel de confianza
confidence_level = 0.90
alpha = 1 - confidence_level

# Encontrar el valor crítico de t
critical_t = stats.t.ppf(1 - alpha / 2, df)

# Calcular el margen de error
margin_of_error = critical_t * std_err_diff

# Calcular el intervalo de confianza
confidence_interval = (diff_mean - margin_of_error, diff_mean + margin_of_error)

print(f"Intervalo de confianza del 90%: ({confidence_interval[0]:.2f}, {confidence_interval[1]:.2f}) ")
print("\nEl intervalo incluye el valor 0. \n\nEs importante porque sugiere que no hay una diferencia significativa en el incremento de \npeso entre los grupos al nivel de confianza del 90%, por lo que no podemos concluir que el toxafen reduce o aumenta el peso.")

    #print("Esto es importante porque sugiere que no hay una diferencia significativa en el incremento de \npeso entre los grupos al nivel de confianza del 90%, por lo que no podemos concluir que el toxafen reduce o aumenta el peso.")

