In [2]:
import scipy.stats as st
import math as mt
import numpy as np

# Ejercicio X.1

### Una empresa quiere determinar su gasto promedio en transporte; para ello, toma 100 desplazamientos al azar realizados por sus empleados, a partir de los cuales estima que, de media, se ha realizado un desembolso de 625 €. Gracias a estudios previos realizados, la empresa sabe que el gasto en transporte se distribuye de manera normal y que su variabilidad, estimada como desviación típica, es de 300 €. Para un nivel de confianza del 95 %, ¿a qué conclusión se puede llegar?

Dada una VA $X$ "gasto en transporte de la empresa" tal que $X \sim N(\mu, \sigma)$, se desea calcular $\mu$, la media poblacional, al 95 % de confianza; esto implica determinar unas cotas tales que $P(\lambda_{1}\le\mu\le\lambda_{2})=0,95$.

Además, se sabe que $\sigma=300$ y se dispone de una muestra con $n=100$ y $\bar{X}=625$:

In [3]:
gamma = 0.95
alfa = 1 - gamma
sigma = 300
n = 100
media = 625

Como la media poblacional es desconocida, se utiliza como estimador la media muestral, que tipificada sigue una distribución que no depende de $\mu$:

$$\frac{\bar{X}-\mu}{\frac{\sigma}{\sqrt{n}}} \sim N(0, 1)$$

Si se sustituye y se despeja:

$$P(\lambda_{1}\le\frac{\bar{X}-\mu}{\frac{\sigma}{\sqrt{n}}}\le\lambda_{2})=P(\bar{X}-\lambda_{1}\cdot\frac{\sigma}{\sqrt{n}}\le\mu\le\bar{X}+\lambda_{2}\cdot\frac{\sigma}{\sqrt{n}})$$

Por tanto, la media poblacional se encontrará dentro de un intervalo de confianza tal que:

$$IC_{1-\alpha}(\mu)=[\bar{X}-\lambda_{1}\cdot\frac{\sigma}{\sqrt{n}}; \bar{X}+\lambda_{2}\cdot\frac{\sigma}{\sqrt{n}}]$$

Dada una normal tipo, las cotas serían aquellos valores que dejan entre medias un 95 % de la distribución; como ésta es simétrica respecto del eje de ordenadas, el 5 % restante se puede repartir equitativamente entre ambas colas y, por tanto, $\lambda_{1} = - \lambda_{2}$:

$$IC_{1-\alpha}(\mu)=[\bar{X}-\lambda_{}\cdot\frac{\sigma}{\sqrt{n}}; \bar{X}+\lambda_{}\cdot\frac{\sigma}{\sqrt{n}}]$$

En consecuencia, la cota -superior- equivale al cuantil que deja por debajo de sí un 0,975 de probabilidad:

In [4]:
cuantil = st.norm.ppf(q = 1 - alfa/2) #Si no se indican más parámetros, funciona como una normal tipo
cuantil

1.959963984540054

Así, los extremos del intervalo $IC_{95\%}(\mu)$ resultan ser:

In [5]:
lim_inf = media - cuantil * sigma/mt.sqrt(n)
lim_inf

566.2010804637983

In [6]:
lim_sup = media + cuantil * sigma/mt.sqrt(n)
lim_sup

683.7989195362017

# Ejercicio X.2

### A partir de una muestra de 20 linternas cuyos periodos de duración en horas han sido 503, 480, 345, 427, 386, 432, 429, 378, 440, 434, 429, 436, 451, 466, 394, 422, 412, 507, 433 y 480, se quiere obtener un intervalo de confianza al 95 % para la vida media de una población de linternas que se distribuye normalmente.

Dada una VA $X$ "duración en horas de una linterna" tal que $X \sim N(\mu, \sigma)$, se desea calcular de nuevo $\mu$, pero en este caso se desconoce $\sigma$, por lo que no se puede recurrir a la tipificación de la media muestral como en el ejercicio anterior, sino que se utiliza otra función pivote, construida a partir de la combinación de $\bar{X}$ y $S^{2}_{c}$ (la cuasivarianza muestral), que se distribuye según una t de Student con $n-1$ grados de libertad:

$$\frac{\sqrt{n}\cdot(\bar{X}-\mu)}{S_{c}} \sim t_{n-1}$$

Esto conduce al siguiente intervalo de confianza:

$$IC_{1-\alpha}(\mu)=[\bar{X}-t_{n-1,~1-\frac{\alpha}{2}}\cdot\frac{S_{c}}{\sqrt{n}}; \bar{X}+t_{n-1,~1-\frac{\alpha}{2}}\cdot\frac{S_{c}}{\sqrt{n}}]=[\bar{X}-\lambda_{}\cdot\frac{S_{c}}{\sqrt{n}}; \bar{X}+\lambda_{}\cdot\frac{S_{c}}{\sqrt{n}}]$$

De nuevo, se trabaja con un nivel de confianza del 95 %:

In [7]:
gamma = 0.95
alfa = 1 - gamma

Como en este caso se dispone de la muestra completa, se procede a crear una lista con ella:

In [8]:
muestra = [503, 480, 345, 427, 386, 432, 429, 378, 440, 434, 429, 436, 451, 466, 394, 422, 412, 507, 433, 480]

Y se convierte en un *array* de NumPy:

In [9]:
muestra = np.array(muestra)
muestra

array([503, 480, 345, 427, 386, 432, 429, 378, 440, 434, 429, 436, 451,
       466, 394, 422, 412, 507, 433, 480])

A partir de él se pueden obtener los estimadores puntuales necesarios:

In [10]:
n = muestra.size
media = np.mean(muestra)
cuasidt = np.std(muestra, ddof = 1) #Con ddof = 0 se calcularía la desviación típica

La t de Student es simétrica como la normal tipo, por lo que en este caso, para $n-1$ grados de libertad, también habría que buscar el cuantil que deja por debajo de sí una probabilidad de $1-\alpha/2$:

In [11]:
cuantil = st.t.ppf(q = 1 - alfa/2, df = n - 1)
cuantil

2.093024054408263

Así, los extremos del intervalo $IC_{95\%}(\mu)$ resultan ser:

In [12]:
lim_inf = media - cuantil * cuasidt/mt.sqrt(n)
lim_inf

415.1839505632116

In [13]:
lim_sup = media + cuantil * cuasidt/mt.sqrt(n)
lim_sup

453.21604943678835

Por otro lado, Python también permite determinar de forma automática el intervalo de confianza de la siguiente manera:

In [14]:
st.t.interval(alpha = gamma, df = n - 1, loc = media, scale = cuasidt/mt.sqrt(n))

(415.1839505632116, 453.21604943678835)

# Ejercicio X.3

### Se sabe que el peso por comprimido de un cierto preparado farmacéutico se distribuye según una gausiana. Con el objeto de estudiar la varianza de la distribución, se extrae una MAS de 6 elementos. Sabiendo que la varianza muestral es igual a 40, se pretende estimar la varianza poblacional mediante un intervalo de confianza al 90 %.

Dada una VA $X$ "peso por comprimido de un fármaco" tal que $X \sim N(\mu, \sigma)$, se desea calcular $\sigma^{2}$ sin que se conozca $\mu$, lo que obliga a utilizar la siguiente función pivote, construida mediante el teorema de Fisher y que sigue una distribución chi-cuadrado con $n-1$ grados de libertad:

$$\sum_{i=1}^{n}\frac{(X_{i}-\bar{X})}{\sigma^{2}} \sim \chi^{2}_{n-1}$$

A partir de ella se puede llegar al siguiente intervalo de confianza:

$$IC_{1-\alpha}(\sigma^{2})=[\frac{n\cdot S^{2}}{\chi^{2}_{n-1;~1-\frac{\alpha}{2}}};\frac{n\cdot S^{2}}{\chi^{2}_{n-1;~\frac{\alpha}{2}}}]=[\frac{n\cdot S^{2}}{\lambda_{2}};\frac{n\cdot S^{2}}{\lambda_{1}}]$$

En este caso se trabaja al 90 % de confianza y se dispone de una muestra de $n=6$ elementos y $S^{2}=40$:

In [15]:
gamma = 0.9
alfa = 1 - gamma
n = 6
var = 40

Dado que la chi-cuadrado no es simétrica es necesario calcular ambas cotas $\lambda_{1}$ y $\lambda_{2}$, siendo la primera el cuantil que deja un 5 % de la distribución ($\alpha/2$ de probabilidad) por debajo de sí y la segunda el que deja un 95 % ($1-\alpha/2$):

In [16]:
lambda1 = st.chi2.ppf(q = alfa/2, df = n - 1)
lambda1

1.145476226061769

In [17]:
lambda2 = st.chi2.ppf(q = 1 - alfa/2, df = n - 1)
lambda2

11.070497693516351

Así, los extremos del intervalo $IC_{90\%}(\sigma^{2})$ resultan ser:

In [18]:
lim_inf = n * var/lambda2
lim_inf

21.6792421302396

In [19]:
lim_sup = n * var/lambda1
lim_sup

209.5198438339812

# Ejercicio X.4

### En unas elecciones, uno de los candidatos desea estimar, al 95 % de confianza, la proporción de votantes que están a su favor. Con este fin, toma una muestra aleatoria de 100 votantes y observa que el 55 % son partidarios suyos; ¿qué conclusiones puede obtener para el conjunto del electorado?

Dada una VA $X$ "votantes favorables" tal que $X \sim B(n,p)$, se desea calcular $p$ al 95 % de confianza, para lo que se dispone de una MAS con $n=100$ y $\hat{p}=0,55$:

In [20]:
gamma = 0.95
alfa = 1 - gamma
n = 100
p = 0.55

Dado que $n\ge30$, por el TCL en su forma LL, la proporción muestral se puede convertir en una función pivote distribuida -aproximadamente- según una normal tipo:

$$\frac{\hat{p}-p}{\sqrt{\frac{p\cdot(1-p)}{n}}} \xrightarrow{d} N(0, 1)$$

Y a partir de la cual se puede llegar al siguiente intervalo de confianza:

$$IC_{1-\alpha}(p)=[\hat{p}\pm Z_{1-\frac{\alpha}{2}}\cdot\sqrt{\frac{\hat{p}\cdot(1-\hat{p})}{n}}]=[\hat{p}\pm \lambda_{}\cdot\sqrt{\frac{\hat{p}\cdot(1-\hat{p})}{n}}]$$

El cálculo del cuantil es análogo al del primer ejercicio:

In [21]:
cuantil = st.norm.ppf(q = 1 - alfa/2)
cuantil

1.959963984540054

Así, los extremos del intervalo $IC_{95\%}(p)$ resultan ser:

In [22]:
lim_inf = p - cuantil * mt.sqrt((p * (1 - p))/n)
lim_inf

0.45249302291006066

In [23]:
lim_sup = p + cuantil * mt.sqrt((p * (1 - p))/n)
lim_sup

0.6475069770899394

Por otro lado, Python también permite determinar de forma automática el intervalo de confianza de la siguiente manera:

In [24]:
st.norm.interval(alpha = gamma, loc = p, scale = mt.sqrt((p * (1 - p))/n))

(0.45249302291006066, 0.6475069770899394)