<font color='blue'> <strong> 1. Se quiere estudiar la temperatura que alcanzan unas GPUs. Para ello se extraen 10 datos
$$\{1.41, 1.6, 1.37, 1.6, 1.5, 1.4, 1.7, 1.4, 1.3, 1.4\}$$
Indica, para cada uno de los casos siguientes, que estimador usarías indicando en los dos primeros
casos, cuál sería la media y varianza de cada estimador:
    
Media de la población, Proporción de temperaturas mayores que 1.4, Varianza de la población </strong> </font>


###  Solución 

El estimador para la media $\mu$ es la media muestral, $\overline{X}$, es decir, es la media aritmética de los datos:

$$\overline{X}=\frac{1}{N}(X_1+X_2+\cdots X_N).$$
Además, se trata de un estimador insesgado, por lo que $E(\overline{X})=\mu$. Por otra parte, $V(\overline{X})=\frac{1}{N}\sigma^2$. 

En nuestro caso,

Para la Proporción $p$ de temperaturas mayores que 1.4 usamos la proporción muestral, que es la proporción de elementos de la muestra que satisfacen la condición pedida (ser mayor que $1.4$):
$$\hat{p}=\frac{1}{N}(Y_1+\cdots +Y_N), \quad \quad Y_i=\left\{\begin{array}{lll} 1 & \text{ si } X_i>1.4\\ 0 & \text{ en otro caso}\end{array}\right.$$
Este estimador es también insesgado: su esperanza es la proporción poblacional $p$: $E(\hat{p})=p$. Su varianza es $V(\hat{p})=\frac{p(1-p)}{N}$. 

Para la varianza $\sigma^2$ se usa como estimador la cuasivarianza muestral:
$$\hat{S^2}=\frac{1}{N-1}\sum_{k=1}^N (X_k-\overline{X})^2$$

In [3]:
import numpy as np

In [4]:
X= [1.41, 1.6, 1.37, 1.6, 1.5, 1.4, 1.7, 1.4, 1.3, 1.4]
N=len(X)
media = np.mean(X)
media

1.4680000000000002

In [7]:
p=media=5/N  ## Solo hay 5 casos en los que X_i>1.4 ##
p

0.5

In [9]:
X = np.array(X)   # convertir la lista en array
S2 = np.mean((X - media)**2) * N/(N-1)
S2

1.0572222222222225

<font color='blue'> <strong> 2. La longitud de un tornillo sigue una distribución normal con media 7.5 y desviación típica 0.3.
Calcular la probabilidad de que en una muestra de 200 tornillos se obtenga una longitud media
    menor que 7.4.</strong> </font>





### Solución.  

Denotemos por $X$ la v.a. que representa la longitud de un tornillo. Entonces $X\sim N(7.5,0.3)$. Nos dicen que tomamos 200 muestras. Esto significa que tenemos una muestra aleatoria simple de tamaño 200: $(X_1,\cdots,X_{200})$. Entonces la media muestral es $\overline{X}=\frac{1}{200}\sum_{k=1}^{200} X_k$ y satisface $\overline{X}\sim N(7.5, \frac{0.3}{\sqrt{200}})$. Nos piden 
$$P(\overline{X}<7.4),$$ lo cual se calcula directamente como sigue:




In [22]:
from scipy.stats import norm
Xbar=norm(7.5,0.3/(200**0.5))   ## Usamos Xbar para denotar la media de X y distinguirla de la v.a. original, X
Xbar.cdf(7.4)

1.2142337364880137e-06

La probabilidad es muy baja porque la desviación típica de $\overline{X}$ es muy pequeña, de modo que $7.4$ está a muchas desviaciones típicas de la media de $\overline{X}$, que es $7.5$. En efecto:

In [19]:
sigma=0.3/(200**0.5)
sigma

0.021213203435596423

In [20]:
(7.5-7.4)/sigma

4.714045207910301

Por otra parte, si nos hubieran preguntado sencillamente cuál es la probabilidad de que una muestra (aislada) de la v.a. $X$ arroje un valor inferior a $7.4$, el resultado sería bien distinto (pues la misma cuenta con la desviación típica de $X$ arroja un valor mucho menor: $(7.5-7.4)/0.3=0.333\dots$). En efecto,
$$p_2=P(X<7.4)$$

In [21]:
X=norm(7.5,0.3)
p2=X.cdf(7.4)
p2

0.3694413401817641

Esto es razonable porque hacer un promedio reduce el ruido y, por tanto, la variabilidad (la varianza) de los datos.

<font color='magenta'> <strong> 3. El voltaje de cierto circuito eléctrico tiene una distribución normal com media 120 y desviación
típica 2. Si se toman 5 medidas independientes del voltaje, ¿cuál es la probabilidad de que la media
de las medidas esté entre 116 y 118?</strong> </font>

<font color="blue"> <strong> 4. La longitud de tornillo sigue un distribución normal con media m y y desviación típica 0.3. ¿Cuál debe ser el tamaño mínimo de la muestra para que la probabilidad de que la media muestral difiera de la media en (a lo sumo) 0.2 cm sea de 0.99? </strong> </font>


<h3>Solución. </h3>  Si la muestra tiene tamaño $n$, entonces $$\overline{X}\sim N(m,\frac{0.3}{\sqrt{n}}).$$
Por tanto, 
$$\frac{\overline{X}-m}{\frac{0.3}{\sqrt{n}}}\sim N(1,0).$$
Además, 
$$\left|\overline{X}-m\right|<0.2 \Leftrightarrow \left|\frac{\overline{X}-m}{\frac{0.3}{\sqrt{n}}}\right|< \frac{0.2}{\frac{0.3}{\sqrt{n}}} = \frac{0.2\sqrt{n}}{0.3} = \frac{2}{3}\sqrt{n}$$
De modo que 
$$ P\left(\left|\overline{X}-m\right|<0.2 \right) = 0.99 \Leftrightarrow P\left(\left|\frac{\overline{X}-m}{\frac{0.3}{\sqrt{n}}}\right|< \frac{2}{3}\sqrt{n}\right) = 0.99$$
Como la distribución normal $N(0,1)$ es simétrica respecto del origen, podemos concluir que el area que hay en la cola a partir de $\frac{2}{3}\sqrt{n}$ es $0.005$, por lo que $\frac{2}{3}\sqrt{n}$ debe coincidir con el percentil $0.995$


In [10]:
from scipy.stats import norm
X=norm(0,1)
X.ppf(0.995)

2.5758293035489004



De modo que $$\frac{2}{3}\sqrt{n}=2.575829$$
Equivalentemente, 
$$\left(\frac{3}{2}2.575829\right)^2=n$$


In [2]:
n=(3/2*X.ppf(0.995))**2
n

14.92851735229773

El tamaño de la muestra debe ser $n=15$. De hecho, cualquier valor entero superior a 14 nos sirve. 

<font color="blue"> <strong> 5. Se sabe que el 45% de una población de votantes está a favor del partido A y el resto a favor del partido B.

*    Se hace una encuesta a 100 personas, ¿cuál es la probabilidad de que esta encuesta de como
vencedor al partido A? ¿Cuál es la probabilidad de que la proporción de votantes del partido A en esta muestra esté entre 44% y 46%?
*     Se hace una encuesta a 1000 personas, ¿cuál es la probabilidad de que esta encuesta de como
    vencedor al partido A? Comparar con el resultado obtenido en el apartado anterior.</strong> </font> 


<h3>Solución. </h3> Sabemos que la proporción muestral $\hat{p}$ satisface $$\hat{p}\sim N(p,\sqrt{\frac{p(1-p)}{n}})$$



In [3]:
p=0.45
n=100
sigma=(p*(1-p)/n)**0.5
sigma

0.049749371855331


Por tanto, $\hat{p}\sim N(0.45, 0.04974937)$ y nos piden:

*  La probabilidad de que la encuesta de como vencedor a $A$.

Esto coincide con $P[\hat{p}>0.5]=1-P[\hat{p}\leq 0.5]$, que es:



In [4]:
from scipy.stats import norm
X=norm(0.45,0.04974937)
1-X.cdf(0.5)

0.15743931164448965

* La probabilidad de que proporción de votantes de $A$ esté entre 0.44 y 0.46.

Esto es, queremos conocer $P(0.44\leq \hat{p}\leq 0.46)$


In [5]:
X.cdf(0.46)-X.cdf(0.44)

0.15930734555606652

* Se hace una encuesta a 1000 personas, ¿cuál es la probabilidad de que esta encuesta de como
vencedor al partido A? Comparar con el resultado obtenido en el apartado anterior.

En este caso $n=1000$ de modo que: 
 



In [6]:
p=0.45
n=1000
(p*(1-p)/n)**0.5

0.015732132722552274


$$\hat{p}\sim N(0.45, 0.01573213)$$
y ahora $$P[\hat{p}>0.5]=1-P[\hat{p}\leq 0.5]$$ vale:


In [7]:
X=norm(0.45, 0.01573213)
1-X.cdf(0.5)

0.0007409389817195633


Es evidente que cuanto mayor sea el tamaño de la muestra, más preciso será el resultado de la predicción estimada por $\hat{p}$ y, por tanto, más improbable será que la encuesta arroje un resultado erróneo.  


<h1> Intervalos de confianza </h1>

<h3> Definición.</h3> El intervalo $I$ es un intervalo de confianza  para el parámetro $\theta$  con nivel de confianza $p$ si 
$$
P(\theta \in I) =p
$$
La idea es que tratamos $\theta$ como si fuera una v.a.  (aunque no lo es). Lo que conocemos en realidad es un estimador $\hat{\theta}$ de $\theta$, que es una v.a a la que podemos asociar una distribución de probabilidad conocida. 




Concretamente, <font color='brown'> <strong> asumimos que podemos conocer cómo se distribuye la diferencia $$\theta-\hat{\theta}$$ (que sí es una variable aleatoria) </strong> </font> y en base a eso calculamos el intervalo que nos piden. 




**Nota:** Además de calcular intervalos de confianza, conocer la distribución de probabilidad de $\theta-\hat{\theta}$ nos permite también<font color='brown'> <strong> responder a preguntas directas sobre el estimador $\hat{\theta}$ cuando conocemos el valor exacto de $\theta$. </strong> </font>

<h1> Estimación de la media $\mu$ si $\sigma$ es conocida </h1>


Por ejemplo, si tomamos suficientes muestras $X_1,\cdots, X_N$ de una población de media $\mu$ desconocida pero desviación típica conocida, $\sigma$, entonces sabemos que $$\hat{\mu}:= \overline{X}=\frac{1}{N}\sum_{i=1}^NX_i$$ (la media muestral) satisface que $$\overline{X}-\mu\sim \frac{\sigma}{\sqrt{N}} Z$$ donde $Z\sim N(0,1)$. 

Como $N(0,1)$ es simétrica respecto del origen, podemos encontrar un intervalo
simétrico $I_{\alpha}=[-\alpha,\alpha]$ tal que $P(-\alpha<Z<\alpha)=p$. De hecho, basta tomar $-\alpha$ el percentil $e=\frac{1-p}{2}$ o, equivalentememte, $\alpha$ será el percentil $1-e=1-\frac{1-p}{2}$. Es decir,  $$\alpha=qnorm(1-\frac{1-p}{2},0,1)$$
Entonces es obvio que 
\begin{eqnarray*}
-\alpha \leq Z\leq \alpha &\Leftrightarrow&  -\alpha \frac{\sigma}{\sqrt{N}} \leq \frac{\sigma}{\sqrt{N}}Z\leq \alpha\frac{\sigma}{\sqrt{N}} \\
&\Leftrightarrow &  -\alpha \frac{\sigma}{\sqrt{N}} \leq \overline{X}-\mu\leq \alpha\frac{\sigma}{\sqrt{N}} \\
&\Leftrightarrow&  \overline{X}-\alpha \frac{\sigma}{\sqrt{N}}  \leq \mu\leq \overline{X}+\alpha\frac{\sigma}{\sqrt{N}}   
\end{eqnarray*}
De modo que 
$$
I= \left[\overline{X}-\alpha \frac{\sigma}{\sqrt{N}},  \mu, \overline{X}+\alpha\frac{\sigma}{\sqrt{N}}\right]
$$
es un intervalo de confianza para $\mu$ con confianza $p$ (i.e. confianza $100p \%$).  

Por ejemplo, supongamos que queremos una confianza del $95\%$. Entonces el siguiente cálculo:

In [26]:
X=norm(0,1)
alpha=X.ppf(1-0.05/2)
alpha

1.959963984540054

nos muestra que 
$$
I= \left[\overline{X}-1.959964 \frac{\sigma}{\sqrt{N}}, \overline{X}+1.959964\frac{\sigma}{\sqrt{N}}\right]
$$
será un intervalo de confianza para la media $\mu$ con nivel de confianza del $95\%$. 

Evidentemente, cuanto mayor es el valor $N$ (el número de muestras tomadas), más estrecho será el intervalo $I$ y, por tanto, más precisa la estimación. (Lo mismo vale para $\sigma$: cuanto menor sea $\sigma$, más precisa será la estimación).

<font color='blue'> <strong> 6. Nos interesa la media de una serie de datos. Se supone que esos datos corresponden a una normal con desviación típica 2. Cogemos 40 de esos datos y calculamos su media $\overline{X} = 50$. Calcula dos valores a y b de modo que la seguridad de que m esté entre ellos sea del 95$\%$ </strong> </font>

<h3>Solución rápida:</h3> Es obvio que nos piden un intervalo de confianza con nivel de confianza $95\%$ para la media, en una población cuya $\sigma$ es conocida. Podemos aplicar la fórmula:

$$ I= \left[\overline{X}-\alpha \frac{\sigma}{\sqrt{N}}, \overline{X}+\alpha\frac{\sigma}{\sqrt{N}}\right]$$

con $N=40$, $\alpha = qnorm(1-\frac{1-p}{2},0,1)$, $p=0.95$, $\overline{X}=50$, lo que arroja el siguiente intervalo:

In [29]:
X=norm(0,1)
I=[50-X.ppf(1-0.025)*2/(40**0.5),50+X.ppf(1-0.025)*2/(40**0.5)]
I

[49.38020496769544, 50.61979503230456]

<h3> Solución razonada:</h3> Sabemos que $\overline{X}\sim N(m,\frac{2}{\sqrt{40}})$. Es más, si consideramos $m$ como una v.a. y usamos que $\overline{X}=50$, sabemos que 
$$Z=\frac{m-\overline{X}}{s/\sqrt{40}}= \frac{m-50}{2/\sqrt{40}}\sim N(0,1)$$
Como $Z$ es simétrica, podemos buscar un valor $a\in\mathbb{R}$ tal que $P(-a\leq Z\leq a)=0.95$ simplemente resolviendo la ecuación $P(Z\leq -a)=0.025$ pues, entonces, $P(Z\geq a)=0.025$ y 
$$P(-a<Z<a)=1-(P(Z\leq a)+P(Z\geq a))=1-(0.025+0.025)=0.95$$ 



In [32]:
a=X.ppf(0.025)
a=-a
a

1.9599639845400545

Entonces 
$$P(-1.959964\leq \frac{m-50}{2/\sqrt{40}} \leq 1.959964)=0.95$$
y, despejando,
$$P(-1.959964\cdot 2/\sqrt{40}+50\leq m \leq 1.959964\cdot 2/\sqrt{40}+50)=0.95$$
Por tanto, una solución al problema es:



In [34]:
I=[-1.959964*2/(40**0.5)+50, 1.959964* 2/(40**0.5)+50]
I

[49.38020496280657, 50.61979503719343]


**Nota:** Obsérvese que hemos usado que la v.a. N(0,1) es simétrica para construir un intervalo simétrico [-a,a] a partir del cual luego se construye el intervalo [A,B] que nos piden, con la condición añadida de que este está centrado en $\overline{X}=50$. Obviamente, esto no formaba parte del enunciado, por lo que hay infinitas soluciones posibles (pero solo una con esta propiedad adicional).

<h1> Estimación de la media $\mu$ si $\sigma$ es desconocida</h1>

Cuando desconocemos tanto la media como la desviación típica de la población, las cosas se complican. Aún así, <font color='brown'> <strong> si la población es normal </strong></font>, podemos estimar $\mu$ usando la media muestral $\overline{X}$ y la cuasi-desviación típica  (o desviación típica muestral) $\hat{S}$, pues  
$$
\overline{X}-\mu \sim \frac{\hat{S}}{\sqrt{N}}t_{N-1},
$$
donde $N$ es el tamaño de la muestra y $t_v$ es la distribución de Student con $v$ grados de libertad, cuya fdp es:
$$
f_{t_v}(x)=\frac{\Gamma(\frac{v+1}{2})}{\sqrt{v\pi}\Gamma(\frac{v}{2})}\left(1+\frac{x^2}{v}\right)^{-\frac{v+1}{2}}
$$ 
Ahora, en Python la distribución t de Student con $v$ grados de libertad se construye con las órdenes:

In [9]:
v=10 # (Por poner un ejemplo concreto)
from scipy.stats import t
T = t(v)

Si queremos desplazarla y escalarla, de modo que nuestra distribución es $$Y=\mu+\sigma\cdot t_v,$$
usamos la orden:

In [10]:
mu=3
sigma=2 # (De nuevo, para concretar ejemplos)
Y = t(df=10, loc=mu, scale=sigma)


Se sigue que el intervalo de confianza con nivel de confianza $p$ viene dado por: 
$$I=\left[\overline{X}+\frac{\hat{S}}{\sqrt{N}} \cdot {\rm T.ppf}(\frac{1-p}{2}), \overline{X}+\frac{\hat{S}}{\sqrt{N}} \cdot {\rm T.ppf}(1-\frac{1-p}{2}) \right]$$

Por ejemplo, para $p=0.95$, $N=100$, tendremos:

In [11]:
p=0.95
N=100
T=t(N-1)
print(T.ppf((1-p)/2))
print(T.ppf(1-(1-p)/2))

-1.9842169515086827
1.9842169515086827


de modo que 
$$I=\left[\overline{X}-1.984217\frac{\hat{S}}{\sqrt{N}}  , \overline{X}+1.984217\frac{\hat{S}}{\sqrt{N}}  \right]$$

<font color='blue'> <strong> 7. Lord Rayleigh en 1890 postuló la existencia del Argón en el aire, y para ello hizo 100 mediciones
del peso del llamado gas residual (los científicos de la época sabian aislar el O2, el CO2 y el vapor de agua, el gas restante lo llamaban gas residual) obtuvo como media de las 100 mediciones
P = 2,31001 gr. y como cuasi desviación típica muestral s = 0,021 gr. ¿Cuál es la probabilidad
de que la media m esté en el intervalo [2.303773 , 2.316247]? 
En otras palabras: ¿cual es el nivel de confianza de este intervalo, si estamos estimando la media $m$? </strong> </font>

<h3> Solución. </h3>

Sabemos que  la medición del peso es una v.a. normal, por tanto, la v.a. base es $X\sim N(m,\sigma)$ para ciertos valores desconocidos $m,\sigma$. Así las cosas, la media muestral satisface 
$$\overline{X}-m\sim \frac{\hat{S}}{\sqrt{100}}t_{99} $$ 
(pues $n=100$ es el número de muestras tomadas).
Por otra parte, 
\begin{eqnarray*}
    2.303773\leq m\leq 2.316247 & \Leftrightarrow & -2.303773\geq -m\geq -2.316247 \\
    & \Leftrightarrow & \overline{X}-2.303773\geq \overline{X}-m\geq \overline{X}-2.316247 \\
    & \Leftrightarrow & 
    \frac{\overline{X}-2.303773}{\hat{S}/\sqrt{100}}\geq \frac{\overline{X}-m}{\hat{S}/\sqrt{100}}\geq \frac{\overline{X}-2.316247}{\hat{S}/\sqrt{100}}\\
    \\
    & \Leftrightarrow & 
    \frac{\overline{X}-2.303773}{\hat{S}/\sqrt{100}}\geq Z \geq \frac{\overline{X}-2.316247}{\hat{S}/\sqrt{100}}, \text{ donde } Z\sim t_{99}.
\end{eqnarray*}
Y, sustituyendo $\overline{X}= P= 2.31001$ y $\hat{S}=0.021$, tendremos:
$$
2.303773\leq m\leq 2.316247 \Leftrightarrow  \frac{2.31001-2.303773}{0.021/\sqrt{100}}\geq Z \geq \frac{2.31001-2.316247}{0.021/\sqrt{100}}
$$

De modo que: 
$$
P(2.303773\leq m\leq 2.316247)= P \left( -2.97\leq Z \leq 2.97\right) \text{ con } Z\sim t_{99}
$$