<font color='blue'> <strong> 1. Se quiere estudiar la temperatura que alcanzan unas GPUs. Para ello se extraen 10 datos
$$\{1.41, 1.6, 1.37, 1.6, 1.5, 1.4, 1.7, 1.4, 1.3, 1.4\}$$
Indica, para cada uno de los casos siguientes, que estimador usarías indicando en los dos primeros
casos, cuál sería la media y varianza de cada estimador:
    
Media de la población, Proporción de temperaturas mayores que 1.4, Varianza de la población </strong> </font>


###  Solución 

El estimador para la media $\mu$ es la media muestral, $\overline{X}$, es decir, es la media aritmética de los datos:

$$\overline{X}=\frac{1}{N}(X_1+X_2+\cdots X_N).$$
Además, se trata de un estimador insesgado, por lo que $E(\overline{X})=\mu$. Por otra parte, $V(\overline{X})=\frac{1}{N}\sigma^2$. 

En nuestro caso,

Para la Proporción $p$ de temperaturas mayores que 1.4 usamos la proporción muestral, que es la proporción de elementos de la muestra que satisfacen la condición pedida (ser mayor que $1.4$):
$$\hat{p}=\frac{1}{N}(Y_1+\cdots +Y_N), \quad \quad Y_i=\left\{\begin{array}{lll} 1 & \text{ si } X_i>1.4\\ 0 & \text{ en otro caso}\end{array}\right.$$
Este estimador es también insesgado: su esperanza es la proporción poblacional $p$: $E(\hat{p})=p$. Su varianza es $V(\hat{p})=\frac{p(1-p)}{N}$. 

Para la varianza $\sigma^2$ se usa como estimador la cuasivarianza muestral:
$$\hat{S^2}=\frac{1}{N-1}\sum_{k=1}^N (X_k-\overline{X})^2$$

In [23]:
import numpy as np

In [24]:
X= [1.41, 1.6, 1.37, 1.6, 1.5, 1.4, 1.7, 1.4, 1.3, 1.4]
N=len(X)
media = np.mean(X)
media

1.4680000000000002

In [25]:
p=media=5/N  ## Solo hay 5 casos en los que X_i>1.4 ##
p

0.5

In [26]:
X = np.array(X)   # convertir la lista en array
S2 = np.mean((X - media)**2) * N/(N-1)
S2

1.0572222222222225

<font color='blue'> <strong> 2. La longitud de un tornillo sigue una distribución normal con media 7.5 y desviación típica 0.3.
Calcular la probabilidad de que en una muestra de 200 tornillos se obtenga una longitud media
    menor que 7.4.</strong> </font>





### Solución.  

Denotemos por $X$ la v.a. que representa la longitud de un tornillo. Entonces $X\sim N(7.5,0.3)$. Nos dicen que tomamos 200 muestras. Esto significa que tenemos una muestra aleatoria simple de tamaño 200: $(X_1,\cdots,X_{200})$. Entonces la media muestral es $\overline{X}=\frac{1}{200}\sum_{k=1}^{200} X_k$ y satisface $\overline{X}\sim N(7.5, \frac{0.3}{\sqrt{200}})$. Nos piden 
$$P(\overline{X}<7.4),$$ lo cual se calcula directamente como sigue:




In [27]:
from scipy.stats import norm
Xbar=norm(7.5,0.3/(200**0.5))   ## Usamos Xbar para denotar la media de X y distinguirla de la v.a. original, X
Xbar.cdf(7.4)

1.2142337364880137e-06

La probabilidad es muy baja porque la desviación típica de $\overline{X}$ es muy pequeña, de modo que $7.4$ está a muchas desviaciones típicas de la media de $\overline{X}$, que es $7.5$. En efecto:

In [28]:
sigma=0.3/(200**0.5)
sigma

0.021213203435596423

In [29]:
(7.5-7.4)/sigma

4.714045207910301

Por otra parte, si nos hubieran preguntado sencillamente cuál es la probabilidad de que una muestra (aislada) de la v.a. $X$ arroje un valor inferior a $7.4$, el resultado sería bien distinto (pues la misma cuenta con la desviación típica de $X$ arroja un valor mucho menor: $(7.5-7.4)/0.3=0.333\dots$). En efecto,
$$p_2=P(X<7.4)$$

In [30]:
X=norm(7.5,0.3)
p2=X.cdf(7.4)
p2

0.3694413401817641

Esto es razonable porque hacer un promedio reduce el ruido y, por tanto, la variabilidad (la varianza) de los datos.

<font color='magenta'> <strong> 3. El voltaje de cierto circuito eléctrico tiene una distribución normal com media 120 y desviación
típica 2. Si se toman 5 medidas independientes del voltaje, ¿cuál es la probabilidad de que la media
de las medidas esté entre 116 y 118?</strong> </font>

<font color="blue"> <strong> 4. La longitud de tornillo sigue un distribución normal con media m y y desviación típica 0.3. ¿Cuál debe ser el tamaño mínimo de la muestra para que la probabilidad de que la media muestral difiera de la media en (a lo sumo) 0.2 cm sea de 0.99? </strong> </font>


<h3>Solución. </h3>  Si la muestra tiene tamaño $n$, entonces $$\overline{X}\sim N(m,\frac{0.3}{\sqrt{n}}).$$
Por tanto, 
$$\frac{\overline{X}-m}{\frac{0.3}{\sqrt{n}}}\sim N(1,0).$$
Además, 
$$\left|\overline{X}-m\right|<0.2 \Leftrightarrow \left|\frac{\overline{X}-m}{\frac{0.3}{\sqrt{n}}}\right|< \frac{0.2}{\frac{0.3}{\sqrt{n}}} = \frac{0.2\sqrt{n}}{0.3} = \frac{2}{3}\sqrt{n}$$
De modo que 
$$ P\left(\left|\overline{X}-m\right|<0.2 \right) = 0.99 \Leftrightarrow P\left(\left|\frac{\overline{X}-m}{\frac{0.3}{\sqrt{n}}}\right|< \frac{2}{3}\sqrt{n}\right) = 0.99$$
Como la distribución normal $N(0,1)$ es simétrica respecto del origen, podemos concluir que el area que hay en la cola a partir de $\frac{2}{3}\sqrt{n}$ es $0.005$, por lo que $\frac{2}{3}\sqrt{n}$ debe coincidir con el percentil $0.995$


In [31]:
from scipy.stats import norm
X=norm(0,1)
X.ppf(0.995)

2.5758293035489004



De modo que $$\frac{2}{3}\sqrt{n}=2.575829$$
Equivalentemente, 
$$\left(\frac{3}{2}2.575829\right)^2=n$$


In [32]:
n=(3/2*X.ppf(0.995))**2
n

14.92851735229773

El tamaño de la muestra debe ser $n=15$. De hecho, cualquier valor entero superior a 14 nos sirve. 

<font color="blue"> <strong> 5. Se sabe que el 45% de una población de votantes está a favor del partido A y el resto a favor del partido B.

*    Se hace una encuesta a 100 personas, ¿cuál es la probabilidad de que esta encuesta de como
vencedor al partido A? ¿Cuál es la probabilidad de que la proporción de votantes del partido A en esta muestra esté entre 44% y 46%?
*     Se hace una encuesta a 1000 personas, ¿cuál es la probabilidad de que esta encuesta de como
    vencedor al partido A? Comparar con el resultado obtenido en el apartado anterior.</strong> </font> 


<h3>Solución. </h3> Sabemos que la proporción muestral $\hat{p}$ satisface $$\hat{p}\sim N(p,\sqrt{\frac{p(1-p)}{n}})$$



In [33]:
p=0.45
n=100
sigma=(p*(1-p)/n)**0.5
sigma

0.049749371855331


Por tanto, $\hat{p}\sim N(0.45, 0.04974937)$ y nos piden:

*  La probabilidad de que la encuesta de como vencedor a $A$.

Esto coincide con $P[\hat{p}>0.5]=1-P[\hat{p}\leq 0.5]$, que es:



In [34]:
from scipy.stats import norm
X=norm(0.45,0.04974937)
1-X.cdf(0.5)

0.15743931164448965

* La probabilidad de que proporción de votantes de $A$ esté entre 0.44 y 0.46.

Esto es, queremos conocer $P(0.44\leq \hat{p}\leq 0.46)$


In [35]:
X.cdf(0.46)-X.cdf(0.44)

0.15930734555606652

* Se hace una encuesta a 1000 personas, ¿cuál es la probabilidad de que esta encuesta de como
vencedor al partido A? Comparar con el resultado obtenido en el apartado anterior.

En este caso $n=1000$ de modo que: 
 



In [36]:
p=0.45
n=1000
(p*(1-p)/n)**0.5

0.015732132722552274


$$\hat{p}\sim N(0.45, 0.01573213)$$
y ahora $$P[\hat{p}>0.5]=1-P[\hat{p}\leq 0.5]$$ vale:


In [37]:
X=norm(0.45, 0.01573213)
1-X.cdf(0.5)

0.0007409389817195633


Es evidente que cuanto mayor sea el tamaño de la muestra, más preciso será el resultado de la predicción estimada por $\hat{p}$ y, por tanto, más improbable será que la encuesta arroje un resultado erróneo.  


<h1> Intervalos de confianza </h1>

<h3> Definición.</h3> El intervalo $I$ es un intervalo de confianza  para el parámetro $\theta$  con nivel de confianza $p$ si 
$$
P(\theta \in I) =p
$$
La idea es que tratamos $\theta$ como si fuera una v.a.  (aunque no lo es). Lo que conocemos en realidad es un estimador $\hat{\theta}$ de $\theta$, que es una v.a a la que podemos asociar una distribución de probabilidad conocida. 




Concretamente, <font color='brown'> <strong> asumimos que podemos conocer cómo se distribuye la diferencia $$\theta-\hat{\theta}$$ (que sí es una variable aleatoria) </strong> </font> y en base a eso calculamos el intervalo que nos piden. 




**Nota:** Además de calcular intervalos de confianza, conocer la distribución de probabilidad de $\theta-\hat{\theta}$ nos permite también<font color='brown'> <strong> responder a preguntas directas sobre el estimador $\hat{\theta}$ cuando conocemos el valor exacto de $\theta$. </strong> </font>

<h1> Estimación de la media $\mu$ si $\sigma$ es conocida </h1>


Por ejemplo, si tomamos suficientes muestras $X_1,\cdots, X_N$ de una población de media $\mu$ desconocida pero desviación típica conocida, $\sigma$, entonces sabemos que $$\hat{\mu}:= \overline{X}=\frac{1}{N}\sum_{i=1}^NX_i$$ (la media muestral) satisface que $$\overline{X}-\mu\sim \frac{\sigma}{\sqrt{N}} Z$$ donde $Z\sim N(0,1)$. 

Como $N(0,1)$ es simétrica respecto del origen, podemos encontrar un intervalo
simétrico $I_{\alpha}=[-\alpha,\alpha]$ tal que $P(-\alpha<Z<\alpha)=p$. De hecho, basta tomar $-\alpha$ el percentil $e=\frac{1-p}{2}$ o, equivalentememte, $\alpha$ será el percentil $1-e=1-\frac{1-p}{2}$. Es decir,  

$$\alpha={\rm norm(0,1).ppf}(1-\frac{1-p}{2})$$

Entonces es obvio que 
\begin{eqnarray*}
-\alpha \leq Z\leq \alpha &\Leftrightarrow&  -\alpha \frac{\sigma}{\sqrt{N}} \leq \frac{\sigma}{\sqrt{N}}Z\leq \alpha\frac{\sigma}{\sqrt{N}} \\
&\Leftrightarrow &  -\alpha \frac{\sigma}{\sqrt{N}} \leq \overline{X}-\mu\leq \alpha\frac{\sigma}{\sqrt{N}} \\
&\Leftrightarrow&  \overline{X}-\alpha \frac{\sigma}{\sqrt{N}}  \leq \mu\leq \overline{X}+\alpha\frac{\sigma}{\sqrt{N}}   
\end{eqnarray*}
De modo que 
$$
I= \left[\overline{X}-\alpha \frac{\sigma}{\sqrt{N}},  \mu, \overline{X}+\alpha\frac{\sigma}{\sqrt{N}}\right]
$$
es un intervalo de confianza para $\mu$ con confianza $p$ (i.e. confianza $100p \%$).  

Por ejemplo, supongamos que queremos una confianza del $95\%$. Entonces el siguiente cálculo:

In [38]:
from scipy.stats import norm
X=norm(0,1)
alpha=X.ppf(1-0.05/2)
alpha

1.959963984540054

nos muestra que 
$$
I= \left[\overline{X}-1.959964 \frac{\sigma}{\sqrt{N}}, \overline{X}+1.959964\frac{\sigma}{\sqrt{N}}\right]
$$
será un intervalo de confianza para la media $\mu$ con nivel de confianza del $95\%$. 

Evidentemente, cuanto mayor es el valor $N$ (el número de muestras tomadas), más estrecho será el intervalo $I$ y, por tanto, más precisa la estimación. (Lo mismo vale para $\sigma$: cuanto menor sea $\sigma$, más precisa será la estimación).

<font color='blue'> <strong> 6. Nos interesa la media de una serie de datos. Se supone que esos datos corresponden a una normal con desviación típica 2. Cogemos 40 de esos datos y calculamos su media $\overline{X} = 50$. Calcula dos valores a y b de modo que la seguridad de que m esté entre ellos sea del 95$\%$ </strong> </font>

<h3>Solución rápida:</h3> Es obvio que nos piden un intervalo de confianza con nivel de confianza $95\%$ para la media, en una población cuya $\sigma$ es conocida. Podemos aplicar la fórmula:

$$ I= \left[\overline{X}-\alpha \frac{\sigma}{\sqrt{N}}, \overline{X}+\alpha\frac{\sigma}{\sqrt{N}}\right]$$

con $N=40$, $\alpha = {\rm norm(0,1).ppf}(1-\frac{1-p}{2})$, $p=0.95$, $\overline{X}=50$, lo que arroja el siguiente intervalo:

In [39]:
X=norm(0,1)
I=[50-X.ppf(1-0.025)*2/(40**0.5),50+X.ppf(1-0.025)*2/(40**0.5)]
I

[49.38020496769544, 50.61979503230456]

<h3> Solución razonada:</h3> Sabemos que $\overline{X}\sim N(m,\frac{2}{\sqrt{40}})$. Es más, si consideramos $m$ como una v.a. y usamos que $\overline{X}=50$, sabemos que 
$$Z=\frac{m-\overline{X}}{s/\sqrt{40}}= \frac{m-50}{2/\sqrt{40}}\sim N(0,1)$$
Como $Z$ es simétrica, podemos buscar un valor $a\in\mathbb{R}$ tal que $P(-a\leq Z\leq a)=0.95$ simplemente resolviendo la ecuación $P(Z\leq -a)=0.025$ pues, entonces, $P(Z\geq a)=0.025$ y 
$$P(-a<Z<a)=1-(P(Z\leq a)+P(Z\geq a))=1-(0.025+0.025)=0.95$$ 



In [40]:
a=X.ppf(0.025)
a=-a
a

1.9599639845400545

Entonces 
$$P(-1.959964\leq \frac{m-50}{2/\sqrt{40}} \leq 1.959964)=0.95$$
y, despejando,
$$P(-1.959964\cdot 2/\sqrt{40}+50\leq m \leq 1.959964\cdot 2/\sqrt{40}+50)=0.95$$
Por tanto, una solución al problema es:



In [41]:
I=[-1.959964*2/(40**0.5)+50, 1.959964* 2/(40**0.5)+50]
I

[49.38020496280657, 50.61979503719343]


**Nota:** Obsérvese que hemos usado que la v.a. N(0,1) es simétrica para construir un intervalo simétrico [-a,a] a partir del cual luego se construye el intervalo [A,B] que nos piden, con la condición añadida de que este está centrado en $\overline{X}=50$. Obviamente, esto no formaba parte del enunciado, por lo que hay infinitas soluciones posibles (pero solo una con esta propiedad adicional).

<h1> Estimación de la media $\mu$ si $\sigma$ es desconocida</h1>

Cuando desconocemos tanto la media como la desviación típica de la población, las cosas se complican. Aún así, <font color='brown'> <strong> si la población es normal </strong></font>, podemos estimar $\mu$ usando la media muestral $\overline{X}$ y la cuasi-desviación típica  (o desviación típica muestral) $\hat{S}$, pues  
$$
\overline{X}-\mu \sim \frac{\hat{S}}{\sqrt{N}}t_{N-1},
$$
donde $N$ es el tamaño de la muestra y $t_v$ es la distribución de Student con $v$ grados de libertad, cuya fdp es:
$$
f_{t_v}(x)=\frac{\Gamma(\frac{v+1}{2})}{\sqrt{v\pi}\Gamma(\frac{v}{2})}\left(1+\frac{x^2}{v}\right)^{-\frac{v+1}{2}}
$$ 
Ahora, en Python la distribución t de Student con $v$ grados de libertad se construye con las órdenes:

In [42]:
v=10 # (Por poner un ejemplo concreto)
from scipy.stats import t
T = t(v)


Se sigue que el intervalo de confianza con nivel de confianza $p$ viene dado por: 
$$I=\left[\overline{X}+\frac{\hat{S}}{\sqrt{N}} \cdot {\rm t(N-1).ppf}(\frac{1-p}{2}), \overline{X}+\frac{\hat{S}}{\sqrt{N}} \cdot {\rm t(N-1).ppf}(1-\frac{1-p}{2}) \right]$$

Por ejemplo, para $p=0.95$, $N=100$, tendremos:

In [43]:
p=0.95
N=100
T=t(N-1)
print(T.ppf((1-p)/2))
print(T.ppf(1-(1-p)/2))

-1.9842169515086827
1.9842169515086827


de modo que el intervalo de confianza viene dado por la fórmula:

$$I=\left[\overline{X}-1.984217\frac{\hat{S}}{\sqrt{N}}  , \overline{X}+1.984217\frac{\hat{S}}{\sqrt{N}}  \right]$$

<font color='red'> <strong> Nota: Si queremos desplazar y escalar una v.a. $t_{v}$, de modo que nuestra distribución es $$Y=\mu+\sigma\cdot t_v,$$
en Python usamos la orden: </strong> </font> 

In [44]:
mu=3
sigma=2 # (De nuevo, para concretar ejemplos)
Y = t(df=10, loc=mu, scale=sigma)

<font color='blue'> <strong> 7. Lord Rayleigh en 1890 postuló la existencia del Argón en el aire, y para ello hizo 100 mediciones
del peso del llamado gas residual (los científicos de la época sabian aislar el O2, el CO2 y el vapor de agua, el gas restante lo llamaban gas residual) obtuvo como media de las 100 mediciones
P = 2,31001 gr. y como cuasi desviación típica muestral s = 0,021 gr. ¿Cuál es la probabilidad
de que la media m esté en el intervalo [2.303773 , 2.316247]? 
En otras palabras: ¿cual es el nivel de confianza de este intervalo, si estamos estimando la media $m$? </strong> </font>

<h3> Solución. </h3>

Sabemos que  la medición del peso es una v.a. normal, por tanto, la v.a. base es $X\sim N(m,\sigma)$ para ciertos valores desconocidos $m,\sigma$. Así las cosas, la media muestral satisface 
$$\overline{X}-m\sim \frac{\hat{S}}{\sqrt{100}}t_{99} $$ 
(pues $n=100$ es el número de muestras tomadas).
Por otra parte, 
\begin{eqnarray*}
    2.303773\leq m\leq 2.316247 & \Leftrightarrow & -2.303773\geq -m\geq -2.316247 \\
    & \Leftrightarrow & \overline{X}-2.303773\geq \overline{X}-m\geq \overline{X}-2.316247 \\
    & \Leftrightarrow & 
    \frac{\overline{X}-2.303773}{\hat{S}/\sqrt{100}}\geq \frac{\overline{X}-m}{\hat{S}/\sqrt{100}}\geq \frac{\overline{X}-2.316247}{\hat{S}/\sqrt{100}}\\
    \\
    & \Leftrightarrow & 
    \frac{\overline{X}-2.303773}{\hat{S}/\sqrt{100}}\geq Z \geq \frac{\overline{X}-2.316247}{\hat{S}/\sqrt{100}}, \text{ donde } Z\sim t_{99}.
\end{eqnarray*}
Y, sustituyendo $\overline{X}= P= 2.31001$ y $\hat{S}=0.021$, tendremos:
$$
2.303773\leq m\leq 2.316247 \Leftrightarrow  \frac{2.31001-2.303773}{0.021/\sqrt{100}}\geq Z \geq \frac{2.31001-2.316247}{0.021/\sqrt{100}}
$$



In [45]:
A = (2.31001-2.303773)/(0.021/(10))
B = (2.31001-2.316247)/(0.021/(10))
[A,B]

[2.9700000000000224, -2.9700000000000224]

De modo que: 
$$
P(2.303773\leq m\leq 2.316247)= P \left( -2.97\leq Z \leq 2.97\right) \text{ con } Z\sim t_{99}
$$

In [46]:
from scipy.stats import t
T = t(99)
solucion=T.cdf(2.97)-T.cdf(-2.97)
solucion

0.9962633431587837

El nivel de confianza es del 99.6263..%

<h1> Estimación de la proporción $p$ de elementos de una población que satisfacen cierta condición $A$</h1>


En este caso sabemos que  $$p-\hat{p}\sim \sqrt{\frac{p(1-p)}{N}} N(0,1)$$ 


Y, <font color='brown'> <strong> si $N$ es suficientemente grande </strong> </font>, podemos también asumir que 

$$p-\hat{p}\sim \sqrt{\frac{\hat{p}(1-\hat{p})}{N}} N(0,1),$$

donde $\hat{p}$ es la proporción muestral. 

A partir de ahí es fácil obtener intervalos de confianza para $p$: Basta definir $X\sim N(0,1)$ en Python y luego calcular:

$$I=\left[\hat{p}-\sqrt{\frac{\hat{p}(1-\hat{p})}{N}} {\rm X.ppf}(1-e) , \hat{p}+\sqrt{\frac{\hat{p}(1-\hat{p})}{N}} {\rm X.ppf}(1-e) \right]$$

donde $e=\frac{1-q}{2}$ si el nivel de confianza es $q$ (cambiamos la letra porque $p$ lo estamos usando para la proporción).

<font color='blue'> <strong> 8. Se quiere conocer la proporción de alumnos que entran a la carrera con conocimientos de C.
Para ello se coge una muestra de 100 alumnos de los cuáles se comprueba que solamente 12 de
ellos tienen esos conocimientos. Calcula un intervalo de confianza para la proporción buscada con
    seguridad del 90$\%$ </strong> </font>



<h3> Solución. </h3>  
En el caso de la proporción $p$ de elementos de una población que verifican cierta condición, sabemos que <font color='brown'> si la muestra es suficientemente grande, </font>

$$p=\hat{p}+\sqrt{\frac{\hat{p}(1-\hat{p})}{n}} \cdot N(0,1)$$

Asumimos que 100 alumnos son suficientes para utilizar este resultado. Entonces nuestros datos nos indican que $\hat{p}=12/100=0.12$ y lo único que hay que hacer es obtener los percentiles correspondientes de la v.a. N(0,1):

In [47]:
from scipy.stats import norm
X=norm(0,1)
a=X.ppf(0.05)
b=X.ppf(0.95)
A = 0.12+((0.12*(1-0.12)/100)**0.5)*a
B = 0.12+((0.12*(1-0.12)/100)**0.5)*b

I=[A*100,B*100] # Mult. por 100 para expresarlo en porcentajes 
I

[6.654858385856594, 17.345141614143404]

<font color='blue'> <strong> 9. En la Universidad de Murcia el 25$\%$ de los estudiantes tiene más de 21 años. En una muestra de 400 estudiantes, ¿cuál es la probabilidad de que más de 110 supere los 21 años de edad? </strong></font>





<h3> Solución. </h3>

Sabemos que la proporción $p$ de estudiantes con más de 21 años es $p=0.25$. Nos preguntan $P[\hat{p}>\frac{110}{400}]$, donde $\hat{p}$ es la proporción muestral de una muestra de 400 individuos (i.e, $n=400$ es el tamaño de la muestra). Ahora bien, $$\hat{p}\sim N(p,\sqrt{\frac{p(1-p)}{n}}),$$ 
de modo que  


In [48]:
p=0.25
n=400
(p*(1-p)/n)**0.5

0.021650635094610966

$$\hat{p}\sim N(0.25,0.02165064)$$
y nos están preguntando $$P[\hat{p}>\frac{110}{400}]=1-P[\hat{p}\leq \frac{110}{400}]$$


In [49]:
from scipy.stats import norm
X=norm(0.25,0.02165064)
sol=1-X.ppf(110/400)
sol

0.7629418892953004


<font color='blue'> <strong> 10. La proporción de chips defectuosos en un gran lote manufacturado es de 0.1. ¿Cuál es la menor muestra aleatoria de chips que se deben seleccionar del lote para que la probabilidad de que la proporción de artículos defectuosos en la muestra sea menor que 0.13 sea al menos 0.99? </strong></font>




<h3> Solución. </h3>  De nuevo nos informan de que la proporción $p$ de una v.a. (ser un chip defectuoso o no) es conocida: $p=0.1$ y nos preguntan algo sobre la proporción muestral $\hat{p}$. Concretamente, preguntan el tamaño mínimo $n$ de la muestra que garantiza 

$$P[\hat{p}<0.13]\geq 0.99$$

Ahora bien:

\begin{eqnarray*}
    \hat{p}<0.13 &\Leftrightarrow & \frac{\hat{p}-p}{\sqrt{p(1-p)/n}}<\frac{0.13-p}{\sqrt{p(1-p)/n}} \\
    &\Leftrightarrow & \frac{\hat{p}-0.1}{\sqrt{0.1\cdot 0.9/n}}<\frac{0.03}{\sqrt{0.1\cdot 0.9/n}}\\
    &\Leftrightarrow & Z<\frac{0.03}{\sqrt{0.1\cdot 0.9/n}}, \text{ donde } Z\sim N(0,1). 
\end{eqnarray*}
    Por tanto, $\frac{0.03}{\sqrt{0.1\cdot 0.9/n}}$ debe coincidir con el percentil $0.99$ de $Z$:

In [50]:
Z=norm(0,1)
Z.ppf(0.99)

2.3263478740408408

Es decir, $$\frac{0.03}{\sqrt{0.1\cdot 0.9/n}} = 2.326348$$
Despejando, $$n=0.09\left(\frac{2.326348}{0.03}\right)^2$$

In [51]:
(0.09)*(2.326348/0.03)**2

541.1895017104

Necesitamos que el tamaño de la muestra sea al menos $n=542$. 

<font color='blue'> <strong> 11. La siguiente tabla muestra los porcentajes de individuos que tienen hábitos nocivos para la salud
clasificados por género. **

|              | **Duerme menos de 6 horas** | **Fumador** | **No desayuna** | **Sobrepeso superior al 20 %** |
|--------------|-----------------------------|-------------|------------------|----------------------------------|
| **Hombre**   | 22.7                        | 28.4        | 45.4             | 29.6                             |
| **Mujer**    | 21.4                        | 22.8        | 42.0             | 25.6                             |


**Elegimos una muestra aleatoria de 300 hombres. Aproxima la probabilidad de:
\begin{itemize**
    -  Al menos 150 de ellos no desayuna habitualmente
    -  Menos de 100 individuos de la muestra son fumadores

Elegimos ahora una muestra de 300 mujeres. Aproxima la probabilidad de que:

    -  Al menos 60 de ellas sufren un sobrepeso de mas del 20 $\%$.
    -  Menos de 50 de ellas duermen menos de 6 horas.

Aproxima la probabilidad de que en las muestras elegidas sean más mujeres que hombres los que desayunan habitualmente.}

</strong> </font> 



<h3> Solución. </h3>  Evidentemente, los datos de la tabla nos permiten conocer las proporciones poblacionales de las distintas características que aparecen. Las preguntas se refieren, por tanto, a las proporciones muestrales.

En el primer caso, tenemos una muestra de 300 hombres y nos preguntan la probabilidad de que al menos 150 no desayunen habitualmente. Es decir, nos preguntan el valor de 

$$P[\hat{p}>0.5]=1-P[\hat{p}\leq 0.5].$$ 

Por la tabla, sabemos que la proporción p de hombres que no desayunan habitualmente es $45.4\%$. Es decir, $p=0.454$. Por tanto, $$\hat{p}\sim N(p,\sqrt{\frac{p(1-p)}{n}})$$

In [52]:
p=0.454
n=300
(p*(1-p)/n)**0.5

0.028745086536658748

De modo que $$\hat{p}\sim N(0.454,0.02874509)$$ y el valor que nos piden es:

In [53]:
from scipy.stats import norm
X=norm(0.454,0.02874509)
sol=1-X.cdf(0.5)
sol

0.05476898379050765

A continuación nos preguntan la probabilidad de que menos de 100 individuos de la muestra son fumadores. Es decir, queremos conocer 

$$P[\hat{p}<100/300]=P[\hat{p}<1/3].$$ 

Ahora la proporción $p$ es distinta, por lo que debemos repetir los cálculos:

In [54]:
p=0.284
n=300
(p*(1-p)/n)**0.5

0.026034848440759806

De modo que $\hat{p}\sim N(0.284,0.02603485)$ y el valor que nos piden es:

In [55]:
X=norm(0.284,0.02603485)
sol=X.cdf(1/3)
sol

0.9709469099184965

Respondemos ahora la siguiente cuestión:


<font color='blue'> <strong> Elegimos ahora una muestra de 300 mujeres. Aproxima la probabilidad de que:
\begin{itemize**
    -  Al menos 60 de ellas sufren un sobrepeso de mas del 20 $\%$.
    -  Menos de 50 de ellas duermen menos de 6 horas.
</strong></font> 
       
       
En el primer caso estamos interesados en la proporción de mujeres que sufren un sobrepeso de más del 20$\%$, que es (ver la tabla) $p=0.256$. Nos preguntan la probabilidad 
$$P[\hat{p}>60/300]=1-P[\hat{p}\leq 1/5]$$
Y la respuesta es: 

In [56]:
p=0.256
n=300
from scipy.stats import norm

X=norm(p,(p*(1-p)/n)**0.5)
sol=1-X.cdf(1/5)
sol

0.9868753079991833



En el segundo caso estamos interesados en la proporción de mujeres que duermen menos de 6 horas, que es (ver la tabla) $p=0.214$. Nos preguntan la probabilidad 
$$P[\hat{p}<50/300]=P[\hat{p}< 1/6]$$
Y la respuesta es:

In [57]:
p=0.214
n=300
from scipy.stats import norm
X=norm(p,(p*(1-p)/n)**0.5)
sol=X.cdf(1/6)
sol

0.02280498293670224

Respondemos ahora la última cuestión:

<font color='blue'> <strong>Aproxima la probabilidad de que en las muestras elegidas sean más mujeres que hombres los que desayunan habitualmente.</strong></font> 
       


Llamemos $p_1=0.58, p_2=0.446$ a las proporciones de mujeres (respectivamente, hombres) que desayunan habitualmente (ver tabla para confirmar estos valores) y por $\hat{p_1}, \hat{p_2}$ las proporciones muestras correspondientes. Entonces  nos piden 

$$P[\hat{p_1}-\hat{p_2}>0]=1-P[\hat{p_1}-\hat{p_2}\leq 0].$$ 

Ahora bien, 


In [58]:
p1 = 0.58
p2 = 0.446
n = 300
s1 = (p1*(1-p1)/n)**0.5
s2 = (p2*(1-p2)/n)**0.5
[s1,s2]


[0.028495613697550014, 0.028698664312705104]

de modo que: $$\hat{p_1}\sim N(0.58,0.02849561), \quad \hat{p_2}\sim N(0.446,0.02869866)$$

Entonces: $$\hat{p_1}-\hat{p_2}\sim N(0.58-0.446,\sqrt{0.02849561^2+0.02869866^2})$$


In [59]:

[0.58-0.446, (0.02849561**2+0.02869866**2)**0.5]



[0.13399999999999995, 0.04044271102519835]


Por tanto, la respuesta que buscamos es:


In [60]:
from scipy.stats import norm
X=norm(0.134,0.04044271)
sol=1-X.cdf(0)
sol

0.9995390375274461

<font color='blue'> <strong> 12. El entrenador de un saltador de longitud quiere analizar su evolución, estudiando la variabilidad
de las marcas que va consiguiendo. El entrenador anota las marcas de 9 saltos, obteniendo:
$7.2, 8.9, 8.3, 7.3, 8.1, 8.5, 8.6, 8.5, 8.1$. Responde, en cada uno de los siguientes casos, a la cuestión que se formula:

* Por experiencia previa se sabe que las marcas del saltador siguen una distribución normal con varianza 1/4.

Calcular, con una confianza del 92 $\%$, los valores entre los cuales se encuentra la media de las marcas del atleta.

* No tenemos clara cuál es la varianza. 

Calcular, con una confianza del 94 $\%$, los valores entre los cuales se encuentra la media de las marcas del atleta.
    
</strong></font> 

<h3> Solución. </h3>  

Lo primero que hacemos es calcular la media muestral de los datos:

In [61]:
import numpy as np

x = np.array([7.2, 8.9, 8.3, 7.3, 8.1, 8.5, 8.6, 8.5, 8.1])
np.mean(x)

8.166666666666666

Resolvemos ahora la primera cuestión, en la que nos dicen que <font color='brown'> <strong> conocemos la varianza de los datos <strong> </font>, que es $1/4$ (de modo que la desviación típica es 1/2).

Sabemos que $\overline{X}\sim N(m,\frac{1}{2})$. Es más, si consideramos $m$ como una v.a. y usamos que $\overline{X}= 8.166667$, sabemos que 
$$Z=\frac{m-\overline{X}}{s/\sqrt{9}}= \frac{m-8.166667}{0.5/\sqrt{9}}\sim N(0,1)$$
Como $Z$ es simétrica, podemos buscar un valor $a\in\mathbb{R}$ tal que $P(-a\leq Z\leq a)=0.92$ simplemente resolviendo la ecuación $P(Z\leq -a)=0.04$ pues, entonces, $P(Z\geq a)=0.04$ y $$P(-a<Z<a)=1-(P(Z\leq a)+P(Z\geq a))=1-(0.04+0.04)=0.92$$ 



In [62]:
Z=norm(0,1)
a=Z.ppf(0.04)
a=-a
a

1.75068607125217

Entonces 
$$P(-1.750686\leq \frac{m-8.166667}{0.5/\sqrt{9}} \leq 1.750686)=0.92$$
y, despejando,
$$P(-1.750686\cdot 0.5/\sqrt{9}+8.166667\leq m \leq 1.750686\cdot 0.5/\sqrt{9}+8.166667)=0.92$$
Por tanto, una solución al problema es:





In [63]:
[-1.750686* 0.5/(9**0.5)+8.166667,1.750686* 0.5/(9**0.5)+8.166667]

[7.874886, 8.458448]


Resolvemos ahora la segunda cuestión, en la que nos dicen que  <font color='brown'><strong> desconocemos la varianza de los datos </strong> </font>.  En tal caso, sabemos que $$Z=\frac{m-\overline{X}}{\hat{S}/\sqrt{n}}\sim t_{n-1}$$
donde $\hat{S}$ es la cuasi desviación típica de los datos. Calculemos $\hat{S}$



In [64]:
cuasivarianza = np.var(x, ddof=1) # ddof=1 es para dividir por n-1. Si queremos usar varianza de los datos ponemos ddof=0
desvtipica = np.sqrt(cuasivarianza)
desvtipica

0.5766281297335398

Entonces 
$$Z=\frac{m-8.166667}{0.5766281/\sqrt{9}}\sim t_{8}$$
Podemos buscar los valores $a,b\in\mathbb{R}$ tales que $P(a\leq Z\leq b)=0.94$ simplemente resolviendo las ecuación $P(Z\leq -a)=0.03$ pues, entonces, $P(Z\geq a)=0.03$ y $P(Z\geq b)=0.97$, por lo que $$P(a<Z<b)=1-(P(Z\leq a)+P(Z\geq b))=1-(0.03+(1-0.97))=1-(0.03+0.03)=0.94$$ 

Entonces 
$$P(-2.189155\leq \frac{m-8.166667}{0.5766281/\sqrt{9}} \leq 2.189155)=0.92$$
y, despejando,
$$P(-2.189155\cdot 0.5766281/\sqrt{9}+8.166667\leq m \leq 2.189155\cdot 0.5766281/\sqrt{9}+8.166667)=0.94$$
Por tanto, una solución al problema es:

In [65]:
[-2.189155*0.5766281/3+8.166667, 2.189155*0.5766281/3+8.166667]

[7.745890903914834, 8.587443096085167]

<font color='magenta'> <strong>  13. Las notas de cierta asignatura se distribuyen según una normal de media m y varianza $s^2$. Se toma
una muestra de 16 alumnos elegidos aleatoriamente, obteniendo las siguientes calificaciones:
$$8.7, 6.2, 5.7, 6.3, 4.1, 5.1, 6.1, 5, 4.6, 8.3, 5.7, 6.7, 6.2, 4, 4.7, 5.5$$
Calcular, con una confianza del 90 $\%$, los valores entre los cuales se encuentra la media de
las notas.
Si sabemos que $s^2 = 1$, calcular, con una confianza del 98 $\%$, los valores entre los cuales se
encuentra la media de las notas. </strong> </font> 

<h3> Solución. </h3>

<font color='magenta'> <strong>  14. Unos determinados datos tienen desviación típica 2. Se extrae una muestra de tamaño 100 y se
calcula su media, dando como resultado 10.
Calcula un intervalo de confianza para la media de los datos con seguridad del 90$\%$
¿De qué tamaño debe ser la muestra si se quiere obtener un intervalo de confianza para la media de estos datos con seguridad del 90$\%$ pero de modo que la amplitud de dicho intervalo
sea menor que 0.1?</strong> </font> 

<h3> Solución. </h3>


<h2>Contrastes de Hipótesis</h2>


Supongamos que creemos que un parámetro $\theta$ de una determinada población tiene un cierto valor. Llamamos hipótesis nula y denotamos por $H_0$ a dicha creencia. 

Por otra parte, cabe la posibilidad de una alternativa, que denotamos por $H_1$. (Por ejemplo, una empresa afirma que la durabilidad media de sus productos supera cierto valor y nosotros dudamos de ello, planteando la hipótesis de que dicha durabilidad es en realidad menor). ¿Cómo proceder?


* Se toma una muestra 

* Se comprueba el valor de un cierto estadístico $\hat{\theta}$ -que debe aproximar el valor real de $\theta$

* Se analiza lo muy o poco probable que es, en el caso de que $H_0$ sea cierta, el resultado observado. (La probabilidad del resultado observado se llama $p$-valor).

*Rechazamos $H_0$ solo en el caso de que el $p$-valor sea inferior a un cierto nivel de significación fijado de antemano. 


Para abordar esta tarea usaremos que:


* Si $\sigma$ es conocida,
$$
\frac{\overline{X}-\mu}{\sigma/\sqrt{N}}\sim N(0,1)
$$
*  Si la población es normal y $\sigma$ es desconocida,
$$
\frac{\overline{X}-\mu}{\hat{S}/\sqrt{N}}\sim t_{N-1}
$$
* Si $H_0$ se refiere a una proporción $p$:
$$
\frac{\hat{p}-p}{\sqrt{p(1-p)/N}}\sim N(0,1)
$$




<h3>Contrastes para la media con $\sigma$ conocida</h3>


* <strong> $H_0: \mu \leq \mu_0$; frente a  $H_1: \mu > \mu_0$.</strong>

En este caso el estadístico es $$T=\frac{\overline{X}-\mu_0}{\sigma/\sqrt{N}} \sim N(0,1)$$ y el $p$-valor es $$P(N(0,1)>T)$$

Si dicho valor es inferior al nivel de significación $\alpha$, rechazamos $H_0$.

<font color= "brown"> De forma análoga, si el contraste es <strong> $H_0: \mu \geq \mu_0$; frente a  $H_1: \mu < \mu_0$.</strong>, usamos el mismo estadístico $T$, pero ahora el $p$-valor es $P(N(0,1)<T)$</font>

* <strong> $H_0: \mu =\mu_0$; frente a  $H_1:\mu \neq \mu_0$.</strong>
En este caso el estadístico es nuevamente $$T=\frac{\overline{X}-\mu_0}{\sigma/\sqrt{N}} \sim N(0,1)$$ y el $p$-valor es $$P(|N(0,1)|>|T|)=2P(N(0,1)>|T|)$$
Si dicho valor es inferior al nivel de significación $\alpha$, rechazamos $H_0$.
    

<h3>Contrastes para la media de una población normal, con $\sigma$ desconocida</h3>


* <strong> $H_0: \mu \leq \mu_0$; frente a  $H_1: \mu > \mu_0$.</strong>
        
En este caso el estadístico es $$T=\frac{\overline{X}-\mu_0}{\hat{S}/\sqrt{N}} \sim t_{N-1}$$ y el $p$-valor es $$P(t_{N-1}>T)$$
Si dicho valor es inferior al nivel de significación $\alpha$, rechazamos $H_0$.

<font color= "brown"> De forma análoga, si el contraste es <strong>$H_0: \mu \geq \mu_0$; frente a  $H_1: \mu < \mu_0$.</strong>, usamos el mismo estadístico $T$, pero ahora el $p$-valor es $P(t_{N-1}<T)$</font>
        
* <strong> $H_0: \mu =\mu_0$; frente a  $H_1:\mu \neq \mu_0$.</strong>
        
En este caso el estadístico es nuevamente $$T=\frac{\overline{X}-\mu_0}{\hat{S}/\sqrt{N}} \sim t_{N-1}$$ y el $p$-valor es $$P(|t_{N-1}|>|T|)=2P(t_{N-1}>|T|)$$
Si dicho valor es inferior al nivel de significación $\alpha$, rechazamos $H_0$.

<strong> Ejemplo</strong> <font color="blue"> Una empresa de neumáticos afirma que una nueva gama dura en promedio al menos de 28000 km. Se supone que las duraciones son una normal con desviación típica 125. Se hace una prueba con
64 neumáticos dando una duración media de 27800 km. Se pide:

* Comprobar si hay evidencia suficiente para rechazar la afirmación de la empresa con nivel de significación del 5$\%$
*  ¿Cuál es el $p$-valor?
</font> 


Estamos ante un contraste de hipótesis del tipo: <strong> $H_0: \mu \geq \mu_0=28000$; frente a  $H_1:\mu < \mu_0=28000$.</strong> en el que conocemos la desviación típica $\sigma=125$ y la media muestral $\overline{X}=27800$, con $N=64$.
        
En este caso el estadístico es  $$T=\frac{\overline{X}-\mu_0}{\sigma/\sqrt{N}}=\frac{27800-28000}{125/\sqrt{64}}$$ y el $p$-valor es $$P(N(0,1)<T)$$
Si dicho valor es inferior al nivel de significación $\alpha=0.05$, rechazamos $H_0$.


Ahora bien, 

In [66]:
(27800-28000)/(125/(64**0.5))

-12.8

por lo que el cálculo del p-valor es:

In [67]:
from scipy.stats import norm
X=norm(0,1)
X.cdf(-12.8)

8.19756171316276e-38

que es muy inferior a $0.05$. Rechazamos $H_0$.

<font color='magenta'> <strong> 17. Se quiere estudiar el número medio de libros que leen los alumnos de un instituto en un año. Se
sabe que el número de libros se distribuye según una Normal con desviación típica 2. Se quiere
estudiar si puede asumirse, considerando un nivel de significación del 5$\%$, que el número medio
de libros leídos es de 10. 

* Indica qué tipo de contraste es y cuáles son las regiones de rechazo y no rechazo.
* Cogemos una muestra de 50 alumnos a los que preguntamos cuántos libros leyeron el último
año. Si la media de sus respuestas es 9 ¿debemos rechazar nuestra hipótesis?
* Repite el ejercicio anterior para las siguientes hiótesis: (i) El número medio de libros leídos mayor de 9.5. (ii) El número medio de libros leídos es menor de 9.1.
* Repite los apartados anteriores si se supone que la desviación típica de la población no es
conocida y se ha calculado la desviación típica de la muestra dando $\hat{s}= 1.8$. 
    </strong> </font>

<font color='magenta'> <strong> 18. Una empresa sabe que el 20$\%$ de sus clientes tienen alguna queja. Proponen un plan de mejora y
esperan que el problema haya mejorado. Para comprobarlo le preguntan a 300 clientes y ven que
55 de ellos tienen quejas. ¿Se puede decir con un nivel de significación del 5$\%$ que el problema
ha mejorado?
</strong> </font>


<h3> Solución. </h3>
En este caso el contraste es del tipo: 

$H_0: p \geq p_0=0.2$; frente a  $H_1: p < p_0=0.2$.

(Es decir, asumimos que la proporción inicial -antes del plan de mejora era del 20$\%$ o mayor, y queremos ver si en realidad -tras el plan de mejora, que es cuando tomamos la muestra- dicha proporción es menor (ha disminuido). 

En este caso el estadístico es 

$$T=\frac{\hat{p}-p_0}{\sqrt{p_0(1-p_0)/N}}$$ 

y el $p$-valor es 

$$P(N(0,1)<T)$$

Si dicho valor es inferior al nivel de significación $\alpha=0.05$, rechazamos $H_0$.

Ahora, en nuestro caso tenemos $N=300$, $p_0=0.2$, $\hat{p}=55/300$, por lo que el valor de $T$ es:



In [68]:
p0=0.2
phat=55/300
N=300
T=(phat-p0)/(p0*(1-p0)/N)**0.5
T

-0.7216878364870332

de modo que el p-valor correspondiente es:

In [69]:
from scipy.stats import norm
X=norm(0,1)
X.cdf(T)

0.23524321102939455

No podemos rechazar $H_0$ y, por tanto, no podemos afirmar que el plan ha sido útil, que la proporción de quejas ha disminuido.

<font color='magenta'> <strong> 19. En una fábrica de artículos electrónicos generalmente el 10$\%$ de los artículos presenta algún defecto
de fabricación. Para mejorar la calidad del producto se toman medidas para disminuir el
porcentaje de artículos defectuosos. Luego de aplicadas las medidas se elige una muestra de 1500
artículos y se prueban observando que 100 de ellos presentaban algún defecto. ¿Crees que las medidas
de mejoramiento aplicadas lograron disminuir la proporción de artículos defectuosos en la
fábrica? Realiza la prueba de hipótesis adecuada para responder esta pregunta usando un nivel de
    significación de 0.05 </strong> </font>