#Lista de exercícios sobre variáveis aleatórias e distribuições de probabilidade

*SOLUÇÕES*

#Questão 1
Suponha que o tempo que uma célula leva para se dividir (mitose) é normalmente distribuído, com um tempo médio de uma hora e um desvio-padrão de cinco minutos. Calcule:

a. Qual é a probabilidade de uma célula se dividir em menos de 45 minutos?

b. Qual é a probabilidade de uma célula levar mais de 65 minutos para se dividir?

c. Em que tempo, aproximadamente, 99% de todas as células completam a mitose?


**Solução**: Seja $X$ a VA que determina o tempo de divisão celular, sabemos que $X \sim \mathcal{N}(60,5)$, assim:

a. A probabilidade de uma célula se dividir em menos de 45 minutos é dada por $P(X \lt 45) = F(45)$, utilizando a biblioteca scipy (abaixo) vemos que $P(X \lt 45) \approx 0.00135$.

In [None]:
import scipy.stats as st
st.norm.cdf(45,60,5)

0.0013498980316300933

b. A probabilidade de uma célula levar mais de 65 minutos para se dividir é dada por $P(X \gt 65) = 1 - P(X \leq 65) = 1 - F(65)$. Usando a scipy vemos que $P(X \gt 65) \approx 0.158655$

In [None]:
import scipy.stats as st
1-st.norm.cdf(65,60,5)

0.15865525393145707

c. Neste caso, queremos descobrir o valor de $x$, tal que $P(X \lt x) = 0.99$. Usando o método para calcular percentis na scipy (abaixo), temos que 99% das células estarão divididas em $x \approx 72$ minutos.

In [None]:
import scipy.stats as st
st.norm.ppf(0.99,60,5)

71.6317393702042

#Questão 2
Uma companhia aérea tem um voo regular com 10 assentos nele. A probabilidade de um passageiro comparecer ao voo é de 0,95. A companhia deseja fazer *overbooking* (vender mais assentos do que possui), para aumentar as chances de todos os assentos serem preenchidos. Qual é o menor número de passagens que a companhia aérea deveria vender para assegurar que a probabilidade de que o voo estará cheio é maior que 0,99?

**Solução**: Intuitivamente, sabemos que quantos mais assentos a companhia vender (abaixo vamos chamar de tickets, para não confundir com o número de assentos real do vôo, que é 10), maior a chance de o vôo ser preenchido inteiramente.

Para computar esta probabilidade, seja $X$ a VA do número de passageiros que comparecem ao vôo. Sabemos que esta VA se distribui como uma binomial com $p=0.95$ e um certo $n$ que é o número de tickets vendidos. Queremos definir $n$ tal que $P(X \geq 10) \gt 0.99$, já que há apenas 10 assentos no vôo.

Sabemos que $P(X \geq 10) = 1 - P(X \leq 9)$, podemos resolver numericamente este problema, com o código abaixo, onde buscamos os valores discretos para $n \in [10,20]$. Pelo código observamos que conforme $n$ cresce, o valor de $P(X \geq 10)$ cresce também, sendo que o valor da probabilidade é maior do que 0.99, para $n \geq 13$.

Assim, o menor número de tickets que a companhia deve vender é de 13 tickets.

In [None]:
import scipy.stats as st

nv = range(10,20)
for n in nv:
  p = 1-st.binom.cdf(9,n,0.95)
  print("Com n= "+str(n)+" P(X >= 10)"+str(round(p,5)))

Com n= 10 P(X >= 10)0.59874
Com n= 11 P(X >= 10)0.89811
Com n= 12 P(X >= 10)0.98043
Com n= 13 P(X >= 10)0.9969
Com n= 14 P(X >= 10)0.99957
Com n= 15 P(X >= 10)0.99995
Com n= 16 P(X >= 10)0.99999
Com n= 17 P(X >= 10)1.0
Com n= 18 P(X >= 10)1.0
Com n= 19 P(X >= 10)1.0


#Questão 3

A porcentagem de pessoas expostas à bactéria que ficam doentes é 20%. Considere que pessoas sejam independentes. Considere que 1000 pessoas sejam expostas à bactéria. Aproxime cada uma das
seguintes questões:

a. Probabilidade de mais de 225 pessoas ficarem doentes.

b. Probabilidade de entre 175 e 225 pessoas ficarem doentes.

c. Valor tal que seja de 0,01 a probabilidade do número de pessoas que se tornam doentes exceder tal valor?

**Solução**: Seja $X$ a VA do número de pessoas doentes. Observa-se que $X \sim Binomial(n=1000,p=0.2)$. Contudo como $np \gt 5$ e $n(1-p) \gt 5$, podemos aproximar esta distribuição por uma Normal $Y$ com $\mu = np$ e $\sigma = \sqrt{np(1-p)}$.

a. Desejamos calcular $P(X \gt 225) = 1 - P(X \leq 225) = 1 - P(Y \leq 225)$. Utilizando a biblioteca scipy (abaixo) vemos que $P(Y \gt 225) = 0.02312$. Utilizamos também a mesma biblioteca para calcular $P(X \gt 225) = 0.02405$, assim vemos que a distribuição normal oferece uma boa aproximação.

In [None]:
import scipy.stats as st
import math

n = 1000
p = 0.2

print(1-st.norm.cdf(225,n*p,math.sqrt(n*p*(1-p))))
print(1-st.binom.cdf(225,n,p))

0.02405341394425975
0.02311485156363946


b. Queremos calcular a probabilidade do intervalo $P(175 \leq X \leq 225 ) = P(X \leq 225) - P(X \leq 175) + P(X = 175) = P(X \leq 225) - P(X \leq 174)$. Utilizando a aproximação pela distribuição normal, queremos $P(175 \leq Y \leq 225) = F(225) - F(175)$.

Usando a biblioteca scipy vemos que $P(175 \leq Y \leq 225 ) = 0.9519$ e $P(175 \leq X \leq 225 ) = 0.9563$.

In [None]:
import scipy.stats as st
import math

n = 1000
p = 0.2

mu = n*p
sigma = math.sqrt(n*p*(1-p))

print(st.norm.cdf(225,mu,sigma) - st.norm.cdf(175,mu,sigma))
print(st.binom.cdf(225,n,p) - st.binom.cdf(175,n,p) + st.binom.pmf(175,n,p))
print(st.binom.cdf(225,n,p) - st.binom.cdf(174,n,p))

0.9518931721114805
0.9563078920714297
0.9563078920714415


c. No último quesito queremos encontrar $x$ tal que $P(X \gt x) = 0.01$. Observe que podemos encontrar $x$, utilizando a inversa da distribuição acumulada, pois $x$ é o ponto onde $P( X \leq x) = 0.99$. Usando a aproximação pela normal queremos encontrar $y$ tal que $P(Y \gt y) = 0.01$ ou $P(Y \leq y) = 0.99$.

A inversa da distribuição acumulada na biblioteca scipy pode ser acessada usando o método `ppf`. Assim temos que $x = 230$ e $y = 229.4262$.

In [None]:
import scipy.stats as st
import math

n = 1000
p = 0.2

mu = n*p
sigma = math.sqrt(n*p*(1-p))

print(st.norm.ppf(0.99,mu,sigma))
print(st.binom.ppf(0.99,n,p))

229.42623164743821
230.0


#Questão 4

O tempo (em horas) até uma falha de um laser em uma máquina de citometria é modelado por uma distribuição exponencial com $\lambda = 0.00004$. Qual é a  probabilidade de o tempo até a falha ser

a. No mínimo 20.000 horas?

b. No máximo 30.000 horas?

c. Entre 20.000 e 30.000 horas?

**Solução**: Seja $X$ a VA que representa o tempo de operação da máquina até sua falha. Sabemos que $X \sim Exponencial(0.00004)$

a. No primeiro quesito queremos calcular $P(X \gt 20.000) = 1 - P(X \leq 20.000)$. A qual podemos obter pela biblioteca `scipy` ou usando a fórmula da função acumulada da distribuição exponencial diretamente ($F(x) = 1-e^{-\lambda x}$, então $P(X \gt 20.000) = e^{-\lambda x}$). No código abaixo, mostramos ambas soluções.

b. Queremos neste quesito calcular $P(X \leq 30.000)$. Solucionamos esta de forma similar ao item anterior e mostramos o valor no código abaixo.

c. Neste item queremos $P(20.000 \leq X \leq 30.000) = F(30.000) - F(20.000)$. Podemos obter este valor numericamente pela função acumulada da distribuição exponencial, que mostramos no código abaixo. Também é possível subtrair a função acumulada, chegando na solução abaixo:

$P(20.000 \leq X \leq 30.000) = F(30.000) - F(20.000) = \\
1-e^{-0.0004\times 30.000} - (1 - e^{-0.0004\times 20.000}) = \\
e^{-0.8} - e^{-1.2} \approx 0.1481 $

In [None]:
import scipy.stats as st
import math

lambd = 0.00004

print("[Item a]")
print("Usando função do scipy: ",1-st.expon.cdf(20000,scale=1/lambd))
print("Calculando pela função acumulada: ",math.exp(-20000*lambd))
print("")
print("[Item b]")
print("Usando função do scipy: ",st.expon.cdf(30000,scale=1/lambd))
print("Calculando pela função acumulada: ",1-math.exp(-30000*lambd))
print("")
print("[Item c]")
print("Usando função do scipy: ",st.expon.cdf(30000,scale=1/lambd)-st.expon.cdf(20000,scale=1/lambd))
print("Calculando pela função acumulada: ",math.exp(-20000*lambd)-math.exp(-30000*lambd))

[Item a]
Usando função do scipy:  0.44932896411722156
Calculando pela função acumulada:  0.44932896411722156

[Item b]
Usando função do scipy:  0.698805788087798
Calculando pela função acumulada:  0.698805788087798

[Item c]
Usando função do scipy:  0.1481347522050196
Calculando pela função acumulada:  0.14813475220501954


#Questão 5

Quando o Uber reduz tarifas, uma viagem particular da Marambaia para Nazaré torna-se muito popular. Um carro pode transportar quatro passageiros compartilhando a corrida. O número de chamadas quando ocorre a redução é uma VA Poisson, com $\lambda=2$ chamadas por hora. Considere que cada chamada ocupe um assento apenas. Qual é a probabilidade de o carro lotar em menos de três
horas a partir do momento da redução da tarifa?

**Solução**: Seja $X$ a VA que indica a quantidade de passageiros em uma hora. Sabemos que esta é uma VA Poisson com média $\lambda = 2$ chamadas por hora. Podemos definir $Y$ como a VA que indica a quantidade de passageiros em 3 horas, neste caso $Y \sim Poisson(\lambda_y)$. Sabemos que $E(Y) = 3\lambda$ e então $\lambda_y = 6$.

Queremos então calcular $P(Y \geq 4)$, dado que o carro irá lotar caso 4 ou mais chamadas sejam recebidas. Isto é o mesmo que calcular $1 - P(Y \leq 3)$. Assim temos

$P(Y \geq 4) = 1 - P(Y \leq 3) = 1 - e^{-6} \sum_{i=0}^{3}\frac{6^i}{i!} =\\
1 - e^{-6}(\frac{6^0}{0!} + \frac{6^1}{1!} + \frac{6^2}{2!} + \frac{6^3}{3!}) =
1 - 0.0024788(1+6+18+36) \Rightarrow \\
P(Y \geq 4) \approx 0.8488
$

Abaixo obtemos o valor utilizando a biblioteca `scipy`.

In [None]:
import scipy.stats as st

print(1 - st.poisson.cdf(3,6))

0.8487961172233521


#Questão 6

Suponha que a função de densidade de uma VA $X$ é $f(x) = 0.5x – 1$ para $2 \lt x \lt 4$. Determine o seguinte:

a. $P(X \lt 2,5)$

b. $P(X \gt 3)$

c. $P(2,5 \lt X \lt 3,5)$

d. Determine a função de distribuição acumulada da VA.

e. Determine a esperança e a variância da VA.

**Solução**:

a. Podemos determinar $P(X \lt 2.5)$, calculando a área sob $f(x)$ no intervalo $(-\infty,2.5[$. Contudo, sabemos que no intervalo de $(-\infty,2]$ a área é zero, logo podemos integrar apenas no intervalo $]2,2.5[$, da seguinte forma:

$P(X \lt 2.5) = \int_{-\infty}^{2.5} 0.5x - 1dx = \int_{2}^{2.5} 0.5x - 1dx\\
P(X \lt 2.5) = \frac{x^2}{4}-x \Big|_{2}^{2.5} \\
P(X \lt 2.5) = \frac{2.5^2}{4}-2.5-\frac{2^2}{4}+2\\
P(X \lt 2.5) = 0.0625$

b. Similarmente, podemos determinar $P(X \gt 3)$, calculando a área sob $f(x)$ no intervalo $]3,4[$. Assim temos

$P(X \gt 3) = \int_{3}^{4} 0.5x - 1dx\\
P(X \lt 2.5) = \frac{x^2}{4}-x \Big|_{3}^{4} \\
P(X \lt 2.5) = \frac{4^2}{4}-4-\frac{3^2}{4}+3\\
P(X \lt 2.5) = 0.75$

c. Similarmente, podemos determinar $P( 2.5 \lt X \lt 3.5)$, calculando a área sob $f(x)$ no intervalo $]-2.5,3.5]$. Assim temos

$P(2.5 \lt X \lt 3.5) = \int_{2.5}^{3.5} 0.5x - 1dx\\
P(X \lt 2.5) = \frac{x^2}{4}-x \Big|_{2.5}^{3.5} \\
P(X \lt 2.5) = \frac{3.5^2}{4}-3.5-\frac{2.5^2}{4}+2.5\\
P(X \lt 2.5) = 0.5$

d. Para computar a função acumulada $F(x) = P(X \leq x)$, devemos fazer a integral no intervalo $(-\infty,x]$. Contudo, sabemos que $f(x)$ tem valor diferente de zero apenas no intervalo $]2,4[$, logo fazemos o cálculo apenas no intervalo $]2,x]$ da seguinte forma:

$F(x) = \int_{-\infty}^{x}f(u)du = \int_{2}^{x}0.5u-1 \, du \\
F(x) = \frac{u^2}{4}-u \Big|_{2}^{x} \\
F(x) = \frac{x^2}{4}-x-\frac{2^2}{4}+2\\
F(x) = \frac{x^2}{4}-x+1$

e. Para determinar a média (esperança) de $X$ computamos a integral de $xf(x)$ no intervalo $(-\infty,\infty)$. Como fora do intervalo $]2,4[$, $f(x)$ é zero, podemos integrar apenas neste intervalo:

$E(X) = \int_{-\infty}^{\infty}x(0.5x-1) \, dx = \int_{2}^{4}0.5x^2-x \, dx\\
E(X) = \frac{x^3}{6}-\frac{x^2}{2} \Big|_{2}^{4} \\
E(X) = \frac{4^3}{6}-\frac{4^2}{2}-\frac{2^3}{6}+\frac{2^2}{2} \\
E(X) = \frac{10}{3}$

Para determinar a variância de $X$ fazemos $Var(X) = E(X^2)-E(X)^2$. O primeiro termo é assim calculado:

$E(X^2) = \int_{2}^{4}x^2(0.5x-1) \, dx  = \int_{2}^{4}0.5x^3-x^2 \, dx \\
E(X^2) = \frac{x^4}{8}-\frac{x^3}{3} \, \Big|_{2}^{4} \\
E(X^2) = \frac{4^4}{8}-\frac{4^3}{3} - \frac{2^4}{8} + \frac{2^3}{3} \\
E(X^2) = \frac{3\times 4^4 - 8 \times 4^3 - 3 \times 2^4 + 8 \times 2^3}{24} \\
E(X^2) = \frac{272}{24} = \frac{34}{3}
$

Logo

$Var(X) = \frac{34}{3} - \frac{100}{9} \\
Var(X) = \frac{102 - 100}{9} = \frac{2}{9}$

#Questão 7

Considere que a variável aleatória X tem uma distribuição discreta uniforme nos inteiros $0 \leq x \leq 99$. Determine a média e a variância de $X$.

**Solução**: Sabemos que para uma VA $X \sim Uniforme(a,b)$ a esperança e a variância são dadas, respectivamente, por $E(X) = \frac{a+b}{2}$ e $Var(X)=\frac{n^2-1}{12}$, onde $n=b-a+1$.

Assim, $E(X) = 49.5$, $n=100$ e $Var(X)=833.25$. Abaixo confirmamos estes valores usando a biblioteca `scipy`.

In [None]:
import scipy.stats as st

a = 0
b = 99
print("Esperança: ",st.randint.mean(a,b+1))
print("Variância: ",st.randint.var(a,b+1))

Esperança:  49.5
Variância:  833.25


#Questão 8

Um sistema de computadores usa senhas, que são exatamente seis caracteres, sendo cada caractere uma das 26 letras (a-z) ou dez inteiros (0-9). Suponha que haja 10.000 usuários do sistema com senhas únicas. Um invasor seleciona aleatoriamente (com reposição) 1.000.000.000 senhas do potencial conjunto e testa contra todos os usuário do sistema, e a coincidência com a senha de um usuário é chamada de <u>êxito</u>.

a. Qual é a distribuição do número de êxitos?

b. Qual é a probabilidade de nenhum êxito?

c. Quais são a média e o desvio-padrão do número de êxitos?

**Solução**:

a. Seja $X$ a VA que descreve o número de êxitos. Observa-se que cada tentativa do invasor tem uma chance $p$ de acertar a senha de um dos 10.000 usuários. Além disso, são feitas 1 bilhão de tentativas com senhas aleatoriamente escolhidas. Mostrando que esta VA segue uma distribuição Binomial.

Para determinarmos $p$, calculamos a probabilidade de que seja ocorra um êxito em uma tentativa. Como todas as senhas são de 6 caracteres, podemos gerar um total $36^6$ senhas diferentes. Como as senhas são diferentes, uma senha escolhida aleatoriamente do conjunto de possíveis senhas de 6 caracteres deve acertar a senha de 1 usuário apenas ou nenhum. Assim, como a probabilidade de acertar a senha de um usuário específico é de $\frac{1}{36^6}$, a probabilidade de acertar algum deles é dada pela soma das probabilidades individuais. Logo $p = \frac{10^4}{36^6} = 0.000004594$.

Assim temos que $X \sim Binomial(n=10^9,p=0.000004594)$.

b. A probabilidade de não obtermos um êxito é $P(X = 0) = \binom{10^9}{0}p^0(1-p)^{10^9} \approx 0$

c. A média e o desvio padrão de uma distribuição binomial são dados por $E(X) = np$ e $std(X) = \sqrt{np(1-p)}$. Logo $E(X) = 4594$ êxitos com um desvio padrão de $std(X) = 67,78$ êxitos.

Abaixo mostramos os itens b e c usando a biblioteca `scipy`.

In [None]:
import scipy.stats as st

n = 10**9
p = 0.000004594
print("[Item b]")
print("Probabilidade de nenhum êxito ",st.binom.pmf(0,n,p))
print("")
print("[Item c]")
print("Esperança de X ",st.binom.mean(n,p))
print("Desvio padrão de X ",st.binom.std(n,p))

[Item b]
Probabilidade de nenhum êxito  0.0

[Item c]
Esperança de X  4594.0
Desvio padrão de X  67.77889712265906


#Questão 9

Considere a VA $X$ a seguir:

x  |  0 | 1 | 2 |
---|----|---|---|
p(X=x)|0,2|0,5|0,3|

Calcule a variância de $X$.

**Solução**: Para calcular a variância de $X$ fazemos $Var(X) = E(X^2) - E(X)^2$. Comecemos calculando $E(X)$:

$E(X) = \sum_{i=0}^{2} xP(X=x) = 0 \times 0.2 + 1 \times 0.5 + 2 \times 0.3 = 1.1$

Agora calculemos o primeiro termo da equação da variância (segundo momento de $X$):

$E(X^2) = \sum_{i=0}^{2} x^2P(X=x) = 0^2 \times 0.2 + 1^2 \times 0.5 + 2^2 \times 0.3 = 1.7$

Logo temos que $Var(X) = 1.7 - 1.1^2 = 0.49$

#Questão 10

A pressão interna adequada dos pneus frontais de um certo veículo é de 26 psi. Suponha que a pressão interna de cada pneu é uma VA, sendo $X$ para a direita e $Y$ para a esquerda. A função de distribuição conjunta é dada por

$f(x,y) = \begin{cases}
K(x^2+y^2) & 20 \leq x \leq 30, \, 20 \leq y \leq 30\\
0 & \text{outros casos}
\end{cases}$

Com base nisso responda:

a. Qual o valor de K?

b. Qual a probabilidade de ambos os pneus estarem abaixo da pressão adequada?

c. Determine a distribuição marginal da pressão interna do pneu direito.

d. Mostre que $X$ e $Y$ não são independentes.

**Solução**:

a. Para descobrir o valor de $K$, devemos integrar $f(x,y)$ nos intervalos onde esta função é não-nula $x \in [20,30]$ e $y \in [20,30]$ e igualar este valor à 1. Assim garantimos que a função de densidade é também uma função de densidade de probabilidade. Desta forma temos

$\int_{20}^{30}\int_{20}^{30} K(x^2 + y^2) dx dy = 1 \\
\int_{20}^{30}\int_{20}^{30} Kx^2 dx dy + \int_{20}^{30}\int_{20}^{30} Ky^2 dx dy = 1\\
\int_{20}^{30}\frac{Kx^3}{3} \Big|_{x=20}^{30} dy + \int_{20}^{30}Kxy^2 \Big|_{x=20}^{30} dy = 1\\
\int_{20}^{30}\frac{K30^3}{3} - \frac{K20^3}{3} dy + \int_{20}^{30}30Ky^2-20Ky^2 dy = 1 \\
\int_{20}^{30}\frac{19000K}{3} dy + \int_{20}^{30}10Ky^2 dy = 1 \\
\frac{19000Ky}{3}\Big|_{y=20}^{30} + \frac{10Ky^3}{3} \Big|_{y=20}^{30} = 1 \\
\frac{19000K30}{3} - \frac{19000K20}{3} + \frac{10K30^3}{3} - \frac{10K20^3}{3} = 1 \\
\frac{190000K}{3} + \frac{190000K}{3} = 1 \\
K = \frac{3}{380000}$

b. Neste item queremos calcular $P(X \lt 26, Y \lt 26)$, para tanto calculamos o volume sob $f(x,y)$ no intervalo $x \in (-\infty,26[$ e $y \in (-\infty,26[$ ou ainda, considerando apenas o intervalo onde $f(x,y)$ é não nulo, $x \in [20,26[$ e $y \in [20,26[$. Portanto temos:

$P(X \lt 26, Y \lt 26) = \int_{20}^{26}\int_{20}^{26} \frac{3(x^2+y^2)}{380000} dx dy = \\
\frac{3}{380000}(\int_{20}^{26}\int_{20}^{26} x^2 dx dy + \int_{20}^{26}\int_{20}^{26} y^2 dx dy) = \\
\frac{3}{380000}(\int_{20}^{26} \frac{x^3}{3} \Big|_{x=20}^{26} dy + \int_{20}^{26} xy^2 \Big|_{x=20}^{26} dy) =\\
\frac{3}{380000}(\int_{20}^{26} \frac{26^3}{3} - \frac{20^3}{3} dy + \int_{20}^{26} 26y^2 - 20 y^2 dy) = \\
\frac{3}{380000}(\int_{20}^{26} 3192 dy + \int_{20}^{26} 6y^2 dy) = \\
\frac{3}{380000}(3192y \Big|_{y=20}^{26} + 2y^3 \Big|_{y=20}^{26}) = \\
\frac{3}{380000}(19152 + 19152) = \frac{114912}{380000} = 0.3024$

c. Para determinar a pressão marginal ($f_X(x)$) no pneu direito, devemos integrar $f(x,y)$ apenas no intervalo $y \in [20,30]$. Assim temos

$f_X(x) = \int_{20}^{30} \frac{3}{380000}(x^2+y^2) dy \Rightarrow \\
f_X(x) = \frac{3}{380000} (yx^2+\frac{y^3}{3} \Big|_{y=20}^{30}) \\
f_X(x) = \frac{3}{380000} (30x^2+\frac{30^3}{3} - 20x^2 -\frac{20^3}{3}) \\
f_X(x) = \frac{3}{380000} (10x^2+\frac{19000}{3})$

Portanto temos que a marginal da pressão no pneu direito é

$f_X(x) = \begin{cases}
\frac{3x^2}{38000}+0.05 & 20 \leq x \leq 30\\
0 & \text{outros casos}
\end{cases}$

d. Podemos obter $f_Y(y)$ da mesma forma que obtivemos $f_X(x)$ e assim teremos:

$f_Y(y) = \begin{cases}
\frac{3y^2}{38000}+0.05 & 20 \leq x \leq 30\\
0 & \text{outros casos}
\end{cases}$

Claramente, $f(x,y) \neq f_X(x)f_Y(y)$, portanto $X$ e $Y$ não são independentes.

#Questão 11

Colesterol é uma substância gordurosa que é uma parte importante da ligação (membrana) externa das células no corpo de animais. Sua faixa normal para um adulto é de 120-240 mg/dL. O Instituto de Alimentos e Nutrição das Filipinas encontrou que o nível de colesterol total para adultos filipinos tem uma média de 159,2 mg/dL, e
84,1 % de adultos têm um nível de colesterol abaixo de 200 mg/dL (www.fnri.dost.gov.ph/). Suponha que o nível de colesterol total seja distribuído normalmente.

a. Determine o desvio-padrão dessa distribuição.

b. Quais são os quartis 25 % e 75 % dessa distribuição?

c. Qual é o valor do nível de colesterol que excede 90 % da população?

d. Um adulto tem um nível moderado de risco, se o nível de colesterol é mais de um, porém menos de dois desvios-padrão acima da média. Qual é a percentagem da população que tem risco moderado de acordo com esse critério?

e. Um adulto tem alto risco, se seu nível de colesterol é mais de dois desvios-padrão acima da média. Qual é a percentagem da população que tem alto risco?

f. Um adulto tem baixo risco, se seu nível de colesterol é menor do que um desvio-padrão abaixo da média. Qual é a percentagem da população que tem baixo risco?

**Solução**: Seja $X$ a VA que determina o nível de colesterol nem adultos nas filipinas. Sabemos esta VA é uma normal, que $\mu = 159.2$ e que $P(X \leq 200) = 0.841$.

a. Para determinar o desvio padrão $\sigma$ de $X$, podemos padronizar a distribuição. Assim temos que:

$P(X \leq 200) = 0.841 \Rightarrow P(\frac{X-159.2}{\sigma} \leq \frac{200-159.2}{\sigma}) = 0.841 \Rightarrow P(Z \leq \frac{200-159.2}{\sigma}) = 0.841$

Assim, definimos $z = \frac{200-159.2}{\sigma}$ e descobrimos o valor de $z$ usando a tabela normal. Sabendo $z$, podemos calcular $\sigma = \frac{200-159.2}{z}$

Podemos, alternativamente, usar o método `ppf` da biblioteca `scipy` para determinar o valor de $z$ e de $\sigma$, como mostrado abaixo. Assim, vemos que o desvio padrão $\sigma = 40.8582$

In [None]:
import scipy.stats as st

z = st.norm.ppf(0.841)
sigma = (200-159.2)/z

print("z = ",z)
print("sigma = ",sigma)

z =  0.9985762706156592
sigma =  40.858170978612684


b. Para encontrar os quartis 25% e 75%, podemos procurar na tabela normal pelos valores $z_{25}$ e $z_{75}$ onde, respectivamente, $P(Z \lt z_{25}) = 0.25$ e $P(Z \lt z_{75}) = 0.75$.

Observando a tabela descobrimos que $z_{25}=-0.67$ e $z_{75}=0.67$. Para obter o valor na distribuição original, fazemos $x_{25} = 159.2 + (-0.67) \times 40.8582 = 131.83$ e $x_{75} = 159.2 + (0.67) \times 40.8582 = 186.57$.

Também podemos conferir este resultado usando a biblioteca `scipy`, como mostrado a seguir. Deste resultado observamos que o valor da tabela oferece uma aproximação que se distancia do valor real a partir da primeira casa decimal.

In [None]:
import scipy.stats as st

x25 = 159.2 + (-0.67)*40.8582
x25_bib = st.norm.ppf(0.25,159.2,40.8582)
print("Valor do 1º quartil obtido pela tabela: ", x25)
print("Valor do 1º quartil obtido pela biblioteca: ", x25_bib)

x75 = 159.2 + (0.67)*40.8582
x75_bib = st.norm.ppf(0.75,159.2,40.8582)
print("Valor do 3º quartil obtido pela tabela: ", x75)
print("Valor do 1º quartil obtido pela biblioteca: ", x75_bib)

Valor do 1º quartil obtido pela tabela:  131.82500599999997
Valor do 1º quartil obtido pela biblioteca:  131.64156288853843
Valor do 3º quartil obtido pela tabela:  186.574994
Valor do 1º quartil obtido pela biblioteca:  186.75843711146155


c. Neste item queremos determinar o valor de $X$ em que $P(X > x) = 0.9$. Em outras palavras queremos calcular $P(X < x) = 0.1$, ou o 10º percentil ($z_{10}$) da distribuição.

O procedimento é o mesmo usado para o item anterior, em que calculamos $P(Z < z_{10})$ a partir da tabela normal e depois denormalizamos o valor para a distribuição original. Também podemos calcular pela biblioteca, conforme fazemos abaixo.

In [None]:
import scipy.stats as st

x10 = st.norm.ppf(0.1,159.2,40.8582)
print(x10)

106.8381098246656


d. Pela informação da questão, sabemos que se o colesterol $x \in (159.2+40.8582,159.2+ 2 \times 40.8582)$, então o paciente pode ser considerado nível moderado de risco. Assim, podemos obter $P_{\text{moderado}}$ fazemos a diferença entre as áreas sob a curva normal no intervalo indicado. Formalmente,

$P_{\text{moderado}} = P(200.0582 \lt X \lt 240.9164) = F(240.9164) - F(200.0582)$

Podemos solucionar computando o valor na distribuição acumulada $F(x)$ pela biblioteca `scipy`, como abaix.

Observe que podemos ainda estimar esta área, usando a propriedade da distribuição normal de que 68% dos dados estão a 1 desvio padrão da média e de que 95% dos dados estão a dois desvios padrão da média. Pela simetria da distribuição normal, sabemos que 34% dos dados estão acima da média e até 1 desvio-padrão da média, enquanto que 47.5% dos dados estão acima da média e abaixo de dois desvios-padrão. Assim a área desejada é dada pela diferença destas áreas, que é 13.5%.

In [None]:
import scipy.stats as st
mu = 159.2
sigma = 40.8582
x1 = mu + sigma
x2 = mu + 2*sigma
Px1 = st.norm.cdf(x1,mu,sigma)
Px2 = st.norm.cdf(x2,mu,sigma)
print(Px2-Px1)
(95/2) - (68/2)

0.13590512198327775


13.5

e. Uma pessoa tem alto risco quando $x \gt 159.2 + 2 \times 40.8582$. Assim, podemos calcular a percentagem da população fazendo $P(X \gt 240.9164) = 1 - P(X \leq 240.9164) = 1 - F(240.9164)$.

Usando a biblioteca `scipy`, obtemos o valor desta probabilidade abaixo.

In [None]:
import scipy.stats as st

P_risco = 1 - st.norm.cdf(240.9164,159.2,40.8582)
print(P_risco)

0.022750131948179098


e. Uma pessoa tem baixo risco quando $x \lt 159.2 - 1 \times 40.8582$. Assim, podemos calcular a percentagem da população fazendo $P(X \lt 118.3418) = F(118.3418)$.

Usando a biblioteca `scipy`, obtemos o valor desta probabilidade abaixo.

In [None]:
import scipy.stats as st

P_risco = st.norm.cdf(118.3418,159.2,40.8582)
print(P_risco)

0.15865525393145713


#Questão 12

Um professor aplicou um teste com duas partes. A primeira parte é composta de 3 questões valendo 2 pontos cada, e a segunda é formada por 2 questões valendo 2 pontos cada. Para um estudante escolhido aleatoriamente, seja $X$ o número de pontos obtidos na primeira parte do teste e $Y$ o número de pontos obtidos na segunda parte do teste. Suponha que a distribuição de massa conjunta de $X$ e $Y$ é dada pela tabela abaixo.


|X/Y|0|2|4|6|
|---|---|---|---|---|
|0|0.02|0.06|0.02|0.1|
|2|0.04|0.15|0.2|0.1|
|4|0.01|0.15|0.14|0.01|

Se a nota final é dada por $X+Y$, calcule o valor esperado da nota de um estudante?

**Solução:**

Deseja-se calcular $E(X+Y)$ e neste caso sabemos que $E(h(X,Y)) = \sum_{x=0}^{6}\sum_{y=0}^{4} h(x,y)P(X=x,Y=y)$, logo

$E(X + Y) = \sum_{x=0}^{6}\sum_{y=0}^{4} (x+y)P(X=x,Y=y) = 0 \times 0.02 + 2 \times 0.06 + 4 \times 0.02 + \ldots + 8 \times 0.14 + 10 \times 0.01 = 5.64$

In [None]:
E = 0*0.02 + 2*0.06 + 4*0.02 + 6*0.1 + 2*0.04 + 4*0.15 + 6*0.2 + 8*0.1 + 4*0.01 + 6*0.15 + 8*0.14 + 10*0.01
print(E)

5.64


# Extra

$
f_{XY}(x,y) = \begin{cases}
1.2(x+y^2) & 0 \leq x \leq 1, \, 0 \leq y \leq 1\\
0 & \text{outros casos}
\end{cases}
$


$f_{Y|X}(y|0.8)$