# Aprendizado de Máquina e Reconhecimento de Padrões

Teoria de Probabilidades e Distribuições Estatísticas

Experimentos Computacionais - `Python`

Material produzido por Prof. Dr. Rodrigo Colnago Contreras

Unifesp

# Imports

In [None]:
# Importação de pacotes e submódulos
import numpy as np
from scipy.stats import randint, bernoulli, binom, poisson, uniform, norm, chi2
import random

# Práticas Resolvidas

**Prática 1**: Seja a variável aleatória $X$ com distribuição abaixo:

$$P(X=0) = 0.2,\quad P(X=1) = 0.2, \quad P(X = 2) = 0.6.$$

(a) Calcule $E(X)$ e $V(X)$.

**\#Solução**:~>

**(a)**

O valor esperado:$$E[X] = 0\cdot 0.2 + 1\cdot 0.2 + 2\cdot 0.6 = 1.4.$$

A variância: $$V(X) = E[X^2]-E[X]^2 = \left(0^2\cdot 0.2 + 1^2\cdot 0.2 + 2^2\cdot 0.6\right) - 1.4^2 = 2.6 - 1.96 = 0.64.$$



(b) Uma possível representação para $X$ é a listagem $[0,0,1,1,2,2,2,2,2,2]$. Utilizando a função `choice` do pacote `random`, que escolhe aleatoriamente um elemento de um conjunto dado, crie uma lista com `n` observações de $X$ e calcule a média e a variância dessa lista utilizando, respectivamente, as funções `mean` e `std**2` do pacote `numpy` (`np`). Obs.: Considere para `n` os valores $10$, $100$ e $10000$. O que observamos com essa configuração?

**\#Solução**:~>

**(b)**
    

In [None]:
n = 1000
X = [0,0,1,1,2,2,2,2,2]
x_obs = []
for i in range(0,n):
    x_obs.append(random.choice(X))


Ex = np.mean(x_obs)
Vx = np.std(x_obs)**2
print('Valor esperado de X:', Ex)
print('Variância de X:', Vx)

Valor esperado de X: 1.314
Variância de X: 0.6954040000000001


Quanto maior o valor de `n`, mais próximo do valor teórico, são os valores de média e variância das observações.

**Prática 2**: Em uma urna, há 8 bolas amarelas e 4 verdes. Retiram-se 5 bolas *com reposição*. Utilizando o submódulo `binom`, função `pmf`, do `scipy.stats`, calcule a probabilidade de que:

 (a) Saiam duas bolas amarelas.

**\#Solução~>**

Inicialmente, vale ressaltar que o experimento de se retirar uma bola e constatar sua coloração pode ser interpretado como um ensaio de **Bernoulli** com probabilidade $p$ de se retirar a bola de cor desejada. No caso, o sucesso consiste de retirar uma bola amarela. Então, $p = \frac{8}{8+4} = \frac{8}{12} = \frac{2}{3}$. Agora, como vamos conduzir $n=5$ ensaios, então a distribuição do experimento se trata de uma binomial com $p=2/3$ e $n=5$.

Se queremos $2$ bolas amarelas retiradas entre $5$ bolas, então a probabilidade de isso acontecer é $b(k;n,p) = b(2;5,2/3)$ = `binom.pmf(2,5,2/3)`.

In [None]:
P = binom.pmf(2,5,2/3)
print("A probabilidade é ", round(P*100,2), "%")

A probabilidade é  16.46 %


(b) Saiam, pelo menos, $3$ verdes.

**\#Solução~>**

Neste caso, sair, pelo menos, $3$ bolas verdes representa que vamos nos deparar com, pelo menos, $3$ fracassos, ou, no máximo, $n-k = 5-3 = 2$ sucessos. Assim, precisamos determinar e somar as probabilidades de obtermos:
1. Nenhuma bola amarela;
2. Apenas uma bola amarela,
3. Duas bolas amarelas.

Assim,

In [None]:
P = binom.pmf(0,5,2/3) + binom.pmf(1,5,2/3) + binom.pmf(2,5,2/3)
print("A probabilidade deste evento ocorrer é: b(0,5,2/3) + b(1,5,2/3) + b(2,5,2/3) = ", round(P*100,2), "%")

A probabilidade deste evento ocorrer é: b(0,5,2/3) + b(1,5,2/3) + b(2,5,2/3) =  20.99 %


Obs.: A função `cdf` da distribuição calcula justamente a somatória das probabilidades até certo limiar. Isto é, no lugar de calcularmos a soma, poderíamos fazer o seguinte:

In [None]:
P = binom.cdf(2,5,2/3)
print("A probabilidade deste evento ocorrer é: P(X<=2) = ", round(P*100,2), "%")

A probabilidade deste evento ocorrer é: P(X<=2) =  20.99 %


**Prática 3**: Em uma central telefônica, chegam $5$ chamadas por minuto. Utilizando o submódulo `poisson`, função `pmf`, do `scipy.stats`, calcule a probabilidade de que:

(a) Em um minuto não ocorra nenhuma chamada.

**\#Solução~>**

Temos que o número de chamadas é uma VAD $X\sim \text{Pois}(5)$, pois $\lambda = 5$ indica o valor esperado de ligações por minuto. Queremos calcular a $P(X = 0)$. Assim,

In [None]:
LAMBDA = 5
X = 0
P_x = poisson.pmf(X, LAMBDA)
print("A probabilidade é P(X = 0) = ", round(P_x*100,2), "%")

A probabilidade é P(X = 0) =  0.67 %


(b) Em dois minutos ocorram duas chamadas.

**\#Solução~>**

Neste caso, o intervalo de tempo considerado é $2$ minutos e a frequência de ligação para este intervalo é de $10$ chamadas. Então, o número de chamadas é uma VAD  $X\sim\text{Pois}(10)$, pois  $\lambda=10$  indica o valor esperado de ligações a cada $2$ minutos. Queremos calcular a  P(X=2) . Assim,

In [None]:
LAMBDA = 10
X = 2
P_x = poisson.pmf(X, LAMBDA)
print("A probabilidade é P(X = 2) = ", round(P_x*100,2), "%")

A probabilidade é P(X = 2) =  0.23 %


**Prática 4**: O peso médio de $500$ estudantes do sexo masculino de uma determinada universidade é $75.5$ Kg e o desvio padrão é $7.5$ Kg. Admitindo que os pesos são normalmente distribuídos, determine a percentagem de estudantes que pesam:

(a) entre $60$ e $77.5$ Kg.

**Dica:** Utilize a função `cdf` do submódulo `scipy.stats.norm` para calcular as probabilidades.

**\#Solução:~>**

$$
P(60 \leq X \leq 77.5) = P\left(\frac{60-\mu}{\sigma} \leq \frac{X-\mu}{\sigma} \leq \frac{77.5-\mu}{\sigma}\right)=P\left(\frac{60-\mu}{\sigma} \leq Z \leq \frac{77.5-\mu}{\sigma}\right) =
$$
$$
= P\left(Z \leq \frac{77.5-\mu}{\sigma}\right)-P\left( Z \leq \frac{60-\mu}{\sigma}\right).
$$

In [None]:
media = 75.5
dp = 7.5
z1 = (60-media)/dp
z2 = (77.5-media)/dp
P_x = norm.cdf(z2)-norm.cdf(z1)
print('Probabilidade:', round(100*P_x,2),"%")

Probabilidade: 58.58 %


(b) mais do que $92.5$ Kg.

**\#Solução:~>**


$$
P(X \geq 92,5) = P\left( \frac{X-\mu}{\sigma}\geq \frac{92.5-\mu}{\sigma}\right) = P\left( Z \geq \frac{92.5-\mu}{\sigma}\right) = 1 - P\left( Z < \frac{92.5-\mu}{\sigma}\right).
$$

In [None]:
media = 75.5
dp = 7.5
z = (92.5-media)/dp
P_x = 1-norm.cdf(z)
print('Probabilidade:', round(100*P_x,2),"%")

Probabilidade: 1.17 %


**Prática 5**: Sabe-se que o peso de um grupo de leitões de mesma idade alimentados com determinada ração segue uma distribuição $\chi^2$ com $50$ graus de liberdade. Utilizando a `cdf` do submódulo `scipy.stats.chi2`, calcule:

(a) A probabilidade de um leitão desse grupo pesar menos de $30$kg.

**\#Solução:~>**

Queremos calcular o seguinte valor: $P(X < 30)$ para $X\sim \chi^2(50)$.

In [None]:
v = 50
X_lim = 30
P_x = chi2.cdf(X_lim, v)

print('A probabilidade de um leitão pesar menos de 30kg é: ', round(100*P_x,2), "%")

A probabilidade de um leitão pesar menos de 30kg é:  1.12 %


(b) A probabilidade de um leitão desse grupo pesar mais de $50$kg.

**\#Solução~>**

Queremos calcular o seguinte valor: $P(X \geq 50) = 1 - P(X < 50)$ para $X\sim \chi^2(50)$.

In [None]:
v = 50
X_lim = 50
P_x = 1-chi2.cdf(X_lim, v)

print('A probabilidade de um leitão pesar mais de 50kg é: ', round(100*P_x,2), "%")

A probabilidade de um leitão pesar mais de 50kg é:  47.34 %


# Práticas Propostas

**Prática 6**: Calcule a esperança, a variância e o desvio padrão da VAC $X$ que é definida pela seguinte FDP:

$$f(x) = \left\{\begin{matrix}\frac{1}{b-a}, b\leq x\leq a,\\ 0, \text{caso contrário}. \end{matrix}\right.$$

Além disso, comprove que $f \geq 0$ e $\int_{-\infty}^{+\infty} f(x) \text{d}x = 1$.


**Obs**.: $X$ é conhecida como VAC com **distribuição uniforme**.

# \#Solução~>

A função de densidade de probabilidade (FDP) é dada por:
$$f(x) = \left\{\begin{matrix}\frac{1}{b-a}, a\leq x\leq b,\\ 0, \text{caso contrário}. \end{matrix}\right.$$

onde assumimos $a < b$.

**Comprovação de que $f \geq 0$**:
Para $a \leq x \leq b$, temos que $b-a > 0$, então $\frac{1}{b-a} > 0$. Para os demais casos, $f(x) = 0$. Portanto, $f(x) \geq 0$ para todo $x$.

**Comprovação de que $\int_{-\infty}^{+\infty} f(x) \text{d}x = 1$**:
$$
 \int_{-\infty}^{+\infty} f(x) \text{d}x = \int_{-\infty}^{a} 0 \text{d}x + \int_{a}^{b} \frac{1}{b-a} \text{d}x + \int_{b}^{+\infty} 0 \text{d}x
 $$
 $$
 = 0 + \left[ \frac{x}{b-a} \right]_{a}^{b} + 0 = \frac{b}{b-a} - \frac{a}{b-a} = \frac{b-a}{b-a} = 1.
 $$
 A integral é 1, como esperado para uma FDP válida.

 **Cálculo da Esperança $E(X)$**:
 $$
 E(X) = \int_{-\infty}^{+\infty} x f(x) \text{d}x = \int_{a}^{b} x \frac{1}{b-a} \text{d}x = \frac{1}{b-a} \int_{a}^{b} x \text{d}x
 $$
 $$
 = \frac{1}{b-a} \left[ \frac{x^2}{2} \right]_{a}^{b} = \frac{1}{b-a} \left( \frac{b^2}{2} - \frac{a^2}{2} \right) = \frac{1}{b-a} \frac{b^2 - a^2}{2}
 $$
 Utilizando a diferença de quadrados $b^2 - a^2 = (b-a)(b+a)$, temos:
 $$
 E(X) = \frac{1}{b-a} \frac{(b-a)(b+a)}{2} = \frac{b+a}{2}.
 $$

 **Cálculo da Variância $V(X)$**:
 A variância é $V(X) = E[X^2] - E[X]^2$. Primeiro, calculamos $E[X^2]$:
 $$
 E[X^2] = \int_{-\infty}^{+\infty} x^2 f(x) \text{d}x = \int_{a}^{b} x^2 \frac{1}{b-a} \text{d}x = \frac{1}{b-a} \int_{a}^{b} x^2 \text{d}x
 $$
 $$
 = \frac{1}{b-a} \left[ \frac{x^3}{3} \right]_{a}^{b} = \frac{1}{b-a} \left( \frac{b^3}{3} - \frac{a^3}{3} \right) = \frac{1}{b-a} \frac{b^3 - a^3}{3}
 $$
 Utilizando a diferença de cubos $b^3 - a^3 = (b-a)(b^2 + ab + a^2)$, temos:
 $$
 E[X^2] = \frac{1}{b-a} \frac{(b-a)(b^2 + ab + a^2)}{3} = \frac{b^2 + ab + a^2}{3}.
 $$
 Agora, calculamos a variância:
 $$
 V(X) = E[X^2] - E[X]^2 = \frac{b^2 + ab + a^2}{3} - \left( \frac{a+b}{2} \right)^2
 $$
 $$
 = \frac{b^2 + ab + a^2}{3} - \frac{a^2 + 2ab + b^2}{4}
 $$
 Encontrando um denominador comum (12):
 $$
 V(X) = \frac{4(b^2 + ab + a^2) - 3(a^2 + 2ab + b^2)}{12}
 $$
 $$
 = \frac{4b^2 + 4ab + 4a^2 - 3a^2 - 6ab - 3b^2}{12}
 $$
 $$
 = \frac{b^2 - 2ab + a^2}{12} = \frac{(b-a)^2}{12}.
 $$

 **Cálculo do Desvio Padrão $\sigma(X)$**:
 O desvio padrão é a raiz quadrada da variância:
 $$
 \sigma(X) = \sqrt{V(X)} = \sqrt{\frac{(b-a)^2}{12}} = \frac{|b-a|}{\sqrt{12}} = \frac{b-a}{2\sqrt{3}} \quad (\text{assumindo } b > a).
 $$

In [None]:
# Exemplificando com valores para a e b
a = 2
b = 5

# Esperança
esperanca = (a + b) / 2
print(f"Esperança E(X): {esperanca}")

# Variância
variancia = (b - a)**2 / 12
print(f"Variância V(X): {variancia}")

# Desvio Padrão
desvio_padrao = (b - a) / (2 * np.sqrt(3))
print(f"Desvio Padrão sigma(X): {desvio_padrao}")

# Comprovação usando a distribuição uniform do scipy.stats
# Criar uma distribuição uniforme entre a e b
uniform_dist = uniform(loc=a, scale=b-a) # loc é o limite inferior, scale é a diferença b-a

# Calcular a média, variância e desvio padrão usando scipy
mean_scipy, var_scipy, _, _ = uniform_dist.stats(moments='mvsk')
std_scipy = uniform_dist.std()

print("\nComprovação usando scipy.stats.uniform:")
print(f"Média (scipy): {mean_scipy}")
print(f"Variância (scipy): {var_scipy}")
print(f"Desvio Padrão (scipy): {std_scipy}")

```

**Prática 7**: Uma máquina de bebidas está regulada de modo a servir uma média de $150$ml por copo. Se a quantidade servida por copo seguir uma distribuição normal com desvio padrão de $20$ml, determine a percentagem de copos que conterão mais de $175$ml de bebida.

$$
P(X \geq 175) = P\left( \frac{X-\mu}{\sigma}\geq \frac{175-\mu}{\sigma}\right) = P\left( Z \geq \frac{175-\mu}{\sigma}\right) = 1 - P\left( Z < \frac{175-\mu}{\sigma}\right).
$$

In [None]:
# **Prática 7**: Uma máquina de bebidas está regulada de modo a servir uma média de $150$ml por copo. Se a quantidade servida por copo seguir uma distribuição normal com desvio padrão de $20$ml, determine a percentagem de copos que conterão mais de $175$ml de bebida.
# **\#Solução:~>**
#
# $$
# P(X \geq 175) = P\left( \frac{X-\mu}{\sigma}\geq \frac{175-\mu}{\sigma}\right) = P\left( Z \geq \frac{175-\mu}{\sigma}\right) = 1 - P\left( Z < \frac{175-\mu}{\sigma}\right).
# $$

media = 150
dp = 20
z = (175 - media) / dp
P_x = 1 - norm.cdf(z)

print('A percentagem de copos que conterão mais de 175ml de bebida é:', round(100 * P_x, 2), "%")

**Prática 8**: Sabe-se, de dados anteriores, que o período, em meses, entre as reclamações de clientes sobre certo produto tem distribuição $\chi^2$ com $4$ graus de liberdade. Foram realizadas mudanças que envolveram um aumento nas condições de controle de qualidade. Depois dessas mudanças, a primeira reclamação de cliente ocorreu depois de $20$ meses. O aumento no controle de qualidade parece ter surtido efeito?

 Queremos determinar a probabilidade de uma reclamação ocorrer após 20 meses, assumindo a distribuição original $\chi^2$ com 4 graus de liberdade.
 Se essa probabilidade for muito baixa, significa que o período de 20 meses é incomum sob a distribuição original, sugerindo que as mudanças no controle de qualidade podem ter tido efeito (aumentando o tempo entre as reclamações).
 Calculamos $P(X > 20)$ para $X \sim \chi^2(4)$.

In [None]:
# **Prática 8**: Sabe-se, de dados anteriores, que o período, em meses, entre as reclamações de clientes sobre certo produto tem distribuição $\chi^2$ com $4$ graus de liberdade. Foram realizadas mudanças que envolveram um aumento nas condições de controle de qualidade. Depois dessas mudanças, a primeira reclamação de cliente ocorreu depois de $20$ meses. O aumento no controle de qualidade parece ter surtido efeito?
# **\#Solução~>**
#
# Queremos determinar a probabilidade de uma reclamação ocorrer após 20 meses, assumindo a distribuição original $\chi^2$ com 4 graus de liberdade.
# Se essa probabilidade for muito baixa, significa que o período de 20 meses é incomum sob a distribuição original, sugerindo que as mudanças no controle de qualidade podem ter tido efeito (aumentando o tempo entre as reclamações).
# Calculamos $P(X > 20)$ para $X \sim \chi^2(4)$.
v = 4
X_lim = 20
P_x_maior_que_20 = 1 - chi2.cdf(X_lim, v)

print('A probabilidade de uma reclamação ocorrer depois de 20 meses (sob a distribuição original) é:', round(100*P_x_maior_que_20, 4), "%")

# Análise do resultado:
# Se a probabilidade calculada for muito baixa (por exemplo, menor que 5% ou 1%), podemos considerar que o evento de uma reclamação ocorrer depois de 20 meses é improvável sob as condições anteriores.
# Nesse caso, podemos concluir que as mudanças no controle de qualidade parecem ter surtido efeito, pois o período entre reclamações aumentou significativamente.
# Se a probabilidade não for baixa, então o evento de 20 meses não é tão incomum sob a distribuição original, e o efeito das mudanças pode não ser tão claro.
# O limiar para considerar "muito baixa" é uma decisão que depende do nível de significância desejado para a análise.

**Prática 9**: Gafanhotos distribuem-se aleatoriamente em um vasto campo, de acordo com uma distribuição de Poisson, com parâmetro $\lambda = 2$ por jarda quadrada. Qual é o tamanho do raio $R$ de uma região amostral circular para que a probabilidade de se encontrar pelo menos um gafanhoto na região seja de $0.99$?

# Solução
A distribuição do número de gafanhotos em uma região segue uma distribuição de Poisson com parâmetro $\Lambda = \lambda \cdot A$, onde $\lambda$ é a taxa por jarda quadrada e $A$ é a área da região. A área de uma região circular com raio $R$ é $A = \pi R^2$. Portanto, $\Lambda = 2 \pi R^2$.

Queremos encontrar o raio $R$ tal que a probabilidade de encontrar pelo menos um gafanhoto na região seja de $0.99$. Isso significa que a probabilidade de encontrar zero gafanhotos é $1 - 0.99 = 0.01$.

A probabilidade de encontrar zero gafanhotos em uma distribuição de Poisson com parâmetro $\Lambda$ é dada por $P(X=0) = \frac{e^{-\Lambda}\Lambda^0}{0!} = e^{-\Lambda}$.

Portanto, temos a equação:
$e^{-\Lambda} = 0.01$

Substituindo $\Lambda = 2 \pi R^2$:
$e^{-2 \pi R^2} = 0.01$

Para resolver para $R$, tiramos o logaritmo natural de ambos os lados:
$-2 \pi R^2 = \ln(0.01)$

$2 \pi R^2 = -\ln(0.01)$

$R^2 = \frac{-\ln(0.01)}{2 \pi}$

$R = \sqrt{\frac{-\ln(0.01)}{2 \pi}}$

In [None]:
# prompt: resolva a pratica 9

# **Prática 9**: Gafanhotos distribuem-se aleatoriamente em um vasto campo, de acordo com uma distribuição de Poisson, com parâmetro $\lambda = 2$ por jarda quadrada. Qual é o tamanho do raio $R$ de uma região amostral circular para que a probabilidade de se encontrar pelo menos um gafanhoto na região seja de $0.99$?
# **\#Solução~>**
#
# A distribuição do número de gafanhotos em uma região segue uma distribuição de Poisson com parâmetro $\Lambda = \lambda \cdot A$, onde $\lambda$ é a taxa por jarda quadrada e $A$ é a área da região. A área de uma região circular com raio $R$ é $A = \pi R^2$. Portanto, $\Lambda = 2 \pi R^2$.
#
# Queremos encontrar o raio $R$ tal que a probabilidade de encontrar pelo menos um gafanhoto na região seja de $0.99$. Isso significa que a probabilidade de encontrar zero gafanhotos é $1 - 0.99 = 0.01$.
#
# A probabilidade de encontrar zero gafanhotos em uma distribuição de Poisson com parâmetro $\Lambda$ é dada por $P(X=0) = \frac{e^{-\Lambda}\Lambda^0}{0!} = e^{-\Lambda}$.
#
# Portanto, temos a equação:
# $e^{-\Lambda} = 0.01$
#
# Substituindo $\Lambda = 2 \pi R^2$:
# $e^{-2 \pi R^2} = 0.01$
#
# Para resolver para $R$, tiramos o logaritmo natural de ambos os lados:
# $-2 \pi R^2 = \ln(0.01)$
#
# $2 \pi R^2 = -\ln(0.01)$
#
# $R^2 = \frac{-\ln(0.01)}{2 \pi}$
#
# $R = \sqrt{\frac{-\ln(0.01)}{2 \pi}}$

import numpy as np
import math

prob_at_least_one = 0.99
prob_zero = 1 - prob_at_least_one
lambda_per_sq_yard = 2

# ln(P(X=0)) = -Lambda
# -Lambda = ln(0.01)
# Lambda = -ln(0.01)
Lambda = -np.log(prob_zero)

# Lambda = lambda_per_sq_yard * Area
# Area = pi * R^2
# Lambda = lambda_per_sq_yard * pi * R^2
# R^2 = Lambda / (lambda_per_sq_yard * pi)
# R = sqrt(Lambda / (lambda_per_sq_yard * pi))
R = np.sqrt(Lambda / (lambda_per_sq_yard * math.pi))

print(f'O tamanho do raio R é aproximadamente: {R:.4f} jardas')

**Prática 10**: Certo teste de presença de uma certa doença tem probabilidade $0.20$ de fornecer um resultado positivo falso (indicando que o indivíduo tem a doença quando não for o caso) e probabilidade $0.10$ de fornecer um resultado negativo falso. Suponha que $10$ indivíduos sejam testados, cinco dos quais têm a doença e cinco não. Seja $X$ o número de resultados positivos.

(a) $X$ tem distribuição binomial? Explique seu raciocínio.

(b) Qual é a probabilidade de exatamente três dos $10$ resultados serem positivos?

#Solução
(a) Não, $X$ não tem distribuição binomial. Uma distribuição binomial surge de uma série de ensaios de Bernoulli independentes e identicamente distribuídos (i.i.d.), onde a probabilidade de sucesso ($p$) é constante para cada ensaio.

Neste caso, temos dois grupos distintos de indivíduos com diferentes probabilidades de um resultado positivo:

Indivíduos que têm a doença: Para esses indivíduos, um resultado positivo é um sucesso (teste correto). A probabilidade de um resultado positivo para um indivíduo doente é $1 - P(\text{negativo falso}) = 1 - 0.10 = 0.90$.

Indivíduos que não têm a doença: Para esses indivíduos, um resultado positivo é um fracasso (positivo falso). A probabilidade de um resultado positivo para um indivíduo não doente é $P(\text{positivo falso}) = 0.20$.

Como a probabilidade de "sucesso" (resultado positivo) não é a mesma para todos os 10 indivíduos (depende se eles têm ou não a doença), os ensaios não são identicamente distribuídos. Portanto, a variável aleatória $X$ (número total de resultados positivos) não segue uma distribuição binomial simples.

(b) Para calcular a probabilidade de exatamente 3 resultados positivos, precisamos considerar as diferentes combinações de resultados positivos dos dois grupos: aqueles com a doença e aqueles sem a doença.

Temos:

5 indivíduos com a doença (Grupo 1)

5 indivíduos sem a doença (Grupo 2)

Probabilidade de positivo para Grupo 1: $p_1 = 0.90$

Probabilidade de positivo para Grupo 2: $p_2 = 0.20$

Seja $X_1$ o número de resultados positivos no Grupo 1 (segue Binomial com $n_1=5, p_1=0.90$).
Seja $X_2$ o número de resultados positivos no Grupo 2 (segue Binomial com $n_2=5, p_2=0.20$).
O número total de resultados positivos é $X = X_1 + X_2$.

Queremos $P(X = 3)$, que é a soma das probabilidades de todas as combinações possíveis de $X_1$ e $X_2$ que somam 3. As combinações possíveis $(X_1, X_2)$ são:

(0, 3): 0 positivos doentes, 3 positivos não doentes

(1, 2): 1 positivo doente, 2 positivos não doentes

(2, 1): 2 positivos doentes, 1 positivo não doente

(3, 0): 3 positivos doentes, 0 positivos não doentes

A probabilidade de cada combinação é o produto das probabilidades binomiais para cada grupo, pois os testes são independentes entre os indivíduos.
$P(X=k_1, X_2=k_2) = P(X_1=k_1) \cdot P(X_2=k_2)$

$P(X_1=k_1) = \binom{n_1}{k_1} p_1^{k_1} (1-p_1)^{n_1-k_1} = \binom{5}{k_1} 0.90^{k_1} 0.10^{5-k_1}$
$P(X_2=k_2) = \binom{n_2}{k_2} p_2^{k_2} (1-p_2)^{n_2-k_2} = \binom{5}{k_2} 0.20^{k_2} 0.80^{5-k_2}$

$P(X=3) = P(X_1=0)P(X_2=3) + P(X_1=1)P(X_2=2) + P(X_1=2)P(X_2=1) + P(X_1=3)P(X_2=0)$

In [None]:
# **Prática 10**: Certo teste de presença de uma certa doença tem probabilidade $0.20$ de fornecer um resultado positivo falso (indicando que o indivíduo tem a doença quando não for o caso) e probabilidade $0.10$ de fornecer um resultado negativo falso. Suponha que $10$ indivíduos sejam testados, cinco dos quais têm a doença e cinco não. Seja $X$ o número de resultados positivos.
#
# (a) $X$ tem distribuição binomial? Explique seu raciocínio.
# **\#Solução~>**
#
# (a) Não, $X$ não tem distribuição binomial. Uma distribuição binomial surge de uma série de ensaios de Bernoulli independentes e identicamente distribuídos (i.i.d.), onde a probabilidade de sucesso ($p$) é constante para cada ensaio.
#
# Neste caso, temos dois grupos distintos de indivíduos com diferentes probabilidades de um resultado positivo:
# 1. Indivíduos que **têm** a doença: Para esses indivíduos, um resultado positivo é um **sucesso** (teste correto). A probabilidade de um resultado positivo para um indivíduo doente é $1 - P(\text{negativo falso}) = 1 - 0.10 = 0.90$.
# 2. Indivíduos que **não têm** a doença: Para esses indivíduos, um resultado positivo é um **fracasso** (positivo falso). A probabilidade de um resultado positivo para um indivíduo não doente é $P(\text{positivo falso}) = 0.20$.
#
# Como a probabilidade de "sucesso" (resultado positivo) não é a mesma para todos os 10 indivíduos (depende se eles têm ou não a doença), os ensaios não são identicamente distribuídos. Portanto, a variável aleatória $X$ (número total de resultados positivos) não segue uma distribuição binomial simples.
#
# (b) Qual é a probabilidade de exatamente três dos $10$ resultados serem positivos?
# **\#Solução~>**
#
# (b) Para calcular a probabilidade de exatamente 3 resultados positivos, precisamos considerar as diferentes combinações de resultados positivos dos dois grupos: aqueles com a doença e aqueles sem a doença.
#
# Temos:
# - 5 indivíduos com a doença (Grupo 1)
# - 5 indivíduos sem a doença (Grupo 2)
# - Probabilidade de positivo para Grupo 1: $p_1 = 0.90$
# - Probabilidade de positivo para Grupo 2: $p_2 = 0.20$
#
# Seja $X_1$ o número de resultados positivos no Grupo 1 (segue Binomial com $n_1=5, p_1=0.90$).
# Seja $X_2$ o número de resultados positivos no Grupo 2 (segue Binomial com $n_2=5, p_2=0.20$).
# O número total de resultados positivos é $X = X_1 + X_2$.
#
# Queremos $P(X = 3)$, que é a soma das probabilidades de todas as combinações possíveis de $X_1$ e $X_2$ que somam 3. As combinações possíveis $(X_1, X_2)$ são:
# - (0, 3): 0 positivos doentes, 3 positivos não doentes
# - (1, 2): 1 positivo doente, 2 positivos não doentes
# - (2, 1): 2 positivos doentes, 1 positivo não doente
# - (3, 0): 3 positivos doentes, 0 positivos não doentes
#
# A probabilidade de cada combinação é o produto das probabilidades binomiais para cada grupo, pois os testes são independentes entre os indivíduos.
# $P(X=k_1, X_2=k_2) = P(X_1=k_1) \cdot P(X_2=k_2)$
#
# $P(X_1=k_1) = \binom{n_1}{k_1} p_1^{k_1} (1-p_1)^{n_1-k_1} = \binom{5}{k_1} 0.90^{k_1} 0.10^{5-k_1}$
# $P(X_2=k_2) = \binom{n_2}{k_2} p_2^{k_2} (1-p_2)^{n_2-k_2} = \binom{5}{k_2} 0.20^{k_2} 0.80^{5-k_2}$
#
# $P(X=3) = P(X_1=0)P(X_2=3) + P(X_1=1)P(X_2=2) + P(X_1=2)P(X_2=1) + P(X_1=3)P(X_2=0)$

# P(X1=0) = binom.pmf(0, 5, 0.90)
# P(X2=3) = binom.pmf(3, 5, 0.20)
P_0_3 = binom.pmf(0, 5, 0.90) * binom.pmf(3, 5, 0.20)

# P(X1=1) = binom.pmf(1, 5, 0.90)
# P(X2=2) = binom.pmf(2, 5, 0.20)
P_1_2 = binom.pmf(1, 5, 0.90) * binom.pmf(2, 5, 0.20)

# P(X1=2) = binom.pmf(2, 5, 0.90)
# P(X2=1) = binom.pmf(1, 5, 0.20)
P_2_1 = binom.pmf(2, 5, 0.90) * binom.pmf(1, 5, 0.20)

# P(X1=3) = binom.pmf(3, 5, 0.90)
# P(X2=0) = binom.pmf(0, 5, 0.20)
P_3_0 = binom.pmf(3, 5, 0.90) * binom.pmf(0, 5, 0.20)

P_total_3 = P_0_3 + P_1_2 + P_2_1 + P_3_0

print(f'A probabilidade de exatamente 3 resultados positivos é: {P_total_3:.4f}')