In [10]:
from scipy.stats import binom
import numpy as np

# 1. Probabilidade e Distribuição

**1.1 Distribuição Binomial**

É caracterizado pela possibilidade de ocorrência de apenas duas categorias. Estas duas categorias somadas representam todo o espaço amostral, sendo também mútuamente excludentes, ou seja, a ocorrência de uma implica na não ocorrência da outra.

**Fórmula:**

$$
P(k) = (n,k) p^k  q^{n-k}
$$

_onde:_
- p = probabilidade de sucesso.
- q = (1-p) = probabilidade de fracasso.
- n = número de eventos estudados.
- k = número de eventos desejados que tenham sucesso.


**Exigências para experimêntos binomiais**
1. Realização de N ensaios idênticos.
2. Os ensaios são independentes.
3. Somente dois resultados são possíveis.
4. A probabilidade de sucesso é representada por _p_ e a de fracasso por _1-p_. Estas probabilidades não se modificam de ensaio para ensaio.

**Ex:**

Suponha que a probabilidade de um casal ter filhos com olhos azuis seja de 22%. Em 50 famílias, com 3 crianças cada uma, qunatas podemos esperar que tenham dois filhos com olhos azuis?

In [5]:
p = 22/100
n = 3
k = 2
N = 50

In [7]:
prob = binom.pmf(k,n,p)
prob

0.11325599999999993

A probabilidade de 2 dos 3 filhos terem os olhos azuis é 11%.

In [9]:
media = prob * 50
media

5.662799999999996

Das 50 famílias podemos esperar que em média 5 ou 6 famílias tenham dois filhos com olhos azuis.

___

**1.2 Distribuição de Poisson**

É empregada para descrever o número de ocorrências em um intervalo de tempo ou espaço específico. Os eventos são caracterizados pela possibilidade de contagem de sucesso, mas a não possibilidade de contagem de fracasso.

$$
P(k) = \frac{e^{-\mu}(\mu)^k}{k!}
$$

_onde:_
- $e$ = constante cujo valor aproximado é 2,71826...
- $\mu$ = representa o número médio de ocorrências em um determinado intervalo de tempo ou epaço.
- $k$ = número de sucesso no intervalo desejado.

**Experimento Poisson**
1. A probabilidade de uma ocorrência é a mesma em todo o intervalo observado.
2. O número de ocorrências em determinado intervalo é independente do número de ocorrências em outros intervalos.
3. A probabilidade de ocorrênmcia é a mesma em intervalos de igual comprimento.

**Ex:**

Um restaurante recebe em média 20 pedidos por hora. Qual a chance de que, em determinada hora escolhida ao acaso, o restaurante receba 15 pedidos?

In [13]:
media = 20
k = 15

In [14]:
# solução 1
prob = ((np.e ** (-media))*(media ** k)) / (np.math.factorial(k))
prob

0.0516488535317584

In [15]:
# solução 2
from scipy.stats import poisson

prob = poisson.pmf(k,media)
prob

0.05164885353175814

A probabilidade de recebermos 15 pedidos em uma hora ao acaso é de 5,16%.

**Ex:**

O número médio de clientes que entram em uma padaria por hora é igual a 20. Obtenha a probabilidade de, na próxima hora, entratem 25 clientes.

In [16]:
media = 20
k = 25

In [18]:
# solução 1
prob = ((np.e ** (-media) * (media ** k) / (np.math.factorial(k))))
prob

0.04458764910826793

In [19]:
# solução 2
prob = poisson.pmf(k,media)
prob

0.04458764910826764

A probabilidade de  de entrarem exatamente 25 clientes na próxima hora é 4,46%.

___

**1.3 Distribuição Normal**

A distribuição normal é uma das mais utilizadas em estatística. É uma distribuição contínua, onde a distribuição da frequência de uma variável quantitativa apresenta a forma de sino e é simétrica em relação a sua média.

**Teorema do limite cental:**

Afirma que, com o aumento do tamanho da amostra, a distribuição das médias amostrais se aprocima de uma distribuição normal com média igual à média da população e desvio padrão igual o desvio padrão da variável originall dividido pela raiz quadrara do tamanho da amostra. Este fato é assegurado para $n$ maior ou igual a 30.

**Características importantes:**

1. É simétrica em torno da média.
2. A área sob a curva corresponde à proporção 1 ou 100%.
3. As medidas de tendência central (média, moda, mediana) apresentam o mesmo valor.
4. Os extremos da curva tendem ao infinito em ambas as direções e, teoricamente jamais tocam o eixo $x$.
5. O desvio padrão define o achatamento e a larcura da distribuição. Curvas mais largas e mais achatadas apresentam valores maiores de desvio padrão.
6. A distribuição é definida por sua média e desvio padrão
7. A probabiidade sempre será igual à ´rea sob a curva, delimitada pelos limites inferior e superior.


$$
f(x) = \frac{1}{\sqrt{2\pi \sigma^2}} e^{-\frac{x^2}{2\sigma^2}}
$$

_onde:_
- $x$ = variável normal
- $\sigma$ = desvio padrão
- $\mu$ = média


**Tabelas padronizadas**

Essas tabelas foram criadas para facilitar a otenção dos valores das áreas sob a curva e eliminar a necessidade de solucionar integrais definidas.

Para consultarmos os valores em uma tabela padronizada basta transformarmos nossa variável em uma variável padronizada $Z$.

Essa variável $Z$ representa o afastamento em desvios padrões de um valor da variável oridinal em relação à média.

$$
Z = \frac{x - \mu}{\sigma}
$$

_onde:_
- $x$ = variável com média $\mu$ e desvio padrão $\sigma$
- $\sigma$ = desvio padrão
- $\mu$ = média

In [None]:
# tabela padronizada

import pandas as pd
import numpy as np
from scipy.stats import norm

tabela_normal_padronizada = pd.DataFrame(
    [],
    index=['{0:0.2f}'.format(i/100) for i in range(0,400,10)],
    columns= ['{0:0.2f}'.format(i/100) for i in range(0,10)]
)

for index in tabela_normal_padronizada.index:
    for column in tabela_normal_padronizada.columns:
        Z = np.round(float(index) + float(column), 2)
        tabela_normal_padronizada.loc[index, column] = '{0:0.4f}'.format(norm.cdf(Z))
        
tabela_normal_padronizada.rename_axis('Z', axis = 'columns', inplace=True)

tabela_normal_padronizada

Z,0.00,0.01,0.02,0.03,0.04,0.05,0.06,0.07,0.08,0.09
0.0,0.5,0.504,0.508,0.512,0.516,0.5199,0.5239,0.5279,0.5319,0.5359
0.1,0.5398,0.5438,0.5478,0.5517,0.5557,0.5596,0.5636,0.5675,0.5714,0.5753
0.2,0.5793,0.5832,0.5871,0.591,0.5948,0.5987,0.6026,0.6064,0.6103,0.6141
0.3,0.6179,0.6217,0.6255,0.6293,0.6331,0.6368,0.6406,0.6443,0.648,0.6517
0.4,0.6554,0.6591,0.6628,0.6664,0.67,0.6736,0.6772,0.6808,0.6844,0.6879
0.5,0.6915,0.695,0.6985,0.7019,0.7054,0.7088,0.7123,0.7157,0.719,0.7224
0.6,0.7257,0.7291,0.7324,0.7357,0.7389,0.7422,0.7454,0.7486,0.7517,0.7549
0.7,0.758,0.7611,0.7642,0.7673,0.7704,0.7734,0.7764,0.7794,0.7823,0.7852
0.8,0.7881,0.791,0.7939,0.7967,0.7995,0.8023,0.8051,0.8078,0.8106,0.8133
0.9,0.8159,0.8186,0.8212,0.8238,0.8264,0.8289,0.8315,0.834,0.8365,0.8389


**Ex:**

A aplicação de uma prova de estatística em um concurso apresentou um conjunto de notas normalmente distribuídas. Verificou-se que o conjunto de notas tinha média 70 e o desvio padrão de 5 pontos. Qual a probabilidade do aluno, selecionado ao acaso ter nota menor que 85?

In [60]:
media = 70
desvio_padrao = 5
Z = (85 - media) / desvio_padrao
print(Z)

prob = 0.9987

print(f'A probabilidade de um aluno ao acaso obter uma nota menor que 85 é: {prob*100}%')

3.0
A probabilidade de um aluno ao acaso obter uma nota menor que 85 é: 99.87%


**Ex**

O faturamento diário de um motorista de aplicativo segue uma distribuição aproximadamente normal, com média de 300 reais e desvio padrão igual a 50 reais. Obtenha as probabilidades de que, em um dia aleatóriom o motorista ganhe:
1. Entre 250 e 350 reais
2. Entre 400 e 500 reais

In [None]:
# entre 250 e 350
media = 300
desvio_padrao = 50

Z_sup = (350 - media) / desvio_padrao
print(Z_sup)
print('Probabilidade Z_sup = 0.8413')

Z_inf = (250 - media) / desvio_padrao
print(Z_inf)

from scipy.stats import norm

prob = norm.cdf(Z_sup) - norm.cdf(Z_inf)
prob


1.0
Probabilidade Z_sup = 0.8413
-1.0



0.6826894921370859

In [69]:
# entre 400 e 500
media = 300
desvio_padrao = 50

Z_sup = (500 - media) / desvio_padrao
print(Z_sup)
print('Probabilidade de Z_sup = 1')

Z_inf = (400 - media) / desvio_padrao
print(Z_inf)
print('Probabilidade de Z_inf = 0.9772')

prob = norm.cdf(Z_sup) - norm.cdf(Z_inf)
prob

4.0
Probabilidade de Z_sup = 1
2.0
Probabilidade de Z_inf = 0.9772


0.02271846070634609

**Ex:**

Em um estudo sobre as alturas dos moradores de uma cidade verificou-se que o conjunto de dados segue uma distribuição aproximadamente normal, com média 1,70 e o desvio padrão de 0,1. Com essas informalçoes obetenha o seguinte conjunto de probabilidades:

1. probabilidade de uma pessoa, selecionada ao acaso ter menos de 1,80 metros.
2. probabilidade de uma pessoa, selecionada ao acadso ter entre 1,60 metros e 1,80 metros.
3. probabilidade de uma pessoa, selecionada ao acaso ter mais de 1,90 metros.

In [55]:
# problema 1
media = 1.7
desvio_padrao = 0.1
Z_sup = (1.8 - media) / desvio_padrao # padronizando a variável
print(Z_sup)

prob = 0.8413 # consultado na tabela padronizada
print(f'A probabilidade de encontrar uma pessoa com menos de 1,80 é: {round(prob * 100)}%')

1.0000000000000009
A probabilidade de encontrar uma pessoa com menos de 1,80 é: 84%


In [56]:
# problema 1 com scipy
from scipy.stats import norm

norm.cdf(Z)

0.9986501019683699

In [None]:
# problema 2
Z_media = (1.7 - media) / desvio_padrao # obtendo valor padronizado da média
print(Z_media)
prob_media = 0.5000

Z_inf = (1.6 - media) / desvio_padrao

prob = 0.8413 # probabilidade de Z = 1 (obtivemos este resultado no cálculo anterior)

prob = 0.8413 - prob_media
print(prob)

print(f'A probabilidade de uma pessoa ter altura entre 1,60 e 1,80 é: {(prob*2)*100}%') # estamos multiplicando por 2 visto que a área entre a média e 1,80 é a mesma que entre a média e 1,60

0.0
0.34130000000000005
A probabilidade de uma pessoa ter altura entre 1,60 e 1,80 é: 68.26%


In [58]:
# problema 2 com scipy
prob = norm.cdf(Z_sup) - norm.cdf(Z_inf)
prob

0.6826894921370857

In [77]:
# problema 3
media = 1.7
desvio_padrao = 0.1
Z = (1.9 - media) / desvio_padrao
print(Z)

prob = 0.9767

print(f'A probabilidade de alguem possuir altura maior que 1,90 metros é: {round((1-prob) * 100):.2f}%')

1.9999999999999996
A probabilidade de alguem possuir altura maior que 1,90 metros é: 2.00%


In [None]:
# problema 3 com scipy
prob = 1 - norm.cdf(Z)
prob

0.02275013194817921

# 2. Amostragem