# Encontrando escores-z
Dada uma área (uma probabilidade), qual o correspondente escore-z relativo à uma distribuição normal padrão? O método *ppf (Percent Point Function)* da classe *stats.norm* resolve esse problema.

*   Determine o escore-*z* que tenha 96,16% da área de distribuição à sua direita.
*   Determine o escore-*z* para o qual 95% da área de distribuição esteja entre *–z* e *z*.


In [27]:
from scipy import stats
# Construindo a distribuição normal padrão
mu, std = 0, 1
normpad = stats.norm(loc=mu, scale=std)
# Escore-z que tenha 96,16% da área de distribuição à sua direita
z1 = normpad.ppf(1-0.9616)
print(f'z1 = {z1:.3f}')
print(f'Conferindo... Área à direita = {normpad.sf(z1)*100:.2f}%')
# Escore-z para o qual 95% da área de distribuição esteja entre –z e z
z2 = normpad.ppf(0.025) #ou normpad.ppf(1-0.025) se olhar para a cauda da direita (2.5 de cada lado)
print(f'z2 = {z2:.3f}')
print(f'Conferindo... Área à esquerda de z = {z2:.3f} é {normpad.cdf(z2)*100:.2f}%')
print(f'Conferindo... Área à direita de z = {-z2:.3f} é {normpad.sf(-z2)*100:.2f}%')

z1 = -1.770
Conferindo... Área à direita = 96.16%
z2 = -1.960
Conferindo... Área à esquerda de z = -1.960 é 2.50%
Conferindo... Área à direita de z = 1.960 é 2.50%


**Exercício:** Um pesquisador testa as distâncias de frenagem de diversos carros. A distância de frenagem de 60 milhas por hora até uma parada completa em pista seca é medida em pés. As distâncias de frenagem de uma
amostra de carros são normalmente distribuídas, com média de 129 pés e desvio padrão de 5,18 pés.

Qual é a maior distância de frenagem que um desses carros poderia ter e ainda estar no grupo do 1% mais baixo? (*Adaptado de: Consumer Reports*)

In [28]:
# Construindo a distribuição normal das distâncias de frenagem
mu, std = 129, 5.18
normpad = stats.norm(mu, std)
# Distância máxima com 1% da área de distribuição à sua esquerda
dist = normpad.ppf(0.01)
print(f'Distância máxima = {dist:.2f} pés')
print(f'Conferindo... Área à esquerda = {normpad.cdf(dist)*100:.2f}%')

Distância máxima = 116.95 pés
Conferindo... Área à esquerda = 1.00%


**Exercício:** O tempo de trabalho dos funcionários em uma empresa é normalmente distribuído, com média de 11,2 anos e desvio padrão de 2,1 anos.

Em uma redução de quadro, os 10% com menos tempo na empresa são demitidos. Qual é o tempo máximo que um funcionário pode ter trabalhado na empresa e ainda assim ser cortado?

In [29]:
# Construindo a distribuição normal dos tempos de empresa
mu, std = 11.2, 2.1
normpad = stats.norm(mu, std)
# Tempo de empresa máximo com 10% da área de distribuição à sua esquerda
tempo = normpad.ppf(0.1)
print(f'Distância máxima = {tempo:.2f} anos')
print(f'Conferindo... Área à esquerda = {normpad.cdf(tempo)*100:.2f}%')

Distância máxima = 8.51 anos
Conferindo... Área à esquerda = 10.00%


# Distribuições amostrais
**Exercício:** Os valores populacionais $\{1, 3, 5, 7\}$ são equiprováveis. Esses valores são escritos em pedaços de papel e colocados em uma caixa. Então, selecionam-se dois pedaços de papel aleatoriamente, com reposição.

*   **(a)** Liste todas as amostras possíveis de tamanho $𝑛 = 2$ e calcule suas respectivas médias.
*   **(b)** Encontre a média, a variância e o desvio
padrão das médias amostrais.
*   **(c)** Compare seus resultados com a média $\mu = 4$,
variância $\sigma^2 = 5$, e desvio padrão $\sigma \approx 2,236$ da população.




In [30]:
import itertools as it
import pandas as pd
## Item (a)
# Chave para permutação
chave = [1, 3, 5, 7]
# Geração de todas as amostras possíveis de tamanho 2
am2a2 = list(it.product(chave, repeat=2))
# Criação de tabela com possíveis amostras, acompanhadas de suas médias
amostras = pd.DataFrame({'Amostras': am2a2,
                         'Média': [(x1+x2)/2 for (x1, x2) in am2a2]})
display(amostras)

Unnamed: 0,Amostras,Média
0,"(1, 1)",1.0
1,"(1, 3)",2.0
2,"(1, 5)",3.0
3,"(1, 7)",4.0
4,"(3, 1)",2.0
5,"(3, 3)",3.0
6,"(3, 5)",4.0
7,"(3, 7)",5.0
8,"(5, 1)",3.0
9,"(5, 3)",4.0


In [31]:
## Item (b)
# Determinação da frequência de cada média
contagem = amostras['Média'].value_counts().sort_index()
# Criação de tabela com as possíveis médias e suas respectivas probabilidades
dist_prob = pd.DataFrame({'Médias': contagem.index,
                         'Frequência': contagem})
dist_prob['Probabilidade'] = dist_prob['Frequência'] / dist_prob['Frequência'].sum()
display(dist_prob)
# Cálculo da média das médias amostrais
media_amostras = (dist_prob['Médias']*dist_prob['Probabilidade']).sum()
print(f'Média das médias amostrais = {media_amostras:.2f}')
# Cálculo da variância das médias amostrais
var_amostras = (dist_prob['Médias']**2*dist_prob['Probabilidade']).sum() - media_amostras**2
print(f'Variância das médias amostrais = {var_amostras:.2f}')
# Cálculo do desvio padrão das médias amostrais
std_amostras = var_amostras**0.5
print(f'Desvio padrão das médias amostrais = {std_amostras:.2f}')

Unnamed: 0,Médias,Frequência,Probabilidade
1.0,1.0,1,0.0625
2.0,2.0,2,0.125
3.0,3.0,3,0.1875
4.0,4.0,4,0.25
5.0,5.0,3,0.1875
6.0,6.0,2,0.125
7.0,7.0,1,0.0625


Média das médias amostrais = 4.00
Variância das médias amostrais = 2.50
Desvio padrão das médias amostrais = 1.58


In [32]:
## Item (c)
mu, std = 4, 5**0.5
print('De acordo com a teoria das distribuições amostrais:')
print(f'A média mu_x = {media_amostras:.2f} deve ser igual a média populacional mu = {mu}.')
print(f'O desvio padrão sigma_x = {std_amostras:.2f} deve ser igual a sigma/raiz(n) = {std/2**0.5:.2f}')

De acordo com a teoria das distribuições amostrais:
A média mu_x = 4.00 deve ser igual a média populacional mu = 4.
O desvio padrão sigma_x = 1.58 deve ser igual a sigma/raiz(n) = 1.58


# Probabilidades e o TLC
**Exercício:** O gasto médio com alojamento e refeição, por ano, em faculdades de quatro anos é de US\$ 9.126,00. Você seleciona aleatoriamente 9 dessas faculdades. Qual é a probabilidade de que a média de gastos com alojamento e refeição seja menor que US\$ 9.400,00?

Suponha que os gastos com alojamento e refeição sejam normalmente distribuídos, com desvio padrão de US$ 1.500,00 (*Adaptado de: National Center for
Education Statistics*).

In [33]:
# Determinação da média e desvio padrão amostrais
mu, std, n = 9126, 1500, 9
mu_x, std_x = mu, std/n**0.5
# Geração da distribuição normal amostral (TLC)
gastos = stats.norm(mu_x, std_x)
# Cálculo da probabilidade
prob = gastos.cdf(9400)
print(f'A probabilidade de que os gastos sejam inferiores a US$ 94k é de {prob*100:.2f}%.')

A probabilidade de que os gastos sejam inferiores a US$ 94k é de 70.82%.


**Exercício:** A dívida média no cartão de crédito mantida por universitários é normalmente distribuída, com média de US\$ 3.173,00 e desvio padrão de
US\$ 1.120,00 (*Adaptado de: Sallie Mae*).

*   Qual é a probabilidade de que um universitário selecionado aleatoriamente,
que possui um cartão de crédito, tenha uma divida menor
que US\$ 2.700?
*   Você seleciona aleatoriamente 25 universitários que possuem cartão
de crédito. Qual é a probabilidade de que a média dessas dívidas
médias seja menor que US\$ 2.700?

In [36]:
'''No primeiro item, devemos calcular a probabilidade associada a um determinado
valor da variável aleatória dívida no cartão de crédito.'''
# Geração da distribuição normal da população
mu, std = 3173, 1120
divida_pop = stats.norm(mu, std)
# Cálculo da probabilidade
prob1 = divida_pop.cdf(2700)
print(f'P(dívida <= 2700.00) = {prob1*100:.2f}%.')
'''No segundo item, devemos calcular uma probabilidade associada a uma
média amostral.'''
# Geração da distribuição das médias amostrais
n = 25
mu_x, std_x = 3173, std/n**0.5
divida_amostra = stats.norm(mu_x, std_x)
# Cálculo da probabilidade
prob2 = divida_amostra.cdf(2700)
print(f'P(dívida média <= 2700.00) = {prob2*100:.2f}%.')

P(dívida <= 2700.00) = 33.64%.
P(dívida média <= 2700.00) = 1.74%.
