# Encontrando escores-z
Dada uma √°rea (uma probabilidade), qual o correspondente escore-z relativo √† uma distribui√ß√£o normal padr√£o? O m√©todo *ppf (Percent Point Function)* da classe *stats.norm* resolve esse problema.

*   Determine o escore-*z* que tenha 96,16% da √°rea de distribui√ß√£o √† sua direita.
*   Determine o escore-*z* para o qual 95% da √°rea de distribui√ß√£o esteja entre *‚Äìz* e *z*.


In [27]:
from scipy import stats
# Construindo a distribui√ß√£o normal padr√£o
mu, std = 0, 1
normpad = stats.norm(loc=mu, scale=std)
# Escore-z que tenha 96,16% da √°rea de distribui√ß√£o √† sua direita
z1 = normpad.ppf(1-0.9616)
print(f'z1 = {z1:.3f}')
print(f'Conferindo... √Årea √† direita = {normpad.sf(z1)*100:.2f}%')
# Escore-z para o qual 95% da √°rea de distribui√ß√£o esteja entre ‚Äìz e z
z2 = normpad.ppf(0.025) #ou normpad.ppf(1-0.025) se olhar para a cauda da direita (2.5 de cada lado)
print(f'z2 = {z2:.3f}')
print(f'Conferindo... √Årea √† esquerda de z = {z2:.3f} √© {normpad.cdf(z2)*100:.2f}%')
print(f'Conferindo... √Årea √† direita de z = {-z2:.3f} √© {normpad.sf(-z2)*100:.2f}%')

z1 = -1.770
Conferindo... √Årea √† direita = 96.16%
z2 = -1.960
Conferindo... √Årea √† esquerda de z = -1.960 √© 2.50%
Conferindo... √Årea √† direita de z = 1.960 √© 2.50%


**Exerc√≠cio:** Um pesquisador testa as dist√¢ncias de frenagem de diversos carros. A dist√¢ncia de frenagem de 60 milhas por hora at√© uma parada completa em pista seca √© medida em p√©s. As dist√¢ncias de frenagem de uma
amostra de carros s√£o normalmente distribu√≠das, com m√©dia de 129 p√©s e desvio padr√£o de 5,18 p√©s.

Qual √© a maior dist√¢ncia de frenagem que um desses carros poderia ter e ainda estar no grupo do 1% mais baixo? (*Adaptado de: Consumer Reports*)

In [28]:
# Construindo a distribui√ß√£o normal das dist√¢ncias de frenagem
mu, std = 129, 5.18
normpad = stats.norm(mu, std)
# Dist√¢ncia m√°xima com 1% da √°rea de distribui√ß√£o √† sua esquerda
dist = normpad.ppf(0.01)
print(f'Dist√¢ncia m√°xima = {dist:.2f} p√©s')
print(f'Conferindo... √Årea √† esquerda = {normpad.cdf(dist)*100:.2f}%')

Dist√¢ncia m√°xima = 116.95 p√©s
Conferindo... √Årea √† esquerda = 1.00%


**Exerc√≠cio:** O tempo de trabalho dos funcion√°rios em uma empresa √© normalmente distribu√≠do, com m√©dia de 11,2 anos e desvio padr√£o de 2,1 anos.

Em uma redu√ß√£o de quadro, os 10% com menos tempo na empresa s√£o demitidos. Qual √© o tempo m√°ximo que um funcion√°rio pode ter trabalhado na empresa e ainda assim ser cortado?

In [29]:
# Construindo a distribui√ß√£o normal dos tempos de empresa
mu, std = 11.2, 2.1
normpad = stats.norm(mu, std)
# Tempo de empresa m√°ximo com 10% da √°rea de distribui√ß√£o √† sua esquerda
tempo = normpad.ppf(0.1)
print(f'Dist√¢ncia m√°xima = {tempo:.2f} anos')
print(f'Conferindo... √Årea √† esquerda = {normpad.cdf(tempo)*100:.2f}%')

Dist√¢ncia m√°xima = 8.51 anos
Conferindo... √Årea √† esquerda = 10.00%


# Distribui√ß√µes amostrais
**Exerc√≠cio:** Os valores populacionais $\{1, 3, 5, 7\}$ s√£o equiprov√°veis. Esses valores s√£o escritos em peda√ßos de papel e colocados em uma caixa. Ent√£o, selecionam-se dois peda√ßos de papel aleatoriamente, com reposi√ß√£o.

*   **(a)** Liste todas as amostras poss√≠veis de tamanho $ùëõ = 2$ e calcule suas respectivas m√©dias.
*   **(b)** Encontre a m√©dia, a vari√¢ncia e o desvio
padr√£o das m√©dias amostrais.
*   **(c)** Compare seus resultados com a m√©dia $\mu = 4$,
vari√¢ncia $\sigma^2 = 5$, e desvio padr√£o $\sigma \approx 2,236$ da popula√ß√£o.




In [30]:
import itertools as it
import pandas as pd
## Item (a)
# Chave para permuta√ß√£o
chave = [1, 3, 5, 7]
# Gera√ß√£o de todas as amostras poss√≠veis de tamanho 2
am2a2 = list(it.product(chave, repeat=2))
# Cria√ß√£o de tabela com poss√≠veis amostras, acompanhadas de suas m√©dias
amostras = pd.DataFrame({'Amostras': am2a2,
                         'M√©dia': [(x1+x2)/2 for (x1, x2) in am2a2]})
display(amostras)

Unnamed: 0,Amostras,M√©dia
0,"(1, 1)",1.0
1,"(1, 3)",2.0
2,"(1, 5)",3.0
3,"(1, 7)",4.0
4,"(3, 1)",2.0
5,"(3, 3)",3.0
6,"(3, 5)",4.0
7,"(3, 7)",5.0
8,"(5, 1)",3.0
9,"(5, 3)",4.0


In [31]:
## Item (b)
# Determina√ß√£o da frequ√™ncia de cada m√©dia
contagem = amostras['M√©dia'].value_counts().sort_index()
# Cria√ß√£o de tabela com as poss√≠veis m√©dias e suas respectivas probabilidades
dist_prob = pd.DataFrame({'M√©dias': contagem.index,
                         'Frequ√™ncia': contagem})
dist_prob['Probabilidade'] = dist_prob['Frequ√™ncia'] / dist_prob['Frequ√™ncia'].sum()
display(dist_prob)
# C√°lculo da m√©dia das m√©dias amostrais
media_amostras = (dist_prob['M√©dias']*dist_prob['Probabilidade']).sum()
print(f'M√©dia das m√©dias amostrais = {media_amostras:.2f}')
# C√°lculo da vari√¢ncia das m√©dias amostrais
var_amostras = (dist_prob['M√©dias']**2*dist_prob['Probabilidade']).sum() - media_amostras**2
print(f'Vari√¢ncia das m√©dias amostrais = {var_amostras:.2f}')
# C√°lculo do desvio padr√£o das m√©dias amostrais
std_amostras = var_amostras**0.5
print(f'Desvio padr√£o das m√©dias amostrais = {std_amostras:.2f}')

Unnamed: 0,M√©dias,Frequ√™ncia,Probabilidade
1.0,1.0,1,0.0625
2.0,2.0,2,0.125
3.0,3.0,3,0.1875
4.0,4.0,4,0.25
5.0,5.0,3,0.1875
6.0,6.0,2,0.125
7.0,7.0,1,0.0625


M√©dia das m√©dias amostrais = 4.00
Vari√¢ncia das m√©dias amostrais = 2.50
Desvio padr√£o das m√©dias amostrais = 1.58


In [32]:
## Item (c)
mu, std = 4, 5**0.5
print('De acordo com a teoria das distribui√ß√µes amostrais:')
print(f'A m√©dia mu_x = {media_amostras:.2f} deve ser igual a m√©dia populacional mu = {mu}.')
print(f'O desvio padr√£o sigma_x = {std_amostras:.2f} deve ser igual a sigma/raiz(n) = {std/2**0.5:.2f}')

De acordo com a teoria das distribui√ß√µes amostrais:
A m√©dia mu_x = 4.00 deve ser igual a m√©dia populacional mu = 4.
O desvio padr√£o sigma_x = 1.58 deve ser igual a sigma/raiz(n) = 1.58


# Probabilidades e o TLC
**Exerc√≠cio:** O gasto m√©dio com alojamento e refei√ß√£o, por ano, em faculdades de quatro anos √© de US\$ 9.126,00. Voc√™ seleciona aleatoriamente 9 dessas faculdades. Qual √© a probabilidade de que a m√©dia de gastos com alojamento e refei√ß√£o seja menor que US\$ 9.400,00?

Suponha que os gastos com alojamento e refei√ß√£o sejam normalmente distribu√≠dos, com desvio padr√£o de US$ 1.500,00 (*Adaptado de: National Center for
Education Statistics*).

In [33]:
# Determina√ß√£o da m√©dia e desvio padr√£o amostrais
mu, std, n = 9126, 1500, 9
mu_x, std_x = mu, std/n**0.5
# Gera√ß√£o da distribui√ß√£o normal amostral (TLC)
gastos = stats.norm(mu_x, std_x)
# C√°lculo da probabilidade
prob = gastos.cdf(9400)
print(f'A probabilidade de que os gastos sejam inferiores a US$ 94k √© de {prob*100:.2f}%.')

A probabilidade de que os gastos sejam inferiores a US$ 94k √© de 70.82%.


**Exerc√≠cio:** A d√≠vida m√©dia no cart√£o de cr√©dito mantida por universit√°rios √© normalmente distribu√≠da, com m√©dia de US\$ 3.173,00 e desvio padr√£o de
US\$ 1.120,00 (*Adaptado de: Sallie Mae*).

*   Qual √© a probabilidade de que um universit√°rio selecionado aleatoriamente,
que possui um cart√£o de cr√©dito, tenha uma divida menor
que US\$ 2.700?
*   Voc√™ seleciona aleatoriamente 25 universit√°rios que possuem cart√£o
de cr√©dito. Qual √© a probabilidade de que a m√©dia dessas d√≠vidas
m√©dias seja menor que US\$ 2.700?

In [36]:
'''No primeiro item, devemos calcular a probabilidade associada a um determinado
valor da vari√°vel aleat√≥ria d√≠vida no cart√£o de cr√©dito.'''
# Gera√ß√£o da distribui√ß√£o normal da popula√ß√£o
mu, std = 3173, 1120
divida_pop = stats.norm(mu, std)
# C√°lculo da probabilidade
prob1 = divida_pop.cdf(2700)
print(f'P(d√≠vida <= 2700.00) = {prob1*100:.2f}%.')
'''No segundo item, devemos calcular uma probabilidade associada a uma
m√©dia amostral.'''
# Gera√ß√£o da distribui√ß√£o das m√©dias amostrais
n = 25
mu_x, std_x = 3173, std/n**0.5
divida_amostra = stats.norm(mu_x, std_x)
# C√°lculo da probabilidade
prob2 = divida_amostra.cdf(2700)
print(f'P(d√≠vida m√©dia <= 2700.00) = {prob2*100:.2f}%.')

P(d√≠vida <= 2700.00) = 33.64%.
P(d√≠vida m√©dia <= 2700.00) = 1.74%.
