___
# Modelos probabilísticos contínuos - Alguns resultados da aula
___

## Aulas 16 e 17

**Preparo Prévio:**
1.	Leitura prévia necessária: Magalhães e Lima (7ª. Edição): Modelo Normal (pág. 197 a 203).

**Hoje:**
1.	Descrever as propriedades do modelo normal quanto aos resultados teóricos.
2. Utilizar modelos normais para resolução de problemas seja com ou sem uso do Python.
3. Contrastar resultados teóricos e empíricos.


**Próxima aula:**
1.	Leitura prévia necessária: Magalhães e Lima (7ª. Edição): Seção 5.1 (pág. 137) e Seção 5.2 (pág. 146).
___

___
## <font color='blue'>Propriedades da distribuição Normal</font>

> **DISTRIBUIÇÃO NORMAL - TEORIA:**

> Seja $X$ uma variável aleatória contínua com média igual a $\mu$ e variância igual a $\sigma^2$. Se essa variável é modelada por uma distribuição normal, dizemos que $X$~$N(\mu,\sigma^2)$. 

> A função densidade de probabilidade - fdp (ou pdf, em inglês) de uma distribuição Normal é dada por:
$f(x)=\frac{1}{\sqrt{2\pi\sigma^2}}e^{-\frac{(x-\mu)^2}{2\sigma^2}}$, 
sendo $x\in\mathbb{R}$, $\mu\in\mathbb{R}$ e $\sigma^2>0$.

> Alterando possíveis valores de $x$ em torno de $\mu$ e calculando, para cada $x$, o respectivo valor de $f(x)$, é possível visualizar graficamente a famosa distribuição em forma de sino.


> **DISTRIBUIÇÃO NORMAL - PYTHON:** <sup> [https://en.wikipedia.org/wiki/SciPy]

> Algumas funções úteis para desenvolver seu código: <sup> [http://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.norm.html]

> Com a linha de comando `from scipy import stats` e assumindo que $E(X)=\mu$ e $Var(X)=\sigma^2$, alguns dos exemplos abaixo úteis para trabalhar com a distribuição normal no Python:
* $f(x)$: `stats.norm.pdf(x, loc=mu, scale=sigma)`
* $P(X\leq x)$: `stats.norm.cdf(x, loc=mu, scale=sigma)`
* $x$ tal que $P(X\leq x)=p$: `stats.norm.ppf(p, loc=mu, scale=sigma)`




In [None]:
%matplotlib inline

import os
import matplotlib.pyplot as plt
import pandas as pd
from scipy import stats
from numpy import mean, var, linspace

print('Esperamos trabalhar no diretório')
print(os.getcwd())

___
### <font color='green'>Gráfico distribuição Normal alterando valores para a média $\mu$  e/ou  variância $\sigma^2$ </font>


In [None]:
#Distribuição Normal 
#Média muda 
#Desvio padrão igual
sigma = 10
lista = (60, 70, 80)
for mu in lista:
    x=sorted(stats.norm.rvs(size=4000, loc=mu, scale=sigma))
    plt.plot(x, stats.norm.pdf(x, loc=mu, scale=sigma), lw=3, alpha=0.6)
    
plt.title('Médias diferentes')
plt.xlabel('valores de x')
plt.ylabel('f(x)')
plt.show()

In [None]:
#Distribuição Normal 
#Média igual
#Desvio padrão muda
mu = 70
lista = (5, 10, 20)
for sigma in lista:
    x=sorted(stats.norm.rvs(size=4000, loc=mu, scale=sigma))
    plt.plot(x, stats.norm.pdf(x, loc=mu, scale=sigma), lw=3, alpha=0.6)
    
plt.title('Desvios padrões diferentes')
plt.xlabel('valores de x')
plt.ylabel('f(x)')
plt.show()

___
### <font color='green'> Propriedades da distribuição normal </font>

In [None]:
#Probabilidade de X estar entre mu mais ou menos c*sigma
#Pode alterar valores de mu (média de X) e de sigma (desvio padrao de X)!
#Alterações de mu e sigma NÃO alteram as probabilidades abaixo, pois trata-se de propriedade !!
mu = 70
sigma = 10
print('Probabilidade de X acontecere considerando UM desvio padrão em torno da média:', 
      stats.norm.cdf(mu+sigma, loc=mu, scale=sigma)-stats.norm.cdf(mu-sigma, loc=mu, scale=sigma))

print('Probabilidade de X acontecere considerando DOIS desvio padrão em torno da média:', 
      stats.norm.cdf(mu+2*sigma, loc=mu, scale=sigma)-stats.norm.cdf(mu-2*sigma, loc=mu, scale=sigma))

print('Probabilidade de X acontecere considerando TRÊS desvio padrão em torno da média:', 
      stats.norm.cdf(mu+3*sigma, loc=mu, scale=sigma)-stats.norm.cdf(mu-3*sigma, loc=mu, scale=sigma))

___
## <font color='blue'>Exemplo 1 da Aula16 (pdf) </font>

Uma loja de produtos automotivos  vende um certo lubrificante. Sempre que o estoque chega a 21 litros um novo pedido de compra é feito.  <br />
O gerente da loja acha que a quantidade deixada em estoque até que o pedido do lubrificante seja entregue pode estar prejudicando suas vendas. Verificou-se que durante o período entre o pedido de compra e a entrega se consomem, em média, 15 litros de lubrificante, com desvio padrão de 6 litros. Verificou-se também que a distribuição de consumo neste período é bem aproximada por uma normal. <br />
O valor deixado em estoque no momento do pedido é adequado?  <br />

Vamos caracterizar a variável aleatória: X~N(15,36), onde X éVamos caracterizar a variável aleatória: X~N(15,36), onde X é consumo do lubrificante entre pedido e entrega (em litros).


In [None]:
mu = 15
sigma = 6

In [None]:
#Distribuição Normal com média 15 e desvio padrão 6
x = linspace(15-4*sigma, 15+4*sigma, 1000)
plt.plot(x, stats.norm.pdf(x, loc=mu, scale=sigma), lw=3, alpha=0.6)
plt.title('')
plt.xlabel('Quantidade de lubrificante')
plt.ylabel('Densidade')
plt.show()

O gerente pretende demorar mais tempo até fazer novos pedidos de compra.<br />
Logo, decide que um novo pedido de compra será feito sempre que o estoque chegar a 20 litros. <br />
Calcule agora a probabilidade de que o estoque acabe antes de que o pedido chegue a loja?

Com quantos litros de lubrificante no estoque a loja de produtos automotivos deve fazer o pedido de compra de modo a ter no máximo 5% de probabilidade de ficar sem lubrificante?


___
## <font color='blue'>Exemplo 2 da Aula16 (pdf) </font>
Uma empresa automotiva diz que um determinado caminhão por ela produzido apresenta algum tipo de problema no motor após, em média, rodar 100 mil quilômetros, com um desvio padrão de 35 mil quilômetros.<br /> 
Além disso, acredita-se que a distribuição da distância percorrida antes de apresentar algum tipo de problema no motor (X) é bem aproximada por uma normal. 


In [None]:
mu=100
sigma=35

Sabendo que a garantia de um caminhão é dada apenas até completar 90 mil km, qual  a probabilidade de algum tipo de problema no motor acontecer após perder a garantia de fábrica?

Qual deve ser a garantia de um caminhão, se a probabilidade de apresentar algum tipo de problema no motor após perder a garantia de fábrica for, no máximo, 15%?

___
## <font color='blue'>Exercício 3 da Aula16 (pdf) </font>
As notas no quiz final de Ciência dos Dados distribuem-se segundo uma variável aleatória normal com média 6,5 e desvio padrão 1,6. 
O professor deseja dividir a classe em 3 categorias, da seguinte forma: 
 - os 30% que tiveram as melhores notas serão aprovados, 
 - os 50% com notas intermediárias ficarão de exame e 
 - os 20% que tiveram as piores notas serão reprovados. 


In [None]:
mu=6.5
sigma=1.6

a. Quais os limites de nota entre cada uma das categorias?



b. Caso a nota para aprovação (sem ir para exame) fosse igual a 7,0 e uma turma tivesse 50 alunos, quantos desses seriam aprovados sem ir para o exame? 

___
## <font color='blue'>Exercício 6 da Aula16 (pdf) </font>
Um determinado calçado é vendido em lojas populares e em lojas sofisticadas. De todas as lojas, 70%  são populares e 30%  são sofisticadas. Nas lojas populares seu preço segue uma distribuição normal com média 8 e desvio-padrão 1,2. Já em lojas sofisticadas, o preço também segue uma distribuição normal de média 16 e desvio-padrão 3.     


a) Determine o primeiro quartil da distribuição de preços de uma loja popular.

b) Gastou-se mais de '$10,00' para comprar o calçado. Qual é a probabilidade da compra ter sido feita numa loja popular?!

___
## <font color='blue'>Padaria da Aula 17 (em pdf)</font>

Uma empresa deve decidir onde construir uma padaria: <font color='green'>Bairro A </font> ou <font color='orange'> Bairro B </font>. 

Como ambos os bairros possuem densidades populacionais próximas, os investidores visam atingir um público alvo de maior renda familiar. 
Assim, quanto maior o número de famílias com rendas familiares mais altas, maior será a chance do empreendimento ser bem sucedido. 

Considerando que a decisão final seja baseada em informações sobre a renda familiar dos moradores desses dois bairros, responda:

1. Calcule algumas medidas resumo úteis para entender o comportamento dessa variável em ambos os bairros. Analise.

2. Construa o histograma dos dados e compare as distribuições de renda familiar (em mil reais) dos dois bairros. Qual é o melhor bairro para construir a padaria? Justifique.

3. Assuma que $X$: renda familiar de um determinado bairro tenha $\mu$ estimada pela média amostral ($\bar{x}$) e tenha $\sigma^2$ estimada pela variância amostral, ambas de um mesmo bairro em questão. Verifique, visualmente/graficamente, se a distribuição normal é adequada para estimar a renda familiar de cada bairro. Para isso, construa o histograma dos dados junto com a fdp da distribuição normal e analise.
        
4. Independente da sua resposta do item anterior, assuma que $X$: renda familiar de um determinado bairro segue uma distribuição normal considerando as estimativas amostrais como valores dos parâmetros de cada bairro. Nesse caso, para cada bairro, calcule:
      1. probabilidade de uma família possuir renda familiar maior do que 17 mil reais.

      2. sabendo que a famíliar tem mais do que 15 mil reais de renda familiar, qual a probabilidade dessa possuir renda inferior a 16 mil reais.
      
      3. qual a menor renda familiar dos 5% das famílias que mais ganham em cada bairro? 



In [None]:
pad = pd.read_excel('Padaria.xlsx')