___
# Atividade: Modelos probabilísticos discretos e Dados
___

## Aula 15 - Atividade

<div id="indice"></div>

## Índice

- [Teoria: Distribuição Normal em Python](#teoria)
- [Problema: Concentração de poluente em um tanque de combustível](#problema)
    - [Modelo teórico](#modelo-teorico)
        - [Exercício 1](#ex1)
        - [Exercício 2](#ex2)
        - [Exercício 3](#ex3)
        - [Exercício 4](#ex4)
    - [Resultados empíricos](#resultados-empiricos)
        - [Exercício 5](#ex5)
        - [Exercício 6](#ex6)
    - [Comparação: resultados empíricos *vs* modelo teórico](#comparacao)
        - [Exercício 7](#ex7)
        - [Exercício 8](#ex8)
        - [Exercício 9](#ex9)
        - [Exercício 10](#ex10)
- [Lista de comandos utilizados neste notebook](#comandos)

In [None]:
%matplotlib inline
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np

from scipy import stats #importa apenas as funções de estatísticas da biblioteca SciPy.

___

<div id="teoria"></div>

## Teoria: Distribuição Normal em Python

![Caixa de galton](LegalTameChanticleer-size_restricted.gif)

[Fonte: https://www.youtube.com/watch?v=UCmPmkHqHXk](https://www.youtube.com/watch?v=UCmPmkHqHXk&t=271s)

A biblioteca SciPy está cheia de funções para nos ajudar a trabalhar com variáveis aleatórias! https://en.wikipedia.org/wiki/SciPy

Algumas funções úteis para desenvolver seu código considerando a distribuição Normal: https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.norm.html

Lembrando que vamos assumir que $X\sim N(\mu, \sigma^2)$.

Logo, faça `from scipy import stats`, então:

* $f(x)$: `stats.norm.pdf(x, loc=mu, scale=sigma)`

* $P(X\leq x)$: `stats.norm.cdf(x, loc=mu, scale=sigma)`

* $x$ tal que $q=P(X\leq x)$: `stats.norm.ppf(q, loc=mu, scale=sigma)`

* $E(X)$: `stats.norm.mean(loc=mu, scale=sigma)`

* $Var(X)$: `stats.norm.var(loc=mu, scale=sigma)`

* $DP(X)$: `stats.norm.std(loc=mu, scale=sigma)`

___

<div id="problema"></div>

# Problema: Concentração de poluente em um tanque de combustível

A concentração (em $\mu g/L$) de um determinado poluente em um tanque de combustível é modelada como uma normal com média 500 e variância 645.

Nesse caso, vamos assumir que a variável aleatória contínua é dada por:

- $X$: concentração do poluente em um tanque de combustível, em $\mu g/L$.

Pelo modelo teórico, temos: $X\sim N(500, 645).$ Note que $\sigma^2 = 645$, então devemos utilizar $\sigma = \sqrt{645}$ nas funções do `scipy.stats`.

<div id="modelo-teorico"></div>

## Modelo teórico

<div id="ex1"></div>

### EXERCÍCIO 1

Plote a função de densidade de probabilidade **e** a função cumulativa considerando o modelo utilizado. 

**Dica 1**: fizemos isso com a distribuição exponencial na Aula 12.

**Dica 2**: utilize o intervalo entre 0 e 600 para os valores de $x$.

In [None]:
# ESCREVA SEU CÓDIGO AQUI

<div id="ex2"></div>

### EXERCÍCIO 2

Foi desenvolvido um sensor que acende uma luz no painel do automóvel para avisar o motorista que a concentração do poluente no tanque de combustível está crítica, ou seja, ultrapassa 550 $\mu g/L$. Responda:

1. Sabendo que a luz acendeu, qual é a probabilidade da concentração do poluente ser superior a 580 $\mu g/L$?
2. Sabendo que a luz acendeu, qual é a probabilidade da concentração do poluente ser inferior a 560 $\mu g/L$?

*Resposta esperada: (1) 0.03333307956104959 (2) 0.6294099002523195*

In [None]:
# ESCREVA SEU CÓDIGO AQUI

<div id="ex3"></div>

### EXERCÍCIO 3

A partir de qual concentração de poluente a luz do painel deveria acender para que apenas as 10% maiores concentrações fossem consideradas críticas? E para que apenas as 0,1% maiores concentrações fossem consideradas críticas?

*Resposta esperada: 532.547373131662 e 578.4821669580019*

In [None]:
# ESCREVA SEU CÓDIGO AQUI

<div id="ex4"></div>

### EXERCÍCIO 4

Foi desenvolvida uma nova técnica que inicialmente aumenta a concentração do poluente em 100 $\mu g/L$ e depois reduz a nova concentração em 40%. Qual será a nova média e desvio padrão da concentração do poluente se aplicarmos essa nova técnica? Justifique sua resposta.

**Dica:** utilize as propriedades de esperança e variância.

*Resposta esperada: 360 e 15.238110119040353*

In [None]:
# ESCREVA SEU CÓDIGO AQUI

<div id="resultados-empiricos"></div>

## Resultados empíricos

O arquivo `poluentes.csv` contém observações da concentração do poluente em tanques de combustível.

In [None]:
poluentes = pd.read_csv('poluentes.csv', header=None)
poluentes.columns = ['concentracao']
concentracao = poluentes['concentracao']
poluentes.head()

<div id="ex5"></div>

### EXERCÍCIO 5

Considerando medidas-resumo, faça uma **análise descritiva** desses valores. Baseado nos dados, estime os valores dos parâmetros do modelo normal (média $\mu$ e desvio padrão $\sigma$).

*Resposta esperada: média=500.572255 desvio padrão=25.358164991137812*

In [None]:
# ESCREVA SEU CÓDIGO AQUI

<div id="ex6"></div>

### EXERCÍCIO 6

Verifique quais seriam as respostas para o [Exercício 2](#ex2) utilizando os dados. Para isso, considere apenas as concentrações acima de 550 $\mu g/L$. Dentre essas concentrações, calcule a frequência relativa das que são:

1. Superiores a 580 $\mu g/L$.
2. Inferiores a 560 $\mu g/L$.

Discuta como esses valores se comparam às respostas do exercício 2. Por que são encontradas essas diferenças?

*Resposta esperada: (1) 0.14285714285714285 (2) 0.7142857142857143*

In [None]:
# ESCREVA SEU CÓDIGO AQUI

<div id="comparacao"></div>

## Comparação: resultados empíricos *vs* modelo teórico

<div id="ex7"></div>
    
### EXERCÍCIO 7

Uma maneira de sabermos se uma escolha de modelo é adequada para o problema em questão é utilizarmos a função `probplot()`. Essa função traça uma reta indicando o que seria esperado do ponto de vista teórico utilizando a distribuição analisada versus os dados reais encontrados. Quanto mais próximos da diagonal, mais provável é que os dados sigam a distribuição.

Consulte a [documentação da função `probplot()`](https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.probplot.html) e gere o `probplot()`. Discuta se é razoável assumirmos que os dados vieram de uma distribuição normal. **Dica**: para visualizar o gráfico utilize o argumento `plot=plt` na chamada da função `probplot()`.

In [None]:
# ESCREVA SEU CÓDIGO AQUI

<div id="ex8"></div>
    
### EXERCÍCIO 8

Construa um histograma para visualizar os dados de concentração de poluentes divididos em 15 faixas. **Dica**: consulte a documentação da função aqui: [https://matplotlib.org/3.2.1/api/_as_gen/matplotlib.pyplot.hist.html](https://matplotlib.org/3.2.1/api/_as_gen/matplotlib.pyplot.hist.html). Além disso, há um exemplo de histograma na atividade da aula 12 (distribuição exponencial).

Plote também a função de densidade de probabilidade (f.d.p.) da distribuição normal utilizando os novos parâmetros calculados a partir dos dados.

In [None]:
# ESCREVA SEU CÓDIGO AQUI

<div id="ex9"></div>

### EXERCÍCIO 9

Vamos simular a aplicação da técnica introduzida no [Exercício 4](#ex4). Crie uma nova coluna em `poluentes` chamada `'nova concentracao'`. Essa coluna deve ser o resultado da aplicação da técnica do exercício 4 em cada valor da coluna `'concentracao'`, ou seja, para cada valor de concentração, adicionar 100 e aplicar a redução de 40%.

In [None]:
# ESCREVA SEU CÓDIGO AQUI

<div id="ex10"></div>

### EXERCÍCIO 10

Calcule a média e o desvio padrão dessa nova coluna `'nova concentracao'`. Discuta como ela se compara com relação aos valores teóricos obtidos no [exercício 4](#ex4).

*Resposta esperada: Média: 360.3433531500001 DP: 15.21489899468268*

In [None]:
# ESCREVA SEU CÓDIGO AQUI

<div id="comandos"></div>

___

## Lista de comandos utilizados neste notebook

Os seguintes comandos foram utilizados neste jupyter notebook. Para facilitar sua consulta, escreva um resumo do que cada um deles faz:

- [`.pmf`](#pmf-stats): ESCREVA AQUI O RESUMO
- [`.mean`](#pmf-stats): ESCREVA AQUI O RESUMO
- [`.var`](#pmf-stats): ESCREVA AQUI O RESUMO
- [`.ppf`](#ppf): ESCREVA AQUI O RESUMO