# Revisão de Conceitos

## Diferença entre Estatística Bayesiana e Frequentista:

A principal diferença que podemos apontar é que pelo teoria Bayesiana entendemos que os parâmetro de qualquer modelo devem ser tratados como variáveis aleatórias, ou seja, possuem distribuição de probabilidade associada, enquanto a teoria frequentista acredita que os parâmetros de um modelo podem ser definidos pelos dados observados desde que esses dados sejam suficientemente representativos da população

## Teorema de Bayes

$P(A|B) = \frac{P(B,A)}{P(B} = \frac{P(B|A)P(A)}{P(B)}$, desde que A e B sejam eventos não independentes


## Problema: Monte Hall

Vamos aplicar um exemplo do uso do Teorema de Bayes. Seja o caso real que surgiu de um jogo aplicado em um antigo *talk show* em que temos três portas, sendo que uma delas contem um prêmio, e o objetivo é o jogador acertar qual porta é essa. Nesse jogo o participante começa escolhendo uma porta, por exemplo, a porta 1. O apresentador então abre a porta 2 revelando que esta não contem o prêmio. A pergunta que fica ao jogador é: após a revelação dessa porta pelo apresentador você prefere mudar a sua escolha inicial?

Vamos calcular as chances do jogador encontrar o prêmio permanecendo na porta inicialmente escolhida e caso ele mude de porta.

Suponha 

- C a variável aleatória que representa o prêmio está atrás da porta c, $c= {1,2,3}$
    
- H a variável aleatória que representa a porta que o apresentador revela $h= {1,2,3}$

Informações que podemos extrair do problema:

- Jogador escolheu inicialmente a porta 1 e o apresentador revelou a porta 2
- $P(C=c)=\frac{1}{3}, c={1,2,3}$
- $P(H=2|C=1)=0.5$ -> Se o prêmio está atrás da porta 1 o apresentador poderá escolher com probabilidade 0.5 abrir a porta 2 
- $P(H=2|C=2)=0.0$ -> Se o prêmio está atrás da porta 2 o apresentador não poderá abri-la
- $P(H=2|C=3)=1.0$ -> Se o prêmio está atrás da porta 3 o apresentador deverá abrir a porta 2 

Queremos calcular:

- $P(C=1|H=2) = ?$
    $$P(C=1|H=2) = \frac{P(C=1,H=2)}{P(H=2)} = \frac{P(H=2|C=1)P(C=1)}{\sum_{c}P(H=2|C=c)P(C=c)} = \frac{1}{3}$$

- $P(C=3|H=2) = ?$
    $$P(C=3|H=2) = \frac{P(C=3,H=2)}{P(H=2)} = \frac{P(H=2|C=3)P(C=3)}{\sum_{c}P(H=2|C=c)P(C=c)} = \frac{2}{3}$$
    
Sendo assim, se o jogador trocar de porta ele aumenta a probabilidade de encontrar o prêmio.


## Função de Verossimilhança

- Função que representa os valores possíveis de um parâmetro para descrever da melhor forma os dados observados de um experimento.
- Nessa função a variável de interesse são os parâmetros da distribuição, uma vez que como os dados são observados eles passam a ser contantes (valores conhecidos).
- Geralmente representamos essa função pela letra L

$$L(\theta) = P(\mbox{data}|\theta), \mbox{ onde } \mbox{data} = {x_{1},...,x_{N}}$$ 

$$L(\theta) = \prod_{i=1}^{N}P(x_{i}|\theta)$$

- Para encontrar o valor do parâmetro que maximiza a função calculamos:

$$\frac{dL}{d\theta} = 0 $\Longleftrightarrow$ \hat{\theta} = \mbox{arg max}_{\theta}L(\theta)$$

- Obs.: muitas vezes calcular $L(\theta)$ como $\log(L(\theta))$ é mais simples e como a função logarítimica é monôtona crescente garantimos que $\theta$ que maximiza $\log(L(\theta))$ é o mesmo que maximiza $L(\theta)$

## Exemplo de aplicação:

- Suponha que queiramos maximizar a probabilidade de um usuário clicar na recomendação de um produto. 
- Seja X o evento o usuário clicou ou não no produto, então $x={0,1}$
- Assim podemos definir $X \sim Bernoulli(\theta)$, onde $\theta$ é a probabilide do usuário clicar no produto.

O melhor valor da estimativa da probabilide de clicks é $\hat{\theta} = \mbox{arg max}_{\theta}L(\theta)$, no qual $L(\theta)= \prod_{i=1}^{N}P(x_{i}|\theta) = \prod_{i=1}^{N}\theta^{x_{i}}(1-\theta)^{1-x_{i}}$. Aplicando a função $\log$ temos $\log(L(\theta)) = \sum_{i=1}^{N}log(\theta^{x_{i}}(1-\theta)^{1-x_{i}}) = \sum_{i=1}^{N}log(\theta^{x_{i}})+\sum_{i=1}^{N}log((1-\theta)^{1-x_{i}})$

$$\frac{dL}{d\theta} = 0 \Longleftrightarrow \frac{1}{\hat{\theta}}\sum_{i=1}^{N}x_{i}-\frac{1}{1-\hat{\theta}}(N-\sum_{i=1}^{N}x_{i})=0 \Longleftrightarrow (1-\hat{\theta})\sum_{i=1}^{N}x_{i} - \hat{\theta}N + \hat{\theta}\sum_{i=1}^{N}x_{i} \Longleftrightarrow \hat{\theta} = \frac{\sum_{i=1}^{N}x_{i}}{N} = \bar{x}$$

Logo, #clicks/#impressions estima de fato a probabilidade do usuário assumir a ação de clicar em um produto ao qual ele foi recomendado.

- Obs.: essa aplicação pode ser conduzida em qualquer experimento que envolva uma ação binária de um usuário (click ou não click, compra ou não compra, ...)

### Exemplo de aplicação II:

- Contudo se o experimento envolve alguma ação não binária, mas contínua, como por exemplo o tempo que o usuário gasta no site precisamos aplicar distribuições que sigam esse comportamento. O exemplo que veremos agora está relacionado a distribuição Normal (mas poderia ser aplicado a qualquer uma outra contínua) 

Seja a distribuição do experimento dado por uma distribuição $Normal(\mu, \sigma^{2})$ então queremos descobrir $\hat{\mu}, \hat{\sigma^{2}} = \mbox{arg max}_{\mu, \sigma^{2}}L(\mu, \sigma^{2})$


$$\log(L(\mu, \sigma^{2})) = \prod_{i=1}^{N}\frac{1}{\sqrt(2\pi\sigma^{2})}\exp\frac{(x_{i}-\mu)^{2}}{\sigma^{2}}$$

$$\frac{d\log(L(\mu, \sigma^{2}))}{d\mu} = 0 \Longleftrightarrow \hat{\mu}=\frac{\sum_{i=1}^{N}x_{i}}{N}= \bar{x}$$

$$\frac{d\log(L(\mu, \sigma^{2}))}{d\sigma^{2}} = 0 \Longleftrightarrow \hat{\sigma^{2}}=\frac{\sum_{i=1}^{N}(x_{i}-\hat{\mu})^{2}}{N-1}$$

#### Fatos interessantes:

- Como esses parâmetros são variáveis aleatórias podemos descobrir informações do tipo: qual a distribuição do parâmetro, qual o seu valor esperado.
- Por exemplo, $\hat{\mu} \sim N(\mu,\sigma^{2}/n)$ e $E(\hat{\mu})=\mu$
- $E(\hat{\sigma^{2}})=\frac{N}{N-1}\sigma^{2}$

## Função de distribuição acumulada e percentis

In [1]:
import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import norm
np.random.seed(0)

In [2]:
# gerar amostras a partir da disrtibuição normal com parâmetro de locação e de escala
loc = 170
scale = 30
x = norm.rvs(loc=loc, scale=scale, size=100)

In [3]:
# média da máxima verossimilhança
x.mean()

171.79424046603458

In [4]:
# variância da máxima verossimilhança
x.var()

914.2439572934385

In [5]:
# estimador não viesado da variância - usamos 1 grau de liberdade
x.var(ddof=1)

923.4787447408469

In [7]:
# estimador não viesado do desvio padrão - usamos 1 grau de liberdade
x.std(ddof=1)

30.388793078055055

In [11]:
# 95% percentil do dados
print('95% dos dados estão abaixo do valor médio:', norm.ppf(q=0.95, loc=loc, scale=scale))

95% dos dados estão abaixo do valor médio: 219.34560880854417


In [13]:
# percentil correspondente a uma média de 160
print(norm.cdf(160, loc=loc, scale=scale)*100, '% dos dados estão baixo de um valor médio de 160')

36.944134018176364 % dos dados estão baixo de um valor médio de 160
