# Aula 08 - Variáveis aleatórias discretas

Para estudar:

1. MONTGOMERY, D. et al. Estatística Aplicada e Probabilidade para Engenheiros. 6. ed. Seções 2.8 e 3.1
1. MAGALHÃES, M. et al. Noções de Probabilidade e Estatística. 7. ed. Seções 3.1 e definições 4.2 (p. 110) e 4.5 (p. 121)

In [None]:
import numpy as np
import pandas as pd
%matplotlib inline

**Atenção: Localize os itens numerados, que são atividades a realizar**

### Simulação

Vamos simular 10 séries de 8 jogadas de um dado idôneo

In [None]:
jogadas = 8
series = 10

In [None]:
# Note que não precisamos fazer um loop
simulacao = np.random.randint(low=1, high=7, size=(series, jogadas))

In [None]:
simulacao

Agora vamos conectar o modelo acima a uma variável aleatória *X*, definida da seguinte forma:

* Se sair no dado o valor 6 ( face ⚅) 3 vezes ou mais, o jogador ganha R\$1000
* Se sair no dado o valor ⚅ 1 ou 2 vezes, o jogador ganha R\$ 500

Caso não saia nenhum valor ⚅, o jogador não ganha nada

Vamos contar os resultados e computar os ganhos

In [None]:
X = [] # X é a variável aleatória
for serie in simulacao:
    saiu_6 = 0
    ganho = 0
    for jogada in serie:
        if jogada == 6:
            saiu_6 += 1
    if saiu_6 >= 3:
        ganho = 1000
    elif saiu_6 >=1:
        ganho = 500
    X.append(ganho)
            

### A variável aleatória X

In [None]:
X

Agora vamos fazer um resumo da distribuição da variável aleatória, usando o `pandas`


In [None]:
Xs = pd.Series(X)

### A distribuição de X

In [None]:
distribuicao = Xs.value_counts(normalize=True)

In [None]:
distribuicao

In [None]:
distribuicao.plot.bar()

**Atividade (1): Esta distribuição muda se fizermos mais séries de jogadas? Por quê?**

Note que:
* Usamos um modelo simples para obter as informações correspondentes às rolagens de dados
* Este modelo é simples o bastante para podermos ter empregado uma abordagem exaustiva ou uma abordagem matemática usando *binomial*, que veremos nas próximas aulas. **Isso não importa agora**

### A média de X

Quando temos os dados, o cálculo da média se torna trivial

In [None]:
Xs.mean()

Podemos também fazer o cálculo da média usando a distribuição. Temos:

In [None]:
media = 0.0
for i in distribuicao.index:
    total_linha = i*distribuicao[i]
    print("{:.2f} vezes {:.2f} = {:.2f}".format(i, distribuicao[i], total_linha))
    media += total_linha

Não é surpreendente verificar que os valores obtidos via `.mean()` e `for` coincidem:

In [None]:
media

### Valor esperado de X

Baseado na aula e nas leituras, responda:


**Atividade(2): Qual a diferença entre a média dos dados e o valor esperado $E(X)$? Para ajudar observe as duas fórmulas abaixo**

Média de conjunto de dados para tabela de frequência  relativa $f_i=n_i/n$ com $k$ elementos:

$$\overline{x} = \sum_{i=1}^{k}f_ix_i$$

Valor esperado de variável aleatória

$$E(X) = \mu = \sum_{i=1}^{k}p_ix_i $$

### Variância de X

Variância para conjunto de dados para tabela de frequência  relativa $f_i=n_i/n$ com $k$ elementos:

$$var = \sum_{i=1}^{k}f_i(x_i - \overline{x})^2$$

Variância de variável aleatória

$$Var(X) = E[(X - \mu)^2] = \sum_{i=1}^{k}p_i(x_i-\mu)^2 $$

Existe uma formulação alternativa $Var(X) = E(X^2) - E(X)^2$  [muito interessante](https://proofwiki.org/wiki/Variance_as_Expectation_of_Square_minus_Square_of_Expectation) que é mais prática para se calcular

Vamos calcular a variância da v.a:

In [None]:
variancia = 0.0
for i in distribuicao.index:
    var_linha = distribuicao[i]*((i - media)**2)
    print("{:.2f} vezes ({:.2f} -  {:.2f})^2 = {:.2f}".format(distribuicao[i], i, media, var_linha))
    variancia += var_linha

Resultado calculado pela fórmula:

In [None]:
variancia

Resultado usando `.var()` do `pandas` ou `np.var()`. 


**Atividade (3) Descubra o que o `ddof=0` faz**

Uma sugestão é ver [a documentação do método](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.var.html). 

In [None]:
Xs.var(ddof=0)

In [None]:
np.var(X)

Faça: 

**Atividade (4) Programe a resolução da variância via fórmula alternativa**

$Var(X) = E(X^2) - E(X)^2$

**Atividade (5) Desafio:**

Usando o módulo Python [`itertools`](Itertools.ipynb) levante a distribuição exata da variável aleatória $X$. A ideia é gerar todas as combinações e calcular a probabilidade contando os casos.

