### Jogo de Azar (Bernoulli) e Binomial

  - Jogo de Azar: jogar moedas - cara ou coroa - Bernoulli
  - dado: seis lados
  - binomial - binômio 0 ou 1, A ou B, 1 ou 2, mulher ou homem
    - moeda - cara ou coroa (experimento de Bernoulli)


### Experimento de Bernoulli

  - Jacob Bernoulli (1654, 1705) pensou num experimento de jogar uma moeda e esperar por um resultado
  - Variável randômica: lado da moeda
  - Variável discreta e quantitativa: moeda tem 2 lados
  - Denominamos
    - 0 = False = Errado = Cara
    - 1 = True = Certo = Coroa
  - Perguntas
    - Se jogarmos uma moeda, ela cairá com que face para cima? Cara ou Coroa?
    - O fenômeno é predizível?
    - Se jogarmos 100 vezes a mesma moeda, obteremos quantas caras e quantas coroas?
    - E se jogarmos 1000 vezes a mesma moeda?
    - Qual a diferença?

### Respostas

  - Se jogarmos uma moeda ela caira com que face para cima? Cara ou Coroa?
     - Não se sabe. Pode resultar em qualer face. Daí dizemos que é **um fenômeno randômico**.
  - O fenômeno é predizível?
     - Não, como dissemos é um **fenômeno randômico**. Qualquer resultado é possível
     - E mais, uma segunda jogada independe da primeira, logo cada jogada é **independente**.
       - Há fenômenos na natureza independentes: acontecer um raio, um terremoto, o lançamento de uma moeda, etc.
       - Há fenômenos dependentes: gênero dos alunos de uma escola feminina, achar a bolinha número 3 após ne tentativas sem reposição das bolinhas, etc.
  - Se jogarmos 100 vezes a mesma moeda obeteremos quantas caras e quantas coroas?
    - Espera-se obter 50 caras e 50 coroas; mas usualmente isto não acontece:
      - Para acotecer a moeda tem que ser justa: p(cara) = 50% e p(coroa) = 50%
      - Mesmo assim há erros na randomicidade logo, se jogarmos 100 vezes 5 jogos com moedas justas os `resultados das Caras` podem ser: 53, 48, 49, 51, 50.
  - E se jogarmos 1000 vezes a mesma moeda?
    - O mesmo fenômeno que o explicado acima
    - Porém se jogarmos 1000 vezes 5 jogos com moedas justas os `resultados das Caras` podem ser: 503, 498, 499, 501, 500. 
  - Qual a diferença?
    - Conceitualmente não há diferenças, afora
    - O erro médio porcentual dimui em 10x. Por exemplo ele cai de 3 em 50 para 3 em 500!

In [None]:
import os, sys, math
import numpy as np
import pandas as pd
import seaborn as sns
from scipy import stats
from scipy.stats import norm
from statistics import mode

import seaborn as sns

import matplotlib.pyplot as plt # matplotlib e seu alias plt
# import matplotlib as mpl
# %matplotlib inline

A distribuição mais simples é a de uma moeda sendo jogada para o ar e analisado seu resultado quando parar de se movimentar ao chegar ao solo. Se a moeda é não viciada, a probabilidade de dar cara é igual à probabilidade de dar corroa = 0.5 = 50%. 

<font size="5">p(Cara) = p(Coroa) = .5; se e somente se a moeda for não viciada
<br><br>
p(cara) + p(coroa) = 1
<br>
soma p(i) = 1
</font>

In [None]:
pCara = 0.5
pCoroa = 1-pCara

x = [pCara, pCoroa]

fig = plt.figure(figsize=(10,6)) 
plt.bar([0,1], [pCara, pCoroa])
plt.xticks([0,1])
# plt.xlabel(['cara', 'coroa'])
plt.title("Probalidade de ser cara ou coroa numa moeda justa (distribuição)");

### Desenhe uma distribuição de uma moeda viciada

In [None]:
pCara = 0.2
pCoroa = 1-pCara

x = [pCara, pCoroa]

plt.bar([0,1], [pCara, pCoroa])
plt.xticks([0, 1])

if pCara+pCoroa == 1:
    stri = "Distribuição de uma moeda não viciada (0=cara 1=coroa)"
else:
    stri = "Distribuição de uma moeda viciada (0=cara 1=coroa)"
    
plt.title(stri);

### Lei dos Grandes Números de Borel

A lei dos grandes números de Borel, denominada por Émile Borel, determina que se um experimento é repetido um grande número de vezes independentemente e sob condições idênticas, a proporção de vezes de qualquer evento específico ocorrer é aproximadamente igual a probabilidade da ocorrência do evento em uma tentativa particular (quanto maior o número de repetições melhor a aproximação tende a ser)


Maior o N:
  - Menor o erro da media
  - Menor o erro do desvio padrão

https://pt.wikipedia.org/wiki/Lei_dos_grandes_n%C3%BAmeros#:~:text=A%20lei%20dos%20grandes%20n%C3%BAmeros%20de%20Borel%2C%20denominada%20por%20%C3%89mile,do%20evento%20em%20uma%20tentativa

### Revendo o método numpy randint?

In [None]:
# 0, 2 --> sampling (amostragem) 0 e 1
np.random.randint(0, 2, size=5)

### Jogue uma moeda 10 vezes e obtenha sua distribuição, analise o erro
### Jogue várias vezes com \<CTRL>+\<Enter>

In [None]:
N = 10
eventos = 2

dados = np.random.randint(0, eventos, size=N)
fig = plt.figure(figsize=(10,6))
ret = plt.hist(dados, bins=eventos+1)
plt.hlines(N/eventos, 0, eventos-1, color='black')
plt.title(f"Gráfico de frequência - jogando uma moeda justa {N} vezes")
# plt.grid()
plt.xticks([0,1]);

### Agora jogue 10000 vezes e veja se Borel estava correto

In [None]:
N = 10000
eventos = 2

dados = np.random.randint(0, eventos, size=N)
fig = plt.figure(figsize=(10,6))
ret = plt.hist(dados, bins=eventos+1)
plt.hlines(N/eventos, 0, eventos-1, color='black')
plt.title(f"Gráfico de frequência - jogando uma moeda justa {N} vezes")
# plt.grid()
plt.xticks([0,1]);

### Erro: valor simulado - valor teórico

In [None]:
erro = np.mean(dados)-0.5
erro

### Vamos pensar em erro absoluto

In [None]:
f"Erro após {N} simulações é de {100*abs(erro):.2f}%"

### Desafio

### Faça uma análise da diminuição do erro por número amostral

In [None]:
# de control enter até os numeros aparecerem diminuindo sistematicamente
# lembre que a simulação é estocástica: você pode um dia ganhar na loterial -> mas é raro
N_list = [10, 100, 1000, 10000, 100000]
lista = []

for N in N_list:
    dados = np.random.randint(0, eventos, size=N)
    erro = np.abs(np.mean(dados)-0.5)
    lista.append(erro)
    stri = f"Erro após {N:6} simulações é de {100*erro:.2f}%"
    print(stri)

### Faça um plot

In [None]:
fig = plt.figure(figsize=(10,6))
plt.plot(N_list, lista)
plt.title(f"Erro de amostragem x N - tá ruim hein?")
plt.grid()
plt.xticks([0,1]);

### E???

In [None]:
n_log = np.log10(N_list)
n_log

In [None]:
fig = plt.figure(figsize=(10,6))
plt.plot(n_log, lista)
plt.title(f"Erro de amostragem x N - erro x log10(N)")
plt.grid()
plt.xticks(n_log);

In [None]:
erro_log = np.log10(lista)
erro_log

In [None]:
fig = plt.figure(figsize=(10,6))
plt.plot(n_log, erro_log)
plt.title(f"Erro de amostragem x N - log10xlog10")
plt.grid()
plt.xticks(n_log);

### Qual a diferença entre uma distribuição contínua e uma discreta?

  - uma distribuição discreta: os possíveis eventos são discretos como 0,1,2,3 ... / casa, carro, loja ...
    - p.ex.: distribuição binomial: só tem dois eventos discretos (distintos)
  - uma distribuição contínua: os possíveis eventos são contínuos como o intervalo entre [0, 5] - infinitos números .... 0, 0.0001, 0.0002 .... 4.9999, 5
    - p.ex.: distribuição normal (gaussiana)

### Distribuição binomial
  - binomial: sim / não, cara / coroa, mutou / não mutou
        
![binomial distribution](../figure/binomial_distribution.jpg)   

### Caso mais simples: a moeda

  - vamos jogar uma só vez
  - há duas possibiliades: cara ou coroa (n = 2)
  - não viciado então p = .5

In [None]:
n = 1    # uma moeda - n = numero de jogadas simultâneas
p = 0.5  # dado não viciado p(cara) = p(coroa) = .5
N = 1    # vamos jogar somente uma vez


# dê CTRL-enter várias vezes
# maquina rândomica do "numpy"
jogo = np.random.binomial(n, p, N)
list(jogo)

### Vamos jogar 10 vezes uma moeda

In [None]:
n = 1    # uma moeda - n = numero de jogadas simultâneas
p = 0.5  # dado não viciado p(cara) = p(coroa) = .5
N = 10   # vamos jogar 10 vezes

jogo = np.random.binomial(n, p, N)
jogo[:15], len(jogo)

### Podemos estimar o valor esperado (média) ao jogarmos muitas moedas
  - Mas se N pequeno --> estimadores vão variar a cada jogada

### Quais estimadores variam com N = 10?
  - Todos

In [None]:
jogo = np.random.binomial(n, p, N)

mu  = np.mean(jogo)
med = np.median(jogo)
# sample standard deviation - desvio padrão amostral
SSD = np.std(jogo)
# coeficiente de variação
VC = SSD/mu

#-- media = valor esperado
#-- moeda justa: 50% cara, 50% coroa
f"N={N}, media={mu:.3f} ({SSD:.3f}), mediana={med:.3f} e CV={VC:.3f}"

### Quais estimadores variam com N = 50?

In [None]:
N=50
jogo = np.random.binomial(n, p, N)

mu  = np.mean(jogo)
med = np.median(jogo)
# sample standard deviation - desvio padrão amostral
SSD = np.std(jogo)
# coeficiente de variação
VC = SSD/mu

#-- media = valor esperado
#-- moeda justa: 50% cara, 50% coroa
f"N={N}, media={mu:.3f} ({SSD:.3f}), mediana={med:.3f} e CV={VC:.3f}"

### O que se conclui? 

### Vamos jogar 100 vezes 3 moedas simultaneamente

Espaço amostral
```
8 maneiras de cair moedas: 2**3 = 8

C C C  
C C K
C K C
C K K
K C C  
K C K
K K C
K K K 
```

### Frequência:
  - n caras e m coroas

```
C C C                1 x 3 caras
C C K, C K C, K C C  3 x 2 caras
C K K, K C K, K K C  3 x 1 cara
K K K                1 x 0 caras
```

### Resultados:
   - 3 caras  = 0
   - 2 caras  = 1
   - 1 caras  = 2
   - 0 caras  = 3

In [None]:
n  = 3    # quantas vezes posso acertar (total de moedas - acertar CCC, errar KKK)
p  = 0.5  # dado não viciado p(cara) = p(coroa) = .5
N  = 10    # quantas vezes

jogo = np.random.binomial(n, p, N)

jogo

In [None]:
def o_que_deu(x):
    if x==0:
        ret = 'CCC' # 3 caras
    elif x==1:
        ret = 'CCK' # 2 caras e 1 coroa
    elif x==2:
        ret = 'CKK' # 1 cara e 2 coroas
    else:
        ret = 'KKK' # 0 caras e 3 coroas

    return ret

In [None]:
for i, x in enumerate(jogo):
    moedas = o_que_deu(x)
    print(f"Jogada {i+1} deu {moedas}")

### Como fica o histograma de frequências? O que significa?
### Porque vai somente até 3?
### Porque o valor de CCK e CKK têm frequências mais altas?

não vamos encontrar mais uma distribuição uniforme   
e sim uma distribuição mono-modal

In [None]:
n  = 3    # quantas vezes posso acertar (total de moedas - acertar CCC, errar KKK)
p  = 0.5  # dado não viciado p(cara) = p(coroa) = .5
N  = 10   # quantas vezes

jogo = np.random.binomial(n, p, N)

title = f"Gráfico de Frequência: jogando {n} moedas simultaneamente {N} vezes"

fig = plt.figure(figsize=(7,4))

ax = sns.histplot(jogo, bins=n+1,  color="lightblue")

ax.set_title(title)
ax.set_xticks([0, 1, 2, 3])
ax.set_xticklabels(["CCC", "CCK", "CKK", "KKK"]);

In [None]:
jogo

In [None]:
n  = 3      # quantas vezes posso acertar (total de moedas - acertar CCC, errar KKK)
p  = 0.5    # dado não viciado p(cara) = p(coroa) = .5
N = 100000  # quantas vezes

jogo = np.random.binomial(n, p, N)

title = f"Gráfico de Frequência: jogando {n} moedas simultaneamente {N} vezes"

fig = plt.figure(figsize=(7,4))

ax = sns.histplot(jogo, bins=n+1, color="lightblue")

ax.set_title(title)
ax.set_xticks([0, 1, 2, 3])
ax.set_xticklabels(["CCC", "CCK", "CKK", "KKK"]);

In [None]:
len(jogo)

### De gráfico de Frequências para Distribuição 

In [None]:
title = f"Distribuição binomial: jogando {n} moedas simultaneamente {N} vezes\nRepare que a soma das barras = 1"

fig = plt.figure(figsize=(7,4))

# distribuição = stat="probability"
ax = sns.histplot(jogo, bins=n+1,  stat="probability", color="lightblue")

ax.set_title(title)
ax.set_xticks(np.arange(n+1))
ax.set_xticklabels(["CCC", "CCK", "CKK", "KKK"]);

### Jogando 4 moedas!

#### É mais fácil acertar 2 caras + 2 coroas ou 4 caras?
#### É mais fácil acertar 4 coroas ou 4 caras?
  - é igual se moedas justas (gráfico é simétrico)
  - é diferente se moedas viciadas (gráfico se torna assimétrico)


In [None]:
n  = 4      # quantas vezes posso acertar (total de moedas - acertar CCCC, errar KKKK)
p  = 0.5    # dado não viciado p(cara) = p(coroa) = .5
N = 100000  # quantas vezes

jogo = np.random.binomial(n, p, N)

title = f"Gráfico de Frequência: jogando {n} moedas simultaneamente {N} vezes"

fig = plt.figure(figsize=(7,4))

ax = sns.histplot(jogo, bins=n+1,  color="lightblue")

ax.set_title(title)
ax.set_xticks(np.arange(n+1))
ax.set_xticklabels(["CCCC", "CCCK", "CCKK", "CKKK", "KKKK"]);

### Moeda com viés

In [None]:
n  = 4      # quantas vezes posso acertar (total de moedas - acertar CCCC, errar KKKK)
p  = 0.7   # dado viciado p(cara)=(1-p)  - p(coroa) = .7
N = 100000  # quantas vezes

jogo = np.random.binomial(n, p, N)

title = f"Gráfico de Frequência: jogando {n} moedas simultaneamente {N} vezes"

fig = plt.figure(figsize=(7,4))

ax = sns.histplot(jogo, bins=n+1,  color="lightblue")

ax.set_title(title)
ax.set_xticks(np.arange(n+1))
ax.set_xticklabels(["CCCC", "CCCK", "CCKK", "CKKK", "KKKK"]);

veja: https://seaborn.pydata.org/generated/seaborn.histplot.html

### Gere um histograma da distribuição do jogo de moedas
  - Não usaremos KDE
  - KDE = kernel distribution estimation -> SÓ FUNCIONA PARA DISTRIBUIÇÕES CONTINUAS
  - Vamos simular com ax.plot(x, pmf, marker="o", linewidth=2)
  - logo KDE = false

In [None]:
from scipy.stats import binom

n = 3    # quatro moedas - n = numero de jogadas simultâneas
p = 0.5  # dado não viciado p(cara) = p(coroa) = .5
N = 10000
jogo = np.random.binomial(n, p, N)

mu  = np.mean(jogo)
SSD = np.std(jogo)
VC = SSD/mu

title = f"Gráfico de Frequência + KDE-like: jogando {n} moedas simultaneamente {N} vezes"
title += f"\nmedia {mu:.2f} ({mu:.2f}) e Coef.Variação (CV) {VC*100j:.2f}%"

fig = plt.figure(figsize=(7,4))

ax = sns.histplot(jogo, bins=n+1,  stat="probability", color="lightblue")

x = np.arange(0, n+1)
pmf = binom.pmf(x, n, p)
ax.plot(x, pmf, marker="o", linewidth=2)

ax.set_title(title)
ax.set_xticks(np.arange(n+1))
ax.set_xticklabels(["CCC", "CCK", "CKK", "KKK"]);

In [None]:
n = 4    # quatro moedas - n = numero de jogadas simultâneas
p = 0.5  # dado não viciado p(cara) = p(coroa) = .5
N = 10000
jogo = np.random.binomial(n, p, N)

mu  = np.mean(jogo)
SSD = np.std(jogo)
VC = SSD/mu

title = f"Gráfico de Frequência + KDE-like: jogando {n} moedas simultaneamente {N} vezes"
title += f"\nmedia {mu:.2f} ({mu:.2f}) e Coef.Variação (CV) {VC*100j:.2f}%"

fig = plt.figure(figsize=(7,4))

ax = sns.histplot(jogo, bins=n+1, stat='probability', color="lightblue")

x = np.arange(0, n+1)
pmf = binom.pmf(x, n, p)
ax.plot(x, pmf, marker="o", linewidth=2)


ax.set_title(title)
ax.set_xticks(np.arange(n+1))
ax.set_xticklabels(["CCCC", "CCCK", "CCKK", "CKKK", "KKKK"]);

### O que acontece se forem 50 moedas? (... ou 50 genes)

#### A distribuição discreta se aproxima da contínua?

In [None]:
from scipy.stats import norm

n = 50   # genes / alelos
p = 0.5  # gene on/off p=0.5
N = 10000
jogo = np.random.binomial(n, p, N)

mu  = np.mean(jogo)
SSD = np.std(jogo)
VC = SSD/mu

title = f"Distribuição binomial: jogando {n} moedas simultaneamente {N} vezes"
title += f"\nmedia {mu:.2f} ({mu:.2f}) e Coef.Variação (CV) {VC*100j:.2f}%"

fig = plt.figure(figsize=(10,6))

ax = sns.histplot(jogo, bins=n+1, stat="count", color="lightblue")

plt.axvline(mu, color='red')
plt.axvline(mu+2*SSD, color='navy')
plt.axvline(mu-2*SSD, color='navy')

ax.set_title(title)
ax.set_xticks(np.arange(0, n+1, step=5));

### De acordo com que mais moedas (genes) são jogadas:
  - A média é sempre o valor central (moedas justas)
  - Sobre a média há a maior frequência (moda) - máxima entropia
  - O gráfico (discreto) fica parecido com uma "distribuição normal" (que é contínua)
  - Fica mais claro entender o que é desvio padrão
  - A probabilidade de muitas caras (xtick de 12 ou menos) --> tende a zero
  - A probabilidade de muitas corais (xtick de 38 ou mais) --> tende a zero

In [None]:
from scipy.stats import norm

n = 50   # genes / alelos
p = 0.5  # gene on/off p=0.5
N = 10000
jogo = np.random.binomial(n, p, N)

mu  = np.mean(jogo)
SSD = np.std(jogo)
VC = SSD/mu

title = f"Distribuição binomial + Normal sobreposta: jogando {n} moedas simultaneamente {N} vezes"
title += f"\nmedia {mu:.2f} ({mu:.2f}) e Coef.Variação (CV) {VC*100j:.2f}%"

fig = plt.figure(figsize=(10,6))

ax = sns.histplot(jogo, bins=n+1, stat="count", color="lightblue")
ax.set_title(title)
ax.set_xticks(np.arange(0, n+1, step=5));

plt.axvline(mu, color='red')
plt.axvline(mu+2*SSD, color='navy')
plt.axvline(mu-2*SSD, color='navy')

#----------- sobrepondo uma distribuição normal -------------
x = np.linspace(0, n, 500)

# normal pdf scaled to counts
normal_pdf = norm.pdf(x, mu, SSD) * N * 1  # bin width = 1

ax.plot(x, normal_pdf, color="navy", linewidth=2, label="Normal approximation")
