### Frequência
  
Gráficos:  
  - Histograma em Matplotlib, Seaborn e Plotly

In [None]:
import os, sys, math
import numpy as np
import pandas as pd
import seaborn as sns
from scipy import stats

from statistics import mode

import matplotlib.pyplot as plt # matplotlib e seu alias plt
import matplotlib as mpl
%matplotlib inline

### Frequência é a contagem de eventos dado um experimento

### se jogar um dado 10 vezes qual a frequência de cada número?

  - Vamos jogar 10 vezes este dados
  - A função randint tem size (tamanho, quantidade de vezes)

In [None]:
N = 10
# na função randint - posso colocar qtas vezes quero jogar = size
dados = np.random.randint(1, 7, size=N)

f"media={np.mean(dados):.1f}, mediana={np.median(dados):.1f}, desvio padrão amostral(SSD)={np.std(dados):.1f}"

### Vamos jogar 1000 vezes este dados. Qual a diferença?

In [None]:
N = 1000
# na função randint - posso colocar qtas vezes quero jogar = size
dados = np.random.randint(1, 7, size=N)

f"media={np.mean(dados):.1f}, mediana={np.median(dados):.1f}, SSD={np.std(dados):.1f}"

### Se jogarmos um dado aleatorimente 'infinitas' vezes

<br>
<font size="5">
  - a media = valor esperado (E)

<br>
   
\<x> = E[x] = media de x = $\frac{\sum_{i=1}^n{x_i}}{n}$</font>

In [None]:
np.sum([1,2,3,4,5,6])/6

### A media tem quer ser 3.5

### Vamos jogar 'infinitas' vezes este dados.

In [None]:
# 'infinita' ~ N muito grande
N = 100000
dados = np.random.randint(1, 7, size=N)

f"media={np.mean(dados):.3f}, mediana={np.median(dados):.3f}, SSD={np.std(dados):.3f}"

### Qual a frequência?

In [None]:
N = 100
dados = np.random.randint(1, 7, size=N)

plt.figure(figsize=(8,4))
plt.hist(dados, bins=6)
print("Com poucas jogadas, o erro é muito grande, aleatório")

title = f"Distribuição Uniforme de um dado de 6 faces não viciado\ncom {N} jogadas"
plt.title(title)
plt.xticks([1,2,3,4,5,6])

### Não retornar valores: coloque um ; ao final

In [None]:
N = 120
dados = np.random.randint(1, 7, size=N)

plt.figure(figsize=(8,4))
plt.hist(dados, bins=6)
print("Com poucas jogadas, o erro é muito grande, aleatório")

title = f"Distribuição Uniforme de um dado de 6 faces não viciado\ncom {N} jogadas"
plt.title(title)
plt.xticks([1,2,3,4,5,6]);

### Aumentando o N, erros diminuem

In [None]:
N = 12000
dados = np.random.randint(1, 7, size=N)

plt.figure(figsize=(8,4))
plt.hist(dados, bins=6)
print("Com muitas jogadas, o erro diminui e o resultado não é randômico, e sim sistemático")

title = f"Distribuição Uniforme de um dado de 6 faces não viciado\ncom {N} jogadas"
plt.title(title)
plt.xticks([1,2,3,4,5,6]);

### Aumentando-se o número de jogadas
  - aumentando o numero amostral o erro da media, mediana (estatistica) tende a zero
  
### Aproxima-se de uma gráfico de frequências UNIFORME?

In [None]:
N = 120000
dados = np.random.randint(1, 7, size=N)

plt.figure(figsize=(8,4))
plt.hist(dados, bins=6)
print("Com muitas jogadas, o erro diminui e o resultado não é randômico, e sim sistemático")

title = f"Distribuição Uniforme de um dado de 6 faces não viciado\ncom {N} jogadas"
plt.title(title)
plt.xticks([1,2,3,4,5,6]);

### Vamos melhorar o tamanho da figura
### Repare que plt.hist retorna dados

In [None]:
N = 120000
dados = np.random.randint(1, 7, size=N)

plt.figure(figsize=(10,6))
plt.hist(dados, bins=6)
print("Com muitas jogadas, o erro diminui e o resultado não é randômico, e sim sistemático")

xticks = np.arange(1, 7)

plt.title(title, fontsize=16)
plt.xticks(xticks)
plt.xlabel("Face do dado", fontsize=14)
plt.ylabel("Frequência", fontsize=14);

### ggplot like

In [None]:
N = 120000
dados = np.random.randint(1, 7, size=N)

plt.figure(figsize=(10,6))
plt.hist(dados, bins=6)
print("Com muitas jogadas, o erro diminui e o resultado não é randômico, e sim sistemático")

xticks = np.arange(1, 7)

plt.title(title, fontsize=16)
plt.xticks(xticks)
plt.xlabel("Face do dado", fontsize=14)
plt.ylabel("Frequência", fontsize=14)

plt.grid()

plt.style.use('ggplot');

### Em Seaborn

In [None]:
import seaborn as sns

In [None]:
N = 120000
dados = np.random.randint(1, 7, size=N)

plt.figure(figsize=(10, 6))
sns.histplot(dados, bins=6, discrete=True, stat="count")

print("Com muitas jogadas, o erro diminui e o resultado não é randômico, e sim sistemático")

title = (
    "Distribuição Uniforme de um dado de 6 faces não viciado\n"
    f"com {N} jogadas"
)

xticks = np.arange(1, 7)

plt.title(title, fontsize=16)
plt.xticks(xticks)
plt.xlabel("Face do dado", fontsize=14)
plt.ylabel("Frequência", fontsize=14);

### Plotly

In [None]:
import plotly.express as px

In [None]:
N = 120000
dados = np.random.randint(1, 7, size=N)

title = f"Distribuição Uniforme de um dado de 6 faces não viciado<br>com {N} jogadas"

fig = px.histogram(dados, nbins=6, title=title, 
                   labels={"value": "Face do dado", "count": "Frequência"}
                  )

# Força bins discretos exatamente em 1..6
fig.update_traces(
    xbins=dict(start=0.5, end=6.5, size=1)
)

fig.update_layout(
    height=600,
    bargap=0.05,
    xaxis=dict(
        tickmode="array",
        tickvals=[1, 2, 3, 4, 5, 6]
    ),
    showlegend=False
)

print("Com muitas jogadas, o erro diminui e o resultado não é randômico, e sim sistemático")

fig.show()