### Estatística descritiva
  
Gráficos:  
  - Frequência
  - Distribuições


In [None]:
import os, sys, math
import numpy as np
import pandas as pd
import seaborn as sns
from scipy import stats

from statistics import mode

import matplotlib.pyplot as plt # matplotlib e seu alias plt
import matplotlib as mpl
%matplotlib inline

### Base da estatística
  - lidar com números randômicos
  - e aumentar ao maximo (qdo possivel) o número amostral
  
### Uma das `mágias da estatítica`
  - é responder qual é o menor número amostral que representa bem uma dada população
  - ou seja, minimiza o erro de seus estimadores ou `valores esperados`

### O que é frequência?
  - é a contagem de eventos

### Vamos jogar 1 vez o dado
  - dado tem 6 faces: 1 a 6
  - python começa em 1 e termina em 7-1

In [None]:
# dê vários ctrl+enter
dado = np.random.randint(1, 7)
dado

### Qual a media esperada do dado

  - dado não viciado
  - todos os lados caem com a mesma change

In [None]:
np.sum([1,2,3,4,5,6])/6

### Vamos jogar o dado 10 vezes

In [None]:
# criar uma sequencia de numeros de 1 a 10
np.arange(1, 11)

In [None]:
lista = []
for i in [1,2,3,4,5,6,7,8, 9, 10]:
    dado = np.random.randint(1, 7)
    lista.append(dado)

lista

In [None]:
# tirar a media, mediana, desvio padrao - desta sequencia de jogar 10 x dado
np.mean(lista), np.median(lista), np.std(lista)

In [None]:
# jogar outra vez -- não quero saber da variavel i
lista = []
for _ in [1,2,3,4,5,6,7,8, 9, 10]:
    dado = np.random.randint(1, 7)
    lista.append(dado)

lista

In [None]:
# melhor com np.arange - mas ainda não correto
lista = []
for _ in np.arange(1,11):
    dado = np.random.randint(1, 7)
    lista.append(dado)

lista

In [None]:
# melhor com range - range é um iterator - mais rápido que lista e arrays
lista = []
for _ in range(1,11):
    dado = np.random.randint(1, 7)
    lista.append(dado)

lista

In [None]:
# tirar a media, mediana, desvio padrao - desta sequencia de jogar 10 x dado
np.mean(lista), np.median(lista), np.std(lista)

### Jogar mais vezes --> aproximar do valor verdadeiro

In [None]:
lista = []; N=10000
for _ in range(1, N):
    dado = np.random.randint(1, 7)
    lista.append(dado)

mu = np.mean(lista)
med = np.median(lista)
mod = mode(lista)
SSD = np.std(lista)

f"media = {mu:.2f}  median = {med:.2f}  moda = {mod:.2f} e  SSD = {SSD:.2f}"

### Podemos usar np.arange()

In [None]:
np.arange(1,11)

### Similar ao range - iterator

In [None]:
lista = []
# jogar 10 x
for _ in range(1,11):
    dado = np.random.randint(1, 7)
    lista.append(dado)

lista

### Frequência é a contagem de eventos dado um experimento
### se jogar um dado 10 vezes qual a frequência de cada número?### Vamos jogar 10 vezes este dados

### Não preciso de um Loop (neste caso)
  - A função randint tem size (tamanho, quantidade de vezes)

In [None]:
N = 10
# na função randint - posso colocar qtas vezes quero jogar = size
dados = np.random.randint(1, 7, size=N)
dados

### Vamos jogar 1000 vezes este dados. Qual a diferença?

In [None]:
N = 1000
# na função randint - posso colocar qtas vezes quero jogar = size
dados = np.random.randint(1, 7, size=N)

mu = np.mean(dados)
med = np.median(dados)
mod = mode(dados)
SSD = np.std(dados)

f"media = {mu:.2f}  median = {med:.2f}  moda = {mod:.2f} e  SSD = {SSD:.2f}"

### Para não repetir código vamos criar um método (função)

In [None]:
def mostra_estatistica(lista: list, verbose:bool=False):
    mu = np.mean(lista)
    med = np.median(lista)
    mod = mode(lista)
    SSD = np.std(lista)

    stri = f"media = {mu:.2f}  median = {med:.2f}  moda = {mod:.2f} e  SSD = {SSD:.2f}"
    if verbose: print(stri)

    return mu, med, mod, SSD, stri

#### Usando o método e conferindo

In [None]:
N = 1000
# na função randint - posso colocar qtas vezes quero jogar = size
dados = np.random.randint(1, 7, size=N)

mu, med, mod, SSD, stri = mostra_estatistica(dados, verbose=True)

f"media = {mu:.2f}  median = {med:.2f}  moda = {mod:.2f} e  SSD = {SSD:.2f}"

### Se jogarmos um dado aleatorimente 'infinitas' vezes

<br>
<font size="5">
  - a media = valor esperado (E)

<br>
   
\<x> = E[x] = media de x = $\frac{\sum_{i=1}^n{x_i}}{n}$</font>

In [None]:
np.sum([1,2,3,4,5,6])/6

### A media tem quer ser 3.5

In [None]:
N = 100000
dados = np.random.randint(1, 7, size=N)

mu, med, mod, SSD, stri = mostra_estatistica(dados, verbose=False)

f"media = {mu:.2f}  median = {med:.2f}  moda = {mod:.2f} e  SSD = {SSD:.2f}"

In [None]:
N = 100000
dados = np.random.randint(1, 7, size=N)

mu, med, mod, SSD, stri = mostra_estatistica(dados, verbose=True)

### Qual a frequência?

  - usando plt.axhline()

In [None]:
120/6

In [None]:
N = 120
val_esperado = (1+6)/2
freq_esperada = N/6

dados = np.random.randint(1, 7, size=N)
mu, med, mod, SSD, stri = mostra_estatistica(dados, verbose=False)

title = f"Gráfico de Frequências Uniforme: dado de 6 faces não viciado com {N} jogadas"
title += f"\n{stri} - valor esperado {val_esperado}"
title += "\ncom poucas jogadas o erro é muito grande, aleatório"

plt.figure(figsize=(10,7))
plt.hist(dados, bins=6)
plt.axhline(freq_esperada, color='black')
plt.title(title)
plt.xticks([1,2,3,4,5,6]);

In [None]:
N = 1200
val_esperado = (1+6)/2
freq_esperada = N/6

dados = np.random.randint(1, 7, size=N)
mu, med, mod, SSD, stri = mostra_estatistica(dados, verbose=False)

title = f"Gráfico de Frequências Uniforme: dado de 6 faces não viciado com {N} jogadas"
title += f"\n{stri} - valor esperado {val_esperado}"
title += "\ncom mais jogadas o erro continua grande, aleatório"

plt.figure(figsize=(10,7))
plt.hist(dados, bins=6)
plt.axhline(freq_esperada, color='black')
plt.title(title)
plt.xticks([1,2,3,4,5,6]);

### Aumentando-se o número de jogadas
  - aumentando o numero amostral o erro da media, mediana (estatistica) tende a zero
  
### Aproxima-se de uma gráfico de frequências UNIFORME?

In [None]:
N = 120000
val_esperado = (1+6)/2
freq_esperada = N/6

dados = np.random.randint(1, 7, size=N)
mu, med, mod, SSD, stri = mostra_estatistica(dados, verbose=False)

title = f"Gráfico de Frequências Uniforme: dado de 6 faces não viciado com {N} jogadas"
title += f"\n{stri} - valor esperado {val_esperado}"
title += f"\ncom muitas jogadas o erro vai desaparecendo e a freq aproximando-se de {int(N/6)}"

plt.figure(figsize=(10,7))
plt.hist(dados, bins=6)
plt.axhline(freq_esperada, color='black')
plt.title(title)
plt.xticks([1,2,3,4,5,6]);