### Simulação Numérica - introdução

In [None]:
import os, sys, math
import numpy as np
import pandas as pd
import seaborn as sns
from scipy import stats

from statistics import mode

import matplotlib.pyplot as plt # matplotlib e seu alias plt
import matplotlib as mpl
%matplotlib inline

### O que é frequência?
  - é a contagem de eventos
 
### Vamos jogar 1 vez o dado 
  - Um dado tem 6 faces: 1 a 6
  - O Python sempre começa em zero (nas listas)
  - Logo, temos que forçar para que comece em 1 e termina em 7-1

In [None]:
# gerando uma lista de dados para entender
# isto não é um dado
np.arange(6)

In [None]:
# isto não é um dado
np.arange(7)

In [None]:
# isto não é um dado
np.arange(1,6)

### Isto é um dado

In [None]:
np.arange(1,7)

### Amostrando 'jogar dados'
#### dê vários \<ctrl>+\<enter>

In [None]:
dado = np.random.randint(1, 7)
dado

### Amostrando 'jogar dados' 5 vezes (loop ~ laço)

In [None]:
for i in range(5):
    dado = np.random.randint(1, 7)
    print(dado)

### Qual a media esperada ao se jogar dados?

  - dado não viciado
  - todos os lados caem com a mesma change

In [None]:
# se todas as faces tem a mesma probabilidade de sair --> dado justo (fair die)
np.sum([1,2,3,4,5,6])/6

### Vamos jogar o dado 10 vezes

In [None]:
# criar uma sequencia de numeros de 1 a 6
np.arange(1, 7)

### Amostrar 10x um dado

In [None]:
%time

lista = []
for i in [1,2,3,4,5,6,7,8, 9, 10]:
    dado = np.random.randint(1, 7)
    lista.append(dado)
    
lista, np.mean(lista), np.median(lista), np.std(lista)

### Controlar tempos com %time

In [None]:
%time

lista = []
for i in [1,2,3,4,5,6,7,8, 9, 10]:
    dado = np.random.randint(1, 7)
    lista.append(dado)
    
f"media={np.mean(lista):.1f}  mediana={np.median(lista):.1f}, desvio padrão amostral(SSD)={np.std(lista):.1f} - dados {lista}"

### Aumentar o N do loop para analisar melhor os tempos

In [None]:
%time

N=100000

lista = []
# loop com np.arange
for i in np.arange(N):
    dado = np.random.randint(1, 7)
    lista.append(dado)

f"media={np.mean(lista):.1f} mediana={np.median(lista):.1f}, desvio padrão amostral(SSD)={np.std(lista):.1f}"

### Temos em %%time

  - user: usuário -> tempo utilizado para processar o comando na célula
  - sys: sistema -> tempo gasto para o sistema operacional fazer a chamada dos comandos
  - total: tempo do usuário + sistema
  - Wall time: tempo gasto desde o começo até o fim da operação (sistema operacional faz outras tarefas)


### Usando um iterator

In [None]:
%time

lista = []
# loop com iterator range
for i in range(N):
    dado = np.random.randint(1, 7)
    lista.append(dado)
    
f"media={np.mean(lista):.1f}, mediana={np.median(lista):.1f}, desvio padrão amostral(SSD)={np.std(lista):.1f}"

### Usando comprehension

In [None]:
%time

# comprehension com loop
lista =  [np.random.randint(1, 7) for i in range(N)]

f"media={np.mean(lista):.1f}, mediana={np.median(lista):.1f}, desvio padrão amostral(SSD)={np.std(lista):.1f}"

### Usando melhor randint

In [None]:
%time

# usando direto a função randint (np.random)
lista =  np.random.randint(1, 7, size=N)

f"media={np.mean(lista):.1f}, mediana={np.median(lista):.1f}, desvio padrão amostral(SSD)={np.std(lista):.1f}"

### Jogar mais vezes --> aproximar do valor verdadeiro
#### Loop dentro de um Loop (laço)
  - Experimente N = 10, 100, 1000, 10000

In [None]:
%time

for N in [10, 100, 1000, 10000]:

    lista =  np.random.randint(1, 7, size=N)
    stri = f"media={np.mean(lista):.1f}  mediana={np.median(lista):.1f}, desvio padrão amostral(SSD)={np.std(lista):.1f}"
    print(f'{N:5} -->', stri)
    

### Observações sutis:
  - Para N pequeno (N) a média pode até ser encontrada, mas o SSD é sempre subestimando
  - GUARDEM ESTA INFORMAÇÃO

### Aumentando a precisão

In [None]:
%time

for N in [10, 100, 1000, 10000, 100000, 1000000]:

    lista =  np.random.randint(1, 7, size=N)
    stri = f"media={np.mean(lista):.3f}  mediana={np.median(lista):.3f}, desvio padrão amostral(SSD)={np.std(lista):.3f}"
    print(f'{N:7} -->', stri)
    

### Discutiremos MEDIANA nas próximas sessões

### O que acontece com a media e desvio padrão quando N é pequeno?

### O que acontece com a media e desvio padrão quando N é grande?

### População

  1. media é $\mu$ --> media populacional
  2. desvio padrão é $\sigma$ --> desvio padrão populacional

### Amostragem

  1. media é mu --> media amostral
  2. desvio padrão é SSD --> desvio padrão amostral (sample standard deviation)

### Perguntas

1. O que acontece com a media e o desvio padrão quando N é pequeno?
    * A media é qualquer valor (randômica, se N < 10) ou se aproxima da media populacional (com erros)
    * O SSD fica sempre subestimando  
2. O que acontece com a media e o desvio padrão quando N é muito grande?
    * A media é qualquer tende à media populacional ($\mu$)
    * O SSD tende ao desvio padrão populacional ($\sigma$)
 