# Simulação de Monte Carlo 

> (* baseano no livro de bases computacionais da ciência, seção 8.5.1)

No  colégio,  todos  aprendemos  a  usar  a  constante  $\pi$  em  Geometria  para  calcular  a  área  de  figuras  geométricas,  por  exemplo.  Aprendemos,  também,  que  o  valor  da  constante é de 3,1415926535... Nesta prática, nosso objetivo é utilizar um modelo matemático simples para aproximar o valor de $\pi$, utilizando um método clássico de simulação computacional.

Há diversos métodos que nos permitem aproximar o aproximar de $\pi$ de maneira relativamente simples.  Um  destes  métodos  é  o  método  de  Monte  Carlo,  que  se  baseia  nas  propriedades dos números aleatórios . Como o projeto era secreto, os nomes dos estudos não podiam ser alusivos à bomba. Como a ideia por tráz do método de Monte Carlo é que uma simulação é repetida um grande número de vezes, para calcular probabilidades heuristicamente, tal como se, de fato, se registrassem os resultados reais em jogos de cassino, Monte Carlo foi o nome dado em homenagem ao bairro do principado de Mônaco, famoso pelos cassinos.

O  método  de  Monte  Carlo  usa  números  aleatórios  para  calcular  propriedades  de  interesse.  Uma  distribuição  de  números  aleatórios  pode  ser  definida,  de  maneira  simples, como um conjunto de números no qual nenhum número tem maior chance de aparecer do que outro. Por incrível que pareça, é algo bem difícil sortear números aleatórios  (mesmo  com  um  computador!).  Alguns  pesquisadores  já  notaram,  por  exemplo, que, se pedirmos a um conjunto de pessoas que digam um número qualquer de maneira “aleatória”, os números que obteremos dificilmente passarão num teste estatístico  que  comprove  que  o  conjunto  realmente  trata-se  de  um  conjunto  de  números aleatórios. Contudo, existem rotinas computacionais bastante eficientes e já estabelecidas para gerar sequências de números aleatórios.

As aplicações do método de Monte Carlo são vastas. Alguns exemplos incluem:

- Ciências físicas: simulações de difusão de calor, simulações de dinâmica molecular, problemas de muitos corpos (many-body) em sistemas quânticos, etc.; 
- Engenharia: Engenharia microeletrônica (análise de variações correlacionadas e não-correlacionadas em circuitos digitais e analógicos), localização de robôs autônomos, etc.; 
- Biologia  Computacional:  Dinâmica  de  proteínas  e  membranas,  inferências  baesianas na construção de árvores filogenéticas, etc.; 
- Matemática: Métodos de integração, otimização, etc


## Simulando o valor de $\pi$

Para  compreender  o  uso  do  método  de  Monte  Carlo no cálculo de $\pi$,  vamos  primeiro  desenvolver  algumas relações geométricas que nos levarão a uma equação para o valor da constante $\pi$. Sabemos que a área de uma circunferência de raio $r$ é dada pela Equação 

$$A_{circ} = \pi r^2$$

Sabemos, ainda, que a área de um quadrado de lado $l$ é dada pela 

$$A_{quad} = l^2$$

Agora, considere uma situação na qual temos um quadrado com uma circunferência inscrita no quadrado, como mostrado na Figura:

<img src="https://blog.professorferretto.com.br/wp-content/uploads/2019/08/raio-da-circunferencia-inscrita-no-quadrado.png" width="300" height="300">

A circunferência tem um raio $r$, e portanto  um diâmetro de $2r$. Alé disso, como a circunferência está inscrita no quadrado, temos que o lado é igual ao diâmetro do círculo, ou seja $l = 2r$. Dessa maneira, podemos reescrever a área do quadrado em função de $r$:

$$A_{quad} = l^2 = (2r)^2 = 4r^2$$

Neste ponto, se calcularmos a razão entre a área da circunferência e a área do quadrado, teremos a Equação 

$$\frac{A_{circ}}{A_{quad}} = \frac{\pi r^2}{4r^2}$$

Rearranjando os termos e isolando $\pi$ do lado esquerdo da equação teremos, finalmente, a Equação 

$$ \pi = 4\frac{A_{circ}}{A_{quad}} $$

que usaremos para calcular o aproximar o valor de $\pi$. Essa equação nos mostra que é possível saber precisamente o valor de $\pi$, bastando para isso calcular a razão entre a área da circunferência e a área do quadrado, e multi-plicar esta razão por 4. Contudo, para sabermos a área da circunferência, precisamos saber o valor da constante $\pi$. Como resolver, então, este círculo vicioso? 

Uma possível solução do problema está no método de Monte  Carlo, que  tem como fundamento o uso de números aleatórios para a estimativa de parâmetros de interesse. A ideia consiste em aproximar a razão $\frac{A_{circ}}{A_{quad}}$ simulando pontos aleatórios dentro do quadrado, como mostrado na figura a seguir

<img src="https://www.researchgate.net/profile/Yiqun_Chen19/publication/341965356/figure/fig2/AS:899322442964993@1591426587361/Visualization-of-the-Monte-Carlo-approximation-of-Pi-p-i-i-i-i-ii-i-ii.ppm">

Se os pontos forem aleatóriamente sorteados dentro do quadrado, temos que:

$$ \frac{N_{circ}}{N_{quad}} \approx \frac{A_{circ}}{A_{quad}}$$

em que $N_{circ}$ e $N_{quad}$ correpondem ao número de pontos que estão dentro do círculo e o número total de pontos dentro do quadrado (dentro e fora do círculo). Dessa maneira, podemos aproximar o valor de $\pi$ por:

$$ \pi \approx 4\frac{N_{circ}}{N_{quad}} $$

Para tornar os cálculos mais simples, vamos assumir que o quadrado tenha um lado de tamanho $l=2r=1$. Logo, teremos que o raio da circunferência será $r=\frac{1}{2}$. Desta maneira, podemos imaginar a base do quadrado como um eixo $x$ (abscissa) de um sistema de coordenadas cartesianas e a altura do quadrado como um eixo $y$. Utilizando o computador, nós sortearemos agora alguns pares de números aleatórios no intervalo [0,1]. Cada par de números representará as coordenadas $x$ e $y$ de um ponto que pertence à área do quadrado. 

Vamos iniciar sorteando um par:




In [None]:
import random

x = random.random()
y = random.random()

Agora como sabemos se o ponto sorteado está ou não dentro do círculo? Como o circunferência está circuscrita no quarado, e estamos usando um quadrado de lado $l=1$, o centro da circunferência é o ponto $(0.5,0.5)$. Como o raio marca o limite da circunferênca, o ponto está dentro da circunferência se a distância entre o ponto sorteado e o centro for menor que o raio da circunferência. Podemos usar a função `distancia_euclideana`  para calcular essa distância:

In [None]:
import random
import math

def distancia_euclideana(x1, y1, x2, y2):
    dx = x2 - x1
    dy = y2 - y1
    dquadrado = dx**2 + dy**2
    distancia = math.sqrt(dquadrado)
    return distancia

      
x = random.random()
y = random.random()
print(x,y)

d = distancia_euclideana(0.5,0.5,x,y)

if d < 0.5:
    print("Ponto dentro do circunferência")

Agora podemos usar um laço para repetir o processo várias vezes. Além disso, precisamos contar quantos pontos estão dentro do círculo (e não apenas imprimir a mensagem). Para isso, vamos criar uma variável `Ncirc`, que incrementamos em 1 toda vez que o ponto sorteado está dentro do circulo:

In [None]:
import random
import math

def distancia_euclideana(x1, y1, x2, y2):
    dx = x2 - x1
    dy = y2 - y1
    dquadrado = dx**2 + dy**2
    distancia = math.sqrt(dquadrado)
    return distancia

Ncirc = 0
Nquad = 100

for i in range(Nquad):
    x = random.random()
    y = random.random()

    d = distancia_euclideana(0.5,0.5,x,y)

    if d < 0.5:
        Ncirc = Ncirc + 1

# valor de pi estimato
pi = 4 * Ncirc/Nquad

# erro absoluto com relação ao valor de math.pi
erro = abs(math.pi - pi)
print("O valor estimado de pi com",Nquad,"números sorteados é","%.5f"%pi,"e o erro é","%.5f"%erro)

## Repetindo as simulações

Como os pontos sorteados são aleatórios, diferentes execuções geram resultados diferentes para o valor de $\pi$. Vamos realizar 10 repetições dessa simulação usando um outro laço:

In [None]:
import random
import math

def distancia_euclideana(x1, y1, x2, y2):
    dx = x2 - x1
    dy = y2 - y1
    dquadrado = dx**2 + dy**2
    distancia = math.sqrt(dquadrado)
    return distancia

tot_sim = 10
for s in range(tot_sim):
    Ncirc = 0
    Nquad = 100
    for i in range(Nquad):
        x = random.random()
        y = random.random()

        d = distancia_euclideana(0.5,0.5,x,y)

        if d < 0.5:
            Ncirc = Ncirc + 1

    # valor de pi estimato
    pi = 4 * Ncirc/Nquad

    # erro absoluto com relação ao valor de math.pi
    erro = abs(math.pi - pi)

    print("O valor estimado de pi na simulação",(s+1),"com",Nquad,"números sorteados é","%.5f"%pi,"e o erro é","%.5f"%erro)

Vamos salvar o resultado das simulações em um arquivo para analisarmos depois. Para isso, vamos usar a blibliotecs `csv`, que nos permite salvar um arquivo para ser lido posteriormente com o `pandas`. Escrever em um arquivo é similar a usar o comando `print`. A diferença é que precisamos inicialmente abrir o arquivo, gravar as informações nele, e depois fechar o arquivo ao final.

In [None]:
import random
import math
import csv

def distancia_euclideana(x1, y1, x2, y2):
    dx = x2 - x1
    dy = y2 - y1
    dquadrado = dx**2 + dy**2
    distancia = math.sqrt(dquadrado)
    return distancia

tot_sim = 10

# criar e "abre" o aquivo para gravação
arquivo = open("simulacao1.csv",'w') 

# para formatar automaticamente o conteúdo como um csv
arquivocsv = csv.writer(arquivo, delimiter=',')

# cabeçalho
arquivocsv.writerow(["Simulação","Nquad","Ncirc","Pi","Erro"])

for s in range(tot_sim):
    Ncirc = 0
    Nquad = 100
    for i in range(Nquad):
        x = random.random()
        y = random.random()

        d = distancia_euclideana(0.5,0.5,x,y)

        if d < 0.5:
            Ncirc = Ncirc + 1

    # valor de pi estimato
    pi = 4 * Ncirc/Nquad

    # erro com relação ao valor de math.pi
    erro = abs(math.pi - pi)

    # escreve uma linha da simulação no arquivo
    arquivocsv.writerow([s+1,Nquad,Ncirc,pi,erro])

# fecha o arquivo
arquivo.close()

Agora podemos usar o `pandas` para ler o aquivo criado:

In [None]:
import pandas as pd

df = pd.read_csv("simulacao1.csv")
df.head()

e calcular a média das simulações e desvio padrão das simulalções, bem como algumas estatísticas descritivas do erro absoluto:

In [None]:
print("Média de pi das simulações",df['Pi'].mean())
print("Desvio padrão das simulações",df['Pi'].std())
print("Desvio padrão do erro absoluto das simulações",df['Erro'].std())
print("Máximo do erro absoluto das simulações",df['Erro'].max())
print("Mínimo do erro absoluto das simulações",df['Erro'].min())


In [None]:
import matplotlib.pyplot as plt

plt.plot(df['Simulação'],df['Pi'],'o')
plt.axhline(y=math.pi, color='r', linestyle='-',label='Math.pi')
plt.axhline(y=df['Pi'].mean(), color='b', linestyle='-.',label='Média Simulações')
plt.xlabel("Simulações")
plt.legend()
plt.show()

## Exercícios

1. Faça uma simulação com 50 repetições com 100 pontos sorteados a cada simulação. Salve o resultado em um arquivo chamadado "simulacao_50_100".
1. Faça uma simulação com 10 repetições com 500 pontos sorteados a cada simulação. Salve o resultado em um arquivo chamadado "simulacao_10_500".
1. Compare as estatísticas e os gráficos de cada simulação. O que você pode concluir ao respeito?


# Variando o número de pontos


Vamos agora fazer a simulação com diferentes valores de `Nquad`. Para isso, vamos adicionar mais um laço que percorre uma lista `Ns` com diferentes quantatidades de pontos a serem sorteados no quadrado. Vamos executar também um totoal de 100, e armazenar em uma arquivo chamado `simualacao2.csv`. 

In [None]:
import random
import math

def distancia_euclideana(x1, y1, x2, y2):
    dx = x2 - x1
    dy = y2 - y1
    dquadrado = dx**2 + dy**2
    distancia = math.sqrt(dquadrado)
    return distancia


# criar e "abre" o aquivo para gravação
arquivo = open("simulacao2.csv",'w') 

# para formatar automaticamente o conteúdo como um csv
arquivocsv = csv.writer(arquivo, delimiter=',')

# cabeçalho
arquivocsv.writerow(["Simulação","Nquad","Ncirc","Pi","Erro"])


Ns = [100,500,1000,5000,10000,50000,100000]
tot_sim=100

for Nquad in Ns:
    for s in range(tot_sim):
        Ncirc = 0

        for i in range(Nquad):
            x = random.random()
            y = random.random()

            d = distancia_euclideana(0.5,0.5,x,y)

            if d < 0.5:
                Ncirc = Ncirc + 1

        # valor de pi estimato
        pi = 4 * Ncirc/Nquad

        # erro absoluto com relação ao valor de math.pi
        erro = abs(math.pi - pi)

        # escreve uma linha da simulação no arquivo
        arquivocsv.writerow([s,Nquad,Ncirc,pi,erro])

arquivo.close()

Agora vamos carregar o arquivo de simualação, e analisar as variações:

In [None]:
import pandas as pd

df = pd.read_csv('simulacao2.csv')
df.sample(10)

Agora vamos fazer um gráfico de caixa (box plot), agrupando pelo número de pontos no quadrado (`Nquad`). Obvserve que, em geral, a mediana (linha central do gráfico de caixa) é bem próxima do valor de $\pi$ da biblioteca `math`. Observe também que, a medida que o número de pontos sorteados dentro do quadrado aumenta, a variação em torno do valor de $\pi$ diminui:

In [None]:
df.boxplot('Pi',by='Nquad')
plt.axhline(y=math.pi, color='r', linestyle='-',label='Math.pi')
plt.legend()

Podemos observar esse padrão também calculando as estatíticas descritivas do valor aproximado de $\pi$, agrupado pelo número de pontos dentro do quadrado (`Nquad`)

In [None]:
estatistica = df.groupby('Nquad')['Pi'].describe()
estatistica

e no gráfico dos valores médio, mínimo e máxi de `Pi`, agrupados por `Nquad` 

In [None]:
estatistica['mean'].plot(label='Média')
estatistica['max'].plot(label='Máximo')
estatistica['min'].plot(label='Máximo')
plt.legend()

Podemos calcular a correlação entre o valor mínimo (`estatistica['min']`) é máximo (`estatistica['max']`)dessa tabela estatística:

In [None]:
print(estatistica['max'].corr(estatistica['min']))

Você consegue interpretar esse resultado? O que isso quer dizer?

E se calcularmos a correlação do mínimo e máximo com a média (`estatistica['mean']`):

In [None]:
print(estatistica['mean'].corr(estatistica['min']))
print(estatistica['mean'].corr(estatistica['max']))

E a correlação do número de pontos dentro do quadrado  e a o desvio padrão (`estatistics['std']`):

Como agrupamos por `Nquad`, essa coluna é o índice da tabela. Portanto, podemos acessá-la por `estatistica.index`. Para poder calcular a correlação, primeiro copiamos `estatistica.index` para uma coluna chama `Nquad`, e depois calculamos a correlação:

In [None]:
estatistica['Nquad'] = estatistica.index
estatistica['Nquad'].corr(estatistica['std'])

In [None]:
df.groupby('Nquad')['Erro'].describe()


## Exercícios

1. O comando a seguir agrupa os resultados pelo número de pontos sorteados no quadrado, mas calcula as estatítiscas do `Erro` ao invés do valor de `Pi`
```python
estatistica_erro = df.groupby('Nquad')['Erro'].describe()
``` 
  a. Faça um gráfico da média, mínimo e máximo do `Erro`, agrupado por `Nquado`, usando a tabela `estatistica_erro`.
  b. Usando `estatistica_erro`, calcule a correlação entre:
      - A média do erro e o desvio padrão do erro
      - A média do erro e o número de quadrados de cada simulação
      - Os valores mínimo e máximo do erro
  O que você pode concluir de difente, com relação à estatística do valor de `Pi` 

1. O comando a seguir agrupa os resultados pelo número de pontos sorteados no quadrado, mas calcula as estatítiscas do `Erro` ao invés do valor de `Pi`
```python
estatistica_ncirc = df.groupby('Nquad')['Ncirc'].describe()
``` 
Repita os passos do exercício anterior, mas usando `estatistica_ncirc`. Como você compara as três análises. 

