# Uma introdução matemática zero aos métodos de Monte Carlo da cadeia de Markov
**Traduzido de A Zero-Math Introduction to Markov Chain Monte Carlo Methods Ben Shaver (2017) disponível neste [link](https://towardsdatascience.com/a-zero-math-introduction-to-markov-chain-monte-carlo-methods-dcba889e0c50)**

Para muitos de nós, a estatística bayesiana é, na melhor das hipóteses, mágica vodu ou, na pior, um absurdo totalmente subjetivo. 

Entre as marcas registradas da abordagem bayesiana, os métodos de Monte Carlo da cadeia de Markov são especialmente misteriosos. 

Eles são procedimentos matemáticos pesados e computacionalmente caros, com certeza, mas o raciocínio básico por trás deles, como tantas outras coisas na ciência de dados, pode ser intuitivo. Esse é o meu objetivo aqui.

Então, quais são os métodos de Monte Carlo em cadeia de Markov (MCMC)? A resposta curta é:

> Métodos MCMC são usados para aproximar a distribuição posterior de um parâmetro de interesse por amostragem aleatória em um espaço probabilístico.

Neste artigo, vou explicar essa resposta curta, sem nenhuma matemática.

Primeiro, alguma terminologia. 

Um parâmetro de interesse é apenas um número que resume um fenômeno no qual estamos interessados. 

Em geral, usamos estatísticas para estimar parâmetros. 

Por exemplo, se quisermos aprender sobre a altura de humanos adultos, nosso parâmetro de interesse pode ser a altura média em polegadas. 

Uma distribuição é uma representação matemática de todos os valores possíveis de nosso parâmetro e da probabilidade de observar cada um. 

O exemplo mais famoso é uma curva de sino:

![Imagem](https://miro.medium.com/max/875/0*ZnhfX8oUe0biQRR6.)

Na maneira bayesiana de fazer estatísticas, as distribuições têm uma interpretação adicional. 

Em vez de apenas representar os valores de um parâmetro e a probabilidade de cada um ser o valor verdadeiro, um Bayesiano pensa em uma distribuição como uma descrição de nossas crenças sobre um parâmetro. 

Portanto, a curva do sino acima mostra que temos certeza de que o valor do parâmetro é quase zero, mas achamos que há uma probabilidade igual de o valor verdadeiro estar acima ou abaixo desse valor, até certo ponto.  

Por acaso, as alturas humanas seguem uma curva normal, então digamos que acreditamos que o verdadeiro valor da altura humana média segue uma curva em forma de sino como esta:

![Figura](https://miro.medium.com/max/875/0*tlqbgInNAYyi3dgx.)

Claramente, a pessoa com crenças representadas por este gráfico vive entre gigantes há anos, porque até onde eles sabem, a altura adulta média mais provável é 6'2 " ou 1.83 m (mas eles não são superconfiantes de uma forma ou de outra).  

Vamos imaginar que essa pessoa foi e coletou alguns dados, e observou um intervalo de pessoas entre 5 'e 6'. Podemos representar esses dados abaixo, junto com outra curva normal que mostra quais valores de altura humana média melhor explicam os dados:

![Imagem](https://miro.medium.com/max/875/0*kkaO7QpZeGOg9DRf.)

Nas estatísticas bayesianas, a distribuição que representa nossas crenças sobre um parâmetro é chamada de **distribuição a priori ou anterior (prior distribution)**, porque captura nossas crenças antes de ver qualquer dado.  

A distribuição de verossimilhança **(likelihood distribution)** resume o que os dados observados nos dizem, representando uma gama de valores de parâmetros acompanhados pela probabilidade de que cada parâmetro explique os dados que estamos observando. 

Estimar o valor do parâmetro que maximiza a distribuição de verossimilhança é apenas responder à pergunta: qual valor do parâmetro tornaria mais provável observar os dados que observamos? 

Na ausência de crenças anteriores, podemos parar por aí.

A chave para a análise bayesiana, entretanto, é combinar a distribuição anterior e a de verossimilhança para determinar a **distribuição posterior (posterior distribution)**. 

Isso nos diz quais valores de parâmetro maximizam a chance de observar os dados específicos que fizemos, levando em consideração nossas crenças anteriores. Em nosso caso, a distribuição posterior se parece com esta:

![Imagem](https://miro.medium.com/max/875/0*3M3HCM8goJjlS-KX.)

## O que é verossimilhança (em Estatística)

Em estatística, a estimativa por máxima verossimilhança (maximum-likelihood estimation- MLE) é um método para estimar os parâmetros de um modelo estatístico. 

Assim, a partir de um conjunto de dados e dado um modelo estatístico, a estimativa por máxima verossimilhança estima valores para os diferentes parâmetros do modelo.

Por exemplo, alguém pode estar interessado na altura de girafas fêmeas adultas, mas devido à restrições de custo ou tempo, medir a altura de todas essas girafas de uma população pode ser impossível. 

Podemos assumir que as alturas são normalmente distribuídas (modelo estatístico), mas desconhecemos a média e variância (parâmetros do modelo) dessa distribuição. 

Esses parâmetros da distribuição podem então ser estimados por MLE a partir da medição de uma amostra da população. 

O método busca aqueles valores para os parâmetros de maneira a maximizar a probabilidade dos dados amostrados, dado o modelo assumido (no caso, distribuição normal).
***
> **De maneira geral, posto um conjunto de dados e um modelo estatístico, o método de máxima verossimilhança estima os valores dos diferentes parâmetros do modelo estatístico de maneira a maximizar a probabilidade dos dados observados (isto é, busca parâmetros que maximizem a função de verossimilhança).**
***
> **O método de máxima verossimilhança apresenta-se como um método geral para estimação de parâmetros, principalmente no caso de distribuições normais.**

![Imagem](https://miro.medium.com/max/875/0*3M3HCM8goJjlS-KX.)

Acima, a linha vermelha representa a distribuição posterior. Você pode pensar nisso como uma espécie de média das distribuições anteriores e de probabilidade. 

Uma vez que a distribuição anterior é mais curta e mais espalhada, ela representa um conjunto de crenças que é "menos certo" sobre o verdadeiro valor da altura humana média. 

Enquanto isso, a probabilidade resume os dados dentro de um intervalo relativamente estreito, portanto, representa uma estimativa "mais segura" sobre o verdadeiro valor do parâmetro.

Quando a probabilidade anterior é combinada, os dados (representados pela probabilidade) dominam as crenças anteriores fracas do indivíduo hipotético que cresceu entre gigantes. 

Embora aquele indivíduo ainda acredite que a altura humana média é ligeiramente mais alta do que apenas o que os dados estão dizendo, ele está mais convencido pelos dados.

No caso de duas curvas em sino, resolver a distribuição posterior é muito fácil. Existe uma equação simples para combinar os dois. 

Mas e se nossas distribuições anteriores e de probabilidade não fossem tão bem comportadas? Às vezes, é mais preciso modelar nossos dados ou nossas crenças anteriores usando distribuições que não têm formas convenientes. 

E se nossa probabilidade fosse melhor representada por uma distribuição com dois picos e, por algum motivo, quiséssemos levar em conta alguma distribuição anterior realmente maluca? Eu visualizei esse cenário abaixo, desenhando à mão uma distribuição anterior feia:

![Imagem](https://miro.medium.com/max/875/0*PcWai087HhpJtbkm.)

Como antes, existe alguma distribuição posterior que dá a probabilidade para cada valor de parâmetro. Mas é um pouco difícil ver como pode ser e é impossível resolver analiticamente. Insira os métodos MCMC.

Os métodos MCMC nos permitem estimar a forma de uma distribuição posterior, caso não possamos computá-la diretamente. 

Lembre-se de que MCMC significa métodos de Monte Carlo da cadeia de Markov. Para entender como eles funcionam, vou apresentar as simulações de Monte Carlo primeiro e, em seguida, discutir as cadeias de Markov.

## Simulação de Monte Carlo
***

As simulações de Monte Carlo são apenas uma forma de estimar um parâmetro fixo gerando repetidamente números aleatórios. Pegando os números aleatórios gerados e fazendo alguns cálculos neles, as simulações de Monte Carlo fornecem uma aproximação de um parâmetro onde calculá-lo diretamente é impossível ou proibitivamente caro.  

Suponha que gostaríamos de estimar a área do círculo a seguir:

![Imagem](https://miro.medium.com/max/875/0*OVzsV_Mw2OGi1mQ4.)

Como o círculo está dentro de um quadrado com lados de 10 polegadas, a área pode ser facilmente calculada como 78,5 polegadas quadradas. Em vez disso, no entanto, podemos colocar 20 pontos aleatoriamente dentro do quadrado. 

Então contamos a proporção de pontos que caíram dentro do círculo e multiplicamos pela área do quadrado. Esse número é uma boa aproximação da área do círculo.

![Imagem](https://miro.medium.com/max/875/0*OuLZBu6HPdhignVB.)

Como o círculo está dentro de um quadrado com lados de 10 polegadas, a área pode ser facilmente calculada como 78,5 polegadas quadradas. 

Em vez disso, no entanto, podemos colocar 20 pontos aleatoriamente dentro do quadrado. Então contamos a proporção de pontos que caíram dentro do círculo e multiplicamos pela área do quadrado. Esse número é uma boa aproximação da área do círculo. 

Como 15 dos 20 pontos estão dentro do círculo, parece que o círculo tem aproximadamente 75 polegadas quadradas. Nada mal para uma simulação de Monte Carlo com apenas 20 pontos aleatórios.

Agora, imagine que gostaríamos de calcular a área da forma plotada pela [Equação do Batman](http://mathworld.wolfram.com/BatmanCurve.html):

![Batman](https://miro.medium.com/max/875/0*5ahw9HtOjbMK0tmO.)

Aqui está uma forma para a qual nunca aprendemos uma equação! 

Portanto, encontrar a área do sinal do morcego é muito difícil.  

No entanto, ao soltar pontos aleatoriamente dentro de um retângulo contendo a forma, as simulações de Monte Carlo podem fornecer uma aproximação da área com bastante facilidade!

As simulações de Monte Carlo não são usadas apenas para estimar a área de formas difíceis.  

Ao gerar muitos números aleatórios, eles podem ser usados para modelar processos muito complicados. Na prática, eles são usados para prever o tempo ou estimar a probabilidade de ganhar uma eleição.

## Introdução às Cadeias de Markov
O que são cadeias de Markov, quando usá-las e como funcionam
***

![MC](https://miro.medium.com/max/645/1*jcbUF7dAhAIRS8nfUlNtow.gif)

O segundo elemento para entender os métodos MCMC são as cadeias de Markov. Essas são simplesmente sequências de eventos que estão probabilisticamente relacionados uns aos outros.  

Cada evento vem de um conjunto de resultados, e cada resultado determina qual resultado ocorre a seguir, de acordo com um conjunto fixo de probabilidades.

Uma característica importante das cadeias de Markov é que elas não têm memória: tudo o que você possivelmente precisaria para prever o próximo evento está disponível no estado atual e nenhuma informação nova vem do conhecimento do histórico de eventos. Um jogo como [Chutes and Ladders](http://jakevdp.github.io/blog/2017/12/18/simulating-chutes-and-ladders/) exibe essa falta de memória, ou **propriedade de Markov**, mas poucas coisas no mundo real realmente funcionam dessa maneira. No entanto, as cadeias de Markov são formas poderosas de compreender o mundo.

No século 19, a curva em sino foi observada como um padrão comum na natureza. (Observamos, por exemplo, que as alturas humanas seguem uma curva em forma de sino.) 

As placas de Galton, que simulam os valores médios de eventos aleatórios repetidos jogando bolinhas de gude através de uma tábua com pinos, reproduzem a curva normal em sua distribuição de bolinhas:

![Galton](https://miro.medium.com/max/875/0*HDeFoQPFGs9ueUI0.)

Pavel Nekrasov, um matemático e teólogo russo, argumentou que a curva do sino e, de forma mais geral, a lei dos grandes números, eram simplesmente artefatos de jogos infantis e quebra-cabeças triviais, onde cada evento era completamente independente. 

Ele pensava que eventos interdependentes no mundo real, como ações humanas, não se conformavam a padrões ou distribuições matemáticas legais.

Andrey Markov, para quem as cadeias de Markov são chamadas, procurou provar que eventos não independentes também podem obedecer a padrões. 

Um de seus exemplos mais conhecidos exigiu a contagem de milhares de pares de dois caracteres de uma obra de poesia russa. 

Usando esses pares, ele calculou a probabilidade condicional de cada personagem. Ou seja, dada uma certa letra anterior ou espaço em branco, havia uma certa chance de que a próxima letra fosse um A, ou um T, ou um espaço em branco. Usando essas probabilidades, Markov foi capaz de simular uma sequência arbitrariamente longa de caracteres. Esta era uma cadeia de Markov. 

Embora os primeiros caracteres sejam amplamente determinados pela escolha do personagem inicial, Markov mostrou que, no longo prazo, a distribuição dos personagens se estabeleceu em um padrão. Assim, mesmo os eventos interdependentes, se estiverem sujeitos a probabilidades fixas, obedecem a uma média.

Para um exemplo mais útil, imagine que você mora em uma casa com cinco quartos. Você tem um quarto, banheiro, sala de estar, sala de jantar e cozinha. 

Vamos coletar alguns dados, supondo que em qual sala você está em um determinado momento é tudo o que precisamos para dizer em qual sala você provavelmente entrará em seguida. 

Por exemplo, se você está na cozinha, você tem 30% de chance de ficar na cozinha, 30% de chance de ir para a sala de jantar, 20% de chance de ir para a sala de estar, 10% de chance de ir no banheiro, e 10% de chance de entrar no quarto. 

Usando um conjunto de probabilidades para cada cômodo, podemos construir uma cadeia de previsões de quais cômodos você provavelmente ocupará em seguida.

Executar a cadeia de Markov para milhares de iterações, no entanto, dá uma previsão de longo prazo de qual sala você provavelmente estará.

Mais importante ainda, essa previsão não é afetada em nada pela sala em que a pessoa começou! Intuitivamente, isso faz sentido: não importa onde alguém está na casa em um determinado momento, a fim de simular e descrever onde eles provavelmente estarão a longo prazo ou em geral.

Assim, as cadeias de Markov, que parecem uma forma irracional de modelar uma variável aleatória em alguns períodos, podem ser usadas para calcular a tendência de longo prazo dessa variável se entendermos as probabilidades que governam seu comportamento.

## Métodos MCMC
***

Com algum conhecimento de simulações de Monte Carlo e cadeias de Markov, espero que a explicação sem matemática de como os métodos MCMC funcionam seja bastante intuitiva.

Lembre-se de que estamos tentando estimar a distribuição posterior para o parâmetro no qual estamos interessados, altura humana média:

![Imagem](https://miro.medium.com/max/875/0*XeUN0u_-EPh6MMCV.)

Sabemos que a distribuição posterior está em algum lugar no intervalo de nossa distribuição anterior e nossa distribuição de probabilidade, mas por qualquer motivo, não podemos computá-la diretamente.

Usando métodos MCMC, iremos efetivamente extrair amostras da distribuição posterior e, em seguida, calcular estatísticas como a média nas amostras extraídas.

Para começar, os métodos MCMC escolhem um valor de parâmetro aleatório a ser considerado.

A simulação continuará a gerar valores aleatórios (esta é a parte de Monte Carlo), mas sujeita a alguma regra para determinar o que constitui um bom valor de parâmetro.

O truque é que, para um par de valores de parâmetro, é possível calcular qual é o melhor valor de parâmetro, computando a probabilidade de cada valor explicar os dados, dadas nossas crenças anteriores.

Se um valor de parâmetro gerado aleatoriamente é melhor que o último, ele é adicionado à cadeia de valores de parâmetro com uma certa probabilidade determinada por quão melhor é (esta é a parte da cadeia de Markov).

Para explicar isso visualmente, vamos lembrar que a altura de uma distribuição em um determinado valor representa a probabilidade de observar esse valor.

Portanto, podemos pensar em nossos valores de parâmetro (o eixo x) exibindo áreas de alta e baixa probabilidade, mostradas no eixo y.

Para um único parâmetro, os métodos MCMC começam por amostragem aleatória ao longo do eixo x:

![Imagem](https://miro.medium.com/max/875/0*fqwsnMwAXnAdWxDH.)

Uma vez que as amostras aleatórias estão sujeitas a probabilidades fixas, elas tendem a convergir após um período de tempo na região de maior probabilidade para o parâmetro em que estamos interessados:

![Imagem](https://miro.medium.com/max/875/0*aYE_6eWzDWfVCOsQ.)

Uma vez que as amostras aleatórias estão sujeitas a probabilidades fixas, elas tendem a convergir após um período de tempo na região de maior probabilidade para o parâmetro em que estamos interessados:

Após a convergência ter ocorrido, a amostragem MCMC produz um conjunto de pontos que são amostras da distribuição posterior.

Desenhe um histograma em torno desses pontos e calcule as estatísticas que desejar:

![Imagem](https://miro.medium.com/max/875/0*fMEvHsN-xlVzLw1H.)

Qualquer estatística calculada no conjunto de amostras geradas pelas simulações MCMC é nossa melhor estimativa dessa estatística na distribuição posterior verdadeira.

Os métodos MCMC também podem ser usados para estimar a distribuição posterior de mais de um parâmetro (altura e peso humano, digamos).

Para n parâmetros, existem regiões de alta probabilidade no espaço n-dimensional onde certos conjuntos de valores de parâmetros explicam melhor os dados observados.

Portanto, penso nos métodos MCMC como uma amostragem aleatória dentro de um espaço probabilístico para aproximar a distribuição posterior.

Lembre-se da curta resposta à pergunta "quais são os métodos de Monte Carlo da cadeia de Markov?" Aqui está novamente como um TL; DR:

> Métodos MCMC são usados para aproximar a distribuição posterior de um parâmetro de interesse por amostragem aleatória em um espaço probabilístico.

Espero ter explicado essa resposta curta, por que você usaria métodos MCMC e como eles funcionam.

A inspiração para este post foi uma palestra que dei como parte do curso de imersão em ciência de dados da Assembleia Geral em Washington, DC.

  O objetivo dessa palestra era explicar os métodos de Monte Carlo da cadeia de Markov para um público não técnico, e tentei fazer o mesmo aqui.

Deixe um comentário se você acha que esta explicação está errada de alguma forma, ou se ela poderia ser mais intuitiva.

# Introdução às Cadeias de Markov
O que são cadeias de Markov, quando usá-las e como funcionam

![Imagem](https://miro.medium.com/max/645/1*jcbUF7dAhAIRS8nfUlNtow.gif)

As cadeias de IMarkov são uma forma bastante comum e relativamente simples de modelar estatisticamente processos aleatórios.

Eles têm sido usados em muitos domínios diferentes, desde a geração de texto até a modelagem financeira.

Um exemplo popular é [r/SubredditSimulator](https://www.reddit.com/r/SubredditSimulator/), que usa cadeias de Markov para automatizar a criação de conteúdo para um subreddit inteiro.

No geral, as Cadeias de Markov são conceitualmente bastante intuitivas e muito acessíveis, pois podem ser implementadas sem o uso de quaisquer conceitos estatísticos ou matemáticos avançados.

Eles são uma ótima maneira de começar a aprender sobre modelagem probabilística e técnicas de ciência de dados.

## Cenário
Para começar, vou descrevê-los com um exemplo muito comum:

Imagine que existissem dois estados possíveis para o tempo: ensolarado ou nublado.

Você sempre pode observar diretamente o estado do tempo atual, e é garantido que sempre será um dos dois estados acima mencionados.

Agora, você decide que deseja prever como estará o tempo amanhã.

Intuitivamente, você assume que há uma transição inerente neste processo, em que o clima atual tem alguma influência sobre o que será o clima do dia seguinte.

Portanto, sendo a pessoa dedicada que é, você coleta dados meteorológicos ao longo de vários anos e calcula que a chance de um dia ensolarado ocorrer após um dia nublado é de 0,25.

Você também notou que, por extensão, a chance de um dia nublado ocorrer após um dia nublado deve ser de 0,75, uma vez que existem apenas dois estados possíveis.

Agora você pode usar esta distribuição para prever o tempo nos próximos dias, com base no estado do tempo atual no momento.

Este exemplo ilustra muitos dos principais conceitos de uma cadeia de Markov.

**Uma cadeia de Markov consiste essencialmente em um conjunto de transições, que são determinadas por alguma distribuição de probabilidade, que satisfazem a propriedade de Markov.**

Observe como no exemplo, a distribuição de probabilidade é obtida apenas observando as transições do dia atual para o próximo.

Isso ilustra a propriedade de Markov, a característica única dos processos de Markov que os torna sem memória.

Isso normalmente os deixa incapazes de produzir sequências nas quais alguma tendência subjacente seria esperada.

Por exemplo, embora uma cadeia de Markov possa ser capaz de imitar o estilo de escrita de um autor com base na frequência das palavras, ela seria incapaz de produzir um texto que contivesse um significado profundo ou temático, uma vez que são desenvolvidos em sequências de texto muito mais longas.

Eles, portanto, não têm a capacidade de produzir conteúdo dependente do contexto, uma vez que não podem levar em conta a cadeia completa de estados anteriores.

![Imagem](https://miro.medium.com/max/520/1*frksGjINf5oTjx7WL81U3w.png)

## O modelo
Formalmente, uma cadeia de Markov é um autômato probabilístico.

A distribuição de probabilidade de transições de estado é normalmente representada como a matriz de transição da cadeia de Markov.

Se a cadeia de Markov tiver N estados possíveis, a matriz será uma matriz N x N, de modo que a entrada (I, J) é a probabilidade de transição do estado I para o estado J.

Além disso, a matriz de transição deve ser uma matriz estocástica, uma matriz cujas entradas em cada linha devem somar exatamente 1.

Isso faz todo o sentido, pois cada linha representa sua própria distribuição de probabilidade.

![Imagem](https://miro.medium.com/max/500/1*oqBd8eLkXyU-h0AhV-m73w.png)

<c> Visão geral de uma amostra de cadeia de Markov, com estados como círculos e bordas como transições

![Matriz](https://miro.medium.com/max/286/1*laZ0aaq84xGcWZ9d9Ux0Wg.png)

Matriz de transição de amostra com 3 estados possíveis

Além disso, uma cadeia de Markov também possui um vetor de estado inicial, representado como uma matriz N x 1 (um vetor), que descreve a distribuição de probabilidade de início em cada um dos N estados possíveis. 

A entrada I do vetor descreve a probabilidade de a cadeia começar no estado I.

![Matriz](https://miro.medium.com/max/111/1*y8ZkBHQm4D9rF3Bl-ok9_w.gif)

Vetor de estado inicial com 4 estados possíveis<-