# Cadeias de Markov

## Introdução

Primeiramente, para o melhor entendimento das cadeias de Markov, iremos realizar uma breve introdução a alguns conceitos
importantes que fundamentaram as explicações a seguir.

### Processos Estocásticos

Para começar, precisamos definir o que é um processo estocásticos. Por alto, um processo estocástico consiste em uma ou mais variáveis
aleatórias indexadas por um conjunto determinado. Uma analogia muito comum devido a suas aplicações são tratar esse índice como "tempo".
Dessa forma, conseguimos classificar esses processos em dois grandes grupos: os processos estocásticos de tempo discreto, onde o índice
é um conjunto finito de elementos, ou um subconjunto dos naturais, ou inteiros. E os processos estocásticos de tempo contínuo, onde o
índice é geralmente um subconjunto dos números reais, ou outro que não seja contável. Além disso, podemos fazer algumas classificações a
partir dos possíveis estados assumidos a partir da nossa variável aleatória: podemos ter um espaço discreto, ou seja, nossa V.A. pode
assumir valores finitos ou contáveis. Em contrapartida, podemos ter um espaço contínuo, onde nossa V.A. pode assumir um subconjunto de
valores contínuos ou não contáveis, como um subconjunto dos números reais.

### Processo de Markov

Sabendo, então, o que são processos estocásticos, temos um sub-caso particular dos processos estocásticos: o processo de Markov. Os
processos de Markov se diferenciam por serem processos estocásticos onde o conjunto de estados anteriores não têm influência nos estados
seguintes, a única informação que impacta o próximo estado é o estado atual.

Os processos de Markov estão sujeitos às mesmas classificações dos processos estocásticos (até mesmo porque são um). No nosso caso,
estaremos interessados em analisar os processos de Markov de tempo discreto, também chamados "Cadeias de Markov". Além disso,
por questões de simplicidade, concentraremos as nossas atenções nas cadeias de Markov de espaço discreto.

## Visualizando cadeias de Markov

De modo a compreender melhor as cadeias de Markov, tomaremos um exemplo simples para ilustrar os principais conceitos associados. Digamos
que temos conhecimento sobre o comportamento de um mercado de ações específico: sabemos que, quando as ações estão em alta, temos uma chance
$p$ de que elas ficarão em baixa na semana seguinte. Caso elas estejam em baixa, temos uma chance $w$ de que elas ficarão em alta na semana
seguinte.

Uma das visualizações mais comuns para as transições nas cadeias de Markov são os diagramas de transição. Esses consistem de um grafo
direcionado, onde cada nodo é um estado e as conexões são as transições de estado onde seus pesos são a probabilidade de aquela transição
ocorrer. Segue um exemplo para o nosso exemplo atual:

![Imagem Aqui :)](assets/Diagrama%20de%20Transições-No-BG.png)

Podemos notar que a soma das conexões de saída de todos os nodos sempre resultarão em $1$. Para isso, sempre que o estado pode se manter igual,
realizamos uma conexão do nó com si mesmo.

O diagrama de transição é uma boa alternativa para visualizar como o estado varia a partir de um certo estado. Porém, muitas vezes é interessante
analisarmos quais as probabilidades de um certo estado em um certo tempo futuro. Para isso, temos uma das visualizações alternativas: as árvores
de transição.

![Imagem Aqui :)](assets/Árvore%20de%20Transições-No-BG.png)

Nas árvores de transição, temos as probabilidades cumulativas de se obter um dado estado após um tempo determinado e um estado inicial.

## Desafios Computacionais

As cadeias de Markov têm várias aplicações interessantes no mundo real, como a modelagem de mercados financeiros e populações bacterianas. Porém,
uma informação muito interessante para essas aplicações é prever as probabilidades de cada estado após um determinado período. Vimos logo agora
a possibilidade de se obter essas informações a partir da construção de uma árvore de transições, mas isso muitas vezes é inviável computacionalmente,
já que teria uma complexidade computacional exponencial com o tempo.

É aqui onde começamos a ver algumas poderosas aplicações de álgebra linear para simplificar a computação desses valores. Primeiramente, vamos falar
sobre as matrizes de transição:

### Matrizes de Transição

As matrizes de transição são uma representação das probabilidades de transição entre estados de forma matricial. Nela, temos cada coluna representando
um estado inicial e as linhas, um estado final sendo cada valor da matriz a correspondente probabilidade de se transicionar de um determinado estado para
outro, o que resulta numa matriz quadrada cuja soma de cada uma das colunas é sempre 1.

Para o exemplo anterior, teremos a seguinte matriz de transição (sendo o índice 1 alta e 2 baixa):

$$
\begin{bmatrix}
1-p & w \\
p & 1-w\\
\end{bmatrix}
$$

Podemos multiplicar essa matriz por um vetor com as probabilidades iniciais de cada estado para obter as probabilidades de se encontrar cada estado após
uma transição. Notamos então que, repetindo essas multiplicações repetidamente, podemos a partir de um conjunto de probabilidades de valores iniciais,
prever as probabilidades de se encontrar cada um dos estados após qualquer período estabelecido. Ainda melhor, podemos agrupar essas multiplicações
numa exponenciação da matriz, possibilitando reduzir a complexidade original de calcular as probabilidades de cada estado no futuro de exponenciação para
quadrática no número de estados e logarítmica com o tempo.

Por exemplo, vamos calcular as probabilidades de se encontrar um mercado em alta e em baixa após 24 semanas, sabendo que o mercado está atualmente em baixa.


$$
\begin{bmatrix}
1-p & w \\
p & 1-w\\
\end{bmatrix}^{24}
\cdot
\begin{bmatrix}
0 \\
1 \\
\end{bmatrix}
=
\begin{bmatrix}
0 \\
1 \\
\end{bmatrix}
$$

A fim de simplificar a visualização do resultado, vamos assumir $p = 0.6$ e $w = 0.5$. Dessa forma teremos:

$$
\left[\begin{matrix}0.4545\dots & 0.4545\dots\\0.5454\dots & 0.5454\dots\end{matrix}\right] \cdot \left[\begin{matrix}0\\1\end{matrix}\right] = \left[\begin{matrix}0.4545\dots \\ 0.5454\dots \end{matrix}\right]
$$

### Estado Estável

Um comportamento interessante nas cadeias de Markov é a tendência a um estado estável, ou seja, uma convergência nas probabilidades de cada estado a medida
que $t \to \infty$. Podemos definir isso matematicamente como $Tp = p$, onde $T$ é a matriz de transição e $p$ um vetor de probabilidades. Podemos então fazer
a seguinte manipulação:

$$
Tp - p = 0 \\
(T - I)p = 0
$$

Permitindo que encontremos uma equação para determinar um conjunto de soluções para $p$ onde teremos um estado estável. Assim, podemos pegar qualquer uma das soluções possíveis
e normalizá-la para ter soma $1$ (condição para ser um vetor de probabilidades).

Vamos calcular o estado estável para nosso exemplo anterior:

$$
\left[\begin{matrix}- 0.6 x + 0.5 y\\0.6 x - 0.5 y\end{matrix}\right] = \left[\begin{matrix}0\\0\end{matrix}\right]
$$

Resultando em:

$$
x = 0.833\dots y
$$

Obtendo uma solução válida:

$$
\left[\begin{matrix}0.833\dots\\1\end{matrix}\right]
$$

Normalizando-a:

$$
\left[\begin{matrix}0.4545\dots\\0.5454\dots\end{matrix}\right]
$$

Coincidindo com o resultado que obtemos anteriormente para $24$ semanas.



## Dependências

In [None]:
# Load data from github when inside colab
![ "$(pwd)" = "/content" ] && git clone https://github.com/DanielHLelis/USP-ALG-LIN-PF.git git_data
![ "$(pwd)" = "/content" ] && mv git_data/* ./

In [1]:
import sys
!"{sys.executable}" -m pip install --upgrade pip
!"{sys.executable}" -m pip install --upgrade pandas
!"{sys.executable}" -m pip install --upgrade numpy
!"{sys.executable}" -m pip install --upgrade scipy
!"{sys.executable}" -m pip install --upgrade matplotlib
!"{sys.executable}" -m pip install --upgrade seaborn
!"{sys.executable}" -m pip install --upgrade sympy



## Algumas demonstrações de Cadeias de Markov

### Geração de Texto

Uma aplicação que acho divertida das cadeias de Markov são geradores de texto. Existem algumas técnicas para se construir
um gerador de textos a partir de cadeias de Markov, nessa implementação seguirei a partir da construção de n-gramas. N-gramas
são conjuntos de $n$ caracteres, dividiremos nossos textos em n-gramas sobrepostos, onde cada n-grama será um estado da nossa
cadeia.

Aqui estou usando um dataset de tweets de um político brasileiro que se encontra muito quieto nos últimos dias. Por isso, geraremos
alguns tweets dele para matar a saudade. /s

Quanto maior o tamanho dos n-gramas, maior a coerência do texto, ao custo de menor variabilidade. Como nosso dataset é relativamente grande
conseguimos usar tamanhos maiores sem muito prejuízo.

In [2]:
import pandas as pd

# Carregamento do dataset #
df = pd.read_csv('datasets/tweets.csv')
df.text = df.text.astype("string")

# Tratamento de texto #

# Remoção de URLs
url_regex = ("\\.?\\s?((http|https)://|pic\.)(www.)?" +
         "[a-zA-Z0-9@:%._\\+~#?&//=]" +
         "{1,256}\\.[a-z]" +
         "{2,6}\\b([-a-zA-Z0-9@:%" +
         "._\\+~#?&//=]*)")
# Remoção de indicadores de retweets
rt_regex = r'rt @\w+?:\s?'
# Remoção de indicadores de reply
reply_regex = r'\s?-\s'
# Remoção de caracteres indesejados
symbols_regex = r'[)(]'


# Conversão para minúsculo, seguido das remoções e outras limpezas
df['text_cleaned'] = df.text.str.lower()\
    .str.replace(url_regex, "", regex=True)\
    .str.replace(rt_regex, "\n", regex=True)\
    .str.replace(reply_regex, "\n", regex=True)\
    .str.replace(symbols_regex, "", regex=True)\
    .str.strip()

# Filtragem dos tweets menores que 60 caracteres
df['text_len'] = df.text_cleaned.str.len()
df_filtered = df[df['text_len'] >= 60]

# Alguns tweets
df_filtered.sample(10)

Unnamed: 0,date,text,likes,retweets,link,text_cleaned,text_len
4086,,"Em 2019, portos do Paraná reduziram em 46% o t...",18620,2639,https://twitter.com/jairbolsonaro/status/11177...,"em 2019, portos do paraná reduziram em 46% o t...",156
8581,,Se governar é entregar ministérios estatais e ...,4191,1169,https://twitter.com/jairbolsonaro/status/99032...,se governar é entregar ministérios estatais e ...,128
6271,,Bolsonaro alerta q nos livramos do nazismo em ...,176,215,https://twitter.com/jairbolsonaro/status/53267...,bolsonaro alerta q nos livramos do nazismo em ...,113
4557,,"Estarei hoje no Jornal da Record, após às 21h4...",42095,3424,https://twitter.com/jairbolsonaro/status/10958...,"estarei hoje no jornal da record, após às 21h4...",63
521,2020-08-09,- A desinformação mata mais até que o próprio ...,19596,4405,https://twitter.com/jairbolsonaro/status/12925...,a desinformação mata mais até que o próprio ví...,174
8761,,- Major Vitor Hugo e Andreia em Goiás. - A ju...,2566,415,https://twitter.com/jairbolsonaro/status/96752...,major vitor hugo e andreia em goiás. a juvent...,70
2739,,- Obrigado China pela recepção! - Partindo par...,25743,3620,https://twitter.com/jairbolsonaro/status/11878...,obrigado china pela recepção! partindo para os...,62
266,2020-09-12,- Em março fui muito criticado por anunciar a ...,181,35,https://twitter.com/jairbolsonaro/status/13048...,em março fui muito criticado por anunciar a de...,94
9886,,"""Quem pariu Bolsonaro."": Porta voz do PT, Paul...",1440,326,https://twitter.com/jairbolsonaro/status/89238...,"""quem pariu bolsonaro."": porta voz do pt, paul...",99
2017,2020-02-21,O turismo no Brasil tem resultados inéditos de...,20800,3577,https://twitter.com/jairbolsonaro/status/12309...,o turismo no brasil tem resultados inéditos de...,280


In [3]:
from random import choice

def build_markov_text_generator(texts, n_gram_size = 10):
    starting_grams = [] # Possíveis estados iniciais
    markov_transitions = {} # Transições de estado
    allowed_starts = [chr(a) for a in range(ord('a'), ord('z') + 1)] + ['@'] # Filtragem de inícios permitidos

    for text in texts:
        # Carrega primeiro n-grama
        starting_gram = text[:n_gram_size]
        # Adiciona n-grama na lista de inícios
        if starting_gram[0] in allowed_starts:
            starting_grams.append(starting_gram)
        # Computa transições dos n-gramas
        for i in range(len(text) - n_gram_size + 1):
            # Carrega n-grama atual
            next_idx = i + n_gram_size
            current_gram = text[i:next_idx]
            # Próximo elemento
            next_letter = None if next_idx == len(text) else text[next_idx]
            # Adiciona nas transições de estado
            if current_gram not in markov_transitions:
                markov_transitions[current_gram] = [next_letter]
            else:
                markov_transitions[current_gram].append(next_letter)

    return markov_transitions, starting_grams

def generate_markov_text(markov_transitions, starting_grams, start=''):
    n_gram_size = len(starting_grams[0])
    current = start if len(start) >= n_gram_size else choice(starting_grams)
    next = choice(markov_transitions[current[-n_gram_size:]])
    while next != None:
        current += next
        next = choice(markov_transitions[current[-n_gram_size:]])
    return current


In [4]:
import numpy as np

transitions, startings = build_markov_text_generator(df_filtered.text_cleaned, 8)
np.array([len(t) for t in transitions.values()]).mean()

2.325311335287979

In [5]:
from IPython.display import display, Markdown, Latex

for i in range(10):
    tweet = generate_markov_text(transitions, startings)
    while len(tweet) < 20:
        tweet = generate_markov_text(transitions, startings)
    tweet = tweet.replace('$', '\\$')
    tweet_lines = tweet.split('\n')
    tweet_lines = [t.strip() for t in tweet_lines]
    tweet_lines = [t for t in tweet_lines if len(t) != 0]
    md_tweet = "> " + "\n> ".join(tweet_lines)
    display(Markdown(f'{md_tweet}'))

> depois do livre mercado. a crianças em paz! …

> inocentes seriam assim. não enxergam o atual sistema de saúde e educação profissional , aumento de quase 13.000 que atualmente em mal estar, devemos de olho e confiança! 🇧🇷 via: @taoquei1
> youtube:

> depois de hamamatsu, bolsonaro, nem as armas de fogo. na terça 18, o pl será votada na george soros: via @youtube

> molecada é o combustíveis na plataforma única pessoa! obrigado sempre tão vigilantes com israel, atingindo civis judeus

> a segurança e da live no facebook de @bolsonaro praia grande parte de nosso valor ser medidas em minas gerais;
> nosso governo jair bolsonaro em entrevista ao divulgou a mídia brasil são recorra à 1a camara de vereador @carlosbolsonaro

> muito além das manchetes.

> seguimos lutar por desviaram bilhões da pátria…

> um gesto honroso que bem entender a alma, serenidade de notícia do facebook.
> desculpem-me por ocasião do enfrentamento da questão por vir! lembranças armadas

> mais um grande mídia

> o ministério da ciência, contando a confiança, amigos e gente peço que pessoas ainda análise de maioria dos poderes p/ tal vc, cidadão, para a propositalmente o oposto ao autismo no nordeste.
> um só brasil

### Modelagem de Apostas

Outra aplicação demonstrativa das cadeias de Markov são a modelagem de um sistema de apostas. Pela natureza das cadeias de Markov, definiremos uma estratégia simples de apostas e mediremos nossas
chances de sucesso. Primeiramente, vamos definir nosso objetivo final como dobrar o nosso capital inicial. Assim, iremos apostar de unidade em unidade até que ou percamos tudo alcancemos nosso objetivo.

Vamos definir um jogo onde temos uma chance $p = 0.49$ de dobrar nosso dinheiro. Em caso de derrota, perdemos todo o dinheiro apostado. Além disso, vamos definir um capital inicial de $50$ e um limite de 100 apostas.

In [6]:
initial_capital = 50
limit = 100
p = 0.49

# Building transition matrix #
transition_matrix = np.zeros(shape=[initial_capital*2+1, initial_capital*2+1])
# Finishing States
transition_matrix[0][0] = 1
transition_matrix[initial_capital*2][initial_capital*2] = 1
# Other States
for i in range(1, initial_capital*2):
    transition_matrix[i+1][i] = p
    transition_matrix[i-1][i] = 1 - p

# Initial State Probability Vector
initial_p_vector = np.zeros(shape=[initial_capital*2 + 1, 1])
initial_p_vector[initial_capital] = 1

# Prediction
pred = np.linalg.matrix_power(transition_matrix, 100) @ initial_p_vector
pred

array([[9.93147323e-07],
       [0.00000000e+00],
       [1.25181976e-06],
       [0.00000000e+00],
       [3.67240132e-06],
       [0.00000000e+00],
       [9.30620034e-06],
       [0.00000000e+00],
       [2.22279196e-05],
       [0.00000000e+00],
       [5.05504873e-05],
       [0.00000000e+00],
       [1.09671720e-04],
       [0.00000000e+00],
       [2.27206340e-04],
       [0.00000000e+00],
       [4.49822739e-04],
       [0.00000000e+00],
       [8.51654026e-04],
       [0.00000000e+00],
       [1.54299671e-03],
       [0.00000000e+00],
       [2.67671270e-03],
       [0.00000000e+00],
       [4.44842132e-03],
       [0.00000000e+00],
       [7.08579804e-03],
       [0.00000000e+00],
       [1.08228529e-02],
       [0.00000000e+00],
       [1.58576017e-02],
       [0.00000000e+00],
       [2.22961975e-02],
       [0.00000000e+00],
       [3.00925802e-02],
       [0.00000000e+00],
       [3.89982275e-02],
       [0.00000000e+00],
       [4.85392378e-02],
       [0.00000000e+00],


In [7]:
print(f"Chance de prejuízo: {sum(pred[:50])[0] * 100:.3f}%")
print(f"Chance de ganho ou neutro: {sum(pred[50:])[0] * 100:.3f}%")

Chance de prejuízo: 54.007%
Chance de ganho ou neutro: 45.993%


# Bônus: Recorrências Lineares

Outra aplicação de álgebra linear que acho particularmente interessante é a solução de recorrências lineares a partir do uso de matrizes.

É possível representar recorrências lineares como transformações sob um estado inicial. Permitindo resolver problemas de recorrência a
partir da exponenciação de matrizes. Segue uma representação geral

Seja uma $f(n+1) = a_n f(n) + \cdots + a_{n-k} f(n-k)$ (uma recorrência linear que depende dos $k$ últimos termos), podemos representá-la pela matriz:

$$
\begin{bmatrix}
    a_n & a_{n-1} & a_{n-2} & \cdots & a_{n-k + 1} & a_{n-k} \\
    1 & 0 & 0 & \cdots & 0 & 0 \\
    0 & 1 & 0 & \cdots & 0 & 0 \\
    0 & 0 & 1 & \cdots & 0 & 0 \\
    \vdots & \vdots & \vdots & \ddots \\
    0 & 0 & 0 & \cdots & 1 & 0 \\

\end{bmatrix}
$$

Podemos interpretar essa matriz como a construção da combinação linear dos elementos anteriores sendo executada na primeira linha e um deslocamento dos
demais elementos nas linhas seguintes (formando a diagonal deslocada de 1s).

Dessa forma, ao multiplicá-la por um conjunto inicial de elementos, iremos obter:

$$
[M] \cdot \begin{bmatrix}
f(n) \\
f(n - 1) \\
\vdots \\
f(n - k)
\end{bmatrix} = \begin{bmatrix}
f(n + 1) \\
f(n) \\
\vdots \\
f(n - k + 1)
\end{bmatrix}
$$

Isso nos permite simplificar a computação de recorrências lineares de $O(n\cdot k)$ para $O(\log_2(n) \cdot k^3)$ (fazendo o uso do algoritmo de exponenciação rápida por divisão e conquista).

In [8]:
import sympy as sp
from IPython.display import display

fib_mat = sp.Matrix([[1, 1], [1, 0]])
fib_init = sp.Matrix([[1], [1]])

# Exemplo n-ésimo número de Fibonacci
n = 30
mat_exp = fib_mat ** (n - 2)
values = mat_exp @ fib_init
result = values[0]

print(f"N-ésima transformação de Fibonacci: n={n-2}")
display(mat_exp)
display(values)
print(f"fib({n})")
display(result)

N-ésima transformação de Fibonacci: n=28


Matrix([
[514229, 317811],
[317811, 196418]])

Matrix([
[832040],
[514229]])

fib(30)


832040

## Exemplos Fibonacci

![Números de Fibonacci](assets/fibs.png)

# Referências

- <https://en.wikibooks.org/wiki/Linear_Algebra/Topic:_Markov_Chains>
- <https://www.cs.bu.edu/fac/crovella/cs132-book/L11MarkovChains.html>
- <https://en.wikibooks.org/wiki/Linear_Algebra/Topic:_Linear_Recurrences>