<h1 style='font-size:40px'> Markov Models</h1>

<h2 style='font-size:30px'> The Markov Property</h2>
<div> 
    <ul style='font-size:20px'> 
        <li> 
            A Propriedade de Markov é uma assunção de que um determinado evento depende apenas de seu antecessor direto, sendo independente assim, de todos os demais acontecimentos do passado.
            <center style='margin-top:20px'> 
                 $p(x_{t}|x_{t-1},x_{t-2},...)=p(x_{t}|x_{t-1})$
            </center>
        </li>
    </ul>
</div>

<h2 style='font-size:30px'> The Markov Model</h2>
<div> 
    <ul style='font-size:20px'> 
        <li> 
            O Modelo de Markov é um conjunto de probabilidades de migrarmos de uma situação para outra. Chamamos as situações, nesse contexto, de "estados".
        </li>
        <li>
            Os Modelos de Markov respeitam a Propriedade de Markov. Por isso, podemos representar as probabilidades de transição em uma matriz quadrada (N é a quantidade de estados possíveis em nosso estudo). Os índices das linhas são os estados iniciais, enquanto os das colunas, de destino.
            <center style='margin-top:20px'> 
                $A_{i,j}=p(s_{t}=j|s_{t-1}=i), \forall{i=1\dots{N}, j=1\dots N}$
            </center>
        </li>
        <li style='margin-top:20px'>
            Perceba que os números de A sempre serão os mesmos, independentemente do valor de t. Falamos que lidamos com um Processo de Markov homogêneo ao tempo.
        </li>
    </ul>
</div>

<h3 style='font-size:30px;font-style:italic'> Initial State</h3>
<div> 
    <ul style='font-size:20px'> 
        <li> 
            A probabilidade do primeiro estado da sequência não pode estar em A, porque ele não tem antecessor.
        </li>
        <li>
            Nesse caso, armazenamos essas proporções em um vetor $\pi$.
            <center style='margin-top:20px'> 
                $\pi_{i}=p(s_{1}=i) \forall{i=1 \dots{N}}$
            </center>
        </li>
    </ul>
 </div>

<h3 style='font-size:30px;font-style:italic'> Montagem de $A$ e $\pi$</h3>
<div> 
    <ul style='font-size:20px'> 
        <li> 
            A criação dessas ordenações envolve meramente o cálculo de probabilidades envolvendo os tokens.
            <center style='margin-top:20px'> 
                $A_{i,j}=\frac{\text{count}(i\to{j})}{\text{count}(i)}$
            </center>
            <center style='margin-top:20px'> 
                $\pi_{i}=\frac{\text{count}(s_{1}=i)}{M}$, sendo $M$ o tamanho do dataset.
            </center>
        </li>
    </ul>
 </div>

In [98]:
import pandas as pd
import numpy as np
from typing import List

class MarkovModel:
    '''
        Modelo de Markov.

        Parâmetro
        ---------
        `corpus`: List[str]
            Lista com os documentos a serem usados.
    '''
    def __init__(self, corpus:List[str]):
        self.corpus = self.split_corpus(corpus)
        self.corpus_length = len(self.corpus)

    @staticmethod
    def split_corpus(corpus:List[str])->List[List[str]]:
        '''
            Função que tokeniza os documentos do corpus.
        '''
        return [document.split() for document in corpus]

    def __vocab(self)->None:
        '''
            Extração dos termos únicos do nosso corpus.
        '''
        vocab = []
        for doc in self.corpus:
            vocab+=doc[1:] # Not including the first tokens.
        return set(vocab)
        

    def __pi(self)->pd.Series:
        '''
            Mensuração do vetor pi do Modelo de Markov

            Retorna
            -------
            Uma `pd.Series` com as probabilidades de pi.
        '''
        self._pi = {}
        for doc in self.corpus:
            i = doc[0]
            if i not in self._pi.keys():
                self._pi[i] = 1
            else:
                self._pi[i]+=1
        self._pi = {i:count/self.corpus_length for i, count in self._pi.items()}
        return pd.Series(self._pi)
        
    def __a(self)->pd.DataFrame:
        '''
            Mensuração da matriz A, de um Modelo de Markov.

            Retorna
            -------
            Um `pd.DataFrame` com as probabilidades de transição de estado.
        '''
        self._a = {j:{} for j in self.__vocab()}
        for doc in self.corpus:
            for idx, j in enumerate(doc[1:], start=1):
                d_j = self._a[j]
                i = doc[idx-1]
                if i not in d_j.keys():
                    d_j[i] = 1
                else:
                    d_j[i] += 1
        
        a = pd.DataFrame(self._a).fillna(1)
        return a.div(a.sum(axis=1, skipna=True), axis=0) 

    def transform(self):
        self.__a()
        self.__pi()
        return self.__a()

a = MarkovModel(['oi, tudo bem','oi, tudo ótimo' , 'oi, tchau', 'caramba'])
a.transform()

Unnamed: 0,ótimo,tudo,bem,tchau
tudo,0.25,0.25,0.25,0.25
"oi,",0.2,0.4,0.2,0.2


In [71]:
.5**800

1.499696813895631e-241

<p style='color:red'> Terminei Aula 33; Normalizar os valores de A e documentar a classe</p>