<h1 style='font-size:40px'> Markov Models</h1>

<h2 style='font-size:30px'> The Markov Property</h2>
<div> 
    <ul style='font-size:20px'> 
        <li> 
            A Propriedade de Markov é uma assunção de que um determinado evento depende apenas de seu antecessor direto, sendo independente assim, de todos os demais acontecimentos do passado.
            <center style='margin-top:20px'> 
                 $p(x_{t}|x_{t-1},x_{t-2},...)=p(x_{t}|x_{t-1})$
            </center>
        </li>
    </ul>
</div>

<h2 style='font-size:30px'> The Markov Model</h2>
<div> 
    <ul style='font-size:20px'> 
        <li> 
            O Modelo de Markov é um conjunto de probabilidades de migrarmos de uma situação para outra. Chamamos as situações, nesse contexto, de "estados".
        </li>
        <li>
            Os Modelos de Markov respeitam a Propriedade de Markov. Por isso, podemos representar as probabilidades de transição em uma matriz quadrada (N é a quantidade de estados possíveis em nosso estudo). Os índices das linhas são os estados iniciais, enquanto os das colunas, de destino.
            <center style='margin-top:20px'> 
                $A_{i,j}=p(s_{t}=j|s_{t-1}=i), \forall{i=1\dots{N}, j=1\dots N}$
            </center>
        </li>
        <li style='margin-top:20px'>
            Perceba que os números de A sempre serão os mesmos, independentemente do valor de t. Falamos que lidamos com um Processo de Markov homogêneo ao tempo.
        </li>
    </ul>
</div>

<h3 style='font-size:30px;font-style:italic'> Initial State</h3>
<div> 
    <ul style='font-size:20px'> 
        <li> 
            A probabilidade do primeiro estado da sequência não pode estar em A, porque ele não tem antecessor.
        </li>
        <li>
            Nesse caso, armazenamos essas proporções em um vetor $\pi$.
            <center style='margin-top:20px'> 
                $\pi_{i}=p(s_{1}=i) \forall{i=1 \dots{N}}$
            </center>
        </li>
    </ul>
 </div>

<h3 style='font-size:30px;font-style:italic'> Montagem de $A$ e $\pi$</h3>
<div> 
    <ul style='font-size:20px'> 
        <li> 
            A criação dessas ordenações envolve meramente o cálculo de probabilidades envolvendo os tokens.
            <center style='margin-top:20px'> 
                $A_{i,j}=\frac{\text{count}(i\to{j})}{\text{count}(i)}$
            </center>
            <center style='margin-top:20px'> 
                $\pi_{i}=\frac{\text{count}(s_{1}=i)}{M}$, sendo $M$ o tamanho do dataset.
            </center>
        </li>
    </ul>
 </div>

In [39]:
import numpy as np
from nltk.tokenize import word_tokenize
from typing import List

class MarkovModel:
    def __init__(self, corpus:List[str]):
        self.corpus = self.split_corpus(corpus)

    @staticmethod
    def split_corpus(corpus:List[str])->List[List[str]]:
        return [document.split() for document in corpus]

    def __vocab(self)->None:
        vocab = []
        for doc in self.corpus:
            vocab+=doc[1:] # Not including the first tokens.
        return set(vocab)
        
    def __pi(self):
        d = {}
        corpus_length = len(self.corpus)
        for doc in self.corpus:
            i = doc[0]
            if i not in d.keys():
                d[i] = 1
            else:
                d[i]+=1
        return {i:count/corpus_length for i, count in d.items()}

    def __a(self):
        d = {j:{} for j in self.__vocab()}
        for doc in self.corpus:
            for idx, j in enumerate(doc[1:], start=1):
                d_j = d[j]
                i = doc[idx-1]
                if i not in d_j.keys():
                    d_j[i] = 1
                else:
                    d_j[i] += 1
        return d

    def transform(self):
        return self.__a()

a = MarkovModel(['oi, tudo bem', 'oi, tchau', 'caramba'])

import pandas as pd
pd.DataFrame(a.transform())

Unnamed: 0,tudo,bem,tchau
"oi,",1.0,,1.0
tudo,,1.0,


<p style='color:red'> Terminei Aula 33; Normalizar os valores de A e documentar a classe</p>