<h1 style='font-size:40px'> Markov Models</h1>

<h2 style='font-size:30px'> The Markov Property</h2>
<div> 
    <ul style='font-size:20px'> 
        <li> 
            A Propriedade de Markov é uma assunção de que um determinado evento depende apenas de seu antecessor direto, sendo independente assim, de todos os demais acontecimentos do passado.
            <center style='margin-top:20px'> 
                 $p(x_{t}|x_{t-1},x_{t-2},...)=p(x_{t}|x_{t-1})$
            </center>
        </li>
    </ul>
</div>

<h2 style='font-size:30px'> The Markov Model</h2>
<div> 
    <ul style='font-size:20px'> 
        <li> 
            O Modelo de Markov é um conjunto de probabilidades de migrarmos de uma situação para outra. Chamamos as situações, nesse contexto, de "estados".
        </li>
        <li>
            Os Modelos de Markov respeitam a Propriedade de Markov. Por isso, podemos representar as probabilidades de transição em uma matriz quadrada (N é a quantidade de estados possíveis em nosso estudo). Os índices das linhas são os estados iniciais, enquanto os das colunas, de destino.
            <center style='margin-top:20px'> 
                $A_{i,j}=p(s_{t}=j|s_{t-1}=i), \forall{i=1\dots{N}, j=1\dots N}$
            </center>
        </li>
        <li style='margin-top:20px'>
            Perceba que os números de A sempre serão os mesmos, independentemente do valor de t. Falamos que lidamos com um Processo de Markov homogêneo ao tempo.
        </li>
    </ul>
</div>

<h3 style='font-size:30px;font-style:italic'> Initial State</h3>
<div> 
    <ul style='font-size:20px'> 
        <li> 
            A probabilidade do primeiro estado da sequência não pode estar em A, porque ele não tem antecessor.
        </li>
        <li>
            Nesse caso, armazenamos essas proporções em um vetor $\pi$.
            <center style='margin-top:20px'> 
                $\pi_{i}=p(s_{1}=i) \forall{i=1 \dots{M}}$ (sendo $M$ a quantidade total de estados)
            </center>
        </li>
    </ul>
 </div>

<h3 style='font-size:30px;font-style:italic'> Montagem de $A$ e $\pi$</h3>
<div> 
    <ul style='font-size:20px'> 
        <li> 
            A criação dessas ordenações envolve meramente o cálculo de probabilidades envolvendo os tokens.
            <center style='margin-top:20px'> 
                $A_{i,j}=\frac{\text{count}(i\to{j})}{\text{count}(i)}$
            </center>
            <center style='margin-top:20px'> 
                $\pi_{i}=\frac{\text{count}(s_{1}=i)}{N}$, sendo $N$ o tamanho do dataset.
            </center>
        </li>
    </ul>
 </div>

In [132]:
import pandas as pd
import numpy as np
from typing import List

class MarkovModel:
    '''
        Modelo de Markov, com Add-Epsilon Smoothing.

        Parâmetro
        ---------
        `corpus`: List[str]
            Lista com os documentos a serem usados.
        `epsilon`: float
            Grau de suavização das probabilidades.
    '''
    def __init__(self, corpus:List[str], epsilon:float):
        self.corpus = self.split_corpus(corpus)
        self.corpus_length = len(self.corpus)
        self.epsilon = epsilon

    @staticmethod
    def split_corpus(corpus:List[str])->List[List[str]]:
        '''
            Função que tokeniza os documentos do corpus.
        '''
        return [document.split() for document in corpus]

    def __vocab(self)->set:
        '''
            Extração dos termos únicos do nosso corpus.
        '''
        vocab = []
        for doc in self.corpus:
            vocab+=doc[1:] # Not including the first tokens.
        return set(vocab)
        

    def __pi(self)->pd.Series:
        '''
            Mensuração do vetor pi do Modelo de Markov

            Retorna
            -------
            Uma `pd.Series` com as probabilidades de pi.
        '''
        self._pi = {}
        for doc in self.corpus:
            i = doc[0]
            if i not in self._pi.keys():
                self._pi[i] = 1
            else:
                self._pi[i]+=1
        #self._pi = {i:count/self.corpus_length for i, count in self._pi.items()}
        m = self.__a().shape[0]
        return (pd.Series(self._pi)+self.epsilon) / (self.corpus_length+self.epsilon*m)
        
    def __a(self)->pd.DataFrame:
        '''
            Mensuração da matriz A, de um Modelo de Markov.

            Retorna
            -------
            Um `pd.DataFrame` com as probabilidades de transição de estado.
        '''
        self._a = {j:{} for j in self.__vocab()}
        for doc in self.corpus:
            for idx, j in enumerate(doc[1:], start=1):
                d_j = self._a[j]
                i = doc[idx-1]
                if i not in d_j.keys():
                    d_j[i] = 1
                else:
                    d_j[i] += 1
        
        a = pd.DataFrame(self._a).fillna(0)
        num = (a+self.epsilon)
        denom = a.sum(axis=1, skipna=True)+a.shape[0]*self.epsilon
        return num.div(denom, axis=0) 

    def transform(self):
        return self.__pi()

a = MarkovModel(['oi, tudo bem','oi, tudo ótimo' , 'oi, tchau', 'caramba'], 1)
a.transform()

oi,        0.666667
caramba    0.333333
dtype: float64

<h2 style='font-size:30px'> Probability Smoothing and Log-Probabilities</h2>
<div> 
    <ul style='font-size:20px'> 
        <li> 
            A desvantagem do Modelo de Markov Clássico é que ele confere probabilidade 0 para sequências que contenham transições de estado não vistas em treinamento. 
        </li>
        <li>
            O que podemos fazer é acrescentar uma pequena adaptação no cálculo das probabilidades, conhecida como Add-Epsilon Smoothing. Quanto maior $\epsilon$, mais suavizadas as probabilidades ficam:
            <center style='margin-top:20px'> 
                $A_{i,j}=\frac{\text{count}(i\to{j})+\epsilon}{\text{count}(i)+\epsilon{M}}$
            </center>
            <center style='margin-top:20px'> 
                $\pi_{i}=\frac{\text{count}(s_{1}=i)+\epsilon}{N+\epsilon{M}}$
            </center>
        </li>
        <li style='margin-top:20px'>
            Observe que a classe da aula passada já está adaptado para esse smoothing.
        </li>
    </ul>
</div>

<h3 style='font-size:30px;font-style:italic'> Working with Log Probabilities</h3>
<div> 
    <ul style='font-size:20px'> 
        <li> 
            Quando mensuramos a probabilidade de uma sequência, é comum o fazermos com os logs das probabilidades de cada estado. Isso porque os computadores podem arredondar o resultado de sequências muito longas para zero.
        </li>
        <li>
            Nesse contexto, mensurar a probabilidade da sequência se dará com a soma dos logs das probabilidades, em consonância com a propriedade $\log{(AB)}=\log{A}+\log{B}$
            <center style='margin-top:20px'> 
                $\displaystyle \log{p(s_{1...T})}=\log{\pi_{s_{1}}}+\sum_{t=2}^{T}\log{A_{s_{t-1,s_{t}}}}$ 
            </center>
        </li>
    </ul>
 </div>

<h2 style='font-size:30px'> Building a Text Classifier (Theory)</h2>
<div> 
    <ul style='font-size:20px'> 
        <li> 
            Faremos agora um projeto de classificação de poemas. Montaremos dois Modelos de Markov, um treinado com textos de Edgar Allan Poe, e outro com os de Robert Frost.
        </li>
        <li>
            Por fim, passaremos uma sequência a ambos os modelos. Eles nos retornarão a probabilidade $p(\text{texto}|\text{autor})$; usaremos o Teorema de Bayes para conseguirmos computar a $p(\text{autor}|\text{texto})$.
        </li>
        <li>
            Por fim, nossa classificação será feita com $\displaystyle \text{autor}^{*}=\text{argmax}_{autor}\text{ }{p(\text{autor}|\text{texto})}$
        </li>
    </ul>
</div>

<h2 style='font-size:30px'> Language Model (Theory)</h2>
<div> 
    <ul style='font-size:20px'> 
        <li> 
            Nós agora utilizaremos um Modelo de Markov para geração de textos.
        </li>
        <li>
            Isso será feito aproveitando o fato de Modelos de Markov serem modelos generativos - ou seja, aprendem uma certa distribuição de probabilidades $p(x|y)$.
            <center style='margin-top:20px'> 
                <img src='../img/05_models.png'>
            </center>
        </li>
    </ul>
</div>

<h3 style='font-size:30px;font-style:italic'> Sampling</h3>
<div> 
    <ul style='font-size:20px'> 
        <li> 
            Podemos escrever o texto com funções do `numpy.random`. Isso garantirá que poderemos escrever textos diversos, sem necessariamente escolher o token mais provável todas as vezes.
        </li>
    </ul>
</div>

<h3 style='font-size:30px;font-style:italic'> 2-nd Order Markov Model</h3>
<div> 
    <ul style='font-size:20px'> 
        <li> 
            Considerar apenas o último token na escrita pode tornar nosso modelo frágil, criando textos incoesos e incoerentes. Podemos torná-lo mais robusto oferecendo a ele mais contexto.
        </li>
        <li>
            Caso também ofereçamos a penúltima palavra do texto, estaremos criando um <i>Modelo de Markov de Segunda Ordem</i>. No caso, ele receberá uma terceira matriz de transição de estados com uma terceira dimensão.
        </li>
    </ul>
</div>

<center style='margin-top:20px'> 
    <figure>
        <img src='../img/05_second_markov.png'>
        <figcaption> Observe que ainda deveremos ter uma matriz 2-D, para o segundo token da sentença.</figcaption>
    </figure>
</center>

In [None]:
05_second_markov.png

<p style='color:red'> Terminei o projeto; Aula 39 (1:55)</p>