In [2]:
import nltk
import random

# Modelos de Linguagem Probabilísticos

## Prof. André Carvalho

Dada a frase abaixo:

> "Estou molhado porque hoje..."

Qual vocês acham que é a palavra mais provável para continuar esta sentença?

## Modelos de Linguagem Probabilísticos

Calculam a probabilidade de uma sentença ocorrer.

Útil em diversos domínios:
 - Tradução
 - Correção de digitação
 - Reconhecimento de fala
 - etc etc etc

## Modelos de Linguagem Probabilísticos

Probabilidade de uma sequência de palavras ocorrer:
 - $P(W) = P(w_1,w_2,w_3,w_4,w_5,...,w_N)$

Relacionada: Probabilidade da próxima palavra em uma sentença:
 - $P(w_5|w_1,w_2,w_3,w_4)$

Um modelo que computa estas probabilidades é chamado de _Language Model_.

Baseado em frequências de __n-gramas__.

Como computar a probabilidade da frase:

> Um bom dia para ser

Ou seja, P(Um,bom,dia,para,ser)

Vamos relembrar probabilidade e estatística e usar a regra da cadeia.

### Regra da Cadeia

Probabilidade condicional:
 - $P(B|A) = P(A,B)/P(A)$, que pode ser reescrito como $P(A,B) = P(A)P(B|A)$

Para mais variáveis:
 - $P(A,B,C,D) = P(A)P(B|A)P(C|A,B)P(D|A,B,C)$

Ampliando assim para quaisquer N variáveis.
 - $P(w_1,w_2...w_n) = \prod_i{P(w_i|w_1,w_2...w_{i-1})}$

$$P(w_1,w_2...w_n) = \prod_i{P(w_1|w_1,w_2...w_{i-1})}$$

$$P(\text{"Um bom dia para ser"})= P(um).P(bom|um).P(dia|um,bom).
P(para|um,bom,dia).P(ser|um,bom,dia,para)$$

Como estimar estas probabilidades?



Contar e dividir?

$P("brasileiro"|\text{"Um bom dia para ser"}) = $

$$ \frac{freq("Um,bom,dia,para,ser,brasileiro")}{freq("Um,bom,dia,para,ser")} $$

Vamos ver no google qual a probabilidade?

Problema: Muitas possibilidades de frases, com tamanhos radicalmente diferentes.

## Suposição Markoviana

__A probabilidade de uma palavra depende apenas da palavra anterior.__

Afrouxando um pouco, podemos assumir que depende das _n_ palavras anteriores.
 - N-Gramas.

$P("brasileiro"|\text{"Um bom dia para ser"}) \approx P("brasileiro"|"ser")$

ou

$P("brasileiro"|\text{"Um bom dia para ser"}) \approx P("brasileiro"|\text{"para ser"})$

## Suposição Markoviana

$P(w_1,w_2...w_n) \approx \prod_i{P(w_i|w_{i-k}...w_{i-1})}$

Ou seja, quanto maior o k, mais aproximamos:

$P(w_1|w_1w_2...w_n) \approx \prod_i{P(w_i|w_{i-k}...w_{i-1})}$

# Modelo Unigrama

$P(w_1,w_2...w_n) \approx \prod_i{P(w_i)}$

Vamos ver sentenças geradas automaticamente baseado em Dom Casmurro:

In [None]:
import string
# nltk.download('machado')
# nltk.download('punkt')

dom_casmurro = nltk.corpus.machado.raw('romance/marm08.txt')
tokens = nltk.word_tokenize(dom_casmurro.lower().translate(str.maketrans('','',string.punctuation)))

freqs = nltk.FreqDist(tokens)
freqtot = sum(freqs.values())

probs = {x:freqs[x]/freqtot for x in freqs.keys()}


print(probs["a"])

[nltk_data] Downloading package machado to /root/nltk_data...
[nltk_data]   Package machado is already up-to-date!
[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


0.037615565895220256


In [None]:
import random

def unigram():
    prob = random.random()
    v = 0
    for i in probs:
        if(v>prob):
            return i
        v+=probs[i]

for i in range(10):
    print(unigram(),end=',')

outrora,repetiamse,pertencem,souber,apareceme,voltasse,noite,amuado,natureza,bairro,

## Modelos de Bigrama

Probabilidade condicionada na palavra anterior.

$P(w_1,w_2...w_n) \approx \prod_i{P(w_i|w_{i-1})}$

Vamos implementar um modelo de bigramas.

## Estimando probabilidades de N-Gramas

Estimando a máxima verossimilhança de bigramas:

$$P(w_i|w_{i-1}) = \frac{f(w_{i-1},w_{i})}{f(w_{i-1})} $$

Exemplo:

Num corpus com 3 sentenças vamos calcular as probabilidades:

> [s] Eu sou André [/s]

> [s] André, sou eu [/s]

> [s] Eu sou manauara [/s]

In [None]:
list(nltk.bigrams(tokens))
big = nltk.bigrams(tokens)

freqbi = nltk.FreqDist(big)
freqtotbi = sum(freqbi.values())

probi = {x:freqbi[x]/freqs[x[0]] for x in freqbi.keys()}


print(probi[("dom","casmurro")])

0.8


In [None]:
#vamos tentar fazer agora?
#modifique para ser bigrama

def bigram(inverted, anterior):
    prob = random.random()
    v = 0
    for i in inverted[anterior]:
        if(v > prob):
            return i
        v += probs[i]
    return i

inverted = {}
for i in probi:
  if i[0] not in inverted:
    inverted[i[0]] = {i[1]:probi[i]}
  else:
    inverted[i[0]][i[1]] = probi[i]

# print(inverted["dom"])

# for i in range(10):
#    print(bigram(inverted, 'dom'), end=',')

ant = 'eu'
for i in range(10):
    p = bigram(inverted, ant)
    print(p, end=' ')
    ant = p

deixara como pessoas valem só dessas caprichosas me consolassem da 

In [None]:
inverted["dom"]

{'casmurro': 0.8, 'veio': 0.1, 'de': 0.1}

In [None]:
def bigram2(inverted, anterior):
    return max(inverted[anterior], key=inverted[anterior].get)

ant = 'eu'
for i in range(10):
    p = bigram2(inverted, ant)
    print(p, end=' ')
    ant = p

não me lembra que não me lembra que não me 

Podemos ampliar os modelos para tri, 4, 5-gramas ou até mais.

Um modelo limitado de linguagem.
 - Dependências de longa distância.

Mas pra muitas tarefas modelos de N-gramas resolvem bem.

# Estimando probabilidade de sentenças:


P([s] Um bom dia para ser brasileiro [/s]) =

P(Um|[s]) x P(Bom|Um) x P(dia|bom) x

P(para|dia) x P(ser|para) x P(Brasileiro|para)


Probabilidades: sempre em espaço logarítmico:
 - Diminuir underflow
 - Somar é mais rápido que multiplicar

$log(p_1.p_2.p_3) = log(p_1)+log(p_2)+log(p_3)$

# Ferramentas para modelos de linguagem

SRILM

http://www.speech.sri.com/projects/srilm/


KenLM

https://kheafield.com/code/kenlm/



### Google N-grams

Em 2006 o google lançou um dataset com frequencias de N-gramas de 1-5, com 13.588.391 palavras únicas (todas com frequência acima de 200)

https://ai.googleblog.com/2006/08/all-our-n-gram-are-belong-to-you.html

https://books.google.com/ngrams

# Avaliando Modelos de Linguagem

O modo ideal de avaliar um modelo de linguagem seria _avaliação extrínsica_.
 - Bota os 2 modelos para rodar no mundo real e ve qual se sai melhor.
 - Impraticável em muitos casos, precisa de tempo e pessoas.

O jeito é fazer avaliação intrínsica:
 - Usar um conjunto de teste com holdout.
 - Escolher alguma métrica como _perplexidade_.
 - Problema: Se o teste não for parecido com o treino.

## Perplexidade

A perplexidade de um modelo de linguagem em um conjunto de teste é _o inverso_ da probabilidade do conjunto de teste ser gerado pelo modelo, normalizado pelo tamanho do vocabulário.

Dado um teste $w_1w_2w_3...w_N$:

$$PP(W) = P(w_1,w_2,...w_N)^{\frac{-1}{N}} = $$

$$ \sqrt[N]{\prod_{i=1}^{N}\frac{1}{P(w_i|w_{i-k}...w_{i-1})}}$$

Inversamente correlacionada com a probabilidade (maior é pior).

## Entendendo perplexidade

Perplexidade pode ser vista como uma árvore de escolhas ponderadas.

Quão dificil é uma linguagem teste com os digitos de 0-9 ocorrendo com a mesma frequência?

$$P(W) = ( \frac{1}{10}^N)^{-\frac{1}{N}} $$

$$ \frac{1}{10}^{-1} = 10$$

Um modelo treinado com um treino onde, por exemplo, o dígito 0 tenha frequência muito maior, vai ter uma perplexidade mais alta no teste, pois o modelo vai encontrar menos 0 do que imagina.

### Gerando sentenças

Escolha um bigrama aleatório ([s],w) que comece com um token [s] de início de sentença de acordo com as probabilidades.

Escolha bigramas (w,x) também pelas probabilidades.

Repita até encontrar um bigrama de fim de frase (x,[/s])

In [None]:
# Preparar o machado de assis aqui

### Cuidado com overfit

Modelos de N-Gramas funcionam bem desde que o teste pareça com o treino.
 - É comum que não pareça.
 - Aspectos temporais por exemplo.

Os modelos tem que generalizar.
 - Mas o que fazer com as frequências zero?
 - Coisas que não estão no treino mas estão no teste.

### Palavras desconhecidas

Uma forma de tratar este problema, quando trabalhamos com vocabulário fixo, é usar um token especial \<UNK\>.
 - O vocabulario pode ser podado com uma frequência fixa, ou as top-K mais frequentes.
 - Todas palavras podadas nesta fase no treino são substituídas por \<UNK\>
 - O modelo aprende uma distribuição de probabilidades considerando as desconhecidas.
 - Assim ele pode prever estas palavras.

Cuidado! Um vocabulário muito curto pode fazer com que a perplexidade __caia__. Por que?

Bigramas com frequência zero no treino vão ter probabilidade zero.

O que vai fazer a probabilidade do teste ser zero também.

Isso vai fazer a perplexidade literalmente tender ao infinito (já que vai ter uma divisão por zero).

## Smoothing

Uma saída para isto é suavizar as probabilidades, adicionando valores para todas probabilidades zero terem uma chance mínima.

![image.png](attachment:image.png)

# Smoothing de Laplace (ou soma-um)

Imagine que cada palavra apareceu uma vez a mais no treino (ou seja, todas as probabilidades tem frequência mínima 1.

$$ P_l(w_i|w_{i-1}) = \frac{f(w_i|w_{i-1})+1}{f(w_{i-1})+V} $$

Na prática, é como se um pouco da frequencia dos bigramas fossem redistribuídos para os zeros:

![image-2.png](attachment:image-2.png)

Laplace não é normalmente usado para modelos de N-gramas.
 - Ele mexe demais nas probabilidades de ordem de palavras.

Bem comum em outras tasks, como classificação, onde não existem tantos zeros.

## Backoff e Interpolação

Existem casos em que contexto demais pode atrapalhar.
 - Especialmente em contextos que não são tão comuns.

### Backoff
 - Use trigramas se forem bons pra situação.
 - Senão bigramas, senão unigramas.

### Interpolação
 - misturar unigramas, bigramas e trigramas

## Interpolação Linear

#### Interpolação simples

$$ \begin{aligned}\hat{P}(w_n|w_{n-2}w_{n-1}) =  \lambda_1 P(w_n|w_{n-2}w_{n-1}) \\
 + \lambda_2 P(w_n|w_{n-1}) \\
 + \lambda_3 P(w_n) \end{aligned}$$

#### Interpolação com contexto

$$ \begin{aligned}\hat{P}(w_n|w_{n-2}w_{n-1}) =  \lambda_1(w_{n-2}^{n-1}) P(w_n|w_{n-2}w_{n-1}) \\
 + \lambda_2(w_{n-2}^{n-1}) P(w_n|w_{n-1}) \\
 + \lambda_3(w_{n-2}^{n-1}) P(w_n) \end{aligned}$$


## Como escolher os Lambdas

Hold-out com __validação__.

Escolha os $\lambda$s que maximizem a probabilidade da validação (minimizando a perplexidade).
 - Fixar as probabilidades de N-gramas do modelo geradas no treino.
 - Buscar pelos $\lambda$s usando algum algoritmo de maximização de verossimilhança, como o EM.


## Otimizações para corpus grandes

Poda de vocabulário
 - Só guardar informações sobre n-gramas com frequência maior que um limiar.
 - Poda baseada em entropia.

Eficiência
 - Estruturas de dados como tries.
 - Filtros de Bloom: aproximações de modelos de linguagem
 - Armazenar palavras como índices ao invés de strings.
     - Comprimindo, p. exemplo com árvores de Huffman.
 - Quantização: Armazenar as probabilidades com menos bits ao invés de um float.