### N-grams models

Modelos de N-grams servem para predizer palavras no texto. Com um modelo bem treinado é possível dizer qual a próxima palavra. Também é possível corrijir sentenças formadas por palavras, e também pode ser usado para reconhecimento de voz (não sei como rsrs).

Para entendermos o conceito de N-grams, primeiro precisamos definir o que são unigramas, bigramas, trigramas, etc.
Unigrama é o conjunto de palavras únicas de uma determinada frase, isto é, para a frase "Eu gosto de comer e também gosto de brincar", podemos definir o seguinte conjunto:

{eu,gosto,de,comer,e,também,brincar}

Um bigrama é definido pelo conjunto de pares de palavras ocorridos de forma consecutiva no texto.

{eu gosto, gosto de, de comer, comer e, e também, também gosto, de brincar}

Segue-se o mesmo raciocínio para um trigrama. O interessante é o seguinte, para calcularmos a probabilidade de uma determinada palavra dado um contexto podemos definir isso nos seguintes termos.

$$P(w|C) = \frac{P(w\cap C)}{P(C)}$$

Definamos agora contexto como uma série de duas palavras (bigrama), temos:

$$P(w_{1}|w_{2}w_{3}) = \frac{P(w_{1}\cap w_{2}w_{3})}{P(w_{2}w_{3})} = \frac{P(w_{1}w_{2}w_{3})}{P(w_{2}w_{3})}$$

Ora, sabemos que se W são todas as palavras de um corpo - incluindo repetidas - onde |||| é o total de palavras existentes em W:

$$P(w) = \frac{C(w)}{||W||} ,t.q. w \in W$$

Se $\forall i | w_{i} \in W$ então temos que:

$$P(w_{1}|w_{2}w_{3}) = \frac{P(w_{1}w_{2}w_{3})}{P(w_{2}w_{3})} = \frac{\frac{C(w_{1}w_{2}w_{3})}{||W||}}{\frac{(w_{2}w_{3})}{||W||}} = \frac{C(w_{1}w_{2}w_{3})}{C(w_{2}w_{3})} $$

<b>Onde C é a contagem do conjunto de palavras em W</b>. Dito isso, é fácil ver que a probabilidade de uma n-ésima palavra é dada por:

$$P(w_{n}|w_{1}...w_{n-1}) = \frac{C(w_{1}...w_{n})}{C(w_{1}...w_{n-1})}$$

### Definindo o modelo

O modelo vai trabalhar com duas matrizes, a matriz de contagem e a de probabilidade. Antes de falar dessas matrizes é importante definirmos tags para o final e o início das frases. Só assim o modelo vai calcular as probabilidades de forma que faça sentido. A regra é a seguinte, adiciona-se a tag \<s> N - 1 vezes no incício da frase. Assim, para a frase:

    "Eu gosto de comer",
    
Em bigramas teremos:
    
    "<s> Eu gosto de comer"
        
Em trigramas teremos:
    
    "<s> <s> Eu gosto de comer"

E assim em diante. De forma similar, é preciso adicionar uma tag no final das sentenças \</s>. Basta uma única tag para o final das sentenças. Assim seguindo os exemplos anteriores teremos:

    "Eu gosto de comer",
    
Em bigramas teremos:
    
    "<s> Eu gosto de comer </s>"
        
Em trigramas teremos:
    
    "<s> <s> Eu gosto de comer </s>"
    
Assim, podemos computar a probabilidade do final da sentença da forma:

Para bigramas
$$P( </s>| comer)$$

Para trigramas:
    
$$ P( </s>| de,comer) $$

E de forma similar é possível calcular a probabilidade das primeiras palavras:

Para bigramas
$$P( eu| <s>)$$

Para trigramas
$$P( eu| <s>,<s>)$$

A matriz de contagem apresentada até então foi uma matriz para bigramas. Onde as linhas se referem a primeira ocorrência da palavra no bigrama, e as colunas a segunda ocorrência. Observe o exemplo:
![image.png](attachment:image.png)

Para obtermos a matriz de probabilidades, basta normalizarmos as linhas. Isto é, dividir cada linha pelo seu somatório.
![image-2.png](attachment:image-2.png)

In [15]:
import urllib.request
import urllib.parse
import re
import numpy as np

def normalize(vec):
    return vec/(np.linalg.norm(vec))
import re
try: 
    from BeautifulSoup import BeautifulSoup
except ImportError:
    from bs4 import BeautifulSoup

maxRange = 20
portugCorpus = []
for index in range(1,maxRange):
    url = "https://bibliaportugues.com/kja/genesis/"+str(index)+".htm"
    response = urllib.request.urlopen(url)
    if(response.status < 300):
        contents = response.read()
        contents = contents.decode("utf-8")
        parsed_html = BeautifulSoup(contents)
        htmlTextArray = parsed_html.body.find_all('span', attrs={'class':'maintext'})
        textArray = [ele.text for ele in htmlTextArray]
        portugCorpus += textArray

### Ngrama

Abaixo segui o raciocínio para formar um algoritmo para criar ngramas. Com python ficou muito fácil. Agora que eu tenho essas informações vou aplicar o raciocínio a bigramas para obter as probabilidades.

In [16]:
pontuacao = [",",".",":",";","?","!","(",")","&","“", "”","\"","'",'']
palavrasIrrelevantes = [str(line).split(" ")[0] for line in open("../classification-vector-spaces-in-nlp/palavrasIrrelevantes.txt", encoding="utf-8")]
unigramas = {}

def tokenizar(frase, vocabulario = None):
    fraseTokenizada = []
    for palavra in frase.split(" "):
        if len(palavra) == 0:
            continue
        for ponto in pontuacao:
            if ponto in palavra:
                palavra = palavra.replace(ponto,"")
        palavra = palavra.lower()
        #if palavra in palavrasIrrelevantes:
            #continue
        if vocabulario != None:
            if palavra not in vocabulario:
                fraseTokenizada.append("<unk>")
        fraseTokenizada.append(palavra)
    return fraseTokenizada

def unigramar(corpus, unigramas):
    unigramas["<s>"] = 0
    unigramas["</s>"] = 1
    unigramas["<unk>"] = 2
    count = 3
    for frase in corpus:
        tokens = tokenizar(frase)
        for token in tokens:
            if token not in unigramas.keys():
                unigramas[token] = count
                count += 1
    return unigramas


def bigramar(corpus, bigramas):
    count = 0
    for frase in corpus:
        tokens = tokenizar(frase)
        tokens = ["<s>"] + tokens + ["</s>"]
        for i in range(1,len(tokens)):
            bigram = " ".join(tokens[i-1:i+1])
            if  bigram not in bigramas.keys():
                bigramas[bigram] = count
                count += 1
    return bigramas

def ngramar(corpus, ngramas, n = 3):
    count = 0
    for frase in corpus:
        tokens = tokenizar(frase)
        tokens = ["<s>" for i in range(n-1)] + tokens + ["</s>"]
        for i in range(n-1,len(tokens)):
            ngram = " ".join(tokens[i-(n-1):i+1])
            if  ngram not in ngramas.keys():
                ngramas[ngram] = count
                count += 1
    return ngramas

unigramar(portugCorpus[0:3], unigramas)
bigramar(portugCorpus[0:3],{})
ngramar(portugCorpus[0:1],{}, n=5)

{'<s> <s> <s> <s> no': 0,
 '<s> <s> <s> no princípio': 1,
 '<s> <s> no princípio deus': 2,
 '<s> no princípio deus criou': 3,
 'no princípio deus criou os': 4,
 'princípio deus criou os céus': 5,
 'deus criou os céus e': 6,
 'criou os céus e a': 7,
 'os céus e a terra': 8,
 'céus e a terra </s>': 9}

In [17]:
vocabulario = unigramar(portugCorpus, {})
bigramas = ngramar(portugCorpus, {}, n=2)

## Matriz Bigrama

A matriz de bigrama consiste em uma matriz que faz a contagem da ocorrência de bigramas no texto. Para computala, primeiro definimos quais os bigramas existentes no texto, e depois para cada sentença do texto, verificamos a ocorrência desses bigramas.

O algoritmo que forma a matriz abaixo já normaliza a mesma.

## Laplacian Smoothing

Como pode ser que não exista um determinado bigrama no corpo de treino, um método que ajuda a melhorar a performance do modelo é o Laplacian smoothing. 

Este método consiste em somar 1 (Ou K) na linha antes de normalizar. Assim, a matriz vai considerar a existencia de pelo menos 1 bigrama de cada possibilidade com pesos de probabilidades ajustada. 



In [18]:
import numpy as np

def matriz_bigrama(corpus,vocabulario,bigramas):
    matriz = np.zeros(shape = (len(vocabulario),len(vocabulario)))
    for bigrama in bigramas:
        palavras = tokenizar(bigrama)
        i,j = vocabulario[palavras[0]],vocabulario[palavras[1]]
        for frase in corpus:
            tokens = tokenizar(frase)
            tokens = ["<s>"] + tokens + ["</s>"]
            for k in range(1,len(tokens)):
                auxBigrama = " ".join(tokens[k-1:k+1])
                if auxBigrama == bigrama:
                    matriz[i,j] += 1
    for i in range(matriz.shape[0]):
        matriz[i,:] += 1 #Smoothing, Laplacian Smoothing
        summy = matriz[i,:].sum()
        if summy > 0:
            matriz[i,:] = matriz[i,:]/summy
    return matriz
    
matriz = matriz_bigrama(portugCorpus,vocabulario,bigramas)

In [19]:
matriz[vocabulario["disse"],vocabulario["deus"]]

0.0022391401701746527

## Probabilidade de uma Sequência

Para calcularmos a probabilidade de uma sequência, basta resolvermos a probabilidade de seus ngramas. No curso, foi apresentado (Não demonstrado) a seguinte aproximação para sequências.

$$ P(w_{1},...,w_{n}) \approx \prod^{n}_{i=1}{P(w_{i}|w_{i-1})}$$

Ou seja, a probabilidade de uma sequência (ngrama completo) é equivalente ao produto da probabilidade dos bigramas daquela sequência. Para evitarmos trabalharmos com decimais podemos aplicar o seguinte

$$ log(P(w_{1},...,w_{n})) \approx log(\prod^{n}_{i=1}{P(w_{i}|w_{i-1})}) = \sum^{n}_{i=1}{P(w_{i}|w_{i-1})}$$

A seguir, vamos usar essa formula para calcular a probabilidade de uma frase qualquer

In [20]:
teste = "No princípio deus"

def log_probabilidade_sequencia(frase, matriz, vocabulario):
    tokens = tokenizar(frase)
    tokens = tokens
    prob = 0
    for k in range(1,len(tokens)):
        palavras = [tokens[k-1],tokens[k]]
        if palavras[0] not in vocabulario:
            palavras[0] = "<unk>"
        if palavras[1] not in vocabulario:
            palavras[1] = "<unk>"
        i,j = vocabulario[palavras[0]],vocabulario[palavras[1]]
        prob = prob + np.log(matriz[i,j])
    return prob

log_probabilidade_sequencia(teste,matriz,vocabulario)

-14.050532085978519

In [21]:
def gerar_proximo(frase,matriz,vocabulario):
    prox_palavra = "</s>"
    prox_palavra_prob = -99999
    for palavra in vocabulario:
        nova_frase = " ".join([frase,palavra])
        prob = log_probabilidade_sequencia(nova_frase,matriz,vocabulario)
        #print(nova_frase,prob)
        if prob > prox_palavra_prob:
            prox_palavra_prob = prob
            prox_palavra = palavra
    return prox_palavra,prox_palavra_prob

def gerar_frase(matriz,vocabulario,tamanho, inicio = "<s>"):
    resposta = inicio
    for i in range(tamanho):
        proximo = gerar_proximo(resposta,matriz,vocabulario)
        resposta = " ".join([resposta,proximo[0]])
        if proximo[0] == "</s>":
            break
    return resposta

gerar_frase(matriz,vocabulario,10,"Disse Deus")

'Disse Deus que o senhor deus que o senhor deus que o'

## Interpolação

Interpolação é outra estratégia interessante para computarmos a probabilidade de uma sequência. Ela é definida fatorando o ngrama em níveis menores como uma combinação e fazendo uso de constantes.

Assim, o bigrama poderia ser representado da seguinte forma:

$$ P(w_{n} | w_{n-1}) = \lambda_{1}P(w_{n} | w_{n-1}) + \lambda_{2}P(w_{n})$$

Para fazermos o teste, é necessário calcular um array de probabilidade de unigramas, coisa que não foi feita acima.