<a href="https://colab.research.google.com/github/adalves-ufabc/2023.Q1-PLN/blob/main/2023_Q1_PLN_Notebook_04.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Processamento de Linguagem Natural [2023.Q1]**
Prof. Alexandre Donizeti Alves

## **Modelo de Linguagem com N-gramas**
---



Um modelo de linguagem com n-gramas é um tipo de modelo estatístico usado em PLN para prever a probabilidade de uma sequência de palavras ocorrer em um determinado contexto.

O "n" em "n-grama" refere-se ao número de palavras que o modelo leva em consideração de cada vez para fazer suas previsões. Por exemplo, em um modelo de linguagem de n-grama de 3, o modelo usa 3 palavras consecutivas para fazer suas previsões.

O modelo de linguagem com n-gramas funciona calculando a probabilidade condicional de uma palavra dada as n-1 palavras anteriores. Isso é conhecido como modelo de Markov de ordem n-1, onde n-1 é o número de palavras que o modelo leva em consideração para prever a próxima palavra.

Vamos supor que temos o seguinte conjunto de frases:

    "Eu gosto de estudar matemática."
    "Matemática é minha matéria favorita na escola."
    "Eu sempre tive dificuldade em matemática."

Podemos usar um modelo de linguagem com n-gramas para prever a probabilidade de uma palavra aparecer dado o contexto de palavras que a antecedem. Por exemplo, se usarmos um modelo de linguagem com n-gramas de 2, podemos calcular a probabilidade de uma palavra aparecer dado a palavra anterior.

Assim, se quisermos prever a próxima palavra após "Eu gosto de", usamos o modelo de linguagem com n-gramas de 2 para calcular a probabilidade condicional da próxima palavra, que seria:

    Probabilidade de "estudar" dado "Eu gosto de" = 1/1 = 100%
    Probabilidade de "ler" dado "Eu gosto de" = 0/1 = 0%

Nesse caso, o modelo prevê que a próxima palavra após "Eu gosto de" será "estudar" com 100% de probabilidade, já que é a única palavra que aparece após esse conjunto de palavras nas frases fornecidas.

Esse é apenas um exemplo simplificado para ilustrar como um modelo de linguagem com n-gramas funciona na prática. Na prática, usamos modelos mais complexos com um grande número de frases e palavras para criar modelos de linguagem mais precisos.

**NLTK**

Vamos ver um exemplo de como extrair n-gramas usando a biblioteca `NLTK` em Python. Suponha que temos o seguinte texto:

In [None]:
text = "O cachorro correu pelo parque e brincou com a bola."

Podemos extrair os bigramas (2-gramas) do texto da seguinte maneira:

In [None]:
from nltk.util import ngrams

# tokenização do texto
tokenized_text = text.split()

# criação dos bigramas
bigrams = ngrams(tokenized_text, 2)

# exibição dos bigramas
for bigram in bigrams:
    print(bigram)

('O', 'cachorro')
('cachorro', 'correu')
('correu', 'pelo')
('pelo', 'parque')
('parque', 'e')
('e', 'brincou')
('brincou', 'com')
('com', 'a')
('a', 'bola.')


De maneira similar, podemos extrair trigramas e quadrigramas, por exemplo:

In [None]:
# criação dos trigramas
trigrams = ngrams(tokenized_text, 3)

# exibição dos trigramas
for trigram in trigrams:
    print(trigram)

('O', 'cachorro', 'correu')
('cachorro', 'correu', 'pelo')
('correu', 'pelo', 'parque')
('pelo', 'parque', 'e')
('parque', 'e', 'brincou')
('e', 'brincou', 'com')
('brincou', 'com', 'a')
('com', 'a', 'bola.')


In [None]:
# criação dos quadrigramas
quadrigrams = ngrams(tokenized_text, 4)

# exibição dos quadrigramas
for quadrigram in quadrigrams:
    print(quadrigram)

('O', 'cachorro', 'correu', 'pelo')
('cachorro', 'correu', 'pelo', 'parque')
('correu', 'pelo', 'parque', 'e')
('pelo', 'parque', 'e', 'brincou')
('parque', 'e', 'brincou', 'com')
('e', 'brincou', 'com', 'a')
('brincou', 'com', 'a', 'bola.')


**TextBlob**

In [None]:
from textblob import TextBlob

text = "O cachorro correu pelo parque e brincou com a bola."
blob = TextBlob(text)

# criação dos bigramas
bigrams = list(blob.ngrams(2))

print(bigrams)

[WordList(['O', 'cachorro']), WordList(['cachorro', 'correu']), WordList(['correu', 'pelo']), WordList(['pelo', 'parque']), WordList(['parque', 'e']), WordList(['e', 'brincou']), WordList(['brincou', 'com']), WordList(['com', 'a']), WordList(['a', 'bola'])]


In [None]:
# criação dos trigramas
trigrams = list(blob.ngrams(3))

print(trigrams)

[WordList(['O', 'cachorro', 'correu']), WordList(['cachorro', 'correu', 'pelo']), WordList(['correu', 'pelo', 'parque']), WordList(['pelo', 'parque', 'e']), WordList(['parque', 'e', 'brincou']), WordList(['e', 'brincou', 'com']), WordList(['brincou', 'com', 'a']), WordList(['com', 'a', 'bola'])]


**Scikit-learn**

Aqui está um exemplo simples de como extrair bigramas usando a biblioteca `Scikit-learn` em Python:

In [None]:
from sklearn.feature_extraction.text import CountVectorizer

# define os documentos de exemplo
documents = ["o cachorro correu pelo parque",
             "o cachorro brincou com a bola",
             "a bola era azul"]

# cria o vetorizador de n-gramas
vectorizer = CountVectorizer(ngram_range=(2,2))

# extrai os bigramas
X = vectorizer.fit_transform(documents)

# imprime os bigramas
print(vectorizer.get_feature_names_out())

['bola era' 'brincou com' 'cachorro brincou' 'cachorro correu' 'com bola'
 'correu pelo' 'era azul' 'pelo parque']


Neste exemplo, usamos a classe `CountVectorizer` da biblioteca `Scikit-learn` para criar um vetorizador de bigramas a partir de uma lista de documentos de exemplo. Passamos o argumento `ngram_range=(2,2)` para especificar que queremos bigramas, e chamamos o método `fit_transform `para extrair os bigramas dos documentos.

Finalmente, imprimimos os bigramas usando o método `get_feature_names_out` do vetorizador.

Aqui está um exemplo simples de como extrair trigramas usando a biblioteca `Scikit-learn` em Python:

In [None]:
from sklearn.feature_extraction.text import CountVectorizer

# define os documentos de exemplo
documents = ["o cachorro correu pelo parque",
             "o cachorro brincou com a bola",
             "a bola era azul"]

# cria o vetorizador de n-gramas
vectorizer = CountVectorizer(ngram_range=(3,3))

# extrai os trigramas
X = vectorizer.fit_transform(documents)

# imprime os trigramas
print(vectorizer.get_feature_names_out())

['bola era azul' 'brincou com bola' 'cachorro brincou com'
 'cachorro correu pelo' 'correu pelo parque']


Aqui está um exemplo de como extrair unigramas e bigramas usando a biblioteca `Scikit-learn` em Python:

In [None]:
from sklearn.feature_extraction.text import CountVectorizer

# define as avaliações de exemplo
reviews = ["Este filme é incrível, recomendo para todos!", 
           "Muito bom, gostei bastante", 
           "Não gostei muito do filme, achei meio parado", 
           "Uma experiência horrível, não assistam!", 
           "Maravilhoso, não vejo a hora de assistir de novo!"]

# cria o vetorizador de unigramas e bigramas
vectorizer = CountVectorizer(ngram_range=(1,2))

# extrai os unigramas e bigramas de todas as avaliações
X = vectorizer.fit_transform(reviews)

# imprime os unigramas e bigramas extraídos
print("Unigramas e bigramas extraídos:")
print(vectorizer.get_feature_names_out())

Unigramas e bigramas extraídos:
['achei' 'achei meio' 'assistam' 'assistir' 'assistir de' 'bastante' 'bom'
 'bom gostei' 'de' 'de assistir' 'de novo' 'do' 'do filme' 'este'
 'este filme' 'experiência' 'experiência horrível' 'filme' 'filme achei'
 'filme incrível' 'gostei' 'gostei bastante' 'gostei muito' 'hora'
 'hora de' 'horrível' 'horrível não' 'incrível' 'incrível recomendo'
 'maravilhoso' 'maravilhoso não' 'meio' 'meio parado' 'muito' 'muito bom'
 'muito do' 'novo' 'não' 'não assistam' 'não gostei' 'não vejo' 'para'
 'para todos' 'parado' 'recomendo' 'recomendo para' 'todos' 'uma'
 'uma experiência' 'vejo' 'vejo hora']


## **Exemplos**
---

Suponha que temos o seguinte conjunto de dados:

In [None]:
data = ["o rato roeu a roupa do rei de roma", 
        "uma casa de papel",   
        "o gato comeu o queijo",    
        "o cachorro late muito",    
        "o cavalo galopa livremente",    
        "a janela quebrou",    
        "a porta está aberta"]


Nosso objetivo é construir um modelo de linguagem com base nos n-gramas dessas frases e usá-lo para prever a próxima palavra em uma dada frase.

Para isso, vamos usar a biblioteca NLTK em Python para tokenizar as frases em palavras e construir os n-gramas.

In [None]:
import nltk
nltk.download('punkt')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

In [None]:
import nltk
from nltk.util import ngrams
from collections import Counter

# tokenização das frases
tokenized_data = [nltk.word_tokenize(sentence) for sentence in data]

# criação dos bigramas
bigrams = []
for sentence in tokenized_data:
    sentence_bigrams = ngrams(sentence, 2)
    bigrams.extend(sentence_bigrams)

# contagem dos bigramas
bigram_counts = Counter(bigrams)

# cálculo das probabilidades condicionais
def predict_next_word(word, bigram_counts):
    possible_next_words = []
    for bigram in bigram_counts:
        if bigram[0] == word:
            possible_next_words.append((bigram[1], bigram_counts[bigram]))
    return possible_next_words

Neste exemplo, estamos construindo um modelo de bigramas e testando-o com a palavra "rato". O modelo retorna uma lista de possíveis palavras seguintes, juntamente com a frequência de cada bigrama observado na base de dados:

In [None]:
# teste do modelo
print(predict_next_word("rato", bigram_counts))

[('roeu', 1)]


Aqui está outro exemplo que usa um modelo de linguagem com bigramas para prever a próxima palavra em uma frase:

In [None]:
import nltk
nltk.download('punkt')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

In [None]:
from nltk.util import ngrams
from collections import defaultdict

# Texto de exemplo
text = "O rato roeu a roupa do rei de Roma. E a rainha ficou só."

# Treinar modelo de linguagem com bigramas
tokens = nltk.word_tokenize(text.lower())
bigrams = list(ngrams(tokens, 2))
model = defaultdict(lambda: defaultdict(lambda: 0))
for w1, w2 in bigrams:
    model[w1][w2] += 1

# Prever a próxima palavra em uma frase
def predict_next_word(sentence):
    tokens = nltk.word_tokenize(sentence.lower())
    last_word = tokens[-1]
    next_word_probabilities = model[last_word]
    if len(next_word_probabilities) == 0:
        return None
    return max(next_word_probabilities, key=next_word_probabilities.get)

# Prever a próxima palavra em uma frase de exemplo
sentence = "O rato roeu a roupa do"
next_word = predict_next_word(sentence)
print(f"A próxima palavra em '{sentence}' é '{next_word}'.")

A próxima palavra em 'O rato roeu a roupa do' é 'rei'.


Aqui está um exemplo que usa um modelo de linguagem com trigramas para prever a próxima palavra com base em duas palavras anteriores:

In [None]:
import nltk

# Texto de exemplo
text = "O rato roeu a roupa do rei de Roma. E a rainha ficou só."

# Tokenizar palavras e criar trigramas
tokens = nltk.word_tokenize(text.lower())
trigrams = list(nltk.trigrams(tokens))

# Criar dicionário de trigramas com suas frequências
trigram_counts = {}
for trigram in trigrams:
    if trigram[:2] not in trigram_counts:
        trigram_counts[trigram[:2]] = {}
    if trigram[2] not in trigram_counts[trigram[:2]]:
        trigram_counts[trigram[:2]][trigram[2]] = 0
    trigram_counts[trigram[:2]][trigram[2]] += 1

# Função para prever próxima palavra com base em duas palavras anteriores
def predict_next_word(prev_word1, prev_word2):
    if (prev_word1, prev_word2) not in trigram_counts:
        return None
    next_word = max(trigram_counts[(prev_word1, prev_word2)], key=trigram_counts[(prev_word1, prev_word2)].get)
    return next_word

# Testar a função com algumas palavras
print(predict_next_word('a', 'roupa'))
print(predict_next_word('o', 'rato'))
print(predict_next_word('de', 'roma'))

do
roeu
.


Vamoso criar um modelo de linguagem com n-gramas usando a biblioteca `NLTK` do Python.

Para começar, precisamos importar as bibliotecas necessárias e fazer o download dos dados e pacotes do `NLTK`:

In [None]:
import nltk
nltk.download('punkt')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

Em seguida, vamos criar uma lista de sentenças de exemplo para treinar nosso modelo:

In [None]:
sentences = ["O cachorro late para a lua.",  
             "A lua é branca como a neve.",  
             "O sol é amarelo e brilhante.",   
             "O cachorro é o melhor amigo do homem.",  
             "A lua é o satélite natural da Terra.",   
             "O cachorro corre pelo parque.",  
             "O sol nasce no leste e se põe no oeste.",  
             "A lua cheia é linda no céu noturno.",   
             "O cachorro abana o rabo quando está feliz."]

Agora, vamos criar uma função que irá receber uma lista de sentenças e um valor de n (o tamanho do n-grama) e retornar um modelo de linguagem com n-gramas:

In [None]:
from nltk import ngrams, FreqDist

def create_ngram_model(sentences, n):
    # Inicializar um dicionário vazio para armazenar a frequência dos n-gramas
    ngram_freq = {}
    
    # Iterar sobre as sentenças e gerar n-gramas
    for sentence in sentences:
        # Quebrar a sentença em tokens
        tokens = nltk.word_tokenize(sentence.lower())
        
        # Gerar n-gramas
        ngrams_list = list(ngrams(tokens, n))
        
        # Iterar sobre os n-gramas e adicionar à frequência
        for ngram in ngrams_list:
            if ngram in ngram_freq:
                ngram_freq[ngram] += 1
            else:
                ngram_freq[ngram] = 1
    
    # Calcular a frequência relativa de cada n-grama
    for ngram in ngram_freq:
        ngram_freq[ngram] /= len(ngram_freq)
    
    # Retornar um objeto FreqDist com as frequências relativas dos n-gramas
    return FreqDist(ngram_freq)

Agora, podemos usar a função para criar um modelo de linguagem com n-gramas de tamanho 2 (bigramas) a partir das sentenças de exemplo:

In [None]:
model = create_ngram_model(sentences, 2)

Podemos usar o modelo para gerar uma lista dos bigramas mais comuns:

In [None]:
print(model.most_common(10))

[(('o', 'cachorro'), 0.07017543859649122), (('a', 'lua'), 0.07017543859649122), (('lua', 'é'), 0.03508771929824561), (('o', 'sol'), 0.03508771929824561), (('é', 'o'), 0.03508771929824561), (('cachorro', 'late'), 0.017543859649122806), (('late', 'para'), 0.017543859649122806), (('para', 'a'), 0.017543859649122806), (('lua', '.'), 0.017543859649122806), (('é', 'branca'), 0.017543859649122806)]


Isso gera uma lista dos 10 bigramas mais comuns no corpus de exemplo, juntamente com suas frequências relativas.