## Modelo Unigrama, Bigrama, Trigrama

### Configuração

In [1]:
import random
import re
from collections import defaultdict, Counter

### Metodos adicionais

In [2]:
def read_text_from_file(file_path):
    with open(file_path, 'r', encoding='utf-8') as file:
        return file.read()

### Definição do modelo

In [7]:
class NGramModel:
    def __init__(self, n):
        self.n = n  #valor de n no modelo n-grama
        self.ngrams = defaultdict(Counter)  #Inicializa um defaultdict de Counters para armazenar n-gramas e suas frequencias

    def train(self, text):
        tokens = self._tokenize(text)   #tokeniza a entrada de texto
        ngrams = self._create_ngrams(tokens)    #cria n-gramas a partir dos tokens

        for ngram in ngrams:    #itera sobre as n-gramas criadas
            prefix, token = tuple(ngram[:-1]), ngram[-1]    #Separa a n-grama em prefixo e token
            self.ngrams[prefix][token] += 1     #incrementa a frequencia do token que sucede o prefixo

    def generate(self, max_words=100):
        output = []
        if self.n == 1:     #tratando caso de unigramas
            for _ in range(max_words):
                next_word = self._choose_next(None)     #unigramas usam none como prefixo
                if next_word is None:
                    break
                output.append(next_word)
        else:
            current = random.choice(list(self.ngrams.keys()))   #Selecione oum prefixo inicial aleatoriamente
            output = list(current)    #inicializa a saida com o prefixo inicial
    
            for _ in range(max_words - self.n + 1):     #gera palavras ate que max_words seja alcançado
                next_word = self._choose_next(current)  #escolhe a proxima palavra baseado no prefixo atual
                if next_word is None:      #Se nenhuma palavra é encontrada, quebre o laço
                    break
                output.append(next_word)    #adicione a proxima palavra a saida
                current = tuple(output[-self.n+1:])     #atualize o prefixo atual
        return ' '.join(output)     #retorna o texto gerado como string
    
    def _choose_next(self, prefix):
        if self.n == 1:
            options = self.ngrams[()]  # Para unigrama, use uma tupla vazia como chave
        else:
            options = self.ngrams.get(prefix, None)  # Pegue as possíveis próxijmas palavras para o dado prefixo

        if options:  # Se options foi encontrado
            total = sum(options.values())
            probs = [count / total for count in options.values()]  # Calcula as probabilidades
            return random.choices(list(options.keys()), weights=probs)[0]  # Escolha uma palavra baseada nas probabilidades
        else:
            return None  # Retorna None se options não for encontrado
    
    def _create_ngrams(self, tokens):
        if len(tokens) < self.n:
            return []
        return [tuple(tokens[i:i + self.n]) for i in range(len(tokens) - self.n + 1)]   #cria n-gramas dos tokens
    
    def _tokenize(self, text):
        text = text.lower()     #converte o texto para caixa-baixa
        text = re.sub(r'\s+', ' ', text)    #substitui multiplos espaços com um unico espaço
        text = re.sub(r'[^\w\s]', '', text)     #remove pontuação
        return text.split()    #separa o texto em tokens de caracteres passando o texto

### Exemplo de Uso

In [8]:
file_path = 'iracema.txt'
text = read_text_from_file(file_path)

unigram_model = NGramModel(1)
bigram_model = NGramModel(2)
trigram_model = NGramModel(3)

unigram_model.train(text)
bigram_model.train(text)
trigram_model.train(text)

print("Unigram Generated Text:", unigram_model.generate(max_words=20))
print("Bigram Generated Text:", bigram_model.generate(max_words=20))
print("Trigram Generated Text:", trigram_model.generate(max_words=20))

Unigram Generated Text: da as nos da sua o sua ecco and de já do a refeição estão espirito na the em brasilica
Bigram Generated Text: payments must cease using this ebook of obtaining a este livrinho que tinha sido a chamam vulgarmente _typoia_ rejeitouse o
Trigram Generated Text: o neto por narseja elle prophetisa nesse parallelo a destruição de sua felicidade e são agora de amarga saudade quando


## Modelo com tokenização a nivel de caractere

In [9]:
import random
import re
from collections import defaultdict, Counter

class NGramModel1:
    def __init__(self, n):
        self.n = n  # Valor de n no modelo N-Grama (e.g., 1 para unigrama, 2 para bigrama)
        self.ngrams = defaultdict(Counter)  # Initializa um defaultdict de Counters para armazenar n-gramas e suas frequencias

    def train(self, text):
        tokens = self._tokenize(text)  # Tokeniza a entrada de texto
        ngrams = self._create_ngrams(tokens)  # Cria n-gramas a partir dos tokens

        for ngram in ngrams:  # Itera sobre as n-gramas criadas
            prefix, token = tuple(ngram[:-1]), ngram[-1]  # Separa a n-grama em prefixo e token
            self.ngrams[prefix][token] += 1  # Incrementa a frequencia do token que sucede o prefixo

    def generate(self, max_words=100):
        output = []
        if self.n == 1:  # Tratando o caso de unigramas
            for _ in range(max_words):
                next_word = self._choose_next(None)  # Unigramas usam None como prefixo
                if next_word is None:
                    break
                output.append(next_word)
        else:
            current = random.choice(list(self.ngrams.keys()))  # Selecione um prefixo inicital aleatoriamente
            output = list(current)  # Inicializa a saída com o prefixo inicial

            for _ in range(max_words - self.n + 1):  # Gera palavras até que max_words seja alcançado
                next_word = self._choose_next(current)  # Escolhe a próxima palavra baseado no prefixo atual
                if next_word is None:  # Se nenhuma palvavra é encontrada, quebre o laço
                    break
                output.append(next_word)  # Adicione a próxima palavra à saída
                current = tuple(output[-self.n+1:])  # Atualize o prefixo atual

        return ' '.join(output)  # Retorna o texto gerado como string

    def _choose_next(self, prefix):
        if self.n == 1:
            options = self.ngrams[()]  # Para unigrama, use uma tupla vazia como chave
        else:
            options = self.ngrams.get(prefix, None)  # Pegue as possíveis próxijmas palavras para o dado prefixo

        if options:  # Se options foi encontrado
            total = sum(options.values())
            probs = [count / total for count in options.values()]  # Calcula as probabilidades
            return random.choices(list(options.keys()), weights=probs)[0]  # Escolha uma palavra baseada nas probabilidades
        else:
            return None  # Retorna None se options não for encontrado

    def _create_ngrams(self, tokens):
        if len(tokens) < self.n:
          return []
        return [tuple(tokens[i:i + self.n]) for i in range(len(tokens) - self.n + 1)]  # Create n-grams from tokens

    def _tokenize(self, text):
        text = text.lower()  # Converte texto para caixa-baixa
        text = re.sub(r'\s+', ' ', text)  # Substitue múltiplos espaços com um único espaço
        text = re.sub(r'[^\w\s]', '', text)  # Remove pontuação
        return lista  # Separa o texto em tokens de caracteres passando a lista criada

In [10]:
lista = list(text)

### Exemplo de Uso

In [11]:
file_path = 'iracema.txt'
text = read_text_from_file(file_path)

unigram_model = NGramModel1(1)
bigram_model = NGramModel1(2)
trigram_model = NGramModel1(3)
tengram_model = NGramModel1(10)

unigram_model.train(text)
bigram_model.train(text)
trigram_model.train(text)
tengram_model.train(text)

print("Unigram Generated Text:", unigram_model.generate(max_words=30))
print("Bigram Generated Text:", bigram_model.generate(max_words=30))
print("Trigram Generated Text:", trigram_model.generate(max_words=30))
print("Tengram Generated Text:", tengram_model.generate(max_words=30))

Unigram Generated Text: p   m l   t e e u r   a s r h e p n i   i a p   i i   u 
 e
Bigram Generated Text: Õ e r a c o s a r a s e r e l a r a r a m a r k   e   a r a
Trigram Generated Text: 3 9 . - - V i ç a r e f f e n t o , 
 q u e r v o l o r k ,
Tengram Generated Text: a   e   e s p e r a n ç a s . 
 
 E i l - o   q u e   v o l
