# Funções Individuais que suportam o texto

In [1]:
import re
def preprocessar_texto(texto):
    texto = texto.lower()
    delimitadores = '[_]|[ ]|[!]|[; ]|[, ]|[\r]|[\n]|[.]'
    doc = re.split(delimitadores, texto)
    return [i for i in doc if i != ""]

In [2]:
texto = "Era uma vez um rei que vivia em um castelo. O castelo era muito grande e tinha várias torres."
preprocessar_texto(texto)

['era',
 'uma',
 'vez',
 'um',
 'rei',
 'que',
 'vivia',
 'em',
 'um',
 'castelo',
 'o',
 'castelo',
 'era',
 'muito',
 'grande',
 'e',
 'tinha',
 'várias',
 'torres']

In [3]:
def criar_modelo_ngram(documento, n):
    transicoes = {}

    for i in range(len(documento) - n + 1):
        ngram = tuple(documento[i:i+n-1])
        proxima_palavra = documento[i+n-1]
        
        if ngram not in transicoes:
            transicoes[ngram] = []
        
        transicoes[ngram].append(proxima_palavra)
    
    return transicoes

In [4]:
criar_modelo_ngram(preprocessar_texto(texto), 2)

{('era',): ['uma', 'muito'],
 ('uma',): ['vez'],
 ('vez',): ['um'],
 ('um',): ['rei', 'castelo'],
 ('rei',): ['que'],
 ('que',): ['vivia'],
 ('vivia',): ['em'],
 ('em',): ['um'],
 ('castelo',): ['o', 'era'],
 ('o',): ['castelo'],
 ('muito',): ['grande'],
 ('grande',): ['e'],
 ('e',): ['tinha'],
 ('tinha',): ['várias'],
 ('várias',): ['torres']}

In [5]:
from collections import Counter
import random

def gerar_texto(documento, n, frase_inicial, n_max_palavras):
    
    inicio = preprocessar_texto(frase_inicial)
    atual = tuple(inicio[-(n-1):])
    resultado = inicio  

    while len(resultado)<n_max_palavras:
        possiveis_proximas_palavras = documento.get(atual, [])
        if not possiveis_proximas_palavras:
            break
        
        contagem = Counter(possiveis_proximas_palavras)    
        total = sum(contagem.values())
        
        probabilidades = {palavra: cont/total for palavra, cont in contagem.items()}
        
        prob_max = max(probabilidades.values())
        mais_provavel = [palavra for palavra, prob in probabilidades.items() if prob == prob_max]
        
        proxima_palavra = random.choice(mais_provavel)
        
        resultado.append(proxima_palavra)          
        atual = tuple(resultado[-(n-1):])
    
    return " ".join(resultado) 


In [6]:
t = criar_modelo_ngram(preprocessar_texto(texto), 2)
gerar_texto(documento=t, n=2, frase_inicial="era uma vez", n_max_palavras=20)

'era uma vez um castelo era muito grande e tinha várias torres'

## Função completa

In [214]:
class ngram_model():
    def __init__(self):
        pass

    def preprocessar_texto(self, texto):
        import re
        return re.findall(r'\w+|[.,;!]', texto.lower())
    
    def criar_modelo_ngram(self, documento, n):
        transicoes = {}

        for i in range(len(documento) - n + 1):
            ngram = tuple(documento[i:i+n-1])
            proxima_palavra = documento[i+n-1]
            
            if ngram not in transicoes:
                transicoes[ngram] = []
            
            transicoes[ngram].append(proxima_palavra)
        
        return transicoes
    
    def maiuscula(text):
        result = []
        capitalize_next = False 
        for char in text:
            if capitalize_next and char.isalpha(): 
                result.append(char.upper())  
                capitalize_next = False
            else:
                result.append(char)
            if char in ['.', '', "!", "\n", ":", "?"]:  
                capitalize_next = True
        return result[0].upper()+''.join(result[1:])   


    def gerar_texto(self, documento, n, frase_inicial, max_repeats=1, n_max_palavras=100):    
        from collections import Counter
        import random  
        
        inicio = preprocessar_texto(frase_inicial)
        atual = tuple(inicio[-(n-1):])
        resultado = inicio  
        ngrams_usado = Counter()

        while len(resultado)<n_max_palavras:
            possiveis_proximas_palavras = documento.get(atual, [])
            if not possiveis_proximas_palavras:
                continue
            
            contagem = Counter(possiveis_proximas_palavras)    
            total = sum(contagem.values())
            
            probabilidades = {palavra: cont/total for palavra, cont in contagem.items()}
            
            prob_max = max(probabilidades.values())
            mais_provavel = [palavra for palavra, prob in probabilidades.items() if prob == prob_max]
            
            proxima_palavra = random.choice(mais_provavel)

            if ngrams_usado[atual] >= max_repeats:
                possiveis_proximas_palavras = [word for word in possiveis_proximas_palavras if word != proxima_palavra]
                if possiveis_proximas_palavras:
                    proxima_palavra = random.choice(possiveis_proximas_palavras)
            
            resultado.append(proxima_palavra)          
            atual = tuple(resultado[-(n-1):])
            ngrams_usado[atual]+=1
        
        return self.maiuscula(" ".join(resultado))

#### Importação e teste 

In [227]:
# Importar textos
folder = 'hiddendata/'
with open(folder+'01 - A Sociedade do Anel.txt', 'r', encoding="utf8") as f:
    asda=f.read()
with open(folder+'02 - As Duas Torres.txt', 'r', encoding="utf8") as f:
    adt=f.read()
with open(folder+'03 - O Retorno do Rei.txt', 'r', encoding="utf8") as f:
    ordr=f.read()
text = asda + adt + ordr
nchars = int(random.random()*len(text))
sda = asda + adt + ordr
print("\nExemplo de texto:\n",text[nchars:nchars+255])


Exemplo de texto:
 us desejos, e que produzissem folhas e frutos como queriam; pois as entesposas desejavam a ordem, muita ordem, e paz (que para elas queria dizer que as coisas deviam permanecer como elas as tinham colocado). Então as entesposas fizeram jardim nos quais pu


In [217]:
dic = criar_modelo_ngram(preprocessar_texto(sda), 2)
ngram_model().gerar_texto(documento=t, n=2, frase_inicial="Havia")

'Havia uma consoante longa estrada passaram como coisas de valfenda teria plantas mais seca a canção que passavam de tristeza — vamos ficar aqui onde estão pesados do perigo desnecessário é quase tão bem fechadas qualquer coisa foi realmente achou fácil contra o tamanho medo de gandalf pegou-o em sua garganta e começou e todas aquelas barbas ou até lá fora colocado na mão cair no tesouro permaneça sobre seus pais das palavras precipitadas a escuridão onde morei mas ele mas os olhos quando tropeçava ao piquenique? — E em quando erguendo à sua revelia e robustas alguns pareciam constrangidos'