In [1]:
import numpy as np
import re
from collections import defaultdict, Counter
import matplotlib.pyplot as plt

In [3]:
def limpar_texto(texto):
    texto = texto.lower()
    texto = re.sub(r'[^\w\s]', ' ', texto)
    texto = re.sub(r'\d+', ' ', texto)
    texto = re.sub(r'\s+', ' ', texto)
    return texto.strip()

In [4]:
def ler_arquivo_txt(caminho):
    try:
        with open(caminho, 'r', encoding='utf-8') as arquivo:
            return arquivo.read()
    except FileNotFoundError:
        print(f"Erro: Arquivo '{caminho}' não encontrado.")
        return ""
    except Exception as e:
        print(f"Erro ao ler arquivo: {str(e)}")
        return ""

In [16]:
class ModeloNGram:
    def __init__(self, n):
        self.n = n
        self.contagens = defaultdict(Counter)
        self.modelo = {}

    def treinar(self, palavras):
        for i in range(len(palavras) - self.n + 1):
            contexto = tuple(palavras[i:i+self.n-1])
            alvo = palavras[i+self.n-1]
            self.contagens[contexto][alvo] += 1

        for contexto, alvos in self.contagens.items():
            total = sum(alvos.values())
            self.modelo[contexto] = {
                palavra: freq / total for palavra, freq in alvos.items()
            }

    def proxima_palavra(self, contexto):
        contexto = tuple(contexto[-(self.n-1):]) if self.n > 1 else ()
        if contexto in self.modelo:
            palavras = list(self.modelo[contexto].keys())
            probs = list(self.modelo[contexto].values())
            return np.random.choice(palavras, p=probs)
        return None

    def gerar_texto(self, contexto_inicial, quantidade=15):
        if isinstance(contexto_inicial, str):
            contexto_inicial = contexto_inicial.split()
        if len(contexto_inicial) < self.n - 1:
            raise ValueError(f"Contexto inicial deve ter pelo menos {self.n - 1} palavras")
        texto = list(contexto_inicial)
        for _ in range(quantidade):
            prox = self.proxima_palavra(texto)
            if not prox:
                break
            texto.append(prox)
        return ' '.join(texto)

In [19]:
def main():
    # Configurações
    ARQUIVO_TXT = "corpus.txt"  # Altere para o caminho do seu arquivo
    ORDEM_NGRAM = 3  # Pode ajustar para 2, 3, 4 conforme necessidade
    
    # Leitura do arquivo
    texto_corpus = ler_arquivo_txt(ARQUIVO_TXT)
    if not texto_corpus:
        print("Nenhum texto encontrado para treinamento.")
        return
    
    # Pré-processamento
    palavras = limpar_texto(texto_corpus).split()
    print(f"Texto carregado: {len(palavras)} palavras")
    
    # Treinamento do modelo
    modelo = ModeloNGram(ORDEM_NGRAM)
    modelo.treinar(palavras)
    
    # Exemplo de geração de texto
    semente = palavras[:800]
    try:
        texto_gerado = modelo.gerar_texto(semente, 1000)
        print("\nTexto gerado a partir da semente:", semente)
        print(texto_gerado)
    except Exception as e:
        print(f"Erro ao gerar texto: {str(e)}")


In [20]:
if __name__ == "__main__":
    main()

Texto carregado: 1437 palavras

Texto gerado a partir da semente: ['jinx', 'detesta', 'saiotes', 'corseletes', 'também', 'no', 'entanto', 'ela', 'sorriu', 'maliciosamente', 'pensando', 'no', 'que', 'faria', 'com', 'o', 'espaço', 'sobressalente', 'do', 'vestido', 'que', 'roubara', 'suas', 'tranças', 'azuis', 'ficaram', 'escondidas', 'sob', 'um', 'chapéu', 'de', 'plumas', 'ridículo', 'que', 'era', 'a', 'última', 'moda', 'em', 'piltover', 'ela', 'perambulou', 'entre', 'os', 'convidados', 'do', 'casamento', 'mantendo', 'o', 'sorriso', 'firme', 'e', 'tentando', 'não', 'gritar', 'com', 'as', 'pessoas', 'de', 'olhares', 'mortos', 'ao', 'seu', 'redor', 'ela', 'precisou', 'se', 'esforçar', 'para', 'não', 'pegar', 'cada', 'uma', 'pelos', 'ombros', 'e', 'sacudi', 'las', 'até', 'acordarem', 'jinx', 'estava', 'lá', 'para', 'explodir', 'o', 'observatório', 'acima', 'da', 'mansão', 'do', 'conde', 'sandvik', 'mas', 'quando', 'viu', 'que', 'havia', 'um', 'casamento', 'em', 'andamento', 'bem', 'era', 'u