# Geração de Texto com Bigramas e Trigramas

Desenvolvi um gerador de texto utilizando técnicas clássicas de Processamento de Linguagem Natural (PLN), baseadas em modelos de n-gramas (bigramas e trigramas). O objetivo é analisar e combinar estilos literários distintos ( Realismo e Infantil), utilizando como corpus:



* Memórias Póstumas de Brás Cubas, de Machado de Assis (domínio público)
* Borboleta Azul de Lenira Almeida Heck (domínio público)





In [22]:
pip install PyPDF2




Conversão dos pdf para o formato .txt

In [23]:
import PyPDF2

reader = PyPDF2.PdfReader("memoriasBras.pdf")
texto = ""

for page in reader.pages:
    texto += page.extract_text() + "\n"

with open("machado.txt", "w", encoding="utf-8") as f:
    f.write(texto)


In [25]:
reader = PyPDF2.PdfReader("azul.pdf")
texto = ""

for page in reader.pages:
    texto += page.extract_text() + "\n"

with open("azul.txt", "w", encoding="utf-8") as f:
    f.write(texto)

In [26]:
import re
import random
from collections import defaultdict, Counter

# Função para ler e limpar texto
def carregar_texto(caminho):
    with open(caminho, "r", encoding="utf-8") as f:
        texto = f.read()

    # remove caracteres estranhos e quebra de linha
    texto = texto.replace("\n", " ")

    # tokenização simples com regex
    tokens = re.findall(r"\b\w+\b", texto.lower())
    return tokens

# Construção de Bigramas/Trigramas
def gerar_ngramas(tokens, n):
    return [tuple(tokens[i:i+n]) for i in range(len(tokens)-n+1)]

# Modelo probabilístico de n-gramas
def construir_modelo(ngrams):
    modelo = defaultdict(Counter)
    for gram in ngrams:
        prefixo = gram[:-1]
        proximo = gram[-1]
        modelo[prefixo][proximo] += 1
    return modelo


# Gerador de texto
def gerar_texto(modelo, tamanho=50):
    prefixo = random.choice(list(modelo.keys()))
    resultado = list(prefixo)

    for _ in range(tamanho):
        seguintes = modelo[prefixo]
        if not seguintes:
            break

        proximo = random.choices(
            list(seguinte for seguinte in seguintes),
            weights=list(seguinte for seguinte in seguintes.values())
        )[0]

        resultado.append(proximo)
        prefixo = (*prefixo[1:], proximo)

    return " ".join(resultado)

# Carregar os dois textos
tokens_machado = carregar_texto("machado.txt")
tokens_infantil = carregar_texto("azul.txt")

# Combina os dois para criar estilo híbrido
tokens_combinados = tokens_machado + tokens_infantil

# Construir Bigramas e Trigramas
bigrams = gerar_ngramas(tokens_combinados, 2)
trigrams = gerar_ngramas(tokens_combinados, 3)

modelo_bigramas = construir_modelo(bigrams)
modelo_trigramas = construir_modelo(trigrams)

# Gerar textos

print("\n=== Texto Gerado com Bigramas ===\n")
print(gerar_texto(modelo_bigramas, tamanho=80))

print("\n=== Texto Gerado com Trigramas ===\n")
print(gerar_texto(modelo_trigramas, tamanho=80))



=== Texto Gerado com Bigramas ===

crescendo buscaria satisfazer as fitou o sangue que me minha mãe cansada do mal como eu à janela aberta as diz que dormia três inventos do lobo césar ou im b o refresco minha opinião esse há quem sobe não a e cessado o campo não juro vos ainda conseguira tirar a fase contrativa absorção do la uma irmã do decreto trazia a morte não era o se replicou me de me sim nhonhô chegava a uma hora mais nada e

=== Texto Gerado com Trigramas ===

teceram sem contar a história a volúvel história que dá para tudo dizer nem dócil nem rebelde à proposta sentia me feliz cert o é que nasceu esta flor da moita eugênia a filha com outra intensidade entrei a sacar sobre a terra é esse dia me debruçara sobre o qual a morte de outiva quando muito tinha a alma a ponto de olha r às vezes me repreendia à vista de gente fazia o em vão lhe disse nada despediu se
