<a href="https://colab.research.google.com/github/franfgv9/PLN/blob/main/practica4_pln.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

🔹 Apartado 1.1 — Instruções

📘 Objetivo:
Configurar el entorno de trabajo para usar NLTK y los corpus en portugués.

📋 Pasos explicados:

Instalar la biblioteca NLTK si aún no la tienes.

Usar un entorno local o Google Colab.

Descargar los corpus floresta y mac_morpho, que contienen frases en portugués ya etiquetadas y tokenizadas.

In [7]:
# ---------------------------------------------------------
# Ficha 4 - N-gramas | Apartado 1.1: Instruções
# ---------------------------------------------------------

# Instalar NLTK (solo si no lo tienes)
!pip install nltk

# Importar la librería
import nltk

# Descargar los corpus recomendados
nltk.download('floresta')
nltk.download('mac_morpho')
nltk.download('punkt')
nltk.download('punkt_tab')

# Comprobar carga del corpus floresta
from nltk.corpus import floresta

# Mostrar algunas frases de ejemplo
sents = floresta.sents()
print("Número de frases en el corpus:", len(sents))
print("Ejemplo de frase tokenizada:", sents[0])



[nltk_data] Downloading package floresta to /root/nltk_data...
[nltk_data]   Package floresta is already up-to-date!
[nltk_data] Downloading package mac_morpho to /root/nltk_data...
[nltk_data]   Package mac_morpho is already up-to-date!
[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!


Número de frases en el corpus: 9266
Ejemplo de frase tokenizada: ['Um', 'revivalismo', 'refrescante']


🔹 Apartado 1.2 — Exemplo 1.1: Obtenção de n-gramas

📘 Objetivo:
Aprender a obtener bigramas, trigramas y n-gramas generales a partir de un corpus de texto.

In [8]:
# ---------------------------------------------------------
# Ficha 4 - N-gramas | Apartado 1.2: Exemplo 1.1
# ---------------------------------------------------------

from nltk.corpus import floresta
from nltk import bigrams, trigrams, ngrams, everygrams

# Cargar frases del corpus floresta
sents = floresta.sents()

# Convertir todas las palabras a minúsculas
lowered_sents = [[w.lower() for w in s] for s in sents]
print(lowered_sents[:2])          # me devuelve las dos primeras frases ya tokanizadas (2 listas de palabras que forman cada frase)
print(len(lowered_sents))

# Ejemplo: obtener bigramas (pares de palabras)
bi_grams = bigrams(lowered_sents[2])
print("🔹 Bigramas:")
print(list(bi_grams))

# Obtener trigramas (secuencias de tres palabras)
tri_grams = trigrams(lowered_sents[3])
print("\n🔹 Trigramas:")
print(list(tri_grams))

# Obtener pentagramas (n=5)
pentagrams = ngrams(lowered_sents[3], n=5)
print("\n🔹 N-gramas de 5 palabras:")
print(list(pentagrams))

# Obtener todos los n-gramas de hasta 3 palabras
allgrams = everygrams(lowered_sents[3], max_len=3)
print("\n🔹 Todos los n-gramas hasta tamaño 3:")
print(list(allgrams))

[['um', 'revivalismo', 'refrescante'], ['o', '7_e_meio', 'é', 'um', 'ex-libris', 'de', 'a', 'noite', 'algarvia', '.']]
9266
🔹 Bigramas:
[('é', 'uma'), ('uma', 'de'), ('de', 'as'), ('as', 'mais'), ('mais', 'antigas'), ('antigas', 'discotecas'), ('discotecas', 'de'), ('de', 'o'), ('o', 'algarve'), ('algarve', ','), (',', 'situada'), ('situada', 'em'), ('em', 'albufeira'), ('albufeira', ','), (',', 'que'), ('que', 'continua'), ('continua', 'a'), ('a', 'manter'), ('manter', 'os'), ('os', 'traços'), ('traços', 'decorativos'), ('decorativos', 'e'), ('e', 'as'), ('as', 'clientelas'), ('clientelas', 'de'), ('de', 'sempre'), ('sempre', '.')]

🔹 Trigramas:
[('é', 'um_pouco', 'a'), ('um_pouco', 'a', 'versão'), ('a', 'versão', 'de'), ('versão', 'de', 'uma'), ('de', 'uma', 'espécie'), ('uma', 'espécie', 'de'), ('espécie', 'de', '«'), ('de', '«', 'outro'), ('«', 'outro', 'lado'), ('outro', 'lado', 'de'), ('lado', 'de', 'a'), ('de', 'a', 'noite'), ('a', 'noite', ','), ('noite', ',', 'a'), (',', 'a', 

🔹 Apartado 1.2 — Exemplo 1.2: Distribuição de frequências

📘 Objetivo:
Calcular cuántas veces aparece cada n-grama en un texto o corpus y mostrar los más frecuentes.

In [9]:
# ---------------------------------------------------------
# Ficha 4 - N-gramas | Apartado 1.2: Exemplo 1.2
# ---------------------------------------------------------

# Frase de ejemplo
proverbio = """
O tempo perguntou ao tempo quanto tempo o tempo tem;
o tempo respondeu ao tempo que o tempo tem tanto tempo quanto tempo o tempo tem.
"""

# Import necessary functions
from nltk.tokenize import word_tokenize
from nltk.probability import FreqDist

# Tokenizar la frase y pasar todo a minúsculas
tokens = word_tokenize(proverbio.lower())

# Generar bigramas
bigrams_list = list(nltk.bigrams(tokens))

# Calcular la distribución de frecuencias
ngram_fdist = FreqDist(bigrams_list)

# Mostrar los 10 bigramas más frecuentes
print("🔹 Bigramas más frecuentes:")
for bigrama, freq in ngram_fdist.most_common(10):
    print(f"{bigrama}: {freq}")

🔹 Bigramas más frecuentes:
('o', 'tempo'): 5
('tempo', 'tem'): 3
('ao', 'tempo'): 2
('tempo', 'quanto'): 2
('quanto', 'tempo'): 2
('tempo', 'o'): 2
('tempo', 'perguntou'): 1
('perguntou', 'ao'): 1
('tem', ';'): 1
(';', 'o'): 1


🔹 Exercício 1.1 — N-gramas mais frequentes

📘 Enunciado resumido:

Crea una función que reciba una lista de frases (por ejemplo, del corpus floresta) y devuelva los m n-gramas más frecuentes, dentro de un intervalo de n que elijas.

💡 Además, el enunciado sugiere usar el método update() de FreqDist para ir actualizando las frecuencias de varios tamaños de n-gramas.

In [10]:
# ---------------------------------------------------------
# Ficha 4 - N-gramas | Exercício 1.1
# ---------------------------------------------------------

import nltk
from nltk.corpus import floresta
from nltk import everygrams, FreqDist

# Cargar frases y pasarlas a minúsculas
sents = floresta.sents()
lowered_sents = [[w.lower() for w in s] for s in sents]

def ngramas_mas_frecuentes(sentences, min_n=2, max_n=3, m=10):
    """
    Calcula los m n-gramas más frecuentes en una lista de frases.

    Parámetros:
    - sentences: lista de frases tokenizadas.
    - min_n, max_n: intervalo del tamaño de los n-gramas (por defecto 2 a 3).
    - m: número de n-gramas más frecuentes a mostrar.
    """
    fdist = FreqDist()

    # Recorremos cada frase
    for sent in sentences:
        # Generar todos los n-gramas entre min_n y max_n
        ngram_list = everygrams(sent, min_len=min_n, max_len=max_n)
        # Actualizar el contador de frecuencias
        fdist.update(ngram_list)

    # Mostrar los m más comunes
    print(f"🔹 {m} n-gramas más frecuentes (entre {min_n} y {max_n}):")
    for ngram, freq in fdist.most_common(m):
        print(f"{ngram}: {freq}")

    return fdist.most_common(m)

# Ejecutar función con los parámetros por defecto
ngramas_mas_frecuentes(lowered_sents, min_n=2, max_n=3, m=10)


# FALTARÍA CREAR OTRA FUNCION QUE ELIMINE STOPWORDS Y ACENTUACIONES (una frase foto)

🔹 10 n-gramas más frecuentes (entre 2 y 3):
('de', 'o'): 2876
('de', 'a'): 2567
('em', 'o'): 1511
('em', 'a'): 1402
('de', 'os'): 1003
(',', 'em'): 826
('»', ','): 758
(',', 'a'): 745
('a', 'o'): 742
(',', 'que'): 676


[(('de', 'o'), 2876),
 (('de', 'a'), 2567),
 (('em', 'o'), 1511),
 (('em', 'a'), 1402),
 (('de', 'os'), 1003),
 ((',', 'em'), 826),
 (('»', ','), 758),
 ((',', 'a'), 745),
 (('a', 'o'), 742),
 ((',', 'que'), 676)]

🔹 Exemplo 1.3 — Marcando el início e o fim das frases

📘 Objetivo:
Aprender a preparar los datos para entrenar modelos de lenguaje, añadiendo marcadores de inicio (<s>) y fin (</s>) a cada frase.

🧠 ¿Por qué se hace esto?

Cuando entrenamos modelos de lenguaje (por ejemplo, de bigramas o trigramas), queremos que el modelo entienda cuándo empieza y cuándo termina una frase.
Así puede aprender cosas como:

Qué palabras suelen comenzar una oración.

Qué palabras suelen aparecer al final.

IMPORTANTE: pero todo esto esta relacionado con los diagramas, para que no se invente n-gramas cambiandole el orden a las palabras porque sabe que las que lleven "s" es porque es la palabra de inicio y no puede ir en el medio ni en el final

In [11]:
# ---------------------------------------------------------
# Ficha 4 - N-gramas | Exemplo 1.3
# ---------------------------------------------------------

import nltk
from nltk.corpus import floresta
from nltk.lm.preprocessing import pad_both_ends, padded_everygram_pipeline

# Asegurar que el corpus esté descargado
nltk.download('floresta')

# Cargar y preparar las frases
sents = floresta.sents()
lowered_sents = [[w.lower() for w in s] for s in sents]

# Ejemplo con una frase concreta
tokens = lowered_sents[0]

# 🔹 Añadir marcadores de inicio y fin manualmente
padded_tokens = list(pad_both_ends(tokens, n=2))
print("🔸 Tokens con padding:")
print(padded_tokens)

# 🔹 Generar bigramas a partir de la frase con padding
padded_bigrams = list(nltk.bigrams(padded_tokens))
print("\n🔸 Bigramas con padding:")
print(padded_bigrams)

# 🔹 Alternativa: hacer lo mismo para todas las frases del corpus
data, vocab = padded_everygram_pipeline(2, lowered_sents)
vocab = list(vocab)

print("\n🔸 Ejemplo de n-gramas generados:")
for sent in data:
    for ngram in sent:
        print(ngram)
    break  # mostramos solo la primera frase

print("\n🔸 Vocabulario (primeras 50 palabras):")
print(vocab[:50])

[nltk_data] Downloading package floresta to /root/nltk_data...
[nltk_data]   Package floresta is already up-to-date!


🔸 Tokens con padding:
['<s>', 'um', 'revivalismo', 'refrescante', '</s>']

🔸 Bigramas con padding:
[('<s>', 'um'), ('um', 'revivalismo'), ('revivalismo', 'refrescante'), ('refrescante', '</s>')]

🔸 Ejemplo de n-gramas generados:
('<s>',)
('<s>', 'um')
('um',)
('um', 'revivalismo')
('revivalismo',)
('revivalismo', 'refrescante')
('refrescante',)
('refrescante', '</s>')
('</s>',)

🔸 Vocabulario (primeras 50 palabras):
['<s>', 'um', 'revivalismo', 'refrescante', '</s>', '<s>', 'o', '7_e_meio', 'é', 'um', 'ex-libris', 'de', 'a', 'noite', 'algarvia', '.', '</s>', '<s>', 'é', 'uma', 'de', 'as', 'mais', 'antigas', 'discotecas', 'de', 'o', 'algarve', ',', 'situada', 'em', 'albufeira', ',', 'que', 'continua', 'a', 'manter', 'os', 'traços', 'decorativos', 'e', 'as', 'clientelas', 'de', 'sempre', '.', '</s>', '<s>', 'é', 'um_pouco']


🔮 Cómo ayuda en la práctica

1️⃣ En entrenamiento de modelos de lenguaje
Cuando entrenas un modelo (por ejemplo, MLE(2) de NLTK), el padding permite calcular probabilidades como:

P("o" | "s") → qué palabra suele venir al comienzo.
P("/s" | "tempo") → qué palabra suele venir al final.

2️⃣ En generación de texto
Cuando generas nuevas frases, el modelo empieza desde s y sigue eligiendo palabras hasta que llega a /s.
Así sabe dónde empezar y dónde detenerse.

3️⃣ En evaluación del modelo (perplejidad)
Durante la evaluación con frases de prueba, también se usan los marcadores para mantener la coherencia del cálculo de probabilidad total de una oración.

🔹 Exemplo 1.4 — Treinar um modelo de bi-gramas (MLE)

📘 Objetivo:
Aprender a entrenar un modelo de lenguaje de n-gramas utilizando la clase MLE (Maximum Likelihood Estimator) de la biblioteca NLTK.

🧠 Qué es un modelo de lenguaje basado en n-gramas

Un modelo de lenguaje intenta predecir la siguiente palabra a partir de las anteriores.
En un modelo de bigramas (n = 2), se calcula la probabilidad de cada palabra según la anterior:

$$
P(w_i \mid w_{i-1}) = \frac{C(w_{i-1}, w_i)}{C(w_{i-1})}
$$

donde:  

- \( C(w_{i-1}, w_i) \) = cuántas veces aparece el bigrama  
- \( C(w_{i-1}) \) = cuántas veces aparece la primera palabra del bigrama


In [12]:
# ---------------------------------------------------------
# Ficha 4 - N-gramas | Exemplo 1.4
# ---------------------------------------------------------

import nltk
from nltk.corpus import floresta
from nltk.lm import MLE
from nltk.lm.preprocessing import padded_everygram_pipeline

# Asegurar corpus
nltk.download('floresta')

# Cargar frases y convertirlas a minúsculas
sents = floresta.sents()
lowered_sents = [[w.lower() for w in s] for s in sents]

# 🔹 Preparar datos con padding y obtener vocabulario
n = 2  # modelo de bigramas
train_data, vocab = padded_everygram_pipeline(n, lowered_sents)

# 🔹 Crear el modelo MLE (Maximum Likelihood Estimation)
lm = MLE(n)

# 🔹 Entrenar el modelo con los datos
lm.fit(train_data, vocab)

# 🔹 Mostrar tamaño del vocabulario aprendido
print("🔹 Tamaño del vocabulario:", len(lm.vocab))

[nltk_data] Downloading package floresta to /root/nltk_data...
[nltk_data]   Package floresta is already up-to-date!


🔹 Tamaño del vocabulario: 27717


In [13]:
# CONCLUSION: Para entender como funciona realmente el padding en los n-gramas y usa el modelo el MLE para predecir la sigueinte palabra.
# 🔍 Qué hace internamente el modelo
  # Aprende cuántas veces aparece cada bigrama en el corpus.
  # Calcula la probabilidad condicional de una palabra dada la anterior.
  # Usa <s> y </s> para entender los límites de frases.

🔹 Exemplo 1.5 — Consultar el modelo MLE

📘 Objetivo:
Aprender a:

Buscar palabras o secuencias dentro del vocabulario del modelo.

Consultar cuántas veces aparecen ciertos bigramas.

Calcular probabilidades según el modelo entrenado.

🧠 Conceptos importantes

1️⃣ Vocabulario del modelo (lm.vocab)
Incluye todas las palabras que el modelo ha visto durante el entrenamiento.
Las palabras no vistas se representan con el símbolo <UNK> (unknown token).

2️⃣ Conteos (lm.counts)
El modelo almacena las frecuencias de todos los unigramas, bigramas, etc.
Puedes acceder a ellas como si fuera un diccionario anidado:

lm.counts['palabra']              # cuántas veces aparece la palabra
lm.counts[['palabra']]['otra']    # cuántas veces aparece ('palabra', 'otra')


3️⃣ Probabilidades (lm.score())
Calcula la probabilidad condicional de una palabra dada el contexto previo:

lm.score('dia', ['de'])  # P('dia' | 'de')

In [14]:
# ---------------------------------------------------------
# Ficha 4 - N-gramas | Exemplo 1.5
# ---------------------------------------------------------

import nltk
from nltk.corpus import floresta
from nltk.lm import MLE
from nltk.lm.preprocessing import padded_everygram_pipeline

# Asegurar corpus
nltk.download('floresta')

# Preparar corpus
sents = floresta.sents()
lowered_sents = [[w.lower() for w in s] for s in sents]

# Preparar datos y vocabulario (bigramas)
n = 2
data, vocab = padded_everygram_pipeline(n, lowered_sents)

# Entrenar el modelo
lm = MLE(n)
lm.fit(data, vocab)

# 🔹 Consultar el vocabulario
print("🔹 Vocabulario (primeras 20 palabras):")
print(list(lm.vocab)[:20])

# 🔹 Buscar secuencias en el modelo
print("\n🔹 Lookup de frases conocidas y desconocidas:")
print(lm.vocab.lookup(lowered_sents[0]))
print(lm.vocab.lookup(['isto', 'é', 'um', 'teste']))
print(lm.vocab.lookup(['uma', 'espécie', 'de', 'blah']))

# 🔹 Consultar contajes (frecuencias)
print("\n🔹 Conteos:")
print("C('dois') =", lm.counts['dois'])
print("C('dois', 'anos') =", lm.counts[['dois']]['anos'])
print("C('dois', 'dias') =", lm.counts[['dois']]['dias'])

# 🔹 Consultar probabilidades
print("\n🔹 Probabilidades según el modelo:")
print("P('noite') =", lm.score('noite'))
print("P('dia' | 'de') =", lm.score('dia', ['de']))      # la prob de aparecer dia despues de "de"
print("P('de' | 'tarde') =", lm.score('de', ['tarde']))
print("P('de' | 'noite') =", lm.score('de', ['noite']))

[nltk_data] Downloading package floresta to /root/nltk_data...
[nltk_data]   Package floresta is already up-to-date!


🔹 Vocabulario (primeras 20 palabras):
['<s>', 'um', 'revivalismo', 'refrescante', '</s>', 'o', '7_e_meio', 'é', 'ex-libris', 'de', 'a', 'noite', 'algarvia', '.', 'uma', 'as', 'mais', 'antigas', 'discotecas', 'algarve']

🔹 Lookup de frases conocidas y desconocidas:
('um', 'revivalismo', 'refrescante')
('isto', 'é', 'um', 'teste')
('uma', 'espécie', 'de', '<UNK>')

🔹 Conteos:
C('dois') = 231
C('dois', 'anos') = 14
C('dois', 'dias') = 12

🔹 Probabilidades según el modelo:
P('noite') = 0.0002647753316202514
P('dia' | 'de') = 0.00013630477748245075
P('de' | 'tarde') = 0.18518518518518517
P('de' | 'noite') = 0.2786885245901639


🔹 Exemplo 1.6 — Geração de texto com o modelo MLE

📘 Objetivo:
Usar el modelo de lenguaje entrenado (en el Exemplo 1.4) para generar secuencias de palabras nuevas que imiten el estilo del corpus.

In [15]:
# ---------------------------------------------------------
# Ficha 4 - N-gramas | Exemplo 1.6
# ---------------------------------------------------------

import nltk
from nltk.corpus import floresta
from nltk.lm import MLE
from nltk.lm.preprocessing import padded_everygram_pipeline

# Asegurar corpus
nltk.download('floresta')

# Preparar corpus
sents = floresta.sents()
lowered_sents = [[w.lower() for w in s] for s in sents]

# Preparar datos (bigramas)
n = 2
train_data, vocab = padded_everygram_pipeline(n, lowered_sents)

# Entrenar modelo de bigramas
lm = MLE(n)
lm.fit(train_data, vocab)

# 🔹 Generar una secuencia de 7 palabras
print("🔹 Frase generada por el modelo:\n")
print(lm.generate(7, random_seed=3))

[nltk_data] Downloading package floresta to /root/nltk_data...
[nltk_data]   Package floresta is already up-to-date!


🔹 Frase generada por el modelo:

['a', 'morte', 'de', 'o', 'paulistano', 'não', '?']


🧠 Objetivo del Ejercicio 1.2


“Experimente treinar modelos de n-gramas de diferentes tamanhos, com diferentes corpos, para depois gerar sequências com eles.”

En otras palabras, debemos:

Entrenar modelos de lenguaje basados en n-gramas (por ejemplo, unigramas, bigramas, trigramas).

Probarlos con diferentes corpus (como floresta o mac_morpho del NLTK).

Generar secuencias de texto con cada modelo para observar cómo cambia el resultado según el tamaño de los n-gramas y el corpus usado.

In [17]:
# ==============================
# Ejercicio 1.2 - Modelos de N-gramas
# ==============================

import nltk
from nltk.corpus import floresta, mac_morpho
from nltk.lm import MLE
from nltk.lm.preprocessing import padded_everygram_pipeline

# Asegurar que los corpus estén descargados
nltk.download('floresta')
nltk.download('mac_morpho')

# Selección de corpus
corpora = {
    'floresta': floresta.sents(),
    'mac_morpho': mac_morpho.sents()
}

# Función para entrenar modelo y generar texto
def treinar_e_gerar(corpus, n=2, num_palavras=10):
    # Convertir todas las palabras a minúsculas
    lowered_sents = [[w.lower() for w in s] for s in corpus]

    # Preparar datos y vocabulario
    train_data, vocab = padded_everygram_pipeline(n, lowered_sents)

    # Entrenar modelo MLE
    model = MLE(n)
    model.fit(train_data, vocab)

    # Generar texto
    print(f"\n=== Modelo {n}-gramas ({len(model.vocab)} palabras no repetidas) ===")
    print("Texto generado:")
    print(' '.join(model.generate(num_palavras, random_seed=3)))

# Entrenar modelos con diferentes corpus y tamaños de n-gramas
for nome_corpus, corpus in corpora.items():
    print(f"\n\n--- Corpus: {nome_corpus.upper()} ---")
    for n in [2, 3, 4]:
        treinar_e_gerar(corpus, n=n, num_palavras=12)

[nltk_data] Downloading package floresta to /root/nltk_data...
[nltk_data]   Package floresta is already up-to-date!
[nltk_data] Downloading package mac_morpho to /root/nltk_data...
[nltk_data]   Package mac_morpho is already up-to-date!




--- Corpus: FLORESTA ---

=== Modelo 2-gramas (27717 palabras no repetidas) ===
Texto generado:
a morte de o paulistano não ? </s> afirmou a óscar_monteiro_torres ,

=== Modelo 3-gramas (27717 palabras no repetidas) ===
Texto generado:
<s> a família durante o almoço de trabalho . </s> </s> </s>

=== Modelo 4-gramas (27717 palabras no repetidas) ===
Texto generado:
<s> <s> <s> o papa joão_paulo_2º escolheu a irmã emília_ehrlich para ocupar


--- Corpus: MAC_MORPHO ---

=== Modelo 2-gramas (59914 palabras no repetidas) ===
Texto generado:
a mesma equipe econômica e 80 % em a copa é menor

=== Modelo 3-gramas (59914 palabras no repetidas) ===
Texto generado:
<s> a flórida </s> </s> </s> </s> </s> </s> </s> </s> </s>

=== Modelo 4-gramas (59914 palabras no repetidas) ===
Texto generado:
<s> <s> <s> museu de arte contemporânea reúne 112 destacados artistas de


🧠 Objetivo del Ejercicio 1.3


“Crie uma função para, a partir da lista de tokens geradas, que pode ainda incluir os símbolos <s> e </s>, crie uma única string. Pode ignorar os <s> e parar nos </s>, e também pode usar a função detokenize() da classe TreebankWordDetokenizer.”

En este ejercicio debemos reconstruir una frase completa (string) a partir de una lista de tokens generada por un modelo de lenguaje.
Durante la generación del texto, el modelo incluye los símbolos <s> (inicio de frase) y </s> (fin de frase).
El objetivo es eliminar esos marcadores y unir los tokens en una frase limpia.

In [18]:
# ==============================
# Ejercicio 1.3 - Detokenización de secuencias
# ==============================

from nltk.tokenize.treebank import TreebankWordDetokenizer

def reconstruir_frase(tokens):
    """
    Recibe una lista de tokens posiblemente con <s> y </s>,
    ignora esos símbolos y devuelve una única string limpia.
    """
    frase_tokens = []

    for token in tokens:
        if token == '<s>':
            continue
        elif token == '</s>':
            break
        frase_tokens.append(token)

    # Usar TreebankWordDetokenizer para recomponer la frase
    detok = TreebankWordDetokenizer().detokenize(frase_tokens)
    return detok

# Ejemplo de uso:
tokens_gerados = ['<s>', 'o', 'tempo', 'voa', 'rápido', '</s>']
frase = reconstruir_frase(tokens_gerados)
print("Tokens:", tokens_gerados)
print("Frase reconstruida:", frase)


Tokens: ['<s>', 'o', 'tempo', 'voa', 'rápido', '</s>']
Frase reconstruida: o tempo voa rápido
