In [21]:
import warnings
warnings.filterwarnings('ignore')

In [22]:
from transformers import (
    GPT2TokenizerFast,    # BPE
    BertTokenizerFast,    # WordPiece  
    XLNetTokenizerFast,   # Unigram
    T5TokenizerFast       # SentencePiece + Unigram
)
import numpy as np
import pandas as pd 

In [23]:
corpus_test = [
    "El preprocessing es crucial en NLP moderno",
    "Evaluemos corre, corro, corremos, corrieron",
    "Neuroplasticity enables continuous learning adaptation", 
    'Palabras complejas como ionización, ánodo, sulfhídrico o comsmología puede que sean más difíciles de decifrar'
]

In [24]:
tokenizers = {
    'BPE (GPT-2)': GPT2TokenizerFast.from_pretrained('gpt2'),
    'WordPiece (BERT)': BertTokenizerFast.from_pretrained('bert-base-uncased'),
    'Unigram (XLNet)': XLNetTokenizerFast.from_pretrained('xlnet-base-cased'),
    'SentencePiece (T5)': T5TokenizerFast.from_pretrained('t5-small')
}


In [25]:
for palabra in corpus_test:
    print(f"\nPalabra: {palabra}")
    for name, tokenizer in tokenizers.items():
        tokens = tokenizer.tokenize(palabra)
        print(f"  {name:<15}: {len(tokens):2d} tokens → {tokens}")


Palabra: El preprocessing es crucial en NLP moderno
  BPE (GPT-2)    : 10 tokens → ['El', 'Ġpre', 'processing', 'Ġes', 'Ġcrucial', 'Ġen', 'ĠN', 'LP', 'Ġmodern', 'o']
  WordPiece (BERT): 12 tokens → ['el', 'prep', '##ro', '##ces', '##sing', 'es', 'crucial', 'en', 'nl', '##p', 'modern', '##o']
  Unigram (XLNet): 12 tokens → ['▁El', '▁pre', 'processing', '▁', 'es', '▁crucial', '▁', 'en', '▁N', 'LP', '▁modern', 'o']
  SentencePiece (T5): 14 tokens → ['▁El', '▁pre', 'process', 'ing', '▁', 'e', 's', '▁crucial', '▁', 'en', '▁N', 'LP', '▁modern', 'o']

Palabra: Evaluemos corre, corro, corremos, corrieron
  BPE (GPT-2)    : 17 tokens → ['E', 'val', 'u', 'em', 'os', 'Ġcor', 're', ',', 'Ġcorro', ',', 'Ġcor', 'rem', 'os', ',', 'Ġcor', 'rier', 'on']
  WordPiece (BERT): 17 tokens → ['eva', '##lu', '##em', '##os', 'co', '##rre', ',', 'co', '##rro', ',', 'co', '##rre', '##mos', ',', 'co', '##rrier', '##on']
  Unigram (XLNet): 20 tokens → ['▁E', 'value', 'mos', '▁', 'cor', 're', ',', '▁', 'cor', 'ro',