Понимание Токенизации словарного Запаса

Токенизация WordPiece — это промежуточный вариант между токенизацией на уровне слов и на уровне символов. Она разбивает слова на часто встречающиеся подслова или «кусочки». Этот метод позволяет более эффективно представлять словарный запас языка, особенно с точки зрения часто встречающихся частей слов.

Например, слово «непреодолимый» можно разделить на «не», «преодолеть» и «возможный». Такое разделение не только отражает значение всего слова, но и сохраняет семантическое значение частей слова.

Преимущества токенизации WordPiece

- Уменьшение размера словаря: разбивая слова на части, WordPiece значительно уменьшает размер словаря модели по сравнению с токенизацией на уровне слов. Это уменьшение имеет решающее значение в приложениях НЛП, где размерность входных данных напрямую влияет на эффективность вычислений и сложность модели.
- Обработка редких слов: редкие слова часто становятся камнем преткновения для моделей НЛП, приводя к проблемам с выходом за пределы словаря (OOV). WordPiece решает эту проблему, разбивая редкие слова на части, которые, скорее всего, есть в словаре, даже если полного слова там нет. Такой подход позволяет модели более корректно обрабатывать неизвестные слова во время обучения и вывода.
- Улучшенная генерализация модели: поскольку токенизация WordPiece позволяет разбивать слова на известные части, она позволяет моделям лучше обобщать новые тексты, содержащие редкие или незнакомые слова. Эта возможность особенно ценна в таких задачах, как машинный перевод и распознавание речи, где часто встречаются редкие слова.
- Эффективность при обучении и выводе данных: модели, обученные с помощью токенизации WordPiece, могут быстрее сходиться, поскольку они работают со сжатым словарным запасом. Такая эффективность приводит к более быстрому обучению и более быстрому выводу данных, что полезно для приложений, работающих в реальном времени.

pip install transformers

In [1]:
from transformers import BertTokenizer

def wordpiece_tokenization(text):
    # Initialize the tokenizer with a pre-trained BERT model
    tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')

    # Tokenize the text
    tokens = tokenizer.tokenize(text)

    # Convert tokens to their corresponding IDs in the BERT vocabulary
    token_ids = tokenizer.convert_tokens_to_ids(tokens)

    return tokens, token_ids

# Example usage
sample_text = "Tokenization helps in handling rare words effectively."
tokens, token_ids = wordpiece_tokenization(sample_text)

print("Tokens:", tokens)
print("Token IDs:", token_ids)


  from .autonotebook import tqdm as notebook_tqdm
None of PyTorch, TensorFlow >= 2.0, or Flax have been found. Models won't be available and only tokenizers, configuration and file/data utilities can be used.
To support symlinks on Windows, you either need to activate Developer Mode or to run Python as an administrator. In order to activate developer mode, see this article: https://docs.microsoft.com/en-us/windows/apps/get-started/enable-your-device-for-development


Tokens: ['token', '##ization', 'helps', 'in', 'handling', 'rare', 'words', 'effectively', '.']
Token IDs: [19204, 3989, 7126, 1999, 8304, 4678, 2616, 6464, 1012]
