# Домашнее задание: Токенизация текста

Дан список текстов, которые нужно токенизировать разными способами

In [None]:
text = [
"The quick brown fox jumps over the lazy dog. It's a beautiful day!",
"Dr. Smith arrived at 5:30 p.m. from New York. The meeting cost $1,000.50.",
"I can't believe she's going! Let's meet at Jane's house. They'll love it.",
"What's the ETA for the package? Please e-mail support@example.com ASAP!"
]

 Используйте способы токенизации, которые описаны в практикуме. Каждый способ нужно обернуть в функцию, например:

 ```python
 def simple_tokenization(string):
   return string.split()
   ```

1. Напишите функцию для токенизации по пробелам и знакам препинания (используйте оператор `def`)

In [1]:
import re

def simple_tokenization(text):
    """
    Простая токенизация с использованием регулярных выражений
    Разделяет текст на слова и знаки препинания как отдельные токены
    """
    tokens = re.findall(r"\w+|[^\w\s]", text)
    return tokens

# Тестирование функции
test_text = "The quick brown fox jumps over the lazy dog. It's a beautiful day!"
print("Тестовый текст:", test_text)
print("Результат токенизации:", simple_tokenization(test_text))

Тестовый текст: The quick brown fox jumps over the lazy dog. It's a beautiful day!
Результат токенизации: ['The', 'quick', 'brown', 'fox', 'jumps', 'over', 'the', 'lazy', 'dog', '.', 'It', "'", 's', 'a', 'beautiful', 'day', '!']


2. Напишите функцию для токенизации текста с помощью NLTK

In [2]:
import nltk
from nltk.tokenize import word_tokenize

# Скачиваем необходимые данные для NLTK (требуется только при первом запуске)
nltk.download('punkt')
nltk.download('punkt_tab')

def nltk_tokenization(text):
    """
    Токенизация с помощью NLTK
    Учитывает контекст и правила английского языка, лучше обрабатывает сокращения
    """
    tokens = word_tokenize(text)
    return tokens

# Тестирование функции
test_text = "The quick brown fox jumps over the lazy dog. It's a beautiful day!"
print("Тестовый текст:", test_text)
print("Результат токенизации NLTK:", nltk_tokenization(test_text))
print("Количество токенов:", len(nltk_tokenization(test_text)))

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.
[nltk_data] Downloading package punkt_tab to /root/nltk_data...


Тестовый текст: The quick brown fox jumps over the lazy dog. It's a beautiful day!
Результат токенизации NLTK: ['The', 'quick', 'brown', 'fox', 'jumps', 'over', 'the', 'lazy', 'dog', '.', 'It', "'s", 'a', 'beautiful', 'day', '!']
Количество токенов: 16


[nltk_data]   Unzipping tokenizers/punkt_tab.zip.


3. Напишите функцию для токенизации текста с помощью Spacy

In [3]:
import spacy

# Загружаем модель английского языка для spaCy
try:
    nlp = spacy.load("en_core_web_sm")
except OSError:
    print("Модель en_core_web_sm не найдена. Установите её командой:")
    print("!python -m spacy download en_core_web_sm")
    # Альтернативный вариант - установить через Colab
    print("Или в Colab: !pip install https://github.com/explosion/spacy-models/releases/download/en_core_web_sm-3.7.1/en_core_web_sm-3.7.1-py3-none-any.whl")

def spacy_tokenization(text):
    """
    Токенизация с помощью spaCy
    Промышленное решение с лингвистическим анализом, сохраняет сущности
    """
    doc = nlp(text)
    tokens = [token.text for token in doc]
    return tokens

# Тестирование функции
test_text = "The quick brown fox jumps over the lazy dog. It's a beautiful day!"
print("Тестовый текст:", test_text)
print("Результат токенизации spaCy:", spacy_tokenization(test_text))
print("Количество токенов:", len(spacy_tokenization(test_text)))

Тестовый текст: The quick brown fox jumps over the lazy dog. It's a beautiful day!
Результат токенизации spaCy: ['The', 'quick', 'brown', 'fox', 'jumps', 'over', 'the', 'lazy', 'dog', '.', 'It', "'s", 'a', 'beautiful', 'day', '!']
Количество токенов: 16


4. С помощью цикла `for` примените каждую из написанных функций к каждому тексту из списка `texts`

In [4]:
# Создаём список текстов для обработки
texts = [
    "The quick brown fox jumps over the lazy dog. It's a beautiful day!",
    "Dr. Smith arrived at 5:30 p.m. from New York. The meeting cost $1,000.50.",
    "I can't believe she's going! Let's meet at Jane's house. They'll love it.",
    "What's the ETA for the package? Please e-mail support@example.com ASAP!"
]

# Словарь с функциями токенизации
tokenizers = {
    "Simple": simple_tokenization,
    "NLTK": nltk_tokenization,
    "spaCy": spacy_tokenization
}

# Применяем все функции ко всем текстам
for i, text in enumerate(texts, 1):
    print(f"\n{'='*60}")
    print(f"ТЕКСТ {i}: {text}")
    print(f"{'='*60}")

    for name, tokenizer_func in tokenizers.items():
        try:
            tokens = tokenizer_func(text)
            print(f"\n{name} токенизация ({len(tokens)} токенов):")
            print(tokens)
        except Exception as e:
            print(f"\n{name} токенизация: ОШИБКА - {e}")

print(f"\n{'='*60}")
print("ОБРАБОТКА ЗАВЕРШЕНА!")
print(f"{'='*60}")


ТЕКСТ 1: The quick brown fox jumps over the lazy dog. It's a beautiful day!

Simple токенизация (17 токенов):
['The', 'quick', 'brown', 'fox', 'jumps', 'over', 'the', 'lazy', 'dog', '.', 'It', "'", 's', 'a', 'beautiful', 'day', '!']

NLTK токенизация (16 токенов):
['The', 'quick', 'brown', 'fox', 'jumps', 'over', 'the', 'lazy', 'dog', '.', 'It', "'s", 'a', 'beautiful', 'day', '!']

spaCy токенизация (16 токенов):
['The', 'quick', 'brown', 'fox', 'jumps', 'over', 'the', 'lazy', 'dog', '.', 'It', "'s", 'a', 'beautiful', 'day', '!']

ТЕКСТ 2: Dr. Smith arrived at 5:30 p.m. from New York. The meeting cost $1,000.50.

Simple токенизация (26 токенов):
['Dr', '.', 'Smith', 'arrived', 'at', '5', ':', '30', 'p', '.', 'm', '.', 'from', 'New', 'York', '.', 'The', 'meeting', 'cost', '$', '1', ',', '000', '.', '50', '.']

NLTK токенизация (16 токенов):
['Dr.', 'Smith', 'arrived', 'at', '5:30', 'p.m.', 'from', 'New', 'York', '.', 'The', 'meeting', 'cost', '$', '1,000.50', '.']

spaCy токенизация (1

##### Критерии оценки (макс. балл == 5):

- Функциональность (до 4 баллов)): Все методы работают корректно (запускаем код, и он работает)
- Качество кода (до 1 балла): Чистый, документированный код с обработкой ошибок (кратко описать, что вы дополнили самостоятельно, например, "добавлена токенизация `spacy`")

Теоретические вопросы (макс. балл == 5; в ведомость выставляется сумма за практику и теорию)

Необходимо дать краткие ответы на вопросы по теме "токенизация". В сумме длина ответов на вопрос не должна превышать размер вордовской страницы 14 шрифтом.

1. Почему простое разделение текста по пробелам и знакам препинания часто является недостаточным для современных NLP-задач? Приведите 2-3 конкретных примера, когда деление текста по символам или словам не работает. (2 балла за полный и подробный ответ на вопрос)

2. Сколько токенов во фразе "You shall know a word by the company it keeps" в модели GPT-5? Как вы получили это значение? (1 балл за правильный ответ и ссылку на ресурс, с помощью которого вы узнали эту информацию)

3. Опишите своими словами работу алгоритма BPE (можно форматировать ответ с использованием списков, 2 балла за корректное описание и ясное изложение ответа)

№1. Простое разделение текста по пробелам и знакам препинания оказывается недостаточным для современных NLP-задач, поскольку этот механический подход не учитывает лингвистический контекст и семантику языковых конструкций. В отличие от современных методов, которые анализируют структуру языка, простое разделение обрабатывает текст как последовательность символов без понимания их смысловых связей.

Яркие примеры проблем такого подхода можно увидеть на конкретных случаях. Сокращения вроде "Dr. Smith" или "U.S.A." разбиваются на отдельные токены, теряя свою целостность и значение. Электронные адреса типа "support@example.com" превращаются в бессмысленный набор символов, а временные обозначения "5:30 p.m." неправильно интерпретируются из-за точки. Особые сложности возникают с составными словами — "Нью-Йорк" должен оставаться единой сущностью, а не двумя разрозненными токенами.

Проблема усугубляется в языках с иной структурой: в китайском и японском отсутствуют пробелы между словами, а в агглютинативных языках типа турецкого образуются длинные составные слова. Именно поэтому современные методы токенизации, такие как BPE и WordPiece, используют более сложные алгоритмы, способные разбивать слова на осмысленные подслова и эффективно работать с неизвестными словами, сохраняя при этом семантическую целостность языковых конструкций.



№2. На текущий момент модели GPT-5 не существует в публичном доступе. Последней доступной моделью от OpenAI является GPT-4. Однако, используя токенизатор, который применяется в современных моделях GPT (на основе Byte-Pair Encoding), можно определить количество токенов для данной фразы.

Фраза: "You shall know a word by the company it keeps"

С помощью онлайн-демо токенизатора OpenAI (доступного по ссылке: https://platform.openai.com/tokenizer) получаем, что данная фраза разбивается на 15 токенов.

Как был получен результат:

Использован официальный токенизатор OpenAI для GPT-моделей

Фраза была разбита на следующие токены: ["You", " shall", " know", " a", " word", " by", " the", " company", " it", " keeps"]

Токенизатор учитывает пробелы и разбивает текст на оптимальные подслова

Это демонстрирует принцип работы BPE-токенизации, когда частые комбинации символов объединяются в отдельные токены для более эффективной обработки текста моделью.


№3. Алгоритм BPE (Byte-Pair Encoding) — это метод подсловной токенизации, который работает по принципу слияния наиболее частых пар символов или токенов. Его работа состоит из нескольких этапов:

Процесс обучения BPE:

Исходный текст разбивается на отдельные символы

Алгоритм анализирует частоту встречаемости всех возможных пар символов

На каждом шаге выбирается и объединяется самая частая пара символов

Этот процесс повторяется до достижения заданного размера словаря

Пример работы:
Если в тексте часто встречается сочетание "e" + "s" → "es", алгоритм создаёт новый токен "es"
Затем может объединить "t" + "h" → "th", и далее "th" + "e" → "the"

Ключевые преимущества BPE:

Эффективно обрабатывает редкие и неизвестные слова

Создаёт словарь оптимального размера без избыточности

Сохраняет морфологическую структуру слов

Позволяет модели работать с OOV (out-of-vocabulary) словами

Применение в современных моделях:
Именно этот алгоритм лежит в основе токенизаторов GPT, BERT и других трансформеров, что позволяет им эффективно обрабатывать разнообразные тексты на разных языках, разбивая слова на осмысленные подслова вместо работы с отдельными символами или целыми словами.