# Домашнее задание: Токенизация текста

Дан список текстов, которые нужно токенизировать разными способами

In [2]:
text = [
"The quick brown fox jumps over the lazy dog. It's a beautiful day!",
"Dr. Smith arrived at 5:30 p.m. from New York. The meeting cost $1,000.50.",
"I can't believe she's going! Let's meet at Jane's house. They'll love it.",
"What's the ETA for the package? Please e-mail support@example.com ASAP!"
]

 Используйте способы токенизации, которые описаны в практикуме. Каждый способ нужно обернуть в функцию, например:

 ```python
 def simple_tokenization(string):
   return string.split()
   ```

1. Напишите функцию для токенизации по пробелам и знакам препинания (используйте оператор `def`)

In [5]:
import re # добавим модуль регулярных выражений

def simple_tokenization(string): # создадим функцию, параметр которой будет строка
    """
    Токенизация: слова и знаки препинания как отдельные токены.
    """
    return re.findall(r"\w+|[^\w\s]", string) # возвращает список токенов. Условие – любой символ, который НЕ буква/цифра/подчёркивание и НЕ пробел

# здесь же сразу вызываем функцию для ВСЕХ строк из text
for i, sentence in enumerate(text, start=1):
    print(f"\n=== Текст {i} ===")
    print(sentence)
    print(simple_tokenization(sentence))


=== Текст 1 ===
The quick brown fox jumps over the lazy dog. It's a beautiful day!
['The', 'quick', 'brown', 'fox', 'jumps', 'over', 'the', 'lazy', 'dog', '.', 'It', "'", 's', 'a', 'beautiful', 'day', '!']

=== Текст 2 ===
Dr. Smith arrived at 5:30 p.m. from New York. The meeting cost $1,000.50.
['Dr', '.', 'Smith', 'arrived', 'at', '5', ':', '30', 'p', '.', 'm', '.', 'from', 'New', 'York', '.', 'The', 'meeting', 'cost', '$', '1', ',', '000', '.', '50', '.']

=== Текст 3 ===
I can't believe she's going! Let's meet at Jane's house. They'll love it.
['I', 'can', "'", 't', 'believe', 'she', "'", 's', 'going', '!', 'Let', "'", 's', 'meet', 'at', 'Jane', "'", 's', 'house', '.', 'They', "'", 'll', 'love', 'it', '.']

=== Текст 4 ===
What's the ETA for the package? Please e-mail support@example.com ASAP!
['What', "'", 's', 'the', 'ETA', 'for', 'the', 'package', '?', 'Please', 'e', '-', 'mail', 'support', '@', 'example', '.', 'com', 'ASAP', '!']


2. Напишите функцию для токенизации текста с помощью NLTK

In [7]:
import nltk                      # подключаем библиотеку NLTK
from nltk.tokenize import word_tokenize  # берём функцию токенизации по словам

# скачиваем данные для токенизации
nltk.download('punkt')
nltk.download('punkt_tab')

def nltk_tokenization(string):
    """
    Токенизация текста с помощью NLTK (word_tokenize).
    На вход: ОДНА строка.
    На выход: список токенов (слов и знаков препинания).
    """
    return word_tokenize(string)

# ниже сразу применяем функцию ко всем предложениям из списка text
for i, sentence in enumerate(text, start=1):
    print(f"\n=== Текст {i} ===")
    print(sentence)
    print(nltk_tokenization(sentence))


=== Текст 1 ===
The quick brown fox jumps over the lazy dog. It's a beautiful day!
['The', 'quick', 'brown', 'fox', 'jumps', 'over', 'the', 'lazy', 'dog', '.', 'It', "'s", 'a', 'beautiful', 'day', '!']

=== Текст 2 ===
Dr. Smith arrived at 5:30 p.m. from New York. The meeting cost $1,000.50.
['Dr.', 'Smith', 'arrived', 'at', '5:30', 'p.m.', 'from', 'New', 'York', '.', 'The', 'meeting', 'cost', '$', '1,000.50', '.']

=== Текст 3 ===
I can't believe she's going! Let's meet at Jane's house. They'll love it.
['I', 'ca', "n't", 'believe', 'she', "'s", 'going', '!', 'Let', "'s", 'meet', 'at', 'Jane', "'s", 'house', '.', 'They', "'ll", 'love', 'it', '.']

=== Текст 4 ===
What's the ETA for the package? Please e-mail support@example.com ASAP!
['What', "'s", 'the', 'ETA', 'for', 'the', 'package', '?', 'Please', 'e-mail', 'support', '@', 'example.com', 'ASAP', '!']


[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!


3. Напишите функцию для токенизации текста с помощью Spacy

In [9]:
import spacy  # подключаем библиотеку spaCy

# загружаем английскую модель "en_core_web_sm"
nlp = spacy.load("en_core_web_sm")

def spacy_tokenization(string):
    """
    Токенизация текста с помощью spaCy.
    На вход: одна строка.
    На выход: список токенов (слов и знаков препинания).
    """
    doc = nlp(string)          # прогоняем строку через модель spaCy, получаем объект doc
    return [t.text for t in doc]

# ниже сразу применяем функцию ко всем предложениям из списка text
for i, sentence in enumerate(text, start=1):
    print(f"\n=== Текст {i} ===")
    print(sentence)
    print(spacy_tokenization(sentence))


=== Текст 1 ===
The quick brown fox jumps over the lazy dog. It's a beautiful day!
['The', 'quick', 'brown', 'fox', 'jumps', 'over', 'the', 'lazy', 'dog', '.', 'It', "'s", 'a', 'beautiful', 'day', '!']

=== Текст 2 ===
Dr. Smith arrived at 5:30 p.m. from New York. The meeting cost $1,000.50.
['Dr.', 'Smith', 'arrived', 'at', '5:30', 'p.m.', 'from', 'New', 'York', '.', 'The', 'meeting', 'cost', '$', '1,000.50', '.']

=== Текст 3 ===
I can't believe she's going! Let's meet at Jane's house. They'll love it.
['I', 'ca', "n't", 'believe', 'she', "'s", 'going', '!', 'Let', "'s", 'meet', 'at', 'Jane', "'s", 'house', '.', 'They', "'ll", 'love', 'it', '.']

=== Текст 4 ===
What's the ETA for the package? Please e-mail support@example.com ASAP!
['What', "'s", 'the', 'ETA', 'for', 'the', 'package', '?', 'Please', 'e', '-', 'mail', 'support@example.com', 'ASAP', '!']


4. С помощью цикла `for` примените каждую из написанных функций к каждому тексту из списка `texts`

In [11]:
# для удобства просто переименуем text → texts
texts = text

# список функций, которые мы хотим применить
functions = [
    simple_tokenization,
    nltk_tokenization,
    spacy_tokenization,
]

# внешний цикл: идём по всем предложениям в списке texts
for i, sentence in enumerate(texts, start=1):
    print(f"\n=== Текст {i} ===")
    print(sentence)

    # внутренний цикл: по очереди применяем КАЖДУЮ функцию к этому предложению
    for func in functions:
        # печатаем имя функции, чтобы было видно, какой способ токенизации используется
        print(f"\n{func.__name__}:")
        # печатаем результат работы функции
        print(func(sentence))


=== Текст 1 ===
The quick brown fox jumps over the lazy dog. It's a beautiful day!

simple_tokenization:
['The', 'quick', 'brown', 'fox', 'jumps', 'over', 'the', 'lazy', 'dog', '.', 'It', "'", 's', 'a', 'beautiful', 'day', '!']

nltk_tokenization:
['The', 'quick', 'brown', 'fox', 'jumps', 'over', 'the', 'lazy', 'dog', '.', 'It', "'s", 'a', 'beautiful', 'day', '!']

spacy_tokenization:
['The', 'quick', 'brown', 'fox', 'jumps', 'over', 'the', 'lazy', 'dog', '.', 'It', "'s", 'a', 'beautiful', 'day', '!']

=== Текст 2 ===
Dr. Smith arrived at 5:30 p.m. from New York. The meeting cost $1,000.50.

simple_tokenization:
['Dr', '.', 'Smith', 'arrived', 'at', '5', ':', '30', 'p', '.', 'm', '.', 'from', 'New', 'York', '.', 'The', 'meeting', 'cost', '$', '1', ',', '000', '.', '50', '.']

nltk_tokenization:
['Dr.', 'Smith', 'arrived', 'at', '5:30', 'p.m.', 'from', 'New', 'York', '.', 'The', 'meeting', 'cost', '$', '1,000.50', '.']

spacy_tokenization:
['Dr.', 'Smith', 'arrived', 'at', '5:30', 'p.m

##### Критерии оценки (макс. балл == 5):

- Функциональность (до 4 баллов)): Все методы работают корректно (запускаем код, и он работает)
- Качество кода (до 1 балла): Чистый, документированный код с обработкой ошибок (кратко описать, что вы дополнили самостоятельно, например, "добавлена токенизация `spacy`")

Теоретические вопросы (макс. балл == 5; в ведомость выставляется сумма за практику и теорию)

Необходимо дать краткие ответы на вопросы по теме "токенизация". В сумме длина ответов на вопрос не должна превышать размер вордовской страницы 14 шрифтом.

1. Почему простое разделение текста по пробелам и знакам препинания часто является недостаточным для современных NLP-задач? Приведите 2-3 конкретных примера, когда деление текста по символам или словам не работает. (2 балла за полный и подробный ответ на вопрос)

2. Сколько токенов во фразе "You shall know a word by the company it keeps" в модели GPT-5? Как вы получили это значение? (1 балл за правильный ответ и ссылку на ресурс, с помощью которого вы узнали эту информацию)

3. Опишите своими словами работу алгоритма BPE (можно форматировать ответ с использованием списков, 2 балла за корректное описание и ясное изложение ответа)

1. Простое разделение по пробелам и знакам препинания (типa .split()) просто режет строку на кусочки по символам, что является недостаточным для соврменных NLP-задач. Такие методы не улавливают семантическое единство какой-то составной языковой единицы, что может привести к к проблемам в машинном переводе, анализе тональности и пр. Например, в предложенных строках "I can't believe she's going!" и "What's the ETA for the package?" присутствуют сокращения типо "can't", "she's" и "what's", которые важны для задач машинного перевода. Простое деление по пробелам и знакам препинания не считывает такие структуры как единые грамматические, которые влияют на смысл единицы и всего высказывания в целом. Это приводит к утрате грамматики и смысла. Также еще один пример – сложные единицы или сущности, которые должны уметь вычленяться в диалоге между ботом и человеком. "5:30 p.m" в "Dr. Smith arrived at 5:30 p.m", "support@example.com" в "Please e-mail support@example.com ASAP!" и др. при наивной токенизации сломаются, превратившись в простой набор чисел и мусорных знаков. Нам важно воспринимать их целыми и логичными токеном, чтобы правильно извлекать факты/информацию из текстов.
2. Во фразе "You shall know a word by the company it keeps" без кавычек 10 токенов в модели GPT-5. Ссылка на ресурс, где узнал информацию, - https://gpt-tokenizer.dev/
3. Главная идея научить модель работать не только со словами, но и с их частями. BPE модель автоматически учится таким кусочкам на корпусе. В начале считаем каждый символ отдельным токеном, далее смотрим какие пары соседних символов чаще всего в обучающем тексте. Самые частотные пары мы объединяем в новый токен и повторяем это много раз да одном большом корпусе. Мы продолжаем делать это пока не наберем нужный размер словаря. Когда мы встречаем новое слово то разбиваем его уже на части, которые есть в словаре. Следовательно, BPE учится подсловными токенами на корпусе, начиная с отдельных символов, на каждом шаге склеивая самые частотные пары соседних токенов и в результате получая словарь подслов, с помощью которого можно токенизировать новые слова. Модель становится устойчивой и чувтсительной к морфологии.