# Домашнее задание: Токенизация текста

Дан список текстов, которые нужно токенизировать разными способами

In [7]:
text = [
"The quick brown fox jumps over the lazy dog. It's a beautiful day!",
"Dr. Smith arrived at 5:30 p.m. from New York. The meeting cost $1,000.50.",
"I can't believe she's going! Let's meet at Jane's house. They'll love it.",
"What's the ETA for the package? Please e-mail support@example.com ASAP!"
]

 Используйте способы токенизации, которые описаны в практикуме. Каждый способ нужно обернуть в функцию, например:

 ```python
 def simple_tokenization(string):
   return string.split()
   ```

1. Напишите функцию для токенизации по пробелам и знакам препинания (используйте оператор `def`)

In [8]:
import re

In [13]:
# Функция для токенизации по пробелам и знакам препинания (и другим спецсимволам)
def spaces_and_puncation_tokenization(string):
    return re.findall(r'\w+', string)

2. Напишите функцию для токенизации текста с помощью NLTK

In [36]:
# Импорт библиотеки
try:
    import nltk
    nltk.download('punkt_tab')
    from nltk.tokenize import word_tokenize
except:
    print('Could not import NLTK')

[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!


In [37]:
# Токенизация при помощи nltk
def nltk_tokenization(string):
    try:
        return word_tokenize(string)
    except:
        print('Could not tokenize with NLTK')
        return None

3. Напишите функцию для токенизации текста с помощью Spacy

In [38]:
# Импорт библиотеки
try:
    import spacy
    nlp = spacy.load("en_core_web_sm")
except:
    print('Could not import spacy')

In [39]:
# Токенизация при помощи spacy
def spacy_tokenization(string):
    try:
        return [t.text for t in nlp(string)]
    except:
        print('Could not tokenize with spacy')
        return None

4. С помощью цикла `for` примените каждую из написанных функций к каждому тексту из списка `texts`

In [40]:
for i in range(len(text)):
    print(f'Текст {i + 1}')
    print(f'Простая токенизация: {spaces_and_puncation_tokenization(text[i])}')
    print(f'NLTK: {nltk_tokenization(text[i])}')
    print(f'SpaCy: {spacy_tokenization(text[i])}')

Текст 1
Простая токенизация: ['The', 'quick', 'brown', 'fox', 'jumps', 'over', 'the', 'lazy', 'dog', 'It', 's', 'a', 'beautiful', 'day']
NLTK: ['The', 'quick', 'brown', 'fox', 'jumps', 'over', 'the', 'lazy', 'dog', '.', 'It', "'s", 'a', 'beautiful', 'day', '!']
SpaCy: ['The', 'quick', 'brown', 'fox', 'jumps', 'over', 'the', 'lazy', 'dog', '.', 'It', "'s", 'a', 'beautiful', 'day', '!']
Текст 2
Простая токенизация: ['Dr', 'Smith', 'arrived', 'at', '5', '30', 'p', 'm', 'from', 'New', 'York', 'The', 'meeting', 'cost', '1', '000', '50']
NLTK: ['Dr.', 'Smith', 'arrived', 'at', '5:30', 'p.m.', 'from', 'New', 'York', '.', 'The', 'meeting', 'cost', '$', '1,000.50', '.']
SpaCy: ['Dr.', 'Smith', 'arrived', 'at', '5:30', 'p.m.', 'from', 'New', 'York', '.', 'The', 'meeting', 'cost', '$', '1,000.50', '.']
Текст 3
Простая токенизация: ['I', 'can', 't', 'believe', 'she', 's', 'going', 'Let', 's', 'meet', 'at', 'Jane', 's', 'house', 'They', 'll', 'love', 'it']
NLTK: ['I', 'ca', "n't", 'believe', 'she',

##### Критерии оценки (макс. балл == 5):

- Функциональность (до 4 баллов)): Все методы работают корректно (запускаем код, и он работает)
- Качество кода (до 1 балла): Чистый, документированный код с обработкой ошибок (кратко описать, что вы дополнили самостоятельно, например, "добавлена токенизация `spacy`")

Теоретические вопросы (макс. балл == 5; в ведомость выставляется сумма за практику и теорию)

Необходимо дать краткие ответы на вопросы по теме "токенизация". В сумме длина ответов на вопрос не должна превышать размер вордовской страницы 14 шрифтом.

1. Почему простое разделение текста по пробелам и знакам препинания часто является недостаточным для современных NLP-задач? Приведите 2-3 конкретных примера, когда деление текста по символам или словам не работает. (2 балла за полный и подробный ответ на вопрос)

- Разделение по пробелам и знакам препинания иногда делит слова и названия на части (напр. New York, e-mail)
- Не работает с разными языками (напр. в китайском слова не делятся по пробелам)
- Не учитывает пунктуацию
- Не учитывает морфологию

2. Сколько токенов во фразе "You shall know a word by the company it keeps" в модели GPT-5? Как вы получили это значение? (1 балл за правильный ответ и ссылку на ресурс, с помощью которого вы узнали эту информацию)

- 10 токенов. Ресурс: https://gpt-tokenizer.dev/, модель - gpt-5.

3. Опишите своими словами работу алгоритма BPE (можно форматировать ответ с использованием списков, 2 балла за корректное описание и ясное изложение ответа)

- Создается словарь, в котором токены - отдельные символы
- В текстах ищется наиболее часто встречаемая рядом пара последовательных токенов, эту пару заменяют на новый токен и обновляют словарь
- Процесс продолжается, пока не будет достигнуто ограничение (по размеру словаря/количеству итераций и др.)