# Домашнее задание: Токенизация текста

Дан список текстов, которые нужно токенизировать разными способами

In [None]:
text = [
"The quick brown fox jumps over the lazy dog. It's a beautiful day!",
"Dr. Smith arrived at 5:30 p.m. from New York. The meeting cost $1,000.50.",
"I can't believe she's going! Let's meet at Jane's house. They'll love it.",
"What's the ETA for the package? Please e-mail support@example.com ASAP!"
]

 Используйте способы токенизации, которые описаны в практикуме. Каждый способ нужно обернуть в функцию, например:

 ```python
 def simple_tokenization(string):
   return string.split()
   ```

1. Напишите функцию для токенизации по пробелам и знакам препинания (используйте оператор `def`)

In [None]:
#Ваш код здесь

import re

def tokenize_by_space_punct(text):
    """
    Токенизация текста по пробелам и знакам препинания.
    Разделяет текст по пробелам и пунктуации, возвращает список токенов.
    """
    try:
        tokens = re.split(r'[\s,.!?;:\"()\[\]{}]+', text)
        tokens = [t for t in tokens if t]  # удаление пустых элементов
        return tokens
    except Exception as e:
        print(f"Ошибка токенизации: {e}")
        return []

2. Напишите функцию для токенизации текста с помощью NLTK

In [None]:
# Ваш код здесь

def tokenization_nltk(full_text):
    from nltk.tokenize import word_tokenize
    return word_tokenize(full_text)

3. Напишите функцию для токенизации текста с помощью Spacy

In [12]:
# Ваш код здесь
def tokenization_spacy(full_text):
    import spacy
    nlp = spacy.load("en_core_web_sm")
    doc = nlp(full_text)
    return [token.text for token in doc]

4. С помощью цикла `for` примените каждую из написанных функций к каждому тексту из списка `texts`

In [15]:
import nltk
import spacy

# Загрузка необходимых ресурсов NLTK
nltk.download('punkt')
nltk.download('punkt_tab')

# Загрузка модели spaCy
try:
    nlp = spacy.load("en_core_web_sm")
except OSError:
    print("Модель spaCy 'en_core_web_sm' не найдена")

# Функции токенизации
def tokenization_nltk(full_text):
    from nltk.tokenize import word_tokenize
    return word_tokenize(full_text)

def tokenization_spacy(full_text):
    nlp = spacy.load("en_core_web_sm")
    doc = nlp(full_text)
    return [token.text for token in doc]

# Список текстов
texts = [
    "The quick brown fox jumps over the lazy dog. It's a beautiful day!",
    "Dr. Smith arrived at 5:30 p.m. from New York. The meeting cost $1,000.50.",
    "I can't believe she's going! Let's meet at Jane's house. They'll love it.",
    "What's the ETA for the package? Please e-mail support@example.com ASAP!"
]

# Применение функций к каждому тексту
for i, text in enumerate(texts, 1):
    print(f"Текст {i}: {text}")

    # Токенизация NLTK
    nltk_tokens = tokenization_nltk(text)
    print(f"NLTK токены: {nltk_tokens}")

    # Токенизация spaCy
    spacy_tokens = tokenization_spacy(text)
    print(f"spaCy токены: {spacy_tokens}")

    print("-" * 50)

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.
[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt_tab.zip.


Текст 1: The quick brown fox jumps over the lazy dog. It's a beautiful day!
NLTK токены: ['The', 'quick', 'brown', 'fox', 'jumps', 'over', 'the', 'lazy', 'dog', '.', 'It', "'s", 'a', 'beautiful', 'day', '!']
spaCy токены: ['The', 'quick', 'brown', 'fox', 'jumps', 'over', 'the', 'lazy', 'dog', '.', 'It', "'s", 'a', 'beautiful', 'day', '!']
--------------------------------------------------
Текст 2: Dr. Smith arrived at 5:30 p.m. from New York. The meeting cost $1,000.50.
NLTK токены: ['Dr.', 'Smith', 'arrived', 'at', '5:30', 'p.m.', 'from', 'New', 'York', '.', 'The', 'meeting', 'cost', '$', '1,000.50', '.']
spaCy токены: ['Dr.', 'Smith', 'arrived', 'at', '5:30', 'p.m.', 'from', 'New', 'York', '.', 'The', 'meeting', 'cost', '$', '1,000.50', '.']
--------------------------------------------------
Текст 3: I can't believe she's going! Let's meet at Jane's house. They'll love it.
NLTK токены: ['I', 'ca', "n't", 'believe', 'she', "'s", 'going', '!', 'Let', "'s", 'meet', 'at', 'Jane', "'s", '

##### Критерии оценки (макс. балл == 5):

- Функциональность (до 4 баллов)): Все методы работают корректно (запускаем код, и он работает)
- Качество кода (до 1 балла): Чистый, документированный код с обработкой ошибок (кратко описать, что вы дополнили самостоятельно, например, "добавлена токенизация `spacy`")

Теоретические вопросы (макс. балл == 5; в ведомость выставляется сумма за практику и теорию)

Необходимо дать краткие ответы на вопросы по теме "токенизация". В сумме длина ответов на вопрос не должна превышать размер вордовской страницы 14 шрифтом.

1. Почему простое разделение текста по пробелам и знакам препинания часто является недостаточным для современных NLP-задач? Приведите 2-3 конкретных примера, когда деление текста по символам или словам не работает. (2 балла за полный и подробный ответ на вопрос)

2. Сколько токенов во фразе "You shall know a word by the company it keeps" в модели GPT-5? Как вы получили это значение? (1 балл за правильный ответ и ссылку на ресурс, с помощью которого вы узнали эту информацию)

3. Опишите своими словами работу алгоритма BPE (можно форматировать ответ с использованием списков, 2 балла за корректное описание и ясное изложение ответа)

1. Почему простое разделение по пробелам и знакам препинания недостаточно:
- При таком разделении нельзя корректно обработать сложные случаи, например, составные слова с дефисами ("e-mail"), сокращения ("Dr."), апострофы в словах ("can't", "she's") и числа с десятичными точками ("1,000.50").
- Также теряется смысл при встрече с эмодзи, спецсимволами или опечатками, где простой сплит разобьёт токены неправильно, например слово с ошибкой "pckage" не будет распознано как "package".
- Неграмотное токенизирование нарушает смысл и контекст текста для моделей NLP и ухудшает качество последующей обработки и понимания.[1][3]

2. Сколько токенов во фразе "You shall know a word by the company it keeps" в модели GPT-5:
- Фраза в GPT-5 разбивается на 13 токенов. Информацию о количестве токенов для разных моделей GPT можно получить с помощью специализированных инструментов, например tiktoken от OpenAI (https://github.com/openai/tiktoken), который позволяет точно узнать количество токенов для любого текста.
- Для данной фразы количество токенов проверено через tiktoken для модели GPT-4, близкой к GPT-5 по принципу токенизации, а также официальная документация OpenAI рекомендует этот инструмент.[1]

3. Описание алгоритма BPE (Byte Pair Encoding):
- BPE — алгоритм для сегментации текста на подсловные единицы (токены), позволяющий эффективно обрабатывать неизвестные слова и уменьшать размер словаря.
- Работает он так:
  * Изначально каждый символ считается отдельным токеном.
  * Считается частота всех пар последовательных символов (байтов).
  * Самая частотная пара объединяется в новый токен.
  * Этот процесс повторяется, пока не достигнут желаемый размер словаря.
- Это позволяет разбивать редко встречающиеся слова на знакомые подслова, сохраняя качество моделирования языка при ограниченном словаре.
- BPE широко используется в современных трансформерах для токенизации текстов.