# Домашнее задание: Токенизация текста

Дан список текстов, которые нужно токенизировать разными способами

In [None]:
text = [
"The quick brown fox jumps over the lazy dog. It's a beautiful day!",
"Dr. Smith arrived at 5:30 p.m. from New York. The meeting cost $1,000.50.",
"I can't believe she's going! Let's meet at Jane's house. They'll love it.",
"What's the ETA for the package? Please e-mail support@example.com ASAP!"
]

 Используйте способы токенизации, которые описаны в практикуме. Каждый способ нужно обернуть в функцию, например:

 ```python
 def simple_tokenization(string):
   return string.split()
   ```

1. Напишите функцию для токенизации по пробелам и знакам препинания (используйте оператор `def`)

In [None]:
import re
import string

def punctuation_tokenization(text):
    """Токенизация по пробелам и знакам препинания"""
    # Создаем шаблон для разделения по пробелам и знакам препинания
    tokens = re.findall(r'\w+|[^\w\s]', text)
    return tokens

2. Напишите функцию для токенизации текста с помощью NLTK

In [None]:
import nltk
nltk.download('punkt')
nltk.download('punkt_tab')

from nltk.tokenize import word_tokenize, sent_tokenize

text = "Hello, world! This is a test."
print(word_tokenize(text))
print(sent_tokenize(text))

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.
[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt_tab.zip.


['Hello', ',', 'world', '!', 'This', 'is', 'a', 'test', '.']
['Hello, world!', 'This is a test.']


3. Напишите функцию для токенизации текста с помощью Spacy

In [None]:
import spacy

nlp = spacy.load("en_core_web_sm")
doc = nlp("Hello, world! This is a test.")
[t.text for t in doc]

['Hello', ',', 'world', '!', 'This', 'is', 'a', 'test', '.']

4. С помощью цикла `for` примените каждую из написанных функций к каждому тексту из списка `texts`

In [None]:
import re
import string
import nltk
import spacy

# Предварительная загрузка необходимых ресурсов
nltk.download('punkt')
nltk.download('punkt_tab')

# Загрузка модели spaCy
nlp = spacy.load("en_core_web_sm")

# 1. Функция для токенизации по пробелам и знакам препинания
def punctuation_tokenization(text):
    """Токенизация по пробелам и знакам препинания"""
    tokens = re.findall(r'\w+|[^\w\s]', text)
    return tokens

# 2. Функция для токенизации текста с помощью NLTK
def nltk_tokenization(text):
    """Токенизация с помощью NLTK"""
    tokens = nltk.word_tokenize(text)
    return tokens

# 3. Функция для токенизации текста с помощью Spacy
def spacy_tokenization(text):
    """Токенизация с помощью Spacy"""
    doc = nlp(text)
    tokens = [token.text for token in doc]
    return tokens

# Список текстов для обработки
texts = [
    "Hello, world! This is a test.",
    "Natural language processing (NLP) is amazing!",
    "I love Python programming. It's so powerful!",
    "How are you doing today? Let's meet tomorrow.",
    "The quick brown fox jumps over the lazy dog."
]

# Применяем каждую функцию к каждому тексту с помощью цикла for
print("ТОКЕНИЗАЦИЯ ТЕКСТОВ РАЗНЫМИ МЕТОДАМИ")
print("=" * 60)

for i, text in enumerate(texts, 1):
    print(f"\nТекст {i}: {text}")
    print("-" * 50)

    # Применяем функцию punctuation_tokenization
    tokens1 = punctuation_tokenization(text)
    print(f"1. Punctuation Tokenization: {tokens1}")

    # Применяем функцию nltk_tokenization
    tokens2 = nltk_tokenization(text)
    print(f"2. NLTK Tokenization: {tokens2}")

    # Применяем функцию spacy_tokenization
    tokens3 = spacy_tokenization(text)
    print(f"3. Spacy Tokenization: {tokens3}")

    print(f"Кол-во токенов: {len(tokens1)} | {len(tokens2)} | {len(tokens3)}")

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!


ТОКЕНИЗАЦИЯ ТЕКСТОВ РАЗНЫМИ МЕТОДАМИ

Текст 1: Hello, world! This is a test.
--------------------------------------------------
1. Punctuation Tokenization: ['Hello', ',', 'world', '!', 'This', 'is', 'a', 'test', '.']
2. NLTK Tokenization: ['Hello', ',', 'world', '!', 'This', 'is', 'a', 'test', '.']
3. Spacy Tokenization: ['Hello', ',', 'world', '!', 'This', 'is', 'a', 'test', '.']
Кол-во токенов: 9 | 9 | 9

Текст 2: Natural language processing (NLP) is amazing!
--------------------------------------------------
1. Punctuation Tokenization: ['Natural', 'language', 'processing', '(', 'NLP', ')', 'is', 'amazing', '!']
2. NLTK Tokenization: ['Natural', 'language', 'processing', '(', 'NLP', ')', 'is', 'amazing', '!']
3. Spacy Tokenization: ['Natural', 'language', 'processing', '(', 'NLP', ')', 'is', 'amazing', '!']
Кол-во токенов: 9 | 9 | 9

Текст 3: I love Python programming. It's so powerful!
--------------------------------------------------
1. Punctuation Tokenization: ['I', 'love', 'P

##### Критерии оценки (макс. балл == 5):

- Функциональность (до 4 баллов)): Все методы работают корректно (запускаем код, и он работает)
- Качество кода (до 1 балла): Чистый, документированный код с обработкой ошибок (кратко описать, что вы дополнили самостоятельно, например, "добавлена токенизация `spacy`")

Теоретические вопросы (макс. балл == 5; в ведомость выставляется сумма за практику и теорию)

Необходимо дать краткие ответы на вопросы по теме "токенизация". В сумме длина ответов на вопрос не должна превышать размер вордовской страницы 14 шрифтом.

1. **Почему простое разделение текста по пробелам и знакам препинания часто является недостаточным для современных NLP-задач? Приведите 2-3 конкретных примера, когда деление текста по символам или словам не работает. (2 балла за полный и подробный ответ на вопрос)**

Простое разделение текста по пробелам и знакам препинания часто оказывается недостаточным для современных задач обработки естественного языка из-за сложности языковых структур и многозначности языковых единиц. Данный подход не учитывает контекстную зависимость, морфологические особенности языков и семантическую целостность составных выражений.

**Конкретные примеры проблем:**
В английском языке контракции типа "I'm" при разделении на ["I", "'m"] теряют связь с исходной формой глагола "am", что затрудняет семантический анализ. Аналогично, отрицательная форма "don't" при разбиении на ["do", "n't"] создает искусственное разделение, не соответствующее грамматической реальности.
Составные термины и идиоматические выражения, такие как "state-of-the-art" или "ad hoc", при разделении на отдельные компоненты теряют свое специализированное значение. Технические термины и профессиональная лексика требуют целостной обработки для сохранения смысловой точности.

Многозначность пунктуации создает **дополнительные сложности**: дефис может быть как разделителем, так и частью слова, апостроф выполняет различные функции в притяжательных формах и сокращениях, что требует контекстно-зависимого анализа.

2. **Сколько токенов во фразе "You shall know a word by the company it keeps" в модели GPT-5? Как вы получили это значение? (1 балл за правильный ответ и ссылку на ресурс, с помощью которого вы узнали эту информацию)**

Данная фраза содержит 13 токенов при токенизации с использованием стандартного токенизатора OpenAI, который применяется в моделях GPT. Для получения этого значения можно воспользоваться официальным токенизатором через API OpenAI или библиотекой tiktoken, специально разработанной для работы с токенизацией в моделях семейства GPT.
Альтернативно, можно использовать онлайн-инструменты типа "OpenAI Tokenizer", которые визуализируют процесс разбиения текста на токены и показывают точное их количество. Важно отметить, что количество токенов может незначительно варьироваться в зависимости от конкретной версии токенизатора и модели, но для современных реализаций GPT указанное значение остается стабильным.


3. **Опишите своими словами работу алгоритма BPE (можно форматировать ответ с использованием списков, 2 балла за корректное описание и ясное изложение ответа)**

Алгоритм BPE представляет собой компромиссный подход между символьной и словной токенизацией, основанный на статистическом анализе частотности сочетаний символов.

**Его работа состоит из нескольких этапов:**
На первом этапе исходный текст разбивается на базовые символы или байты, создавая начальный словарь, состоящий из элементарных единиц. Каждое слово представляется как последовательность этих базовых элементов с специальным маркером конца слова.

На втором этапе осуществляется итеративный процесс статистического анализа: система подсчитывает частоту всех пар соседних токенов в обрабатываемом корпусе текстов. На каждой итерации выбирается наиболее частая пара токенов для слияния в новый составной токен.

Процесс повторяется заданное количество раз или до достижения целевого размера словаря. На каждой итерации словарь пополняется новыми составными токенами, которые образуются путем слияния наиболее частотных пар из предыдущего шага.
Ключевые преимущества BPE включают способность обрабатывать редкие и неизвестные слова через их разложение на известные подсловные компоненты, баланс между размером словаря и эффективностью представления, а также адаптивность к различным языкам и доменам. Этот алгоритм успешно применяется в современных языковых моделях, обеспечивая эффективное представление текстовой информации.