<a href="https://colab.research.google.com/github/DarkfinShark/compling-hw/blob/main/%22hw_tokenization__ipynb%22.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Домашнее задание: Токенизация текста

Дан список текстов, которые нужно токенизировать разными способами

In [1]:
texts = [
"The quick brown fox jumps over the lazy dog. It's a beautiful day!",
"Dr. Smith arrived at 5:30 p.m. from New York. The meeting cost $1,000.50.",
"I can't believe she's going! Let's meet at Jane's house. They'll love it.",
"What's the ETA for the package? Please e-mail support@example.com ASAP!"
]

 Используйте способы токенизации, которые описаны в практикуме. Каждый способ нужно обернуть в функцию, например:

 ```python
 def simple_tokenization(string):
   return string.split()
   ```

1. Напишите функцию для токенизации по пробелам и знакам препинания (используйте оператор `def`)

In [2]:
import re

def simple_tokenization(text: str) -> list[str]:
    """Токенизирует текст по пробелам и знакам препинания с помощью регулярных выражений.

    Args:
        text: Входной текст для токенизации.

    Returns:
        Список токенов, полученных из текста.
    """

    tokens = re.findall(r'\w+', text)
    return tokens

2. Напишите функцию для токенизации текста с помощью NLTK

In [3]:
import nltk
nltk.download('punkt_tab') # Загружаем модель для токенизации текста
from nltk.tokenize import word_tokenize # Импортируем функцию токенизации текста на слова

def nltk_tokenization(text: str) -> list[str]:
    """Токенизирует текст с помощью NLTK.

    Args:
        text: Входной текст для токенизации.

    Returns:
        Список токенов, полученных из текста.
    """

    tokens = word_tokenize(text)
    return tokens

[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt_tab.zip.


3. Напишите функцию для токенизации текста с помощью Spacy

In [4]:
import spacy
nlp = spacy.load('en_core_web_sm', exclude=['tagger', 'parser', 'attribute_ruler', 'lemmatizer', 'ner']) # Инициализируем модель spaCy, исключая ненужные для токенизации компоненты

def spacy_tokenization(text: str) -> list[str]:
    """Токенизирует текст с помощью spaCy.

    Args:
        text: Входной текст для токенизации.

    Returns:
        Список токенов, полученных из текста.
    """

    doc = nlp(text) # Преобразуем строки в объекты Doc
    tokens = [token.text for token in doc] # Извлекаем список токенов
    return tokens

4. С помощью цикла `for` примените каждую из написанных функций к каждому тексту из списка `texts`

In [5]:
# Создаём словарь для хранения результатов токенизации каждого текста:
# {исходный текст: словарь результатов токенизации текста каждым из методов}
results = {}

for text in texts:
    # Создаём словарь для хранения результатов токенизации одного текста каждым из методов:
    # Для успешной токенизации: {метод: список токенов}
    # Для ошибок: {метод_error: ошибка}
    methods_results = {}

    # Применяем все методы токенизации к тексту с обработкой ошибок
    try:
        methods_results['re'] = simple_tokenization(text)
    except Exception as e:
        methods_results['re_error'] = e

    try:
        methods_results['nltk'] = nltk_tokenization(text)
    except Exception as e:
        methods_results['nltk_error'] = e

    try:
        methods_results['spacy'] = spacy_tokenization(text)
    except Exception as e:
        methods_results['spacy_error'] = e

    results[text] = methods_results

In [6]:
# Выводим результаты токенизации
for text, methods in results.items():
    print(text)
    for method, res in methods.items():
        print(f'   {method}: {res}')
    print()

The quick brown fox jumps over the lazy dog. It's a beautiful day!
   re: ['The', 'quick', 'brown', 'fox', 'jumps', 'over', 'the', 'lazy', 'dog', 'It', 's', 'a', 'beautiful', 'day']
   nltk: ['The', 'quick', 'brown', 'fox', 'jumps', 'over', 'the', 'lazy', 'dog', '.', 'It', "'s", 'a', 'beautiful', 'day', '!']
   spacy: ['The', 'quick', 'brown', 'fox', 'jumps', 'over', 'the', 'lazy', 'dog', '.', 'It', "'s", 'a', 'beautiful', 'day', '!']

Dr. Smith arrived at 5:30 p.m. from New York. The meeting cost $1,000.50.
   re: ['Dr', 'Smith', 'arrived', 'at', '5', '30', 'p', 'm', 'from', 'New', 'York', 'The', 'meeting', 'cost', '1', '000', '50']
   nltk: ['Dr.', 'Smith', 'arrived', 'at', '5:30', 'p.m.', 'from', 'New', 'York', '.', 'The', 'meeting', 'cost', '$', '1,000.50', '.']
   spacy: ['Dr.', 'Smith', 'arrived', 'at', '5:30', 'p.m.', 'from', 'New', 'York', '.', 'The', 'meeting', 'cost', '$', '1,000.50', '.']

I can't believe she's going! Let's meet at Jane's house. They'll love it.
   re: ['I',

##### Критерии оценки (макс. балл == 5):

- Функциональность (до 4 баллов)): Все методы работают корректно (запускаем код, и он работает)
- Качество кода (до 1 балла): Чистый, документированный код с обработкой ошибок (кратко описать, что вы дополнили самостоятельно, например, "добавлена токенизация `spacy`")

Теоретические вопросы (макс. балл == 5; в ведомость выставляется сумма за практику и теорию)

Необходимо дать краткие ответы на вопросы по теме "токенизация". В сумме длина ответов на вопрос не должна превышать размер вордовской страницы 14 шрифтом.

1. Почему простое разделение текста по пробелам и знакам препинания часто является недостаточным для современных NLP-задач? Приведите 2-3 конкретных примера, когда деление текста по символам или словам не работает. (2 балла за полный и подробный ответ на вопрос)

    В зависимости от задачи в качестве токенов могут выступать разные единицы текста — например, предложения, слова, части слов или символы. Разделение текста по пробелам и знакам препинания не подходит для токенизации текста на предложения или символы, но даже если мы хотим токенизировать текст на слова,  во многих случаях такого подхода будет недостаточно, например, из-за особенностей отдельных языков или специфических форматов данных. Так, в английском языке сложности вызывают сокращения: "is not" -> "isn't". В NLTK токенизация на слова (word_tokenize) токенизирует это как "is" и "n't", чего не удалось бы добиться разделением текста по пробелам и специальным символам. Также проблематична токенизация текстов на немецком языке с длинными составными словами или языков с иероглифической письменностью, в которых нет пробелов между словами. Примерами проблем токенизации, связанных с особыми типами данных, являются обозначения времени — "12:30" мы скорее захотим выделить как единый токен, а не разбить на два токена "12" и "30", потеряв ":", — и e-mail адреса, которые не стоит разделять по точкам.

2. Сколько токенов во фразе "You shall know a word by the company it keeps" в модели GPT-5? Как вы получили это значение? (1 балл за правильный ответ и ссылку на ресурс, с помощью которого вы узнали эту информацию)

    10 токенов

    https://gpt-tokenizer.dev/

3. Опишите своими словами работу алгоритма BPE (можно форматировать ответ с использованием списков, 2 балла за корректное описание и ясное изложение ответа)

    Изначально текст разбивается на токены посимвольно. Подсчитывается частота встречаемости в тексте каждой пары токенов. Наиболее часто встречающиеся пары токенов итеративно объединяются до тех пор, пока не будет достигнут заданный размер словаря. В итоге получается эффективный словарь токенов, меньшего размера, чем при посимвольной токенизации, и отражающий лингвистические паттерны (например, приставки или суффиксы представлены в качестве отдельных токенов).