# Установка и импорт библиотек

In [45]:
# Установка необходимых библиотек для работы с текстом на русском языке
!pip install nltk pymorphy2
import nltk
import re
from collections import Counter, defaultdict
import string



**Объяснение:**
- `nltk` - это Natural Language Toolkit, библиотека для обработки естественного языка. Она содержит инструменты для токенизации текста.
- `pymorphy2` - морфологический анализатор для русского языка, который поможет нам с лемматизацией (приведением слов к начальной форме).
- `re` - модуль для работы с регулярными выражениями, который пригодится для сложных операций с текстом.
- `Counter` и `defaultdict` из модуля `collections` - структуры данных для подсчёта элементов и создания словарей с значениями по умолчанию.
- `string` - содержит константы, такие как `string.punctuation` (набор знаков препинания).

**Что будет, если убрать/изменить:**
- Без этих библиотек мы не сможем выполнить задание, так как они предоставляют базовый функционал для обработки текста.
- Можно заменить некоторые библиотеки аналогами (например, вместо `pymorphy2` использовать `natasha`), но потребуется изменить соответствующий код.

# Загрузка ресурсов NLTK

In [46]:
# Загрузка ресурсов NLTK для токенизации и работы со стоп-словами
nltk.download('punkt')
nltk.download('stopwords')

from nltk.tokenize import sent_tokenize, word_tokenize
from nltk.corpus import stopwords

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


**Объяснение:**
- `nltk.download('punkt')` - загружает модель для разделения текста на предложения (пунктуация).
- `nltk.download('stopwords')` - загружает списки стоп-слов (часто встречающиеся слова, которые обычно не несут значимой информации).
- `sent_tokenize` - функция для разделения текста на предложения.
- `word_tokenize` - функция для разделения предложений на слова.

In [47]:
# Пример текста для обработки (можно заменить на любой другой)
text = """
Искусственный интеллект (ИИ) - это область компьютерной науки, которая фокусируется на создании систем, способных выполнять задачи, требующие человеческого интеллекта.
Машинное обучение является подобластью ИИ, которая позволяет компьютерам учиться на основе данных без явного программирования.
Глубокое обучение использует нейронные сети с множеством слоев для анализа различных факторов данных.
Современные языковые модели используют трансформеры для обработки естественного языка и генерации текста.
"""

print("Исходный текст:")
print(text)

Исходный текст:

Искусственный интеллект (ИИ) - это область компьютерной науки, которая фокусируется на создании систем, способных выполнять задачи, требующие человеческого интеллекта.
Машинное обучение является подобластью ИИ, которая позволяет компьютерам учиться на основе данных без явного программирования.
Глубокое обучение использует нейронные сети с множеством слоев для анализа различных факторов данных.
Современные языковые модели используют трансформеры для обработки естественного языка и генерации текста.



Нужно скачать punkt_tab в строке ниже

In [48]:
nltk.download()

NLTK Downloader
---------------------------------------------------------------------------
    d) Download   l) List    u) Update   c) Config   h) Help   q) Quit
---------------------------------------------------------------------------
Downloader> d

Download which package (l=list; x=cancel)?
  Identifier> punkt_tab


    Downloading package punkt_tab to /root/nltk_data...
      Package punkt_tab is already up-to-date!



---------------------------------------------------------------------------
    d) Download   l) List    u) Update   c) Config   h) Help   q) Quit
---------------------------------------------------------------------------
Downloader> q


True

# Токенизация текста на предложения

In [49]:
# Разделение текста на предложения
sentences = sent_tokenize(text)

print("\nРазделение на предложения:")
for i, sentence in enumerate(sentences):
    print(f"Предложение {i+1}: {sentence}")


Разделение на предложения:
Предложение 1: 
Искусственный интеллект (ИИ) - это область компьютерной науки, которая фокусируется на создании систем, способных выполнять задачи, требующие человеческого интеллекта.
Предложение 2: Машинное обучение является подобластью ИИ, которая позволяет компьютерам учиться на основе данных без явного программирования.
Предложение 3: Глубокое обучение использует нейронные сети с множеством слоев для анализа различных факторов данных.
Предложение 4: Современные языковые модели используют трансформеры для обработки естественного языка и генерации текста.


**Объяснение:**
- `sent_tokenize(text)` разбивает текст на отдельные предложения, анализируя пунктуацию и структуру текста.
- Функция возвращает список предложений, который мы сохраняем в переменной `sentences`.
- Затем мы выводим каждое предложение с его порядковым номером для наглядности.

**Что будет, если убрать/изменить:**
- Без этого шага мы не сможем обрабатывать текст на уровне предложений, что важно для многих задач NLP.
- Можно заменить `sent_tokenize` на свою функцию, например, разделяя текст по символам `.`, `!`, `?`, но это менее надежно.

# Токенизация предложений на слова

In [50]:
# Токенизация предложений на слова
tokenized_sentences = []
for sentence in sentences:
    tokens = word_tokenize(sentence)
    tokenized_sentences.append(tokens)

print("\nПример токенизации предложения на слова:")
print(f"Предложение: {sentences[0]}")
print(f"Токены: {tokenized_sentences[0]}")


Пример токенизации предложения на слова:
Предложение: 
Искусственный интеллект (ИИ) - это область компьютерной науки, которая фокусируется на создании систем, способных выполнять задачи, требующие человеческого интеллекта.
Токены: ['Искусственный', 'интеллект', '(', 'ИИ', ')', '-', 'это', 'область', 'компьютерной', 'науки', ',', 'которая', 'фокусируется', 'на', 'создании', 'систем', ',', 'способных', 'выполнять', 'задачи', ',', 'требующие', 'человеческого', 'интеллекта', '.']


**Объяснение:**
- Для каждого предложения из списка `sentences` мы применяем функцию `word_tokenize()`.
- Эта функция разбивает предложение на отдельные слова и знаки препинания (токены).
- Результаты сохраняются в список списков `tokenized_sentences`, где каждый вложенный список содержит токены одного предложения.
- В конце выводим пример для первого предложения, чтобы наглядно показать результат.

**Что будет, если убрать/изменить:**
- Без токенизации на слова мы не сможем анализировать и обрабатывать текст на уровне отдельных слов.
- Можно заменить на разделение по пробелам (`sentence.split()`), но это не будет учитывать знаки препинания и другие нюансы.

# Нормализация токенов

In [51]:
# Импорт и настройка морфологического анализатора для русского языка
import pymorphy2
morph = pymorphy2.MorphAnalyzer()

# Функция для нормализации русских токенов
def normalize_tokens(tokens):
    """
    Приводит токены к нормальной форме:
    - переводит в нижний регистр
    - удаляет знаки препинания
    - выполняет лемматизацию (приведение к начальной форме)
    """
    normalized_tokens = []
    for token in tokens:
        # Приведение к нижнему регистру
        token = token.lower()

        # Удаление знаков препинания
        token = ''.join([char for char in token if char not in string.punctuation])

        # Пропуск пустых токенов
        if not token:
            continue

        # Лемматизация для русского языка с помощью pymorphy2
        parsed_token = morph.parse(token)[0]
        normalized = parsed_token.normal_form

        normalized_tokens.append(normalized)

    return normalized_tokens

# Применение нормализации к нашим токенам
normalized_sentences = []
for tokens in tokenized_sentences:
    normalized_tokens = normalize_tokens(tokens)
    normalized_sentences.append(normalized_tokens)

print("\nПример нормализованного предложения:")
print(f"Исходные токены: {tokenized_sentences[0]}")
print(f"Нормализованные токены: {normalized_sentences[0]}")


Пример нормализованного предложения:
Исходные токены: ['Искусственный', 'интеллект', '(', 'ИИ', ')', '-', 'это', 'область', 'компьютерной', 'науки', ',', 'которая', 'фокусируется', 'на', 'создании', 'систем', ',', 'способных', 'выполнять', 'задачи', ',', 'требующие', 'человеческого', 'интеллекта', '.']
Нормализованные токены: ['искусственный', 'интеллект', 'ия', 'это', 'область', 'компьютерный', 'наука', 'который', 'фокусироваться', 'на', 'создание', 'система', 'способный', 'выполнять', 'задача', 'требовать', 'человеческий', 'интеллект']


**Объяснение:**
- Создаем функцию `normalize_tokens`, которая выполняет три основных шага нормализации:
  1. **Приведение к нижнему регистру**: "Слово" → "слово"
  2. **Удаление знаков препинания**: "слово," → "слово"
  3. **Лемматизация**: "словами" → "слово", "бежали" → "бежать"
- Лемматизация использует `pymorphy2` — морфологический анализатор для русского языка, который приводит слова к их начальной форме.
- Для каждого предложения применяем функцию нормализации и сохраняем результаты в `normalized_sentences`.

**Что будет, если убрать/изменить:**
- Без нормализации разные формы одного слова будут считаться разными токенами (например, "слово", "слова", "словами" — это три разных токена).
- Если убрать лемматизацию, но оставить приведение к нижнему регистру, результат будет менее точным, но всё равно лучше, чем исходный текст.
- Можно заменить `pymorphy2` на другую библиотеку

# Создание словаря с индексами и частотами

In [52]:
# Создание словаря из нормализованных токенов
# Словарь будет содержать уникальные токены и их частоту
vocabulary = {}
token_counter = Counter()

# Подсчет всех токенов
for sentence in normalized_sentences:
    token_counter.update(sentence)

# Создание словаря с индексами и частотами
for idx, (token, count) in enumerate(token_counter.most_common()):
    vocabulary[token] = {
        "id": idx,
        "count": count
    }

print(f"\nРазмер словаря: {len(vocabulary)} уникальных токенов")
print("\nПример 10 наиболее часто встречающихся токенов:")
for token, info in list(vocabulary.items())[:10]:
    print(f"{token}: встречается {info['count']} раз, id={info['id']}")


Размер словаря: 50 уникальных токенов

Пример 10 наиболее часто встречающихся токенов:
интеллект: встречается 2 раз, id=0
ия: встречается 2 раз, id=1
который: встречается 2 раз, id=2
на: встречается 2 раз, id=3
обучение: встречается 2 раз, id=4
данные: встречается 2 раз, id=5
использовать: встречается 2 раз, id=6
для: встречается 2 раз, id=7
искусственный: встречается 1 раз, id=8
это: встречается 1 раз, id=9


**Объяснение:**
- Создаем словарь `vocabulary`, который будет содержать информацию о всех уникальных токенах.
- Используем `Counter` для подсчета частоты каждого токена во всем тексте.
- Для каждого уникального токена создаем запись в словаре, содержащую:
  - `id`: уникальный идентификатор токена (порядковый номер)
  - `count`: количество появлений токена в тексте
- Токены сортируются по частоте с помощью `most_common()`, так что самые частые получают меньшие id.
- В конце выводим размер словаря и 10 наиболее часто встречающихся токенов.

**Что будет, если убрать/изменить:**
- Без словаря мы не сможем присваивать числовые идентификаторы токенам, что необходимо для обучения моделей машинного обучения.
- Можно изменить порядок сортировки (например, по алфавиту), но это менее эффективно, так как частотные токены должны иметь меньшие ID.


# Реализация алгоритма Byte-Pair Encoding (BPE)

In [53]:
def get_stats(vocab):
    """
    Подсчитывает частоту пар символов во всех словах словаря.
    Возвращает словарь, где ключ - пара символов, значение - частота встречаемости.
    """
    pairs = defaultdict(int)
    for word, freq in vocab.items():
        symbols = word.split()
        for i in range(len(symbols) - 1):
            pairs[symbols[i], symbols[i + 1]] += freq
    return pairs

def merge_vocab(pair, v_in):
    """
    Заменяет каждое вхождение пары символов на их объединение.
    """
    v_out = {}
    bigram = ' '.join(pair)
    replacement = ''.join(pair)
    for word in v_in:
        w_out = word.replace(bigram, replacement)
        v_out[w_out] = v_in[word]
    return v_out

def learn_bpe(words, num_merges=10):
    """
    Обучает модель BPE на списке слов.

    Параметры:
    words: список слов для обучения
    num_merges: количество операций слияния

    Возвращает:
    bpe_codes: словарь операций слияния
    vocab: итоговый словарь с преобразованными словами
    """
    # Создаем словарь слов и их частот
    vocab = Counter(words)

    # Разделяем каждый символ в слове пробелом
    vocab = {' '.join(word): freq for word, freq in vocab.items()}

    # Словарь операций слияния
    bpe_codes = {}

    for i in range(num_merges):
        # Получаем статистику по парам
        pairs = get_stats(vocab)
        if not pairs:
            break

        # Находим самую частую пару
        best = max(pairs, key=pairs.get)

        # Сохраняем операцию слияния
        bpe_codes[best] = i

        # Применяем слияние ко всему словарю
        vocab = merge_vocab(best, vocab)

        print(f"Слияние #{i+1}: {best} -> {''.join(best)} (частота: {pairs[best]})")

    return bpe_codes, vocab

**Объяснение алгоритма BPE:**
1. **Подготовка данных:**
   - Начинаем с разделения каждого слова на отдельные символы.
   - Например, "собака" → "с о б а к а".

2. **Процесс обучения:**
   - `get_stats`: Подсчитывает, как часто встречаются пары соседних символов.
   - Находим самую частую пару (например, "с о" встречается 100 раз).
   - `merge_vocab`: Объединяем эту пару в один токен ("с о" → "со").
   - Сохраняем эту операцию слияния в словарь `bpe_codes`.
   - Повторяем процесс заданное количество раз (num_merges).

3. **Результат:**
   - Получаем словарь операций слияния `bpe_codes`.
   - И преобразованный словарь `vocab`, где слова уже разбиты на подтокены по правилам BPE.

**Что будет, если убрать/изменить:**
- Без BPE наш словарь будет содержать только целые слова, что приведет к проблеме с неизвестными словами.
- Если увеличить `num_merges`, мы получим больше операций слияния, что приведет к более крупным токенам.
- Если уменьшить `num_merges`, токены будут меньше, ближе к символам.

# Построение словаря BPE

In [54]:
# Подготовка данных для BPE: получаем плоский список всех токенов
flat_tokens = []
for sentence in normalized_sentences:
    flat_tokens.extend(sentence)

# Обучение модели BPE
num_merges = 15  # Количество операций слияния
bpe_codes, bpe_vocabulary = learn_bpe(flat_tokens, num_merges)

print("\nСловарь операций слияния BPE:")
for pair, index in bpe_codes.items():
    print(f"{pair} -> {''.join(pair)}, индекс операции: {index}")

print("\nПример преобразованных слов после BPE:")
# Показываем первые 5 преобразованных слов
sample_items = list(bpe_vocabulary.items())[:5]
for encoded, freq in sample_items:
    original = encoded.replace(' ', '')
    print(f"Оригинал: {original}, Кодированное: {encoded}, Частота: {freq}")

Слияние #1: ('н', 'ы') -> ны (частота: 11)
Слияние #2: ('т', 'ь') -> ть (частота: 11)
Слияние #3: ('ны', 'й') -> ный (частота: 9)
Слияние #4: ('о', 'в') -> ов (частота: 9)
Слияние #5: ('т', 'е') -> те (частота: 7)
Слияние #6: ('е', 'н') -> ен (частота: 6)
Слияние #7: ('о', 'б') -> об (частота: 6)
Слияние #8: ('ов', 'а') -> ова (частота: 6)
Слияние #9: ('п', 'о') -> по (частота: 6)
Слияние #10: ('р', 'а') -> ра (частота: 6)
Слияние #11: ('и', 'с') -> ис (частота: 4)
Слияние #12: ('с', 'т') -> ст (частота: 4)
Слияние #13: ('т', 'о') -> то (частота: 4)
Слияние #14: ('к', 'о') -> ко (частота: 4)
Слияние #15: ('н', 'а') -> на (частота: 4)

Словарь операций слияния BPE:
('н', 'ы') -> ны, индекс операции: 0
('т', 'ь') -> ть, индекс операции: 1
('ны', 'й') -> ный, индекс операции: 2
('о', 'в') -> ов, индекс операции: 3
('т', 'е') -> те, индекс операции: 4
('е', 'н') -> ен, индекс операции: 5
('о', 'б') -> об, индекс операции: 6
('ов', 'а') -> ова, индекс операции: 7
('п', 'о') -> по, индекс оп

**Объяснение:**
- Создаем `flat_tokens` - плоский список всех токенов из всех предложений.
- Запускаем процесс обучения BPE с заданным числом слияний (15).
- Получаем словарь операций слияния `bpe_codes` и преобразованный словарь `bpe_vocabulary`.
- Выводим операции слияния, чтобы увидеть, какие пары символов объединялись.
- Показываем примеры слов после применения BPE кодирования.

**Что будет, если убрать/изменить:**
- Изменение `num_merges` влияет на грануляцию токенизации:
  - Больше слияний = более крупные токены, меньший словарь, но хуже обобщение.
  - Меньше слияний = более мелкие токены, больший словарь, лучше обобщение на новые слова.



# Применение BPE к новому тексту и преобразование в идентификаторы

In [56]:
def apply_bpe_to_word(word, bpe_codes):
    """
    Применяет обученную модель BPE к слову.
    """
    # Разделяем слово на символы
    word = ' '.join(list(word))

    # Применяем операции слияния в порядке их изучения
    for pair, _ in sorted(bpe_codes.items(), key=lambda x: x[1]):
        bigram = ' '.join(pair)
        replacement = ''.join(pair)
        word = word.replace(bigram, replacement)

    return word.split()

def tokenize_with_bpe(text, bpe_codes):
    """
    Токенизирует текст с помощью BPE.
    """
    # Сначала разбиваем на предложения и слова
    sentences = sent_tokenize(text)
    result = []

    for sentence in sentences:
        tokens = word_tokenize(sentence)
        normalized = normalize_tokens(tokens)

        # Применяем BPE к каждому нормализованному токену
        bpe_tokens = []
        for token in normalized:
            bpe_tokens.extend(apply_bpe_to_word(token, bpe_codes))

        result.append(bpe_tokens)

    return result

# Создаем словарь из BPE токенов
bpe_token_to_id = {}
id_counter = 0

for word in bpe_vocabulary:
    for token in word.split():
        if token not in bpe_token_to_id:
            bpe_token_to_id[token] = id_counter
            id_counter += 1

# Применяем BPE к новому тексту
sample_text = "Нейронные сети обрабатывают данные."
bpe_tokenized = tokenize_with_bpe(sample_text, bpe_codes)

# Преобразуем в идентификаторы
token_ids = []
for sentence in bpe_tokenized:
    for token in sentence:
        if token in bpe_token_to_id:
            token_ids.append(bpe_token_to_id[token])
        else:
            # Можно добавить специальный токен для неизвестных слов
            print(f"Неизвестный токен: {token}")

print("\nПример преобразования текста в идентификаторы токенов:")
print(f"Исходный текст: {sample_text}")
print(f"Токены после BPE: {bpe_tokenized}")
print(f"Идентификаторы токенов: {token_ids}")


Пример преобразования текста в идентификаторы токенов:
Исходный текст: Нейронные сети обрабатывают данные.
Токены после BPE: [['н', 'е', 'й', 'р', 'о', 'н', 'ный', 'с', 'е', 'ть', 'об', 'ра', 'б', 'а', 'т', 'ы', 'в', 'а', 'ть', 'д', 'а', 'ть']]
Идентификаторы токенов: [9, 12, 28, 25, 30, 9, 7, 3, 12, 32, 17, 43, 38, 18, 13, 27, 5, 18, 32, 34, 18, 32]


**Объяснение:**
1. **Функция `apply_bpe_to_word`:**
   - Разбивает слово на символы.
   - Применяет операции слияния в том порядке, в котором они были изучены.
   - Возвращает список подтокенов после применения BPE.

2. **Функция `tokenize_with_bpe`:**
   - Разбивает текст на предложения и слова.
   - Нормализует слова (нижний регистр, лемматизация).
   - Применяет BPE к каждому нормализованному слову.
   - Возвращает список списков токенов для каждого предложения.

3. **Создание словаря идентификаторов:**
   - Мы присваиваем уникальный числовой ID каждому подтокену из нашего BPE словаря.

4. **Применение к новому тексту:**
   - Берем новый пример текста.
   - Применяем все шаги обработки: токенизация → нормализация → BPE.
   - Преобразуем получившиеся токены в идентификаторы.

**Что будет, если убрать/изменить:**
- Без функции применения BPE мы не сможем обрабатывать новые тексты с помощью нашего метода.
- Изменение порядка применения операций слияния повлияет на результат токенизации, поэтому важно соблюдать тот же порядок, что и при обучении.

In [57]:
# Статистика по полученным результатам
print("\nИтоговая статистика:")
print(f"Количество предложений в тексте: {len(sentences)}")
print(f"Общее количество токенов до нормализации: {sum(len(s) for s in tokenized_sentences)}")
print(f"Общее количество токенов после нормализации: {sum(len(s) for s in normalized_sentences)}")
print(f"Размер исходного словаря (уникальных слов): {len(vocabulary)}")
print(f"Количество операций слияния BPE: {len(bpe_codes)}")
print(f"Размер BPE словаря: {len(bpe_token_to_id)}")


Итоговая статистика:
Количество предложений в тексте: 4
Общее количество токенов до нормализации: 69
Общее количество токенов после нормализации: 58
Размер исходного словаря (уникальных слов): 50
Количество операций слияния BPE: 15
Размер BPE словаря: 48


# Подробное объяснение технологии токенизации и BPE кодирования

## 1. Зачем нужна токенизация текста

**Что это такое:** Токенизация — это процесс разделения текста на более мелкие части (токены), которые могут быть словами, частями слов или даже отдельными символами.

**Зачем это нужно:**
- Компьютеры не могут напрямую работать с текстом — им нужны числа. Токенизация позволяет преобразовать текст в последовательность числовых идентификаторов.
- Языковые модели обучаются предсказывать следующий токен на основе предыдущих. Без токенизации модель не сможет работать с текстом.
- Токенизация определяет уровень грануляции, на котором модель "понимает" текст.

**От чего зависит качество:**
- От выбранного алгоритма токенизации
- От особенностей языка (для русского важно учитывать богатую морфологию)
- От специфики текстов в вашем датасете

**Технические последствия:**
- Чем больше размер словаря (количество уникальных токенов), тем больше памяти требуется
- Слишком маленький словарь приведет к потере информации
- Слишком большой словарь усложнит обучение модели и потребует больше данных

## 2. Разделение на предложения

**Что происходит:** Текст разбивается на отдельные предложения с помощью функции `sent_tokenize` из библиотеки NLTK.

**Как это работает:**
- Алгоритм анализирует знаки препинания (точки, восклицательные знаки, вопросительные знаки)
- Учитывает исключения (сокращения, цифры с точками, инициалы)
- Использует обученную модель, которая разбирает различные случаи на основе статистических паттернов

**Зачем разделять на предложения:**
- Предложение — логическая единица смысла в тексте
- Обработка по предложениям эффективнее, чем обработка всего текста сразу
- Многие задачи NLP (анализ тональности, классификация) работают на уровне предложений
- Связи между словами в разных предложениях обычно слабее, чем внутри одного предложения

**От чего зависит точность:**
- Качество и правильность пунктуации в исходном тексте
- Наличие специфических конструкций (прямая речь, списки, цитаты)
- Язык текста и его соответствие обученной модели токенизатора

## 3. Разделение предложений на токены (слова)

**Что происходит:** Каждое предложение разбивается на слова и знаки препинания с помощью функции `word_tokenize`.

**Как это работает:**
- Алгоритм разделяет текст по пробелам и знакам препинания
- Учитывает сложные случаи (апострофы, дефисы, сокращения)
- Сохраняет знаки препинания как отдельные токены

**Зачем это нужно:**
- Слова — базовые единицы значения в языке
- Разделение текста на слова позволяет анализировать структуру предложений
- Создает основу для дальнейшей нормализации и обработки

**Технические нюансы:**
- В некоторых языках (например, китайском или японском) разделение на слова сложнее, так как нет явных разделителей
- Специальные конструкции (email-адреса, URL, даты) требуют особой обработки
- В русском языке важно правильно обрабатывать составные слова с дефисами

## 4. Нормализация токенов

**Что происходит:** Токены (слова) приводятся к стандартной форме через три основных процесса:
1. Приведение к нижнему регистру
2. Удаление знаков препинания
3. Лемматизация (приведение к начальной форме)

**Как работает лемматизация:**
- Для русского языка используется библиотека `pymorphy2`
- Анализируется морфологическая структура слова
- Определяется часть речи и грамматические характеристики
- Слово преобразуется к начальной форме:
  - существительные → единственное число, именительный падеж
  - глаголы → инфинитив
  - прилагательные → мужской род, ед. число, именительный падеж

**Зачем это нужно:**
- Снижает количество уникальных токенов (размер словаря)
- Объединяет разные формы одного слова: "книга", "книги", "книгами" → "книга"
- Позволяет модели видеть связь между разными формами одного слова
- Улучшает статистические показатели частотности слов

**От чего зависит качество:**
- От используемого морфологического анализатора
- От особенностей языка (для русского лемматизация особенно важна из-за богатства словоформ)
- От предметной области текста (специальные термины могут неверно лемматизироваться)

## 5. Создание словаря (vocabulary)

**Что происходит:** После нормализации создается словарь всех уникальных токенов, где каждому токену присваивается уникальный идентификатор и подсчитывается его частота в тексте.

**Как это работает:**
- Используется структура данных `Counter` для подсчета встречаемости каждого токена
- Токены сортируются по частоте (от наиболее к наименее частым)
- Каждому токену присваивается числовой идентификатор (ID)
- Создается словарь, где ключ — токен, а значение — объект с его ID и частотой

**Зачем это нужно:**
- Языковые модели работают с числами, а не текстом
- Словарь позволяет преобразовывать текст в последовательность чисел и обратно
- Частотность токенов используется для оптимизации представления (часто встречающиеся токены получают меньшие ID)
- Словарь определяет, какие слова "знает" модель

**Технические соображения:**
- Размер словаря прямо влияет на размер модели и требования к памяти
- Слишком большой словарь приводит к разреженным представлениям и проблемам с обучением
- Слишком маленький словарь вызывает проблему неизвестных слов (OOV — out-of-vocabulary)

## 6. Алгоритм Byte-Pair Encoding (BPE)

**Что это такое:** BPE — алгоритм сжатия данных, который в NLP используется для создания подсловных токенов, позволяющих эффективно представлять как частые, так и редкие слова.

**Как работает:**
1. **Начальное состояние:** Каждое слово разбивается на отдельные символы, разделенные пробелами
2. **Итеративный процесс:**
   - Подсчитываем частоту всех пар соседних символов/токенов
   - Находим самую частую пару
   - Объединяем эту пару в один новый токен
   - Заменяем все вхождения этой пары в словаре на новый токен
   - Повторяем процесс заданное число раз (num_merges)

**Зачем это нужно:**
- Решает проблему неизвестных слов, разбивая редкие слова на подсловные части
- Более эффективно использует словарь, чем пословная токенизация
- Позволяет модели улавливать морфологические особенности языка
- Обеспечивает баланс между размером словаря и способностью представлять любые слова

**От чего зависит эффективность:**
- От количества операций слияния (num_merges):
  - Малое количество → мелкие токены, ближе к посимвольному представлению
  - Большое количество → крупные токены, ближе к пословному представлению
- От размера и разнообразия тренировочного корпуса
- От языковых особенностей (например, для агглютинативных языков BPE особенно эффективен)

**Конкретные технические эффекты:**
- BPE с 10-15 тысячами операций слияния обычно создает словарь размером 30-50 тысяч токенов
- Частые слова представляются одним токеном, редкие разбиваются на несколько подтокенов
- Слово "переобучение" может быть разбито на "пере" + "обучение", если эти части чаще встречаются по отдельности

## 7. Применение BPE к новому тексту

**Что происходит:** Когда приходит новый текст, мы применяем весь процесс обработки и используем ранее полученные правила BPE для его токенизации.

**Как это работает:**
1. Текст разбивается на предложения
2. Предложения токенизируются на слова
3. Слова нормализуются (нижний регистр, лемматизация)
4. Каждое слово разбивается на символы
5. К слову последовательно применяются операции слияния, в том же порядке, как они были найдены при обучении
6. Полученные подтокены преобразуются в числовые идентификаторы

**Зачем это нужно:**
- Обеспечивает единообразное представление как тренировочных, так и новых данных
- Позволяет модели работать с ранее не встречавшимися словами
- Создает числовое представление текста, пригодное для обработки нейронными сетями

**Технические особенности:**
- Порядок применения операций слияния критически важен
- Если токен не был встречен при обучении, можно использовать специальный токен [UNK] (unknown)
- Некоторые реализации используют дополнительные специальные токены:
  - [BOS]/[SOS] — начало предложения (Beginning/Start of Sentence)
  - [EOS] — конец предложения (End of Sentence)
  - [PAD] — заполнитель для выравнивания длины последовательностей

## 8. От чего зависит качество всего процесса

**Размер и качество обучающего корпуса:**
- Больший корпус → лучшее покрытие языка
- Разнообразие текстов → лучшая обобщающая способность
- Качество текстов → меньше шума и ошибок в данных

**Параметры токенизации:**
- Выбор метода токенизации (WordPiece, BPE, Unigram и др.)
- Размер словаря (маленький — компактность, большой — точность)
- Количество операций слияния в BPE (баланс между детализацией и обобщением)

**Предобработка текста:**
- Качество нормализации (лемматизация vs стемминг)
- Обработка специальных случаев (числа, даты, URL)
- Удаление или сохранение пунктуации

**Применение в языковой модели:**
- Способ векторизации токенов (one-hot, embeddings)
- Архитектура модели (RNN, Transformer)
- Контекстное окно (сколько предыдущих токенов учитывается)

## 9. Практическое значение всего процесса

**Для языковых моделей:**
- BPE позволяет эффективно работать со словарем ограниченного размера
- Подсловные токены помогают улавливать морфологические и семантические связи
- Сокращается количество неизвестных слов, улучшается обобщающая способность

**Для практических приложений:**
- Уменьшает требования к памяти (по сравнению с посимвольной токенизацией)
- Улучшает работу с редкими словами и новыми терминами
- Повышает эффективность машинного перевода, генерации текста, классификации и других задач NLP

**Для многоязычных моделей:**
- BPE позволяет создать общий словарь для нескольких языков
- Обнаруживает общие морфемы между родственными языками
- Эффективно работает как с аналитическими, так и с синтетическими языками

Понимание процесса токенизации и BPE кодирования критически важно для работы с современными языковыми моделями, так как это первый и один из самых важных шагов в преобразовании текста в форму, понятную компьютеру.