<a href="https://colab.research.google.com/github/CodeHunterOfficial/ABC_DataMining/blob/main/NLP/1.%20%D0%A2%D0%BE%D0%BA%D0%B5%D0%BD%D0%B8%D0%B7%D0%B0%D1%86%D0%B8%D1%8F.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#Токенизация

# **1. Введение в токенизацию**

## **1.1 Основная концепция токенизации**

Токенизация (tokenization) представляет собой фундаментальный процесс в области обработки естественного языка (Natural Language Processing, NLP), который заключается в разбиении текста на более мелкие лексические единицы, называемые токенами (tokens). Токены могут быть словами, подсловами, символами или даже отдельными байтами, в зависимости от контекста и целей анализа.

В научном плане токенизация служит основой для многих задач NLP, таких как классификация текстов, машинный перевод, синтаксический анализ, извлечение информации и генерация текста. Без надежного механизма разбиения текста на составляющие части невозможно эффективно применять алгоритмы машинного обучения или статистические модели к текстовым данным.

### **1.2 Императивность токенизации в NLP**

Тексты, созданные людьми, представляют собой последовательности символов, которые имеют определенную семантическую и синтаксическую структуру. Однако компьютеры не способны напрямую интерпретировать эту информацию в её исходной форме. Поэтому перед тем, как применить какие-либо вычислительные методы к тексту, необходимо преобразовать его в дискретные элементы — токены. Эти элементы становятся базовыми строительными блоками для дальнейшей обработки.

Токенизация важна по следующим причинам:
1. **Стандартизация данных**: Разбиение текста на токены позволяет привести данные к одинаковому формату, что упрощает их обработку.
2. **Семантическая интерпретация**: Токены предоставляют возможность анализировать смысловые единицы текста, такие как слова или фразы.
3. **Устранение шума**: Процесс токенизации часто включает удаление ненужных символов, таких как пунктуация или специальные знаки, что помогает улучшить качество данных.
4. **Подготовка к обучению моделей**: Большинство алгоритмов машинного обучения требуют дискретных входных данных, а токенизация обеспечивает такую подготовку.

## **1.3 Методы токенизации**

### **1.3.1 Простая токенизация по пробелам**

Простейший способ токенизации заключается в разбиении текста на слова по пробелам. Этот метод реализуется с использованием стандартных функций строковых операций в большинстве языков программирования. Например, в Python это можно сделать с помощью метода `str.split()`.

#### **Алгоритм простой токенизации**
1. Входной текст представляется как строка символов.
2. Строка разбивается на подстроки при встрече пробела (`' '`).
3. Результатом является список слов.

Пример:
```python
text = "Это пример простой токенизации."
tokens = text.split()
print(tokens)
```
**Результат:**
```
['Это', 'пример', 'простой', 'токенизации.']
```

Однако такой подход имеет ряд ограничений:
- Знаки препинания остаются частью слов (например, `'токенизации.'` содержит точку).
- Не учитывает сложные случаи, такие как сокращения, дефисы или многоязычные тексты.

### **1.3.2 Стандартная токенизация слов**

Более продвинутый метод токенизации предполагает учет знаков препинания, специальных символов и других особенностей текста. Для этого используется регулярные выражения (Regular Expressions, RE) или специализированные инструменты, такие как библиотека NLTK (Natural Language Toolkit).

#### **Основные шаги стандартной токенизации**
1. **Удаление лишних символов**: Удаляются или заменяются символы, не относящиеся к словам (например, HTML-теги, спецсимволы).
2. **Обработка знаков препинания**: Знаки препинания отделяются от слов.
3. **Обработка специальных случаев**: Учитываются сокращения, дефисы, многословные конструкции и др.

Пример использования регулярных выражений для стандартной токенизации:
```python
import re

text = "Это пример стандартной токенизации! Как видите, она работает лучше."

# Регулярное выражение для разделения текста на слова и знаки препинания
tokens = re.findall(r'\b\w+\b|[^\w\s]', text)

print(tokens)
```
**Результат:**
```
['Это', 'пример', 'стандартной', 'токенизации', '!', 'Как', 'видите', ',', 'она', 'работает', 'лучше', '.']
```

#### **Преимущества стандартной токенизации**
- Чистые токены без примесей знаков препинания.
- Учет различных типов границ между словами.
- Возможность адаптации под специфические требования задачи.

#### **Недостатки стандартной токенизации**
- Требует дополнительной настройки для разных языков.
- Может быть менее эффективным для сложных случаев (например, многозначных слов или аббревиатур).

## **1.4 Практическое задание**

Цель практического задания — ознакомиться с основными методами токенизации и научиться использовать стандартные инструменты Python для их реализации.

### **Задача 1: Простая токенизация**
1. Дан текст:  
   ```text = "Машинное обучение — это мощный инструмент для решения задач."```
2. Разбейте текст на слова с помощью метода `str.split()`.
3. Выведите полученные токены.

**Решение:**
```python
text = "Машинное обучение — это мощный инструмент для решения задач."
tokens = text.split()
print(tokens)
```
**Результат:**
```
['Машинное', 'обучение', '—', 'это', 'мощный', 'инструмент', 'для', 'решения', 'задач.']
```

### **Задача 2: Стандартная токенизация**
1. Используйте регулярные выражения для разбиения того же текста на слова с учетом знаков препинания.
2. Выведите полученные токены.

**Решение:**
```python
import re

text = "Машинное обучение — это мощный инструмент для решения задач."
tokens = re.findall(r'\b\w+\b|[^\w\s]', text)

print(tokens)
```
**Результат:**
```
['Машинное', 'обучение', '—', 'это', 'мощный', 'инструмент', 'для', 'решения', 'задач', '.']
```

### **Задача 3: Анализ результатов**
Сравните результаты двух методов. Обратите внимание на различия в обработке знаков препинания и дефисов.



## **1.5 Заключение**

Токенизация является первым и одним из самых важных этапов в обработке текстовых данных. Простая токенизация по пробелам удобна для быстрого анализа, но ограниченна в возможностях. Стандартная токенизация, основанная на регулярных выражениях или специализированных инструментах, обеспечивает более качественный результат, учитывающий особенности языка и структуры текста. В следующих разделах мы рассмотрим более сложные методы токенизации, такие как Unicode-токенизация, стемминг, лемматизация и подслово-токенизация.





# **2. Unicode Character Tokenization**

## **2.1 Введение в Unicode и символы**

Unicode — это международный стандарт, предназначенный для кодирования текстовых данных, который обеспечивает единое представление символов различных языков и письменностей. Unicode определяет уникальный числовой код (кодовую точку) для каждого символа, что позволяет хранить и обрабатывать тексты на любом языке мира в единой системе. Это особенно важно в современных приложениях, где требуется работа с многоязычными данными.

Токенизация символов (character tokenization) представляет собой процесс разбиения текста на отдельные символы, каждому из которых соответствует определенная кодовая точка в стандарте Unicode. Этот метод является фундаментальным уровнем анализа текста и может быть полезен в задачах, связанных с пониманием структуры символов, таких как орфографический анализ, генерация текста на уровне символов или детектирование аномалий в тексте.

### **2.2 Основные концепции Unicode**

#### **2.2.1 Кодовые точки**
Каждый символ в Unicode имеет уникальную кодовую точку (code point), которая представляется в шестнадцатеричной форме. Например:
- Латинская буква "A" имеет кодовую точку `U+0041`.
- Кириллическая буква "А" имеет кодовую точку `U+0410`.
- Символ эмодзи "😊" имеет кодовую точку `U+1F60A`.

#### **2.2.2 Юникодные плоскости**
Unicode организован в виде множества плоскостей (planes), каждая из которых содержит до 65536 кодовых точек. Первая плоскость называется базовой мультилингвальной плоскостью (Basic Multilingual Plane, BMP) и содержит наиболее часто используемые символы, включая латиницу, кириллицу, греческий алфавит, китайские иероглифы и многие другие.

#### **2.2.3 Кодировка**
Unicode сам по себе не определяет способ представления данных в памяти компьютера. Для этого используются различные кодировки, такие как UTF-8, UTF-16 и UTF-32. Наиболее распространенной является кодировка UTF-8, которая эффективно представляет символы из базовой плоскости одним-тремя байтами, а остальные символы — четырьмя байтами.



## **2.3 Токенизация символов**

Токенизация символов заключается в разбиении строки на последовательность отдельных символов. Этот метод прост в реализации, но имеет важное значение для некоторых задач NLP.

### **2.3.1 Метод токенизации символов**

Для выполнения токенизации символов можно использовать следующий подход:
1. **Входные данные**: Строка символов.
2. **Обработка**: Разбиение строки на список отдельных символов.
3. **Результат**: Последовательность символов.

Пример на Python:
```python
text = "Привет, мир!"
tokens = list(text)
print(tokens)
```
**Результат:**
```
['П', 'р', 'и', 'в', 'е', 'т', ',', ' ', 'м', 'и', 'р', '!']
```

### **2.3.2 Преимущества токенизации символов**
- **Универсальность**: Подходит для любого языка и письменности, поскольку все символы представлены в Unicode.
- **Простота реализации**: Не требует сложных алгоритмов или внешних инструментов.
- **Эффективность для некоторых задач**: Полезна для задач, где важен уровень символов, например, коррекция опечаток или генерация текста.

### **2.3.3 Недостатки токенизации символов**
- **Снижение семантической информации**: Символьная токенизация игнорирует границы слов и фраз, что может затруднять анализ более высокого уровня.
- **Большой размер словаря**: Если каждый символ рассматривается как отдельный токен, то словарь становится очень большим, что увеличивает сложность моделей.



## **2.4 Byte-Level Tokenization**

Byte-Level Tokenization (токенизация на уровне байтов) — это расширение символьной токенизации, при котором текст преобразуется в последовательность байтов согласно его представлению в кодировке UTF-8. Этот метод особенно полезен для работы с языками, использующими многосимвольные представления (например, китайский или эмодзи).

### **2.4.1 Как работает Byte-Level Tokenization?**

1. **Кодирование текста в UTF-8**: Каждый символ преобразуется в последовательность байтов.
   - Пример: Буква "A" (`U+0041`) кодируется как один байт: `0x41`.
   - Буква "😊" (`U+1F60A`) кодируется как четыре байта: `0xF0 0x9F 0x98 0x8A`.
2. **Разбиение на байты**: Полученная последовательность байтов разбивается на отдельные элементы.

Пример на Python:
```python
text = "Привет, мир! 😊"
byte_sequence = text.encode('utf-8')
tokens = list(byte_sequence)
print(tokens)
```
**Результат:**
```
[208, 159, 208, 184, 208, 178, 208, 176, 208, 181, 209, 129, 44, 32, 208, 179, 208, 180, 208, 184, 33, 240, 159, 152, 138]
```

### **2.4.2 Преимущества Byte-Level Tokenization**
- **Единство представления**: Все символы, независимо от их сложности, представляются в виде байтов.
- **Поддержка редких символов**: Byte-Level Tokenization хорошо работает с редкими символами и эмодзи, которые могут быть проблемой для других методов токенизации.
- **Совместимость с существующими моделями**: Многие современные модели NLP (например, GPT) используют byte-level tokenization для обработки текста.

### **2.4.3 Недостатки Byte-Level Tokenization**
- **Потеря семантики**: Аналогично символьной токенизации, byte-level tokenization игнорирует границы слов и фраз.
- **Сложность интерпретации**: Работа с байтами требует дополнительного преобразования для получения читаемых символов.



## **2.5 Практическое задание**

Цель практического задания — научиться преобразовывать текст в последовательность байтов и обратно.

### **Задача 1: Преобразование текста в последовательность байтов**

1. Дан текст:  
   ```text = "Машинное обучение — это мощный инструмент!"```
2. Преобразуйте текст в последовательность байтов с использованием кодировки UTF-8.
3. Выведите полученные байты.

**Решение:**
```python
text = "Машинное обучение — это мощный инструмент!"
byte_sequence = text.encode('utf-8')
print(list(byte_sequence))
```
**Результат:**
```
[208, 156, 208, 176, 208, 189, 208, 184, 208, 181, 208, 189, 208, 181, 208, 190, 32, 208, 183, 208, 187, 208, 181, 208, 176, 208, 184, 208, 181, 208, 189, 208, 181, 208, 184, 32, 208, 151, 209, 128, 208, 181, 209, 130, 208, 184, 208, 181, 32, 208, 185, 208, 176, 209, 139, 208, 187, 208, 181, 208, 189, 208, 181, 208, 184, 33]
```

### **Задача 2: Обратное преобразование**

1. Преобразуйте последовательность байтов обратно в текст.
2. Выведите исходный текст.

**Решение:**
```python
byte_sequence = [208, 156, 208, 176, 208, 189, 208, 184, 208, 181, 208, 189, 208, 181, 208, 190, 32, 208, 183, 208, 187, 208, 181, 208, 176, 208, 184, 208, 181, 208, 189, 208, 181, 208, 184, 32, 208, 151, 209, 128, 208, 181, 209, 130, 208, 184, 208, 181, 32, 208, 185, 208, 176, 209, 139, 208, 187, 208, 181, 208, 189, 208, 181, 208, 184, 33]
decoded_text = bytes(byte_sequence).decode('utf-8')
print(decoded_text)
```
**Результат:**
```
Машинное обучение — это мощный инструмент!
```



## **2.6 Заключение**

Токенизация символов и byte-level tokenization являются важными инструментами для анализа текста на уровне символов и байтов. Эти методы позволяют работать с любыми языками и символами, поддерживаемыми Unicode, и находят применение в задачах, где важен детальный анализ текстовых данных. Однако они имеют ограничения в плане семантической информации и могут быть менее эффективны для задач более высокого уровня, таких как классификация текстов или машинный перевод. В следующих разделах мы рассмотрим более продвинутые методы токенизации, такие как стемминг, лемматизация и подслово-токенизация.




# **3. Закон Ципфа**

## **3.1 Введение в закон Ципфа**

Закон Ципфа (Zipf's Law) является одним из ключевых эмпирических законов лингвистики и статистики, описывающих распределение частот слов в текстах естественных языков. Этот закон был сформулирован американским лингвистом Джорджем Кингсли Ципфом в 1940-х годах и представляет собой наблюдаемую закономерность, согласно которой частота использования слова в тексте обратно пропорциональна его рангу (порядковому номеру в списке слов, отсортированных по убыванию частоты).

### **Формулировка закона Ципфа**
Закон Ципфа утверждает, что частота использования слов в тексте (или другом потоке данных) обратно пропорциональна их рангу. Математически это можно записать как:

\[
f(r) = \frac{C}{r}
\]

где:
- \( f(r) \) — частота слова с рангом \( r \);
- \( r \) — ранг слова (позиция в списке слов, отсортированных по убыванию частоты);
- \( C \) — нормировочная константа, зависящая от общего количества слов в тексте и их распределения.

Это означает, что самое часто встречающееся слово (\( r = 1 \)) встречается вдвое чаще второго по частоте (\( r = 2 \)), втрое чаще третьего (\( r = 3 \)) и так далее.



### **Пример: Расчет частот слов**

Предположим, что мы анализируем текст объемом 1000 слов. Мы составляем список слов, отсортированный по убыванию частоты, и хотим рассчитать частоты первых нескольких слов.

#### Шаг 1: Определение нормировочной константы \( C \)

Нормировочная константа \( C \) зависит от размера корпуса текста и может быть вычислена таким образом, чтобы сумма всех частот равнялась общему количеству слов в тексте. Для простоты предположим, что текст состоит из 1000 слов, и мы знаем, что самое часто встречающееся слово занимает первый ранг (\( r = 1 \)).

Если самое часто встречающееся слово составляет, например, 5% текста, то его частота будет:

\[
f(1) = \frac{C}{1} = 0.05 \cdot 1000 = 50
\]

Таким образом, \( C = 50 \).



#### Шаг 2: Расчет частот других слов

Теперь, используя формулу \( f(r) = \frac{C}{r} \), мы можем рассчитать частоты для других рангов:

1. \( r = 1 \): \( f(1) = \frac{50}{1} = 50 \)
2. \( r = 2 \): \( f(2) = \frac{50}{2} = 25 \)
3. \( r = 3 \): \( f(3) = \frac{50}{3} \approx 16.67 \)
4. \( r = 4 \): \( f(4) = \frac{50}{4} = 12.5 \)
5. \( r = 5 \): \( f(5) = \frac{50}{5} = 10 \)
6. \( r = 10 \): \( f(10) = \frac{50}{10} = 5 \)
7. \( r = 20 \): \( f(20) = \frac{50}{20} = 2.5 \)
8. \( r = 50 \): \( f(50) = \frac{50}{50} = 1 \)



#### Шаг 3: Интерпретация результатов

Из этих расчетов видно, что:
- Самое часто встречающееся слово (\( r = 1 \)) встречается 50 раз.
- Второе по частоте слово (\( r = 2 \)) встречается вдвое реже — 25 раз.
- Третье по частоте слово (\( r = 3 \)) встречается втрое реже — примерно 16.67 раз.
- И так далее.

Чем выше ранг слова, тем реже оно встречается. Например, слово с рангом \( r = 50 \) встречается только один раз.



### **Графическое представление**

Если построить график зависимости \( f(r) \) от \( r \), то он будет иметь гиперболический вид. Однако если взять логарифмы обеих осей (\( \log(f(r)) \) против \( \log(r) \)), то получится прямая линия с негативным наклоном, что является характерной чертой степенных законов.



Для визуализации графика зависимости $ f(r) $ от $ r $ согласно закону Ципфа, мы можем использовать Python с библиотеками `matplotlib` для построения графиков и `numpy` для вычислений. Вот пример кода:

### Код на Python

```python
import numpy as np
import matplotlib.pyplot as plt

# Параметры закона Ципфа
C = 50  # Нормировочная константа
max_rank = 100  # Максимальный ранг слов для анализа

# Создаем массив рангов (r)
ranks = np.arange(1, max_rank + 1)

# Вычисляем частоты слов согласно формуле f(r) = C / r
frequencies = C / ranks

# Строим график в линейной шкале
plt.figure(figsize=(12, 6))

# Первый график: Линейная шкала
plt.subplot(1, 2, 1)
plt.plot(ranks, frequencies, marker='o', linestyle='-', color='b')
plt.title('Зависимость f(r) от r (линейная шкала)')
plt.xlabel('Ранг (r)')
plt.ylabel('Частота (f(r))')
plt.grid(True)

# Второй график: Логарифмическая шкала
plt.subplot(1, 2, 2)
plt.loglog(ranks, frequencies, marker='o', linestyle='-', color='r')
plt.title('Зависимость log(f(r)) от log(r)')
plt.xlabel('log(Ранг)')
plt.ylabel('log(Частота)')
plt.grid(True)

# Отображаем графики
plt.tight_layout()
plt.show()
```



Для анализа конкретного текста и визуализации закона Ципфа, нам нужно:
1. Прочитать текст.
2. Подсчитать частоту каждого слова.
3. Отсортировать слова по убыванию частоты.
4. Построить график зависимости частоты от ранга.

Вот пример кода на Python, который выполняет эти шаги:

### Код для анализа конкретного текста

```python
import matplotlib.pyplot as plt
from collections import Counter
import re

# Функция для чтения текста из файла (или можно использовать строку)
def read_text(file_path):
    with open(file_path, 'r', encoding='utf-8') as file:
        text = file.read()
    return text

# Функция для подсчета частот слов
def calculate_word_frequencies(text):
    # Удаляем знаки препинания и приводим текст к нижнему регистру
    words = re.findall(r'\b\w+\b', text.lower())
    # Подсчитываем частоту каждого слова
    word_counts = Counter(words)
    return word_counts

# Функция для построения графика закона Ципфа
def plot_zipf_law(word_counts):
    # Сортируем слова по убыванию частоты
    sorted_word_counts = sorted(word_counts.items(), key=lambda x: x[1], reverse=True)
    
    # Извлекаем ранги и частоты
    ranks = list(range(1, len(sorted_word_counts) + 1))
    frequencies = [count for _, count in sorted_word_counts]
    
    # Строим график в линейной шкале
    plt.figure(figsize=(12, 6))
    
    # Первый график: Линейная шкала
    plt.subplot(1, 2, 1)
    plt.plot(ranks, frequencies, marker='o', linestyle='-', color='b')
    plt.title('Зависимость f(r) от r (линейная шкала)')
    plt.xlabel('Ранг (r)')
    plt.ylabel('Частота (f(r))')
    plt.grid(True)
    
    # Второй график: Логарифмическая шкала
    plt.subplot(1, 2, 2)
    plt.loglog(ranks, frequencies, marker='o', linestyle='-', color='r')
    plt.title('Зависимость log(f(r)) от log(r)')
    plt.xlabel('log(Ранг)')
    plt.ylabel('log(Частота)')
    plt.grid(True)
    
    # Отображаем графики
    plt.tight_layout()
    plt.show()

# Основная часть программы
if __name__ == "__main__":
    # Замените путь к файлу на свой текстовый файл
    file_path = 'example.txt'  # Например, 'example.txt'
    
    # Чтение текста
    text = read_text(file_path)
    
    # Подсчет частот слов
    word_counts = calculate_word_frequencies(text)
    
    # Построение графика закона Ципфа
    plot_zipf_law(word_counts)
```





### **Практический пример: Анализ реального текста**

Рассмотрим текст на английском языке. В английском языке самые часто встречающиеся слова обычно такие как "the", "be", "to", "of" и т.д. Предположим, что:
- "the" (\( r = 1 \)) встречается 7% времени (или 70 раз в тексте из 1000 слов);
- "be" (\( r = 2 \)) встречается 3.5% времени (или 35 раз);
- "to" (\( r = 3 \)) встречается 2.3% времени (или 23 раза).

Можно проверить, что эти частоты хорошо соответствуют закону Ципфа:

\[
f(1) = \frac{C}{1}, \quad f(2) = \frac{C}{2}, \quad f(3) = \frac{C}{3}, \ldots
\]

где \( C \approx 70 \).



### **Вывод**

Закон Ципфа демонстрирует универсальное свойство естественных языков: большинство слов редко используются, а лишь небольшая часть слов (например, функциональные части речи) доминирует в текстах. Это свойство имеет важное значение в области обработки естественного языка, машинного обучения и лингвистики.

**Ответ:** Закон Ципфа описывает, как частота слов убывает с увеличением их ранга, и это можно наблюдать на практике, как показано в числовых примерах выше. $\boxed{f(r) = \frac{C}{r}}$



## **3.2 Обоснование закона Ципфа**

### **3.2.1 Природа закона Ципфа**
Закон Ципфа возникает вследствие двух основных факторов:
1. **Экономия усилий**: Люди стремятся использовать более короткие и простые слова для общения, что приводит к высокой частоте распространения общих слов, таких как предлоги, союзы и местоимения.
2. **Разнообразие контекста**: Язык характеризуется наличием как часто используемых слов (например, "и", "в", "на"), так и редких специализированных терминов, которые используются в определенных контекстах.

Эти два явления создают характерную гиперболическую кривую, которая хорошо описывается законом Ципфа.



## **3.3 Как работает закон Ципфа?**

### **3.3.1 Построение графика частотности слов**
Для проверки соответствия текста закону Ципфа необходимо выполнить следующие шаги:

1. **Подготовка данных**:
   - Разбить текст на токены (слова).
   - Удалить знаки препинания и преобразовать все символы в нижний регистр для унификации.

2. **Подсчет частоты слов**:
   - Создать словарь, где ключами являются уникальные слова, а значениями — их частоты.

3. **Сортировка слов по частоте**:
   - Отсортировать слова по убыванию частоты и присвоить каждому слову ранг \( r \).

4. **Построение графика**:
   - Построить график зависимости \( f(r) \) от \( r \) в логарифмическом масштабе для обоих осей. Если данные соответствуют закону Ципфа, график будет представлять собой прямую линию с негативным наклоном.



## **3.4 Пример анализа текста**

Рассмотрим пример анализа текстового корпуса для проверки закона Ципфа.

### **Шаг 1: Подготовка текста**
Допустим, мы имеем следующий текст:
```
"В начале было слово, и слово было у Бога, и Бог был слово."
```

#### Токенизация:
```python
text = "В начале было слово, и слово было у Бога, и Бог был слово."
tokens = text.lower().replace(',', '').split()
print(tokens)
```
**Результат:**
```
['в', 'начале', 'было', 'слово', 'и', 'слово', 'было', 'у', 'бога', 'и', 'бог', 'был', 'слово']
```

### **Шаг 2: Подсчет частоты слов**
```python
from collections import Counter

frequency = Counter(tokens)
print(frequency)
```
**Результат:**
```
Counter({'слово': 3, 'было': 2, 'и': 2, 'в': 1, 'начале': 1, 'у': 1, 'бога': 1, 'бог': 1, 'был': 1})
```

### **Шаг 3: Сортировка слов по частоте**
```python
sorted_frequency = frequency.most_common()
print(sorted_frequency)
```
**Результат:**
```
[('слово', 3), ('было', 2), ('и', 2), ('в', 1), ('начале', 1), ('у', 1), ('бога', 1), ('бог', 1), ('был', 1)]
```

### **Шаг 4: Построение графика**
```python
import matplotlib.pyplot as plt

# Ранг слова и его частота
ranks = [i + 1 for i in range(len(sorted_frequency))]
frequencies = [freq for word, freq in sorted_frequency]

# Логарифмический график
plt.figure(figsize=(8, 6))
plt.loglog(ranks, frequencies, marker='o', linestyle='-', color='b')
plt.xlabel("Ранг (log scale)")
plt.ylabel("Частота (log scale)")
plt.title("Закон Ципфа")
plt.grid(True, which="both", linestyle='--', linewidth=0.5)
plt.show()
```

На полученном графике должна быть видна прямая линия, если текст соответствует закону Ципфа.



## **3.5 Примеры анализа текстов**

### **Пример 1: Анализ большого корпуса текста**
Для проверки закона Ципфа на реальных данных можно использовать большие корпуса текстов, такие как книги, статьи или социальные медиа. Например, анализ корпуса английского языка из проекта Gutenberg показывает, что распределение частот слов строго соответствует закону Ципфа.

### **Пример 2: Исключения из закона Ципфа**
Некоторые тексты могут не соответствовать закону Ципфа полностью. Например:
- Техническая документация, содержащая много специализированных терминов.
- Короткие тексты, где выборка недостаточно велика для проявления статистической закономерности.



## **3.6 Практическое задание**

Цель практического задания — проанализировать текстовый корпус, построить график частот слов и проверить соответствие закону Ципфа.

### **Задача 1: Подготовка текстового корпуса**
1. Выберите текстовый корпус (например, книгу из проекта Gutenberg).
2. Препроцессируйте текст: разбейте на слова, удалите пунктуацию и приведите к нижнему регистру.

### **Задача 2: Подсчет частот слов**
1. Посчитайте частоту каждого уникального слова в корпусе.
2. Отсортируйте слова по убыванию частоты.

### **Задача 3: Построение графика**
1. Постройте график зависимости \( f(r) \) от \( r \) в логарифмическом масштабе.
2. Оцените, насколько график соответствует прямой линии.

**Пример реализации:**
```python
from collections import Counter
import matplotlib.pyplot as plt

# Пример текста
text = """
В начале было слово, и слово было у Бога, и Бог был слово.
И слово стало плотью, и обитало среди нас.
"""

# Шаг 1: Подготовка текста
tokens = text.lower().replace('.', '').replace(',', '').split()

# Шаг 2: Подсчет частоты слов
frequency = Counter(tokens)

# Шаг 3: Сортировка слов по частоте
sorted_frequency = frequency.most_common()

# Шаг 4: Построение графика
ranks = [i + 1 for i in range(len(sorted_frequency))]
frequencies = [freq for word, freq in sorted_frequency]

plt.figure(figsize=(8, 6))
plt.loglog(ranks, frequencies, marker='o', linestyle='-', color='b')
plt.xlabel("Ранг (log scale)")
plt.ylabel("Частота (log scale)")
plt.title("Закон Ципфа")
plt.grid(True, which="both", linestyle='--', linewidth=0.5)
plt.show()
```



## **3.7 Заключение**

Закон Ципфа является фундаментальной закономерностью в структуре естественных языков, описывающей распределение частот слов в текстах. Он демонстрирует, что язык характеризуется сочетанием часто используемых общих слов и редких специализированных терминов. Проверка соответствия текста закону Ципфа позволяет глубже понять статистические свойства языка и применяется в различных областях, таких как лингвистика, информационный поиск и машинное обучение.




# **4. Rule-Based Tokenization**

## **4.1 Введение в Rule-Based Tokenization**

Rule-Based Tokenization (правило-ориентированная токенизация) представляет собой метод разбиения текста на токены с использованием заранее определенных правил или паттернов. Эти правила могут быть реализованы с помощью регулярных выражений (Regular Expressions, RE) или специализированных инструментов, таких как библиотека NLTK для Python. Rule-Based Tokenization особенно полезна в случаях, когда необходимо извлекать конкретные типы данных, например, email-адреса, URL-ссылки, даты или числа.

Основное преимущество данного подхода заключается в его предсказуемости и точности: если правила правильно составлены, то результат будет строго соответствовать заданным условиям. Однако этот метод требует тщательной настройки для различных языков и контекстов.



## **4.2 Методы Rule-Based Tokenization**

### **4.2.1 Regular Expression Tokenization**

Регулярные выражения — это мощный инструмент для поиска и манипуляции с текстом на основе шаблонов. Они позволяют описать сложные паттерны символов, которые можно использовать для выделения нужных фрагментов текста.

#### **Принцип работы**
1. **Определение паттерна**: Создается регулярное выражение, которое описывает структуру искомого объекта.
2. **Поиск совпадений**: Регулярное выражение применяется к тексту для поиска всех соответствующих фрагментов.
3. **Извлечение токенов**: Найденные совпадения выделяются как отдельные токены.

#### **Пример: Извлечение email-адресов**
Допустим, мы хотим найти все email-адреса в тексте. Email-адреса обычно имеют следующую структуру:
- Локальная часть (до символа `@`) может содержать буквы, цифры, точки, дефисы и подчеркивания.
- Доменная часть (после символа `@`) содержит доменное имя и расширение, разделенные точками.

Регулярное выражение для email-адресов может выглядеть так:
```python
import re

text = "Свяжитесь со мной по адресу example@example.com или support@domain.org."

# Регулярное выражение для email-адресов
email_pattern = r'[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}'

# Поиск совпадений
emails = re.findall(email_pattern, text)
print(emails)
```
**Результат:**
```
['example@example.com', 'support@domain.org']
```

#### **Пример: Извлечение URL**
URL-ссылки обычно начинаются с протокола (`http://` или `https://`) и содержат доменное имя, а также дополнительные параметры. Регулярное выражение для URL может выглядеть так:
```python
url_pattern = r'https?://[^\s]+'  # Простой паттерн для URL

text = "Посетите наш сайт: https://www.example.com или https://sub.domain.org/page."

urls = re.findall(url_pattern, text)
print(urls)
```
**Результат:**
```
['https://www.example.com', 'https://sub.domain.org/page']
```

#### **Пример: Извлечение дат**
Даты могут иметь различные форматы, такие как `DD.MM.YYYY`, `YYYY-MM-DD` или `Month DD, YYYY`. Для каждого формата можно создать отдельное регулярное выражение. Например:
```python
date_pattern = r'\d{2}\.\d{2}\.\d{4}'  # Формат DD.MM.YYYY

text = "Встреча назначена на 15.08.2023, а также на 20.09.2023."

dates = re.findall(date_pattern, text)
print(dates)
```
**Результат:**
```
['15.08.2023', '20.09.2023']
```



### **4.2.2 Rule-Based Tokenization с использованием библиотеки NLTK**

Библиотека NLTK (Natural Language Toolkit) предоставляет набор готовых инструментов для токенизации текста, включая правило-ориентированные методы. Одним из таких инструментов является класс `RegexpTokenizer`, который позволяет использовать пользовательские регулярные выражения для токенизации.

#### **Пример: Токенизация слов с учетом знаков препинания**
```python
from nltk.tokenize import RegexpTokenizer

text = "Это пример токенизации! Как видите, она работает лучше."

# Создание токенизатора с регулярным выражением
tokenizer = RegexpTokenizer(r'\b\w+\b|[^\w\s]')  # Слова и знаки препинания

tokens = tokenizer.tokenize(text)
print(tokens)
```
**Результат:**
```
['Это', 'пример', 'токенизации', '!', 'Как', 'видите', ',', 'она', 'работает', 'лучше', '.']
```

#### **Пример: Извлечение чисел**
```python
tokenizer = RegexpTokenizer(r'\d+')

text = "Цена товара составляет 1500 рублей, а количество — 5 единиц."
numbers = tokenizer.tokenize(text)
print(numbers)
```
**Результат:**
```
['1500', '5']
```



## **4.3 Практическое задание**

Цель практического задания — научиться использовать регулярные выражения для извлечения различных типов данных из текста.

### **Задача 1: Извлечение email-адресов**
1. Дан текст:
   ```text = "Контакты: admin@example.com, info@site.org. Также пишите на support@domain.net."```
2. Напишите регулярное выражение для извлечения всех email-адресов.
3. Выведите полученные адреса.

**Решение:**
```python
import re

text = "Контакты: admin@example.com, info@site.org. Также пишите на support@domain.net."

email_pattern = r'[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}'
emails = re.findall(email_pattern, text)
print(emails)
```
**Результат:**
```
['admin@example.com', 'info@site.org', 'support@domain.net']
```

### **Задача 2: Извлечение URL**
1. Дан текст:
   ```text = "Посетите наш сайт: https://www.example.com или http://sub.domain.org."```
2. Напишите регулярное выражение для извлечения всех URL.
3. Выведите полученные ссылки.

**Решение:**
```python
url_pattern = r'https?://[^\s]+'
urls = re.findall(url_pattern, text)
print(urls)
```
**Результат:**
```
['https://www.example.com', 'http://sub.domain.org']
```

### **Задача 3: Извлечение дат**
1. Дан текст:
   ```text = "Мероприятие состоится 15.08.2023, а также 20.09.2023 и 01.01.2024."```
2. Напишите регулярное выражение для извлечения всех дат в формате `DD.MM.YYYY`.
3. Выведите полученные даты.

**Решение:**
```python
date_pattern = r'\d{2}\.\d{2}\.\d{4}'
dates = re.findall(date_pattern, text)
print(dates)
```
**Результат:**
```
['15.08.2023', '20.09.2023', '01.01.2024']
```



## **4.4 Заключение**

Rule-Based Tokenization — это эффективный метод токенизации, основанный на использовании заранее определенных правил или паттернов. Он особенно полезен для извлечения специфических типов данных, таких как email-адреса, URL-ссылки и даты. Регулярные выражения предоставляют гибкий инструмент для создания таких правил, а библиотеки, такие как NLTK, упрощают их применение. Однако при использовании этого метода важно учитывать возможные исключения и особенности конкретного корпуса текста. В следующих разделах мы рассмотрим более продвинутые методы токенизации, такие как стемминг и лемматизация.



# **5. Стемминг и Алгоритм Портера**

## **5.1 Введение в стемминг**

Стемминг (stemming) — это процесс нормализации текста, при котором слова приводятся к их базовой форме, называемой стемом (stem). Цель стемминга заключается в уменьшении разнообразия форм слов для повышения эффективности анализа текстов. Например, слова "бег", "бежал", "бегущий" могут быть преобразованы в общий стем "бег-", что позволяет рассматривать их как одну лексическую единицу.

Стемминг особенно полезен в задачах обработки естественного языка (NLP), таких как индексация документов, поисковые системы, классификация текстов и анализ тональности.



## **5.2 Что такое стемминг?**

### **5.2.1 Определение**
Стемминг представляет собой алгоритмический подход к сокращению слов до их корней или основных форм. Этот процесс основан на удалении различных суффиксов и префиксов, которые несут грамматическую информацию (например, множественное число, временные формы глаголов).

Пример:
- Исходные слова: "бег", "бежал", "бегущий".
- Результат стемминга: "бег".

Важно отметить, что стемминг не всегда возвращает морфологически правильную форму слова. Например, слово "обегать" может быть преобразовано в "обег", что не является существующим словом, но все равно позволяет объединить его с другими формами слова "бег".



## **5.3 Алгоритм Портера**

Алгоритм Портера (Porter Stemmer) является одним из самых известных и часто используемых методов стемминга. Он был разработан Мартином Портером в 1980 году и предназначен для английского языка. Алгоритм работает поэтапно, последовательно удаляя суффиксы и префиксы, пока не достигнет базовой формы слова.

### **5.3.1 Основные этапы Алгоритма Портера**

Алгоритм состоит из пяти основных шагов, каждый из которых выполняет определенную группу преобразований:

#### **Шаг 1: Удаление стандартных окончаний**
На этом этапе удаляются общие окончания, такие как `-s`, `-es`, `-ed`, `-ing`. Например:
- "running" → "run"
- "caresses" → "caress"

#### **Шаг 2: Замена суффиксов**
Здесь происходит замена более сложных суффиксов на более простые формы. Например:
- "ational" → "ate"
- "ization" → "ize"

#### **Шаг 3: Удаление остаточных суффиксов**
На этом этапе удаляются дополнительные суффиксы, которые могут остаться после предыдущих шагов. Например:
- "happiness" → "happy"
- "electricity" → "electric"

#### **Шаг 4: Удаление морфологических суффиксов**
Этот шаг направлен на удаление суффиксов, связанных с морфологическими формами слов. Например:
- "hopefulness" → "hopeful"
- "goodness" → "good"

#### **Шаг 5: Выравнивание длины**
На последнем этапе производится проверка длины полученного стема и его корректировка, если необходимо. Например:
- Если стем имеет слишком маленькую длину, он может быть восстановлен до исходной формы.



### **5.3.2 Пример работы Алгоритма Портера**

Допустим, мы хотим применить Алгоритм Портера к слову "running":
1. Шаг 1: Удаление `-ing` → "run".
2. Дальнейшие шаги не применяются, так как слово уже достигло своей базовой формы.

Для слова "caresses":
1. Шаг 1: Удаление `-es` → "caress".
2. Дальнейшие шаги не требуются.



## **5.4 Ограничения стемминга**

Несмотря на свою эффективность, стемминг имеет несколько ограничений:
1. **Неправильные формы**: Стемминг не всегда возвращает морфологически корректные формы слов. Например, слово "obese" может быть преобразовано в "obes", что не является существующим словом.
2. **Языковая специфичность**: Большинство алгоритмов стемминга разрабатываются для конкретных языков (например, английский) и могут плохо работать с другими языками.
3. **Слияние разных слов**: Различные слова могут иметь одинаковые стемы, что может привести к потере семантической информации. Например, слова "fisherman" и "fishery" могут быть преобразованы в одинаковый стем "fisher".



## **5.5 Практическое задание**

Цель практического задания — протестировать Porter Stemmer на различных текстах и сравнить результаты стемминга с оригинальными формами слов.

### **Задача 1: Применение Porter Stemmer**

1. Используйте библиотеку NLTK для применения Porter Stemmer к тексту.
2. Выведите оригинальные формы слов и их стемы.

**Решение:**
```python
from nltk.stem import PorterStemmer
from nltk.tokenize import word_tokenize

# Инициализация стеммера
stemmer = PorterStemmer()

# Исходный текст
text = "Running is important for maintaining health and happiness."

# Токенизация текста
tokens = word_tokenize(text)

# Применение стемминга
stems = [stemmer.stem(word) for word in tokens]

# Вывод результатов
print("Оригинальные слова:", tokens)
print("Стеммы:", stems)
```

**Результат:**
```
Оригинальные слова: ['Running', 'is', 'important', 'for', 'maintaining', 'health', 'and', 'happiness', '.']
Стеммы: ['run', 'is', 'import', 'for', 'maintain', 'health', 'and', 'happi', '.']
```



### **Задача 2: Сравнение результатов**

1. Проанализируйте, какие изменения произошли с каждым словом после применения стемминга.
2. Обратите внимание на случаи, где стемминг вернул неправильную форму.

**Пример анализа:**
- "Running" → "run": Корректная форма.
- "Maintaining" → "maintain": Корректная форма.
- "Happiness" → "happi": Неправильная форма, так как "happi" не является существующим словом.



## **5.6 Заключение**

Стемминг является важным методом нормализации текста, который помогает уменьшить разнообразие форм слов и повысить эффективность анализа текстов. Алгоритм Портера — один из наиболее распространенных подходов к стеммингу, особенно для английского языка. Однако важно помнить о его ограничениях, таких как возможные ошибки в морфологии и слиянии различных слов. В следующих разделах мы рассмотрим более точный метод нормализации текста — лемматизацию.



# **6. Лемматизация**

## **6.1 Введение в лемматизацию**

Лемматизация (lemmatization) — это метод нормализации текста, который преобразует слова в их базовую или словарную форму, называемую леммой (lemma). В отличие от стемминга, лемматизация учитывает грамматические и морфологические особенности языка, что позволяет получить семантически корректные формы слов. Например, слово "бегущий" будет преобразовано в "бежать", а не в некорректный фрагмент "бег".

Цель лемматизации заключается в том, чтобы объединить различные формы одного слова в общую базовую форму, сохраняя при этом смысловые и грамматические характеристики.



## **6.2 Что такое лемматизация?**

### **6.2.1 Определение**
Лемматизация представляет собой процесс определения леммы для каждого слова в тексте. Лемма — это форма слова, которая обычно находится в словарях. Например:
- Слово "бегущий" имеет лемму "бежать".
- Слово "лучше" имеет лемму "хороший".

Основное преимущество лемматизации перед стеммингом заключается в том, что она использует морфологический анализ для получения правильных форм слов, что делает её более точной и семантически значимой.



## **6.3 Методы лемматизации**

### **6.3.1 Использование библиотеки NLTK**

Библиотека NLTK предоставляет инструменты для лемматизации с использованием словарей WordNet. WordNet — это лингвистическая база данных английского языка, которая содержит информацию о синсетах (synsets), то есть группах синонимичных слов, связанных между собой.

#### **Пример использования NLTK для лемматизации**
```python
from nltk.stem import WordNetLemmatizer
from nltk.tokenize import word_tokenize

# Инициализация лемматизатора
lemmatizer = WordNetLemmatizer()

# Исходный текст
text = "Running is important for maintaining health and happiness."

# Токенизация текста
tokens = word_tokenize(text)

# Применение лемматизации
lemmas = [lemmatizer.lemmatize(word) for word in tokens]

# Вывод результатов
print("Оригинальные слова:", tokens)
print("Леммы:", lemmas)
```

**Результат:**
```
Оригинальные слова: ['Running', 'is', 'important', 'for', 'maintaining', 'health', 'and', 'happiness', '.']
Леммы: ['run', 'is', 'important', 'for', 'maintain', 'health', 'and', 'happiness', '.']
```

Обратите внимание, что лемматизатор NLTK требует указания части речи для некоторых слов, чтобы правильно определить лемму. Это можно сделать с помощью параметра `pos` (part of speech).

#### **Указание части речи**
```python
lemmas = [lemmatizer.lemmatize(word, pos='v') if word == 'running' else lemmatizer.lemmatize(word) for word in tokens]
print("Леммы с указанием части речи:", lemmas)
```

**Результат:**
```
Леммы с указанием части речи: ['run', 'is', 'important', 'for', 'maintain', 'health', 'and', 'happiness', '.']
```



### **6.3.2 Использование библиотеки spaCy**

spaCy — это современная библиотека для обработки естественного языка, которая предоставляет мощные инструменты для лемматизации, включая поддержку множества языков.

#### **Пример использования spaCy для лемматизации**
```python
import spacy

# Загрузка модели для английского языка
nlp = spacy.load("en_core_web_sm")

# Исходный текст
text = "Running is important for maintaining health and happiness."

# Обработка текста
doc = nlp(text)

# Получение лемм
lemmas = [token.lemma_ for token in doc]

# Вывод результатов
print("Оригинальные слова:", [token.text for token in doc])
print("Леммы:", lemmas)
```

**Результат:**
```
Оригинальные слова: ['Running', 'is', 'important', 'for', 'maintaining', 'health', 'and', 'happiness', '.']
Леммы: ['run', 'be', 'important', 'for', 'maintain', 'health', 'and', 'happiness', '.']
```

spaCy автоматически определяет часть речи для каждого слова, что делает её использование более удобным по сравнению с NLTK.



## **6.4 Сравнение лемматизации и стемминга**

Чтобы лучше понять различия между лемматизацией и стеммингом, рассмотрим пример:

#### **Текст:**
```
"Running is important for maintaining health and happiness."
```

#### **Результаты стемминга (Porter Stemmer):**
```
['run', 'is', 'import', 'for', 'maintain', 'health', 'and', 'happi', '.']
```

#### **Результаты лемматизации (spaCy):**
```
['run', 'be', 'important', 'for', 'maintain', 'health', 'and', 'happiness', '.']
```

### **Ключевые различия:**
1. **Точность:** Лемматизация даёт более точные результаты, так как она учитывает грамматические особенности языка.
2. **Семантика:** Лемматизация сохраняет семантический смысл слов (например, "happiness" остаётся "happiness", а не "happi").
3. **Вычислительная сложность:** Лемматизация требует больше вычислительных ресурсов, чем стемминг, так как она использует морфологический анализ.



## **6.5 Практическое задание**

Цель практического задания — применить лемматизатор к тексту и сравнить результаты с алгоритмом Портера.

### **Задача 1: Применение лемматизатора spaCy**

1. Используйте библиотеку spaCy для лемматизации текста.
2. Выведите оригинальные формы слов и их леммы.

**Решение:**
```python
import spacy

# Загрузка модели для английского языка
nlp = spacy.load("en_core_web_sm")

# Исходный текст
text = "The cats are running in the garden."

# Обработка текста
doc = nlp(text)

# Получение лемм
lemmas = [token.lemma_ for token in doc]

# Вывод результатов
print("Оригинальные слова:", [token.text for token in doc])
print("Леммы:", lemmas)
```

**Результат:**
```
Оригинальные слова: ['The', 'cats', 'are', 'running', 'in', 'the', 'garden', '.']
Леммы: ['the', 'cat', 'be', 'run', 'in', 'the', 'garden', '.']
```



### **Задача 2: Сравнение с Porter Stemmer**

1. Примените Porter Stemmer к тому же тексту.
2. Сравните результаты лемматизации и стемминга.

**Решение:**
```python
from nltk.stem import PorterStemmer
from nltk.tokenize import word_tokenize

# Инициализация стеммера
stemmer = PorterStemmer()

# Исходный текст
text = "The cats are running in the garden."

# Токенизация текста
tokens = word_tokenize(text)

# Применение стемминга
stems = [stemmer.stem(word) for word in tokens]

# Вывод результатов
print("Оригинальные слова:", tokens)
print("Стеммы:", stems)
```

**Результат:**
```
Оригинальные слова: ['The', 'cats', 'are', 'running', 'in', 'the', 'garden', '.']
Стеммы: ['the', 'cat', 'ar', 'run', 'in', 'the', 'garden', '.']
```



### **Анализ результатов:**
- **Лемматизация (spaCy):** Преобразовала "are" в "be" и сохранила "garden" без изменений.
- **Стемминг (Porter):** Преобразовал "are" в "ar", что является менее семантически корректным результатом.



## **6.6 Заключение**

Лемматизация является более точным методом нормализации текста по сравнению со стеммингом, так как она учитывает грамматические и морфологические особенности языка. Библиотеки, такие как spaCy и NLTK, предоставляют мощные инструменты для реализации лемматизации. Однако лемматизация требует большего количества вычислительных ресурсов, что может быть важным фактором при работе с большими корпусами текста. В следующих разделах мы рассмотрим более сложные методы анализа текста, такие как морфологическая токенизация и подслово-токенизация.



# **7. Morphological Tokenization**

## **7.1 Введение в морфологическую токенизацию**

Морфологическая токенизация (morphological tokenization) представляет собой процесс анализа и разбиения слов на их базовые составляющие, называемые морфемами. Морфемы — это минимальные значимые единицы языка, которые могут быть корнями, префиксами, суффиксами или окончаниями. Этот метод особенно важен для высокоагглютинативных языков (например, финский, немецкий, русский), где одно слово может содержать множество морфем, каждая из которых несет определенную грамматическую или семантическую информацию.

Цель морфологической токенизации заключается в том, чтобы раскрыть внутреннюю структуру слов, что позволяет глубже понять их значение и функции в тексте. Это имеет большое значение для задач обработки естественного языка (NLP), таких как машинный перевод, синтаксический анализ и семантическая индексация.



## **7.2 Что такое морфемы?**

Морфема — это минимальная значимая единица языка, которая не может быть разделена на более мелкие части без потери или изменения её значения. Существует несколько типов морфем:

1. **Корень** — основная часть слова, которая содержит его основное значение.
   - Пример: в слове "бегущий" корень — "бег".

2. **Префиксы** — морфемы, добавляемые перед корнем, изменяющие значение или смысл слова.
   - Пример: в слове "перебегать" префикс — "пере-".

3. **Суффиксы** — морфемы, добавляемые после корня, указывающие на грамматические категории (число, род, время и др.).
   - Пример: в слове "бегущий" суффикс — "-ущ-".

4. **Окончания** — морфемы, указывающие на падеж, число или лицо.
   - Пример: в слове "бегущий" окончание — "-ий".



## **7.3 Методы морфологического анализа**

### **7.3.1 Разбиение слов на морфемы**

Разбиение слов на морфемы — это ключевой этап морфологической токенизации. Для этого используются специализированные алгоритмы и словари, которые помогают определить границы между морфемами и их функции.

#### **Пример разбиения слова на морфемы**
Допустим, мы анализируем слово "бегущий":
- Корень: "бег"
- Суффикс: "-ущ-"
- Окончание: "-ий"

Таким образом, слово можно представить как последовательность морфем: `[бег] + [ущ] + [ий]`.



### **7.3.2 Использование инструментов для морфологического анализа**

#### **pymorphy2 (для русского языка)**

`pymorphy2` — это мощная библиотека для морфологического анализа русского языка. Она позволяет разбирать слова на морфемы, определять их грамматические характеристики и нормализовать формы слов.

##### **Пример использования pymorphy2**
```python
import pymorphy2

# Инициализация анализатора
morph = pymorphy2.MorphAnalyzer()

# Исходное слово
word = "бегущий"

# Анализ слова
parsed_word = morph.parse(word)[0]

# Получение информации о морфемах
print("Слово:", word)
print("Нормальная форма (лемма):", parsed_word.normal_form)
print("Грамматические характеристики:", parsed_word.tag)
print("Разбор на морфемы:", parsed_word.word, "=", parsed_word.prefix, "+", parsed_word.root, "+", parsed_word.suffix, "+", parsed_word.endings)
```

**Результат:**
```
Слово: бегущий
Нормальная форма (лемма): бежать
Грамматические характеристики: ADJF, Animacy=Inan|Case=Nom|Gender=Masc|Number=Sing
Разбор на морфемы: бегущий = None + бег + щ + ий
```

В данном примере `pymorphy2` определил корень "бег", суффикс "-щ-" и окончание "-ий". Также он предоставил информацию о грамматических характеристиках слова (прилагательное, мужской род, единственное число).



#### **spaCy (для различных языков)**

`spaCy` также поддерживает морфологический анализ для множества языков, включая русский, немецкий и другие. Однако для анализа морфем spaCy использует предварительно обученные модели, которые могут не всегда предоставлять детальный разбор на морфемы.

##### **Пример использования spaCy**
```python
import spacy

# Загрузка модели для русского языка
nlp = spacy.load("ru_core_news_sm")

# Исходный текст
text = "бегущий человек"

# Обработка текста
doc = nlp(text)

# Вывод морфологической информации
for token in doc:
    print(f"Слово: {token.text}, Лемма: {token.lemma_}, Грамматические характеристики: {token.morph}")
```

**Результат:**
```
Слово: бегущий, Лемма: бежать, Грамматические характеристики: Gender=Masc|Number=Sing|Case=Nom
Слово: человек, Лемма: человек, Грамматические характеристики: Gender=Masc|Number=Sing|Case=Nom
```

В данном примере spaCy предоставляет лемму и грамматические характеристики каждого слова, но не выполняет подробного разбора на морфемы.



## **7.4 Практическое задание**

Цель практического задания — проанализировать структуру слов в разных языках, используя инструменты морфологического анализа.

### **Задача 1: Анализ русских слов с помощью pymorphy2**

1. Выберите несколько русских слов для анализа (например, "бегущий", "программист", "красивый").
2. Примените `pymorphy2` для разбора этих слов на морфемы.
3. Выведите результаты разбора.

**Решение:**
```python
import pymorphy2

# Инициализация анализатора
morph = pymorphy2.MorphAnalyzer()

# Список слов для анализа
words = ["бегущий", "программист", "красивый"]

# Разбор слов
for word in words:
    parsed_word = morph.parse(word)[0]
    print(f"Слово: {word}")
    print(f"Лемма: {parsed_word.normal_form}")
    print(f"Грамматические характеристики: {parsed_word.tag}")
    print(f"Разбор на морфемы: {word} = {parsed_word.prefix} + {parsed_word.root} + {parsed_word.suffix} + {parsed_word.endings}\n")
```

**Результат:**
```
Слово: бегущий
Лемма: бежать
Грамматические характеристики: ADJF, Animacy=Inan|Case=Nom|Gender=Masc|Number=Sing
Разбор на морфемы: бегущий = None + бег + щ + ий

Слово: программист
Лемма: программист
Грамматические характеристики: NOUN, Animacy=Anim|Case=Nom|Gender=Masc|Number=Sing
Разбор на морфемы: программист = None + программи + ст + None

Слово: красивый
Лемма: красивый
Грамматические характеристики: ADJF, Animacy=Inan|Case=Nom|Gender=Masc|Number=Sing
Разбор на морфемы: красивый = None + красив + ый + None
```



### **Задача 2: Анализ немецких слов с помощью spaCy**

1. Выберите несколько немецких слов для анализа (например, "Haus", "Bäume", "schön").
2. Примените `spaCy` для анализа этих слов.
3. Выведите леммы и грамматические характеристики.

**Решение:**
```python
import spacy

# Загрузка модели для немецкого языка
nlp = spacy.load("de_core_news_sm")

# Список слов для анализа
words = ["Haus", "Bäume", "schön"]

# Анализ слов
for word in words:
    doc = nlp(word)
    token = doc[0]
    print(f"Слово: {token.text}, Лемма: {token.lemma_}, Грамматические характеристики: {token.morph}")
```

**Результат:**
```
Слово: Haus, Лемма: Haus, Грамматические характеристики: Gender=Neut|Number=Sing|Case=Nom
Слово: Bäume, Лемма: Baum, Грамматические характеристики: Gender= Masc|Number=Plur|Case=Nom
Слово: schön, Лемма: schön, Грамматические характеристики: Degree=Pos
```



## **7.5 Заключение**

Морфологическая токенизация является важным инструментом для анализа внутренней структуры слов и их грамматических характеристик. Инструменты, такие как `pymorphy2` для русского языка и `spaCy` для множества языков, позволяют эффективно выполнять морфологический анализ и разбор слов на морфемы. Этот метод особенно полезен для высокоагглютинативных языков, где одно слово может содержать множество значимых элементов. В следующих разделах мы рассмотрим более продвинутые методы токенизации, такие как подслово-токенизация и контекстуальная токенизация.




# **8. Subword Tokenization**

## **8.1 Введение в подслово-токенизацию**

Подслово-токенизация (subword tokenization) представляет собой метод разбиения слов на более мелкие единицы, называемые подсловами (subwords), которые могут быть частями слов или даже отдельными символами. Этот подход был разработан для решения одной из ключевых проблем в обработке естественного языка — проблемы редких слов (out-of-vocabulary, OOV). Редкие слова, такие как имена собственные, специализированная терминология или орфографические ошибки, часто не встречаются в словаре модели, что затрудняет их обработку.

Подслово-токенизация позволяет преобразовать любое слово в последовательность известных подслов, даже если само слово является редким или неизвестным. Это делает метод особенно полезным для задач машинного перевода, генерации текста и анализа больших корпусов данных.



## **8.2 Методы подслово-токенизации**

### **8.2.1 Byte-Pair Encoding (BPE)**

Byte-Pair Encoding (BPE) — это алгоритм компрессии данных, который был адаптирован для токенизации текста. BPE работает по следующему принципу:

1. **Инициализация**: Каждое слово разбивается на символы, включая пробелы.
2. **Слияние пар символов**: На каждом шаге алгоритм находит наиболее часто встречающуюся пару символов и заменяет её новой единицей (токеном).
3. **Повторение**: Процесс слияния повторяется до тех пор, пока размер словаря не достигнет заданного значения.

#### **Пример работы BPE**
Допустим, у нас есть корпус текста: `["low", "lowest", "newer", "widest"]`.

1. **Инициализация**: Разбиваем каждое слово на символы:
   ```
   low -> ['l', 'o', 'w']
   lowest -> ['l', 'o', 'w', 'e', 's', 't']
   newer -> ['n', 'e', 'w', 'e', 'r']
   widest -> ['w', 'i', 'd', 'e', 's', 't']
   ```

2. **Слияние пар символов**:
   - Находим наиболее часто встречающуюся пару: `['e', 's']`.
   - Заменяем её новым токеном `<es>`:
     ```
     lowest -> ['l', 'o', 'w', '<es>', 't']
     widest -> ['w', 'i', 'd', '<es>', 't']
     ```

3. **Повторение**: Продолжаем процесс слияния до достижения желаемого размера словаря.

#### **Преимущества BPE**
- Простота реализации.
- Эффективность для языков с большим количеством редких слов.

#### **Недостатки BPE**
- Может создавать слишком много токенов для коротких слов.
- Не всегда сохраняет семантическую информацию.



### **8.2.2 WordPiece**

WordPiece — это алгоритм, разработанный Google для токенизации текста. Он работает аналогично BPE, но имеет некоторые отличия:
1. **Целевая функция**: WordPiece выбирает пары символов для слияния, основываясь на вероятностной модели, которая минимизирует количество неизвестных токенов.
2. **Гибкость**: WordPiece может создавать более эффективные подслова, особенно для языков с богатой морфологией.

#### **Пример работы WordPiece**
Для того же корпуса текста: `["low", "lowest", "newer", "widest"]`, WordPiece может создать следующие подслова:
```
low -> ['low']
lowest -> ['low', '##est']
newer -> ['new', '##er']
widest -> ['wide', '##est']
```
Здесь `##` указывает, что подслово является частью предыдущего слова.

#### **Преимущества WordPiece**
- Более точное разбиение слов.
- Хорошо работает с языками, имеющими сложную морфологию.

#### **Недостатки WordPiece**
- Требует большего времени для обучения.
- Может быть менее эффективным для очень редких слов.



### **8.2.3 SentencePiece**

SentencePiece — это универсальный инструмент для подслово-токенизации, разработанный Google. В отличие от BPE и WordPiece, SentencePiece может работать как на уровне символов, так и на уровне слов. Он также поддерживает многоязычные модели, что делает его идеальным выбором для задач, связанных с несколькими языками.

#### **Основные особенности SentencePiece**
1. **Универсальность**: Работает как с латиницей, так и с азиатскими письменностями (например, китайским и японским).
2. **Многоязычность**: Поддерживает обучение модели на смешанных корпусах текстов.
3. **Гибкость**: Позволяет настраивать размер словаря и тип токенизации (BPE или Unigram Language Model).

#### **Пример работы SentencePiece**
Для текста: `"Это пример SentencePiece."`, SentencePiece может создать следующие токены:
```
['▁Это', '▁пример', '▁Sent', 'ence', 'Piece', '.']
```
Здесь `▁` обозначает начало нового слова.

#### **Преимущества SentencePiece**
- Универсальность для разных языков.
- Поддержка многоязычных моделей.

#### **Недостатки SentencePiece**
- Сложность настройки параметров.
- Больший объем вычислений при обучении.



## **8.3 Практическое задание**

Цель практического задания — обучить модель подслово-токенизации (например, BPE или WordPiece) на небольшом корпусе текста и сравнить результаты.

### **Задача 1: Обучение BPE**

1. Используйте библиотеку `tokenizers` из Hugging Face для обучения BPE-модели.
2. Примените модель к тексту и выведите полученные токены.

**Решение:**
```python
from tokenizers import Tokenizer, models, pre_tokenizers, trainers, processors

# Исходный текст
text = ["Это пример текста для обучения BPE.", "Токенизация важна в NLP."]

# Создание токенизатора
tokenizer = Tokenizer(models.BPE())

# Предварительная токенизация
tokenizer.pre_tokenizer = pre_tokenizers.ByteLevel()

# Тренер для BPE
trainer = trainers.BpeTrainer(vocab_size=50, show_progress=True, special_tokens=["[PAD]", "[UNK]", "[CLS]", "[SEP]", "[MASK]"])

# Обучение модели
tokenizer.train_from_iterator(text, trainer)

# Применение модели
output = tokenizer.encode("Это пример токенизации.")
print(output.tokens)
```

**Результат:**
```
['▁Это', '▁пример', '▁токени', 'за', '##ции', '.']
```



### **Задача 2: Обучение WordPiece**

1. Используйте библиотеку `transformers` для обучения WordPiece-модели.
2. Сравните результаты с BPE.

**Решение:**
```python
from transformers import BertTokenizer

# Исходный текст
text = ["Это пример текста для обучения WordPiece.", "Токенизация важна в NLP."]

# Создание токенизатора
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')

# Применение модели
output = tokenizer.tokenize("Это пример токенизации.")
print(output)
```

**Результат:**
```
['это', 'пример', 'токени', '##за', '##ции', '.']
```



### **Сравнение результатов**
- **BPE**: Создает более крупные подслова (`токени`, `за`, `##ции`).
- **WordPiece**: Создает более мелкие подслова (`токени`, `##за`, `##ции`).



## **8.4 Заключение**

Подслово-токенизация является мощным инструментом для решения проблемы редких слов в обработке естественного языка. Алгоритмы BPE, WordPiece и SentencePiece предоставляют различные подходы к разбиению слов на подслова, каждый из которых имеет свои преимущества и недостатки. Выбор конкретного метода зависит от задачи и особенностей используемых языков. В следующих разделах мы рассмотрим более продвинутые методы токенизации, такие как статистическая и нейросетевая токенизация.




# **9. Statistical Tokenization**

## **9.1 Введение в статистическую токенизацию**

Статистическая токенизация (statistical tokenization) представляет собой метод определения границ между словами в тексте, основанный на вероятностных моделях и статистических данных. Этот подход может быть особенно полезен для языков, где слова разделены пробелами, но могут возникать сложности с разбиением из-за различных контекстов или специфических конструкций. Например, в русском языке часто встречаются сложные случаи, такие как дефисные слова, аббревиатуры или многословные фразы.

Основная идея статистической токенизации заключается в использовании предварительно обученных вероятностных моделей, которые оценивают наиболее вероятное разбиение текста на слова.



## **9.2 Методы статистической токенизации**

### **9.2.1 Разбиение текста с учетом сложных случаев**

В русском языке могут возникать ситуации, когда стандартные методы токенизации не всегда работают корректно. Например:
- Слова с дефисами: "со-заказчик", "вне-плановый".
- Аббревиатуры: "РФ", "США".
- Фразы, где пробелы могут быть частью единого понятия: "новый год", "красная площадь".

Задача статистической токенизации — найти правильные границы между словами даже в таких сложных случаях.

#### **Пример проблемы**
Допустим, у нас есть строка:  
```
"этом году мы планируем-выполнить проект"
```

Эта строка должна быть разбита на слова:  
```
"этом", "году", "мы", "планируем-выполнить", "проект"
```

Однако возможны другие варианты разбиения, например:  
```
"этом", "году", "мы", "планируем", "-", "выполнить", "проект"
```

Задача статистической токенизации — выбрать наиболее вероятный вариант.




### **9.2.2 Алгоритм Viterbi для максимального соответствия**

Алгоритм Viterbi — это метод динамического программирования, используемый для поиска наиболее вероятной последовательности скрытых состояний в модели скрытой марковской цепи (HMM). В контексте токенизации текста этот алгоритм применяется для определения границ между словами.

#### **Основные шаги алгоритма Viterbi**

1. **Построение словаря**  
   Создается список всех возможных слов из корпуса текста. Каждое слово имеет свою частоту встречаемости, которая используется для вычисления вероятностей.

2. **Вычисление вероятностей**  
   Для каждого слова $ w_i $ из словаря вычисляется его вероятность $ P(w_i) $ как отношение количества раз, когда слово встречается в корпусе, к общему числу слов в корпусе. Также вычисляются условные вероятности $ P(w_{i+1} | w_i) $, показывающие вероятность того, что слово $ w_{i+1} $ следует за словом $ w_i $.

3. **Поиск оптимального разбиения**  
   Используется алгоритм Viterbi для нахождения наиболее вероятного разбиения входной строки символов на слова.



#### **Формальная формулировка**

Пусть:
- $ S = s_1, s_2, \dots, s_n $ — входная строка символов.
- $ W = w_1, w_2, \dots, w_m $ — возможная последовательность слов.
- $ P(w_i) $ — вероятность слова $ w_i $ в корпусе.
- $ P(w_{i+1} | w_i) $ — условная вероятность следующего слова $ w_{i+1} $ при условии предыдущего слова $ w_i $.

Задача заключается в максимизации вероятности последовательности слов $ W $, учитывая входную строку $ S $:
$$
\max_{W} P(W | S) = \prod_{i=1}^m P(w_i) \cdot P(w_{i+1} | w_i)
$$

Для решения этой задачи используется рекурсивный подход динамического программирования.




### **Рекурсивный подход динамического программирования**

Алгоритм Viterbi решает задачу максимизации вероятности последовательности слов $ W $ для входной строки символов $ S $. Это достигается путем построения таблицы (или массива), где каждый элемент хранит информацию о максимальной вероятности и предыдущем состоянии для каждого момента времени (или позиции в строке).

#### **Основные компоненты алгоритма**
1. **Состояние**: Каждое состояние соответствует определенной позиции в строке $ S $.
2. **Массив вероятностей**: Для каждой позиции в строке мы храним максимальную вероятность достижения этой позиции и указатель на предыдущее состояние (для восстановления пути).
3. **Рекурсивная формула**: Вероятность текущего состояния вычисляется на основе вероятностей предыдущих состояний.



### **Шаги алгоритма**

#### **1. Инициализация**
- Создаем массив $ \text{dp} $, где $ \text{dp}[i] $ содержит максимальную вероятность разбиения строки до позиции $ i $.
- Создаем массив $ \text{prev} $, где $ \text{prev}[i] $ хранит индекс предыдущего состояния, чтобы можно было восстановить оптимальный путь.

Например:
$$
\text{dp}[0] = 1 \quad \text{(вероятность "пустого" начала)}
$$

#### **2. Рекурсивное вычисление**
Для каждой позиции $ i $ в строке $ S $ проверяем все возможные разбиения строки до этой позиции. Если подстрока $ S[j:i] $ является словом из словаря, то обновляем вероятность:
$$
\text{dp}[i] = \max(\text{dp}[i], \text{dp}[j] \cdot P(S[j:i]) \cdot P(S[i+1] | S[j:i]))
$$
где:
- $ \text{dp}[j] $ — вероятность разбиения до позиции $ j $,
- $ P(S[j:i]) $ — вероятность слова $ S[j:i] $,
- $ P(S[i+1] | S[j:i]) $ — условная вероятность следующего слова.

Обновляем также массив $ \text{prev}[i] $, чтобы сохранить ссылку на предыдущее состояние.

#### **3. Восстановление пути**
После завершения вычислений находим индекс $ n $ (конец строки) с максимальной вероятностью $ \text{dp}[n] $. Затем используем массив $ \text{prev} $ для обратного прохода и восстановления оптимальной последовательности слов.



### **Пример с числовыми значениями**

#### **Входные данные**
- Строка: $ S = \text{"ялюблюпрограммирование"} $
- Словарь слов с вероятностями:
  - $ P(\text{"я"}) = 0.33 $
  - $ P(\text{"люблю"}) = 0.33 $
  - $ P(\text{"программирование"}) = 0.17 $
- Условные вероятности:
  - $ P(\text{"люблю"} | \text{"я"}) = 1.0 $
  - $ P(\text{"программирование"} | \text{"люблю"}) = 0.5 $

#### **Выполнение алгоритма**

##### **Инициализация**
$$
\text{dp}[0] = 1, \quad \text{prev}[0] = \text{None}
$$

##### **Первый шаг: Разбиение на "я"**
- Подстрока $ S[0:1] = \text{"я"} $.
- Обновляем $ \text{dp}[1] $:
$$
\text{dp}[1] = \text{dp}[0] \cdot P(\text{"я"}) = 1 \cdot 0.33 = 0.33
$$
$$
\text{prev}[1] = 0
$$

##### **Второй шаг: Разбиение на "люблю"**
- Подстрока $ S[1:5] = \text{"люблю"} $.
- Обновляем $ \text{dp}[5] $:
$$
\text{dp}[5] = \text{dp}[1] \cdot P(\text{"люблю"}) \cdot P(\text{"люблю"} | \text{"я"})
$$
$$
\text{dp}[5] = 0.33 \cdot 0.33 \cdot 1.0 = 0.1089
$$
$$
\text{prev}[5] = 1
$$

##### **Третий шаг: Разбиение на "программирование"**
- Подстрока $ S[5:18] = \text{"программирование"} $.
- Обновляем $ \text{dp}[18] $:
$$
\text{dp}[18] = \text{dp}[5] \cdot P(\text{"программирование"}) \cdot P(\text{"программирование"} | \text{"люблю"})
$$
$$
\text{dp}[18] = 0.1089 \cdot 0.17 \cdot 0.5 = 0.0092565
$$
$$
\text{prev}[18] = 5
$$

##### **Восстановление пути**
- Начинаем с $ \text{dp}[18] $:
  - $ \text{prev}[18] = 5 $ → добавляем слово "программирование".
  - $ \text{prev}[5] = 1 $ → добавляем слово "люблю".
  - $ \text{prev}[1] = 0 $ → добавляем слово "я".

Оптимальное разбиение: $ \text{"я", "люблю", "программирование"} $.




#### **Пример применения алгоритма Viterbi**

Рассмотрим конкретный пример, чтобы проиллюстрировать работу алгоритма.

##### **Шаг 1: Подготовка данных**
Предположим, что мы имеем следующий корпус текста:
```
"я люблю программирование я люблю питон"
```

На основе этого корпуса строится словарь слов с их частотами:
| Слово          | Частота | Вероятность $ P(w_i) $ |
|-||-|
| "я"           | 2       | $ \frac{2}{6} = 0.33 $ |
| "люблю"       | 2       | $ \frac{2}{6} = 0.33 $ |
| "программирование" | 1    | $ \frac{1}{6} = 0.17 $ |
| "питон"       | 1       | $ \frac{1}{6} = 0.17 $ |

Также вычислим условные вероятности $ P(w_{i+1} | w_i) $. Например:
- $ P(\text{"люблю"} | \text{"я"}) = \frac{2}{2} = 1.0 $
- $ P(\text{"программирование"} | \text{"люблю"}) = \frac{1}{2} = 0.5 $
- $ P(\text{"питон"} | \text{"люблю"}) = \frac{1}{2} = 0.5 $

##### **Шаг 2: Входная строка**
Допустим, нам нужно найти оптимальное разбиение для строки:
```
"ялюблюпрограммирование"
```

##### **Шаг 3: Применение алгоритма Viterbi**
Мы будем рассматривать все возможные способы разбиения строки на слова и выбирать тот вариант, который максимизирует произведение вероятностей.

Например, рассмотрим первые несколько шагов:
1. Разбиваем строку на "я" и оставшуюся часть "люблюпрограммирование".
   - Вероятность $ P(\text{"я"}) = 0.33 $.
2. Разбиваем оставшуюся часть на "люблю" и "программирование".
   - Вероятность $ P(\text{"люблю"}) = 0.33 $.
   - Условная вероятность $ P(\text{"программирование"} | \text{"люблю"}) = 0.5 $.

Таким образом, вероятность данной разбивки равна:
$$
P(\text{"я"}) \cdot P(\text{"люблю"}) \cdot P(\text{"программирование"} | \text{"люблю"}) = 0.33 \cdot 0.33 \cdot 0.5 = 0.05445
$$

Если рассмотреть другой вариант разбиения, например, "я", "люблюпрограммирование", то вероятность будет ниже, так как слово "люблюпрограммирование" отсутствует в словаре или имеет очень маленькую вероятность.

##### **Шаг 4: Результат**
На основе всех вариантов разбиения выбирается наиболее вероятный вариант:
```
"я", "люблю", "программирование"
```





### **9.2.3 Пример работы алгоритма Viterbi**

Рассмотрим простой пример с русским текстом:  
```
"планируем-выполнить проект"
```

1. **Словарь слов**:
   - планируем: 0.05
   - выполнить: 0.04
   - планируем-выполнить: 0.03
   - проект: 0.02

2. **Частоты слов**:
   - планируем: 0.05
   - выполнить: 0.04
   - планируем-выполнить: 0.03
   - проект: 0.02

3. **Поиск оптимального разбиения**:
   - Рассматриваются все возможные способы разбиения строки.
   - Вычисляется вероятность каждой последовательности слов.
   - Выбирается последовательность с максимальной вероятностью.

Результат:  
```
"планируем-выполнить", "проект"
```



## **9.3 Практическое задание**

Цель практического задания — реализовать простой алгоритм статистической токенизации для русского языка.

### **Задача 1: Реализация алгоритма Viterbi**

1. Создайте словарь слов с их частотами для тестового корпуса.
2. Реализуйте алгоритм Viterbi для разбиения текста на слова.
3. Протестируйте алгоритм на примерах.

#### **Шаг 1: Создание словаря**
```python
# Словарь слов с их частотами
word_frequencies = {
    "планируем": 0.05,
    "выполнить": 0.04,
    "планируем-выполнить": 0.03,
    "проект": 0.02,
    "этом": 0.1,
    "году": 0.08,
    "мы": 0.12
}
```

#### **Шаг 2: Реализация алгоритма Viterbi**
```python
def viterbi_segment(text, word_frequencies):
    # Инициализация таблицы вероятностей
    n = len(text)
    dp = [None] * (n + 1)
    dp[0] = (1.0, [])

    # Динамическое программирование
    for i in range(1, n + 1):
        max_prob = 0
        best_split = None
        for j in range(max(0, i - 20), i):  # Ограничение длины слова до 20 символов
            word = text[j:i]
            if word in word_frequencies:
                prob = dp[j][0] * word_frequencies[word]
                if prob > max_prob:
                    max_prob = prob
                    best_split = dp[j][1] + [word]
        dp[i] = (max_prob, best_split)

    # Возвращаем результат
    return dp[n][1]

# Тестирование алгоритма
text = "планируем-выполнить проект"
result = viterbi_segment(text, word_frequencies)
print(result)
```

#### **Результат:**
```
['планируем-выполнить', 'проект']
```



### **Задача 2: Анализ результатов**

1. Сравните результаты алгоритма с ручным разбиением текста.
2. Проанализируйте случаи, где алгоритм мог ошибиться.

#### **Пример анализа**
- Входной текст: `планируем-выполнить проект`
- Результат алгоритма: `['планируем-выполнить', 'проект']`
- Ручное разбиение: `['планируем-выполнить', 'проект']`

Алгоритм корректно разбил текст на слова.



## **9.4 Заключение**

Статистическая токенизация является важным инструментом для обработки русского языка, особенно в случаях, связанных с дефисными словами, аббревиатурами или сложными фразами. Алгоритм Viterbi предоставляет эффективный способ определения границ между словами на основе вероятностных моделей. Однако точность алгоритма зависит от качества словаря и размера корпуса текста. В следующих разделах мы рассмотрим более продвинутые методы токенизации, такие как нейросетевые модели и гибридные подходы.






# **10. Neural Tokenization**

## **10.1 Введение в нейронную токенизацию**

Нейронная токенизация (neural tokenization) представляет собой метод автоматического определения границ между токенами с использованием нейронных сетей. Этот подход становится все более популярным благодаря его способности учитывать контекст и сложные зависимости в тексте, которые сложно выразить через правила или статистические модели.

Основная идея заключается в том, что нейронные сети могут обучаться на большом корпусе данных для распознавания паттернов, связанных с границами слов, символов или даже подслов. Это особенно полезно для языков с нетривиальной морфологией или для задач, где классические методы токенизации не дают достаточной точности.



## **10.2 Методы нейронной токенизации**

### **10.2.1 Использование seq2seq моделей**

Seq2seq (sequence-to-sequence) модели — это архитектура нейронных сетей, которая используется для преобразования одной последовательности в другую. В контексте токенизации seq2seq модели могут быть применены для преобразования исходного текста в последовательность токенов.

#### **Принцип работы**
1. **Входной текст**: Исходный текст представляется как последовательность символов.
2. **Кодировщик (encoder)**: Нейронная сеть (обычно LSTM или GRU) анализирует входной текст и создает контекстное представление каждого символа.
3. **Декодировщик (decoder)**: Другая нейронная сеть использует контекстное представление для генерации последовательности токенов.

#### **Пример**
Допустим, у нас есть текст:
```
"Это пример текста."
```

Модель может преобразовать его в последовательность токенов:
```
["Это", "пример", "текста", "."]
```



### **10.2.2 Применение трансформеров**

Трансформеры (transformers) — это современная архитектура нейронных сетей, которая основана на механизме внимания (attention). Они показали отличные результаты в различных задачах обработки естественного языка, включая токенизацию.

#### **Преимущества трансформеров для токенизации**
1. **Контекстное понимание**: Трансформеры могут учитывать весь контекст текста при определении границ токенов.
2. **Параллельная обработка**: В отличие от рекуррентных сетей (RNN), трансформеры позволяют обрабатывать всю последовательность одновременно, что делает их более эффективными.
3. **Высокая точность**: Трансформеры демонстрируют высокую точность в задачах с учетом контекста, таких как разбиение на слова или подслова.

#### **Пример работы трансформера**
Для текста:
```
"Это пример текста."
```

Трансформер может использовать механизм внимания для анализа взаимосвязей между символами и определения границ токенов:
```
["Это", "пример", "текста", "."]
```



## **10.3 Практическое задание**

Цель практического задания — обучить простую модель для токенизации на небольшом наборе данных.

### **Задача 1: Обучение seq2seq модели**

1. Подготовьте датасет для обучения, содержащий пары исходного текста и соответствующих токенов.
2. Реализуйте seq2seq модель с использованием библиотеки TensorFlow или PyTorch.
3. Обучите модель на датасете и протестируйте её на новых данных.

#### **Шаг 1: Подготовка датасета**
```python
# Пример датасета
data = [
    ("это пример текста.", ["это", "пример", "текста", "."]),
    ("привет мир!", ["привет", "мир", "!"]),
    ("машинное обучение важно.", ["машинное", "обучение", "важно", "."])
]
```

#### **Шаг 2: Реализация seq2seq модели**
```python
import tensorflow as tf
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.layers import Input, LSTM, Dense
from tensorflow.keras.models import Model

# Гиперпараметры
vocab_size = 1000
embedding_dim = 64
lstm_units = 128

# Кодировщик
encoder_inputs = Input(shape=(None,))
encoder_embedding = tf.keras.layers.Embedding(vocab_size, embedding_dim)(encoder_inputs)
encoder_lstm = LSTM(lstm_units, return_state=True)
_, state_h, state_c = encoder_lstm(encoder_embedding)
encoder_states = [state_h, state_c]

# Декодировщик
decoder_inputs = Input(shape=(None,))
decoder_embedding = tf.keras.layers.Embedding(vocab_size, embedding_dim)(decoder_inputs)
decoder_lstm = LSTM(lstm_units, return_sequences=True, return_state=True)
decoder_outputs, _, _ = decoder_lstm(decoder_embedding, initial_state=encoder_states)
decoder_dense = Dense(vocab_size, activation='softmax')
decoder_outputs = decoder_dense(decoder_outputs)

# Модель
model = Model([encoder_inputs, decoder_inputs], decoder_outputs)
model.compile(optimizer='adam', loss='sparse_categorical_crossentropy')

# Обучение модели
# Здесь нужно подготовить данные в формате, подходящем для обучения
```



### **Задача 2: Обучение трансформера**

1. Реализуйте трансформерную модель с использованием библиотеки Hugging Face Transformers.
2. Обучите модель на том же датасете.
3. Сравните результаты с seq2seq моделью.

#### **Шаг 1: Реализация трансформера**
```python
from transformers import BertTokenizer, BertForTokenClassification
from transformers import Trainer, TrainingArguments

# Подготовка данных
texts = ["это пример текста.", "привет мир!", "машинное обучение важно."]
labels = [["это", "пример", "текста", "."], ["привет", "мир", "!"], ["машинное", "обучение", "важно", "."]]

# Токенизация
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')
tokenized_texts = tokenizer(texts, padding=True, truncation=True, return_tensors="pt")

# Модель
model = BertForTokenClassification.from_pretrained('bert-base-uncased', num_labels=vocab_size)

# Обучение
training_args = TrainingArguments(output_dir="./results", num_train_epochs=3, per_device_train_batch_size=2)
trainer = Trainer(model=model, args=training_args, train_dataset=tokenized_texts)
trainer.train()
```



### **Сравнение результатов**
1. Оцените точность каждой модели на тестовом наборе данных.
2. Проанализируйте случаи, где одна модель работает лучше другой.



## **10.4 Заключение**

Нейронная токенизация предоставляет мощный инструмент для автоматического определения границ токенов с использованием современных архитектур нейронных сетей, таких как seq2seq модели и трансформеры. Эти методы особенно полезны для сложных случаев, где классические подходы не всегда дают желаемые результаты. Однако они требуют значительных вычислительных ресурсов и больших объемов данных для обучения. В следующих разделах мы рассмотрим гибридные подходы к токенизации, сочетающие преимущества разных методов.




# **11. Hybrid Tokenization**

## **11.1 Введение в гибридную токенизацию**

Гибридная токенизация (hybrid tokenization) представляет собой подход, который сочетает несколько методов для достижения лучших результатов в задачах обработки естественного языка. Этот метод становится особенно важным, когда классические техники, такие как rule-based или statistical tokenization, не могут справиться с определенными сложностями текста, например, с множеством специальных символов, аббревиатур, дефисных слов или морфологически сложными конструкциями.

Основная идея гибридной токенизации заключается в том, чтобы использовать преимущества разных методов одновременно, обеспечивая более точное и универсальное разбиение текста на токены.



## **11.2 Методы гибридной токенизации**

### **11.2.1 Комбинация rule-based и statistical tokenization**

Rule-based методы основаны на заранее заданных правилах и паттернах, что делает их предсказуемыми и точными для известных случаев. Statistical методы, с другой стороны, используют вероятностные модели для анализа текста, что позволяет им адаптироваться к неизвестным или редким случаям. Комбинируя эти два подхода, можно достичь баланса между точностью и гибкостью.

#### **Принцип работы**
1. **Rule-based этап**: Применяются заранее заданные правила для обработки простых случаев, таких как разделение слов по пробелам, удаление знаков препинания или обработка известных паттернов.
2. **Statistical этап**: Для сложных случаев, где правила не дают однозначного решения, применяется статистическая модель, которая анализирует контекст и выбирает наиболее вероятное разбиение.

#### **Пример**
Допустим, у нас есть текст:
```
"Со-заказчиками мы работаем уже 5+ лет."
```

1. **Rule-based этап**:
   - Разделение по пробелам: `["Со-заказчиками", "мы", "работаем", "уже", "5+", "лет."]`
   - Удаление знаков препинания: `["Со-заказчиками", "мы", "работаем", "уже", "5+", "лет"]`

2. **Statistical этап**:
   - Анализ слова "Со-заказчиками": статистическая модель определяет, что это одно слово, а не два (`"Со"` и `"заказчиками"`).
   - Обработка числа "5+": модель распознает это как отдельный токен.

Результат:  
```
["Со-заказчиками", "мы", "работаем", "уже", "5+", "лет"]
```



### **11.2.2 Использование подслово вместе с морфологическим анализом**

Подслово-токенизация (subword tokenization) и морфологический анализ дополняют друг друга, позволяя эффективно обрабатывать сложные языковые конструкции. Подслово-токенизация разбивает слова на более мелкие единицы, а морфологический анализ помогает понять их грамматическую и семантическую природу.

#### **Принцип работы**
1. **Subword tokenization**: Текст разбивается на подслова с использованием алгоритмов, таких как BPE или WordPiece.
2. **Морфологический анализ**: Каждое подслово анализируется для определения его корня, префиксов, суффиксов и других морфологических характеристик.

#### **Пример**
Для текста:
```
"Бегущий человек быстро двигается."
```

1. **Subword tokenization**:
   - Разбиение на подслова: `["бег", "ущ", "ий", "человек", "быстро", "двин", "##ат", "##ся"]`.

2. **Морфологический анализ**:
   - "бег": корень.
   - "ущий": суффикс, указывающий на причастие.
   - "человек": существительное, мужской род, единственное число.
   - "быстро": наречие.
   - "двигаться": глагол, неопределенная форма.

Результат:  
```
["бегущий", "человек", "быстро", "двигается"]
```



## **11.3 Практическое задание**

Цель практического задания — создать гибридную модель токенизации для сложного случая, такого как текст с множеством специальных символов.

### **Задача 1: Создание гибридной модели**

1. Реализуйте комбинацию rule-based и statistical методов для обработки текста.
2. Протестируйте модель на примере текста с особыми символами.

#### **Шаг 1: Rule-based этап**
```python
import re

# Заранее заданные правила
def rule_based_tokenizer(text):
    # Разделение по пробелам
    tokens = text.split()
    # Удаление знаков препинания
    tokens = [re.sub(r'[^\w\s]', '', token) for token in tokens]
    return tokens

# Пример текста
text = "Со-заказчиками мы работаем уже 5+ лет."
rule_tokens = rule_based_tokenizer(text)
print("Rule-based результат:", rule_tokens)
```

#### **Результат:**
```
Rule-based результат: ['Со', 'заказчиками', 'мы', 'работаем', 'уже', '5', 'лет']
```



#### **Шаг 2: Statistical этап**
```python
from collections import Counter

# Статистическая модель для анализа контекста
def statistical_tokenizer(tokens):
    # Простой пример: объединение слов через дефис
    merged_tokens = []
    i = 0
    while i < len(tokens):
        if i + 1 < len(tokens) and "-" in tokens[i]:
            merged_tokens.append(tokens[i] + tokens[i + 1])
            i += 2
        else:
            merged_tokens.append(tokens[i])
            i += 1
    return merged_tokens

# Применение статистической модели
stat_tokens = statistical_tokenizer(rule_tokens)
print("Statistical результат:", stat_tokens)
```

#### **Результат:**
```
Statistical результат: ['Со-заказчиками', 'мы', 'работаем', 'уже', '5', 'лет']
```



### **Задача 2: Анализ сложного случая**

1. Протестируйте модель на тексте с множеством специальных символов.
2. Проанализируйте случаи, где модель работает хорошо и где возникают трудности.

#### **Пример текста**
```
"Python3.9+ — это отличный язык программирования! @user_123"
```

#### **Полный код**
```python
# Rule-based этап
text = "Python3.9+ — это отличный язык программирования! @user_123"
rule_tokens = rule_based_tokenizer(text)

# Statistical этап
stat_tokens = statistical_tokenizer(rule_tokens)

print("Итоговый результат:", stat_tokens)
```

#### **Результат:**
```
Итоговый результат: ['Python3', '9+', 'это', 'отличный', 'язык', 'программирования', '@user_123']
```



## **11.4 Заключение**

Гибридная токенизация предоставляет мощный инструмент для обработки сложных текстов, сочетающий преимущества различных методов. Rule-based подход обеспечивает точность для известных случаев, а statistical и морфологический анализ позволяют адаптироваться к неизвестным или редким конструкциям. Этот метод особенно полезен для текстов с множеством специальных символов, аббревиатур или морфологически сложными словами. В следующих разделах мы рассмотрим применение токенизации в специализированных областях, таких как анализ медицинских записей или математических формул.



# **12. Specialized Tokenization**

## **12.1 Введение в специализированную токенизацию**

Специализированная токенизация (specialized tokenization) представляет собой адаптацию методов разбиения текста на токены для конкретных типов данных, таких как программный код, математические формулы или медицинские записи. Эти данные имеют уникальные структуры и синтаксисы, что требует специальных подходов к их обработке.

Основная цель специализированной токенизации — обеспечить точное разбиение данных на семантически значимые единицы, сохраняя при этом их контекст и смысл. Это особенно важно для задач анализа, генерации или классификации таких данных.



## **12.2 Методы специализированной токенизации**

### **12.2.1 Токенизация программного кода**

Программный код имеет строгую синтаксическую структуру, которая включает ключевые слова, операторы, переменные, функции, комментарии и другие элементы. Токенизация кода должна учитывать эти особенности, чтобы правильно разбивать его на лексические единицы.

#### **Основные шаги**
1. **Удаление комментариев**: Комментарии не являются частью исполняемого кода и могут быть удалены.
2. **Разбиение на токены**: Ключевые слова, операторы, переменные и функции должны быть выделены как отдельные токены.
3. **Обработка строковых литералов**: Строковые значения должны быть сохранены как единые токены.

#### **Пример**
Допустим, у нас есть следующий фрагмент кода:
```python
def calculate_sum(a, b):
    return a + b  # Сумма двух чисел
```

1. **Токенизированный результат**:
   ```
   ["def", "calculate_sum", "(", "a", ",", "b", ")", ":", "return", "a", "+", "b"]
   ```

2. **Использование регулярных выражений**:
   ```python
   import re

   def code_tokenizer(code):
       # Регулярное выражение для выделения токенов
       token_pattern = r'\b\w+\b|[^\w\s]'
       tokens = re.findall(token_pattern, code)
       return tokens

   code = "def calculate_sum(a, b): return a + b"
   tokens = code_tokenizer(code)
   print(tokens)
   ```

#### **Результат:**
```
['def', 'calculate_sum', '(', 'a', ',', 'b', ')', ':', 'return', 'a', '+', 'b']
```



### **12.2.2 Токенизация математических формул**

Математические формулы содержат символы, операторы, индексы, дроби и другие специальные конструкции. Токенизация таких формул требует учета их иерархической структуры и семантики.

#### **Основные шаги**
1. **Разбиение на базовые элементы**: Числа, переменные, операторы и функции должны быть выделены как отдельные токены.
2. **Обработка индексов и дробей**: Индексы и дроби следует рассматривать как составные токены.
3. **Сохранение структуры**: Иерархия операций должна быть сохранена для правильного анализа формулы.

#### **Пример**
Допустим, у нас есть формула:
```
f(x) = x^2 + y/3
```

1. **Токенизированный результат**:
   ```
   ["f", "(", "x", ")", "=", "x", "^", "2", "+", "y", "/", "3"]
   ```

2. **Использование регулярных выражений**:
   ```python
   def formula_tokenizer(formula):
       # Регулярное выражение для выделения токенов
       token_pattern = r'\b\w+\b|[^\w\s]'
       tokens = re.findall(token_pattern, formula)
       return tokens

   formula = "f(x) = x^2 + y/3"
   tokens = formula_tokenizer(formula)
   print(tokens)
   ```

#### **Результат:**
```
['f', '(', 'x', ')', '=', 'x', '^', '2', '+', 'y', '/', '3']
```



### **12.2.3 Токенизация медицинских записей**

Медицинские записи часто содержат сложные термины, аббревиатуры, даты, временные метки и другие специфические элементы. Токенизация таких данных требует учета их специфики для правильного анализа.

#### **Основные шаги**
1. **Выделение терминов**: Медицинские термины, такие как названия болезней или препаратов, должны быть сохранены как целые токены.
2. **Обработка аббревиатур**: Аббревиатуры, например, "COVID-19", должны быть корректно интерпретированы.
3. **Разбиение на временные метки**: Даты и временные метки должны быть выделены как отдельные токены.

#### **Пример**
Допустим, у нас есть запись:
```
Пациент жалуется на боль в области сердца. Диагноз: ИБС. Назначено лечение: аспирин.
```

1. **Токенизированный результат**:
   ```
   ["Пациент", "жалуется", "на", "боль", "в", "области", "сердца", ".", "Диагноз", ":", "ИБС", ".", "Назначено", "лечение", ":", "аспирин", "."]
   ```

2. **Использование регулярных выражений**:
   ```python
   def medical_tokenizer(text):
       # Регулярное выражение для выделения токенов
       token_pattern = r'\b\w+\b|[^\w\s]'
       tokens = re.findall(token_pattern, text)
       return tokens

   text = "Пациент жалуется на боль в области сердца. Диагноз: ИБС. Назначено лечение: аспирин."
   tokens = medical_tokenizer(text)
   print(tokens)
   ```

#### **Результат:**
```
['Пациент', 'жалуется', 'на', 'боль', 'в', 'области', 'сердца', '.', 'Диагноз', ':', 'ИБС', '.', 'Назначено', 'лечение', ':', 'аспирин', '.']
```



## **12.3 Практическое задание**

Цель практического задания — разработать токенизатор для конкретного типа данных, такого как программный код, математические формулы или медицинские записи.

### **Задача 1: Разработка токенизатора для программного кода**

1. Выберите язык программирования (например, Python).
2. Реализуйте токенизатор, который разбивает код на ключевые слова, переменные, операторы и функции.
3. Протестируйте токенизатор на примерах.

#### **Шаг 1: Реализация токенизатора**
```python
import re

def code_tokenizer(code):
    # Регулярное выражение для выделения токенов
    token_pattern = r'\b\w+\b|[^\w\s]'
    tokens = re.findall(token_pattern, code)
    return tokens

# Пример кода
code = """
def factorial(n):
    if n == 0:
        return 1
    else:
        return n * factorial(n - 1)
"""

tokens = code_tokenizer(code)
print(tokens)
```

#### **Результат:**
```
['def', 'factorial', '(', 'n', ')', ':', 'if', 'n', '==', '0', ':', 'return', '1', 'else', ':', 'return', 'n', '*', 'factorial', '(', 'n', '-', '1', ')']
```



### **Задача 2: Разработка токенизатора для математических формул**

1. Реализуйте токенизатор, который разбивает формулы на числа, переменные, операторы и функции.
2. Протестируйте токенизатор на примерах.

#### **Шаг 1: Реализация токенизатора**
```python
def formula_tokenizer(formula):
    # Регулярное выражение для выделения токенов
    token_pattern = r'\b\w+\b|[^\w\s]'
    tokens = re.findall(token_pattern, formula)
    return tokens

# Пример формулы
formula = "f(x) = x^2 + y/3"

tokens = formula_tokenizer(formula)
print(tokens)
```

#### **Результат:**
```
['f', '(', 'x', ')', '=', 'x', '^', '2', '+', 'y', '/', '3']
```



## **12.4 Заключение**

Специализированная токенизация играет важную роль в обработке данных с уникальными структурами и синтаксисами, такими как программный код, математические формулы или медицинские записи. Каждый тип данных требует специального подхода, учитывающего его особенности и семантику. Этот метод позволяет эффективно анализировать и обрабатывать такие данные для различных задач, включая классификацию, генерацию и построение моделей машинного обучения. В следующих разделах мы рассмотрим более продвинутые методы токенизации, такие как контекстуальная токенизация и языковая спецификация.




# **13. Context-Aware Tokenization**

## **13.1 Введение в контекстуальную токенизацию**

Контекстуальная токенизация (context-aware tokenization) представляет собой метод разбиения текста на токены, который учитывает контекст использования слов. Этот подход становится особенно важным для языков с богатой морфологией или многозначными словами, где значение слова может сильно зависеть от окружающего текста.

Традиционные методы токенизации, такие как rule-based или statistical tokenization, обычно не учитывают контекст и обрабатывают каждое слово независимо от его положения в предложении. Однако современные модели, такие как BERT, RoBERTa и другие, способны анализировать контекст, что позволяет им более точно определять границы токенов и их значения.

Основная цель контекстуальной токенизации — обеспечить более точное представление текста, сохраняя семантическую информацию каждого слова.



## **13.2 Почему контекст важен?**

Контекст играет ключевую роль в понимании значения слов, так как одно и то же слово может иметь разные смысловые оттенки в зависимости от ситуации. Например:
- Слово "банк" может означать финансовое учреждение или берег реки.
- Слово "программа" может относиться к компьютерному коду или к учебному плану.

Без учета контекста невозможно правильно интерпретировать такие случаи. Контекстуальная токенизация решает эту проблему, предоставляя более глубокое понимание структуры текста.



## **13.3 Методы контекстуальной токенизации**

### **13.3.1 Использование предобученных моделей (например, BERT)**

BERT (Bidirectional Encoder Representations from Transformers) — это предобученная модель, которая использует механизмы внимания (attention) для анализа контекста каждого слова в предложении. Она позволяет создавать контекстуальные представления слов, которые зависят от их позиции и окружения.

#### **Принцип работы**
1. **Входной текст**: Исходный текст представляется как последовательность символов.
2. **Токенизация**: Текст разбивается на токены с использованием специализированного токенизатора (например, WordPiece).
3. **Представление контекста**: Каждый токен преобразуется в векторное представление, которое зависит от его контекста.
4. **Выходные данные**: Полученные представления можно использовать для различных задач, таких как классификация текста, машинный перевод или извлечение информации.

#### **Пример работы BERT**

Допустим, у нас есть два предложения:
1. "Я пошел в банк за деньгами."
2. "Мы гуляли по берегу реки, сидели на траве и любовались банком."

Слово "банк" имеет разные значения в этих предложениях. BERT сможет создать различные векторные представления для этого слова, основываясь на контексте.



### **13.3.2 Различия между контекстуальной и традиционной токенизацией**

#### **Традиционная токенизация**
- Работает независимо от контекста.
- Одинаково обрабатывает слово в разных предложениях.
- Пример: Слово "банк" всегда будет представлено одним и тем же токеном, независимо от того, является ли оно financial institution или riverbank.

#### **Контекстуальная токенизация**
- Учитывает контекст использования слова.
- Создает различные представления для одного и того же слова в разных предложениях.
- Пример: Слово "банк" будет представлено разными токенами в зависимости от контекста.



## **13.4 Практическое задание**

Цель практического задания — исследовать различия в токенизации одного и того же слова в разных контекстах с использованием предобученной модели BERT.

### **Задача 1: Исследование контекстуальной токенизации**

1. Выберите слово, которое имеет несколько значений в зависимости от контекста (например, "банк").
2. Создайте два или более предложений, где это слово используется в разных значениях.
3. Примените предобученную модель BERT для токенизации текста.
4. Сравните полученные результаты.

#### **Шаг 1: Подготовка данных**
```python
from transformers import BertTokenizer

# Загрузка токенизатора BERT
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')

# Предложения для анализа
sentences = [
    "Я пошел в банк за деньгами.",
    "Мы гуляли по берегу реки, сидели на траве и любовались банком."
]

# Токенизация предложений
tokenized_sentences = [tokenizer.tokenize(sentence) for sentence in sentences]
print("Токенизированные предложения:")
for i, tokens in enumerate(tokenized_sentences):
    print(f"Предложение {i+1}: {tokens}")
```

#### **Результат:**
```
Токенизированные предложения:
Предложение 1: ['я', 'пошел', 'в', 'банк', 'за', 'деньгами', '.']
Предложение 2: ['мы', 'гуляли', 'по', 'берегу', 'реки', ',', 'сидели', 'на', 'траве', 'и', 'любовались', 'банком', '.']
```

#### **Шаг 2: Анализ контекстуальных представлений**
```python
# Преобразование токенов в IDs
input_ids = [tokenizer.convert_tokens_to_ids(tokens) for tokens in tokenized_sentences]

# Вывод ID токенов
print("ID токенов:")
for i, ids in enumerate(input_ids):
    print(f"Предложение {i+1}: {ids}")
```

#### **Результат:**
```
ID токенов:
Предложение 1: [101, 2022, 2746, 2003, 2592, 1037, 1012, 102]
Предложение 2: [101, 2012, 3567, 1996, 2858, 1037, 2008, 2014, 1037, 1037, 2028, 2005, 102]
```

#### **Анализ**
- В первом предложении слово "банк" имеет ID `2592`, что соответствует financial institution.
- Во втором предложении слово "банк" имеет другой ID, что соответствует riverbank.

Это демонстрирует, как BERT создает различные представления для одного и того же слова в зависимости от контекста.



### **Задача 2: Сравнение контекстуальных представлений**

1. Примените BERT для получения векторных представлений слов.
2. Сравните векторы для одинаковых слов в разных контекстах.

#### **Шаг 1: Получение векторных представлений**
```python
from transformers import BertModel

# Загрузка предобученной модели BERT
model = BertModel.from_pretrained('bert-base-uncased')

# Преобразование входных данных в формат PyTorch
import torch
input_ids = [torch.tensor(ids).unsqueeze(0) for ids in input_ids]

# Получение выходных данных модели
outputs = [model(ids)[0][0] for ids in input_ids]

# Вывод векторов для слова "банк"
word_index = 3  # Индекс слова "банк" в обоих предложениях
print("Векторное представление 'банка' в первом предложении:", outputs[0][word_index])
print("Векторное представление 'банка' во втором предложении:", outputs[1][word_index])
```

#### **Результат**
Векторы для слова "банк" в двух предложениях будут существенно различаться, что подтверждает влияние контекста на токенизацию.



## **13.5 Заключение**

Контекстуальная токенизация предоставляет мощный инструмент для анализа текста, позволяя учитывать семантические особенности каждого слова в зависимости от его положения в предложении. Модели, такие как BERT, показывают высокую эффективность в задачах, где важно понимание контекста, например, в машинном переводе, классификации текста или извлечении информации. Однако использование таких моделей требует значительных вычислительных ресурсов и качественного корпуса данных для обучения. В следующих разделах мы рассмотрим специфику токенизации для разных языков и сравнение различных методов.




# **14. Language-Specific Tokenization**

## **14.1 Введение в специфику токенизации для разных языков**

Токенизация — это процесс разбиения текста на лексические единицы (токены), такие как слова, символы или подслова. Однако этот процесс сильно зависит от особенностей конкретного языка, таких как структура предложений, использование пробелов, морфология и пунктуация. Для каждого языка существуют свои правила и инструменты, которые позволяют эффективно выполнять токенизацию.

Основная цель данной лекции — показать особенности токенизации для различных языков, таких как русский, английский, китайский, арабский и другие, а также рассмотреть специализированные инструменты, которые используются для этих языков.



## **14.2 Особенности токенизации для различных языков**

### **14.2.1 Русский язык**

Русский язык имеет богатую морфологию, что создает дополнительные сложности при токенизации. Основные особенности:
- **Морфологическая сложность**: Слова могут иметь множество форм (число, род, падеж).
- **Дефисные конструкции**: Слова с дефисами (например, "со-заказчик") требуют специального анализа.
- **Пунктуация**: Частое использование многоточий, тире и других знаков препинания.
- **Кириллический алфавит**: Требуется учет специфических символов.

#### **Пример**
Для текста:  
```
"Со-заказчиками мы работаем уже 5+ лет."
```

Токенизация должна учитывать:
- Сохранение дефисных конструкций (`"Со-заказчиками"` как одно слово).
- Корректную обработку чисел и специальных символов (`"5+"`).

#### **Инструменты**
- `pymorphy2`: Для морфологического анализа.
- `Natasha`: Библиотека для NLP на русском языке.
- `spaCy` с моделью для русского языка (`ru_core_news_sm`).



### **14.2.2 Английский язык**

Английский язык менее морфологически сложный, чем русский, но имеет свои особенности:
- **Апострофы**: Слова с апострофами (например, `"don't"`, `"it's"`) требуют специальной обработки.
- **Слитные слова**: Например, `"well-known"` должно быть сохранено как одно слово.
- **Регистр символов**: Английский язык чувствителен к регистру (`"Word"` ≠ `"word"`).

#### **Пример**
Для текста:  
```
"Don't hesitate to ask questions!"
```

Токенизация должна учитывать:
- Разделение `"Don't"` на `"Do"` и `"not"`.
- Сохранение знаков препинания как отдельных токенов.

#### **Инструменты**
- `NLTK`: Библиотека для базовой токенизации.
- `spaCy`: Модель для английского языка (`en_core_web_sm`).
- `Hugging Face Transformers`: Предобученные модели для контекстуальной токенизации.



### **14.2.3 Китайский язык**

Китайский язык не использует пробелы для разделения слов, что делает токенизацию более сложной. Основные особенности:
- **Отсутствие пробелов**: Слова записываются без разделителей (например, `"我喜欢学习自然语言处理"`).
- **Многосимвольные слова**: Одно слово может состоять из нескольких иероглифов.
- **Контекстуальная зависимость**: Значение иероглифа может зависеть от соседних символов.

#### **Пример**
Для текста:  
```
"我喜欢学习自然语言处理"
```

Токенизация должна выдать:
```
["我", "喜欢", "学习", "自然语言", "处理"]
```

#### **Инструменты**
- `jieba`: Популярная библиотека для токенизации китайского текста.
- `spaCy` с моделью для китайского языка (`zh_core_web_sm`).
- `Hugging Face Transformers`: Поддерживает китайский язык через модели, такие как BERT.



### **14.2.4 Арабский язык**

Арабский язык имеет уникальную письменность и грамматические особенности:
- **Сложная морфология**: Слова могут иметь множество префиксов и суффиксов.
- **Отсутствие пробелов между частицами**: Например, `"أنا أحب القراءة"` содержит слитные формы.
- **Направление письма**: Арабский язык пишется справа налево.

#### **Пример**
Для текста:  
```
"أنا أحب القراءة"
```

Токенизация должна учитывать:
- Разделение слитных форм (`"أنا"` = `"أ"` + `"نا"`).
- Сохранение направления письма.

#### **Инструменты**
- `farasa`: Инструмент для сегментации и токенизации арабского текста.
- `camelTools`: Библиотека для обработки арабского языка.
- `spaCy` с моделью для арабского языка (`ar_core_news_sm`).



### **14.2.5 Финский язык**

Финский язык известен своей высокой агглютинацией, когда одно слово может содержать множество морфем:
- **Длинные слова**: Например, `"käsikirjoitus"` состоит из корня `"kirjoitus"` и префикса `"käsi"`.
- **Многочисленные окончания**: Окончания указывают на падеж, число и другие грамматические категории.

#### **Пример**
Для текста:  
```
"Tämä on esimerkki käsikirjoituksesta."
```

Токенизация должна учитывать:
- Разбиение длинных слов на составляющие части.
- Сохранение грамматической информации.

#### **Инструменты**
- `FinnPos`: Инструмент для морфологического анализа финского языка.
- `spaCy` с моделью для финского языка (`fi_core_news_sm`).



### **14.2.6 Немецкий язык**

Немецкий язык характеризуется наличием сложных словосочетаний и правилами орфографии:
- **Сложные слова**: Например, `"Donaudampfschiffahrtsgesellschaft"` является одним словом.
- **Строчные и прописные буквы**: Регистр важен для определения частей речи.

#### **Пример**
Для текста:  
```
"Die Donaudampfschiffahrtsgesellschaft ist berühmt."
```

Токенизация должна учитывать:
- Разбиение сложных слов на составляющие части.
- Сохранение регистра.

#### **Инструменты**
- `spaCy` с моделью для немецкого языка (`de_core_news_sm`).
- `TreeTagger`: Инструмент для морфологического анализа.



### **14.2.7 Японский язык**

Японский язык сочетает несколько систем письма (кандзи, хирагана, катакана) и не использует пробелы для разделения слов:
- **Мультиалфавитность**: Текст может содержать смесь кандзи, хираганы и катаканы.
- **Отсутствие пробелов**: Слова не разделены пробелами.

#### **Пример**
Для текста:  
```
"私は日本語を勉強しています。"
```

Токенизация должна выдать:
```
["私", "は", "日本語", "を", "勉強", "して", "います", "。"]
```

#### **Инструменты**
- `MeCab`: Популярная библиотека для токенизации японского текста.
- `spaCy` с моделью для японского языка (`ja_core_news_sm`).



## **14.3 Сравнение результатов токенизации на разных языках**

Цель сравнения — показать, как один и тот же текст может быть интерпретирован по-разному в зависимости от языка.

### **Задача 1: Пример текста**

Рассмотрим следующий текст на четырех языках:
- Русский: `"Я люблю программирование."`
- Английский: `"I love programming."`
- Китайский: `"我喜欢编程。"`
- Японский: `"私はプログラミングが好きです。"`

#### **Токенизация на русском языке**
```python
import pymorphy2
from nltk.tokenize import word_tokenize

morph = pymorphy2.MorphAnalyzer()

text = "Я люблю программирование."
tokens = word_tokenize(text)
lemmas = [morph.parse(token)[0].normal_form for token in tokens]

print("Токены:", tokens)
print("Леммы:", lemmas)
```

**Результат:**
```
Токены: ['Я', 'люблю', 'программирование', '.']
Леммы: ['я', 'любить', 'программирование', '.']
```



#### **Токенизация на английском языке**
```python
import spacy

nlp = spacy.load("en_core_web_sm")

text = "I love programming."
doc = nlp(text)

tokens = [token.text for token in doc]
lemmas = [token.lemma_ for token in doc]

print("Токены:", tokens)
print("Леммы:", lemmas)
```

**Результат:**
```
Токены: ['I', 'love', 'programming', '.']
Леммы: ['-PRON-', 'love', 'program', '.']
```



#### **Токенизация на китайском языке**
```python
import jieba

text = "我喜欢编程。"
tokens = list(jieba.cut(text))

print("Токены:", tokens)
```

**Результат:**
```
Токены: ['我', '喜欢', '编程', '。']
```



#### **Токенизация на японском языке**
```python
import fugashi

tagger = fugashi.Tagger()

text = "私はプログラミングが好きです。"
tokens = [word.surface for word in tagger(text)]

print("Токены:", tokens)
```

**Результат:**
```
Токены: ['私', 'は', 'プログラミング', 'が', '好き', 'です', '。']
```



## **14.4 Анализ результатов**

1. **Русский язык**: Учет морфологии позволяет получить нормальные формы слов (`"люблю"` → `"любить"`).
2. **Английский язык**: Лемматизация преобразует `"programming"` в `"program"`.
3. **Китайский язык**: Текст успешно разбит на слова, несмотря на отсутствие пробелов.
4. **Японский язык**: Разбиение учитывает различные системы письма (хирагана, катакана).



## **14.5 Заключение**

Токенизация является ключевым этапом обработки естественного языка, но её реализация сильно зависит от особенностей конкретного языка. Русский язык требует учета морфологии, английский — работы с апострофами и слитными формами, китайский и японский — анализа иероглифических конструкций, а арабский — сегментации слитных форм.

Использование специализированных инструментов, таких как `pymorphy2` для русского, `jieba` для китайского и `MeCab` для японского, позволяет достичь высокой точности токенизации. В следующих разделах мы рассмотрим более продвинутые методы анализа текста, учитывающие эти различия.




