<a href="https://colab.research.google.com/github/CodeHunterOfficial/ABC_DataMining/blob/main/NLP/NLP-2025/%D0%9B%D0%B0%D0%B1%D0%BE%D1%80%D0%B0%D1%82%D0%BE%D1%80%D0%BD%D1%8B%D0%B9_%D0%BF%D1%80%D0%B0%D0%BA%D1%82%D0%B8%D0%BA%D1%83%D0%BC_%E2%84%96_1.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 🧪 **Лабораторный практикум № 1**  
# **Сравнительный анализ методов токенизации и нормализации текста на материале русскоязычных новостных корпусов**



**Кафедра:** Кафедра анализа данных и технологий программирования  
**Дисциплина:** Обработка естественного языка  
**Уровень:** Магистратура, 2 курс  
**Преподаватель:** Арабов Муллошараф Курбонович  




## 🎯 1. Цели и задачи работы

### **Цель:**
Получить комплексное практическое представление о полном цикле обработки текстовых данных на естественном языке (Natural Language Processing, NLP) — от сбора неструктурированных данных до развертывания инференс-моделей. Сформировать навыки критического анализа и сравнения различных подходов к фундаментальной задаче NLP — токенизации.

### **Задачи:**
1. Освоить методики сбора и предобработки текстовых корпусов из веб-источников.
2. Практически реализовать и экспериментально сравнить классические и современные методы токенизации, стемминга и лемматизации.
3. Приобрести навыки обучения подсловных моделей токенизации (BPE, WordPiece, Unigram).
4. Выработать умение проводить сравнительный анализ алгоритмов на основе объективных количественных и качественных метрик.
5. Научиться оформлять результаты исследования в виде веб-интерфейса и развернутого API-сервиса.
6. Освоить процедуру публикации моделей в открытых репозиториях.



## 📚 2. Теоретические предпосылки

Токенизация, или сегментация текста на минимальные значащие единицы (токены), является базовой операцией в конвейере обработки естественного языка. Качество её выполнения критически влияет на результаты последующих этапов, таких как векторизация, обучение языковых моделей и решение прикладных задач (классификация, суммаризация, машинный перевод).

В работе рассматриваются три класса методов:

1. **Поверхностные методы:**  
   Разбиение по пробелам и знакам препинания — простые, но чувствительные к шуму.

2. **Морфологические методы:**  
   - *Стемминг* — приведение словоформы к основе (например, “работали” → “работ”).  
   - *Лемматизация* — приведение к нормальной (словарной) форме (например, “работали” → “работать”).

3. **Подсловные методы (Subword Tokenization):**  
   Алгоритмы, обучающие оптимальное разбиение слов на подслова на основе статистик корпуса (BPE, WordPiece, Unigram). Позволяют эффективно обрабатывать словарные единицы, не встречавшиеся в процессе обучения (OOV — Out-Of-Vocabulary).



## 🧪 3. Методика эксперимента и порядок выполнения



### **3.1. Этап 1. Формирование экспериментального корпуса текстов**

**Задача:** Составить репрезентативный корпус современных русскоязычных новостных текстов.

#### **Указания к выполнению:**

- **Источники данных:**  
  Рекомендуется использовать материалы новостных агентств и порталов:  
  `ria.ru`, `tass.ru`, `lenta.ru`, `meduza.io`, `kommersant.ru` и др.

  > 💡 **Инклюзивное задание:**  
  > Если вы являетесь представителем народов РФ (татары, башкиры, удмурты, чуваш, марийцы и др.), постарайтесь найти новостные сайты на своём родном языке. Ваша работа поможет развивать и сохранять языковое многообразие России.

- **Структура данных (обязательно для каждой статьи):**  
  - Заголовок  
  - Основной текст  
  - Дата публикации  
  - URL-адрес  
  - Категория/рубрика (при наличии)

- **Инструментарий:**  
  - `requests` + `BeautifulSoup4` — для статических страниц  
  - `selenium` — для динамических ресурсов

- **Требования к корпусу:**  
  - Общий объём: **не менее 50 000 слов**  
  - Формат хранения: **`JSONL`** (каждая строка — отдельный JSON-объект со статьёй)



### **3.2. Этап 2. Предварительная обработка и очистка текста**

**Задача:** Реализовать модуль первичной очистки текста от нетекстовых элементов и его нормализации.

#### **Указания к выполнению:**

Создайте модуль `text_cleaner.py`, выполняющий:

- Удаление HTML-разметки, служебных символов, рекламных блоков
- Стандартизацию пробельных символов
- Приведение текста к нижнему регистру (опционально — зависит от метода токенизации)
- Фильтрацию стоп-слов (например, с использованием `nltk.corpus.stopwords`)


### **3.3. Этап 3. Проектирование универсального модуля предобработки**

**Задача:** Разработать конфигурируемый модуль `universal_preprocessor.py` для приведения текста к единому стандарту перед токенизацией.

#### **Указания к выполнению:**

Модуль должен обеспечивать:

- Стандартизацию пунктуации и пробелов
- Замену числительных, URL-адресов и email на унифицированные токены:  
  `<NUM>`, `<URL>`, `<EMAIL>`
- Обработку общеязыковых и специальных сокращений (например: “т.е.” → “то есть”, “г.” → “год”)

> 🛠️ **Рекомендация:** используйте библиотеку `re` (регулярные выражения) для гибкой настройки правил.



### **3.4. Этап 4. Сравнительный анализ методов токенизации и нормализации**

**Задача:** Провести всестороннее эмпирическое сравнение эффективности различных методов.

#### **План эксперимента:**

1. **Методы:**
   - *Токенизация:*  
     - Наивная (по пробелам)  
     - На основе регулярных выражений  
     - Библиотеки: `nltk`, `spacy`, `razdel` (для русского — особенно рекомендуется)
   - *Стемминг:*  
     - `PorterStemmer`, `SnowballStemmer` (русский)
   - *Лемматизация:*  
     - `pymorphy2`, `spacy` (`ru_core_news_sm`)

2. **Метрики оценки:**
   - **Объём словаря** — количество уникальных токенов (меньше → компактнее)
   - **Доля OOV (Out-of-Vocabulary)** — % слов, не вошедших в словарь (ниже → лучше обобщение)
   - **Скорость обработки** — время на 1000 статей (важно для production)
   - **Семантическая согласованность** — сохраняется ли смысл?  
     → *Можно оценить через косинусное сходство эмбеддингов до/после обработки или экспертную оценку на выборке.*

3. **Оформление результатов:**  
   Сведите результаты в сводную таблицу `tokenization_metrics.csv` и добавьте анализ в отчёт.



### **3.5. Этап 5. Обучение подсловных моделей токенизации**

**Задача:** Обучить три подсловные модели на едином корпусе и провести их сравнительный анализ.

#### **Указания к выполнению:**

1. **Модели:**
   - Byte Pair Encoding (BPE)
   - WordPiece
   - Unigram Language Model

2. **Инструменты:**  
   Рекомендуется использовать: `tokenizers` (Hugging Face) или `sentencepiece`

3. **Параметры обучения:**
   - Размер словаря: **8 000 – 32 000 токенов** (обязательно протестируйте несколько значений)
   - Минимальная частота токена: 2–5

4. **Метрики оценки:**
   - **Процент фрагментации слов** — доля слов, разбитых на 2+ подслова (показывает «агрессивность» модели)
   - **Коэффициент сжатия** — отношение числа исходных слов к числу токенов после обработки
   - **Эффективность реконструкции** — насколько точно модель восстанавливает исходный текст


### **3.6. Этап 6. Разработка веб-интерфейса для интерактивного анализа**

**Задача:** Реализовать веб-интерфейс, позволяющий интерактивно выбирать параметры обработки текста и визуализировать результаты.

#### **Функциональные требования:**

- Загрузка датасетов (свой файл или предзагруженный)
- Выбор языка и метода токенизации/нормализации
- Генерация динамического отчёта с графиками:
  - Распределение длин токенов
  - Частотность токенов
  - Доля OOV
- Отображение отчёта на главной странице + возможность экспорта в HTML/PDF

#### **Технологический стек (на выбор):**
- `Streamlit`, `Gradio` — для быстрого прототипирования
- `Flask` / `FastAPI` + `Jinja2` + `Plotly` — для гибкости и масштабируемости



### **3.7. Этап 7. Публикация моделей в Hugging Face Hub**

**Задача:** Опубликовать лучшие обученные модели в открытом доступе.

#### **Требования к оформлению:**

Для каждой модели создайте **Model Card** (карточку модели), содержащую:

```markdown
# [Название модели, например: Russian BPE Tokenizer 16k]

## 🗃️ Корпус
50k+ слов с ria.ru, lenta.ru и др. (2020–2025)

## ⚙️ Параметры
- Алгоритм: BPE
- Размер словаря: 16,000
- Min frequency: 3

## 📊 Метрики
- OOV rate: 1.2%
- Reconstruction accuracy: 99.8%
- Compression ratio: 1.35

## 💻 Пример использования
```python
from transformers import AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("ваш-username/название-модели")
tokens = tokenizer.tokenize("Привет, как дела?")
```

## 📜 Лицензия
MIT
```

> ✅ Убедитесь, что модель совместима с `transformers` и загружается через `AutoTokenizer`.


## 🔍 4. Дополнительные исследовательские задания (по желанию)

1. **Анализ закона Ципфа:**  
   Постройте график зависимости частоты слова от его ранга в логарифмическом масштабе. Проанализируйте, насколько он соответствует теоретическому распределению (прямая линия = закон Ципфа выполняется).

2. **Влияние на downstream-задачу:**  
   Оцените эффективность различных методов токенизации на задаче **классификации новостей** (например, по темам: политика, спорт, экономика). Используйте простую модель (LogReg, SVM) или предобученный энкодер.

3. **Углубленная визуализация:**  
   Реализуйте интерактивные графики:
   - Распределение длин токенов (гистограмма)
   - Облако слов (WordCloud) для топ-100 токенов
   - Heatmap сравнения метрик между методами


## 📄 5. Требования к отчету

Отчёт о выполненной лабораторной работе должен содержать:

1. Титульный лист (ФИО, группа, дата, подпись преподавателя)
2. Постановку задачи и цели
3. Описание использованных методов, библиотек и инструментов
4. Анализ полученных результатов (с таблицами, графиками, скриншотами)
5. Ссылки на:
   - Исходный код (GitHub/GitLab)
   - Развернутое веб-приложение (Hugging Face Space / Render / Railway)
   - Опубликованные модели (Hugging Face Hub)
6. Выводы по работе
7. **Рефлексия:** Что получилось лучше всего? С какими трудностями столкнулись? Что бы сделали иначе?



## 📊 6. Критерии оценки

| Оценка             | Критерии |
|--------------------|----------|
| **Отлично (5)**    | Полное выполнение всех этапов, включая дополнительные задания. Наличие работающего веб-API и опубликованных моделей на Hugging Face. Глубокий анализ результатов, визуализации, рефлексия. **+ публичная ссылка на Space/Gradio App.** |
| **Хорошо (4)**     | Выполнение всех основных этапов (1–7). Наличие веб-интерфейса. Корректный анализ и оформление отчёта. |
| **Удовлетворительно (3)** | Выполнение этапов 1–4. Наличие отчёта с базовым анализом и таблицей метрик. |
| **Неудовлетворительно (2)** | Этапы не выполнены, выполнены некорректно или отсутствует отчёт. |


## 📖 7. Литература

1. Jurafsky, D., Martin, J. H. *Speech and Language Processing*. — 3rd ed., 2021.  
2. Документация библиотек:  
   - [Hugging Face Transformers](https://huggingface.co/docs/transformers/)  
   - [spaCy](https://spacy.io/usage)  
   - [NLTK](https://www.nltk.org/book/)  
   - [SentencePiece](https://github.com/google/sentencepiece)  
3. Статьи:  
   - Sennrich, R., Haddow, B., Birch, A. (2016). *Neural Machine Translation of Rare Words with Subword Units*.  
   - Kudo, T. (2018). *Subword Regularization: Improving Neural Network Translation Models with Multiple Subword Candidates*.

