<a href="https://colab.research.google.com/github/Daarlens/ProBook/blob/main/NLP/NLP-2025/%D0%9B%D0%B0%D0%B1%D0%BE%D1%80%D0%B0%D1%82%D0%BE%D1%80%D0%BD%D1%8B%D0%B9_%D0%BF%D1%80%D0%B0%D0%BA%D1%82%D0%B8%D0%BA%D1%83%D0%BC_%E2%84%96_1.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 🧪 **Лабораторный практикум № 1**  
# **Сравнительный анализ методов токенизации и нормализации текста на материале русскоязычных новостных корпусов**



**Кафедра:** Кафедра анализа данных и технологий программирования  
**Дисциплина:** Обработка естественного языка  
**Уровень:** Магистратура, 2 курс  
**Преподаватель:** Арабов Муллошараф Курбонович  




## 🎯 1. Цели и задачи работы

### **Цель:**
Получить комплексное практическое представление о полном цикле обработки текстовых данных на естественном языке (Natural Language Processing, NLP) — от сбора неструктурированных данных до развертывания инференс-моделей. Сформировать навыки критического анализа и сравнения различных подходов к фундаментальной задаче NLP — токенизации.

### **Задачи:**
1. Освоить методики сбора и предобработки текстовых корпусов из веб-источников.
2. Практически реализовать и экспериментально сравнить классические и современные методы токенизации, стемминга и лемматизации.
3. Приобрести навыки обучения подсловных моделей токенизации (BPE, WordPiece, Unigram).
4. Выработать умение проводить сравнительный анализ алгоритмов на основе объективных количественных и качественных метрик.
5. Научиться оформлять результаты исследования в виде веб-интерфейса и развернутого API-сервиса.
6. Освоить процедуру публикации моделей в открытых репозиториях.



## 📚 2. Теоретические предпосылки

Токенизация, или сегментация текста на минимальные значащие единицы (токены), является базовой операцией в конвейере обработки естественного языка. Качество её выполнения критически влияет на результаты последующих этапов, таких как векторизация, обучение языковых моделей и решение прикладных задач (классификация, суммаризация, машинный перевод).

В работе рассматриваются три класса методов:

1. **Поверхностные методы:**  
   Разбиение по пробелам и знакам препинания — простые, но чувствительные к шуму.

2. **Морфологические методы:**  
   - *Стемминг* — приведение словоформы к основе (например, “работали” → “работ”).  
   - *Лемматизация* — приведение к нормальной (словарной) форме (например, “работали” → “работать”).

3. **Подсловные методы (Subword Tokenization):**  
   Алгоритмы, обучающие оптимальное разбиение слов на подслова на основе статистик корпуса (BPE, WordPiece, Unigram). Позволяют эффективно обрабатывать словарные единицы, не встречавшиеся в процессе обучения (OOV — Out-Of-Vocabulary).



## 🧪 3. Методика эксперимента и порядок выполнения



### **3.1. Этап 1. Формирование экспериментального корпуса текстов**

**Задача:** Составить репрезентативный корпус современных русскоязычных новостных текстов.

#### **Указания к выполнению:**

- **Источники данных:**  
  Рекомендуется использовать материалы новостных агентств и порталов:  
  `ria.ru`, `tass.ru`, `lenta.ru`, `meduza.io`, `kommersant.ru` и др.

  > 💡 **Инклюзивное задание:**  
  > Если вы являетесь представителем народов РФ (татары, башкиры, удмурты, чуваш, марийцы и др.), постарайтесь найти новостные сайты на своём родном языке. Ваша работа поможет развивать и сохранять языковое многообразие России.

- **Структура данных (обязательно для каждой статьи):**  
  - Заголовок  
  - Основной текст  
  - Дата публикации  
  - URL-адрес  
  - Категория/рубрика (при наличии)

- **Инструментарий:**  
  - `requests` + `BeautifulSoup4` — для статических страниц  
  - `selenium` — для динамических ресурсов

- **Требования к корпусу:**  
  - Общий объём: **не менее 50 000 слов**  
  - Формат хранения: **`JSONL`** (каждая строка — отдельный JSON-объект со статьёй)



### **3.2. Этап 2. Предварительная обработка и очистка текста**

**Задача:** Реализовать модуль первичной очистки текста от нетекстовых элементов и его нормализации.

#### **Указания к выполнению:**

Создайте модуль `text_cleaner.py`, выполняющий:

- Удаление HTML-разметки, служебных символов, рекламных блоков
- Стандартизацию пробельных символов
- Приведение текста к нижнему регистру (опционально — зависит от метода токенизации)
- Фильтрацию стоп-слов (например, с использованием `nltk.corpus.stopwords`)


### **3.3. Этап 3. Проектирование универсального модуля предобработки**

**Задача:** Разработать конфигурируемый модуль `universal_preprocessor.py` для приведения текста к единому стандарту перед токенизацией.

#### **Указания к выполнению:**

Модуль должен обеспечивать:

- Стандартизацию пунктуации и пробелов
- Замену числительных, URL-адресов и email на унифицированные токены:  
  `<NUM>`, `<URL>`, `<EMAIL>`
- Обработку общеязыковых и специальных сокращений (например: “т.е.” → “то есть”, “г.” → “год”)

> 🛠️ **Рекомендация:** используйте библиотеку `re` (регулярные выражения) для гибкой настройки правил.



### **3.4. Этап 4. Сравнительный анализ методов токенизации и нормализации**

**Задача:** Провести всестороннее эмпирическое сравнение эффективности различных методов.

#### **План эксперимента:**

1. **Методы:**
   - *Токенизация:*  
     - Наивная (по пробелам)  
     - На основе регулярных выражений  
     - Библиотеки: `nltk`, `spacy`, `razdel` (для русского — особенно рекомендуется)
   - *Стемминг:*  
     - `PorterStemmer`, `SnowballStemmer` (русский)
   - *Лемматизация:*  
     - `pymorphy2`, `spacy` (`ru_core_news_sm`)

2. **Метрики оценки:**
   - **Объём словаря** — количество уникальных токенов (меньше → компактнее)
   - **Доля OOV (Out-of-Vocabulary)** — % слов, не вошедших в словарь (ниже → лучше обобщение)
   - **Скорость обработки** — время на 1000 статей (важно для production)
   - **Семантическая согласованность** — сохраняется ли смысл?  
     → *Можно оценить через косинусное сходство эмбеддингов до/после обработки или экспертную оценку на выборке.*

3. **Оформление результатов:**  
   Сведите результаты в сводную таблицу `tokenization_metrics.csv` и добавьте анализ в отчёт.



### **3.5. Этап 5. Обучение подсловных моделей токенизации**

**Задача:** Обучить три подсловные модели на едином корпусе и провести их сравнительный анализ.

#### **Указания к выполнению:**

1. **Модели:**
   - Byte Pair Encoding (BPE)
   - WordPiece
   - Unigram Language Model

2. **Инструменты:**  
   Рекомендуется использовать: `tokenizers` (Hugging Face) или `sentencepiece`

3. **Параметры обучения:**
   - Размер словаря: **8 000 – 32 000 токенов** (обязательно протестируйте несколько значений)
   - Минимальная частота токена: 2–5

4. **Метрики оценки:**
   - **Процент фрагментации слов** — доля слов, разбитых на 2+ подслова (показывает «агрессивность» модели)
   - **Коэффициент сжатия** — отношение числа исходных слов к числу токенов после обработки
   - **Эффективность реконструкции** — насколько точно модель восстанавливает исходный текст


### **3.6. Этап 6. Разработка веб-интерфейса для интерактивного анализа**

**Задача:** Реализовать веб-интерфейс, позволяющий интерактивно выбирать параметры обработки текста и визуализировать результаты.

#### **Функциональные требования:**

- Загрузка датасетов (свой файл или предзагруженный)
- Выбор языка и метода токенизации/нормализации
- Генерация динамического отчёта с графиками:
  - Распределение длин токенов
  - Частотность токенов
  - Доля OOV
- Отображение отчёта на главной странице + возможность экспорта в HTML/PDF

#### **Технологический стек (на выбор):**
- `Streamlit`, `Gradio` — для быстрого прототипирования
- `Flask` / `FastAPI` + `Jinja2` + `Plotly` — для гибкости и масштабируемости



### **3.7. Этап 7. Публикация моделей в Hugging Face Hub**

**Задача:** Опубликовать лучшие обученные модели в открытом доступе.

#### **Требования к оформлению:**

Для каждой модели создайте **Model Card** (карточку модели), содержащую:

```markdown
# [Название модели, например: Russian BPE Tokenizer 16k]

## 🗃️ Корпус
50k+ слов с ria.ru, lenta.ru и др. (2020–2025)

## ⚙️ Параметры
- Алгоритм: BPE
- Размер словаря: 16,000
- Min frequency: 3

## 📊 Метрики
- OOV rate: 1.2%
- Reconstruction accuracy: 99.8%
- Compression ratio: 1.35

## 💻 Пример использования
```python
from transformers import AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("ваш-username/название-модели")
tokens = tokenizer.tokenize("Привет, как дела?")
```

## 📜 Лицензия
MIT
```

> ✅ Убедитесь, что модель совместима с `transformers` и загружается через `AutoTokenizer`.


## 🔍 4. Дополнительные исследовательские задания (по желанию)

1. **Анализ закона Ципфа:**  
   Постройте график зависимости частоты слова от его ранга в логарифмическом масштабе. Проанализируйте, насколько он соответствует теоретическому распределению (прямая линия = закон Ципфа выполняется).

2. **Влияние на downstream-задачу:**  
   Оцените эффективность различных методов токенизации на задаче **классификации новостей** (например, по темам: политика, спорт, экономика). Используйте простую модель (LogReg, SVM) или предобученный энкодер.

3. **Углубленная визуализация:**  
   Реализуйте интерактивные графики:
   - Распределение длин токенов (гистограмма)
   - Облако слов (WordCloud) для топ-100 токенов
   - Heatmap сравнения метрик между методами


## 📄 5. Требования к отчету

Отчёт о выполненной лабораторной работе должен содержать:

1. Титульный лист (ФИО, группа, дата, подпись преподавателя)
2. Постановку задачи и цели
3. Описание использованных методов, библиотек и инструментов
4. Анализ полученных результатов (с таблицами, графиками, скриншотами)
5. Ссылки на:
   - Исходный код (GitHub/GitLab)
   - Развернутое веб-приложение (Hugging Face Space / Render / Railway)
   - Опубликованные модели (Hugging Face Hub)
6. Выводы по работе
7. **Рефлексия:** Что получилось лучше всего? С какими трудностями столкнулись? Что бы сделали иначе?



## 📊 6. Критерии оценки

| Оценка             | Критерии |
|--------------------|----------|
| **Отлично (5)**    | Полное выполнение всех этапов, включая дополнительные задания. Наличие работающего веб-API и опубликованных моделей на Hugging Face. Глубокий анализ результатов, визуализации, рефлексия. **+ публичная ссылка на Space/Gradio App.** |
| **Хорошо (4)**     | Выполнение всех основных этапов (1–7). Наличие веб-интерфейса. Корректный анализ и оформление отчёта. |
| **Удовлетворительно (3)** | Выполнение этапов 1–4. Наличие отчёта с базовым анализом и таблицей метрик. |
| **Неудовлетворительно (2)** | Этапы не выполнены, выполнены некорректно или отсутствует отчёт. |


## 📖 7. Литература

1. Jurafsky, D., Martin, J. H. *Speech and Language Processing*. — 3rd ed., 2021.  
2. Документация библиотек:  
   - [Hugging Face Transformers](https://huggingface.co/docs/transformers/)  
   - [spaCy](https://spacy.io/usage)  
   - [NLTK](https://www.nltk.org/book/)  
   - [SentencePiece](https://github.com/google/sentencepiece)  
3. Статьи:  
   - Sennrich, R., Haddow, B., Birch, A. (2016). *Neural Machine Translation of Rare Words with Subword Units*.  
   - Kudo, T. (2018). *Subword Regularization: Improving Neural Network Translation Models with Multiple Subword Candidates*.



In [None]:
!pip install -q git+https://github.com/pymorphy2/pymorphy2.git
!pip install -q razdel spacy nltk sentence_transformers tqdm
!python -m spacy download ru_core_news_sm


# ЭТАП 1. Сбор корпуса (≥ 50 000 слов)

In [None]:
import requests, json, time
from bs4 import BeautifulSoup
from urllib.parse import urljoin
from tqdm import tqdm

headers = {"User-Agent": "Mozilla/5.0 (compatible; Bot/0.1)"}

def parse_lenta_article(url):
    """
    Парсинг одной статьи с Lenta.ru
    """
    try:
        r = requests.get(url, headers=headers, timeout=10)
        r.encoding = 'utf-8'
        soup = BeautifulSoup(r.text, 'lxml')

        title = soup.find('h1').get_text(strip=True) if soup.find('h1') else ''
        article = soup.find('article') or soup
        paragraphs = [p.get_text(" ", strip=True) for p in article.find_all('p')]
        text = "\n".join(paragraphs)

        return {"url": url, "title": title, "text": text, "source": "lenta.ru"}
    except Exception:
        return None


In [None]:
start_page = "https://lenta.ru/rubrics/world/"
res = requests.get(start_page, headers=headers)
soup = BeautifulSoup(res.text, 'lxml')

# Ссылки на статьи
links = []
for a in soup.select('a[href^="/news/"], a[href^="/articles/"]'):
    href = a.get('href')
    if href and href.startswith('/'):
        links.append(urljoin("https://lenta.ru", href.split('?')[0]))

# Убираем дубликаты
links = list(dict.fromkeys(links))[:250]

# Сбор статей
articles = []
for link in tqdm(links):
    art = parse_lenta_article(link)
    if art and len(art['text']) > 200:
        articles.append(art)
    time.sleep(0.2)

# Сохранение
with open('corpus.jsonl', 'w', encoding='utf-8') as f:
    for a in articles:
        f.write(json.dumps(a, ensure_ascii=False) + '\n')

print(f"✅ Собрано статей: {len(articles)}")


In [None]:
import json

with open("corpus.jsonl", "r", encoding="utf-8") as f:
    articles = [json.loads(line) for line in f]

word_count = sum(len(a["text"].split()) for a in articles)
print(f"📊 Всего статей: {len(articles)}")
print(f"📝 Всего слов: {word_count}")


In [None]:
import requests, json, time
from bs4 import BeautifulSoup
from urllib.parse import urljoin
from tqdm import tqdm

headers = {"User-Agent": "Mozilla/5.0 (compatible; Bot/0.1)"}

def parse_lenta_article(url):
    try:
        r = requests.get(url, headers=headers, timeout=10)
        r.encoding = 'utf-8'
        soup = BeautifulSoup(r.text, 'lxml')
        title = soup.find('h1').get_text(strip=True) if soup.find('h1') else ''
        article = soup.find('article') or soup
        paragraphs = [p.get_text(" ", strip=True) for p in article.find_all('p')]
        text = "\n".join(paragraphs)
        return {"url": url, "title": title, "text": text, "source": "lenta.ru"}
    except Exception:
        return None

# Новый раздел Lenta.ru — Россия
start_page = "https://lenta.ru/rubrics/russia/"
res = requests.get(start_page, headers=headers)
soup = BeautifulSoup(res.text, 'lxml')

links = []
for a in soup.select('a[href^="/news/"], a[href^="/articles/"]'):
    href = a.get('href')
    if href and href.startswith('/'):
        links.append(urljoin("https://lenta.ru", href.split('?')[0]))

links = list(dict.fromkeys(links))[:150]

# Собираем статьи и добавляем к старому корпусу
articles = []
for link in tqdm(links):
    art = parse_lenta_article(link)
    if art and len(art['text']) > 200:
        articles.append(art)
    time.sleep(0.2)

print(f"✅ Новых статей собрано: {len(articles)}")

# Добавляем к существующему корпусу
with open("corpus.jsonl", "a", encoding="utf-8") as f:
    for a in articles:
        f.write(json.dumps(a, ensure_ascii=False) + "\n")

print("📁 Новые статьи добавлены в corpus.jsonl")


In [None]:
import json

with open("corpus.jsonl", "r", encoding="utf-8") as f:
    articles = [json.loads(line) for line in f]

word_count = sum(len(a["text"].split()) for a in articles)
print(f"📊 Всего статей: {len(articles)}")
print(f"📝 Всего слов: {word_count}")


# ЭТАП 2. Предварительная обработка и очистка текста

In [None]:
# Создание файла text_cleaner.py
%%writefile text_cleaner.py
import re
import json
from nltk.corpus import stopwords
import nltk

# Загружаем стоп-слова
nltk.download('stopwords')
russian_stopwords = set(stopwords.words("russian"))

def clean_text(text, remove_stopwords=True, lower=True):
    """
    Очистка и нормализация текста.
    """
    if not text:
        return ""

    # Удаляем HTML-теги
    text = re.sub(r'<.*?>', ' ', text)

    # Заменяем URL и email на токены
    text = re.sub(r'http\S+|www\S+|https\S+', '<URL>', text)
    text = re.sub(r'\S+@\S+', '<EMAIL>', text)

    # Заменяем числа
    text = re.sub(r'\b\d+([.,]\d+)?\b', '<NUM>', text)

    # Убираем все символы, кроме букв, цифр и специальных токенов
    text = re.sub(r'[^а-яА-ЯёЁ0-9<>\s]', ' ', text)

    # Приводим к одному пробелу
    text = re.sub(r'\s+', ' ', text)

    if lower:
        text = text.lower()

    # Удаляем стоп-слова
    if remove_stopwords:
        words = text.split()
        words = [w for w in words if w not in russian_stopwords]
        text = ' '.join(words)

    return text.strip()

def clean_corpus(input_file="corpus.jsonl", output_file="corpus_clean.jsonl"):
    """
    Применяет очистку ко всем статьям корпуса и сохраняет результат.
    """
    cleaned_articles = []
    with open(input_file, "r", encoding="utf-8") as f:
        articles = [json.loads(line) for line in f]

    for a in articles:
        a_clean = a.copy()
        a_clean["text"] = clean_text(a["text"])
        cleaned_articles.append(a_clean)

    with open(output_file, "w", encoding="utf-8") as f:
        for a in cleaned_articles:
            f.write(json.dumps(a, ensure_ascii=False) + "\n")

    print(f"✅ Очищенный корпус сохранён в {output_file}")


In [None]:
from text_cleaner import clean_corpus

# Очищаем корпус
clean_corpus("corpus.jsonl", "corpus_clean.jsonl")


In [None]:
import json

with open("corpus_clean.jsonl", "r", encoding="utf-8") as f:
    articles = [json.loads(line) for line in f]

word_count = sum(len(a["text"].split()) for a in articles)
print(f"📊 Очищенных статей: {len(articles)}")
print(f"🧹 Всего слов после очистки: {word_count}")


# ЭТАП 3. Универсальная предобработка (нормализация и анализ корпуса)

In [None]:
%%writefile universal_preprocessor.py
import re

class UniversalPreprocessor:
    """
    Универсальный модуль предобработки текстов перед токенизацией.
    Поддерживает замену URL, email, чисел, стандартную очистку пунктуации и раскрытие сокращений.
    """

    def __init__(self, lower=True, remove_extra_spaces=True, replace_special=True):
        self.lower = lower
        self.remove_extra_spaces = remove_extra_spaces
        self.replace_special = replace_special

        # Словарь для раскрытия сокращений
        self.abbreviations = {
            r"\bт\.е\.": "то есть",
            r"\bг\.": "год",
            r"\bул\.": "улица",
            r"\bд\.": "дом",
            r"\bрис\.": "рисунок",
            r"\bстр\.": "страница",
            r"\bим\.": "имени",
            r"\bмин\.": "минута",
            r"\bсек\.": "секунда",
        }

    def replace_tokens(self, text):
        """Заменяет URL, email, числа и специальные символы"""
        text = re.sub(r'http\S+|www\S+|https\S+', '<URL>', text)
        text = re.sub(r'\S+@\S+', '<EMAIL>', text)
        text = re.sub(r'\b\d+([.,]\d+)?\b', '<NUM>', text)
        return text

    def expand_abbreviations(self, text):
        """Раскрывает общеупотребимые сокращения"""
        for pattern, replacement in self.abbreviations.items():
            text = re.sub(pattern, replacement, text, flags=re.IGNORECASE)
        return text

    def normalize_punctuation(self, text):
        """Стандартизирует пунктуацию и пробелы"""
        text = re.sub(r'[“”«»]', '"', text)
        text = re.sub(r'[–—]', '-', text)
        text = re.sub(r'\s+', ' ', text)
        return text.strip()

    def preprocess(self, text):
        """Основная функция очистки"""
        if not isinstance(text, str):
            return ""

        if self.lower:
            text = text.lower()

        if self.replace_special:
            text = self.replace_tokens(text)

        text = self.expand_abbreviations(text)
        text = self.normalize_punctuation(text)

        if self.remove_extra_spaces:
            text = re.sub(r'\s+', ' ', text).strip()

        return text


In [None]:
from universal_preprocessor import UniversalPreprocessor

prep = UniversalPreprocessor()

sample = "В 2025 г. на сайте https://lenta.ru появилось 10 новостей, т.е. <EMAIL> отправили авторам!"
print("Исходный текст:")
print(sample)
print("\nПосле обработки:")
print(prep.preprocess(sample))


# Этап 4. Сравнительный анализ методов токенизации и нормализации

In [None]:
import json
from tqdm import tqdm

with open("corpus_clean.jsonl", "r", encoding="utf-8") as f:
    articles = [json.loads(line) for line in f]

texts = [a['text'] for a in articles]
print(f"Загружено статей: {len(texts)}")


In [None]:
# Импорты и подготовка функций для токенизации, стемминга и лемматизации
from razdel import tokenize as razdel_tokenize
import re, time
import nltk
nltk.download('punkt')
from nltk.tokenize import word_tokenize
from nltk.stem.snowball import SnowballStemmer
from pymorphy2 import MorphAnalyzer
import spacy

# Загружаем spaCy модель для русского
nlp = spacy.load("ru_core_news_sm")

# Инициализация MorphAnalyzer и SnowballStemmer
morph = MorphAnalyzer()
snow = SnowballStemmer("russian")

# --- Функции токенизации ---
def tok_naive(text):
    return text.split()

TOKEN_RE = re.compile(r"[A-Za-zА-Яа-яЁё0-9]+(?:[-'][A-Za-zА-Яа-яЁё0-9]+)*")
def tok_regex(text):
    return TOKEN_RE.findall(text)

def tok_nltk(text):
    return word_tokenize(text, language='russian')

def tok_spacy(text):
    doc = nlp(text)
    return [t.text for t in doc]

def tok_razdel(text):
    return [t.text for t in razdel_tokenize(text)]

# --- Стемминг и лемматизация ---
def stem_snowball(tokens):
    return [snow.stem(t) for t in tokens]

def lemmatize_pymorphy(tokens):
    return [morph.parse(t)[0].normal_form for t in tokens]

def lemmatize_spacy(tokens):
    doc = nlp(" ".join(tokens))
    return [t.lemma_ for t in doc if t.text.strip()]

# --- Словарь методов ---
TOKENIZERS = {
    'naive': tok_naive,
    'regex': tok_regex,
    'nltk': tok_nltk,
    'spacy': tok_spacy,
    'razdel': tok_razdel
}

NORMALIZERS = {
    'snowball_stem': stem_snowball,
    'pymorphy_lemma': lemmatize_pymorphy,
    'spacy_lemma': lemmatize_spacy
}
