<a href="https://colab.research.google.com/github/Daarlens/ProBook/blob/main/NLP/NLP-2025/%D0%9B%D0%B0%D0%B1%D0%BE%D1%80%D0%B0%D1%82%D0%BE%D1%80%D0%BD%D1%8B%D0%B9_%D0%BF%D1%80%D0%B0%D0%BA%D1%82%D0%B8%D0%BA%D1%83%D0%BC_%E2%84%96_1.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 🧪 **Лабораторный практикум № 1**  
# **Сравнительный анализ методов токенизации и нормализации текста на материале русскоязычных новостных корпусов**



**Кафедра:** Кафедра анализа данных и технологий программирования  
**Дисциплина:** Обработка естественного языка  
**Уровень:** Магистратура, 2 курс  
**Преподаватель:** Арабов Муллошараф Курбонович  




## 🎯 1. Цели и задачи работы

### **Цель:**
Получить комплексное практическое представление о полном цикле обработки текстовых данных на естественном языке (Natural Language Processing, NLP) — от сбора неструктурированных данных до развертывания инференс-моделей. Сформировать навыки критического анализа и сравнения различных подходов к фундаментальной задаче NLP — токенизации.

### **Задачи:**
1. Освоить методики сбора и предобработки текстовых корпусов из веб-источников.
2. Практически реализовать и экспериментально сравнить классические и современные методы токенизации, стемминга и лемматизации.
3. Приобрести навыки обучения подсловных моделей токенизации (BPE, WordPiece, Unigram).
4. Выработать умение проводить сравнительный анализ алгоритмов на основе объективных количественных и качественных метрик.
5. Научиться оформлять результаты исследования в виде веб-интерфейса и развернутого API-сервиса.
6. Освоить процедуру публикации моделей в открытых репозиториях.



## 📚 2. Теоретические предпосылки

Токенизация, или сегментация текста на минимальные значащие единицы (токены), является базовой операцией в конвейере обработки естественного языка. Качество её выполнения критически влияет на результаты последующих этапов, таких как векторизация, обучение языковых моделей и решение прикладных задач (классификация, суммаризация, машинный перевод).

В работе рассматриваются три класса методов:

1. **Поверхностные методы:**  
   Разбиение по пробелам и знакам препинания — простые, но чувствительные к шуму.

2. **Морфологические методы:**  
   - *Стемминг* — приведение словоформы к основе (например, “работали” → “работ”).  
   - *Лемматизация* — приведение к нормальной (словарной) форме (например, “работали” → “работать”).

3. **Подсловные методы (Subword Tokenization):**  
   Алгоритмы, обучающие оптимальное разбиение слов на подслова на основе статистик корпуса (BPE, WordPiece, Unigram). Позволяют эффективно обрабатывать словарные единицы, не встречавшиеся в процессе обучения (OOV — Out-Of-Vocabulary).



## 🧪 3. Методика эксперимента и порядок выполнения



### **3.1. Этап 1. Формирование экспериментального корпуса текстов**

**Задача:** Составить репрезентативный корпус современных русскоязычных новостных текстов.

#### **Указания к выполнению:**

- **Источники данных:**  
  Рекомендуется использовать материалы новостных агентств и порталов:  
  `ria.ru`, `tass.ru`, `lenta.ru`, `meduza.io`, `kommersant.ru` и др.

  > 💡 **Инклюзивное задание:**  
  > Если вы являетесь представителем народов РФ (татары, башкиры, удмурты, чуваш, марийцы и др.), постарайтесь найти новостные сайты на своём родном языке. Ваша работа поможет развивать и сохранять языковое многообразие России.

- **Структура данных (обязательно для каждой статьи):**  
  - Заголовок  
  - Основной текст  
  - Дата публикации  
  - URL-адрес  
  - Категория/рубрика (при наличии)

- **Инструментарий:**  
  - `requests` + `BeautifulSoup4` — для статических страниц  
  - `selenium` — для динамических ресурсов

- **Требования к корпусу:**  
  - Общий объём: **не менее 50 000 слов**  
  - Формат хранения: **`JSONL`** (каждая строка — отдельный JSON-объект со статьёй)



### **3.2. Этап 2. Предварительная обработка и очистка текста**

**Задача:** Реализовать модуль первичной очистки текста от нетекстовых элементов и его нормализации.

#### **Указания к выполнению:**

Создайте модуль `text_cleaner.py`, выполняющий:

- Удаление HTML-разметки, служебных символов, рекламных блоков
- Стандартизацию пробельных символов
- Приведение текста к нижнему регистру (опционально — зависит от метода токенизации)
- Фильтрацию стоп-слов (например, с использованием `nltk.corpus.stopwords`)


### **3.3. Этап 3. Проектирование универсального модуля предобработки**

**Задача:** Разработать конфигурируемый модуль `universal_preprocessor.py` для приведения текста к единому стандарту перед токенизацией.

#### **Указания к выполнению:**

Модуль должен обеспечивать:

- Стандартизацию пунктуации и пробелов
- Замену числительных, URL-адресов и email на унифицированные токены:  
  `<NUM>`, `<URL>`, `<EMAIL>`
- Обработку общеязыковых и специальных сокращений (например: “т.е.” → “то есть”, “г.” → “год”)

> 🛠️ **Рекомендация:** используйте библиотеку `re` (регулярные выражения) для гибкой настройки правил.



### **3.4. Этап 4. Сравнительный анализ методов токенизации и нормализации**

**Задача:** Провести всестороннее эмпирическое сравнение эффективности различных методов.

#### **План эксперимента:**

1. **Методы:**
   - *Токенизация:*  
     - Наивная (по пробелам)  
     - На основе регулярных выражений  
     - Библиотеки: `nltk`, `spacy`, `razdel` (для русского — особенно рекомендуется)
   - *Стемминг:*  
     - `PorterStemmer`, `SnowballStemmer` (русский)
   - *Лемматизация:*  
     - `pymorphy2`, `spacy` (`ru_core_news_sm`)

2. **Метрики оценки:**
   - **Объём словаря** — количество уникальных токенов (меньше → компактнее)
   - **Доля OOV (Out-of-Vocabulary)** — % слов, не вошедших в словарь (ниже → лучше обобщение)
   - **Скорость обработки** — время на 1000 статей (важно для production)
   - **Семантическая согласованность** — сохраняется ли смысл?  
     → *Можно оценить через косинусное сходство эмбеддингов до/после обработки или экспертную оценку на выборке.*

3. **Оформление результатов:**  
   Сведите результаты в сводную таблицу `tokenization_metrics.csv` и добавьте анализ в отчёт.



### **3.5. Этап 5. Обучение подсловных моделей токенизации**

**Задача:** Обучить три подсловные модели на едином корпусе и провести их сравнительный анализ.

#### **Указания к выполнению:**

1. **Модели:**
   - Byte Pair Encoding (BPE)
   - WordPiece
   - Unigram Language Model

2. **Инструменты:**  
   Рекомендуется использовать: `tokenizers` (Hugging Face) или `sentencepiece`

3. **Параметры обучения:**
   - Размер словаря: **8 000 – 32 000 токенов** (обязательно протестируйте несколько значений)
   - Минимальная частота токена: 2–5

4. **Метрики оценки:**
   - **Процент фрагментации слов** — доля слов, разбитых на 2+ подслова (показывает «агрессивность» модели)
   - **Коэффициент сжатия** — отношение числа исходных слов к числу токенов после обработки
   - **Эффективность реконструкции** — насколько точно модель восстанавливает исходный текст


### **3.6. Этап 6. Разработка веб-интерфейса для интерактивного анализа**

**Задача:** Реализовать веб-интерфейс, позволяющий интерактивно выбирать параметры обработки текста и визуализировать результаты.

#### **Функциональные требования:**

- Загрузка датасетов (свой файл или предзагруженный)
- Выбор языка и метода токенизации/нормализации
- Генерация динамического отчёта с графиками:
  - Распределение длин токенов
  - Частотность токенов
  - Доля OOV
- Отображение отчёта на главной странице + возможность экспорта в HTML/PDF

#### **Технологический стек (на выбор):**
- `Streamlit`, `Gradio` — для быстрого прототипирования
- `Flask` / `FastAPI` + `Jinja2` + `Plotly` — для гибкости и масштабируемости



### **3.7. Этап 7. Публикация моделей в Hugging Face Hub**

**Задача:** Опубликовать лучшие обученные модели в открытом доступе.

#### **Требования к оформлению:**

Для каждой модели создайте **Model Card** (карточку модели), содержащую:

```markdown
# [Название модели, например: Russian BPE Tokenizer 16k]

## 🗃️ Корпус
50k+ слов с ria.ru, lenta.ru и др. (2020–2025)

## ⚙️ Параметры
- Алгоритм: BPE
- Размер словаря: 16,000
- Min frequency: 3

## 📊 Метрики
- OOV rate: 1.2%
- Reconstruction accuracy: 99.8%
- Compression ratio: 1.35

## 💻 Пример использования
```python
from transformers import AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("ваш-username/название-модели")
tokens = tokenizer.tokenize("Привет, как дела?")
```

## 📜 Лицензия
MIT
```

> ✅ Убедитесь, что модель совместима с `transformers` и загружается через `AutoTokenizer`.


## 🔍 4. Дополнительные исследовательские задания (по желанию)

1. **Анализ закона Ципфа:**  
   Постройте график зависимости частоты слова от его ранга в логарифмическом масштабе. Проанализируйте, насколько он соответствует теоретическому распределению (прямая линия = закон Ципфа выполняется).

2. **Влияние на downstream-задачу:**  
   Оцените эффективность различных методов токенизации на задаче **классификации новостей** (например, по темам: политика, спорт, экономика). Используйте простую модель (LogReg, SVM) или предобученный энкодер.

3. **Углубленная визуализация:**  
   Реализуйте интерактивные графики:
   - Распределение длин токенов (гистограмма)
   - Облако слов (WordCloud) для топ-100 токенов
   - Heatmap сравнения метрик между методами


## 📄 5. Требования к отчету

Отчёт о выполненной лабораторной работе должен содержать:

1. Титульный лист (ФИО, группа, дата, подпись преподавателя)
2. Постановку задачи и цели
3. Описание использованных методов, библиотек и инструментов
4. Анализ полученных результатов (с таблицами, графиками, скриншотами)
5. Ссылки на:
   - Исходный код (GitHub/GitLab)
   - Развернутое веб-приложение (Hugging Face Space / Render / Railway)
   - Опубликованные модели (Hugging Face Hub)
6. Выводы по работе
7. **Рефлексия:** Что получилось лучше всего? С какими трудностями столкнулись? Что бы сделали иначе?



## 📊 6. Критерии оценки

| Оценка             | Критерии |
|--------------------|----------|
| **Отлично (5)**    | Полное выполнение всех этапов, включая дополнительные задания. Наличие работающего веб-API и опубликованных моделей на Hugging Face. Глубокий анализ результатов, визуализации, рефлексия. **+ публичная ссылка на Space/Gradio App.** |
| **Хорошо (4)**     | Выполнение всех основных этапов (1–7). Наличие веб-интерфейса. Корректный анализ и оформление отчёта. |
| **Удовлетворительно (3)** | Выполнение этапов 1–4. Наличие отчёта с базовым анализом и таблицей метрик. |
| **Неудовлетворительно (2)** | Этапы не выполнены, выполнены некорректно или отсутствует отчёт. |


## 📖 7. Литература

1. Jurafsky, D., Martin, J. H. *Speech and Language Processing*. — 3rd ed., 2021.  
2. Документация библиотек:  
   - [Hugging Face Transformers](https://huggingface.co/docs/transformers/)  
   - [spaCy](https://spacy.io/usage)  
   - [NLTK](https://www.nltk.org/book/)  
   - [SentencePiece](https://github.com/google/sentencepiece)  
3. Статьи:  
   - Sennrich, R., Haddow, B., Birch, A. (2016). *Neural Machine Translation of Rare Words with Subword Units*.  
   - Kudo, T. (2018). *Subword Regularization: Improving Neural Network Translation Models with Multiple Subword Candidates*.



In [None]:
!pip install -q razdel spacy nltk sentence_transformers tqdm pymorphy3 pymorphy3-dicts-ru
!python -m spacy download ru_core_news_sm


In [None]:
!pip install -q git+https://github.com/pymorphy2/pymorphy2.git
!pip install -q razdel spacy nltk sentence_transformers tqdm
!python -m spacy download ru_core_news_sm


# ЭТАП 1. Сбор корпуса (≥ 50 000 слов)

In [None]:
import requests, json, time
from bs4 import BeautifulSoup
from urllib.parse import urljoin
from tqdm import tqdm

headers = {"User-Agent": "Mozilla/5.0 (compatible; Bot/0.1)"}

def parse_lenta_article(url):
    """
    Парсинг одной статьи с Lenta.ru
    """
    try:
        r = requests.get(url, headers=headers, timeout=10)
        r.encoding = 'utf-8'
        soup = BeautifulSoup(r.text, 'lxml')

        title = soup.find('h1').get_text(strip=True) if soup.find('h1') else ''
        article = soup.find('article') or soup
        paragraphs = [p.get_text(" ", strip=True) for p in article.find_all('p')]
        text = "\n".join(paragraphs)

        return {"url": url, "title": title, "text": text, "source": "lenta.ru"}
    except Exception:
        return None


In [None]:
start_page = "https://lenta.ru/rubrics/world/"
res = requests.get(start_page, headers=headers)
soup = BeautifulSoup(res.text, 'lxml')

# Ссылки на статьи
links = []
for a in soup.select('a[href^="/news/"], a[href^="/articles/"]'):
    href = a.get('href')
    if href and href.startswith('/'):
        links.append(urljoin("https://lenta.ru", href.split('?')[0]))

# Убираем дубликаты
links = list(dict.fromkeys(links))[:250]

# Сбор статей
articles = []
for link in tqdm(links):
    art = parse_lenta_article(link)
    if art and len(art['text']) > 200:
        articles.append(art)
    time.sleep(0.2)

# Сохранение
with open('corpus.jsonl', 'w', encoding='utf-8') as f:
    for a in articles:
        f.write(json.dumps(a, ensure_ascii=False) + '\n')

print(f"✅ Собрано статей: {len(articles)}")


In [None]:
import json

with open("corpus.jsonl", "r", encoding="utf-8") as f:
    articles = [json.loads(line) for line in f]

word_count = sum(len(a["text"].split()) for a in articles)
print(f"📊 Всего статей: {len(articles)}")
print(f"📝 Всего слов: {word_count}")


In [None]:
import requests, json, time
from bs4 import BeautifulSoup
from urllib.parse import urljoin
from tqdm import tqdm

headers = {"User-Agent": "Mozilla/5.0 (compatible; Bot/0.1)"}

def parse_lenta_article(url):
    try:
        r = requests.get(url, headers=headers, timeout=10)
        r.encoding = 'utf-8'
        soup = BeautifulSoup(r.text, 'lxml')
        title = soup.find('h1').get_text(strip=True) if soup.find('h1') else ''
        article = soup.find('article') or soup
        paragraphs = [p.get_text(" ", strip=True) for p in article.find_all('p')]
        text = "\n".join(paragraphs)
        return {"url": url, "title": title, "text": text, "source": "lenta.ru"}
    except Exception:
        return None

# Новый раздел Lenta.ru — Россия
start_page = "https://lenta.ru/rubrics/russia/"
res = requests.get(start_page, headers=headers)
soup = BeautifulSoup(res.text, 'lxml')

links = []
for a in soup.select('a[href^="/news/"], a[href^="/articles/"]'):
    href = a.get('href')
    if href and href.startswith('/'):
        links.append(urljoin("https://lenta.ru", href.split('?')[0]))

links = list(dict.fromkeys(links))[:150]

# Собираем статьи и добавляем к старому корпусу
articles = []
for link in tqdm(links):
    art = parse_lenta_article(link)
    if art and len(art['text']) > 200:
        articles.append(art)
    time.sleep(0.2)

print(f"✅ Новых статей собрано: {len(articles)}")

# Добавляем к существующему корпусу
with open("corpus.jsonl", "a", encoding="utf-8") as f:
    for a in articles:
        f.write(json.dumps(a, ensure_ascii=False) + "\n")

print("📁 Новые статьи добавлены в corpus.jsonl")


In [None]:
import json

with open("corpus.jsonl", "r", encoding="utf-8") as f:
    articles = [json.loads(line) for line in f]

word_count = sum(len(a["text"].split()) for a in articles)
print(f"📊 Всего статей: {len(articles)}")
print(f"📝 Всего слов: {word_count}")


# ЭТАП 2. Предварительная обработка и очистка текста

In [None]:
# Создание файла text_cleaner.py
%%writefile text_cleaner.py
import re
import json
from nltk.corpus import stopwords
import nltk

# Загружаем стоп-слова
nltk.download('stopwords')
russian_stopwords = set(stopwords.words("russian"))

def clean_text(text, remove_stopwords=True, lower=True):
    """
    Очистка и нормализация текста.
    """
    if not text:
        return ""

    # Удаляем HTML-теги
    text = re.sub(r'<.*?>', ' ', text)

    # Заменяем URL и email на токены
    text = re.sub(r'http\S+|www\S+|https\S+', '<URL>', text)
    text = re.sub(r'\S+@\S+', '<EMAIL>', text)

    # Заменяем числа
    text = re.sub(r'\b\d+([.,]\d+)?\b', '<NUM>', text)

    # Убираем все символы, кроме букв, цифр и специальных токенов
    text = re.sub(r'[^а-яА-ЯёЁ0-9<>\s]', ' ', text)

    # Приводим к одному пробелу
    text = re.sub(r'\s+', ' ', text)

    if lower:
        text = text.lower()

    # Удаляем стоп-слова
    if remove_stopwords:
        words = text.split()
        words = [w for w in words if w not in russian_stopwords]
        text = ' '.join(words)

    return text.strip()

def clean_corpus(input_file="corpus.jsonl", output_file="corpus_clean.jsonl"):
    """
    Применяет очистку ко всем статьям корпуса и сохраняет результат.
    """
    cleaned_articles = []
    with open(input_file, "r", encoding="utf-8") as f:
        articles = [json.loads(line) for line in f]

    for a in articles:
        a_clean = a.copy()
        a_clean["text"] = clean_text(a["text"])
        cleaned_articles.append(a_clean)

    with open(output_file, "w", encoding="utf-8") as f:
        for a in cleaned_articles:
            f.write(json.dumps(a, ensure_ascii=False) + "\n")

    print(f"✅ Очищенный корпус сохранён в {output_file}")


In [None]:
from text_cleaner import clean_corpus

# Очищаем корпус
clean_corpus("corpus.jsonl", "corpus_clean.jsonl")


In [None]:
import json

with open("corpus_clean.jsonl", "r", encoding="utf-8") as f:
    articles = [json.loads(line) for line in f]

word_count = sum(len(a["text"].split()) for a in articles)
print(f"📊 Очищенных статей: {len(articles)}")
print(f"🧹 Всего слов после очистки: {word_count}")


# ЭТАП 3. Универсальная предобработка (нормализация и анализ корпуса)

In [None]:
%%writefile universal_preprocessor.py
import re

class UniversalPreprocessor:
    """
    Универсальный модуль предобработки текстов перед токенизацией.
    Поддерживает замену URL, email, чисел, стандартную очистку пунктуации и раскрытие сокращений.
    """

    def __init__(self, lower=True, remove_extra_spaces=True, replace_special=True):
        self.lower = lower
        self.remove_extra_spaces = remove_extra_spaces
        self.replace_special = replace_special

        # Словарь для раскрытия сокращений
        self.abbreviations = {
            r"\bт\.е\.": "то есть",
            r"\bг\.": "год",
            r"\bул\.": "улица",
            r"\bд\.": "дом",
            r"\bрис\.": "рисунок",
            r"\bстр\.": "страница",
            r"\bим\.": "имени",
            r"\bмин\.": "минута",
            r"\bсек\.": "секунда",
        }

    def replace_tokens(self, text):
        """Заменяет URL, email, числа и специальные символы"""
        text = re.sub(r'http\S+|www\S+|https\S+', '<URL>', text)
        text = re.sub(r'\S+@\S+', '<EMAIL>', text)
        text = re.sub(r'\b\d+([.,]\d+)?\b', '<NUM>', text)
        return text

    def expand_abbreviations(self, text):
        """Раскрывает общеупотребимые сокращения"""
        for pattern, replacement in self.abbreviations.items():
            text = re.sub(pattern, replacement, text, flags=re.IGNORECASE)
        return text

    def normalize_punctuation(self, text):
        """Стандартизирует пунктуацию и пробелы"""
        text = re.sub(r'[“”«»]', '"', text)
        text = re.sub(r'[–—]', '-', text)
        text = re.sub(r'\s+', ' ', text)
        return text.strip()

    def preprocess(self, text):
        """Основная функция очистки"""
        if not isinstance(text, str):
            return ""

        if self.lower:
            text = text.lower()

        if self.replace_special:
            text = self.replace_tokens(text)

        text = self.expand_abbreviations(text)
        text = self.normalize_punctuation(text)

        if self.remove_extra_spaces:
            text = re.sub(r'\s+', ' ', text).strip()

        return text


In [None]:
from universal_preprocessor import UniversalPreprocessor

prep = UniversalPreprocessor()

sample = "В 2025 г. на сайте https://lenta.ru появилось 10 новостей, т.е. <EMAIL> отправили авторам!"
print("Исходный текст:")
print(sample)
print("\nПосле обработки:")
print(prep.preprocess(sample))


# Этап 4. Сравнительный анализ методов токенизации и нормализации

In [None]:
import json
from tqdm import tqdm

with open("corpus_clean.jsonl", "r", encoding="utf-8") as f:
    articles = [json.loads(line) for line in f]

texts = [a['text'] for a in articles]
print(f"Загружено статей: {len(texts)}")


In [None]:
# Импорты
from razdel import tokenize as razdel_tokenize
import re, nltk, json
nltk.download('punkt')
from nltk.tokenize import word_tokenize
from nltk.stem.snowball import SnowballStemmer
from pymorphy3 import MorphAnalyzer
import spacy
from universal_preprocessor import UniversalPreprocessor

# --- Инициализация ---
nlp = spacy.load("ru_core_news_sm")
morph = MorphAnalyzer()
snow = SnowballStemmer("russian")
prep = UniversalPreprocessor()

# --- Токенизация ---
def tok_naive(text):
    return text.split()

TOKEN_RE = re.compile(r"[A-Za-zА-Яа-яЁё0-9]+(?:[-'][A-Za-zА-Яа-яЁё0-9]+)*")
def tok_regex(text):
    return TOKEN_RE.findall(text)

def tok_nltk(text):
    return word_tokenize(text, language='russian')

def tok_spacy(text):
    doc = nlp(text)
    return [t.text for t in doc]

def tok_razdel(text):
    # Мини-фикс: специальные токены считаются одним токеном
    text_safe = text.replace("<NUM>", "NUM_").replace("<URL>", "URL_").replace("<EMAIL>", "EMAIL_")
    return [t.text for t in razdel_tokenize(text_safe)]

# --- Нормализация ---
def stem_snowball(tokens):
    return [snow.stem(t) for t in tokens]

def lemmatize_pymorphy(tokens):
    lemmas = []
    for t in tokens:
        # Пропускаем специальные токены
        if t in ["NUM_", "URL_", "EMAIL_"]:
            lemmas.append(t)
            continue

        t_clean = t.lower().strip(".!,?:;/\\'\"-")
        if not t_clean or not re.search(r"[а-яё]", t_clean):
            continue  # просто пропускаем токены без русских букв

        try:
            p = morph.parse(t_clean)[0]
            if p.normal_form:
                lemmas.append(p.normal_form)
        except Exception:
            lemmas.append(t_clean)
    return lemmas


def lemmatize_spacy(tokens):
    doc = nlp(" ".join(tokens))
    return [t.lemma_ for t in doc if t.text.strip()]

# --- Словари методов ---
TOKENIZERS = {
    'naive': tok_naive,
    'regex': tok_regex,
    'nltk': tok_nltk,
    'spacy': tok_spacy,
    'razdel': tok_razdel
}

NORMALIZERS = {
    'snowball_stem': stem_snowball,
    'pymorphy_lemma': lemmatize_pymorphy,
    'spacy_lemma': lemmatize_spacy
}

# --- Проверка ---
sample_text = "В 2025 г. на сайте https://lenta.ru появилось 10 новостей, т.е. письмо отправили авторам!"

# Предварительная обработка текста
text_preprocessed = prep.preprocess(sample_text)

# Токенизация и лемматизация
tokens = tok_razdel(text_preprocessed)
lemmas = lemmatize_pymorphy(tokens)

# Вывод результатов
print("Исходный текст:", sample_text)
print("После препроцессинга:", text_preprocessed)
print("Токены (razdel исправлено):", tokens)
print("Леммы (pymorphy3):", lemmas)


In [None]:
import nltk
nltk.download('punkt')        # базовая модель
nltk.download('averaged_perceptron_tagger')  # если будут POS


In [None]:
import json
import time
import pandas as pd
from collections import Counter
import re

# --- Импорты токенизации/нормализации ---
from razdel import tokenize as razdel_tokenize
import spacy
from text_cleaner import clean_text
from universal_preprocessor import UniversalPreprocessor
from pymorphy3 import MorphAnalyzer
from nltk.stem.snowball import SnowballStemmer

# --- Инициализация ---
prep = UniversalPreprocessor()
nlp = spacy.load("ru_core_news_sm")
morph = MorphAnalyzer()
snow = SnowballStemmer("russian")

# --- Токенизация ---
def tok_naive(text):
    return text.split()

TOKEN_RE = re.compile(r"[A-Za-zА-Яа-яЁё0-9]+(?:[-'][A-Za-zА-Яа-яЁё0-9]+)*")
def tok_regex(text):
    return TOKEN_RE.findall(text)

def tok_spacy(text):
    doc = nlp(text)
    return [t.text for t in doc]

def tok_razdel(text):
    text = re.sub(r'(<NUM>|<URL>|<EMAIL>)', r' \1 ', text)
    return [t.text for t in razdel_tokenize(text)]

TOKENIZERS = {
    'naive': tok_naive,
    'regex': tok_regex,
    'spacy': tok_spacy,
    'razdel': tok_razdel
}

# --- Нормализация ---
def stem_snowball(tokens):
    return [snow.stem(t) for t in tokens]

def lemmatize_pymorphy(tokens):
    lemmas = []
    for t in tokens:
        t_clean = t.lower().strip(".!,?:;/\\'\"-")
        if not t_clean or not re.search(r"[а-яё]", t_clean):
            continue
        try:
            p = morph.parse(t_clean)[0]
            lemmas.append(p.normal_form)
        except Exception:
            lemmas.append(t_clean)
    return lemmas

def lemmatize_spacy(tokens):
    doc = nlp(" ".join(tokens))
    return [t.lemma_ for t in doc if t.text.strip()]

NORMALIZERS = {
    'snowball_stem': stem_snowball,
    'pymorphy_lemma': lemmatize_pymorphy,
    'spacy_lemma': lemmatize_spacy
}

# --- Загружаем корпус ---
with open("corpus_clean.jsonl", "r", encoding="utf-8") as f:
    articles = [json.loads(line) for line in f]

texts = [a["text"] for a in articles]
print(f"Всего статей: {len(texts)}")

# --- Считаем метрики ---
results = []

# Токенизация
for tok_name, tok_func in TOKENIZERS.items():
    start_time = time.time()
    all_tokens = []
    for text in texts:
        # Сначала препроцессинг (раскрытие сокращений, числа, URL)
        text_preprocessed = prep.preprocess(text)
        tokens = tok_func(text_preprocessed)
        all_tokens.extend(tokens)
    tok_time = time.time() - start_time
    vocab_size = len(set(all_tokens))
    results.append({
        "method": tok_name,
        "type": "tokenizer",
        "vocab_size": vocab_size,
        "time_per_1000": tok_time / len(texts) * 1000,
        "OOV_rate": None
    })

# Нормализация
for norm_name, norm_func in NORMALIZERS.items():
    start_time = time.time()
    all_lemmas = []
    for text in texts:
        text_preprocessed = prep.preprocess(text)
        tokens = tok_razdel(text_preprocessed)
        lemmas = norm_func(tokens)
        all_lemmas.extend(lemmas)
    norm_time = time.time() - start_time
    vocab_size = len(set(all_lemmas))
    results.append({
        "method": norm_name,
        "type": "normalizer",
        "vocab_size": vocab_size,
        "time_per_1000": norm_time / len(texts) * 1000,
        "OOV_rate": None
    })

# --- Сохраняем результаты ---
df = pd.DataFrame(results)
df.to_csv("tokenization_metrics.csv", index=False)
print("✅ Метрики сохранены в tokenization_metrics.csv")
print(df)


# этап 5 — обучение подсловных моделей

In [None]:
from tokenizers import Tokenizer, models, trainers, pre_tokenizers
from tokenizers.normalizers import Lowercase, Sequence, NFD, StripAccents
from tokenizers.pre_tokenizers import Whitespace
import json
from tqdm import tqdm

# --- Загружаем текст корпуса ---
with open("corpus_clean.jsonl", "r", encoding="utf-8") as f:
    articles = [json.loads(line) for line in f]

texts = [a["text"] for a in articles]
print(f"📊 Загружено {len(texts)} статей")

# --- Сохраняем в plain txt для обучения ---
with open("corpus_for_tokenizer.txt", "w", encoding="utf-8") as f:
    for line in texts:
        f.write(line + "\n")

# --- Настройки обучения ---
vocab_sizes = [8000, 16000, 32000]  # пример разных размеров словаря
min_frequency = 2  # минимальная частота токена

# --- Функция для обучения модели ---
def train_tokenizer(model_type="BPE", vocab_size=16000, file_path="corpus_for_tokenizer.txt"):
    if model_type == "BPE":
        tokenizer = Tokenizer(models.BPE())
    elif model_type == "WordPiece":
        tokenizer = Tokenizer(models.WordPiece())
    elif model_type == "Unigram":
        tokenizer = Tokenizer(models.Unigram())
    else:
        raise ValueError("Unsupported model type")

    # Нормализация: lowercase + NFD
    tokenizer.normalizer = Sequence([NFD(), Lowercase(), StripAccents()])

    # Пре-токенизация: разделение по пробелам
    tokenizer.pre_tokenizer = Whitespace()

    # Тренер
    if model_type == "BPE":
        trainer = trainers.BpeTrainer(vocab_size=vocab_size, min_frequency=min_frequency, special_tokens=["<PAD>", "<UNK>", "<CLS>", "<SEP>", "<MASK>"])
    elif model_type == "WordPiece":
        trainer = trainers.WordPieceTrainer(vocab_size=vocab_size, min_frequency=min_frequency, special_tokens=["<PAD>", "<UNK>", "<CLS>", "<SEP>", "<MASK>"])
    elif model_type == "Unigram":
        trainer = trainers.UnigramTrainer(vocab_size=vocab_size, min_frequency=min_frequency, special_tokens=["<PAD>", "<UNK>", "<CLS>", "<SEP>", "<MASK>"])

    # Обучение
    tokenizer.train([file_path], trainer=trainer)
    return tokenizer

# --- Пример обучения BPE на 16k слов ---
bpe_tokenizer = train_tokenizer("BPE", 16000)
bpe_tokenizer.save("bpe_16k.json")

# --- Проверка токенизации ---
sample_text = "В 2025 г. на сайте https://lenta.ru появилось 10 новостей, т.е. письмо отправили авторам!"
output = bpe_tokenizer.encode(sample_text)
print("Токены BPE:", output.tokens)
print("Индексы токенов:", output.ids)


In [None]:
# Установка зависимостей
!pip install -q tokenizers sentencepiece tqdm

import json
from tokenizers import Tokenizer, models, trainers, pre_tokenizers
from tokenizers.processors import BertProcessing
from tqdm import tqdm

# Загружаем корпус
with open("corpus_clean.jsonl", "r", encoding="utf-8") as f:
    articles = [json.loads(line) for line in f]
texts = [a["text"] for a in articles]
print(f"📊 Загружено {len(texts)} статей")

# --- Подготовка текста для тренировки ---
with open("corpus_for_tokenizers.txt", "w", encoding="utf-8") as f:
    for line in texts:
        f.write(line + "\n")
from tokenizers import trainers as t_trainers

def train_subword_model(model_type="BPE", vocab_size=16000, min_frequency=2, corpus_file="corpus_for_tokenizers.txt"):
    if model_type == "BPE":
        tokenizer = Tokenizer(models.BPE())
        tokenizer.pre_tokenizer = pre_tokenizers.Whitespace()
        trainer = t_trainers.BpeTrainer(
            vocab_size=vocab_size,
            min_frequency=min_frequency,
            special_tokens=["[UNK]", "[CLS]", "[SEP]", "[PAD]", "[MASK]"]
        )
    elif model_type == "WordPiece":
        tokenizer = Tokenizer(models.WordPiece(unk_token="[UNK]"))
        tokenizer.pre_tokenizer = pre_tokenizers.Whitespace()
        trainer = t_trainers.WordPieceTrainer(
            vocab_size=vocab_size,
            min_frequency=min_frequency,
            special_tokens=["[UNK]", "[CLS]", "[SEP]", "[PAD]", "[MASK]"]
        )
    elif model_type == "Unigram":
        from tokenizers import models as t_models
        tokenizer = Tokenizer(t_models.Unigram())
        tokenizer.pre_tokenizer = pre_tokenizers.Whitespace()
        trainer = t_trainers.UnigramTrainer(
            vocab_size=vocab_size,
            min_frequency=min_frequency,
            special_tokens=["[UNK]", "[CLS]", "[SEP]", "[PAD]", "[MASK]"]
        )
    else:
        raise ValueError("Неверный тип модели")

    tokenizer.train([corpus_file], trainer)
    return tokenizer


# --- Обучаем модели ---
bpe_tokenizer = train_subword_model("BPE", vocab_size=16000)
wp_tokenizer = train_subword_model("WordPiece", vocab_size=16000)
unigram_tokenizer = train_subword_model("Unigram", vocab_size=16000)

# --- Функция для подсчёта метрик ---
def subword_metrics(tokenizer, texts):
    total_words = 0
    total_tokens = 0
    frag_count = 0

    for text in texts:
        words = text.split()
        total_words += len(words)
        encoding = tokenizer.encode(text)
        tokens = encoding.tokens
        total_tokens += len(tokens)

        # Считаем фрагментацию: слово разбито на >1 токена
        for w in words:
            enc = tokenizer.encode(w)
            if len(enc.tokens) > 1:
                frag_count += 1

    compression_ratio = total_words / total_tokens
    fragmentation_rate = frag_count / total_words * 100
    return {
        "total_words": total_words,
        "total_tokens": total_tokens,
        "compression_ratio": compression_ratio,
        "fragmentation_rate_%": fragmentation_rate
    }

# --- Рассчитываем метрики ---
bpe_metrics = subword_metrics(bpe_tokenizer, texts)
wp_metrics = subword_metrics(wp_tokenizer, texts)
unigram_metrics = subword_metrics(unigram_tokenizer, texts)

print("📊 Метрики BPE:", bpe_metrics)
print("📊 Метрики WordPiece:", wp_metrics)
print("📊 Метрики Unigram:", unigram_metrics)


In [None]:
from tokenizers import Tokenizer
from tokenizers.models import BPE, WordPiece, Unigram
from tokenizers.trainers import BpeTrainer, WordPieceTrainer, UnigramTrainer
from tokenizers.pre_tokenizers import Whitespace
import json

# Загружаем корпус
with open("corpus_clean.jsonl", "r", encoding="utf-8") as f:
    texts = [json.loads(line)["text"] for line in f]

print(f"📊 Загружено {len(texts)} статей")

# --- Функция для расчёта метрик ---
def compute_subword_metrics(tokenizer: Tokenizer, texts):
    total_words = sum(len(text.split()) for text in texts)
    total_tokens = 0
    fragmented = 0
    reconstruction_acc = 0
    n_samples = min(100, len(texts))  # проверяем на первых 100 текстах для reconstruction

    for i, text in enumerate(texts):
        enc = tokenizer.encode(text)
        total_tokens += len(enc.ids)
        fragmented += sum(1 for word_tokens in [tokenizer.encode(w).ids for w in text.split()] if len(word_tokens) > 1)

        if i < n_samples:
            recon = tokenizer.decode(enc.ids)
            # считаем процент совпадения символов
            matches = sum(a==b for a,b in zip(text, recon))
            reconstruction_acc += matches / len(text)

    return {
        "total_words": total_words,
        "total_tokens": total_tokens,
        "compression_ratio": total_words / total_tokens,
        "fragmentation_rate_%": fragmented / total_words * 100,
        "reconstruction_accuracy_%": reconstruction_acc / n_samples * 100
    }

# --- Пример: BPE ---
bpe_tokenizer = Tokenizer(BPE())
bpe_tokenizer.pre_tokenizer = Whitespace()
trainer_bpe = BpeTrainer(vocab_size=16000, min_frequency=2, special_tokens=["[UNK]", "[CLS]", "[SEP]", "[PAD]", "[MASK]"])
bpe_tokenizer.train_from_iterator(texts, trainer_bpe)
metrics_bpe = compute_subword_metrics(bpe_tokenizer, texts)
print("📊 Метрики BPE:", metrics_bpe)

# --- WordPiece ---
wp_tokenizer = Tokenizer(WordPiece(unk_token="[UNK]"))
wp_tokenizer.pre_tokenizer = Whitespace()
trainer_wp = WordPieceTrainer(vocab_size=16000, min_frequency=2, special_tokens=["[UNK]", "[CLS]", "[SEP]", "[PAD]", "[MASK]"])
wp_tokenizer.train_from_iterator(texts, trainer_wp)
metrics_wp = compute_subword_metrics(wp_tokenizer, texts)
print("📊 Метрики WordPiece:", metrics_wp)

# --- Unigram ---
unigram_tokenizer = Tokenizer(Unigram())
unigram_tokenizer.pre_tokenizer = Whitespace()
trainer_unigram = UnigramTrainer(vocab_size=16000, min_frequency=2, special_tokens=["[UNK]", "[CLS]", "[SEP]", "[PAD]", "[MASK]"])
unigram_tokenizer.train_from_iterator(texts, trainer_unigram)
metrics_unigram = compute_subword_metrics(unigram_tokenizer, texts)
print("📊 Метрики Unigram:", metrics_unigram)


# Этап 6. Разработка веб-интерфейса для интерактивного анализа

In [None]:
!pip install streamlit pyngrok razdel matplotlib seaborn pandas


In [None]:
from pyngrok import ngrok
ngrok.set_auth_token("33rrvngq55Ym4ttNvRgvHJi6I9z_3uyg5NWWBepyuEtYCYiey")


In [None]:
%%writefile app.py
import streamlit as st
import pandas as pd
from razdel import tokenize as razdel_tokenize
import matplotlib.pyplot as plt
import seaborn as sns
from collections import Counter

st.title("🧠 Интерактивный анализ текста")
st.write("Выберите параметры обработки и визуализируйте результаты")

# --- Загрузка данных ---
uploaded_file = st.file_uploader("Загрузите файл с текстами (.csv или .jsonl)")
if uploaded_file:
    if uploaded_file.name.endswith(".csv"):
        df = pd.read_csv(uploaded_file)
    elif uploaded_file.name.endswith(".jsonl"):
        df = pd.read_json(uploaded_file, lines=True)
    texts = df['text'].tolist()
else:
    st.info("Используется предзагруженный пример")
    texts = ["В 2025 г. на сайте https://lenta.ru появилось 10 новостей, т.е. письмо отправили авторам!"]

# --- Выбор метода токенизации ---
method = st.selectbox("Метод токенизации", ["naive", "regex", "razdel"])

def tok_naive(text):
    return text.split()

def tok_regex(text):
    import re
    TOKEN_RE = re.compile(r"[A-Za-zА-Яа-яЁё0-9]+(?:[-'][A-Za-zА-Яа-яЁё0-9]+)*")
    return TOKEN_RE.findall(text)

def tok_razdel(text):
    return [t.text for t in razdel_tokenize(text)]

TOKENIZERS = {"naive": tok_naive, "regex": tok_regex, "razdel": tok_razdel}

# --- Анализ ---
all_tokens = []
for text in texts:
    all_tokens.extend(TOKENIZERS[method](text))

# Графики
token_lengths = [len(t) for t in all_tokens]
freq = Counter(all_tokens)

st.subheader("Распределение длин токенов")
fig, ax = plt.subplots()
sns.histplot(token_lengths, bins=20, ax=ax)
st.pyplot(fig)

st.subheader("Топ 20 токенов")
top_tokens = pd.DataFrame(freq.most_common(20), columns=["token", "count"])
st.bar_chart(top_tokens.set_index("token"))

st.write("Всего токенов:", len(all_tokens))
st.write("Количество уникальных токенов:", len(set(all_tokens)))


In [None]:
from pyngrok import ngrok
ngrok.kill()  # убивает все активные туннели текущей сессии


In [None]:
public_url = ngrok.connect(8501)
print("🌐 Перейди по ссылке:")
print(public_url)


In [None]:
# Создаём примерный датасет
sample_texts = [
    {"text": "В 2025 г. на сайте https://lenta.ru появилось 10 новостей, т.е. письмо отправили авторам!"},
    {"text": "Сегодня погода была солнечная и теплая, что позволило провести прогулку в парке."},
    {"text": "Компания представила новый продукт, который обещает изменить рынок технологий."},
    {"text": "На уроке информатики дети изучали основы Python и создавали первые программы."},
    {"text": "Вечером в городе прошел фестиваль музыки и искусств, на который пришло много людей."}
]

# Сохраняем как JSONL
with open("sample_texts.jsonl", "w", encoding="utf-8") as f:
    for line in sample_texts:
        f.write(f"{line}\n")

print("Файл 'sample_texts.jsonl' готов для загрузки!")