<a href="https://colab.research.google.com/github/CodeHunterOfficial/ABC_DataMining/blob/main/NLP/NLP-2025/%D0%9B%D0%B0%D0%B1%D0%BE%D1%80%D0%B0%D1%82%D0%BE%D1%80%D0%BD%D1%8B%D0%B9_%D0%BF%D1%80%D0%B0%D0%BA%D1%82%D0%B8%D0%BA%D1%83%D0%BC_2.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>



# Практическая работа № 2  
**Тема.** Сравнительный анализ методов векторизации текста

---

## 1. Цель и задачи работы

**Цель работы** — формирование у обучающегося системного и практического представления о спектре методов векторного представления текстовых данных, охватывающего как классические статистические подходы, так и современные методы распределённых эмбеддингов на уровне слов и документов. Работа направлена на развитие навыков критического сравнения алгоритмов векторизации, оценки их семантических и вычислительных свойств, а также на освоение практик публикации моделей и результатов в открытом доступе.

**Основные задачи работы:**

1. Использовать корпус текстов, сформированный в рамках Практической работы № 1, в качестве экспериментальной базы.  
2. Реализовать и сравнить классические (статистические) и современные (эмбеддинговые) методы векторизации текста.  
3. Освоить обучение моделей распределённых представлений: **Word2Vec** (CBOW/Skip-gram), **FastText** (cbow/skipgram), **GloVe**, **Doc2Vec** (PV-DM/PV-DBOW).  
4. Провести анализ семантических свойств векторных пространств с использованием косинусного сходства, векторной арифметики и аналогий.  
5. Оценить эффективность методов на основе количественных и качественных метрик.  
6. Разработать интерактивный веб-интерфейс для визуализации и анализа векторных представлений.  
7. Опубликовать обученные модели в открытых репозиториях (в частности, на Hugging Face Hub) с соблюдением стандартов документирования.

---

## 2. Теоретические предпосылки

Векторизация текста — преобразование неструктурированных текстовых данных в числовые векторные представления — является ключевым этапом предобработки в задачах обработки естественного языка (NLP). Качество получаемых векторов напрямую определяет эффективность решаемых задач: классификации, кластеризации, семантического поиска, суммаризации и др.

В рамках настоящей работы рассматриваются три основных класса методов векторизации:

1. **Статистические методы:**  
   - **One-Hot Encoding** — бинарное кодирование слов;  
   - **Bag of Words (BoW)** — представление документов как векторов частот слов;  
   - **TF-IDF** — учёт веса термина с учётом его редкости в корпусе.

2. **Методы снижения размерности:**  
   - **LSA (Latent Semantic Analysis)** — выявление латентных семантических связей с использованием сингулярного разложения (SVD);  
   - Позволяет уменьшить размерность при сохранении семантической структуры корпуса.

3. **Распределённые представления (эмбеддинги):**  
   - **На уровне слов:**  
     - **Word2Vec**: архитектуры **Skip-gram** и **CBOW**;  
     - **GloVe**: обучение на глобальной матрице совместной встречаемости;  
     - **FastText**: подсловная модель, учитывающая морфологическую структуру слов.  
   - **На уровне документов:**  
     - **Doc2Vec**: архитектуры **PV-DM** (Distributed Memory) и **PV-DBOW** (Distributed Bag of Words).

Эти подходы различаются по способу кодирования семантики, требованиям к ресурсам, устойчивости к разреженности и способности обобщать на новые данные.

---

## 3. Методика и порядок выполнения работы

Практическая работа выполняется последовательно по восьми этапам.

### 3.1. Этап 1. Подготовка экспериментального корпуса

**Задача:** Использовать корпус текстов, созданный в рамках Практической работы № 1, в качестве основы для всех экспериментов.

**Требования к корпусу:**

- **Источники:**  
  Основной — русскоязычные новостные порталы (ТАСС, РИА Новости, Lenta.ru, Meduza, Коммерсант и др.).  
  Допускается включение дополнительных источников, включая материалы на языках народов Российской Федерации (татарский, башкирский, чувашский и др.) с целью обеспечения лингвистического разнообразия.

- **Объём:** не менее 100 000 слов.  
- **Структура документа:** поля `title`, `text`, `date`, `url`, `category`.  
- **Формат:** JSONL (по одному документу на строку).  
- **Предварительная обработка:** токенизация, лемматизация/стемминг, фильтрация стоп-слов, очистка от шумов.

> **Примечание:** Использование собственного корпуса обеспечивает сквозной образовательный эффект и позволяет оценивать влияние качества предобработки на последующую векторизацию.

### 3.2. Этап 2. Реализация классических методов векторизации

**Задача:** Разработать модуль классической векторизации с поддержкой n-грамм.

**Требования к реализации:**

- Поддержка методов: One-Hot Encoding, Bag of Words, TF-IDF.  
- Возможность генерации уни-, би- и триграмм.  
- Анализ разреженности и размерности векторных пространств.  
- Код оформляется в виде модуля `classical_vectorizers.py`.  
- Рекомендуется использование библиотеки `scikit-learn` (`CountVectorizer`, `TfidfVectorizer`).

### 3.3. Этап 3. Снижение размерности и тематическое моделирование

**Задача:** Реализовать модуль анализа и снижения размерности векторных пространств.

**Функциональность:**

- Применение **TruncatedSVD (LSA)** для выявления латентных тем.  
- Контроль сохраняемой дисперсии при снижении размерности.  
- Визуализация компонент и их интерпретация.  
- Оценка зависимости качества представлений от числа компонент.  
- Дополнительно — использование `UMAP` или `t-SNE` для двумерной визуализации.

### 3.4. Этап 4. Сравнительный анализ классических методов

**Задача:** Провести эмпирическое сравнение эффективности классических подходов.

**Методы для сравнения:**  
One-Hot Encoding, BoW, TF-IDF, n-граммные модели.

**Метрики оценки:**

- Размерность векторного пространства;  
- Разреженность (sparsity);  
- Семантическая согласованность (косинусное сходство документов одной категории);  
- Время обработки и объём занимаемой памяти.

**Форма представления результатов:**  
Сводная таблица в формате CSV (`vectorization_metrics.csv`) и аналитический комментарий в отчёте.

### 3.5. Этап 5. Обучение моделей распределённых представлений

**Задача:** Обучить и сравнить широкий спектр моделей векторизации на едином корпусе.

**Перечень моделей:**

- **Word-level:** Word2Vec (CBOW, Skip-gram), FastText (cbow, skipgram), GloVe (при наличии ресурсов);  
- **Document-level:** Doc2Vec (PV-DM, PV-DBOW).

**Инструментарий:**  
`gensim`, официальная библиотека `fasttext`, `glove-python`.

**Параметры обучения:**

- Размерность: 100, 200, 300;  
- Размер окна: 5–10;  
- Минимальная частота слова: 5–10;  
- Архитектура: выбор между режимами (sg/cbow для Word2Vec и FastText, dm/dm=0 для Doc2Vec).

**Метрики оценки:**

- Для word embeddings: точность аналогий, корреляция с семантическим сходством, покрытие словаря, морфологическая устойчивость;  
- Для document embeddings: качество кластеризации (ARI), точность классификации;  
- Общие: время обучения, объём памяти.

### 3.6. Этап 6. Эксперименты с векторной арифметикой и семантическими операциями

**Задача:** Исследовать семантические свойства полученных векторных пространств.

**План экспериментов:**

1. **Косинусное сходство:**  
   - Анализ распределений расстояний;  
   - Оценка близости для синонимов, антонимов, тематически связанных слов.

2. **Векторная арифметика:**  
   - Классические аналогии («мужчина – женщина + король = королева»);  
   - Семантические (географические), синтаксические и морфологические аналогии для русского языка.

3. **Семантические оси и смещения (bias):**  
   - Определение осей (пол, социальный статус, оценка);  
   - Измерение и визуализация смещений.

4. **Анализ ближайших соседей:**  
   - Топ-10 соседей для тестовых слов;  
   - Оценка семантической согласованности и выявление артефактов.

**Метрики:**  
Точность аналогий, стабильность арифметических операций, интерпретируемость осей, согласованность соседей.

### 3.7. Этап 7. Разработка веб-интерфейса для анализа векторных пространств

**Задача:** Создать интерактивный веб-инструмент для исследования векторов.

**Функционал:**

- Интерактивная векторная арифметика с визуализацией;  
- Калькулятор косинусного сходства;  
- Проекция слов на семантические оси;  
- Генерация динамического отчёта (HTML/PDF) с визуализациями.

**Рекомендуемые технологии:**  
`Streamlit`, `Gradio`, или `Flask`/`FastAPI` + `Plotly`/`D3.js`.

### 3.8. Этап 8. Публикация моделей в Hugging Face Hub

**Задача:** Обеспечить открытость и воспроизводимость результатов.

**Требования к оформлению:**

Для каждой модели создаётся **Model Card**, содержащий:

- Название модели и описание;  
- Характеристики корпуса и параметров обучения;  
- Ключевые метрики (точность аналогий, корреляция, покрытие);  
- Пример кода для загрузки и использования;  
- Лицензию (рекомендуется MIT или Apache 2.0).

> **Примечание:** Модель должна быть совместима с общепринятыми библиотеками и снабжена понятным API.

---

## 4. Дополнительные исследовательские задания

1. **Анализ тематической структуры:**  
   Оценка сохранения тематической целостности при использовании различных методов векторизации.

2. **Влияние морфологии:**  
   Сравнение эффективности FastText и Word2Vec для русского языка с богатой флективной и деривационной морфологией.

3. **Семантический дрейф:**  
   Обучение моделей на текстах разных временных периодов и анализ изменения значений слов со временем.

---

## 5. Требования к отчёту

Отчёт оформляется в соответствии с **ГОСТ 7.32–2017** и должен включать:

1. Титульный лист (ФИО, учебная группа, дата, подпись преподавателя);  
2. Постановку задачи и цели;  
3. Описание методов и инструментов;  
4. Структуру и характеристики корпуса;  
5. Результаты экспериментов (таблицы, графики, визуализации);  
6. Сравнительный анализ классических и эмбеддинговых подходов;  
7. Результаты экспериментов с векторной арифметикой и семантическим сходством;  
8. Ссылки на:  
   - Исходный код (GitHub/GitLab);  
   - Веб-приложение;  
   - Опубликованные модели (Hugging Face Hub);  
9. Выводы и рефлексию (оценка эффективности методов для русского языка, выявленные трудности, наблюдения по семантическим свойствам).

Список использованных источников оформляется в соответствии с **ГОСТ Р 7.0.5–2008**.

---

## 6. Критерии оценивания

| Оценка | Критерии |
|--------|----------|
| **Отлично (5)** | Полное выполнение всех этапов, включая дополнительные задания. Наличие функционального веб-интерфейса и опубликованных моделей. Глубокий количественный и качественный анализ векторных пространств, корректные эксперименты с семантическими операциями. Отчёт соответствует ГОСТ. |
| **Хорошо (4)** | Выполнение всех основных этапов (1–8). Наличие веб-интерфейса и отчёта с визуализациями. Корректный анализ и интерпретация результатов. |
| **Удовлетворительно (3)** | Выполнение этапов 1–6. Отчёт содержит описание методов, таблицы метрик и базовые выводы. |
| **Неудовлетворительно (2)** | Отсутствие ключевых этапов, некорректное выполнение заданий или отсутствие отчёта. |
