# ДЗ2. Семантическая близость (kaggle-соревнование)

## Введение

В этом задании вы будете решать задачу семантической релевантности пар постов и отправлять предсказания на Kaggle.

**Цель:** построить модель, которая по паре постов предсказывает, насколько тексты близки друг другу по смыслу.

Вся информация по заданию, данным, а также доступ к ним - только через закрытое соревнование.

Метрика качества: **Weighted F1-score** по всем классам.

Подробная разбалловка за ноутбук и соревнование описана ниже.


Вот несколько правил, который помогут нам сделать работу приятнее и продуктивнее:

- Можно использовать любые свободные источники с обязательным указанием ссылки на них. Если в работе вы используете генеративные модели, их указание обязательно. Иначе баллы за работу могут быть снижены. Также следите за оригинальностью: генеративного кода должно быть не более 60% работы.
- Плагиат не допускается. При обнаружении случаев списывания, 0 за работу выставляется всем участникам нарушения, даже если можно установить, кто у кого списал.
- Старайтесь сделать код как можно более оптимальным. В частности, будет штрафоваться использование циклов в тех случаях, когда операцию можно совершить при помощи инструментов библиотек, о которых рассказывалось в курсе.

**Формат сдачи**

Задания сдаются через систему LMS. Посылка должна содержать:

- ноутбук `homework-02-Username.ipynb`  
  где `Username` - ваша фамилия латиницей, без пробелов (например, `homework-02-Ivanov.ipynb`);
- комментарий к посылке, в котором укажите ваш Kaggle nicknamе (по нему мы будем искать вас в лидерборде соревнования).

> Если вы используете дополнительные файлы (скрипты, сохранённые веса модели и т.п.), то либо:
> - делайте так, чтобы ноутбук мог их скачать сам (например, с Kaggle / Google Drive),  
> - либо приложите их архивом и явно опишите в ноутбуке, как ими пользоваться.  
> В идеале всё должно работать без ручных правок путей.

### Об оценивании

В этом домашнем задании у вас есть два источника баллов:

1. Баллы за ноутбук (за код, воспроизводимость и эксперименты)
2. Баллы за результат на Kaggle (Private leaderboard)

Важно: баллы за соревнование начисляются только при сданном ноутбуке.

**1) Баллы за ноутбук (максимум 8.0 баллов)**

За реализацию пайплайна в этом ноутбуке можно получить **до 8 баллов**.

Минимальная работа - 5.0 баллов.
Вы получаете 5 баллов, если ноутбук:

* запускается без ручных правок,
* делает подготовку данных,
* обучает/применяет модель (baseline),
* формирует корректный `submission.csv`,
* и вы сдаёте этот ноутбук в LMS.

Дальше можно добрать баллы:

* **+1.0 балл** - если вы преодолели минимальный бенчмарк на Kaggle (Public score ≥ `B_min`).
* **+1.0 балл** - за объёмные эксперименты: осмысленные сравнения подходов (например, несколько моделей/фич/стратегий, таблица результатов + короткие выводы что помогло и почему).
* **+1.0 балл** - если вы преодолели сильный бенчмарк на Kaggle (Public score ≥ `B_strong`).

> Пороговые значения **`B_min`** и **`B_strong`** будут указаны на странице Kaggle.

**2) Баллы за соревнование на Kaggle (до 2.0 баллов)**

Дополнительные баллы начисляются по вашему лучшему результату на приватном лидерборде (*Private leaderboard*) и только если у вас сдан воспроизводимый ноутбук.

Баллы за соревнование состоят из двух независимых бонусов:

A. Бонус за попадание в топ-10 (дополнительно):

* Если вы попали в топ-10 по Private leaderboard -> **+1.0 балл**

B. Бонус за попадание в топ-2% (дополнительно):

* Если вы попали в топ-2% по Private leaderboard -> **+1.0 балл**

Таким образом:

* Участник из топ-10 получит **+1**,
* участник из топ-2% получит ещё **+1**,
* участники, которые одновременно в топ-10 и топ-2%, получат **+2**.

> Примечание: топ-2% считается от числа участников, сдавших хотя бы один валидный сабмит. Если 2% - это дробное число, округляем вверх (например, при 120 участниках топ-2% = топ-3 места).

**Суммарно за ДЗ2**

* Максимум за ноутбук: 8.0
* Максимум за Kaggle-бонусы: 2.0
* Максимальная оценка за ДЗ2: 10.0


### Требование к воспроизводимости

В конце ноутбука у вас должен быть отдельный блок "Воспроизводимый пайплайн" с одной кодовой ячейкой, которая из исходных данных собирает финальный `submission.csv`в для Kaggle.

Именно эта ячейка должна воспроизводить ваш итоговый результат. Если финальная модель обучалась долго, допускается загружать заранее сохранённые веса, а не обучать модель с нуля.

## Основная часть работы (5 баллов)

### Сеттинг и данные

Описание данных доступно на Kaggle.

Вы можете использовать данные, которые загружены в самом соревновании, либо воспользоваться теми, что заботливо сложили на Google Диск. Ссылка на Google Диск так же в разделе "данные" на Kaggle.

In [None]:
# Как получить файл по ссылке с Google Диска в Colab?

# Устанавливаем gdown
!pip install -q gdown

import gdown

# Если ссылка выглядит так:
# https://drive.google.com/file/d/FILE_ID/view?usp=sharing
# то FILE_ID - это часть между /d/ и /view.

FILE_ID = "ВСТАВЬТЕ_ЗДЕСЬ_FILE_ID"  # например, "1LmQ6xJLnp7gKgjoFsxарввrKLSa1"
OUTPUT_NAME = "items.parquet"       # как назвать скачанный файл

gdown.download(id=FILE_ID, output=OUTPUT_NAME, quiet=False)

# После этого файл можно читать как обычный локальный:
# items = pd.read_parquet("items.parquet")

### Задание 1. Подготовка данных и первичный EDA (1 балл)

Цель: убедиться, что данные читаются корректно, и понять базовые свойства выборки.

Что нужно сделать:

1. Загрузить необходимые четыре файла.
2. Посчитать размеры таблиц, проверить типы столбцов.
3. Посмотреть распределение классов `result` в train (`value_counts` и `value_counts(normalize=True)`).
4. Вывести несколько примеров пар постов: замерджить train с items и посмотреть, как выглядят тексты для разных классов.

Результат: у вас есть базовое понимание, что за данные и какие классы вы предсказываете.

In [None]:
# базовое исследование данных и распределений
# your code here ฅ^•ﻌ•^ฅ

### Задание 2. Сборка датасета пар (1 балл)


**Цель:** собрать удобный датафрейм, где в каждой строке есть все тексты и метаданные пары.

Идея в том, чтобы из `train` и `items` получить таблицу, где в каждой строке:

- идентификаторы пары и целевой класс,
- тексты и/или заголовки левого и правого постов,
- при желании - другие поля.

Аналогично для `test`.

Конкретные имена колонок и то, как именно вы склеиваете тексты - на ваше усмотрение. Важно, чтобы в дальнейшем вам было удобно из этого строить признаки для модели.

In [None]:
# merge train_pairs_raw и test_pairs_raw с items
# your code here ヾ(๑╹◡╹)ﾉ

### Задание 3. Базовый текстовый baseline (3 балла)

**Цель:** построить простой, но полноценный pipeline для задачи:

1. подготовка текстовых признаков для пары,
2. обучение модели,
3. оценка качества на валидации (Weighted F1),
4. формирование корректного `submission.csv` для Kaggle.

Здесь должна появиться первая рабочая модель, которая:

- использует текст пары в каком-то разумном виде,
- обучается на train,
- даёт осмысленное качество на валидации,
- позволяет сформировать `submission.csv` для Kaggle.

**Схема (это только логика, а не пошаговая инструкция):**

1. Как-то представить текст пары.

   Начать проще всего с заголовков, а там можно и тексты добавить.

2. Сделать разбиение на train/validation:
   - выделить часть train-пар под валидацию;
   - желательно учитывать классы (`stratify` по `result`), но это не жёсткое требование.

3. Выбрать способ векторизации текста.
   Стартануть с чего-то базового:
   - Bag-of-Words,
   - TF-IDF с униграммами/биграммами.

4. Обучить базовую модель. Например:
   - логистическая регрессия,
   - линейный SVM,
   - SGD-классификатор.

5. Посчитать качество на валидации.
   - Weighted F1 (главная метрика),
   - короткий комментарий, какие классы предсказываются лучше/хуже.

6. Сделать baseline-сабмит.  
   - обучить выбранную модель на всём train,
   - применить её к test-парам,
   - сохранить `submission.csv` с колонками `pairId,result`.

Конкретный выбор векторизатора/модели - на вашей совести, но важно, чтобы это был действительно работающий конец-до-конца baseline, а не только эксперименты.

In [None]:
# базовый текстовый pipeline
# your code here (づ｡◕‿‿◕｡)づ

## Улучшения baseline'а (дополнительные баллы)

Дальше начинается про "улучшение и осмысленность". Здесь вы можете получить дополнительные баллы за продуманные эксперименты.

### 1. Углублённый EDA по текстам (чтобы понимать, какие фичи вообще нужны)

Перед тем как изобретать признаки, полезно чуть глубже посмотреть на тексты. Возможные направления:

- распределения длины:
  - заголовков,
  - текстов,
  - объединённых текстов;
- сравнение этих распределений по классам;
- частотные слова/фразы для разных классов:
  - какие токены чаще встречаются в `relevant_plus`,
  - какие - в `no_relevant`;
- проверка доли пар с одинаковыми авторами в разных классах;
- среднее/типичное количество общих слов между текстами пары по каждому классу.

Не нужно превращать это в отдельный научный отчёт,  
но 2–3 осмысленных наблюдения, которые потом перейдут в фичи, - это очень хорошо.

In [None]:
# углублённый EDA
# your code here ┌(ಠ_ಠ)┘


#### 2. Улучшения моделей и признаков

Нужно реализовать минимум два осмысленных улучшения относительно baseline.  
Это могут быть:

- Более выразительные текстовые представления:
  - n-граммы большей длины,
  - раздельные векторы для левой и правой части с последующей склейкой,
  - эмбеддинги предложений (Sentence-BERT, RuBERT и т.п.).

- Ручные фичи, вдохновлённые EDA:
  - длины текстов, разницы длин,
  - доля общих слов,
  - индикаторы вроде совпадения авторов,
  - другие простые числовые признаки.

- NER (Named Entity Recognition) - особенно приветствуется:
  - извлечь сущности из текстов,
  - посчитать пересечение по сущностям для пары,
  - добавить это как признаки и посмотреть, влияет ли на F1.

- Трансформеры (по желанию):
  - BERT / другая модель как cross-encoder для пары текстов,
  - сравнение "только заголовки" vs "заголовки + тексты",
  - обсуждение влияния длины контекста.

Важно: здесь нет цели перебрать всё подряд. Нам интересно увидеть, что вы:
- опираетесь на EDA при выборе фич,
- пробуете хотя бы пару разных направлений,
- сравниваете их по той же самой валидации, что и baseline.

>


In [None]:
# эксперименты с улучшенными признаками / моделями
# your code here ٩(⁎❛ᴗ❛⁎)۶

#### 3. Таблица экспериментов и выводы

В конце экспериментов полезно аккуратно собрать результаты.

Рекомендуется:

1. Выбрать несколько конфигураций (baseline + улучшения, 3–5 вариантов).
2. Для каждой записать:
   - краткое описание (какие фичи и модель),
   - Weighted F1 на валидации.
3. Оформить это в виде таблицы (пример):

| Модель / фичи                     | Weighted F1 (val) |
|-----------------------------------|-------------------|
| метод 1     | 0.XX              |
| метод 2          | 0.XX              |
| метод 3    | 0.XX              |
| метод 4    | 0.XX              |
| метод 5 | 0.XX              |

## Воспроизводимый пайплайн (обязательный блок, если вы участовали в соревновании)

В этом разделе добавьте, пожалуйста, одну аккуратную кодовую ячейку, в которой собран **целостный пайплайн** для получения финального `submission.csv`.

Эта ячейка должна:

1. Загрузить данные
   - либо повторно считать `items.parquet`, `train.csv`, `test.csv`,  
   - либо опираться на уже загруженные выше переменные (но без ручного редактирования кода).

2. Подготовить признаки
   - собрать тексты пар в том виде, в котором они используются вашей финальной моделью;  
   - при необходимости - достроить дополнительные фичи.

3. Создать и загрузить финальную модель
   - либо обучить её (если обучение занимает разумное время в Colab/Kaggle),  
   - либо загрузить заранее обученные веса:
     - из локального файла,
     - или по ссылке (Google Drive / Kaggle Datasets и т.д.).

4. Выполнить инференс на test
   - получить предсказания классов для всех строк `test.csv`.

5. Сформировать `submission.csv` в формате соревнования:
   - две колонки: `pairId`, `result`,
   - `pairId` - как в исходном `test.csv`,
   - `result` - одна из 4 меток: `relevant_plus`, `relevant`, `relevant_minus`, `no_relevant`.

**Требование:**  

если ассистент запустит только эту ячейку (при условии, что все необходимые функции/классы определены выше), на выходе должен появиться корректный `submission.csv`, соответствующий вашему финальному сабмиту на Kaggle.

Если ваша финальная модель обучалась долго (например, трансформер):

- обучите её один раз заранее;
- сохраните веса в файл и выложите в доступное место;
- в этой ячейке загрузите готовые веса, а не переобучайте модель с нуля;
- кратко укажите в комментарии, откуда берутся веса (ссылка/путь).

In [None]:
# Воспроизводимый пайплайн: формирование финального submission.csv
# TODO: заполните эту ячейку так, чтобы при запуске она:
#  1) подготовила данные и признаки
#  2) загрузила/создала вашу финальную модель
#  3) посчитала предсказания на test
#  4) сохранила submission.csv в нужном формате

# your code here (⌐■_■)

## Завершающий блок: выводы

Пожалуйста, в конце ноутбука добавьте небольшой текстовый вывод (5–10 предложений). Можно ориентироваться на такой план:

- Какой baseline вы построили и какую метрику он давал?
- Какие улучшения вы попробовали (эмбеддинги, NER, пересечения и т.п.)?
- Что реально помогло улучшить качество, а что - нет (и почему, по вашему мнению)?
- Какой итоговый Weighted F1 на валидации у вашей лучшей модели?
- Короткий комментарий о результате на Kaggle.

Ответ: # your text here (ಠ.ಠ)