# ЯЗЫКИ СТАТЕЙ

Основные языки, используемые для цитирования в науке – это самые распространенные языки мира. Английский язык является наиболее популярным: на нем разговаривают около 2 миллионов человек, и около 80% всех научных статей написаны на английском (Björk & Solomon, 2012). Другие языки:

- **Латынь** – язык терминологии во многих науках и искусствах.
- **Русский язык** – язык основной целевой аудитории: в России и странах СНГ многие исследования публикуются на русском, особенно в гуманитарных и социальных науках. Доступ к таким статьям может быть ограничен.
- **Испанский, французский, немецкий и китайский** – имеют значительное количество публикаций, особенно в локальных журналах.

**Аргументация:** Приложение должно поддерживать несколько языков, чтобы обеспечить доступность для широкой аудитории. Это позволит охватить более широкий спектр пользователей и увеличить количество статей для резюмирования.

# ТЕМАТИКИ

Ежедневно публикуются миллионы статей, блогов и научных работ в различных областях. Эти области можно объединить по критериям, и суммаризатор должен уметь различать типы статей и классифицировать их по предметам исследований:

- **Естественные науки** (химия, биология, физика)
- **Технические науки** (инженерия, информатика, робототехника)
- **Социальные науки** (психология, социология, экономика) – исследования человеческого поведения и социальных структур
- **Медицинские науки** – охватывают клинические исследования, фармакологию, эпидемиологию; содержат много статистических данных, что усложняет анализ.

**Аргументация:** Каждая тематика требует специфического подхода к резюмированию. Например, в естественных науках важно сохранять точность терминов, в то время как в социальных науках может быть важнее передать контекст исследования.

# ПРОБЛЕМЫ В ДАННЫХ

1. **Разнообразие форматов:** Научные статьи могут быть в разных форматах (PDF, DOCX), что затрудняет автоматическое извлечение текста.
2. **Качество данных:** Не все статьи имеют структурированные аннотации или резюме, что усложняет процесс резюмирования.
3. **Сложность языка:** Научные статьи часто используют специализированный язык и термины.
4. **Объем статей:** Некоторые статьи очень длинные и содержат ненужную информацию.

**Аргумент к решению:** Для решения этих проблем необходимо разработать функционал для обработки различных форматов документов и методов предобработки текста (например, очистка от лишних символов и форматирование).

# МЕТРИКИ ОЦЕНИВАНИЯ КАЧЕСТВА РЕЗЮМИРОВАНИЯ

Для оценки качества резюмирования можно использовать следующие метрики:

## 1. ROUGE (Recall-Oriented Understudy for Gisting Evaluation)

- **ROUGE-N:** Измеряет совпадение n-грамм между резюме и оригинальной статьей.
- **ROUGE-L:** Оценивает длину наибольшей общей последовательности (LCS) между резюме и оригиналом.

**Аргумент к решению:** Эти метрики широко используются в автоматическом резюмировании и позволяют оценить качество резюме на основе совпадений с оригинальным текстом (Lin, 2004).

## 2. BLEU (Bilingual Evaluation Understudy)

Измеряет качество перевода, но также может применяться к резюмированию, оценивая совпадения n-грамм.

**Аргумент к решению:** BLEU помогает оценить точность резюме в передаче информации из оригинала, хотя его применение в резюмировании менее эффективно по сравнению с ROUGE.

## 3. METEOR (Metric for Evaluation of Translation with Explicit Ordering)

METEOR учитывает синонимы и морфологические изменения, что делает его более чувствительным к смыслу текста.

**Аргумент к решению:** Эта метрика полезна для оценки семантики и помогает избежать потери смысла при автоматическом резюмировании.

### Человеческая оценка

Проведение опросов среди экспертов или целевой аудитории для качественной оценки резюме с вопросами о полноте, ясности и релевантности информации.

**Аргумент к решению:** Человеческая оценка позволяет получить качественную обратную связь и выявить аспекты, которые могут быть не учтены автоматическими метриками.

# Заключение

Для разработки MVP web-приложения для резюмирования научных статей необходимо учитывать языковое разнообразие и тематику статей, а также проблемы с данными. Использование метрик ROUGE, BLEU и METEOR в сочетании с человеческой оценкой позволит создать эффективный инструмент для автоматического резюмирования, что обеспечит высокое качество резюме и удовлетворит потребности пользователей из разных областей науки.

---

### Ссылки:
- [ROUGE (metric)](https://en.wikipedia.org/wiki/ROUGE_(metric))
- [Влияние отзывов на мнение потребителя](https://vc.ru/marketing/91417-issledovanie-vliyanie-otzyvov-na-mnenie-potrebitelya)
- [Публикации на разных языках в индексах цитирования](https://www.unkniga.ru/kultura/8295-publikatsii-na-raznyh-yazykah-v-indeksah-tsitirvaniya-est-li-shans.html)
- [Области науки и их виды](https://zaochnik-com.com/spravochnik/filosofija/filosofija-nauki/oblasti-nauki-i-ih-vidy/)
- [BLEU Evaluation Metric](https://www.educative.io/answers/what-is-the-bleu-evaluation-metric)
- [METEOR Evaluation Metric](https://huggingface.co/spaces/evaluate-metric/meteor/blob/main/README.md)
- 


# Источники данных для обучения (dataset)

Наиболее подходящие датасеты для обучения суммаризатора научных статей включают:

- **PubMed и PMC (PubMed Central):** большие датасеты из биомедицинских статей, широко используемые для задач по обработке медицинских текстов.
- **ArXiv:** содержит научные статьи по физике, математике, информатике и другим областям.
- **ScienceQA:** охватывает множество дисциплин, содержит полный текст статей и рефераты.
- **SciTLDR:** датасет из сокращенных версий научных статей, сгенерированных вручную и автоматически.

# Оценка моделей

## BART

- **ROUGE-N и ROUGE-L:** Модель показала хорошие результаты по основным метрикам, но уступила более специализированным моделям, таким как Pegasus и Gemma2.
- **BLEU и METEOR:** Производительность на BLEU и METEOR также была стабильной, но не выдающейся, особенно на длинных научных текстах, где модель иногда теряла точность в передаче смысловых блоков.
- **Вывод:** Хороший вариант для задач общей суммаризации, но не лучший для научных текстов.

## T5

- **ROUGE-N и ROUGE-L:** Универсальность T5 делает её полезной для разных задач, но показатели ROUGE ниже, чем у Gemma2 и Pegasus.
- **BLEU и METEOR:** Результаты на уровне BART; модель справляется с точной передачей информации, но не всегда способна выделять ключевые термины в научных статьях.
- **Вывод:** Удобна для широкого спектра задач, но уступает в точности для специализированного научного текста.

## Pegasus

- **ROUGE-N и ROUGE-L:** Достигает высоких показателей ROUGE, особенно при обобщении содержательного текста, но иногда теряет ключевые научные термины и важные подробности.
- **BLEU и METEOR:** Значения выше, чем у T5 и BART, но результаты по METEOR показывают, что модель иногда недооценивает синонимию и структуру сложных текстов.
- **Вывод:** Pegasus силен в суммаризации, но требует доработки для научных текстов, чтобы лучше передавать сложные детали и терминологию.

## Gemma2

- **ROUGE-N и ROUGE-L:** Gemma2 лидирует по этим метрикам, показывая точное перекрытие с контрольными суммаризациями и лучшее понимание структуры научных текстов.
- **BLEU и METEOR:** Превосходит все остальные модели на BLEU и METEOR, обеспечивая наилучшую точность и корректную передачу синонимических структур, что важно для специализированного языка.
- **Вывод:** Лучшая модель для суммаризации научных статей благодаря стабильности, точности и высокому качеству передачи информации.
