In [None]:
!pip install markovify



In [None]:
import markovify


article = """В современном научном сообществе возрастает необходимость публикации результатов исследований в международных рейтинговых журналах. Такие публикации не только позволяют донести открытия до широкого научного круга, но и обеспечивают возможность профессионального роста и развития. При этом содержание и значимость работы очень часто оцениваются по аннотации, составленной автором. Таким образом, становится очевидным что грамотно составленная аннотация является важным требованием для любой публикации. Это и обуславливает актуальность исследований в области данного жанра научного дискурса.

Целью данной статьи является обзор работ, посвященных исследованию жанра научной аннотации, выявление имеющихся проблем и путей их решения, а также определение перспектив исследования.

Проблема аннотации поднималась в различных аспектах начиная со второй половины ХХ века как российскими, так и зарубежными учеными (Н.Б. Агранович, А.А. Вейзе, Е.В. Голованова, Э. Дрозда, Е.Э. Науменко, М.В. Черкунова, C. Bazerman, N. Graetz, J. Swales). Следует отметить ряд наиболее актуальных исследований аннотаций в нашей стране.

Е.Э. Науменко (1988 г.) изучала особенности аннотации как типа текста на материале современного английского языка.

Э. Дрозда (1989 г.) предприняла попытку сопоставительного анализа с целью определения информационной структуры аннотаций. Исследование проводилось на материале русского и французского языков.

Комплексным исследованием аннотации в русле интегративного подхода занималась Е.В. Голованова (2003 г.). Ее работа посвящена анализу текста как целого и его составляющих (структурной, лексической, синтаксической характеристик) с учетом специфичности коммуникативных функций текста аннотаций. Исследование проводилось на материале немецкого языка.

Предметом исследования являлись тексты аннотации к телевизионным художественным фильмам.

Н.Б. Агранович (2006 г.) выявляла коммуникативно-информативные параметры научной аннотации как вторичного текста. Материалом для исследования послужили тексты на немецком языке.

М.В. Черкунова (2007 г.) изучала прагма-лингвистические характеристики научной и учебной литературы. В рамках работы проводился анализ составляющих функциональной парадигмы аннотаций, выявление и сравнение жанрообра-зующих особенностей, а также изучение структурной и смысловой организации вышеназванных малоформатных текстов в аспекте реализации их прагматической функции. В результате анализа закономерностей макроструктурной организации аннотаций была выявлена инвариантная структурно-композиционная модель аннотации научных и учебных текстов. Исследование проводилось на материале англоязычных изданий.

П.Г. Осминин (2016 г.), занимаясь автоматическим переводом, разрабатывал общий алгоритм и основные компоненты формальной модели аннотирования научно-технических текстов. Материалом исследования послужили тексты по математическому моделированию на русском языке.

Наш анализ показал, что имеющиеся исследования затрагивают лишь отдельные аспекты аннотации как типа текста, а ее глобальная интегральная природа остается неизученной. Исследования чаще проводились на материале одного языка, и до сих пор не предпринималось широких контрастивных исследований аннотации как жанра научного дискурса, проведенных на материале разных языков и культур с выявлением универсальных и культурно-специфических особенностей. Следовательно, перспективной областью исследования представляется контрастивный анализ аннотаций на различных языках в рамках современного интегрального подхода, что позволит дать наиболее полное представление об аннотации как жанре научного дискурса, позволит выявить в ней универсальное и культурно-

специфическое, будет иметь прикладное значение в условиях глобализации и интернационализации науки и образования.

Понятие аннотации

Если обратиться к словарям и справочной литературе, то можно обнаружить некоторые расхождения уже на уровне определений понятия аннотации. В русском языке слово «аннотация» в значении «примечание, заметка» известно с начала XVIII в. Глагольная форма «аннотировать» вошла в употребление значительно позже - в первой половине XX в. В русском языке слово «аннотация» - заимствование из голландского, где annotatie, как и в других западноевропейских языках, восходит к латинскому annotatio -«письменная пометка, примечание» от annoto -«отмечаю, делаю заметку» и ранее к nota -«отметка, знак, пометка» [11]. Словарь С.И. Ожегова характеризует аннотацию как «краткое изложение содержания книги, статьи и т. п.», а в Большом энциклопедическом словаре аннотация определяется как «краткая характеристика содержания произведений печати или рукописи». Более детальная дефиниция рассматриваемого понятия представлена в Толковом словаре Д.Н. Ушакова: «Лаконическое, краткое изложение содержания книги с критической оценкой ее и библиографическим указателем, отзывом о нем. Библиографический указатель с аннотациями». Кроме того, В.М. Полонский включает в структуру аннотации также сведения об авторе и достоинствах работы [9]. Таким образом, можно отметить, что критическая оценка содержания, библиографический указатель и сведения об авторе могут включаться в аннотацию, но не являются неотъемлемыми требованиями. Ряд словарей и справочников поясняет, что аннотация характеризует произведение с точки зрения содержания, назначения, формы [2, 4], а также его ценности [4].

Функции аннотации

Согласно ГОСТ 7.9-95 «Реферат и аннотация. Общие требования» аннотация выполняет следующие функции:

- дает возможность установить основное содержание документа, определить его релевантность и решить, следует ли обращаться к полному тексту документа;

- используется в информационных, в том числе автоматизированных системах для поиска документов и информации [2].

В качестве функций аннотации называются также ориентация читателя в непрерывном потоке публикаций [16] и сообщение о существенности/ несущественности информации для читателя [15], что вполне соотносится с функциями, обозначенными в ГОСТе. Таким образом, аннотация имеет две основных функции: сигнальная (сигнификативная) и поисковая.

Аннотация как жанр

Подходы разных ученых к аннотации как жанру могут отличаться. Что касается вопроса о выделении аннотации в самостоятельный жанр научной прозы, то в современной лингвистике до сих пор нет его однозначного решения. Вслед за зарубежными исследователями некоторые отечественные ученые рассматривают аннотацию как подвид реферата (indicative abstract - указательный реферат). Выделяют два вида рефератов: информативный и указательный. Информативный является полным самостоятельным произведением, в то время как указательный реферат представляет собой краткое описание статьи. Тем не менее, во всех официальных отечественных документах и в учебно-педагогической литературе реферат и аннотация относятся к двум отдельным жанрам научного дискурса [15]. Мы будем придерживаться позиции, преобладающей в отечественной лингвистике, и будем рассматривать аннотацию как самостоятельный жанр научного дискурса.

Для дальнейшей работы с текстом аннотации следует определиться с какой точки зрения мы будем рассматривать данный языковой объект и какой подход будет являться основополагающим в нашем исследовании.

Аннотация - текст или дискурс

Обзор научной литературы показывает, что понятия текста и дискурса обычно трактуются как смежные. Однако существуют различные взгляды на их соотношение. В своей монографии «Научный текст: интегральный подход» Т.Н. Хомутова приводит несколько таких подходов [14]. Текст и дискурс разными учеными рассматриваются как:

а) полные синонимы (О.Л. Каменская, Ю.А. Левицкий);

б) различные понятия: абстрактная единица языка и ее реализация в речи (Ван Дейк, Sinclair & Coulthard);

в) текст - часть или аспект дискурса (D. Tannen, В.В. Богданов, М.Л. Макаров, J. Haubermas, R. Wodak);

г) различные аспекты одного явления (Georgakopolou & Goutsos, О.Н. Гордеева, Т.В. Ми-левская, Е.С. Кубрякова, Т.В. Дроздова).

Вслед за Т.Н. Хомутовой мы будем придерживаться последней точки зрения, согласно которой текст и дискурс являются различными аспектами коммуникации. В таком случае дискурс представляет собой отдельный акт речевой коммуникации, в процессе которого в социокультурном аспекте порождается текст. Текст при такой трактовке - предметно-знаковая модель сопряженных коммуникативных деятельностей общающихся, необходимое звено и произведение акта речевой коммуникации в единстве его языковых, деятельностных и прочих свойств [12]. То есть мы будем рассматривать текст и дискурс как разные аспекты акта коммуникации (предметно-знаковый

и деятельностный соответственно). Текст при этом является частью дискурса.

Таким образом, текст аннотации является предметно-знаковой моделью дискурса, и, изучая текст, мы изучаем дискурс.

Что касается типа дискурса, который попадает в поле нашего исследования, следует прежде всего определить его место в классификации основных типов дискурса.

Проблему типологии дискурса затрагивали в своих работах многие исследователи: В.И. Кара-сик, Ю.Е. Прохоров, В.Б. Кашкин, Ю.В. Рождественский, Т.А. Ван Дейк и др. Следует отметить, что каждый исследователь предлагает свою классификацию, исходя из личной точки зрения и предложенных критериев. Наиболее распространенные критерии, используемые в типологиях: канал передачи информации (В.Б. Кашкин, Т.С. Юсупова), форма общения (А.Л. Загнитко, В.Б. Кашкин и др.), предназначенность / ориентированность (В.И. Карасик, Е.В. Михайлова), противопоставление по признаку «факт - фикция», прагмалингвистический критерий (В.И. Карасик). Следует также отметить интегральную типологию дискурса Т.Н. Хомутовой. Дискурс как интегральный объект распределен по четырем секторам (когнитивный, языковой, культурный и социальный). В каждом из секторов выделяются свои основания для классификации. Типологии дискурса во многом совпадают с типологиями текста, что обусловлено тем, что текст является частью дискурса, а его свойства как части переносятся на целое и наоборот [14].

В рамках нашей работы особый интерес представляет классификация с точки зрения сферы функционирования дискурса. Такую классификацию, являющуюся общепризнанной, предложил В.И. Карасик. Основываясь на социологических критериях, ученый выделяет два основных типа дискурса: персональный (лично-стно-ориентированный), при котором говорящий выступает как личность, и институциональный, когда говорящий рассматривается как представитель определенного социального института. При этом персональный дискурс имеет две разновидности: бытовое (общение между хорошо знакомыми людьми в целях поддержания контакта и решения обиходных проблем) и бытийное (попытка раскрыть внутренний мир во всем его богатстве посредством произведений художественной литературы и философских и психологических текстов) общение [6].

Под институциональным дискурсом подразумевается общение в рамках статусно-ролевых отношений. Выделяют множество видов институционального дискурса: политический, дипломатический, административный, юридический, военный, педагогический, религиозный, мистический, медицинский, деловой, рекламный, спортивный, научный, сценический и массово-информа-

ционный [8]. В.И. Карасик отмечает, что общественные институты не могут рассматриваться как однородные явления, они исторически изменчивы, и следовательно, список институциональных видов дискурса может быть изменен или расширен [5].

Поскольку объектом нашего исследования является научная аннотация, то особый интерес для нас представляет именно институциональный тип дискурса в общем и научный дискурс в частности.

Согласно В.И. Карасику существуют два системообразующих признака институционального дискурса: цель и участники общения. Главной целью научного дискурса является «процесс вывода нового знания о предмете, явлении, их свойствах и качествах, представленный в вербальной форме и обусловленный коммуникативными канонами научного общения» [1]. Что касается участников общения, то ими являются исследователи как представители научной общественности. Особенностью научного дискурса является принципиальное равенство всех участников общения - ничья позиция не может быть признана единственно верной, поскольку познание бесконечно [5]. Кроме того, следует отметить, что уровень подготовки автора текста вполне соотносится с уровнем подготовки аудитории, поэтому нет необходимости заинтересовывать адресата. Адресат сам мотивирован к восприятию в силу своей профессиональной принадлежности [7].

Коммуниканты взаимодействуют в соответствии с нормами научного сообщества. Автор выстраивает свои высказывание с целью убедить адресата. Это объясняет такое свойство научных текстов, как наличие элементов полемики. Коммуникативными канонами научного общения являются логичность изложения, доказательство истинности и ложности тех или иных положений, предельная абстракция предмета речи [1].

Наряду с монографией, диссертацией, статьей, рецензией, рефератом, докладом, тезисами, отзывом и т. д. научная аннотация рассматривается многими учеными (В.И. Карасик, Н.М. Разин-кина, Р.С. Аликаев, Ч. Базерман, В.К. Бхатиа, Т. Дадли-Иванс, Э. Джонс, Дж. Суэйлз, др.) в качестве одного из жанров научного дискурса. В современной лингвистике под жанром понимается «тип текстов, отражающих сходные социальные действия в регулярно повторяющихся социальных контекстах и имеющих сходные, регулярно повторяющиеся формальные и семантические характеристики» [14]. Тем не менее, понимание жанра может отличаться у разных исследователей. Это может быть причиной наличия различных подходов к изучению этого явления и к построению жанровых типологий.

Е.С. Троянская строит иерархию типов произведений научной литературы по функциональному признаку: 1) академические тексты (монография, статья, тезисы, доклад и др.); 2) информационно-

реферативные (реферат, аннотация и др.); 3) спра-вочно-энциклопедические (энциклопедия, словарь); 4) научно-оценочные (рецензия, отзыв); 5) научно-учебные (лекция, учебник); 6) инструктивные (руководство, инструкция); 7) научно-деловые тексты (патент, авторское свидетельство, спецификация) [13].

Приведем также классификацию, предложенную Н.М. Разинкиной, которая предлагает выделять группы или совокупности жанров, объединяемых на основе нескольких различных признаков. Например, содержательный признак -«передача научных теоретических положений: монография, статья, доклад; научная и техническая информация: реферат, аннотация; учебный научный материал: учебник, пособие, методическая разработка и др.». Признак клишированно-сти - ср.: патент и научно-популярный текст; признак протяженности - ср.: монография и аннотация, техническая реклама; форма реализации -письменные и устные тексты [10].

Ряд ученых (М.В. Вербицкая, В.И. Карасик, М.М. Бахтин), рассматривая жанры научной речи, дифференцируют их на основании двух критериев - членимость либо нечленимость макротекста и первичность либо вторичность - и выделяют в качестве первичных монографию, диссертацию, статью, в качестве вторичных - автореферат, аннотацию, тезисы [1]. Тексты первичных жанров являются первоисточниками. Тексты вторичных жанров являются результатом преобразования информации первичных документов и имеют ознакомительную функцию. Вторичные жанры характеризуются краткостью и понятностью [14].

Другие классификации жанров научного дискурса были предложены В.Л. Егоровым, Р.А. Бу-даговым, Г.А. Золотовой, М.М. Бахтиным и др.

Принимая во внимание различные типологии и основания для классификаций научных жанров, можно охарактеризовать научную аннотацию следующим образом:

- по функциональному признаку: информационно-реферативный жанр (Е.С. Троянская);

- по содержательному признаку: научная и техническая информация (Н.М. Разинкина);

- по форме реализации: письменный текст (Н.М. Разинкина);

- по первичности/вторичности: вторичный текст (М.В. Вербицкая, В.И. Карасик, М.М. Бахтин).

Таким образом, мы понимаем аннотацию как самостоятельный информационно-реферативный жанр научного дискурса, вторичный письменный текст, содержащий научную и техническую информацию в сжатом виде.

Основные рассмотренные выше характеристики научного дискурса (такие как логичность, точность, объективность выражения) относятся и к жанру научной аннотации, как свойства общего относятся к частному. В то же время, любой жанр научного дискурса имеет свои лингвостилистиче-

ские особенности, т. е. особенности композиции, языка, грамматические и стилистические характеристики. О таких особенностях аннотации упоминали в своих исследованиях Дж. Суэлз, Н. Гретц, Т.Н. Хомутова и др. Основываясь на их работах, приведем наиболее характерные черты английской аннотации.

Лингвостилистические особенности научной аннотации

Композиционные особенности Для англоязычной аннотации характерна жесткая, устойчивая структура, что обусловлено рядом причин: во-первых, спецификой назначения этого жанра в процессе коммуникации, т. е. тем, что его основная функция - это представление информации в оперативной, краткой и логичной форме, во-вторых, тем, что высокая степень стереотипности и стандартизации грамматической структуры аннотации должна способствовать пониманию текстов данного жанра научной литературы.

Традиционно английская аннотация состоит из одного абзаца, который включает в себя заголовок, библиографическое описание и основную часть. Заключение является факультативным элементом структуры аннотации. Это связано с тем, что макроструктура аннотации (список ключевых вопросов) отлична от макроструктуры других жанров научной прозы (проблема - решение) и не предполагает вывода. Среднее количество предложений в абзаце - 5. Суммарное количество слов в английской аннотации составляет в среднем около 100 [15].

Лексические особенности Лексическая структура английской аннотации обусловлена ее коммуникативной целью - дать краткую и в то же время по возможности полную характеристику темы первоисточника.

Для аннотации характерны: высокая частотность терминологических выражений (адресована специалисту в определенной области); обилие клишированных сочетаний слов (сигнализируют о принадлежности информации); большое количество лексических единиц с оценочной и абстрактной семантикой (оценочная модальность, субкатегория описания) [15]; использование аббревиатур (краткость изложения) [17].

Грамматические особенности Большинство исследователей называют следующие грамматические особенности аннотации: использование конструкций, выражающих настоящее время (носит вневременной характер); наличие составных именных сказуемых и простых глагольных сказуемых в пассивной форме; преобладание пассивных конструкций; редкое использование местоимений 1 и 2 лица; преобладание простых предложений, распространенных за счет однородных членов; отсутствие вопросительных, восклицательных и побудительных предложений [15, 17].

Перечисленные грамматические характеристики аннотации объясняются ее вневременным характером, стремлением к высокой степени объективности и достижению наибольшего понимания, а также модальностью сообщения.

Стилистические особенности:

Стилистические характеристики аннотации обусловлены ее функционированием в сфере научного общения, а также целью - кратким описанием первоисточника.

Логичность изложения, характерная для научного стиля, объясняет жесткую структуру аннотации; точность передачи информации находит выражение в широком использовании терминологии, отсутствии многозначности лексических средств, избегании эмоциональных коннотаций. В связи со стремлением к объективности встречается частое употребление пассивных конструкций, редкое использование личных местоимений 1 и 2 лица [3]. Такая синтаксическая особенность, как отсутствие вопросительных, восклицательных и побудительных предложений, связана с модальностью сообщения, присущей аннотации [15].

Следует отметить, что стилистические особенности аннотации являются малоизученной областью лингвистических исследований и требуют дополнительного анализа.

Вывод

Таким образом, в результате анализа работ отечественных и зарубежных лингвистов по темам аннотации, жанра, текста и дискурса, мы сделали вывод о принадлежности научной аннотации к жанру научного дискурса. Жанровая принадлежность находит свое отражение в лингвостилисти-ческих особенностях, которые логично подразделяются на композиционные, лексические, грамматические и стилистические. В результате детального рассмотрения каждой группы лингвос-тилистических особенностей, можно прийти к заключению, что аннотация как жанр научного дискурса еще не достаточно изучена. На сегодняшний день отсутствуют широкие контрастивные исследования научной аннотации. Для более детальной разработки проблемы научной аннотации и получения целостного представления о ней необходимо применение новых методов исследования (корпусный метод, применение программных инструментов) и подходов (контрастивный анализ, интегральный подход)."""
    
abstract ="""We provide the first economic research on ‘buy now, pay later’ (BNPL): an unregulated FinTech
credit product enabling consumers to defer payments interest-free into instalments. In 2021
transactions by BNPL firms are charged to 19.5% of active credit cards in our UK data. Charging
a 0% interest, amortizing BNPL debt to credit cards, where typical interest rates are 20% and
amortization schedules decades-long, raises doubts on consumers’ ability to pay for BNPL. Such
charging of BNPL to credit cards is most prevalent among younger consumers and in the most
deprived geographies"""

### Чистим статью и готовим к дальнейшей обработке

In [None]:
article = article.replace("\n", " ")
while article.find("[") != -1:
    article = article[:article.find("[")] + article[article.find("]")+1:]
article

'В современном научном сообществе возрастает необходимость публикации результатов исследований в международных рейтинговых журналах. Такие публикации не только позволяют донести открытия до широкого научного круга, но и обеспечивают возможность профессионального роста и развития. При этом содержание и значимость работы очень часто оцениваются по аннотации, составленной автором. Таким образом, становится очевидным что грамотно составленная аннотация является важным требованием для любой публикации. Это и обуславливает актуальность исследований в области данного жанра научного дискурса.  Целью данной статьи является обзор работ, посвященных исследованию жанра научной аннотации, выявление имеющихся проблем и путей их решения, а также определение перспектив исследования.  Проблема аннотации поднималась в различных аспектах начиная со второй половины ХХ века как российскими, так и зарубежными учеными (Н.Б. Агранович, А.А. Вейзе, Е.В. Голованова, Э. Дрозда, Е.Э. Науменко, М.В. Черкунова, C. 

In [None]:
# Build the model.
text_model = markovify.Text(article)

In [None]:
# Print five randomly-generated sentences
ag1 = ""
ag2 = ""

for i in range(5):
    ag1 += text_model.make_sentence()

# Print three randomly-generated sentences of no more than 280 characters
for i in range(5):
    ag2 += text_model.make_short_sentence(280)

TypeError: can only concatenate str (not "NoneType") to str

In [None]:
!pip install wandb

Collecting wandb
  Downloading wandb-0.13.5-py2.py3-none-any.whl (1.9 MB)
     ---------------------------------------- 1.9/1.9 MB 6.3 MB/s eta 0:00:00
Collecting protobuf!=4.0.*,!=4.21.0,<5,>=3.12.0
  Downloading protobuf-4.21.9-cp37-cp37m-win_amd64.whl (525 kB)
     -------------------------------------- 525.1/525.1 kB 8.3 MB/s eta 0:00:00
Collecting GitPython>=1.0.0
  Downloading GitPython-3.1.29-py3-none-any.whl (182 kB)
     -------------------------------------- 182.5/182.5 kB 5.6 MB/s eta 0:00:00
Collecting sentry-sdk>=1.0.0
  Downloading sentry_sdk-1.10.1-py2.py3-none-any.whl (166 kB)
     -------------------------------------- 166.6/166.6 kB 9.8 MB/s eta 0:00:00
Collecting docker-pycreds>=0.4.0
  Downloading docker_pycreds-0.4.0-py2.py3-none-any.whl (9.0 kB)
Collecting promise<3,>=2.0
  Downloading promise-2.3.tar.gz (19 kB)
  Preparing metadata (setup.py): started
  Preparing metadata (setup.py): finished with status 'done'
Collecting pathtools
  Downloading pathtools-0.1.2.t

In [None]:
from datasets import load_metric
rouge = load_metric("rouge")
predictions = [ag1]
references = [abstract]
rouge.compute(predictions=predictions, references=references)

{'rouge1': AggregateScore(low=Score(precision=0.23577235772357724, recall=0.30851063829787234, fmeasure=0.26728110599078336), mid=Score(precision=0.23577235772357724, recall=0.30851063829787234, fmeasure=0.26728110599078336), high=Score(precision=0.23577235772357724, recall=0.30851063829787234, fmeasure=0.26728110599078336)),
 'rouge2': AggregateScore(low=Score(precision=0.040983606557377046, recall=0.053763440860215055, fmeasure=0.046511627906976744), mid=Score(precision=0.040983606557377046, recall=0.053763440860215055, fmeasure=0.046511627906976744), high=Score(precision=0.040983606557377046, recall=0.053763440860215055, fmeasure=0.046511627906976744)),
 'rougeL': AggregateScore(low=Score(precision=0.12195121951219512, recall=0.1595744680851064, fmeasure=0.13824884792626727), mid=Score(precision=0.12195121951219512, recall=0.1595744680851064, fmeasure=0.13824884792626727), high=Score(precision=0.12195121951219512, recall=0.1595744680851064, fmeasure=0.13824884792626727)),
 'rougeLsu

In [None]:
import wandb

wandb.login()

[34m[1mwandb[0m: Logging into wandb.ai. (Learn how to deploy a W&B server locally: https://wandb.me/wandb-server)
[34m[1mwandb[0m: You can find your API key in your browser here: https://wandb.ai/authorize
[34m[1mwandb[0m: Paste an API key from your profile and hit enter, or press ctrl+c to quit:

In [None]:
import wandb
wandb.init(project="markovchains")
from rouge import Rouge
for n in range(1, 10):
    ag1 = ""
    for i in range(n):
        ag1 += text_model.make_short_sentence(280)
    rouge = load_metric("rouge")
    predictions = [ag1]
    references = [abstract]
    rouge = Rouge()
    g = rouge.get_scores(predictions, references, avg = True)['rouge-l']
    precision = g['p']
    recall = g['r']
    fmeasure = g['f']
    params = {"precision": precision, "recall": recall, "fmeasure": fmeasure}
    print(params)
    wandb.log(params)

ModuleNotFoundError: No module named 'wandb'

In [None]:
!pip install rouge

Collecting rouge
  Downloading rouge-1.0.1-py3-none-any.whl (13 kB)
Installing collected packages: rouge
Successfully installed rouge-1.0.1
