Task: Automatically build abstracts of text documents. Input: An array of texts in JSON format. Sample texts are at example_texts.json. Output: An array of abstracts in JSON format (the order of abstracts corresponds to the order of texts in the input data).

The maximum size of each of the abstracts is 300 characters (including white space). If the size of the abstract exceeds the specified threshold, then only the first 300 characters will be evaluated. A trivial solution (the first 300 characters of the document) is allowed, but not welcome.

You can briefly describe the solution in the first line of the download file after the # character. The information will be useful to the authors of the course to gain an idea of the methods and approaches used.

Rating: ROUGE-2 - proximity to a set of manually compiled abstracts based on bigrams of words (value from 0 to 1). Input can be found at dataset_43428_1.txt Output is at outdataset_43428_1.txt

In [1]:
import pandas as pd

In [43]:
dataset = pd.read_json("dataset_43428_1.txt", encoding="utf-8")
dataset

Unnamed: 0,0
0,В Сербии арестован последний военный преступни...
1,АнтиПоттер\nРуководство по эксплуатации волшеб...
2,Авто по карману\nМихаил Прохоров собирается за...
3,В Казахстане состоялись выборы Президента\n\nВ...
4,В Москве подвели итоги Международной конференц...
...,...
195,13-я экспедиция МКС\n\n30 марта 2006 года с ко...
196,Пираты не признали вину\n\nВ американском горо...
197,Аллегория удачи .\nВизит Дмитрия Медведева в К...
198,Тем временем участницы панк-группы встретились...


In [45]:
dataset_df = dataset[0][0]
dataset_df


'В Сербии арестован последний военный преступник\nЗадержан Горан Хаджич , разыскиваемый Гаагским трибуналом за военные преступления в ходе войны на Балканах .\n\nКак сообщает « Лента.ру » , первые неофициальные сообщения об аресте Горана Хаджича появились ещё 19 июля , однако вскоре были опровергнуты .\nВ ближайшее время о поимке Хаджича должен официально объявить президент Сербии Борис Тадич .\nОб этом сообщает сербский телеканал B92 .\n\nХорватский политик сербского происхождения Горан Хаджич был руководителем Республики Сербская Краина — непризнанного сербского государства , существовавшего на территории Хорватии в 1992 — 1995 годах .\nВ 2004 году Международный трибунал по бывшей Югославии в Гааге предъявил Хаджичу обвинения по 14 эпизодам военных преступлений и преступлений против человечности .\nВ частности , ему вменяется причастность к депортациям и убийствам мирного хорватского населения в 1991 — 1993 годах .\n\nЗа информацию , способную помочь в поимке Горана Хаджича , в США б

In [49]:
from nltk import tokenize
sentences = tokenize.sent_tokenize(dataset_df)

In [50]:
print(len(sentences))
print(sentences)

11
['В Сербии арестован последний военный преступник\nЗадержан Горан Хаджич , разыскиваемый Гаагским трибуналом за военные преступления в ходе войны на Балканах .', 'Как сообщает « Лента.ру » , первые неофициальные сообщения об аресте Горана Хаджича появились ещё 19 июля , однако вскоре были опровергнуты .', 'В ближайшее время о поимке Хаджича должен официально объявить президент Сербии Борис Тадич .', 'Об этом сообщает сербский телеканал B92 .', 'Хорватский политик сербского происхождения Горан Хаджич был руководителем Республики Сербская Краина — непризнанного сербского государства , существовавшего на территории Хорватии в 1992 — 1995 годах .', 'В 2004 году Международный трибунал по бывшей Югославии в Гааге предъявил Хаджичу обвинения по 14 эпизодам военных преступлений и преступлений против человечности .', 'В частности , ему вменяется причастность к депортациям и убийствам мирного хорватского населения в 1991 — 1993 годах .', 'За информацию , способную помочь в поимке Горана Хаджи

In [53]:
def word_count(text):
    word_list = text.split(" ")
    return len(word_list)

In [55]:
from gensim.summarization import summarize
# ratio (float, optional) – Number between 0 and 1 
# that determines the proportion of the number of 
# sentences of the original text to be chosen for the summary.
summ_text = summarize(dataset_df, ratio=0.2, split=False)
print(summ_text)
print(word_count(summ_text))


За информацию , способную помочь в поимке Горана Хаджича , в США была назначена награда в 5 млн долларов .
После того как в мае 2011 года был арестован бывший командующий армией Республики Сербской Ратко Младич , Хаджич оставался последним преступником , выдачи которого Гаагский трибунал добивался от Сербии .
49


In [58]:
import re
def clean_text(row):
    text = row[0]
    text = text.lower()
    text = re.sub(r'\n|\r', ' ', text)
    text = re.sub(r' +', ' ', text)
    text = text.strip()
    return text

dataset['clean_text'] = dataset.apply(lambda row: clean_text(row), axis=1)
dataset

Unnamed: 0,0,clean_text
0,В Сербии арестован последний военный преступни...,в сербии арестован последний военный преступни...
1,АнтиПоттер\nРуководство по эксплуатации волшеб...,антипоттер руководство по эксплуатации волшебн...
2,Авто по карману\nМихаил Прохоров собирается за...,авто по карману михаил прохоров собирается зан...
3,В Казахстане состоялись выборы Президента\n\nВ...,в казахстане состоялись выборы президента в во...
4,В Москве подвели итоги Международной конференц...,в москве подвели итоги международной конференц...
...,...,...
195,13-я экспедиция МКС\n\n30 марта 2006 года с ко...,13-я экспедиция мкс 30 марта 2006 года с космо...
196,Пираты не признали вину\n\nВ американском горо...,пираты не признали вину в американском городе ...
197,Аллегория удачи .\nВизит Дмитрия Медведева в К...,аллегория удачи . визит дмитрия медведева в ки...
198,Тем временем участницы панк-группы встретились...,тем временем участницы панк-группы встретились...


In [61]:
def word_count_df(row):
    text = row[0]
    word_list = text.split(" ")
    return len(word_list)
dataset['orig_word_count'] = dataset.apply(lambda row: word_count_df(row), axis=1)
dataset

Unnamed: 0,0,clean_text,orig_word_count
0,В Сербии арестован последний военный преступни...,в сербии арестован последний военный преступни...,202
1,АнтиПоттер\nРуководство по эксплуатации волшеб...,антипоттер руководство по эксплуатации волшебн...,1784
2,Авто по карману\nМихаил Прохоров собирается за...,авто по карману михаил прохоров собирается зан...,104
3,В Казахстане состоялись выборы Президента\n\nВ...,в казахстане состоялись выборы президента в во...,354
4,В Москве подвели итоги Международной конференц...,в москве подвели итоги международной конференц...,831
...,...,...,...
195,13-я экспедиция МКС\n\n30 марта 2006 года с ко...,13-я экспедиция мкс 30 марта 2006 года с космо...,544
196,Пираты не признали вину\n\nВ американском горо...,пираты не признали вину в американском городе ...,242
197,Аллегория удачи .\nВизит Дмитрия Медведева в К...,аллегория удачи . визит дмитрия медведева в ки...,1082
198,Тем временем участницы панк-группы встретились...,тем временем участницы панк-группы встретились...,459


In [68]:
from gensim.summarization import summarize
from nltk import tokenize

def summary_text(row):
    text = row['clean_text']
    sentences = tokenize.sent_tokenize(text)
    wc = simpleword_count(text)
    if len(sentences) == 1:
        return text
    if wc <= 1500:
        summarized_text = summarize(text, ratio=0.2, split=False)
    elif wc >= 1500:
        summarized_text = summarize(text, word_count=300, split=False)
    
    return summarized_text

dataset['summary_text'] = dataset.apply(lambda row: summary_text(row), axis=1)
dataset

Unnamed: 0,0,clean_text,orig_word_count,summary_text,sum_word_count
0,В Сербии арестован последний военный преступни...,в сербии арестован последний военный преступни...,202,"за информацию , способную помочь в поимке гора...",49
1,АнтиПоттер\nРуководство по эксплуатации волшеб...,антипоттер руководство по эксплуатации волшебн...,1784,мне уже говорили мои молодые коллеги и просто ...,282
2,Авто по карману\nМихаил Прохоров собирается за...,авто по карману михаил прохоров собирается зан...,104,« прохоров проинформировал председателя правит...,29
3,В Казахстане состоялись выборы Президента\n\nВ...,в казахстане состоялись выборы президента в во...,354,по предварительным данным опроса избирателей н...,49
4,В Москве подвели итоги Международной конференц...,в москве подвели итоги международной конференц...,831,в москве подвели итоги международной конференц...,222
...,...,...,...,...,...
195,13-я экспедиция МКС\n\n30 марта 2006 года с ко...,13-я экспедиция мкс 30 марта 2006 года с космо...,544,13-я экспедиция мкс 30 марта 2006 года с космо...,157
196,Пираты не признали вину\n\nВ американском горо...,пираты не признали вину в американском городе ...,242,"кроме того , в руках вмс сша у берегов сомали ...",65
197,Аллегория удачи .\nВизит Дмитрия Медведева в К...,аллегория удачи . визит дмитрия медведева в ки...,1082,"трудно сказать , смирились ли сторонники викто...",334
198,Тем временем участницы панк-группы встретились...,тем временем участницы панк-группы встретились...,459,тем временем участницы панк-группы встретились...,83


In [69]:
def sum_word_count_df(row):
    text = row['summary_text']
    word_list = text.split(" ")
    return len(word_list)
dataset['sum_word_count'] = dataset.apply(lambda row: sum_word_count_df(row), axis=1)
dataset

Unnamed: 0,0,clean_text,orig_word_count,summary_text,sum_word_count
0,В Сербии арестован последний военный преступни...,в сербии арестован последний военный преступни...,202,"за информацию , способную помочь в поимке гора...",49
1,АнтиПоттер\nРуководство по эксплуатации волшеб...,антипоттер руководство по эксплуатации волшебн...,1784,мне уже говорили мои молодые коллеги и просто ...,282
2,Авто по карману\nМихаил Прохоров собирается за...,авто по карману михаил прохоров собирается зан...,104,« прохоров проинформировал председателя правит...,33
3,В Казахстане состоялись выборы Президента\n\nВ...,в казахстане состоялись выборы президента в во...,354,по предварительным данным опроса избирателей н...,49
4,В Москве подвели итоги Международной конференц...,в москве подвели итоги международной конференц...,831,в москве подвели итоги международной конференц...,222
...,...,...,...,...,...
195,13-я экспедиция МКС\n\n30 марта 2006 года с ко...,13-я экспедиция мкс 30 марта 2006 года с космо...,544,13-я экспедиция мкс 30 марта 2006 года с космо...,157
196,Пираты не признали вину\n\nВ американском горо...,пираты не признали вину в американском городе ...,242,"кроме того , в руках вмс сша у берегов сомали ...",65
197,Аллегория удачи .\nВизит Дмитрия Медведева в К...,аллегория удачи . визит дмитрия медведева в ки...,1082,"трудно сказать , смирились ли сторонники викто...",334
198,Тем временем участницы панк-группы встретились...,тем временем участницы панк-группы встретились...,459,тем временем участницы панк-группы встретились...,83


In [70]:
from rouge import Rouge 

def rouge_fill_df(row):
    hypothesis = row['summary_text']
    reference = row['ref_text']
    rouge = Rouge()
    scores = rouge.get_scores(hypothesis, reference)
    
    return scores[0]['rouge-2']

In [71]:
for st in dataset['summary_text']:
    print('summary:',st,'\n')

summary: за информацию , способную помочь в поимке горана хаджича , в сша была назначена награда в 5 млн долларов .
после того как в мае 2011 года был арестован бывший командующий армией республики сербской ратко младич , хаджич оставался последним преступником , выдачи которого гаагский трибунал добивался от сербии . 

summary: мне уже говорили мои молодые коллеги и просто уважаемые знакомые , что гп — это глубокая философская эпопея едва ли не круче толкиена и т .
полагаю , что его разработали интеллектуалы - социологи очень высокого класса , и можно предположить , зачем .
можно даже закрыть глаза на то , что многие сюжетные линии не проработаны как следует .
впрочем , полагаю , что даже не столько средств , сколько воображения прописать четыре разных схватки .
остаётся совершенно неясным , какова причина противостояния этого вольдемара , или как его там , регулярным волшебникам .
мой сын после просмотра пятой части сказал по поводу сеанса волшебного психоанализа , что следующим этап

Example_texts dataset

In [3]:
example = pd.read_json("example_texts.json", encoding="utf-8")
example

Unnamed: 0,0
0,Увидеть мысль\n\nЯпонским ученым удалось распо...
1,"Карбофос\n\nКарбофос ( O , O - Диметил - S - (..."
2,Киев идет на уступки : Яценюк передает власть ...
3,« Лужков . Итоги »\nКонец эры хозяйственника и...
4,... в ходе написания ходатайства : сделать его...


In [46]:
example_text = example[0][0]
example_text


'Увидеть мысль\n\nЯпонским ученым удалось распознать изображение , увиденное человеком , сканируя его мозг .\n\nКак пишет Yomiuri , группе сотрудников отделения нейроинформатики Международного исследовательского института передовых средств коммуникации ( Киото , Япония ) удалось восстановить изображение , увиденное человеком , опираясь только на сканирование электрических сигналов мозга .\n\nВ ходе эксперимента исследователи продемонстрировали испытуемым серию из 440 различных картинок , представлявших собой произвольное сочетание темных и светлых пятен , на 100-пиксельном экране .\nВ процессе демонстрации измерялась активность в зрительной коре головного мозга с помощью функционального магниторезонансного сканера .\nПосле этого испытуемым были показаны буквы , составляющие слово neuron , и элементарные геометрические фигуры .\nНа основе сравнения предыдущей серии изображений и показаний сканера исследователям удалось правильно реконструировать новые изображения по сигналам мозговой ак

In [7]:
from nltk import tokenize
sentences = tokenize.sent_tokenize(example_text)

In [8]:
print(len(sentences))
print(sentences)

8
['Увидеть мысль\n\nЯпонским ученым удалось распознать изображение , увиденное человеком , сканируя его мозг .', 'Как пишет Yomiuri , группе сотрудников отделения нейроинформатики Международного исследовательского института передовых средств коммуникации ( Киото , Япония ) удалось восстановить изображение , увиденное человеком , опираясь только на сканирование электрических сигналов мозга .', 'В ходе эксперимента исследователи продемонстрировали испытуемым серию из 440 различных картинок , представлявших собой произвольное сочетание темных и светлых пятен , на 100-пиксельном экране .', 'В процессе демонстрации измерялась активность в зрительной коре головного мозга с помощью функционального магниторезонансного сканера .', 'После этого испытуемым были показаны буквы , составляющие слово neuron , и элементарные геометрические фигуры .', 'На основе сравнения предыдущей серии изображений и показаний сканера исследователям удалось правильно реконструировать новые изображения по сигналам мо

In [56]:
def simpleword_count(text):
    word_list = text.split(" ")
    return len(word_list)

In [57]:
from gensim.summarization import summarize
# ratio (float, optional) – Number between 0 and 1 
# that determines the proportion of the number of 
# sentences of the original text to be chosen for the summary.
summarized_text = summarize(example_text, ratio=0.2, split=False)
print(summarized_text)
print(simpleword_count(summarized_text))


Как пишет Yomiuri , группе сотрудников отделения нейроинформатики Международного исследовательского института передовых средств коммуникации ( Киото , Япония ) удалось восстановить изображение , увиденное человеком , опираясь только на сканирование электрических сигналов мозга .
34


In [59]:
def word_count_df(row):
    text = row[0]
    word_list = text.split(" ")
    return len(word_list)
example['orig_word_count'] = example.apply(lambda row: word_count_df(row), axis=1)
example

Unnamed: 0,0,orig_word_count,clean_text,summary_text,sum_word_count,ref_text,rouge 2
0,Увидеть мысль\n\nЯпонским ученым удалось распо...,147,увидеть мысль японским ученым удалось распозна...,"как пишет yomiuri , группе сотрудников отделен...",34,группе учённых удалось восстановить изображени...,"{'f': 0.3291139192308925, 'p': 0.40625, 'r': 0..."
1,"Карбофос\n\nКарбофос ( O , O - Диметил - S - (...",122,"карбофос карбофос ( o , o - диметил - s - ( 1,...",в настоящее время вытеснен более совершенными ...,12,"Карбофос — фосфорорганическое соединение , инс...","{'f': 0.24999999760802472, 'p': 0.9, 'r': 0.14..."
2,Киев идет на уступки : Яценюк передает власть ...,256,киев идет на уступки : яценюк передает власть ...,киев идет на уступки : яценюк передает власть ...,37,Исполняющий обязанности главы кабинета министр...,"{'f': 0.16326530249433113, 'p': 0.342857142857..."
3,« Лужков . Итоги »\nКонец эры хозяйственника и...,2594,« лужков . итоги » конец эры хозяйственника ил...,пока борис немцов подсчитывал разницу между ст...,270,Опубликованный доклад Бориса Немцова « Лужков ...,"{'f': 0.029411761435986523, 'p': 0.01851851851..."
4,... в ходе написания ходатайства : сделать его...,275,... в ходе написания ходатайства : сделать его...,"закончим , как и положено : &quot; на основани...",101,в ходе написания ходатайства : сделать его по ...,"{'f': 0.14814814318287056, 'p': 0.161616161616..."


In [60]:
import re
def clean_text(row):
    text = row[0]
    text = text.lower()
    text = re.sub(r'\n|\r', ' ', text)
    text = re.sub(r' +', ' ', text)
    text = text.strip()
    return text

example['clean_text'] = example.apply(lambda row: clean_text(row), axis=1)
example

Unnamed: 0,0,orig_word_count,clean_text,summary_text,sum_word_count,ref_text,rouge 2
0,Увидеть мысль\n\nЯпонским ученым удалось распо...,147,увидеть мысль японским ученым удалось распозна...,"как пишет yomiuri , группе сотрудников отделен...",34,группе учённых удалось восстановить изображени...,"{'f': 0.3291139192308925, 'p': 0.40625, 'r': 0..."
1,"Карбофос\n\nКарбофос ( O , O - Диметил - S - (...",122,"карбофос карбофос ( o , o - диметил - s - ( 1,...",в настоящее время вытеснен более совершенными ...,12,"Карбофос — фосфорорганическое соединение , инс...","{'f': 0.24999999760802472, 'p': 0.9, 'r': 0.14..."
2,Киев идет на уступки : Яценюк передает власть ...,256,киев идет на уступки : яценюк передает власть ...,киев идет на уступки : яценюк передает власть ...,37,Исполняющий обязанности главы кабинета министр...,"{'f': 0.16326530249433113, 'p': 0.342857142857..."
3,« Лужков . Итоги »\nКонец эры хозяйственника и...,2594,« лужков . итоги » конец эры хозяйственника ил...,пока борис немцов подсчитывал разницу между ст...,270,Опубликованный доклад Бориса Немцова « Лужков ...,"{'f': 0.029411761435986523, 'p': 0.01851851851..."
4,... в ходе написания ходатайства : сделать его...,275,... в ходе написания ходатайства : сделать его...,"закончим , как и положено : &quot; на основани...",101,в ходе написания ходатайства : сделать его по ...,"{'f': 0.14814814318287056, 'p': 0.161616161616..."


In [32]:
from gensim.summarization import summarize
from nltk import tokenize

def summary_text(row):
    text = row['clean_text']
    sentences = tokenize.sent_tokenize(text)
    wc = simpleword_count(text)
    if len(sentences) == 1:
        return text
    if wc <= 1500:
        summarized_text = summarize(text, ratio=0.2, split=False)
    elif wc >= 1500:
        summarized_text = summarize(text, word_count=300, split=False)
    
    return summarized_text

example['summary_text'] = example.apply(lambda row: summary_text(row), axis=1)
example

Unnamed: 0,0,orig_word_count,clean_text,summary_text,sum_word_count
0,Увидеть мысль\n\nЯпонским ученым удалось распо...,147,увидеть мысль японским ученым удалось распозна...,"как пишет yomiuri , группе сотрудников отделен...",34
1,"Карбофос\n\nКарбофос ( O , O - Диметил - S - (...",122,"карбофос карбофос ( o , o - диметил - s - ( 1,...",в настоящее время вытеснен более совершенными ...,30
2,Киев идет на уступки : Яценюк передает власть ...,256,киев идет на уступки : яценюк передает власть ...,киев идет на уступки : яценюк передает власть ...,37
3,« Лужков . Итоги »\nКонец эры хозяйственника и...,2594,« лужков . итоги » конец эры хозяйственника ил...,пока борис немцов подсчитывал разницу между ст...,270
4,... в ходе написания ходатайства : сделать его...,275,... в ходе написания ходатайства : сделать его...,"закончим , как и положено : &quot; на основани...",101


In [33]:
def sum_word_count_df(row):
    text = row['summary_text']
    word_list = text.split(" ")
    return len(word_list)
example['sum_word_count'] = example.apply(lambda row: sum_word_count_df(row), axis=1)
example

Unnamed: 0,0,orig_word_count,clean_text,summary_text,sum_word_count
0,Увидеть мысль\n\nЯпонским ученым удалось распо...,147,увидеть мысль японским ученым удалось распозна...,"как пишет yomiuri , группе сотрудников отделен...",34
1,"Карбофос\n\nКарбофос ( O , O - Диметил - S - (...",122,"карбофос карбофос ( o , o - диметил - s - ( 1,...",в настоящее время вытеснен более совершенными ...,12
2,Киев идет на уступки : Яценюк передает власть ...,256,киев идет на уступки : яценюк передает власть ...,киев идет на уступки : яценюк передает власть ...,37
3,« Лужков . Итоги »\nКонец эры хозяйственника и...,2594,« лужков . итоги » конец эры хозяйственника ил...,пока борис немцов подсчитывал разницу между ст...,270
4,... в ходе написания ходатайства : сделать его...,275,... в ходе написания ходатайства : сделать его...,"закончим , как и положено : &quot; на основани...",101


In [36]:
from rouge import Rouge 

def rouge_fill_df(row):
    hypothesis = row['summary_text']
    reference = row['ref_text']
    rouge = Rouge()
    scores = rouge.get_scores(hypothesis, reference)
    
    return scores[0]['rouge-2']

In [38]:
for st in example['summary_text']:
    print('summary:',st,'\n')

summary: как пишет yomiuri , группе сотрудников отделения нейроинформатики международного исследовательского института передовых средств коммуникации ( киото , япония ) удалось восстановить изображение , увиденное человеком , опираясь только на сканирование электрических сигналов мозга . 

summary: в настоящее время вытеснен более совершенными и безопасными для человека пиретроидами . 

summary: киев идет на уступки : яценюк передает власть на местах советам украинские власти обещают сохранить двуязычие на востоке страны .
исполняющий обязанности главы кабинета министров украины арсений яценюк пошел на серьезные уступки участникам протеста на востоке страны . 

summary: пока борис немцов подсчитывал разницу между стоимостью строительства 4-го транспортного кольца и большого адронного коллайдера , юрий михайлович сообщил , что количество российских чиновников превышает 1 млн человек и в три с лишним раза превосходит по численности сухопутные войска рф .
убеждён , что с такими итогами ра

In [40]:
references = []
references.append("группе учённых удалось восстановить изображение , увиденное человеком , опираясь только на сканирование электрических сигналов мозга. На основе сравнения предыдущей серии изображений и показаний сканера исследователям удалось правильно реконструировать новые изображения по сигналам мозговой активности . Работа японских ученых — большой шаг на пути реализации идеи прямого человеко-машинного интерфейса .")
references.append("Карбофос — фосфорорганическое соединение , инсектицид широкого спектра действия , акарицид . Применялся против комаров , мух , клещей , клопов , паразитов , повреждающих фруктовые деревья , овощные и декоративные растения . В настоящее время вытеснен более совершенными и безопасными для человека пиретроидами . Препараты на основе карбофоса остаются одними из самых эффективных средств борьбы против постельных клопов , весьма слабо чувствительных к прочим инсектицидам .")
references.append("Исполняющий обязанности главы кабинета министров Украины Арсений Яценюк пошел на серьезные уступки участникам протеста на востоке страны .На переговорах с главой МВД Арсеном Аваковым и Ринатом Ахметовым в Донецке он предложил серьезно расширить полномочия местных органов власти . Глава правительства считает необходимым ликвидировать областные государственные администрации , назначаемые президентом Украины . По его мнению , управлять территориями на местах должны исполкомы , которые будут избираться Областными советами . Глава правительства пообещал не отменять закон Колесниченко - Кивалова , от 5 июня 2012 года , позволявший использовать региональные языки . Цель переговоров в Донецке - разрешить кризис в регионе .Областная администрация Донецка по-прежнему находится в руках людей , объявивших в понедельник 7 апреля о создании Донецкой народной республики .")
references.append("Опубликованный доклад Бориса Немцова « Лужков . Итоги » вызвал немалый шум среди общественности . Мэр города Москвы сделал заявление о том , что одной из важнейших задач в деле модернизации России должно стать сокращение чиновничьего аппарата . Леонид Городин в liberalizm : Дело не в том , чтобы демонстративно наказывать « негодяя » , а в том , чтобы менять систему . Лужков ― производное люмпенов . Это мэр люмпенов . нормальным гражданам не нужен Лужков .")
references.append("в ходе написания ходатайства : сделать его по образцу следственных постановлений из УПК . То есть , после заголовка -- вводную : я , подозреваемый по уголовному делу № ... , Пупкин В . В . , рассмотрев материалы уголовного дела № ...  , потом по центру  установил  , а потом -- изложение ходатайства . и изложение просьбы : уголовное дело прекратить , все изъятое при обыске вернуть , и т . п . Следователя , который получит такое ходатайство , должен неминуемо хватить Кондратий . И еще , если ходатайство из СИЗО , там в конце обычно приписка : В моей прозьбе прошу не отказать . А еще читал где-то в Фидо товарища , который для переписок с Государством сделал себе угловой штамп  типа как в ГОСТе.")
print(simpleword_count(references[4]))
example["ref_text"] = pd.Series(references)
example

132


Unnamed: 0,0,orig_word_count,clean_text,summary_text,sum_word_count,ref_text
0,Увидеть мысль\n\nЯпонским ученым удалось распо...,147,увидеть мысль японским ученым удалось распозна...,"как пишет yomiuri , группе сотрудников отделен...",34,группе учённых удалось восстановить изображени...
1,"Карбофос\n\nКарбофос ( O , O - Диметил - S - (...",122,"карбофос карбофос ( o , o - диметил - s - ( 1,...",в настоящее время вытеснен более совершенными ...,12,"Карбофос — фосфорорганическое соединение , инс..."
2,Киев идет на уступки : Яценюк передает власть ...,256,киев идет на уступки : яценюк передает власть ...,киев идет на уступки : яценюк передает власть ...,37,Исполняющий обязанности главы кабинета министр...
3,« Лужков . Итоги »\nКонец эры хозяйственника и...,2594,« лужков . итоги » конец эры хозяйственника ил...,пока борис немцов подсчитывал разницу между ст...,270,Опубликованный доклад Бориса Немцова « Лужков ...
4,... в ходе написания ходатайства : сделать его...,275,... в ходе написания ходатайства : сделать его...,"закончим , как и положено : &quot; на основани...",101,в ходе написания ходатайства : сделать его по ...


In [42]:
example['rouge 2'] = example.apply(lambda row: rouge_fill_df(row), axis=1)
example

Unnamed: 0,0,orig_word_count,clean_text,summary_text,sum_word_count,ref_text,rouge 2
0,Увидеть мысль\n\nЯпонским ученым удалось распо...,147,увидеть мысль японским ученым удалось распозна...,"как пишет yomiuri , группе сотрудников отделен...",34,группе учённых удалось восстановить изображени...,"{'f': 0.3291139192308925, 'p': 0.40625, 'r': 0..."
1,"Карбофос\n\nКарбофос ( O , O - Диметил - S - (...",122,"карбофос карбофос ( o , o - диметил - s - ( 1,...",в настоящее время вытеснен более совершенными ...,12,"Карбофос — фосфорорганическое соединение , инс...","{'f': 0.24999999760802472, 'p': 0.9, 'r': 0.14..."
2,Киев идет на уступки : Яценюк передает власть ...,256,киев идет на уступки : яценюк передает власть ...,киев идет на уступки : яценюк передает власть ...,37,Исполняющий обязанности главы кабинета министр...,"{'f': 0.16326530249433113, 'p': 0.342857142857..."
3,« Лужков . Итоги »\nКонец эры хозяйственника и...,2594,« лужков . итоги » конец эры хозяйственника ил...,пока борис немцов подсчитывал разницу между ст...,270,Опубликованный доклад Бориса Немцова « Лужков ...,"{'f': 0.029411761435986523, 'p': 0.01851851851..."
4,... в ходе написания ходатайства : сделать его...,275,... в ходе написания ходатайства : сделать его...,"закончим , как и положено : &quot; на основани...",101,в ходе написания ходатайства : сделать его по ...,"{'f': 0.14814814318287056, 'p': 0.161616161616..."
