### Task: Automatically build abstracts of text documents.

Input: An array of texts in JSON format. Sample texts are at example_texts.json.

Output: An array of abstracts in JSON format (the order of abstracts corresponds to the order of texts in the input data).

The maximum size of each of the abstracts is 300 characters (including white space). If the size of the abstract exceeds the specified threshold, then only the first 300 characters will be evaluated. A trivial solution (the first 300 characters of the document) is allowed, but not welcome.

You can briefly describe the solution in the first line of the download file after the # character. The information will be useful to the authors of the course to gain an idea of the methods and approaches used.

Rating: ROUGE-2 - proximity to a set of manually compiled abstracts based on bigrams of words (value from 0 to 1).

Input can be found at dataset_43428_1.txt

Output is at outdataset_43428_1.txt

In [1]:
import pandas as pd

df_json1 = pd.read_json('example_texts.json',encoding='utf-8')
df_json1[0][0]

'Увидеть мысль\n\nЯпонским ученым удалось распознать изображение , увиденное человеком , сканируя его мозг .\n\nКак пишет Yomiuri , группе сотрудников отделения нейроинформатики Международного исследовательского института передовых средств коммуникации ( Киото , Япония ) удалось восстановить изображение , увиденное человеком , опираясь только на сканирование электрических сигналов мозга .\n\nВ ходе эксперимента исследователи продемонстрировали испытуемым серию из 440 различных картинок , представлявших собой произвольное сочетание темных и светлых пятен , на 100-пиксельном экране .\nВ процессе демонстрации измерялась активность в зрительной коре головного мозга с помощью функционального магниторезонансного сканера .\nПосле этого испытуемым были показаны буквы , составляющие слово neuron , и элементарные геометрические фигуры .\nНа основе сравнения предыдущей серии изображений и показаний сканера исследователям удалось правильно реконструировать новые изображения по сигналам мозговой ак

In [2]:
from gensim.summarization import summarize
from nltk import tokenize
from rouge import Rouge 
import re

def clean_df(row):
    text = row[0]
    text = text.lower()
    text = re.sub(r'\n|\r', ' ', text)
    text = re.sub(r' +', ' ', text)
    text = text.strip()
    return text

def summarize_df(row):
    text = row['cleaned']
    sentences = tokenize.sent_tokenize(text)
    if len(sentences) == 1:
        return text
    summarized_text = summarize(text, word_count=40, split=False) 
    return summarized_text

def summarization_proc(df):
    df['cleaned']= df.apply(lambda row: clean_df(row), axis=1)
    df['summary']=df.apply(lambda row: summarize_df(row), axis=1)
    return df
df_json1_new = summarization_proc(df_json1)
df_json1_new.head()



Unnamed: 0,0,cleaned,summary
0,Увидеть мысль\n\nЯпонским ученым удалось распо...,увидеть мысль японским ученым удалось распозна...,"как пишет yomiuri , группе сотрудников отделен..."
1,"Карбофос\n\nКарбофос ( O , O - Диметил - S - (...","карбофос карбофос ( o , o - диметил - s - ( 1,...",в настоящее время вытеснен более совершенными ...
2,Киев идет на уступки : Яценюк передает власть ...,киев идет на уступки : яценюк передает власть ...,киев идет на уступки : яценюк передает власть ...
3,« Лужков . Итоги »\nКонец эры хозяйственника и...,« лужков . итоги » конец эры хозяйственника ил...,zt : « немыслим честный доклад о деятельности ...
4,... в ходе написания ходатайства : сделать его...,... в ходе написания ходатайства : сделать его...,потому что все пишут обычно на двойном тетрадн...


In [3]:
df_json1_new.cleaned[0]

'увидеть мысль японским ученым удалось распознать изображение , увиденное человеком , сканируя его мозг . как пишет yomiuri , группе сотрудников отделения нейроинформатики международного исследовательского института передовых средств коммуникации ( киото , япония ) удалось восстановить изображение , увиденное человеком , опираясь только на сканирование электрических сигналов мозга . в ходе эксперимента исследователи продемонстрировали испытуемым серию из 440 различных картинок , представлявших собой произвольное сочетание темных и светлых пятен , на 100-пиксельном экране . в процессе демонстрации измерялась активность в зрительной коре головного мозга с помощью функционального магниторезонансного сканера . после этого испытуемым были показаны буквы , составляющие слово neuron , и элементарные геометрические фигуры . на основе сравнения предыдущей серии изображений и показаний сканера исследователям удалось правильно реконструировать новые изображения по сигналам мозговой активности . з

In [4]:
df_json1_new.summary[0]

'как пишет yomiuri , группе сотрудников отделения нейроинформатики международного исследовательского института передовых средств коммуникации ( киото , япония ) удалось восстановить изображение , увиденное человеком , опираясь только на сканирование электрических сигналов мозга .'

In [5]:
df_json1_new.head()

Unnamed: 0,0,cleaned,summary
0,Увидеть мысль\n\nЯпонским ученым удалось распо...,увидеть мысль японским ученым удалось распозна...,"как пишет yomiuri , группе сотрудников отделен..."
1,"Карбофос\n\nКарбофос ( O , O - Диметил - S - (...","карбофос карбофос ( o , o - диметил - s - ( 1,...",в настоящее время вытеснен более совершенными ...
2,Киев идет на уступки : Яценюк передает власть ...,киев идет на уступки : яценюк передает власть ...,киев идет на уступки : яценюк передает власть ...
3,« Лужков . Итоги »\nКонец эры хозяйственника и...,« лужков . итоги » конец эры хозяйственника ил...,zt : « немыслим честный доклад о деятельности ...
4,... в ходе написания ходатайства : сделать его...,... в ходе написания ходатайства : сделать его...,потому что все пишут обычно на двойном тетрадн...


In [6]:
def rouge_fill_df(row):
    hypothesis = row['summary']
    reference = row['reference']
    rouge = Rouge()
    scores = rouge.get_scores(hypothesis, reference)
    
    return scores[0]['rouge-2']


In [7]:
references = []
references.append("группе учённых удалось восстановить изображение , увиденное человеком , опираясь только на сканирование электрических сигналов мозга. На основе сравнения предыдущей серии изображений и показаний сканера исследователям удалось правильно реконструировать новые изображения по сигналам мозговой активности . Работа японских ученых — большой шаг на пути реализации идеи прямого человеко-машинного интерфейса .")
references.append("Карбофос — фосфорорганическое соединение , инсектицид широкого спектра действия , акарицид . Применялся против комаров , мух , клещей , клопов , паразитов , повреждающих фруктовые деревья , овощные и декоративные растения . В настоящее время вытеснен более совершенными и безопасными для человека пиретроидами . Препараты на основе карбофоса остаются одними из самых эффективных средств борьбы против постельных клопов , весьма слабо чувствительных к прочим инсектицидам .")
references.append("Исполняющий обязанности главы кабинета министров Украины Арсений Яценюк пошел на серьезные уступки участникам протеста на востоке страны .На переговорах с главой МВД Арсеном Аваковым и Ринатом Ахметовым в Донецке он предложил серьезно расширить полномочия местных органов власти . Глава правительства считает необходимым ликвидировать областные государственные администрации , назначаемые президентом Украины . По его мнению , управлять территориями на местах должны исполкомы , которые будут избираться Областными советами . Глава правительства пообещал не отменять закон Колесниченко - Кивалова , от 5 июня 2012 года , позволявший использовать региональные языки . Цель переговоров в Донецке - разрешить кризис в регионе .Областная администрация Донецка по-прежнему находится в руках людей , объявивших в понедельник 7 апреля о создании Донецкой народной республики .")
references.append("Опубликованный доклад Бориса Немцова « Лужков . Итоги » вызвал немалый шум среди общественности . Мэр города Москвы сделал заявление о том , что одной из важнейших задач в деле модернизации России должно стать сокращение чиновничьего аппарата . Леонид Городин в liberalizm : Дело не в том , чтобы демонстративно наказывать « негодяя » , а в том , чтобы менять систему . Лужков ― производное люмпенов . Это мэр люмпенов . нормальным гражданам не нужен Лужков .")
references.append("в ходе написания ходатайства : сделать его по образцу следственных постановлений из УПК . То есть , после заголовка -- вводную : я , подозреваемый по уголовному делу № ... , Пупкин В . В . , рассмотрев материалы уголовного дела № ...  , потом по центру  установил  , а потом -- изложение ходатайства . и изложение просьбы : уголовное дело прекратить , все изъятое при обыске вернуть , и т . п . Следователя , который получит такое ходатайство , должен неминуемо хватить Кондратий . И еще , если ходатайство из СИЗО , там в конце обычно приписка : В моей прозьбе прошу не отказать . А еще читал где-то в Фидо товарища , который для переписок с Государством сделал себе угловой штамп  типа как в ГОСТе.")
df_json1_new["reference"] = pd.Series(references)
df_json1_new

Unnamed: 0,0,cleaned,summary,reference
0,Увидеть мысль\n\nЯпонским ученым удалось распо...,увидеть мысль японским ученым удалось распозна...,"как пишет yomiuri , группе сотрудников отделен...",группе учённых удалось восстановить изображени...
1,"Карбофос\n\nКарбофос ( O , O - Диметил - S - (...","карбофос карбофос ( o , o - диметил - s - ( 1,...",в настоящее время вытеснен более совершенными ...,"Карбофос — фосфорорганическое соединение , инс..."
2,Киев идет на уступки : Яценюк передает власть ...,киев идет на уступки : яценюк передает власть ...,киев идет на уступки : яценюк передает власть ...,Исполняющий обязанности главы кабинета министр...
3,« Лужков . Итоги »\nКонец эры хозяйственника и...,« лужков . итоги » конец эры хозяйственника ил...,zt : « немыслим честный доклад о деятельности ...,Опубликованный доклад Бориса Немцова « Лужков ...
4,... в ходе написания ходатайства : сделать его...,... в ходе написания ходатайства : сделать его...,потому что все пишут обычно на двойном тетрадн...,в ходе написания ходатайства : сделать его по ...


In [8]:
df_json1_new['rouge_2'] = df_json1_new.apply(lambda row: rouge_fill_df(row), axis=1)
df_json1_new

Unnamed: 0,0,cleaned,summary,reference,rouge_2
0,Увидеть мысль\n\nЯпонским ученым удалось распо...,увидеть мысль японским ученым удалось распозна...,"как пишет yomiuri , группе сотрудников отделен...",группе учённых удалось восстановить изображени...,"{'f': 0.3291139192308925, 'p': 0.40625, 'r': 0..."
1,"Карбофос\n\nКарбофос ( O , O - Диметил - S - (...","карбофос карбофос ( o , o - диметил - s - ( 1,...",в настоящее время вытеснен более совершенными ...,"Карбофос — фосфорорганическое соединение , инс...","{'f': 0.17821781704146664, 'p': 0.230769230769..."
2,Киев идет на уступки : Яценюк передает власть ...,киев идет на уступки : яценюк передает власть ...,киев идет на уступки : яценюк передает власть ...,Исполняющий обязанности главы кабинета министр...,"{'f': 0.16326530249433113, 'p': 0.342857142857..."
3,« Лужков . Итоги »\nКонец эры хозяйственника и...,« лужков . итоги » конец эры хозяйственника ил...,zt : « немыслим честный доклад о деятельности ...,Опубликованный доклад Бориса Немцова « Лужков ...,"{'f': 0.01785713816964409, 'p': 0.023809523809..."
4,... в ходе написания ходатайства : сделать его...,... в ходе написания ходатайства : сделать его...,потому что все пишут обычно на двойном тетрадн...,в ходе написания ходатайства : сделать его по ...,"{'f': 0.012345675000001303, 'p': 0.02222222222..."


In [9]:
df_json1_new.rouge_2[0]

{'f': 0.3291139192308925, 'p': 0.40625, 'r': 0.2765957446808511}

In [10]:
df_json2 = pd.read_json('dataset_43428_1.txt',encoding='utf-8')
df_json2.head()

Unnamed: 0,0
0,В Сербии арестован последний военный преступни...
1,АнтиПоттер\nРуководство по эксплуатации волшеб...
2,Авто по карману\nМихаил Прохоров собирается за...
3,В Казахстане состоялись выборы Президента\n\nВ...
4,В Москве подвели итоги Международной конференц...


In [11]:
df_json2_new = summarization_proc(df_json2)
df_json2_new.head()

Unnamed: 0,0,cleaned,summary
0,В Сербии арестован последний военный преступни...,в сербии арестован последний военный преступни...,"за информацию , способную помочь в поимке гора..."
1,АнтиПоттер\nРуководство по эксплуатации волшеб...,антипоттер руководство по эксплуатации волшебн...,мне уже говорили мои молодые коллеги и просто ...
2,Авто по карману\nМихаил Прохоров собирается за...,авто по карману михаил прохоров собирается зан...,интересы у олигарха михаила прохорова самые ра...
3,В Казахстане состоялись выборы Президента\n\nВ...,в казахстане состоялись выборы президента в во...,по предварительным данным опроса избирателей н...
4,В Москве подвели итоги Международной конференц...,в москве подвели итоги международной конференц...,в москве подвели итоги международной конференц...
